jemmy 三 pro 已经发布了近一个月了,我用下来的感觉是 amazing。 放心,我的视频里面不会出现那种什么三分钟生成一个会摇头的电风扇,或者一句话生成贪食蛇游戏这种看起来很炫但没有任何实际价值的内容。今天我要跟大家分享 jemmy 三帮我解决掉的三个痛点。先聊第一个痛点,我每周六都要给学员做答疑,所以每次我都要申请一个某讯会议, 然后把它的会议链接以及会议号复制粘贴到我写好的通知中,最后把通知发给我。某次忘记发通知 被学员在群里点名询问,就显得太不专业了。以前我就想着能不能做个工具实现全流程自动,我也问过 jamming 二点五,结果按照他教我的方法卡在了钓友某讯会 e a p i 的 环节, 因为没有权限导致流程跑不通,这下也就搁置了。但是 jamming 三 pro 上线以后,我又尝试着问了一次,然后他另辟蹊径的用扣子加飞出机器人帮我把这个流程跑通了。现在每周六下午五点半,我的飞出都会收到一条完整的会议通知, 我只用简单复制转发给学员就完事了,既不用繁琐的去申请和替换,也不用怕自己会忘记。第二个痛点是做视频过程中我最头疼的字幕生成和修改环节。我以前的工作流程是处理完口播以后,把音频扔到这个开源工具中去识别和生成字幕,但每次生成的字幕错别字很多,时间轴也总是不准, 需要在剪辑软件中至少花半小时去校对和调整。后来我在网上学了一招,原理是用一个高质量的提置词取代截屏,代替音频的识别,并生成一个准确率在百分之九十五以上的字幕文档,然后再用剪映的文稿匹配功能生成完美匹配时间轴的字幕,效果真的非常非常好。 我下期视频会详细的分享这个流程的具体玩法哈,感兴趣的小伙伴千万不要错过。但是这个工序还是很复杂,因为你要准备音频文件,然后扔到 gmail 三里面识别,然后整理成 t s t 文档,再打开剪映,一步一步的到文稿生成,中间的操作步骤也有小二十步, 其实也挺磨人的。后来我灵机一动,问 jammy 三 pro 这个流程能不能配合快客这个软件实现自动化,然后在他的指导下,我把原本需要我操作的几十步简化成了两步,我给大家看看效果哈,因为整个过程是只能横屏录竖屏视频,没法看到完整的界面,我尽量想办法给大家呈现自动化的全貌,大家多多理解哈。 最后这个视频大家看到现在有没有人发现我的声音其实是 ai 生成的? 是我这两周得了流感,嗓子基本发不出声音来。这个音频还真是 ai 生成的,用的就是我前几期视频分享过的本地部署的 index tds 二。实际上原版 tds 二生成的音频人机位还是比较重的。 为什么到我这里就很真实了呢?那是因为我借助 gemini 三 pro 对 我的 ai 模型进行了一场深度的个性化改造,改造目标很明确,那就是让声音和情绪无限接近我本人。但在改造前,我对具体从哪里入手,用什么方法完全一无所知,只是单纯的听说过,好像模型可以改造而已。 整个过程中, jammy 三 pro 扮演的不是一个给答案的老师,而是更像调试伙伴。我告诉他我想要的效果和遇到的瓶颈,他就去帮我查资料,验证方案的可 行性,然后我们一步步尝试。这个过程极度依赖沟通和迭代,我截图给他看报错,他给我分析思路,前前后后持续了好几天,克服了上百个难题才跑通。而且这个过程会因为每个人电脑配置不一样,导致每个人的改造过程都不一样,遇到的问题也绝不会相同,所以根本没法通过统一教程解决所有问题。哈。 我分享这个经历,不是教大家怎么去微调模型,而是想展示前面的三 pro, 在 应对这种开放复杂、需要持续探索的个性化需求时,探 索展现的规划、学习和解决问题的能力。它让我觉得我不是在操作一个工具,而是在和一个高段位的技术外脑共 同共观。经历过这几天以后,我觉得那种什么一分钟让他做个网站出来,简直是在侮辱他的能力。如果你有各种天马行空的点子,却苦于无人帮你实现,试试 jamie, 来三 pro 吧,你会认同我的。 ok, 那 以上就是本期视频的全部内容了,我是灵异研究所的阿 k, 咱们下期视频再续前言。
粉丝1023获赞6599


说出来你可能不信,搜索量最高的 gmail 三在国内如何免费使用?居然没有人讲解今天这条视频我就来教你 如何在国内免费使用上 gmail 三。首先咱们只需要打开自己电脑里的谷歌浏览器,打开之后呢,在输入框里输入 as 丢丢搜索完成之后,咱们只需要点击这个 google as 丢丢进入谷歌的官方搜索就可以了。 然后咱们选择第一个 gmail 三 pro 这个模型,就可以直接使用它了。如果看不懂的话,咱们可以右击把这个页面翻译成中文就可以了。在左侧 build 里面可以输入自己的需求,比如说我要做一个齐默大作业,然后就可以输出了。
