粉丝931获赞1.3万

今天这期视频重点想介绍一下谷歌 vs studio 与 gemini 网页端的功能差异以及使用场景。首先来看 gemini 网页端,可以看到它整体的设计非常的简洁,主要面向的是日常的用户。 它提供一些核心功能,包括深度调研,可以生成视频,生成图片,还有右侧画布展示区域,生成一些小的应用。它的思考模式里面有快速,还有三 pro 的 思考的模式。如果做一些简单的任务,都可以在 gemini 网页端满足你的需求。 如果你没有获得一年的 gemini pro, 使用的权限也没有关系,我们这里是没有权限限制去使用的。然后是 goglace studio, 虽然它的页面看起来更加的复杂,因为它是面向开发者的一个完整的平台,它的功能会更全,它可以去调试模型,也可以构建应用。调试模型就主要在 playground 的 应用里面, 看到 home 就 找不到聊天框,可以去点新应用,点新应用的时候其实就进入了别了的模式。如果你只是想去测试某一个大模型,或者是跟他 chat 聊天, 那么就可以选择 playground 的 功能。 playground 里面它是有 gemini live 图片、视频、声音的功能,精选的意思就是现在最流行的最新的一些更强大的功能。 gemini 是 gemini 系列, video 是 声视频, audio 是 声语音,都可以在这里直接去跟它聊天,也不需要收费。对于辩论的过程,这里有一个比较好的,这个就是不知道想生成一个什么样应用, 它可以给你一些灵感,在这里可以去选择模型,可以用现在最新最强大的,也可以试一试。二点五 flash 看一下之前生成过的一个应用,它是可以保存下来,就是跟 gemini 里面的 canvas 画布是一样的功能。左边是 chat 以及它的思考和写代码的过程。对于如果不是很懂代码,把它放到一个 txt 文件里面, 把它的后缀变成 h t m l, 也可以把它打开,这个功能会更加的完善,如果有想用的也可以滴滴我一下。

jemmy 三 pro 已经发布了近一个月了,我用下来的感觉是 amazing。 放心,我的视频里面不会出现那种什么三分钟生成一个会摇头的电风扇,或者一句话生成贪食蛇游戏这种看起来很炫但没有任何实际价值的内容。今天我要跟大家分享 jemmy 三帮我解决掉的三个痛点。先聊第一个痛点,我每周六都要给学员做答疑,所以每次我都要申请一个某讯会议, 然后把它的会议链接以及会议号复制粘贴到我写好的通知中,最后把通知发给我。某次忘记发通知 被学员在群里点名询问,就显得太不专业了。以前我就想着能不能做个工具实现全流程自动,我也问过 jamming 二点五,结果按照他教我的方法卡在了钓友某讯会 e a p i 的 环节, 因为没有权限导致流程跑不通,这下也就搁置了。但是 jamming 三 pro 上线以后,我又尝试着问了一次,然后他另辟蹊径的用扣子加飞出机器人帮我把这个流程跑通了。现在每周六下午五点半,我的飞出都会收到一条完整的会议通知, 我只用简单复制转发给学员就完事了,既不用繁琐的去申请和替换,也不用怕自己会忘记。第二个痛点是做视频过程中我最头疼的字幕生成和修改环节。我以前的工作流程是处理完口播以后,把音频扔到这个开源工具中去识别和生成字幕,但每次生成的字幕错别字很多,时间轴也总是不准, 需要在剪辑软件中至少花半小时去校对和调整。后来我在网上学了一招,原理是用一个高质量的提置词取代截屏,代替音频的识别,并生成一个准确率在百分之九十五以上的字幕文档,然后再用剪映的文稿匹配功能生成完美匹配时间轴的字幕,效果真的非常非常好。 我下期视频会详细的分享这个流程的具体玩法哈,感兴趣的小伙伴千万不要错过。但是这个工序还是很复杂,因为你要准备音频文件,然后扔到 gmail 三里面识别,然后整理成 t s t 文档,再打开剪映,一步一步的到文稿生成,中间的操作步骤也有小二十步, 其实也挺磨人的。后来我灵机一动,问 jammy 三 pro 这个流程能不能配合快客这个软件实现自动化,然后在他的指导下,我把原本需要我操作的几十步简化成了两步,我给大家看看效果哈,因为整个过程是只能横屏录竖屏视频,没法看到完整的界面,我尽量想办法给大家呈现自动化的全貌,大家多多理解哈。 最后这个视频大家看到现在有没有人发现我的声音其实是 ai 生成的? 是我这两周得了流感,嗓子基本发不出声音来。这个音频还真是 ai 生成的,用的就是我前几期视频分享过的本地部署的 index tds 二。实际上原版 tds 二生成的音频人机位还是比较重的。 为什么到我这里就很真实了呢?那是因为我借助 gemini 三 pro 对 我的 ai 模型进行了一场深度的个性化改造,改造目标很明确,那就是让声音和情绪无限接近我本人。但在改造前,我对具体从哪里入手,用什么方法完全一无所知,只是单纯的听说过,好像模型可以改造而已。 整个过程中, jammy 三 pro 扮演的不是一个给答案的老师,而是更像调试伙伴。我告诉他我想要的效果和遇到的瓶颈,他就去帮我查资料,验证方案的可 行性,然后我们一步步尝试。这个过程极度依赖沟通和迭代,我截图给他看报错,他给我分析思路,前前后后持续了好几天,克服了上百个难题才跑通。而且这个过程会因为每个人电脑配置不一样,导致每个人的改造过程都不一样,遇到的问题也绝不会相同,所以根本没法通过统一教程解决所有问题。哈。 我分享这个经历,不是教大家怎么去微调模型,而是想展示前面的三 pro, 在 应对这种开放复杂、需要持续探索的个性化需求时,探 索展现的规划、学习和解决问题的能力。它让我觉得我不是在操作一个工具,而是在和一个高段位的技术外脑共 同共观。经历过这几天以后,我觉得那种什么一分钟让他做个网站出来,简直是在侮辱他的能力。如果你有各种天马行空的点子,却苦于无人帮你实现,试试 jamie, 来三 pro 吧,你会认同我的。 ok, 那 以上就是本期视频的全部内容了,我是灵异研究所的阿 k, 咱们下期视频再续前言。