呃,哈喽,我今天想来分享一个,我用 jimi nike 的 最新的 live 的 接口实现了一个,呃,可以做到几乎能够做到同声传译这样的一个效果的,这样的一个发音的应用叫做闪电快译,它主要是帮助生活在海外的华人,可能出去办事啊什么的时候会比较好用? 我,我们先看一下这个应用它能做到什么样的一个翻译的效果。我现在选的是中文日文,然后我们先来测试一下。呃,今天天气很好,我想出门去散步。 呃,我下午下班以后很累,就想直接回家睡觉了。 国国下班一个晚自噶的九个赛次,夜里看一点的打一点是。呃,这个空调是什么呢?咖啡哇,阿里玛斯卡 附近有推荐的咖啡店呢。 这个应用非常方便,很好用,而且不光是中文跟日文。我们来试一下不同的其他的语言的翻译。举个例子,你可以试一下韩语啊,我第一次来韩国,嗯,韩国有什么值得好玩的地方推荐吗? 我们,我们再试一下。举个例子,可以翻译一个英文吧,英文可能大家都比较熟 啊。我想点两个汉堡,然后三个薯条,再要两个可乐。 i'd like to order two hamburgers, three fries and two colas um。 今天旅馆的价格会有优惠吗? uh will there be a discount on the hotel price today。 所以 我们可以看到它整个的这个 翻译效果是特别好的,然后他几乎能做到帮你在海外生活或者是工作。呃,或者是旅行的时候能够没有障碍的跟这个人沟通。 呃,在这个 app 里面,实际上我之前做了一个 demo, demo 大 概花了一天左右的时间,然后我就发现效果很好了,以后我就决定把它做成一个产品,然后花了一周左右的时间把它从一个 demo, 然后做成现在的产品的样子。 呃,我在里面还集成了一个,呃,我们翻译功能,这个其实是来源张咋拉做的一个,呃,他他做的一个个人词典,然后我觉得他那个词典做的非常棒,所以我我也做了一个类似功能。举个例子,如果你在你想翻一个日语,比如说你想知道土豆怎么说 假大一幕,然后你你就可以看到他的解释,他的日文,他的假名,然后他的图片,他教你怎么记忆,然后以及说他的例句,然后这些他其实,呃能够帮助你学语言的时候,能够非常好的 去了解每一个不同的单词包,包括比如说菠菜,你可以看他图片,然后你就能哎记的比较准一点,然后他这个里面还有非常好的这个日文的发音,因此的话你也可以训练你自己的发音。 他这个 app 其实主要就是帮助大家在海外的时候,工作或生活的时候翻译啊,还有这个实时对话,因为,呃,其实其实如果你请一个专门的翻译人员是挺贵的。我在日本今年请过两个翻译同学,大概一个下午的价格是一万多元左右, 呃,五百人民币。所以实际上如果你经常去办很多复杂的业务的话,你还是得有一个能够翻译的这个应用的话比较好好用。现在有没有类似应用呢?呃,非常非常少,而且就算有也非常贵。我之前买过一个大概月费是三百人民币左右, 嗯,就就是我当然我也理解它的成本非常高,因为我做这个 app, 我 发现成本的确挺贵的,但是还是真的三百人民币一个月,还挺贵。呃,这个 app 呢?我们推我其实做两个,呃,这个 方案付费,要么的话可以用会员制或者是授权,就是一次性买断的这个呃,然后使用自己的金奶,可以这样的方案我我先说一下这个 app 的 成本,我自己的成本我自己核算了一下,大概是一点零七美金一个小时的翻译的成本, 所以还是挺贵的,所以我没有办法提供一个特别便宜的价格。如果是采用会员制的话,基本上是一个月十个小时,然后大概是十五美金左右,然后能够提供十个小时的翻译, 然后如果你采用买断字的话,你可以一次性买断,买断完了以后,你就可以填入自己的 gmail key, 然后以后所有的这个 翻译都走 gmail 的 key, 你 自己的 gmail key, 然后你给 google 去结算成本就好了,这样的话你使用多少的话,呃就扣多少钱,这样其实也是比较划算的,我也是比较推荐,大家可以考虑。如果对这个呃海在海外生活这些对翻译有要求的同学,其实可以 用呃购买这个授权式的,然后授权式的费用呢,也也不贵,就是呃大概三十四美金左右,然后呃你购买了以后以后,你所有的这些成本,其其实就是进不来自己的成本了。 然后我觉得这个 app 应该是能够非常好的帮助到大家在海外的生活还有工作或者是办事的。好了,就这些。
粉丝168获赞164

gm 接入微信秒变智能客服完整版教程,小白也能上手,全程可视化操作,可直接指定用户进行回复,可以随意定制人设,还可以接入群聊做客服使用。周五老张带大家来一期硬核更新。 老规矩,第一步还是先安装环境,我们搜索 python 进入官网,注意不要直接下载最新的三点一四版本,因为这个程序他默认兼容的是三点九到三点一二,比如老张现在电脑上安的是三点一三版本,他都会检测出兼容问题, 所以在这个位置当录的找到所有版本,我们直接找到版本往下拉,咱们直接下载三点一点九的这个版本,选择当录的,找到适合你电脑系统的下载程序, windows 或者 mac 选择下载。 为了方便给大家进行录制,我还是先卸载之前的拍摄环境,卸载完成之后直接双击拍摄安装包,注意一定要把这个路径勾选上,然后选择以此到 now。 接下来我们直接打开程序本体, 选择 run, 点 bet, 它会先叫验我们当前对应的环境,然后去下载需要的相关依赖,这个位置大家不要去管它,让它自行下载即可, 如果没有报错的话,它会自动的打开我们当前的地址, local house 冒号五千。接下来就可以直接进入配置了,老张先教大家最基础的配置方式。首先第一步需要先对接一个 api, 所谓的 api 呢,就是我们要对接哪个 ai 应用,我们可以直接使用官方推荐的为 a p i s 点没有账号的可以直接注册一个账号, 注册新号之后呢,它会给我们一个五毛钱的余额供我们进行使用,在模型广场中啊,一共有七十三个大模型,可以直接用来使用。我们回到控制台, 然后可以先做一个简单的账户充值,因为我们玩的话,你充个几块钱也能玩好长时间。我们先充个十元,然后点,然后我们找到令牌管理促使化有一个令牌密钥,我们把这个密钥复制一下, 如果需要多个,你可以选择添加令牌。然后我们回到快速上手配置,然后把 api 直接粘贴到这个地方。 第二项用户列表,就是我们想让机器人和谁进行对话,并且给他提供什么样的一个角色定位,一会我们在整体配置时,咱们再完成这一步, 然后关于其他功能,一会老张再详细给大家进行介绍,我们先点击保存并进入完整配置页面。接下来老张先简要介绍功能。第一用户列表就是你要监听的客户信息,就是和谁对话,你要使用对应的 机器人做监听。比如现在老张登录的微信是自己的小号,我要和我自己的大号张仲楠进行 ai 对 话,那这个位置输的就是我要监听的张仲楠,就是你要监听的客户名称。 然后这块儿选择一个对应的 ai 角色,这个角色就是你让他扮演什么样的一个身份,就是我们常说的 property 身份定义,我们可以直接进入到 property 管理,它自带了两个角色,我们看一下编辑, 他给我们提供了一个提示词,编写的逻辑就是任务,让他做什么角色,让他扮演谁,然后外表啊,经历性格都可以进行相关的教验,然后输出的势力就是他怎么样,什么样的方式和我这个人进行对话 啊,喜好是什么?包括备注,就是我们需要注意哪些事项,然后特殊消息回复,怎么去回复。其实说其实这就是你将来把你的 ai 做一个标准化的角色固定,对于小白来说,如果您不了解题时怎么编辑?没有关系,我们用魔法打败魔法, 咱们随机打开一款 ai 工具,让他仿写一下这个提示词,就描述我的需求,咱们就简单写,让他把提示词里的那个人换成老张,然后老张的身份是什么,然后把提示词发过去, 然后将调整好的内容直接复制,然后把文件名称改成老张,直接选择保存。 现在一个新的角色就已经定位成功了,那么我们再返回用户列表,我们再和张仲楠那个用户进行对话时,我们直接使用老张的身份选择添加, 这样的话他就能自动监听到。但凡是张仲楠这个用户来找我对话,我就用老张的身份进行回复,是这样的一个逻辑,我希望大家可以记清楚。然后我们再进行第三项,就是当前对话的模型选择,我们看一下这个模型非常丰富啊,基本上市面上的全都在, 而且呢,他还告诉我们带星号的收费都是比较高的,那么我们就用 g m 三 pro 来试一下,看看他有多强大。 前三项配置完成就可以直接投入使用了啊,后面的配置咱们一会再讲解,我们现在把你刚才登录的微信退出, 退出完成之后登录微信,不要着急启动啊,先登录,然后选择启动,观察他的命令行窗口,只要不报错就开始啊。我们对话了,兄弟们啊,主要是看他什么呢?主要看他像不像人,哈哈哈, 我们看到给他说了个你好,老张,他回了一个这个开心的话术,然后就来了一个。早啊,刚调通了一个 transform 模型,跟他说一下,说我昨天看到了 jamie 三 pro, 很 厉害啊,能对接到微信里吗? 嗯,他还自动会用拍拍拍来进行啊,他还使用了一个拍拍功能,这次分成了五段来看。这位主分段回复分成了五段, 让他先把 api 文档吃透,你看还是很专业的嘛,对吧,还知道让人家看看看这个 api 我 上周刚踩过坑,微信接口限制太多,所以大家看啊, ai 还是很专业很好玩的,只要你把人设定好,你看它就是一个程序员的人设。让你先看 api 文档啊,然后我踩过什么坑, 微信接口限制太多,还是很有逻辑性的好,那我把机器人先停掉啊,然后在这。老张再说一下,如果兄弟们你想第一次测试稳定的话,还是跟他官方一样,先用这个模型,这个是测试最稳定的模型啊。然后老张再把左侧的功能列表带大家去顺一下。首先第一 图片表情包识别,这个看你是否需要啊,如果需要的话可以勾选,如果不需要的话呢,可以把它取消掉,因为图片识别特别的 费钱,特别的贵。联网搜索功能是否需要,就是他是否可以搜索当前最新的消息。如果你只想当一个客服,或者想简单聊天的话,我不建议大家开启主动表情包配置。 主动表情包就跟老张这个一样,别人跟我们说话,我们要不要发一个表情包过去啊?这个根据你的需要进行选择即可,然后他所存放的表情包都在我们这个文件里 啊,这个文件中你如果有其他的表情包,你可以做一个简单的替换啊,比如说我有一些专属的表情包,能符合我个人的,别人一看到这个表情包就知道是我的啊,在这把这个表情包都替换掉。群聊消息呢?接收满足群消息,或者接收所有群聊消息。 接收满足群消息,就是当有人艾特他时,他会触发,然后还有一些关键词回复啊,如果说群消息包含关键词,他都会进行相关的回复,内容回复间隔,这就是我们模拟的打字速度了。 临时记忆功能啊,就是我们 ai 对 话的上下文结构保存,如果你是做销售,需要和客户进行大量的这种匹配式沟通,那可以把它调大一点。如果说只是我们简单的聊天来说啊,上下文之间影响不大,就简单设置小一点就可以 啊。主动消息配置,就是主动的给对方去发消息啊,如果你是做销售的,每段时间可能需要打扰人家一下,对吧?把这个加上, 然后定时提醒功能,你可以在这进行你自己的内容填写,然后其他的都是一些比较简单的,大家都可以自行进行尝试了。所以你看有了这个工具之后, ai 接入微信就变得非常轻松,非常简单了。 重点在于我们的 property 关键词的相关填写,我是程学老张,定期分享 ai 知识和好用的软件推荐,希望大家多多关注。

如何使用上这个 gmail 三模型呢?其实非常简单,咱们只需要打开自己电脑里的谷歌浏览器,然后新建一个窗口页面, 在输入框里呢,咱们可以输入这个 n s 丢丢,搜索完成之后呢,咱们只需要点击这个 google n s 丢丢,进入谷歌的官方研究所,看到了吗?第一个 gmail 三 pro 的 模型,点击一下就可以使用它了,然后右击把这个页面翻译成中文,如果你看不懂英文的话, 咱们在左侧呢,可以找到这个 build, 点击一下它,在这里看到输入你的想法,比如说我要做一个贪吃蛇游戏,然后在左侧就可以点击 build 去创建了,非常的方便好用,而且都是免费可以体验的。

很多同学在评论区里问怎么使用 g m i 三,今天我一个视频讲清楚,让大家都能体验到科技带来的便捷。 我使用的软件是 cherry studio, 这是一款极多模型对话,巴拉巴拉巴拉的全能 ai 就 小平台,打开软件就是这个样子。我们点击右下角设置,在搜索模型平台最下方,点击添加 手动输入提供箱名称,选择提供箱类型为 g m i, 点击确定。然后在我们的第三方平台中把密钥和地址分别粘贴, 注意密钥获取方式,关注后进粉丝群自取。这里不亮说,点击管理按钮,可以看到有两个模型, g m i 二点五和 g m i 三。 点击右边的加号,把 g m i 三添加进去,关闭对话框就可以看到 g m i。 三已经添加了,然后我们点击检测, 等出现成功后,就可以开心使用 g m i 三了。另外这个第三方平台可以选按刺绣计费和按 token 计费,我使用下来感觉按刺绣计费比较划算,希望大家都能体验到科技的力量。

我看到笔记本电脑的屏幕显示着代码或命令行界面,是在进行编程或其他操作吗? 这个页面显示的是 google gemini。 你 是想咨询关于 gemini 的 问题还是其他的内容呢? 当前的网页显示的是 google gemini 的 界面,您正在与 gemini 进行交互,请问有什么具体的问题想要讨论吗? 抱歉,我之前没有准确识别。现在看到的页面是类似推特的平台,左侧有 home 等导航栏。你是想了解这个网页的内容吗? 您点击的是 home, 也就是主页选项,这会带您回到您的主要信息流。 您现在点选的是 rock, 这是平台上的一个特定功能,您是想了解它的用途吗? grac 是 一个结合了人工智能的功能,可以提供实时新闻和趋势分析,还能以更有趣的方式进行互动。您是对哪方面感兴趣呢? 抱歉,我目前还不能直接进行三 d 动漫人物的生成,不过我可以帮您找找相关的工具或方法。您对哪种风格比较感兴趣呢?

很多人说上期的 jamming 三视频不能使用,今天我就帮大家解决这个问题。首先我们打开电脑自带的 a 级浏览器,找到这右上角的三个点,下滑,选择 扩展,点击获取 macsoft 扩展,进入页面后,再到这里的搜索框,输入 delete, 按回车键进行搜索,然后在下面呢显示结果中找到这个 delete, 查看 gpt 侧边栏, 点击旁边的按钮后,页面就会显示询问提示,此时我们再点击拓展按钮,等页面显示添加成功后,再点击查看拓展,进入小页,找到这个在右边栏打开的小图标,网页就会弹出对话页面,我们只需要下滑页面,找到切换模型按钮, 就可以看到节目。那三已经准备就绪,你就可以随时随地的使用了。关注皮皮,每天解锁一个逆袭小技巧!


好的,朋友们,这边是大卫,那今天想要跟大家去介绍一下怎么在 obsidian 里面去装上 cly 工具,直接使用 cly 来来 obsidian 里面去帮助我们去对我们的文章进行分析,帮我们将文章去进行润色啊或者之类的, 可以发挥你的想象力,你其实可以去做到很多很多的事情。那为什么会去想要在 opposite 里面去用这个开工具呢?第一个的话就是你在里边可以用 germanic 啊,用 glocal 啊等等都可以,然后如果说你是用的 germanic 的 话, 在现在来说它是不付费,你也是可以正常去使用的。而且第三个是它是一个原声中段使用,那它可以直接读取你的整个仓库的结构。可能有朋友会问,哎,我在 office 里面我已经装了 coplan 的 插件,我已经配置好了对应的 ai, 我已经啊在 op 系列里面有对应的 ai 能力可以让我去使用了,为什么我要舍弃球员要去装这个东西呢?几个点。第一个的话就是你原来装的 copilot 这种,它只是一个插件,而且呢它只是对话式的, 也就说你可以跟他去沟通,让他可能帮你去扩写你的内容,帮你去 分析你的文章,但是它其实并不能直接去编辑你的文章。如果你用 fly 工具的话,它是可以直接读取你的文件目录你的文件,甚至可以直接帮你去修改笔记,如果你聊好了之后,你可以让它直接帮你新建一个文件。那第二个的话就是 里面我们现在用这么的可爱的话,他是可以直接使用最新的模型的。第三个的话就是刚才说到的啊,你其实可能不需要用鼠标点点点了,你在里面跟大家聊天对话,然后他可以用各种命令去对你的笔记去进行管理。 好,那接着呢,我们来看一下啊,怎么样子去安装。当然首先你需要去装 jimmy klein 或者是用 qq, 你 偏向于用其他的开工具的话,你按照网上的教程对应的去安装就可以了。那现在这里呢,比方说我要装这个 jimmy klein, 我把我的 terminal 调出来,你把这条命令复制粘贴进来,一按回车,它就会自动地去安装。那安装好了之后呢,就会到下一步 怎么样在 o c d 里面去进行集成?因为,呃你刚才的安装的话是只是在你本身 那个终端啊,那个本台的那个系统里面,我想要在我 c 店里面去使用。那首先第一个呢,你要在社区的插件市场里面去安装这个叫做 tommy 的 这个插件,你直接搜索安装就可以了。安装好了之后呢,可能会有一个问题,就是 windows 插件它没办法去读取系统的那个路径变量,那你在里面输入了要用这面来的那个命令之后,它可能会显示 command 的 话,我们需要用一个 nano 命令将这个配置呢写入到系统文件里面去。 那第一个就是打开那个配置文件,将这个环境变量呢直接粘贴进去,然后就保存,再呃跑一下这条命令就可以了,跟大家去演示一下,比方说先重启一个文档, 我这里其实你会看到我已经配好了,已经配在这里了。所以呢,其实如果你要配的话也是啊,打开这条命令,然后把光标移动到最后一行,把这个这个路径给它粘上去就可以了。 然后做好了之后呢,怎么样去使用?就是在 offscreen 里面告诉他们有插件就可以。从圣诞节开始。呃,谷口宣布了,不管说是普通用户还是 ai pro 的 用户,他都是可以去使用 jimmy 三 pro 的。 当然他两者之间稍微有一些差异,就是说对于普通用户的话,他的额度啊啊,他的那个数据限制啊,会比 ai pro 的 用户的限制会更多一些。好的,那其实讲了这么多,我们 来实际的在 o c 点里面去跟大家去演示一下啊,比方说我现在的这篇文章,好,我现在已经装好了透明的插件了,然后我现在是把它放在呃左边侧边栏这里, 它就在我的侧边栏这边出来了。好,假设说我用 gmail, 我 就输入 gmail, 它就会去调用,稍微等一下啊,好,你看它已经跑出来了。然后呢,如果说你想在里面去登录,当然如果说你是第一次进来的话,它会提示你去进行那个授权, 或者你登录了之后,你想再去更改。那其实你可以输入这个 os 命令,然后它就会啊出来这样几个选项去选择。那这里呢,会有几个选项?第一个就是用 gmail 的 a p i t。 那我推荐的话是用啊 google 账号去登录,如果说你有就买你的 ai pro 会员的话,你就用你的那个 pro 会员的那个账号来登录就可以。好,登录了之后呢,首先是在 settings 这里, 要把这个 preview feature 这个设置成 true, 设置好了之后呢,你就可以通过 model 的 这个命令 啊去选择。比方说我现在是选择 auto, 我是 gmail 三,它会在 gmail 三 book 和 gmail 三 flash 之间根据实际的需要,它会自己去决定选择用哪个模型,当然你也可以指定,比方说第三个 menu 这里 选择,我全部都是只用 iphone 三 pro preview 的 这个魔镜。那我现在都还是让它保持 auto, 那 来实际演示一下它怎么样去用呢?比方说我让它去分析我这篇文章,我想看一下我现在放的这些 tag 是 不是已经足够。好, 我现在就打文字给他,帮我帮我分析, 看看当前的 tag 是 否是否足够提。呃,表达文章的内容, 然后他现在就会去查看。查看之后呢,他会回对应的结构给我们。稍微等一下下。好,他找到这篇文章了。好,现在在读这篇文章的内容, 他在读完之后,现在再给我们提建议。 好,你看他其实对应的分析已经出来了,比方说我们当前的 tax 是 guides, 省钱啊,技巧,效率,生活税率。然后他觉得说缺少核心的主题,就是因为我这篇文章是昨天写的,就是去香港开户之后办港卡的一个复盘。然后呢,他建议 啊,想表现这种香港开户效率经验复盘。然后现在呢,他给我去更新,然后如果说我同意的话,我就点,我就同意,然后同意了,然后他现在就会去给我去更改。 好,它已经更改完成了。 ok, 你 看到了吗?现在只是一个简单的演示,它帮我去改了它以相应的 type。 它其实也可以去分析我的文章,包括说假设你在 opposite 里面定义了一个呃,工作流的话,它其实可以帮你去直接写文章。举个例子来说, 帮我根据 wechat writing assistant 去启动这个工作流。 好,他会去找我之前定义的这个工作流,然后去启动。 好,你看他其实已经找出来这个工作流,然后我可以提供输入,他就可以直接去进行操作。 ok, 这是一个简单的演示,实际上每个人其实你会有每个人自己不同的经验,你可以根据你的实际的情况去进行使用。以上就是今天的用,谢谢大家,拜拜。

风车心灵宝石二点零做了一个更新,修复了已知问题,聊天窗口不能最小化的问,加入了图片工具,可以选择图片,回车后模型会自动查看这个图片。加入了记忆按钮,我们可以在这里定义规则, 每次回复,现在的规则是每次回复双语回复使用中文和日本语言,日本语我们看的更明显一些。加入了项目信息功能,可以在这里自定义这个项目信息。用户偏好,这里可以注视代码的风格,比如注视 代码使用英语历史栏,这里会自动去总结和 ai 对 话的摘药在里面。下次打开项目以后,可以随时查看历史来了解整个项目的过程。设置好以后,点击全部保存就可以将规则 制定好。记忆按钮的功能最大化的扩大了我们对项目把握的自由度。视频的开头我们选择了一个图片,这里模型也成功的识别了这个图片的内容,可以点击 i d e 里面的这个图片,在左边就可以直接预览这个图片。这个象棋的游戏和其他游戏不一样,它的规则 比较多,所以他创建的时间比较,已经将任务做到了五分之三。我们来看一下这个 qio, 刷新一下还是八十四积分,没有任何的变化。我们通过心灵宝石发送给 ai 的 提示词,这里也加入了 一些优化,可以在其他 ide 里面减少 token 的 消耗。关键词发出去以后会默认做出压缩,规则也不是这种通过对话框的方式给它制定规则是通过服务的文件。 note 四 f 已经将这个相机游戏制作完毕, 我们来试一下,好,没有什么问题啊,效果特别的棒。可以看到 ide 里面一直在遵守这个双语的规则,告诉我们已经制作完毕。点击记忆里看历史,发现这里没有这个 刚才对话的记忆,是因为我们的这个工具没有重启。选择结束对话, ide 里面就会和 模型说再见。看一下积分消耗,创作了一个象棋游戏,消耗了零积分,下次再调用工具的话,还是输入 mind store 这个命令,就会自动调用这个工具。 查看记忆,查看历史。可以看到在这个时间段我们创作了象棋游戏。有了一个简单的摘要,关于灵宝石这个插件,可以访问伯克地址, 查查密点昂烂找到右侧心灵宝石相关的文章,可以自助下载或点击右上角的免费或我们将这个话也发给他来结束我们的视频。 windows 模型帮我们访问这个网站, 在右侧找到了相关的文章,文章的所有的标题内容都已经显示出来了。心灵宝石优化以后非常的好用,不光节省 top, 而且在对项目的把控 有更高的自由度,在所有 i, d, e 里面都可以使用,免去了我们复杂的去设置英文界面里面的一些规则记忆,而且还节省了 token, 减少了积分的消耗。

来,大家准备好了吗?咱们今天要聊的这个技术,可能会彻底改变我们用电脑的方式, 没错,就是谷歌的 gmi 三点零。而且啊,我得先强调一下,这可不只是又一个 ai 模型那么简单,它是一种全新的智能体,一种能真正为你动手干活的 ai。 你 来想象一下这个场景啊, 你再也不用自己去手动去点鼠标敲键盘费劲的搜索了,你只要动动嘴,告诉电脑你想要什么,然后就看着它帮你搞定一切。我知道这听起来是不是有点像科幻电影里的情节,但你猜怎么着?这事现在真的要成真了。 对,你没听错,我们今天说的可不是那种帮你写写邮件,回答个问题的普通 ai。 这是一个代理,或者说 agent, 一个能实实在在帮你动手操作电脑的智能题。那么问题来了,这个所谓的代理,它到底是个啥呢? 嗯,可以说我们正在进入一个全新的时代,在这个时代里, ai 不 仅仅能听懂我们说话,它还能,嗯,直接动手干活儿。那我们就来看看这个所谓的计算机使用代理到底是怎么一回事。 简单来说呢,这个 ai 呀,它能真正地看见你的屏幕,你屏幕上有什么按钮、表格、文字,它都能理解。然后呢,它就能像咱们人一样,自己去移动鼠标,点击输入。 最关键的一点是啥呢?它不是通过那种复杂的后台代码去操作,完全不是,它是直接在我们每天都用的这个图形界面上实打实的进行操作。 听起来是不是很厉害,对吧?但是光说不练假把式,咱们得看数据,接下来就让我们用数据说话,看看这个 ai 代理的大佬到底有多强。 好,咱们来看这些数据啊,这些可不只是冷冰冰的高分,你看,在像 m、 m u pro 这种顶级的多模态理解精准测试里, gemini 三点零 flash 的 分数高达八十一点二帕,而在屏幕理解这个专项上,也达到了六十九点一帕。 这说明什么呢?这说明在看懂屏幕这件最基本也最重要的事情上,它已经把很多市面上顶尖的专有模型都甩在身后了。 而且啊,他不光是聪明,你看在一个综合评估准确性和速度的测试里,他排到了第一名。 这一点真的真的直观重要。为什么呢?因为它意味着 germany 三点零不仅能把事情做对,他还能做得又快又好,准确性和速度他全都要。 好了。好了,理论和数据咱们看的差不多了,是时候见真章了。咱们现在就来看看这个代理在实际操作中到底有多厉害。咱们先从一些简单的日常任务开始, 你看,这个指令就非常直接,非常生活化,去我的 youtube 频道帮我找到最受欢迎的那个视频,这种事儿咱们自己肯定都干过,对吧?那来看看 ai 是 怎么做的? 这个对比简直是太直观了,你看左边以前的模型呢,就有点蒙,在页面上找不着北。 但是你再看右边 gemini 三点零代理,嗖的一下,不光是快速找到了频道,它还能真正理解最受欢迎是个什么意思,然后准确地去点击那个热门标签。你看,这就是真正的上下文理解能力。 好,那咱们现在加大点难度,想象一下,你有一个乱七八糟的数字白板,上面贴满了各种各样的便利贴任务,现在的任务就是让 ai 来把它给整理好。 你看它的处理流程,就特别像我们人脑在思考,第一步它看到所有的便利贴, 第二步他去阅读上面的文字,然后呢,他会自己去思考这些任务应该怎么分类,最后就跟我们自己动手一样,把这些便利贴一个一个的拖到正确的位置。这可不是什么预先设定好的脚本,完全不是,这是真正的实时动态推理在起作用。 准备好了吗?终极挑战来了,这是一个相当复杂的多步骤研究项目,它需要 navigation 阅读理解,最后还要整理信息,一步都不能错。 说真的,这个流程简直让人惊叹,它不光能在一个复杂的大学网站里来去自如,还能同时处理网页、日历甚至 pdf 文件里的信息。 而且他用的是语义推理,说白了就是他能真正理解词语背后的意思,来判断哪些活动是和 ai 相关的,然后他会把所有关键细节都提取出来。最后也是最关键的一步, 就是把所有零散的信息整理成这样,一个干干净净、一目了然的表格。你看,就这完美的展示了它是如何把一个特别繁琐的研究工作,直接变成一个结构清晰拿来就能用的成果。朋友们,这就是 ai 代理的真重力量, 看到这里你心里肯定在想,哇,这也太酷了,我怎么才能用上呢?别急,好消息是你现在就能用。接下来咱们就聊聊怎么把这个超能力掌握在咱们自己手里, 你没听错,就是免费。谷歌已经把这项非常强大的技术免费开放给所有的开发者和爱好者了,这一下子就把创新的门槛给拉下来了,可以说是人人都能上手。 目前呢,主要有三种免费的方式让你上手。第一个是 browser based, 它特别适合用来做网页自动化。第二个是 google ai studio, 你 可以在它的构建模式里直接用上这个代理。 第三个呢,是 anti gravity ide, 这是 google 自己的免费开发工具。最酷的是啊,它能让你实时看到 ai 代理的每一步操作,简直不要太直观。那么说了这么多,这一切到底对我们意味着什么呢? 嗯,可以说,我们真的正站在一个人机交互新时代的门槛上。说到底啊,这已经不只是简单的自动化了,这是一种写作,适合我们和一个能看见、能理解你屏幕的 ai 进行写作,它就像一个智能伙伴,帮我们更高效地完成任务。 所以,最后我想把这个问题留给大家,既然你的电脑现在有了一双眼睛,你最想让它帮你做的第一件事会是什么呢? 是处理堆积如山的数据,还是帮你规划一次复杂的旅行?又或者是帮你学习一项新技能?真的可能性是无限的,当你的电脑能看能懂还能动手的时候,未来也许就在你的下一条指令里。