哎,先别睡了,刚才躺床上刷手机才刷到 google 这个更新,这哪是浏览器更新啊,这简直是要隔我们打工人的命。你们平时用 chrome 是 不是觉得它就是个看网页的工具? 这次 gemini 三加上去之后, chrome 直接变成了无人驾驶浏览器。呃,简单说就 是詹姆奶直接住进了你的浏览器里,而且他不是在边上跟你聊天,他是能直接上手帮你干活的。以前咱们要在网上订个酒店,得自己去携程啥的搜日期,比价格,看评价,来回切页面,累的半死。现在呢? 你直接跟侧边栏的詹姆奶说一句,帮我查下,这周末去吉林延吉的酒店,要允许带狗的,然后神奇的一幕就来了,你会看到浏览器自己在那动, 自己开网页,自己填日期,自己筛选,允许宠物,最后直接给你列张表,告诉你哪家最划算。甚至如果你授权了,他连预定表单都能帮你填个七七八八,你最后点个支付就完事。这就叫从动嘴变成动手。 google 管这个叫 auto browse 自动浏览。我觉得这简直就是请了个隐形小秘书,而且还不止这个,他还能帮你看图,改装修,你看中一套房子图片,想换个风格, 不用 p 图,直接跟他说换成现代风,他直接在网页原图上,这就给你改好了。我觉得 google 这次是真的急了,把压箱底的本事都拿出来了。 他这就是想告诉你别去搞什么 ai 浏览器了,最好用的 ai 就 在你手边的 chrome 里,不过目前这功能好像还在美国先试水,咱们国内要想用估计还得再等等。这未来来的太快,还是先睡吧,晚安。
粉丝118获赞8368

今天来教大家怎么在手机上跑谷歌恰饭的 demo 四,首先我们要下载谷歌 ai 这样一个强行体验版这样一个软件,如果你无法下载的话,找到我的工具箱就可以打开给大家看一下。 首先我把网络断了啊,现在是属于飞行模式,首先第一个是 ai 聊天啊,首先我们如果说手机比较好的话,可以下这个 e 四 b 这个模型,如果手机比较差的话,下这个 erb, 你 聊天的话,你可以用中文输入 啊。首先我们先把调成 cpu, 当然你可以测试一下我的手机的话,调成 cpu 比较流畅一点,你能坐上吗? 可以看看他的回音速度也是可以的,就是断网呢,我已经处于断网状态了,我给大家看一下另一个模式,这个是一个技能模式,也是找到自己对应下来的模型,这里我让他设置 悬浮头像字母可以看,点开这里好,我的头已经就加了两个字母,这个的话上传图片让他自动解析,比如我拍这个瓶子的图片,你看到了什么好,他的理解速度还是挺可以的,也挺快, 我已经介绍过了,这个是 ai 聊天,这个是技能模式,这个是一个语音理解,你现场录的可以,最长时间是三十秒,上面也斜着了,你也可以自行提交,我录一段总直接录的话,点击这里一二三四五,我说了些什么 好,你可以看到他已经读取了我上面的这个音频,这个的话是一个提示词优化功能, 也是一个非常不错的,当然可惜的是都是英文,这里的话也可以添加怕模型,这里点有个加号,这个模型都是可以在内玩使用的,不用挂魔法, 还有更多内容可以您自行体验。还是挺有意思啊。这软件的话,如果你无法下载的话,到我的工具箱里面看,查找工具箱,在我的头像就能看到。

大家好,今天来给大家实测一下,把 jam 四部署到手机上,到底能实现些什么?视频内容有点多,感兴趣的可以慢慢看完。首先是 ai 聊天,我先把手机切到飞行模式,全程离线使用,可以看到我问他能做什么,他回复的很流畅,反应速度也很快,注意回复这里我全程无加速。 然后是图片识别功能,我随手拍一张照片,问他看到了什么,他能很精准的识别出画面里的细节,解析的特别清楚。还有这个手机指令控制,我直接语音说在地图里找到北京,他立刻就能理解我的意思,自动打开地图应用。虽然现在没网加载不出来, 但整个指令识别和调用应用的过程都是在本地完成的,体验很惊艳。唯一不足的是他听不懂中文,只能英文沟通。还有这个小花园互动游戏, 我说在八号坑种植物,它就能听懂并执行操作说明模型,对自然语言的理解和交互能力都很强。这里依旧听不懂中文,只能英文沟通。最后是提示词工具箱,不管是改写文案、总结文本,还是写代码, 离线状态下都能直接生成,非常方便。整体体验下来, jam 四把 ai 能力真正做到了手机端本地化,不用联网,隐私性更好,功能也足够实用,未来手机端 ai 的 体验真的会越来越强。

下面来全面的融入谷歌浏览器,成为我见过最牛逼的 ai 浏览器。直接我来上个干货怎么去抢先开启 黑科技?第一步,开启隐形开关,先得要升级浏览器到最新的版本,然后接着在地址栏里面进入实验室,在搜索框里面去输入这个指令,把搜出来的这五个项全部从这个改成这个。这五项分别是 这里改完之后嘞,右下角会来一个重新启动的按钮,你点击重启。但是有一些操作完之后,这个煎饼奶在浏览器上面就出现了,但还有一些就没有出现,没有出现的那说明 地狱已经被锁死了。这个时候需要先彻底的退出浏览器,然后打开终端去执行下面的几行命令,给他来一个强行的开解。在操作之前呢,我是建议你先去做一个备份命令里面,这个路径适于 mac 的 用户。另外你的浏览器需要设置成英文,而且 ip 地址要设置必须是美国,因为美国的 ip 是 第一批测试用户。一系列的动作全部走完之后,你再去打开浏览器, 你就能够看到这个能够替你上班,能够解决很多问题的数字分身了。好了,干货说完之后,我们再来看一下 这个浏览器有哪些恐怖的变化。第一个侧边栏的进化,第三方插件通通都可以下岗了,但这次浏览器的原生的界面栏真的是让我把那些第三方的插件基本要全部都卸载。让我感受最大的一个点 就是它的整个总结网页的能力,真正厉害的地方在于它能够同时总结 n 个打开的网页。以前我想看几篇文章, 去做一些摘药,以及看这篇文章里面讲了一些什么东西,必须要每个页面都去点一下,分析一下,手都会点累。但现在你一次性能够把它全部打开,然后 ai 他 会帮你把所有的这个网页的内容全部 读一遍,读完之后他会甩给我一份汇总好的摘药。不管是做自媒体的你还是写报告的你 有了这个功能直接起飞,甚至你在买商品的时候,你要做商品的对比,比较起来呢,你会眼花缭乱,现在简单直接让他帮你做全网的比价,毛病都可以帮你解决。最后呢,告诉你哪一款是最值得下单的。 我以前用的比较多的用浏览器去看视频,尤其是在 youtube 上面。不过我之前用是用 umi 的, 因为我对于 umi 的 整个使用比较深入,个人感觉目前的整个视频的整个整理能力和协助能力比 umi 的 还是 low 了一点。第二个,浏览器自带的 一个修图的功能确实让我很惊讶。你像以前在网上看到一张图,想去改一下,你得要先下载起来,然后再打开修图软件,包括你像现在的美图修修操作起来也是比较麻烦。但现在你用浏览器的侧边栏,直接可以去用 banana, banana 收图的功能集成进来了。简单的说,就像在浏览器装了一个一键整容的按钮,且面对那种网页有很多数据的内容,你也可以直接喊他把网页的内容生成一张精美的信息图。这种 这种功能对于每天要做 ppt 的 人来说,这简直是救了命了。就光这些功能,如果说你能够完全的用起来,绝对是飞一般的感觉。当然确实得感叹一下,二零二六年开年的第一个月, ai 圈的节奏快得让人窒息。

继谷歌发布 jim 四后,在 ios 平台又悄悄上架了一款 ai 应用 google ai h gallery, 让 jim 小 模型可以在 iphone 本地离线运行, 不需要联网,飞行模式也能用。而且谷歌这次给的还挺全,多轮对话、图像问答、录音、转写,甚至还有个小游戏 a 阵的模式,能让 ai 帮你操作手机,比如开关手电筒、创建日历事件,关键是免费,无需账号, 不要 a p i 密要。最有意思的是,这款 app 在 苹果芯片上跑本地模型的效率很高, jim 四的一二 b 和一四 b 两个小尺寸版本, 这是为手机端设计的,上下文窗口达到一百二十八 k, 日常用完全够了。当然,目前 app 只有英文界面,而且建议 iphone 有 六 gb 以上运存。不过它已经让人看到了一个趋势,以后手机里就能跑大模型,云端那套按 token 收费的生意怕是要被重新定义了。

好的,大家好,今天我来给大家介绍一下谷歌浏览器更新幺四六这个版本之后,它可以做到的一个非常好的事,就是可以直接用我们的 ai agent, 非常方便快速的就可以去直接操作我们的浏览器。这次更新它主要是更新了这个 remote debugging 这个功能,你现在可以直接在谷歌浏览器通过一个网址,然后一键打开这个开关,打开之后你就可以用之前传统的 谷歌发布的这个 live tools mcp, 或者说其他的一些操作浏览器的工具,你就可以直接用你的 ai agent cloud 或者 codex 这些直接去非常方便的操作你的浏览器。 它这一次的优点主要是这几个,第一个它解决了登录墙 cookie 的 这种问题,我们知道之前如果我们想用我们的 agent 去操作浏览器的时候,老是会遇到登要需要我们登录账号需要粘贴我们的 cookie 给他,他每次的操作浏览器都是去开一个全新的一个浏览器,这个浏览器没有保存你的任何信息,这个就很烦。 第二个是之前的那种传统的无头浏览器,很容易被检测到网站会被拦截,那现在这种直接去操控相当于是浏览器它在底层上直接把它的网页,它的这些结构直接暴露给了 agent, 然后这个数据它就是一个非常结构化的一个数据 agent 看起来非常方便,也会更加的节省 token。 其次是这一次更新之后,整个的操作难度会非常低,我等下演示一下大家就知道了。好的,首先第一点你需要知道你的谷歌浏览器是否更新到了幺四六这个版本?你可以直接在你的谷歌浏览器输入 chrome version 这个网址,然后你就可以看到第二点,我们怎么打开我们的这个 remote debugging 的 这个开关?这个也很简单, 直接在谷歌浏览器的网址输入这个网址,到时候我会放在评论区,打开之后这里有一个 allow remote debugging for this browser instance, 你 就勾上之后这里你会看到你的这个服务就已经跑在你的本地的窗口了, 现在你就已经把你的浏览器给暴露出来,下一步你就可以用装了 m c p 或者 skill 的 agent 直接去操控你现在的谷歌浏览器。 推荐的两个,一个是谷歌这个官方的控制浏览器的 m c p 工具。第二个推荐的是第三方的一个大神,他开发的一个 c d p 的 技能,他比谷歌官方的 m c p 那 个工具好在他好像少了很多的验证环节,会用起来更加的方便和快速,我现在用的就是这个。好的,接下来我们都准备好之后,我就给大家演示一下,不是现在怎么用我的 agent 直接去操作我现在的浏览器。现在我这边已经打开了一个 open code 的, 我现在直接给他说用这个 cdp 这个技能,看到我现在的 x 的 网页的最新的五条推文是什么,我现在来运行好,运行的时候他会这里突然弹出一个 allow remote debugging, 就是 是否我们允许我们 agent 远程操控 我们点 allow。 好, 我们继续。现在可以看到在这个思考过程中已经找到了我现在首页的这五条推文。好的,现在他已经看到了结果,我们可以看到他现在已经把我首页的这五条推文找出来了。第一个是 gtc 大 会的雪宝登场, 这个没问题。第二个是一个 microsoft 的 一个广告,他也看到了,后面的这些内容他都找了出来,这个是一个非常简单的用力,我刚才演示的过程中,他没有要求我去登录 x 或者说去给他任何 cookie, 他 直接通过我现有的这个浏览器状态就直接去得到了这些数据,而且非常的快,也不是通过任何截图,就是直接通过浏览器暴露给他的结构化数据。

想用 ai 控制浏览器,却发现要重新登录所有账号。 chrome mcp server 来了,它不需要新开浏览器,而是直接接管你手里正在用的 chrome。 传统的浏览器自动化工具,比如 playprite, 它们会启动一个全新的浏览器环境,里面什么都没有, 没有你的登录态,没有你的设置,更没有你的书签和历史记录。每次使用都要从头开始,重新登录,收验证码,折腾半天才能工作。 chrome mcp server 完全不同,它是一款 chrome 插件,配合本地服务器的组合,让你的 ai 直接操作你正在浏览的 chrome。 你 的所有标签页、登录态、插件设置, ai 都能直接使用,零额外资源占用,打开就能工作。第一大优势,附用你的登录态。 想让 ai 帮你收藏小红书文章,传统工具需要先登录,而 chrome mcp 直接在你已登录的页面操作。 github twitter notion 飞书。 ai 操作,完全不需要重新验证。第二大优势,读取你的浏览历史, 只需一句话, ai 就 能分析你最近一周的浏览记录,告诉你主要关注哪些话题,所有数据本地处理,不会上传云端。第三大优势,管理你的书签。让 ai 把当前页面加入工作资料文件夹,或者找出所有关于 python 的 书签,甚至清理失效链接, 操作的就是你日常用的那个 chrome。 除了利用你的个人浏览器环境,它还提供二十多个实用工具,页面截图、网络监控、表单填写、羽翼搜索、标签管理样样精通。 对比传统方案, chrome mcp 在 浏览器环境、登录、附用、资源占用、启动速度、个人数据访问等方面全面领先 chrome, 原生 a p i 全访问,不受 playwrite 限制,安装非常简单,下载 chrome 扩展并加载安装 mcp bridge, 然后在客户端添加配置即可三步搞定,立即可用。 chrome mcp server 的 最大价值是让 ai 真正融入你的工作流,而不是强迫你去适应 ai 的 干净环境。项目已开源, get up 搜索 chrome mcp server 即可找到,觉得有用记得点赞收藏!

哈喽,大家好,酷狗前两天刚刚发布了最新的大模型 gm 四,这个大模型它是完全的开源和免费的,能够在本地的设备上离线运行,我用了这几天,我觉得这才是二零二六年最合理的 ai 技术路线。 真正值得关注的是,呃,他的这个原声支持函数调用,这就意味着这个模型能够自主的使用工具,浏览网页,执行代码,调用 ipa, 相当于你在本地安装了一个智能体,全程也不用联网,也不用花钱,完全可以调用本地的算理。但是呢,很多人都不知道怎么使用,所以今天跟大家分享一下专门四的使用。专门四分别有四个不同的版本,分别是 e 二 b 四、 b 二十六 b a 四 b 和三十一 b。 这些模型大小各异,可以部署在手机、电脑和云端的服务器中,它非常适合文本的生成、编码和独立任务。这张图片呢,是谷歌官方的一个,相当于是个测评吧, 不同大模型之间的一个测评。我们可以看到这几个都是市面上比较好用的大模型,嗯,包括我们国产的 d c 克千万和 kimi, 还有那个 g p t, 我 们可以看到这是它们之间的那个性能的一个对比吧。嗯, nice 区域,我们可以看到这个是 g m 四,在我们传统的认知里,模型越大,参数越多, 它的性能就越强。在途中我们可以看到 g m 四的这个三十一 b 的 这个模型,在实战能力上竟然超越了千万的三点五,因为三十一 b 它只有 三百一十亿的这个参数。千位三点五呢,它有将近四千亿的参数,这两者之间的这个体积相差了十倍,所以呢,你可以看出这面四就是用十分之一的体积跑出了十倍体积的对手,那这就意味着你不需要再付 报的这个服务器的费,你在自己的电脑上,手机上就能够拥有世界最顶级的这个 ai 大 脑。然后我们看一下这四个版本的功能吧, 以及定位。三十一 b 被称为是全能大脑,它可以处理任何的这个你所想要的执行的一些任务吧,它的定位呢,也是非常的明确,是最顶级的一个型号,擅长呢查某某的创作以及 深度的逻辑推理,它就像人类的思考会给你列出这个提纲一样,然后排查啊错误,然后再输出, 所以他非常擅长于这个深度的长文写作。那么第二个是二十六 b 的, 这个被称为效率之王,它的定位就是相对于上一个呢,它是一个平衡的版本,那么它的功能是保持在极高的智商的,同时呢,响应呢,要比三十一 b 更快, 所以呢,它适合于这个频繁的互动啊,快速的迭代的创意的这种工作。那么第三个和第四个是一四币和一二币,这两个呢被称为侧端的,先分我们,我我认为的就是说它是一个轻量化的模型,它只有四十亿和二十亿的一个参数,所以呢, 呃,它的这个体积相对也比较小,但是呢,虽然说它的体积比较小,但是可以通过这个 single 的 强化处理一些日常的对话呀,这个日常的整理,呃,简单的,这样还是非常的流畅的, 我们可以看到这是专门四网页端的一个界面,其实我这两天用的,用下来,我觉得他的这个云端的和网页端的这个使用其实是非常的非常的好给我的体验。因为普通人说实话你的电脑可能 配置没有那么高,所以你装了最高的那个等级的那个模型,你使用起来你的电脑可能就会如果说你的性能不够的话,你的电脑就会起飞的。所以我建议啊,就是如果说你不是做一些特殊的一些任务的话, 我建议直接用网页版的是最靠谱的。那电脑端有 pc 和 mac 的, 它的一个好处我刚刚讲了,就是直接在本地运行,断网也可以使用,最大的一个好处就是它是保护隐私的,不用担心你的文件或者说是你的信息隐私会被泄露,因为断网也可以使用,我觉得啊,是 这么的一个最大最大的一个特点。那么另外就是它的手机端是苹果和安卓系统都可以用啊,因为手机的内存是有限的, 所以呢我的建议就说如果是你非要在手机上装这个,我建议就是用的轻量化的这个版本的,否则的话你的手机肯定会发烫,它运行起来 特别的耗费你的本地的这个手机的一个算力的。所以最最第三个就是云端的,我是最推荐的这个直接再往月端调,而且你可以直接用免费的算力,因为使用也是免费的,你往月半使用也是免,不像其他的一些大毛器,你用着用他就没法用了,他就你的这个免费的额度,用完了 不让不让你用了。但是 gm 四它是无限使用的,目前来说是免费使用的,所以的话呢,大家如果说是想用的话,尽快用起来,我觉得是非常好的一个大冒险。大家如果说有其他的问题,我们在留言区可以互动一下,有什么问题可以直接问我哈。

不久前,谷歌发布了 jam 四系列,它不仅是一款开源模型,更是一次关于如何把超级大脑装进手机的工程奇迹。今天我们一起来看一下它是如何用不到四 g b 的 显存,跑出大模型的效果。 这里我们做了一个测试,使用三台手机在本地离线跑 jam 四 e 二 b, 屏幕上呈现的是这三台手机的测试数据,下面给大家看一下实际运行的情况。第一个加油问题, 第二个 g two 铜龙问题, 第三个字母出现次数问题。 可以发现,关于对常识的判断仍然是小模型的短板。然后这三台手机中, iqoo 十五的运行速度最快。 simon 四一共四款,覆盖从手机到工作站的所有场景。 a dos base 最轻量手机和树莓派都能跑,自带语音识别,量化后只要四 g 显存。 a, 跨出白瓷笔记本甜品级, 速度和能力之间的平衡点。二十六 b, 混合专家架构,总参数二五 b, 但每次只激活三点八 b, 用小模型的成本干大模型的活。最后是三 e b 单词,旗舰级模型,全参数推理,开源模型排行第三,适合有好显卡的用户。这里要讲一个关键的概念,单词和猫的区别, 单词密集型。你看屏幕上这些格子,全不在闪,因为每次推理所有参数都参与计算,三十一币就是三百一十亿次,运算一个不少。它的优点是稳,缺点是慢,而且吃显存。 切换 m o e 模式,注意看大部分格子暗了,只有几个在亮,这就是混合专家的精髓,模型里有一百二十八个专家,每次只派八个上场,剩下的待命。 最后说说它的边界,左边是强项,文档识别,发票解析,代码补全,长文档,问答 agent, 自动化任务,这些它都能做,而且跑在本地,意味着你的数据永远不用上传到别人的服务器。 右边是它的短板,如果你问它能否替代跨腾或 gpt, 答案显然是不行的,那能否进行高质量写作?这里我的回答是勉强可以,至于大规模的代码重构,那以它的能力还差得很远。 说白了, jam 四是一个极其出色的本地工具型 ai, 你 把它当高效工具用,它不会让你失望。如果你把它当全能大脑用,那你就会很失望。 想试的话,这里有两种方式,手机用户可以直接去 google 的 a i h gallery 上下载使用,电脑用户更简单,欧拉玛一键运行。下面我们来看如何用欧拉玛本地部署 jamal 四 e 四 b 模型,并使用 clogot 调用它。在 clogot 直接提问它是什么模型, 它是由谷歌训练的大语言模型,欧拉玛在首次请求时加载模型,加载耗时三十八秒,显存系统分配总计实际首先确保电脑上已经下载过欧拉玛,只需执行一行命令,欧拉玛 round gemma 四冒号意思币,等待模型下载完成,总计约九点六 g 币。成功后在终端测试。问答, 它是一个大语言模型,名字是 gemma 四,由 google deepmind 的 开发,属于一个开放权重模型系列。复制这个模型 id, 克隆项目源码, 进入项目目录,运行安装命令,下载完依赖后进入引导界面,颜色模式随便选。第四个是我们做的国产模型适配选择第三项,本地欧莱玛模型, 然后粘贴刚刚复制的模型 id 回车。确认到这一步配置成功。我们问个问题测试一下,现在已经调用成功已经登录的用户,想要切换模型,输入 logo, 退出登录,然后运行帮人 devi, 即可重新配置。我们最新版的 cloud code 已开源,大家关注评论获取。 目前呢,该模型权重在 hackin、 face 和 kaido 上都能下载。以上便是我对 gmail 四的实测解读,如果你觉得有用,不妨点个关注,我们下期再见。

保存浏览器网页是一个常见的操作,在网页上右键就能使用存储为来离线保存当前的网页,后续也可以离线去打开这个网页,但是这种方式有一个问题,它的保存形式是一个 html 和静态资源文件夹, 其中文件夹中包含一些图片等素材,有时候保存的离线资源打开还有各种问题。 今天要推荐的工具 single file 是一个浏览器的插件,可以一键将当前网页保存为单个文件, 且能够很好的解决离线打开文件时图片等素材的显示问题。 single file 通过将图片等素材直接保存为 base 六十四的内容, 离线打开的时候就不会出现找不到的问题,后续是官方的 demo 视频介绍, 而且使用 single file 的时候体验也非常的好,左下角会实时的展示当前保存网页的进展。目前 single file 在 github 已经有超过六点九 k star chrome 应用商店显示也超过十 万家的用户在使用,其他浏览器也是支持的,包括 firefox、 microsoft edge 等,是一款非常不错的浏览器插件。以上就是本期视频的全部内容,更多项目详情请查看简介或评论区链接,关注我们一起探索有意思的开源项目。

整个恢复的速度相当的快,这是在手机上,而且大家看现在完全的没有联网。哈喽,大家好,那今天跟大家分享一下,基本上可以说是 iphone 上面最强大的免费本地 ai, 完全不需要联网,搭载的是 game 四啊,非常的强大, 大概就这个软件啊。 edge gallery 点开之后点击这边,我们可以选择我们的 model 子啊,这边有非常多的什么 jimmy 三呐, jimmy 四, jimmy 四是 google 推出的啊,给迷迷同样也是 google 推出的, 但是他不想给咪咪,给咪咪那是付费的,这个是完全的免费的,这里面我是下载了一二 b, 一 二 b 它是二十亿参数,一四 b 是 四十亿参数。那真马四相比于过去的真马三,主要有这么几个特点啊,首先第一个就是它整个脑细胞啊,整个容量会更加的高 啊,就是模型架构进行了一个非常大的优化。苹不是苹果啊, google 通过非常高效的蒸馏技术 distillation, 可以 让四十亿参数,就这个一四二 b 啊,可以达到过去一百亿二百亿模型那 这种水平,所以它整体智商就更加的高了,但是它占用的内存却没有变,所以它就可以让我们使用这个 iphone 十七 pro max 这种十二个 gb 内存的手机,也可以非常流畅的使用,而且它现在是支持了多模态原生支持,就是它可以理解我们拍摄的图片,逻辑和语言都是同步 的,识别精度跟上一代比啊,提高了大概百分之四十,而且它整个记忆力也增长了,整个智商更加的高了。过去我们在使用手机端的模型的时候,哔哔几句,他就忘了前面哔哔啥了,所以这个是一个非常大的痛点,但是这次 jam 四它每秒可以达到一百二十八个头肯, 所以我们把一整页的,比如说五百页的这种 pdf 啊,这种文章丢不进去,它也可以在几秒内看完,然后回答我们。再有一个就是 iphone 上为什么使用它会更加的好用,就是因为 iphone 它独特的架构就是 m r x, 反正就是统一内存啊,什么 cpu, gpu 啊,这几个都是统一使用内 存,所以在这个 a 十九 pro 里面使用这个加速单元,再配合上 g 八四,整个发热更低,跑得更加的快。那 所以我们简单的给大家演示一下啊,首先这个 ai chat 啊,这个是完全在本地的,所以我们现在打开飞行模式,关闭蓝牙,关闭 wifi, 都是可以正常的使用的。 这边有什么 e 二 b 啊,它有一个 best overall 最推荐使用的这个啊,我们试一下这个 e 二 b 就 可以整个大小容量也就是二点五四个 cb, 然后 ch 你 是谁? 马上就回复了,我是战马四,一个由 google dmind 开发的开放群众的大型语言模型,你有没有意识,整个回复的速度相当的快,这是在手机上,而且大家看现在完全的没有联网飞行模式,所以我们在飞机上在 处理这种文档,我突然有一个呃,突发奇想,想要咨询的时候,就我们直接在手机上跟它逼逼就可以,它就会给我们一个非常不错的答案啊,整个推理模型也相当不错。然后我们在这边点击这个之后,我们可以选择 max token 啊,我们可以进行选择 topk, 说实话,这个我也不知道它是啥意思啊,哈哈,然后我们点击 ok, 我 们可以再问一下啊,根据哥德尔不完美的系统,它都是有一个缺陷的,那么宇宙它作为一个系统, 他为了解决内部的这种无法解决的矛盾,所以他创造了生命,他看本地啊,在本地这么深刻的问题,他触觉了哲学系统论,生命起源,噼里啪啦, 哎呀,生存压力,适应性创造的本质有很多,在本地这个速度我个人感觉已经非常的够用了,还哔哔呢。 ok, 他 最后来了一个总结,一个看似完美的系统, 其内在的动态张力矛盾是其演化的燃料,生命正是这种内在张力的一种具象化和解决机制。他不是为了追求绝对的完美,而是为了在既定的有缺陷的宇宙框架内,实现一种动态的,有目的的存在。人生的哲理根本就是存在,扎斯的存在就是他们 关于这个歌德尔的不晚辈定律啊啊,我再找一期视频单独跟大家分享一下啊,今天我们就先跳过,总之我们在这边可以跟他比一遍,然后点击加号,之后我们看,我们可以看他的 history, 然后点击这边右上角的小加号,我们可以创建一个新的聊天,这个都是可以, 然后我们后退,后退之后这个是 ai chat, 唯一比较不满的就是它整个功能是比较分离的啊。当我们想要 ask a mage 用图片进行交流的时候,我们必须要到下面这边啊, explore other use cases 有 各种 使用的场景啊, ask a mage, 我 们可以让他啊回答我们拍摄的照片和图片。在这边点击加号之后,我们可以选择 photo library, 选择我们的照片,选择 camera 啊,这都是可以的。 我选择 camera 拍一个,呃, use photo, 然后我让他逼逼。这个是什么?有哪些特点啊?这个失误了。哎,这个失误了。这是 playstation port。 差一点啊,等会啊,我们刚才是使用的二 b, 我 们使用四 b 试一下。二 b, 他 可能智商没那么高 啊。使用这个二 b 啊,使用四 b 来试一下。这是什么?有哪些特点?嗯, yes 哦,他把旁边的 major sense 控制特点,触觉反馈,自适应班级, l two, r two 可以 根据游戏内的动作提供不同的阻力。 啊,噼里啪啦,还有例子呢啊,荔枝麦克风和扬声器设计和人体工程学啊,这些都有了。 ok, 这是什么花哦?金樽花,万寿菊。我们再换一个,让他翻译一下,翻译成中文,重新打开飞行模式, wifi 关闭。大概 它同样可以在本地完全免费的进行翻译,相当不错。所以我们在飞机上啊,都可以用注意力焦点, attention, focus, injection, 汇聚所需信息的过程。第一段,第二段它都会进行一个分段,第四段,第五段原文都有此处文字被遮挡,这种细节 相当不错。 very good。 然后这里面呢,还有一些比较简单的,什么 ask, 你 major 啊,什么 audio square, 但是没有特别大的鸟,用什么 prompt lab 啊, tiny garden, 这是一个小的游戏 mobile actions 啊,它可以用这个小的模型来操纵我们的电脑啊,不,是操纵我们的手机,比如说, turn on flashlight, 可以打开我们的闪光灯, turn off, create contact, send, email 这些,但是我用了一下,不是特别的好用,实际来讲比较好用的可能是这个 agent skills, 在 这边我们选择四 b 的 模型,什么 generate, q r code 呀,粘贴进来之后生成 q r 码, loading skill, 它是可以使用我们的 agent skill 的, 我们可以让它生成一个 q r 码完全离线的状态。另外这边啊,还有其他的什么 interact, map 啊 这些用起来感觉就那样啊。然后这个比较有趣, text spinner, 它需要一个访问的权限,大概是这样的一个效果,我们可以更改它的文字啊, spin 使用中文给它相机权限。呃呃,任何文字都可以,就这种效果,虽然没什么鸟用,但是 还挺有意思啊,就是这样的一个为的。这个呢,就是 google ai h 格兰瑞,我们可以使用 google 最新推出的振马四,高效的二 b, 高效的四 b, 我 们都可以在这边使用。但是这个软件呢,说实话,目前它整个 bug 还是有一点多啊,就是用的时候卡住的情况是,呃,挺多的,挺平板的。对大家有兴趣的话啊,想要免费使用的话,可以试一下,再等一下它们的更新吧。 啊,可能我现在是使用的艾弗莎士六点五 bug 版本,所以它整个匹配度不是特别的好啊,大家可以试一下。


你是不是每个月还在花钱订阅 cloud code 服务? github 上最近发布了一个开源项目,可以直接把月费降到零,而且它的速度甚至超过了云端付费版的 cloud opus 模型。最关键的是,这一切完全免费,并且你的数据永远不会离开你的电脑。 这个叫 cloud code local 的 开源项目短短两天就已经斩获了近八百颗星。这个项目的目标只有一个,让你在 apple silicon 芯片的 mac 上运行本地模型,彻底告别 api 费用和隐私泄露的担忧。 它提供了千问三点五一二二 b llama 三点三七零 b jama 四三一 b 三个模型。在 m 五 max 芯片上,它的深层速度能达到惊人的每秒六十五个 token, 这直接超过了云端 cloud opus 每秒四十个 token 的 速度。更重要的是,这个项目构建了一个百分之一百本地零网络调用的闭环, 你的代码,你的提问,生成的所有内容全部在你的 max 上处理,没有任何数据上传到云端,完全离线也能正常使用。 而且它的安装非常简单,只需要三个命令或者直接双击桌面生成的启动器就能开始使用。一句话总结,免费本地超大模型,全功能、零费用、零隐私风险!你会用这个本地免费版吗?评论区聊聊,关注科技区角,看见更全面的科技世界!

手机跑三十一 b, 大 模型还不用联网,谷歌凌晨放大招,一口气开源四款模型,从二 b 到三十一 b, 从树莓派到服务器全给小模型,内存只要一点五 gb, 手机离线直接跑 三十一 b, 登顶 orina 开源榜第三, ipad 二点零协议企业随便商用 mate 的 拉玛四还没捂热,谷歌直接掀桌子,你更看好哪家?评论区告诉我。

你有没有想过,有一天你的手机能完全脱离网络,自己跑一个 ai 大 模型,而且不是那种玩具级别的小模型,而是能看图、能推理、能帮你干活的正经大模型。这件事, google 悄悄干成了。 今年四月, google deepmind 发布了 jam 四模型家族,同时更新了一款叫 ai gallery 的 手机应用。 这款应用最大的卖点就一句话,把大模型装进手机,断网也能用。它的功能相当丰富, ai chat 多轮对话,支持幺二八 k 上下文窗口,还带思维链推理。 s t m h 拍张照或者选张图,模型直接离线分析。 prompt lab 可以 调温度,调 toky 参数,跑各种单轮任务。 audio scribe 语音转文字加翻译,最长支持三十秒音频片段。 还有个很酷的 agent skills 模型,可以自主调用维基百科、查询地图二维码,生成这些工具, 甚至能通过自然语言控制手机开关、手电筒、调音量,启动应用。这个功能由一个叫 feng shan jia 的 两亿七千万参数小模型专门驱动,而且 android 和 ios 都有, google play 和 app store 都能下载。 重点说说 gemma 四这个模型家族这次发布了一共四个版本,最小的 e 二 b 有 效参数二十三亿,但通过一种叫 parlor embedins 的 技术,用二十三亿活跃参数就能达到相当于五十一亿参数的表达深度。 四位量化之后,模型文件只有一点五 g 四 g 内存的手机就能跑在网上。 e 四 b, 有 效参数四十五亿,四位量化后大约五 g pixel 七三星 s 二十三这个级别能用。还有两个大模型, 三十一币的筹密模型在 mimo pro 上拿到百分之八十五点二 m, 数学竞赛百分之八十九点二,这个水平已经很接近 gpt 四 o 了。 以及一个二十六币的混合专家模型,四十亿激活参数用不到五分之一的计算量,达到了接近三十一币的效果。 更关键的是,这些模型支持一百四十多种语言原声,支持函数调用和结构化输出,不用专门微调就能接,工具图像、音频、视频理解全都能做。 技术层面有几个亮点值得说说。第一是推理引擎, google 用了自己开发的 light rt 框架,也就是以前的 tensor flow light, 在它上面搭了 little talam, 专门跑大语言模型量化,支持两位、四位、八位 e 二 b, 用两位权重加内存映射,跑起来不到一点五 g 内存占用。第二是硬件加速, 高通枭龙的 n p u 可以 做到比 cpu 快 一百倍的推理速度。苹果的 metal 加速也支持 google 自家的 tensor 芯片,在 pixel 系列上有原声优化。第三是开原生态, 发布当天就支持 transformers llama c p m l x transformers j s。 这些主流推理框架, g g u f o n n x 格式都有 apache 二点零许可,商业随便用。 那问题来了, google 为什么做这件事?表面上看是给开发者玩的工具,但如果你把视角拉远一点, google 的 意图其实很清楚。控制端侧 ai 的 基础设施, 苹果的做法是把模型焊进系统,你用不用都得带着。高通是把 ai 加速塞进芯片硬件层面的活。 而 google 选择做平台开源代码,开放权重,跨平台适配,从 android 到 ios, 到 web, 到互联网到桌面全覆盖, 哈根 face 团队的评价很有意思,他们说这些模型开箱即用的效果太好了,以至于很难找到好的微调视力。 这背后的信号是, google 想让端测模型的起点就足够高,让开发者不需要再从头训练,直接在它的生态里开发就好。对普通用户来说,这意味着什么?第一,隐私、 医疗、金融这些敏感场景数据完全不用离开手机。第二,离线可用,没信号的时候 ai 照样干活。第三,成本 不调 api 就 不花钱,模型下载一次永久免费使用,但也不是没有短板, 小模型在复杂推理上还是比不过云端的大模型。中低端设备上推理延迟比较明显,长时间跑模型耗电也挺厉害,有 n p u 的 设备会好很多。 从行业角度看, venture bit 的 评价很到位,他们说这可能成为自云计算出现以来, ai 领域最大改革的开幕之枪。中国科技圈的反应更直接,有人说,这不就是苹果一直想做的端测 ai 吗? google 菜都端上来了。 总结一下, google ai h gallery 加上 demo 四,标志着端侧 ai 从概念走向了实用阶段。你现在就可以去应用商店下载,在手机上跑一个正儿八经的大模型,完全离线,完全免费。 这不是什么未来愿景,这是现在就能用的东西。如果你对端侧 ai 感兴趣,值得亲自试试。

继谷歌发布 james 后,在 ios 平台又悄悄上架了一款 ai 应用 google ai h gallery, 让 gmail 小 模型可以在 iphone 本地离线运行,不需要联网,飞行模式也能用。而且谷歌这次给的还挺全,多轮对话、图像问答、录音、转写,甚至还有个小游戏 a 阵的模式,能让 ai 帮你操作手机,比如开关手电筒、创建日历事件,关键是免费,无需账号, 不要 a p p 密要。最有意思的是,这款 app 在 苹果芯片上跑本地模型的效率很高, james 的 一二 b 和一四 b 两个小尺寸版本就 是为手机端设计的,上下文窗口达到一百二十八 k, 日常用完全够了。当然,目前 app 只有英文界面,而且建议 iphone 有 六 gb 以上运存。不过它已经让人看到了一个趋势,以后手机里就能跑大模型,云端那套按 token 收费的生意怕是要被重新定义了。

很多人还在觉得 ai 一定要联云,一定要联网,但谷歌已经悄悄往另一个方向走了。开 crunch 报道,谷歌在 ios 上低调推出了一款离线优先的 a a 听写应用,叫 google ai edge alucard。 重点不是它多火,而是它在提醒你, 下一波 ai 机会可能不止在云上,也在本地端。 google 这条新闻单看产品本身,其实不算特别炸,因为它现在更像一次低调试水。 type crunch 的 说法很清楚, google 在 iphone 上发布了一个名叫 google ai h l crunch 的 听写 app, 主打离线优先,你可以只用本地处理。如果打开云模式,它会用 gemini 来帮你进一步清理文本。而且它不是那种机械转写, app store 描述里写得很明确,它会自动去掉口头语、 自我修正和中途卡顿,把语音整理成更像可直接使用的文字。这意味着什么?意味着 google 正在是一个很重要的方向,把 ai 从必须上云这件事里往外拉。为什么这个方向值得看?因为一旦 ai 更多跑在本地端,它带来的不只是速度问题,还有三个更现实的好处, 隐私成本、可用性。本地处理意味着更少敏感语音上传、更低持续调用原资源的成本,以及每网弱网场景下也能工作。对普通用户和内容创作者来说, 这才是离线 ai 真正有吸引力的地方。所以,这条新闻最值钱的判断,不是酷狗又发了一个新工具,而是 ai 下一波不一定只是更大的云模型,也可能是更强的本地 ai 体验。当然,边界也要守住。第一,这款产品目前更像低调试水,行业格局及影响还有限。第二, 它现在是一个很具体的听写场景,不代表酷狗已经把所有 ai 主战场都搬到端侧。第三,更适合讲方向变化,不适合讲离线 ai 时代已经全面到来。所以对普通用户、自媒体和内容创作者来说,这条新闻真正该看懂的是一句话,别再只盯着云端大模型了。未来真正有机会爆发的一块, 可能是那些能在手机、电脑、本地设备上直接跑起来的 ai 工具。谁能把够好用、够隐私、够便宜、够稳定这四件事同时做出来, 谁就更容易知道离线 ai 这条线的红利。所以,别再把 ai 只理解成云上的东西了。 bug 这次虽然动作不大,但它释放了一个信号, ai 正在往本地端回流。下一波值得看的可能不只是更强模型,而是更强的离线体验。