谷歌Gemma-4对比Qwen3.5 新发布的Gemma-4虽然情商高、工具调用强，但在硬件成本、长文记忆和中文适配上，国产的Qwen3.5反而更具优势。详细分析两者的适用场景，帮你避坑。#Gemma4 #Qwen35 #AI大模型 #生产力工具 #硬件配置

gemma4为什么不能记忆

26

3

8

分享

举报

发布时间：2026-04-14 10:20

查看AI文稿

AI文稿

谷歌刚刚发布了新一代 ai 大模型 jam 四，面对这个带有大厂光环的新产品，很多人在纠结，手头用的好好的国产神器，比如 qm 三点五是不是该被淘汰了？要不要赶紧跟风，换上谷歌的最强科技？先说结论，别盲目跟风，千万别轻易换。 jam 四绝对是个好东西，但它根本不是给所有人准备的万能药，它更像是一辆豪华跑车，看着非常炫酷，但机器挑路况，也挑油品。对于绝大多数普通人或者平时主要用 ai 处理中文工作的团队来说，老老实实用现有的 q one 三点五反而更香。首先来看第一局关于情商和智商的对比。谷歌的 jammer 四就像是一个高情商的聊天搭子，如果你让他参加一个最受欢迎的选秀，他绝对能赢，因为他说话的语气非常自然，聊天的感觉很舒服，不像很多 ai 那样僵硬，更像是一个真实的私人助理。而且他不仅会聊天，干活也非常利索，比如帮你调用各种外部工具，或者把杂乱的信息快速整理成标准格式的表格，这些他都非常擅长。相比之下，国产的 q 三点五更像是一个闷头刷题的理科状元，虽然在聊天的人情味上可能稍微弱一点，但如果你让他去做数学题，或者写一段复杂的代码，甚至让他去考各种专业资格证， q n 三点五的成绩其实比谷歌的 jam 四还要好。简单来说，想要聊天舒服，选 jam 四，想要硬核写题和写代码， q one 强得多。接下来进入第二句，比比看谁的记忆力更好，那我们一次性扔给 ai 一本厚厚的财报或者几十万字的小说时，就非常考验他的脑容量。而这恰恰是杰玛斯最大的印章。他的记忆方式属于死记硬背型，在读取长文章时，他会尝试把所有的文字毫无保留的死死塞进内存里。这导致了一个严重后果，就是他对电脑硬件的要求高的离谱。如果你用普通电脑跑长文，系统会直接卡死甚至崩溃。想要流畅运行，你必须得买那种几万块甚至十几万块一张的企业级显卡才能供得起它。 coin 三点五则聪明得多，采用的是一种压缩记忆的方法。同样是读一本厚书，他不需要死记硬背每一个字，而是能迅速看一眼就记住重点。这种方式极大的节省了电脑内存，这意味着你不需要花冤枉钱去买昂贵的企业级显卡，只要一台配置较高一点的家用电脑，就能让他轻松读完几十万字的长文。所以，如果你经常需要处理长篇大论，选 q 文能帮你省下一大笔硬件费用。除了硬件成本，还有一个非常现实的问题就是语言天赋。虽然杰马四宣称懂一百多种语言，但他的核心母语依然是英语。在处理复杂的中文语境，甚至是咱们国内特有的职场黑化时，他偶尔还是会显得水土不服。而且谷歌为了规避海外的法律风险，给他加了极其严格的思想钢印，有时候你只要触碰到一点敏感词，他就直接不理你了。而 qiong 三点五是土生土长的国产 ai，他对中文的理解以及对国内职场和生态的适应程度，可以说是稳如老狗。这种对本土文化和语言习惯的深度掌握，就是他最坚固的护城河，让他在处理中文任务时更加得心应手。那么看完这些对比，到底该怎么选，其实已经很清晰了。如果你属于下面这两类人，可以立刻去玩谷歌的 jam 四。第一类是家里有矿的高端玩家或者土豪企业，手头有几万块一张的顶级显卡，根本不差钱，只想体验全球最前沿的 ai 技术。第二类是做跨国业务的团队，每天处理的都是纯英文邮件和海外合同，且需要 ai，说话非常地道，像个真正的外国人一样。但对于绝大多数人来说，老老实实用国产的 q 文，千万别折腾。首先是绝大多数的中国打工人，你的工作几乎全是中文，无论是写公文、写短视频文案，还是日常沟通， q 文最懂你的意思。其次是常温阅读的重度依赖者，比如律师、金融分析师或者程序员，你需要天天让 ai 看几万字代码或者几十亿的财报，选 qen，你的电脑才不会罢工。最后就是预算有限的普通人，没钱买顶级显卡，但又想让 ai 跑得飞快， qen 是最优解。最后，我想说一句，谷歌的伽马四确实惊艳，但它绝不是终结者。对于咱们普通人和国内的小团队来说， ai 不是拿来炫技的，而是拿来干活的，不要被所谓的大厂光环给虎住了，哪一个用的顺手，哪个不烧钱，哪个运行起来不卡顿，咱们就用哪一个。

AI赚钱研究社

粉丝1.2万获赞6.0万

相关视频

09:55
别再花钱买 API 了！谷歌最强开源 Gemma 4 + OpenClaw 本地部署全流程，31B 大模型满血联动！#AI新星计划 #Gemma4 #gemini #人工智能 #AI
查看AI文稿
AI文稿
谷歌终于坐不住了，正式卷开源市场， jm 四的效果到底如何呢？ jm 四的发布啊，真的有可能让我们实现头很自由。这期视频呢，老张给大家简要介绍一下 jm 四怎么安装到本地，以及如何搭配到我们的 open klo 大龙虾上，附带所有的安装步骤啊，大家可以一起来体验一下。后续呢，老张也会根据测评效果给大家接着发视频，这期是我们完整的部署流程，老张重点给大家简单聊一下，就是为什么 jm 四的发布啊，会让大家感觉谷歌真的开始卷起来了呢？首先第一点，他和目前谷歌的 jimmy 三用的是相同的技术基座啊，所以说他的能力是毋庸置疑的。第二点就是商业自由，你直接部署下来做什么都是可以的，都是允许的。然后第三个就是支持多模态，无论是文本、图像甚至小规模的视频音频，他都可以直接支持。第四点就是结合前段时间爆火的 open klo，他可以直接在本地对接 open klo 以及对接 klo 的 code，实现本地的偷根无线化。这是老张给大家总结的四点，为什么詹姆斯的发布会让大家感觉，哎，可能真的要进入到一个新的纪元，然后呢，他所发布的这四款模型呢？老张给大家做了一张图片啊，大家可以到时候把它截下来。第一个模型一二 b 的，他本身是用于手机或者边缘设备八 g 显存，然后最高端的三十一 b，他所对应的旗舰版本呢，是对应的是二十四 g 加，所以大家根据你的需求来进行对应的模型选择。老张这次视频呢给大家来看一下三十一 b 的这款模型的安装，然后关于本地的安装部署啊，其实非常简单，任何开源模型，其实我们只需要让他和欧拉玛就是那个小羊驼结合到一起就可以了，然后找到你符合要求的版本。安装成功之后啊，欧拉玛现在已经有了一个完整的应用端了，所以大家可以直接在这个位置和他进行对话交流。那我们想要下载 jm 四到你本地的电脑上，我们可以使用它的官方指令，会告诉我们直接怎么样去进行 jm 四的对应安装，像老张想安这个三十一 b 的对吧？我们就把它拿过来，把它直接这有一个 c l i 命令行安装方式，把这个东西直接复制在你的开始菜单中，单机右键选择运行输入 cmd，直接把刚才指令粘贴过来，这儿的时间会很长，因为它有二十个 g 的大小，我们直接稍作等待安装成功之后，我们也可以直接回到它的客户端中，在模型选项上找到我们安装好的詹姆斯冒号三十一币，然后可以直接进行对话。老张他处理一个较为复杂的提示词，我们让他看一下当前显存的内存消耗，咱们拿这个 ai 慢距的提示词来测试啊，这个提示词非常的长，我们看一下他读取提示词的能力，以及他的这个显卡的性能消耗，我们看一下啊，这个显存直接拉满的，达到了百分之九十四的占比，而且这个响应速度还是非常快的，只需十一点七秒啊，就把整体的业务流程给我们直接补齐了，而且呢按照需求给我们进行了对应的提问，要什么样的慢距效果，所以说以目前的测试反应来看呢，他的这个响应速度起码要比之前的很多大模型要好的多，所以接下来我们自己来尝试一下对话类的工具，可能大家都不是很需要的，我们能不能把它接入到我们的 open clone，丢到我们的龙虾里，让它们俩来进行联动的。然后这期视频呢，老张顺便给大家提一下，就是最新版的 open clone 的部署流程啊，咱们可以快速的去过一下一些重点的细节，因为之前老张发过很多期的部署视频一块的呢，因为它本身啊， wsl 它是相当于在 windows 系统上安装一个 linux 的独立系统，这样的话呢，就直接相当于在你电脑上安装了一个独立的存储空间，它所谓叫做沙盒安全，而且运行起来呢是不会有任何的兼容性的对应问题的，因为 windows 中啊，它的权限呐，路径等经常会报错。所以说我们这期视频重点教大家怎么用 wsl 进行 win opencl 的部署安装，这样的话， windows 和 wsl 的安装您都了解之后之后学起来就非常方便了。然后接下来呢，老张给大家简单的介绍一下在 wsl 中如何安装我们的 openclaw，因为之前呢，咱们介绍过太多次了，很多兄弟留言说老张就别介绍怎么安装了，然后我们就给大家简单说一下注意事项。首先第一呢，你想在 wsl 上安装 openclaw 的话，第一点你得先在你的 windows 系统下把 wsl 安装一下，当然很多电脑老张发现其实都是自带的，怎么检查是否自带呢？咱们可以直接输入 wsl 空格杠杠威森，如果弹出定的版本号，证明 wsl 电脑已经安装了，如果没有弹出的话，使用安装指令 wsl 空格 insert 直接安装即可。然后紧接着按照老张给你提供的指令复制粘贴就可以了。先安装你的优班图，安装之后进行一下更新。安装完优班图之后啊，在这选择这个倒三角，找到优班图系统，就可以直接进入到你的优班图系统当中。在你安装过程中啊，它会让你设置一个用户名和密码，到时候可能需要做一步密码验证。在优班图系统中，注意是优班图系统中运行这些环境指令，分别安装 python 三，安装一个压缩包工具，方便安装一个 node 点 ps，然后再安装一个 get 工具。如果说为了检测每一步安装是否成功的话，你可以分别输入，比如 note 杠 v、 npm 杠 v，包括 get 杠 v，在这检测我们对应的这个版本。如果都能弹出版本号，证明你三项安装都是成功的，这是配置 openclo 的基本的内容要求。然后紧接着我们把基本环境配置好的兄弟，你还需要在这个位置安装一下这个欧拉玛。这老张要重点说一下，说老张我不在本地都已经下载好欧拉玛了吗？为什么在优班图里还需要再配置一下？其实我们优班图中是可以调用本地的欧拉玛的，但是很多兄弟在调用过程中分别给老张留言说说调用时无论是 ip 地址找不到，还是 ip 的动态变化，导致每次都需要重新连接，重新配置。所以说最简单的方式就是把欧拉玛在你的优班图系统中再次的安装一遍。其实安装非常简单，只需要把第一步的安装指令复制过去，直接在这个位置直接粘贴即可。安装成功的检测方式很简单，你就输入欧拉玛，如果他不报错还给我们对应的选项，是咱们是进行对话呀，还是怎么样的证明你的安装就是成功的？ ctrl c 直接退出。所以说欧拉玛安装之后，紧接着就是把我们的模型在当前的优班图中跑起来。老张刚才给大家测试的是 jm 四三十一 b 模型，我们直接输入指令欧拉玛空格 run，然后你的模型效果直接回车，第一次时他会直接进行对应的模型下载。如果说你现在只想用 open klo 来调用欧拉玛的这个占四的话，可以在我们的本地电脑上把之前咱们那个桌面端给他删掉，如果说你不你想两端都使用的话，就可以直接在这个位置进行使用了，然后发一个你好看一下响应速度，嗯，响应速度是非常快的，所以接下来我们把这个家伙欧拉玛的詹姆士直接部署给我们的 openclo，在这怎么中止对话，摁一下 ctrl c，再摁一下 ctrl d 啊，就可以直接进行中止对话了啊，所以说大家可以直接的把它退出来，退出来之后我们在这儿部署一下 openclo。关于 openclo 的安装呢，官网推荐是使用 c o r l 这种安装方法，但是老张发现很多兄弟在使用这种安装方式时呢，出现了这个网络问题，导致下载出现卡顿，如果说 c u i l 的方法报错的话，直接使用 n p m 安装也是完全可以的，安装完之后直接输入 open klo 空格杠 v 来输出最新的 open klo 的对应版本啊，这就是老张跟大家说的一些建议啊，大家按照这个要求去做就行了。然后接下来我们进入到配置，直接是直接输入它的配置指令回车，选择 yes，然后选择快速开始就可以，我们直接配置一下模型，然后选择更新，这选择谁呢？选择这个欧拉玛啊，然后选择默认的这个 ul，选择本地模型，让他去给我找一下咱们本地有哪些模型，稍作等待好，选择当前的这个模型，咱们四三十一币，然后配置我们的聊天软件啊，这个老张之前讲过太多太多次了，现在呢，他又支持了很多，包括 qq 之类的，大家有需要的话可以按照之前老张的教程再来一遍，我们先跳过打开之后啊，就可以直接对话。但是如果说善于观察的兄弟们也发现了，老张呢把这个使用模型呢换成了这个一四 b 的模型，不是那个三十一 b 的，因为三十一 b 呢，老张在测试的时候也好，或者在一些使用时候也好，他有的时候会出现这个连接超时的问题，也是 oppo klo 更新到最新版本出现了一个能启动问题，这个呢，老张现在还没有特别好的解决方案，所以说我先用一次必得给大家进行演示，发一个，你好，我们来测试一下他的响应速度啊，还是比较快的。然后接下来呢，我们再把之前的那个慢句的提示词发送过来，我们来看一下他能不能更好的帮我们去进行慢句提示词的对应理解，以及对应的相关反馈。嗯，其实我们看到啊，他反馈的这个结果呢，和三十一 b 相比啊，真的是有一定差距的，但是呢，确实也是另一方面实现了我们所谓的叫偷根自由。大家呢也可以后续啊，去测试一下怎么让本地如果你的显卡够用的话，把这个大模型给它跑起来。然后老张呢也会及时给大家更新，无论是在评论区中还是视频中教大家如何使用。我是程学老张，定期分享 ai 好用知识，希望大家多多关注。
4473程序员老张（AI教学）
02:41
谷歌彻底掀桌子了！ Gemma 四代全面开源，手机端也能跑的超级AI疯了！#谷歌 #Gemma #开源 #黑科技 #ai人工智能
1.3万Ai风向标
05:28
Google最强开源Gemma4，一键部署指南！【小白必会】 #ai新星计划 #人工智能 #谷歌 #教程 #本地部署
查看AI文稿
AI文稿
公主，你现在看到的就是谷歌最强的开源模型加码四，可以看图，能听音频，也有不错的推理机制，最重要的是完全免费，给我几分钟，从零开始，将加码四部署在自己的电脑上。我们直接开始先花一分钟和大家聊一下贾马四是什么？它是谷歌刚发布的开源 ai 模型，跟商业版的怎么奈同根同源，你可以理解为谷歌把自家最强的 ai 技术浓缩成了一个免费的版本，直接送给你用。那么它好在哪里呢？三个点。第一，多模态，不只是聊天机器人，你可以发图片让他看，发音频给他听，还能写代码。我们可以看看这张表格，横轴是模型的参数体量，而纵轴就是性能表现。贾马四以满血版的性能表现和千万的三百九十七 b 的模型能力基本持平，关键在于它的体量只有千万的十分之一，这真的非常夸张。第二，完全免费，不用充会员，不按 token 收费，并且可以商用，你可以模改它做成各种有意思的本地模型，拿去做产品也没有任何的问题。第三，隐私安全，因为跑在你自己的电脑上，所有的数据都不会出，你的电脑拿它处理合同，财务，私人物件，不用去担心泄露。 ok，我们直接动手。你现在只需要打开一个浏览器，然后把它放到全屏上，直接官网上搜索欧拉玛点 com 啊，然后这个东西就出来了。然后你只要点击整个画面的一个右上角 download，看到没有？然后你可以选择你是 mac os 系统还是 linux 还是 windows，我是 mac os，那你就直接点击这个 download from mac os，然后我们就可以看到这个画面上的右上角应该是会有个下载的链接，然后等它下载好就可以了，因为我这边其实已经安装好了吗？那么我这边的最终的一个输出效果的话，大概是在这里。你们下载完了之后，打开你们的桌面上的欧拉玛，你们看到的应该是现在这样子的一个画面，那就说明你已经安装成功。佳马仕一共有四个版本，你可以根据你的电脑配置进行模型的选择，模型的能力越强，所需要的配置就越高。对于内存小于三十二 g 的玩家，我建议大家直接安装一四 b，三十二 g 及其以上，可以试试看二十六 b 和三十一 b 的参数量，其实这两者模型的能力大通小异，如果你是为了极致的精度，可以选择三十一 b，但是在我看来，二十六 b 呢，其实是一个非常甜点的位置，达到了速度和精度的一个平衡。如果你不知道你的电脑内存是多少，这里针对 mac 用户，你可以选择终端输入这行命令。而 windows 用户你可以点击 win 加 r，点击回车，召唤出来你的终端以后，然后再输入这个命令，也可以显示出你的内存。选择好对应的模型，我们只需要打开终端，和刚刚一样的步骤，根据模型输入指令直接回车即可。等待模型下载好，打开你的 oala，选择模型就可以开始了。 ok，我们打开我们欧曼的软件，你点击这里，然后往下滑，你就可以看到你刚刚已经安装好的这个佳马仕。我们来问他一个很有逻，就是说很有那个逻辑陷阱的一个问题，就是我今天要去洗车，但是只有一百米，你觉得我是走路去还是开车去？ ok，我们来看一下他的一个答复是怎么样子。这是一个非常有意思的一个逻辑陷阱题，我们可以从不同的维度去分析。逻辑层面上来说，必须开车去， ok，这一点已经很棒了啊。那如果说是从脑筋急转弯角度上来说，他说如果你走路去，那么你是在散步，而不是在洗车。哦，也就是说他分为了三个维度，一个是脑筋急转弯，一个是实用主义层面，还有个就是逻辑层面。我们来看一下他这个佳马仕的这个逻辑能力。哎，你还真别说这小参数，但他的表现还是不错的。那么 jamas 它的一个很大的优点就在于它其实是支持这个多模态的。我们来不妨给他上传张图片，我们来看一下。 ok，那么我们上传一张什么图片呢？哎，上传张这个图片，你们看怎么样啊？就是这是一朵花，然后有个太阳，有一本书，我们来让他看看。我说，啊，描述一下，描述一下这个图片，我们来看看他的多模态识别能力怎么样？说实话，本地具有多模态识别能力的模型，而且是能够你自己去模改的，其实并不是很多。我们来看一下。 ok，一， jeff 二，然后 jeff 三，给了几个他看到的一些画面。好，我看他现在在思考和输出。这张画面充满了诗意，唯美且带一丝忧伤。画面主体是一本翻开的书籍。哎，确实是对的，背景与中景是一个画面，然后呢，躺着一只洁白的玫瑰，然后背景是有一个夕阳，散发出这个温暖的金橙色光芒，哎呦，很不错，你们发现没有，是不是很棒？就是说他好像表达的还是很到位的，但是因为呃，我其实本来还是想测一下这个关于音频识别和这个视频识别的，因为这个佳马仕它也是支持视频识别的，但是因为欧拉玛官方不太支持，所以大家可以自己去谷歌 as do do 上面去玩一玩。所以总的来说，其实通过这么两个比较简单的测试，它当然不够严谨，而我觉得感受来说的话，这个香奈儿丝还是真的是能够在本地帮我们处理一些比较复杂的一些任务的，就是在文字层面以及去多模态识别能力上来说，是一个比较抗打的模型。看到这里相信你一定会明白， olama 本身是一个模型管理器，你当然也可以不用贾马四，你可以选择开源的 deep stick，千问等等，其他的开源模型还是同样的命令，一键配置就可以了。本地捕鼠的最大优点就是保护你的隐私，模型的使用不会受到任何的限制，同时也可以支持模型的微调，让它更合你的口味。下期我打算教大家小白如何从零到一，微调自己的本地模型，感兴趣的可以点个关注，我们下期再见。
8725赵逍遥Xavier
06:19
谷歌Gemma4本地部署教程+接入OpenClaw实测！谷歌最新开源大模型Gemma4的实际战斗力到底怎么样？这期视频除了保姆级的本地部署教程，还接入小龙虾🦞进行实测！运行速度、推理能力、Agent 联动效果一次性为你揭晓。建议点赞收藏备用！#大模型 #AI #本地部署 #OpenClaw #macmini
查看AI文稿
AI文稿
谷歌最新开源的大模型 demo four 据说很强，在综合能力上甚至超越了二十倍规模的开源模型。今天教大家如何快速部署在本地，以及分享一下在 mac mini 上的实际体验感受，具体感受什么样？大家看视频吧。首先打开欧拉玛官网，下载它的应用程序，打开应用程序，我们看一下他目前支持的一些免费的开源模型，还没有 demo，所以我们需要去他的官网再去下载下载到本地。那么这里呢，有很多不同的型号可以看一下，它有很多不同参数的型号，有满配的，还有一些轻量版的。那因为我这个是 mac mini m 四十六 g 版本，所以我们就选择它系统默认推荐的这个九点六 g 的好，只需要复制这个指令，然后打开终端运行，它就会自动去下载这里下载了。那么我们先测试一下，测试一下他的回复速度，因为是第一次响应，所以速度会有点慢，然后我们打开活动监视器，看一下他占据内存的情况，这个模型本身就有实际系统走内存差不多也跑满了，这里他已经有回应了，我继续再测试一条，第二次响应速度要比第一次快很多，我叫 jam 四，我是一个由谷歌 deepmind 开发的。 ok，现在我们打开欧了吗？然后去加载一下，这里要重启一下这个程序，然后再看模型选择，里面最下面就已经有了已经安装好的，现在我们把这个模型对接到本地的小龙虾，只需要复制这个指令，打开终端，在终端里面运行，它就自动会加载好，这里有不同的模型选择，都是他支持的一些免费的大模型，我们选择 demo 让他去运行。 ok，这里已经加载好了，测试一下他的响应速度。这里我是放了八倍速了，说实话，因为实在是太慢了，他平均回复一个问题的速度差不多要两分钟，非常非常慢。我本来想在这个小龙虾里面测试一下他的执行任务的能力，但是这个速度的话确实没有办法，但是它有个好处啊，如果你有低血压的话，你就可以用它。我是动物城朱迪警官，你好吗？我过得还好，不错，谢谢。这里我甚至尝试开启快速模式，但是实际的感受没什么变化，就还是那么慢，所以只能放弃在这里面做测试了。那么我们还是回到欧乐玛，在这个软件里面测试一下这个模型本来的能力。这里给他放两张图，让他识别一下图先，一个是标格，一个是周杰伦，看一下他能不能准确的识别。这里我也是开了倍速的啊，但是这里的速度要比小龙虾里面快很多，我给他给出的答案是，图二是陈坤，图一是一名中国艺人，看来这个版本的模型识图能力还是有点差。接下来测试一道经典的陷阱题啊，这个对大模型来讲是一道陷阱题，很多大模型都倒在了这道题上面，那么他给的建议是走路去，最后测试一下他的复杂推理能力，这道题是我让 gbt 五点四给我出的一道推理题。 abc 三人中恰好有一人是骗子，永远说假话，另外两人永远说真话。他们各自说了一句话， a 说 b 是骗子， b 说 c 是骗子， c 说 a 和 b 至少有一个是骗子，请问谁是骗子？给出答案，并且给出完整的推理过程。好，他给出的推理过程和答案我跟 gpt 五点四给的标准答案对比了一下，是一样的，所以它的复杂推理能力还是可以的。 ok，总结一下实际体验感受啊，你如果是 mac mini m 四十六 g 版本，虽然能运行，但是它会把你的内存拉满，就是你的电脑会一直处于满负荷的状态，而且响应速度也很慢，所以使用感受是很差的。当然，如果你的电脑配置足够高的话，你是可以去尝试部署在本地的，因为它的响应速度肯定要比我这个要快很多。而且你还可以尝试去部署它的满配版，比如三十 e b 那个版本，能力应该是要比这个强不少。
143小代不懂代码
10:13
Gemma4手机部署与使用方法来啦~手把手教你使用每一个功能#ai #gemma4 #google #教学
查看AI文稿
AI文稿
叮咚，家人们 ai 大模型正式进入手机部署时代，昨天的视频呢，我跟大家说了，谷歌最新发布的加马斯模型可以直接在手机上面部署，今天我就来带大家实现它。首先咱们先看效果，首先我先打开我的手机的飞行模式，可以看到我现在这个手机是没有任何的 wifi 和数据连接的，然后这时候我们回到 ai，然后打开一个聊天窗口，我们问他一个问题，比如说帮我查一下苹果 ceo 库克，然后他会问我们需要什么，我们选择一他的职业生涯和背景，可以看到他直接就给了我们答案。按照我们正常逻辑思维来说，这些数据应该是在手机需要联网的情况下才可以给我们的答案，但是这个本地部署的大模型他就不需要联网，他就像一个活生生的人，他的脑子里面已经有这个记忆了，所以当你问他的时候，他可以直接就给你回答。那么这样一个模型我们究竟要如何安装与使用呢？那我们现在开始首先第一步呢，就是我们要打开我们的应用商店，然后在应用商店里面找到这个软件，叫做 google ai gallery，这是谷歌专门推出让我们使用扎马四模型的 app，安卓用户也是可以下载到的，但是安卓的用户需要在谷歌 play 商店里面才可以下载，然后我们这里已经是下载好了这个软件，所以呢我们直接打开就可以了。打开软件之后呢，你们会看到这个屏幕中显示的全是英文，并且软件的内部它是不支持我们去切换语言的，很多人看到这里就已经开始头痛了，那我看不懂英文咋办呢？其实不用慌，因为这里面的功能其实非常的简单，完全也不需要用到翻译，而且当我们在跟语言模型对话的时候，它是完全支持我们中文对话的。这里我们向下滑可以看到官方总共给了我们七个功能，从上向下分别是图像、语音、语言聊天、模型、花园以及手机操作。我们就先从最基础的开始 ai chat，也就是我们常用的文字聊天。那我们打开这个 ai chat 之后呢，可以看到它底下有五个模型给我们选择，其中三个是胶码三，还有两个是胶码四，那我们这一次主要针对是胶码四，所以我们就选择上面两个胶码四，然后这个胶码四它分为 e 二 b 的模型和 e 四 b 的模型，这两个我们要怎么去选？就是主要是看你的手机性能，如果你的手机性能稍微好一点，你就选择这个 e 四 b，如果你的手机性能稍微弱一点，那我们就选择这个 e 二 b，那我现在演示的这个设备是十六 pro max，那我们就选择 e 四 b 这个模型。当然你在使用模型之前是需要先去下载的，所以我现在就点开这个 e 四 b，点出来 it，然后进入到模型之后给大家做一个演示。首先我们先给他打个招呼，你好吗？哇，可以看到他这个回复速度真的是超级快，我之前一直认为这种手机跑的模型应该会很慢，没想到他的速度还是很快的。然后我们再问他一个，你是什么模型？你能为我做什么？看到他这个吐字速度真的是超级快，那这个速度呢？对于我们大部分人来说已经是超越了我们的阅读速度的，所以如果你是日常聊天或者写写论文啥的，这个模型对于我们来说是完全足够用的了，当然这只是最基础的文本聊天。那我们再去下一项看一下他的图像测试怎么样？那我们现在就已经到了他这个图像测试窗口了，我先给他一张图片，这张图片呢是一张上海滩的图片，让他看一下他对这个地标啊，还有图片内的内容识别度如何。 ok，在经过大概五秒钟左右的思考，他已经给了我们答案，然后他说这是上海的城市景观没错，然后他说这是上海中心大厦，这一点我不知道哎，他好像把东方明珠论成了上海大厦，虽然这两个地标中间只隔了零点八公里，但是我没有在图片中找到这个这个中心大厦这个东西，然后他说这是独特的双层球体啊，那看到了是建筑认错了，但是其他的关于黄浦江还有其他的描述倒是正确的，就是单独认错了这个东方明珠和中心大厦这个地标建筑。 ok，那我们就再给他一张东方明珠的照片，但是这是我们给他夜景的照片，看下他识别度如何。可以，他已经给了我们回答，他说这是上海的夜景，然后地标是上海中心大厦，那看来他还是认错了这个地标，他依然把东方明珠认成了中心大厦。其实我不知道他这后面这个逻辑是什么，有没有一种可能，他是去网络上找了类似的图片，然后类似图片说这个地方是中心大厦，所以他就给我们说这个是中心大厦的，我觉得应该大概率是这样。嗯，有知道的小伙伴可以打在这个屏幕上，那我们就先不纠结这一点，我们进行下一项测试，现在我们来试一下他的语言听写能力，然后这次我们依然还是选择这个 e 四 b 模型，我先给他发一段语音，你好，你能听得见我说话吗？现在时间是北京时间四月九日，看他能不能给我们提取出来。可以看到它已经完美的提取出来了我语音说的内容，并且没有误差，那看来它对中文的这个听写能力支持还是很强的。那我们进入下一项功能，然后这个功能呢？叫做 agent skill。相信大家对 skill 这个单词已经是很不陌生了， skill 是什么意思呢？就是一个技能，然后谷歌目前官方里面给我们默认是内置了八个 skill，但是其实它最重要的是什么？最重要的是它这个 skill 是允许我们自己再去添加的，所以我认为这是这个 app 里面最具有可玩性的一个功能。就是我还记得前一段时间在网络上很流行一个叫做前任 skill，就是把自己的前任变成一个技能，然后放进他们的 open cloud 之中。那现在你不用放进 open cloud 了，也不用打开电脑了，直接在手机之中就可以操作了。嗯，我相信后面会有很多人去专门为手机的这个开发 skill。那这个 skill 我也就不多说了，因为目前我这里只有官方的八个默认 skill，然后默认 skill 都是比较基础的啊，说的也没有太大的意义，大家自己后期自己去自行尝试一下就行。然后我们来到下一个这个红色的按钮叫做模型实验室，这个应该是对于比较极客的玩家用的比较多，那我们大部分的普通玩家呢，是很少也几乎不会用到的一个功能，所以我们这里就不过多传输。然后下一个绿色的这个是迷你花园，是谷歌官方出了一个专门用来语音玩游戏的一个小功能吧，也没有什么好说的，因为他是英文交互吗？嗯，大部分人可能也就是藏着新鲜进去看一看，也没什么好玩的。所以我们来到最后一个，也就是我认为第二可玩性比较高的一个功能，叫做手机操作，那他顾名思义呢，就是可以直接操作我们的手机，那我们现在点进去看一下，那我们点进来之后可以看到他首页是说他有最基础的五个技能，第一个是开关手电筒，第二个是创建联系人，第三个是发送邮件，第四个是在日历中创建，第五个是在地图中搜索，那这应该是最基础的，我不知道他有没有其他的功能，但是我们可以先把他的基础功能先试用一下展示一下给大家看。我这里是让他打开了我的手电筒，然后他确实也打开了我的手电筒，然后我们来试一下，让他关闭手电筒，嘿，然后他也成功的关闭了我的手电筒，然后我们最后来测试一下他能不能在地图中展示，可以看到他是直接调用了苹果官方的这个地图，然后打开了我要他搜索的地点，但是这个功能怎么如此的似曾相识呢？感觉有点像被前段时间被全网封杀了。豆包手机太眼熟了，只能说太眼熟了。 ok，相信大家看完以上的教学视频之后，都已经成功的安装好了手机端的胶码四，也对他的所有的功能呢都有了一个初步的了解，在手机端部署大模型，不仅仅是拥有极高的隐私安全，还支持在没有联网的情况下使用，真的可以说是开启了一个 ai 的全新时代。那么本期视频到此结束，咱们下期再见！拜拜！
793宾果AI
03:37
Ollama本地部署 Gemma 4 实操指南涵盖从硬件选择、安装配置到多模态调用及避坑指南，让你的电脑快速跑起Gemma 4。#Gemma4 #Ollama #本地大模型 #AI部署 #多模态
753AI信息差
02:13
1分钟搞清楚关于Gemma的一切为什么它号称全球最强开源模型？4大版本怎么想？硬件要求高不高？我该用它干嘛？一次性全解答#Gemma #OpenClaw
查看AI文稿
AI文稿
一分钟让你搞清楚关于全球最强开源模型 jam 的一切。最近谷歌开源了 jam 四，我将用四个问题让你清晰了解关于 jam 的一切。 jam 各版本的区别，我家的电脑能用吗？模型怎么部署安装？普通人用来干什么？先说他的四个版本，三一 b 直接冲上全球开源 ai 榜第三名，以前要机房才能跑的能力，现在你家里的高端游戏显卡就能搞定。轻量版的一二 b 和一四 b 为手机、平板以及中低端电脑设备打造，性能虽不是最顶级，但是绝对好用够用。而二六 b 猫号称总参数两百六十亿，但实际每次思考只用其中三十八亿个，最相关的效果却能媲美两百六十亿，能理解超长文章以及视频。简单说，无论你是用手机、笔记本还是高性能电脑， jam 四都能给你免费安全强大的顶级模型体验。再说你家里的设备是否能用上？一张图告诉你 jam 四个版本的最低要求。对于多数人而言，家用的电脑设部署一二 b 一四 b 完全够用，基本能满足百分之九十的使用场景。另外两个版本对内存要求较高，但是性能出众，属于好马配好鞍。再说模型安装，整个过程大概十分钟左右。首先下载 lm studio，然后打开 opencool 或者 id 工具，让它查找你本地配置，给你推荐安装哪个版本。之后在 lm studio 里下载，运行搜索推荐的模型名点下载，最后接入 opencool 或者 i d e l m studio，提供 open ai 兼容 api，在 open 框里把 api 地址改成， h t t p l o c a o s t colon twelve three four slash vivo 就能用 jama 四驱动你的 ai agent 了。网上攻略一大堆，这里就不展开了。最后说下所有人最关心的能用 jama 做什么？这里推荐三个场景，可以去试试。第一，构建本地知识库，把工作和学习相关的文件丢给本地 jama，让他帮你形成系统化的知识。构建个人知识库时进行向量缩影和 anitive，解锁数据不出本地，安全合规。第二，给家人搭建一个 ai 助手，下载好模型，配个界面，电脑手机都可以直接对话，不花钱不泄露隐私。第三，内容创作最大优点是无限额度，即便不如部分付费模型，但可以靠大量尝试提升优质内容的概率。千马寺会改写国内企业及政府客户的私部模型格局吗？欢迎在评论区发表你的观点。
286安思派人工智能
09:22
Gemma 4 架构解析深度解析Google DeepMind新发布的Gemma 4，揭秘其KV共享、Global Attention五重压缩及双路径混合架构如何实现“以小博大”，并对比Qwen3与GLM-5的技术路线差异。#Gemma4 #DeepMind #大模型 #模型架构 #AI部署
查看AI文稿
AI文稿
google deepmind 最近发布的 gemma 四带来了一个非常反常识的结论，模型的能力不太单纯，取决于参数规模的大小。数据证明， gemma 四的三十一 b 参数模型在数学、推理和编程这些硬核任务上竟然直接飞平，甚至超越了那些参数量在二零零 b 以上的巨型模型。更离谱的是它的微变体二十六 b a 四 b。这个模型虽然总参数有二十六 b，但每次处理任务时，真正起作用的活跃参数只有三点八 b。也就是说，它只用了三十一 b 模型不到十分之一的计算量，就跑出了百分之九十七的性能。这说明，只要架构设计足够高效，我们可以在极小的算力成本下获得极强的智能表现。不过，这种效率提升并不是万能的，在需要复杂规划的长周期任务中，比如自动写代码的 s w e bench，测试规模依然是王道。这意味着，架构优化能让小模型在特定任务上极其强悍，但要触碰智能的最高上限，总参数量依然是绕不开的物理基础。要理解 jam 四的优化，得先看一个痛点，全是 former 模型。在推理时，最迟显存的不是模型权重，而是 kv cache。简单说，模型得把之前所有对话的记忆都存在显存里，上下文越长，显存占用越高，很容易直接称爆。针对这个问题， jam 四在一二 b 和一四 b 这类边缘模型中用了一个直接的办法， kv 共享发现深层网络中相邻层学到的记忆表示其实高度相似，独立计算纯属浪费。于是他让后面的很多层直接附用前面层的计算结果，比如一二 b 模型有三十五层，其中二十层都在共享。这种精确附用直接砍掉了大量溶于计算，让模型能跑在算力受限的设备上。不过，在三十一 b 这种大模型里， google 并没有开启这个功能，因为大模型需要每层独立计算来保留更多信息增益。接下来是整个架构中最精妙的部分。 global attention 的五重压缩全注意力计算是最昂贵的 logo，为了把它压到极致，设计了一套环环相扣的链条。首先，他使用 gq a 组查询注意力，把 k v h 的数量压缩到八比一，但这会导致信息丢失。为了补回来，他把 key 的维度直接翻倍，用更宽的向量来承载信息。接着，他走了一步极端的棋，让 key 等于 value。这意味着模型在解锁和读取时用同一套表示，不仅让 k v catch 再次减半，还起到了一种智能化效果，防止模型过密合。但这样做在长文本下会产生位置编码失真。于是他引入了 pro p e，只对百分之二十五的高频维度进行旋转，让低频维度纯粹保留羽翼，不再被位置造成干扰。最后，他强制要求最后一层必须是大局注意力，确保输出的每一个词都能看到完整的上下文。这五步走下来，原本沉重的大局计算被压缩到了极限。在位置编码上， jama 四采用了双 rope 机制，简单说就是给不同场景配了不同的尺子。对于局部滑动窗口，它使用标准 ope 参数 f 为一万，处理五幺二到一千零二十四个口径的短距离保证位置感知极其精准，而对于大局注意力，它切换到 prope，把 feta 猛增到一百万，并且只旋转一部分维度。这样在面对二五六 k 这种超长上下纹时，能够有效过滤掉远距离产生的位置噪声。一套组合拳下来，模型既能处理好眼前的细节，又不会在长文本中迷路。接下来看一个非常独特的设计。 playa embedding，简称 ple，在传统的 embedding 在所有层里都是同一个，这就要求这项量得预先编码好所有层可能需要的信息，这对固定维度的向量来说压力太大了。 pl e 的做法是给每一个解码层都配一个独立的小型 embedded 表，这意味着 token 每进入一层都会收到一个专属的信号。在一二 b 模型中，总参数虽然有五点一 b，但真正参与计算的有效参数只有二点三 b，剩下的二点八 b 全是。这些 embedded 表虽然在硬盘上占空间，但推理时只是简单的查表，几乎不增加计算量。说白了，这就是用存储空间换取计算效率，让模型在保持二 b 级别推理速度的同时，拥有更强的表达能力。最后我们来看看二十六 b a 四 b 模型的灵魂双路径混合架构，它和 q n 或者 glm 的纯欧以不同，它在每一层都设计了两条并行的路。第一条是 dance m l p 路径，这是一个不依赖路由的全量计算通道，就像一个稳固的底座，提供最基础的信号。第二条是路由猫 e 路径，这里面有一百二十八个极其精细的小专家，每个 token 进来后，路由器会挑选最合适的八个专家来处理。这种设计非常聪明，它既有了 dance m l p 保证的稳定性，又利用了一百二十八个小专家带来的极高参数利用率。相比于早期只有八到十六个大专家的模型，这种细腻度分发能让每个专家学习的模式更专注，从而在极低的活跃参数下依然能跑出接近大模型的性能架构决定了效率，但训练决定了上限。目前一个行业共识是，通过蒸馏让大模型教小模型，效果远好于单纯的强化学习。 q 三采用了强到弱的蒸馏， clm 五则用跨阶段蒸馏来防止模型在学习新能力时忘记旧知识。而 gemma 四的强大，很大程度上得益于他的老师是 gemini 三。 google 利用 gemini 三生成了海量的高质量的推理链数据，然后为给 gemma 四进行指令微调。说白了，小模型的能力上限，其实就取决于那个教他的老师有多强。在训练管线上，三家公司走出了截然不同的路。最明显的差异在多模态式线上， gemma 四走的是原生融合路线。他在预训练阶段，就把视觉的 y t 编码器和音频的控风的编码器直接揉进了模型里，让模型像人类一样，在同一个大脑里同时处理文字、图像和声音。这样端到端的响应速度最快，逻辑一致性也最强。而 g l m 五走的是工具调用路线，它的基础模型本身不处理图像，而是像个调度员，需要看图时就去调用 g l m vision 这种专用模型。这种做法虽然在响应速度上稍慢，但灵活性极高，升级某个模态只需要更换对应的工具模型即可。 k y 三则采取了折中方案，将视觉能力交给独立的 vr 系列模型来承担。最后聊聊量化，也就是怎么把模型压缩到手机或显卡上。大多数模型用的是后量化，也就是模型练好了，再强行把精度从十六位压到四位。这就像是强行瘦身，难免会损失一些能力。但 jam 四用了 q a t，也就是量化感知训练，他在训练过程中就故意加入量化造声，让模型在还没出场前就习惯在低精度环境下工作。结果就是像维利亚发布的斯比特福典版本，精度损失极小。这种在训练阶段就做准备的方案，比事后压缩要高效的多。把数据摆在一起看，你会发现一个很有意思的现象，在数学推理测试 ai 米上， james 的二十六 b 模型虽然活跃参数只有三点八 b，但得分高达百分之八十八点三，这简直是效率奇迹。但你看 g i m 五，它凭借七四四 b 的庞大体量，拿到了百分之九十三点三的最高分。尤其是在需要复杂规划的 s w e bench 测试中， g l m 五毫无对手。这再次印证了我们之前的结论，在简单的推理和编程任务上，我们可以靠架构效率来以小博大，但如果要处理极其复杂的 agent 规划任务，总餐数量带来的规模效应依然是不可逾越的壁垒。面对常文本处理，三家公司走出了完全不同的技术路线。 java 四采用了滑动窗口和全聚注意力的交互设计，目标只有一个，在保证能看到全文的前提下，把单次推理的开销压到最低，追求极致的效率。听闻三则比较保守，坚持使用标准的全注意力架构，通过调整位置编码来扩展长度，追求的是极致的稳定和通用。而 glm 五最激进，它用了 mla 和 dsa 这套双重压缩方案，彻底抛弃了传统的缓存方式，目标是让模型在处理超长历史记录的 a 帧任务时依然能快速回溯且不暴显存。可以说，这三者分别代表了效率、通用和能力三个不同的工程方向。最后，我们给这三个模型做一个简单的定位总结，帮你决定怎么选。如果你追求的是极致的性价比，希望在有限的算力下部署尽可能多的实力，那么效率至上的 jam 四是首选。如果你需要一个表现稳定、生态完善且能应对各种通用任务的助手，那么均衡的 q 三是最稳妥的选择。而如果你是在开发一个复杂的 ai agent，需要模型具备极强的长文本规划和代码编辑能力，那么专精于此的 glm 五则是目前的最佳答案。回顾整个 jam 四的拆解，我们要记住三个核心结论，第一，参数效率的边界远比我们想象的要远，只要架构设计的好，小模型也能打赢巨无霸。第二，现在的开源模型竞争已经从单纯的参数竞赛转向了谁的蒸馏策略更好，谁的强化学习工程做得更深。第三，这个世界上没有所谓的最优架构，只有最适合特定场景的权衡。对于所有关注 ai 基础设施的同学来说，与其盲目的推算力，不如花时间去理解不同架构的效率特性，这才是真正的竞争力。
35AI技能研究社
03:00
Gemma 4 26B 我先替大家本地跑了一遍~ 结论先放前面：真的快！
因为是MoE A4B 架构，每次启动只会加载4B的模型，所以装之前我知道应该比较快，但装完测试没想到这么快，而且还是多模态，有点东西的。
这次视频里我主要测了 3 件事。
第一件事是响应速度。
这个不用多解释，大家看画面基本就能感受到。对本地模型来说，快不快，几乎直接决定了你后面还愿不愿意继续用。
第二件事是逻辑理解。
我拿一个经典陷阱题去试它：1+1=3 为什么成立。
这个问题测的不是算术，而是它能不能理解提问背后的语境。结果看下来，它不是那种很机械的回答方式，而是会顺着问题去找成立条件，这一点加分。
第三件事是图片识别。
着重测了它的多模态能力。现在很多模型都在讲自己支持图像，但“支持”和“真能用”之间差别很大。Gemma 4 26B 至少说明了一点：它不只是个聊天模型，图片理解这块能力是真的能打的。
先发这条，给大家看第一轮真实体验，我后面还会继续测 31B，也会接进 OpenClaw 看看工具调用和多步骤任务表现怎么样。
#gemma4 #google #本地部署 #开源模型 #OpenClaw
205YZZ
04:59
Gemma实测对比测试 Gemma 4模型，生产环境依然要选择适合的场景。图片识别：ChatGPT 不够完美，Gemini 3 最强！ #人工智能 #智能体 #企业AI #gemma4
查看AI文稿
AI文稿
这几天 jam 四的发布呀，让很多人都在宣传他的功能强大，甚至有人说终于可以实现 toc 自由了。 jam 四呢确实可以实现自然语言的推理，而且还支持多模态，支持文字、音频、图片和视频的读取和识别。但 jam 四是不是真的那么强大呢？它能不能作为企业级生产的模型来使用呢？今天呢，我就花了一些时间对比一下 g m 四，二十六 b 和三十一 b 这两个模型的能力，并且呢用同样的案例来对比了一下它们跟切的 g p t 和 jimmy 图片识别的差距。因为我这台电脑呢，相对来说配置还是比较高的，所以呢，我就同时下载了二十六币和三十一币这两个模型。环境呢，依然采用的是欧拉玛测试的场景呢，主要有两个，第一个呢是识别产品的宣传海报，第二个呢是识别商场的一个购物小票。我们先来看第一个场景，我选择了一个国内非常知名的舞蹈鞋品牌的产品宣传的海报，我们先使用 jam 四二十六币来进行图片的识别。二十六币这个模型在我的电脑运行起来还是相对比较快的，它的思考时间只花了十二点六秒。接下来呢就是对于图片信息的识别，整体信息识别的还是比较准确的，但这里呢产生了一个小小的错误，就是对于品牌名称的识别，把五院两个字识别成了别的名字。这个错误的原因呢，可能是因为图片中五院两个字采用的是草书的格式。那么接下来呢，我们换用三十一 b 的模型，看看能不能解决这个问题。我们使用三十一 b 这个模型呢，它的思考时间更长了，是因为我这台电脑运行三十一 b，可能相对来说还是稍微有那么一点点吃力，同样的，他对于产品的信息和描述都没有什么大的问题，唯独对于品牌标识五院两个字依然识别错误，但三十一币呢，比二十六币相对来说稍微好那么一点点，他只错了一个字，对另外一个字还是进行了准确的识别。所以对于图片中的文字的识别，特殊的字体界面四还是不能准确的进行识别的。接下来呢，我们再来看一下另一个场景， simmer 四是不是能够准确的读取购物小票。对于购物小票的识别呢，我们要求更加的准确，我们依然先使用二十六 b 进行测试，识别一下这张单据，以 jason 格式进行输出，因为购物小票相对来说的文字信息比较多，而且呢，要求识别的文字要准确，它在思考的时候花费了三十八点二秒，但整体的输出速度还是比较快的，这里边把信息进行的格式化，信息还是比较完整的。但是呢，二十六 b 模型也出现了一个错误，就是这两个中文的商品名称都有错别字。那么我们再来看一下三十一 b 的模型是不是能解决这个问题，同样让他来识别这张单据，以 jason 格式来进行输出。这一次呢，他花了更长的时间来进行思考，一共花了一百三十四秒的思考时间，对于文字的识别呢有所改善，但依然存在个别的文字错误，所以呢，我们最终可以下一个结论，界面四对于图片中的文字识别，它的准确度还是有待提高的，那么同样的场景，对于切的 g， p、 t 和界面奶三是不是都能够识别准确呢？我们再来看一下它们的表现。我们首先来看一下切的 gpt 的模型的表现，依然让它提取这张小票的信息，以 jason 格式进行输出，这个结果让我非常的意外，切的 gpt 也发生了文字识别的错误，我们来对比看一下这个字，这个玉字，它识别成了圆字，不过呢，只是发生了这一个错别字，其他的信息都是非常的准确的，而且的 g， p， t 对于产品海报的识别是非常准确的，虽然图片中含有特殊的字体，它依然进行了准确的识别，把五院两个字都正确的读取出来了。那最后呢，我们再来看一下 jamie 三模型提取的小票信息以及产品宣传海报的信息，都非常的准确，而且反应速度特别的快，几乎不需要进行等待，没有错别字错误，没有特殊字体的识别错误。所以在整个测试中呢， jamming 三的表现堪称完美，不但速度快，而且还非常的准确。所以最终的结论是，如果你在企业 agent 里边来进行使用，或者是在你的工作流中来使用图片识别功能，强烈推荐你使用 jamming 三 pro 模型。原因呢，只有一个，你需要的是快速准确的识别信息，如果一个 agent 或者工作流识别出来的结果还需要进行人工的核对，那么你上这个 ai 系统还有什么价值呢？
158AI.Accelerate
03:05
gemma4 + claudecode 已经能够进行长时间编程
端测模型有望执行生产任务
#ollama #gemma4 #claudecode #macstudio #claudecode
查看AI文稿
AI文稿
大家好，今天我们来玩 jam 四加 cloud code，内容包括下载运行 jam 四，接入 cloud code 编程能力测试。接下来简单讲一下安装和接入。通过欧拉玛瑙 jam 四就能够下载模型，需要注意的是需要加上模型的具体大小，比如说下载三十一币就是欧拉玛瑙 jamma 四冒号三十一币，等待几分钟模型就能运行。欧拉玛连接 cloud code 也很简单，用 cc switch 点击右上角，选择自定义配置请求地址，当中填 local host 和端口号，幺幺四三四保存就可以了。终端输入欧拉玛 launch cloud model jam 四三十一币。这样来看一下，现在的内存压力是很小的。执行指令登录说一句话，我们内存一下子就上来了，这样子呢，就说明我们的 cloud code 已经在调用 jam 模型了。要测试的场景是让接入了 jam 四的 cloud code 复刻我们的官网，想让它变成苹果官网的风格，先到 get design，点 md 里面找到它的设计风格，进入到前端重构目录下执行指令。这条指令是安装一个 md 文档，让 cloud code 知道如何模仿苹果的官网设计 design，点 md 好，现在已经可以了，命令也很简单，请你使用 next nex 的 gs 复刻我们的官网，参考 design，点 md 中苹果的设计风格，我们就持续等待吧，它已经运行了半个小时，还在 plan model，还在思考该怎么办，我们继续等待吧，现在已经持续运行了快一个小时，代码也编已完成，打开看一下，启动的时候报错了，让它修复一下，现在来对比一下。左边是重构之前的效果，右边是重构之后的效果，可以看到右边还是很贴近苹果网站的风格，今天做这个测试主要是想看本地模型在 agent 的场景下是否能够使用，相比之前的本地模型只能够聊天，现在已经可以支持一些 agent 的操作工具调用，基本可以长时间的运行任务，相信再过半年本地模型也能够达到生产的效果。大家有什么想测的可以告诉我，今天先到这里，谢谢大家。
26深圳AI应用开发
04:58
上条视频说Gemma4只能当聊天机器人，我不信。
今天给它装上了文件系统权限，它能在本地创建文件了。
然后我又想了个新招：让聪明的模型先示范一遍，再让Gemma4复刻——
结果它找到了图片，调用了技能，就是卡在最后一步出不来。
是模型太笨？还是内存不够？我倾向于前者，但还不确定。
答案等4月16号Mac Studio到货才揭晓。
另外顺手整理了一个选版本的经验公式，内存怎么对应参数量，视频里说清楚了。
#Gemma4 #openclaw #本地部署 #AI工具 #AI测评
查看AI文稿
AI文稿
hello，大家好，我是 ken。上条视频说到 gemma 四在接入到 openclaw 之后，只能充当一个聊天机器人，我不愿相信，也不甘心，一个二百六十亿参数的模型，能力应该远远不止于此。于是我今天又坐下来折腾了一天，有好消息也有坏消息，听我慢慢说。先说好消息，今天的第一个突破，在我给他安装了文件系统技能之后，赋予了他读写我本地文件的技能。果然，他可以根据我的指令在桌面生成一个 markdown 文件，算是一点小小的生产地了。但当我让他在桌面上创建 word 或者是 ppt 文件的时候，还是一样会牢牢卡住。好消息到此为止，但接下来我想到了一个新的思路，既然 openclaw 是有记忆的，它可以学习并且积累技能，那么如果我先接入到一个聪明的大模型，把我需要的技能都完整的走一遍，再切换回 gem 四大模型，看它能不能完美的复刻出来。于是我切换成了 podocr 技能之后，在桌面上放了一张带有简单文字的图片，然后让 codex 先做一遍演示，把图片上的文字准确地提取出来发送给我。结果非常顺利， codex 不但把桌面上的文字准确地提取了出来，还帮我顺带把技能也优化了一遍。好现在切换回 jama 四，让他重复刚才的操作。我给他下了一样的指令， jama 四可以正确地调用 pad ocr 这个技能，也能够识别到桌面上的图片，但就是在提取文字这一步，他怎么样都做不到，会卡住。我中途问他是否有停止工作，向我汇报进展，他都说正在提取文件中，但是无论我等待多久，十分钟，二十分钟，半个小时都没有给我任何的反馈。我担心是不是他在运行的过程中，我的电脑内存不足，导致他没有办法生成，于是我把模型切换成了更轻量级的 e 四 b 版本，结果还是一样，会在提取文字的过程中牢牢的卡住。这让我有点困惑，究竟是我的电脑内存不足，还是模型的能力不够？我更倾向于认为是模型的能力不够，因为二十六 b 混合专家模型在实际工作的过程中呢，只会调动四 b，也就是四十亿的参数。这个被激活了四十亿参数的专家可能还没有学会怎么去运用 o c r 这项技能，但也不能完全排除是运行内存不足导致的。现在还不能下定论，只有等四月十六号我的 max studio 到货以后，我让他跑三十一 b 满血版的大模型才能够有答案揭晓了，到时候我会第一时间和大家分享我的测试结果。上一条视频的评论区有很多人问我，他的设备的内存是多少，什么版本能够跑什么样的大模型？这里就 gemma 四的四个版本呢，我分享一个简单的小公式，供大家去进行自行计算。普通模型呢，就用你的内存或者显存储以四，得到的数字就是你能运行的大模型版本。比如说，如果你的内存是十六 g 除以四等于四，那么也就是说你的电脑可以跑 e c b 这个版本。接入 open cloud 以后呢，可以做问答机器人，也可以生成 markdown 文件。但是 jam 四的二十六 b 混合专家模型是略有不同的，因为就像我刚才所说，它在工作的时候呢，只会调动四 b 的参数，所以呢，是比较特殊的，如果内存达到二十四 g，就可以运行二十六 b 混合专家模型。还有一个简单的测试方法就是如果你电脑的内存是足够的，你可以把呃一二 b，一四 b 和二十六 b 三个版本的大模型都下载在本地，然后用欧拉玛去运行它们，看看你提出问题或者下指令之后，他们是否能够做到秒问秒答。如果能够做到秒问秒答的话，那接入 openclaw 它是可以做问答机器人使用，没有问题的。但是如果在欧拉玛中只是作为聊天机器人，它的回答都是相对来说比较慢的话，那接入 openclaw 肯定是没有办法使用的。在接入 openclock 以后呢，内存的消耗量会稍微大一点，所以大家在实际使用的时候，最好还是能够留一些余量的好。今天的折腾就分享到这里评论区，告诉我你们还想看什么，我们下期见。
32AI Ken
04:04
谷歌Gemma4开源！Cursor编程多智能体更新！ Mate的AI又又又掉队了!#ai #前沿科技 #gemma #Cursor #ai资讯
查看AI文稿
AI文稿
就在刚刚，谷歌直接往开源社区扔了一颗核弹，发布了 jam 四，而且给了一个史无前例最最宽容的开源协议。另一边呢，编程神器 cursor 三迎来大更新，直接让你化身赛博包工头！最离谱的是啥？小扎的 met 因为自家新模型难产，急的内部竟然讨论要去租谷歌的模型来凑数。今天这期视频，咱就以第一视角硬核拆解这波疯狂的 ai 大乱斗。首先咱来聊聊谷歌这次的掀桌子操作。谷歌刚刚发布了 gemma 四家族，从二十亿参数一路杀到三百一十亿参数，大家要知道，这些模型可是直接从他们压箱底的 gemini 身上扒下来的核心技术啊！但我跟你讲，这次最炸裂的根本不是啥跑分，而是它的开源协议！谷歌这次史无前例地采用了 apache 二点零协议，这意味着什么？意味着你可以完全拿去免费商用，随便改代码，甚至部署在你公司内网里，都没人管你，没有任何霸王条款。谷歌向来是个闭源狂魔，这次突然这么大方，绝对是被咱们中国开源模型比如阿里月之暗面给逼急了。中国模型在开源社区疯狂抢地盘，谷歌一看情况不对，直接摊牌，我也不设限了，大家赶紧来用我的吧！回到模型本身，谷歌这次主打把小模型压榨到极致，它的三十一 b 版本在 arena ai 开元榜单直接杀到了第三名，还在高难度的 g p q a 科学推理测试中拿下了百分之八十五点七的高分。而那些二 b、四 b 的小模型，不仅能直接在手机或树莓派上跑，还原声，支持本地音频输入，以后你的手机不用联网，本地 ai 就能听懂你说话。我觉得这绝对是端测 ai 的未来。看完谷歌，咱们再来看看程序员的最爱 cursor 三。以前我们用 ai 写代码，就像在带一个实习生，得一次聊一个任务。但 cursor 三彻底进入了多智能体 multi agent 时代。这代表什么？代表你现在升级成包工头了，你可以同时开好几个 ai 智能体并行工作，一号 ai 去修 bug，二号 ai 去写测试代码，三号 ai 去尝试一种全新的架构。它还加入了 worktree 指令，用来隔离任务以及 bestof 指令，让多个模型出方案给你挑。不仅如此，它现在还支持远程 ssh 和云端环境。我的感受是， curser 三已经不再是一个简简单单的代码辅助机器人，他直接变成了一个拥有多名 ai 员工的完整工作空间，以后一个人就是一支外包团队。接下来的这条信息就非常有意思了。最近有人在 madata 内部挖出了他们正在秘密测试的用来接班拉玛寺的一系列隐藏模型，代号叫 avocado、牛油果和 pericado，其中有个多模态版本，甚至能在测试里画出一只骑自行车的提护。听起来很厉害，但是据爆料称， avocado 本来打算在三月就发布的，结果硬生生被推迟到了二零二六年五月。原因非常有意思，内部测试发现它根本打不过现在的顶级竞争对手。最让人震惊的是，有传言说 mate 内部因为压力太大，甚至讨论过要不要暂时授权使用谷歌的 gemini 模型来顶一阵子，这就好比可口可乐卖断货了，跑去问百事可乐借糖浆。这也侧面印证了一个观点，现在的 ai 赛道极其残酷，连市值五万亿的巨头都在背后疯狂冒冷汗，稍不留神就会掉队。好吧，这几个重磅更新，彻底印证了 ai 战局已经从谁的模型最大，变成了谁的生态最开放，谁最能落地。通过谷歌这次的更新，你觉得未来全面开源的模型能干翻闭源模型吗？
58阿斯加德的锤王
07:13
手把手带你使用Ollama本地部署Gemma4详细实操分享 Gemma 4 本地部署，零基础也能部署成功，本期视频知识点：
认识Gemma4&优缺点分享
本地部署环境&配置分享
Ollama本地部署大模型方法&修改部署路径方法
本地模型文字生成和图片识别测试
#ai新星计划 #gemma4 #ollama #本地部署大模型 #ai大模型
查看AI文稿
AI文稿
大家好，本期内容我来分享如何在本地部署谷歌新开源的多模态 ai 模型代码四，我会分享命令行和格式化界面两种安装方案，零基础也能轻松搞定。最后我还会教你如何修改部署的路径，彻底解决大模型占用 c 盘的问题。本地部署的优势就是你的数据可以完全保存在自己的电脑上，隐私安全有保障，而且支持模型微调，可以打造专属的 ai 助手。但是他也是有缺点的，就是我们需要稍微懂一些技术，还有就是硬件的支撑，如果电脑配置高，自己可以部署折腾一下。有了本期视频，就算你不懂技术，跟着视频操作也可以部署成功。本期演示我只分享入门版本，主要就是参考部署的方法和流程。接下来我手把手带大家用欧拉玛一键部署。首先我们先来了解一下 jam 四到底是什么，它是谷歌新发布的开源多模态的 ai 模型，与 jimmy nay 是同源的。简单来说，谷歌就是把自家的 ai 技术打包成了一个免费开源的版本，让每个人都能用上。它的能力是非常全面的，支持文本交互、图像识别、音频处理，还能生成代码，基本上覆盖了所有的 ai 应用场景。下面我们再来看一下它的核心优势。核心优势它有三个，第一个就是多模态能力，文本、图像、音频代码，一个模型全部搞定。第二个就是完全免费，它没有会员订阅，没有暗次收费，可以随便的去使用，甚至用它去开发商业化的产品。第三个就是比较重要的隐私安全保障，本地部署模式下，所有的数据处理都在自己的设备上完成，敏感信息不会上传到云端，这是三大核心优势，就是在我们安装之前，需要我们了解一下这个安装环境。首先系统兼容性 demo，四是支持 mac os、 linux、 windows 三大主流操作系统，基本上覆盖了绝大多数的用户。然后就是内存要求，如果你的电脑小于三十二 gb，推荐安装四 b 版本，自己安装体验折腾一下就可以。如果你的内存达到或超过了三十二 gb，那就可以选择二十六 g 或三十一 g 的版本。在这里有一个小提醒，就是如果是 mac 电脑 m 系列的芯片，它的显存和内存是合二为一的，大家直接看内存就可以。如果大家不是 mac 电脑，比如 windows 或者 linux，那么就优先看显存，显存不够再看内存，这是关于这个配置的查看。像这个本地部署也非常简单，仅需两个步骤即可完成。第一个就是安装欧拉玛，这个欧拉玛就可以理解为是本地大模型的一个容器，它是装大模型的，有了它才可以运行。第二步就是我们容器安装好之后，我们需要给它把模型放进去，就是部署模型，两个步骤即可搞定。下面我们直接进入实操环节，我们来一起看一下部署的全部流程。在这里第一步我们就先要有这个欧拉玛，他是一个大模型的容器，就是我们打开之后选择右上角的 download，这时候我们就需要选择匹配自己系统的版本，在这里我这是 windows，然后我们选择 download for windows，在这里选择 download for windows 之后就会弹出窗口，我们选择路径直接保存就可以，当下载好之后，然后我们就安装即可，安装好之后打开就是这样的主界面，这个是我之前安装的版本，部署着一个一点五 b 的 zip，然后下一步就需要我们去选择大模型，我们还来到刚刚乌拉玛的这个界面，在这里我们选择左上角的 models，然然后在这里我们可以看到该马四，然后我们选择进来，它提供了好多个版本，在这里我就选择一个入门的版本，主要就是演示安装的流程，比如我们选择 e 二 b，然后我们选择，这时候我们就看到了这个安装命令，选择右边的这个两个方框，然后选择 copy，然后下一步我们就按键盘上的 windows 加 r 键，这时候出现运行窗口，然后在这里面输入 cmd，然后直接回车，回车之后就出现了这个命令窗口，然后我们刚刚复制了直接鼠标的右键，可以看一下，这个命令就粘贴过来了，然后我们直接回车好了，这时候它就开始部署到本地了，在这里我们需要等待一段时间，好可以看一下出现了 success 这个提示，就证明安装成功了。现在我们在这里可以直接和它对话，比如我们输入你好当前什么模型，然后我们发送可以看一下，他现在回复我们了，我是一个大语言模型，我叫 jama 四，这时候我们就在本地已经部署成功了，然后我们再回到欧拉玛的客户端，在这里在这个对话窗口右下角这里，这里可以选择模型，然后我们找到刚刚部署到本地的 jama 模型好了，这时候就切换好了。同样在这里我们也可以直接和他对话，比如我们输入你好，然后发送，这时候他就回复我们了，你好，很高兴和你交流，请问有什么帮助到你的？到这里我们就已经部署成功了。前面我们分享的是使用命令行 c l i 模式去部署，其实还有一个简变的方法，在这里我们还可以选择模型后面对应的这个按钮，也是可以直接部署的，这个是非常方便的。好，最后我再分享一个大家比较关心的问题，就是我如何设置这个本地模型的一个部署路径，在这里我们也不用去改环境变量了，这个客户端是直接支持的，我们选择左上角的设置，然后在这里选择这个 model location，在这里我们就可以去设置模型的一个保存路径，在这里大家自己设置就可以，是非常方便的。好，下面我这里演示的是上传了一张图片，就让他识别这张图片，我们一起来看一下他给我们的结果，好了可以看一下，我们给了他一张图片，我们问他这是张什么图片，他给我们的回复，这是一张符号或者是图标，然后他还分析了主要包含的元素，还有用途预测等等，能够精准的识别内容，并生成详细的描述，表现还是可以的。好了，现在我们本地部署成功了，然后刚刚我们也做了一个功能测试，第一个就是我们和他对话，就是文字处理，第二个测试的就是这个图像识别，他也是可以精准识别的，他虽然是多模态的，但是目前我们用的这个容器不支持多模态的输入，我们暂未测试音频和视频的识别。好，最后我再补充两个细节，就是第一个欧拉玛的拓展性他是非常强的，除了可以部署这个 demo 四，还支持比如通用签问或者是 deepsafe 等众多的开源模型，部署方法也是完全一样的，一条命令就能去部署。第二个就是本地部署的真正价值不仅仅是隐私保护，更重要的是支持模型微调，可以用自己的数据去训练模型，打造一个完全专属的 ai 助手。好了，这就是我们本地部署的所有内容，大家感兴趣的可以自己折腾一下，探索更多的玩法。好了，我们本期内容分享就到这里，可以留下你的想法，我们下期再见。
449掌舵者AI实验室
02:26
别再迷信大模型了！Gemma 4 这种“小钢炮” 才是 AI 的真命天子。参数大有个屁用？Google 告诉你：活儿细，比嗓门大更值钱 #Gemma4 #开源模型 #Gemini #google #本地大模型
查看AI文稿
AI文稿
先说个反直觉的，以前挑模型大家像挑冰箱，越大越好，双开门五百升能装一头牛。现在摘码四出来，感觉像有人默默递给你一个保温饭盒，看着不大，打开一看，三菜一汤还带保温，关键刚好塞进你包里。三 e b 的模型跑在你能买到的显卡上，效果跟那些参数巨兽掰手腕还不虚。这不是小布块好，这是直接换了赛道。不比谁块头大，比谁脑子转得巧。边缘端那俩小鸽子才是真狠角色。 e 二 b 和 e 四 b 名字听着像手机型号，干的事儿可一点都不清亮。你想啊，以前手机跑 ai，要么卡成 ppt，要么偷偷联网传数据，现在这俩小模型离线低，延迟还能听能看，你拍张菜单，他直接帮你算卡路里加翻译加推荐搭配，全程不用等云回复，这感觉像什么？向你随身带了个懂行的朋友，而不是一个需要打电话问总部的客服隐私这事终于不用靠我们相信你来保证了，而是靠数据根本出不去来，兜底看原许可证，别只看表面啊 pi 七二点零，听着像法律条文，其实就一句话，你拿去用，改了还能卖，我不收过路费。但有意思的是， google 这次不是施舍，是搭台。 hiking face 首日上线，奥拉玛拉玛 c p p 这些社区神器全支持，甚至你的游戏本都能 fine tune，这像什么像？有人不仅开了个免费厨房，还把菜谱、锅碗瓢盆甚至火控系统都给你配齐了。最后说一句，菜做好了，记得数名就行，但咱也泼点冷水。工具越自由，翻车越容易，模型微调歪了，输出带偏键，部署出 bug，这时候责任算谁的？开言的爽往往伴随着没人都抵的引诱。说点你能直接用上的长上下文加多余元，丢给他一篇五十页的用户反馈报告，让他按情绪、地域、问题类型自动归类，还能顺手生成英文摘要。以前得写一堆脚本加掉 api，现在一个 browns 搞定离线代码助手三、 e b 版本能在本地跑，你写运营自动化脚本时，让他帮你看逻辑，补函数，查 bug，敏感数据不用出本地安心。 e 四 b 加音频加视觉。想象一下用户拍张英语笔记的照片与英文这句话怎么读？模型直接识别文字加标注，发音加生成类似句型练习全程离线延迟几乎为零，这不就是你想要的故事加插图加句型学习流的自动化版本？
86JUN
04:02
Google最新大模型Gemma4使用方法和技巧！#AI #人工智能 #大模型 #干货分享 #一人公司
查看AI文稿
AI文稿
哈喽，大家好，酷狗前两天刚刚发布了最新的大模型 gm 四，这个大模型它是完全的开源和免费的，能够在本地的设备上离线运行，我用了这几天，我觉得这才是二零二六年最合理的 ai 技术路线。真正值得关注的是，呃，他的这个原声支持函数调用，这就意味着这个模型能够自主的使用工具，浏览网页，执行代码，调用 ipa，相当于你在本地安装了一个智能体，全程也不用联网，也不用花钱，完全可以调用本地的算理。但是呢，很多人都不知道怎么使用，所以今天跟大家分享一下专门四的使用。专门四分别有四个不同的版本，分别是 e 二 b 四、 b 二十六 b a 四 b 和三十一 b。这些模型大小各异，可以部署在手机、电脑和云端的服务器中，它非常适合文本的生成、编码和独立任务。这张图片呢，是谷歌官方的一个，相当于是个测评吧，不同大模型之间的一个测评。我们可以看到这几个都是市面上比较好用的大模型，嗯，包括我们国产的 d c 克千万和 kimi，还有那个 g p t，我们可以看到这是它们之间的那个性能的一个对比吧。嗯， nice 区域，我们可以看到这个是 g m 四，在我们传统的认知里，模型越大，参数越多，它的性能就越强。在途中我们可以看到 g m 四的这个三十一 b 的这个模型，在实战能力上竟然超越了千万的三点五，因为三十一 b 它只有三百一十亿的这个参数。千位三点五呢，它有将近四千亿的参数，这两者之间的这个体积相差了十倍，所以呢，你可以看出这面四就是用十分之一的体积跑出了十倍体积的对手，那这就意味着你不需要再付报的这个服务器的费，你在自己的电脑上，手机上就能够拥有世界最顶级的这个 ai 大脑。然后我们看一下这四个版本的功能吧，以及定位。三十一 b 被称为是全能大脑，它可以处理任何的这个你所想要的执行的一些任务吧，它的定位呢，也是非常的明确，是最顶级的一个型号，擅长呢查某某的创作以及深度的逻辑推理，它就像人类的思考会给你列出这个提纲一样，然后排查啊错误，然后再输出，所以他非常擅长于这个深度的长文写作。那么第二个是二十六 b 的，这个被称为效率之王，它的定位就是相对于上一个呢，它是一个平衡的版本，那么它的功能是保持在极高的智商的，同时呢，响应呢，要比三十一 b 更快，所以呢，它适合于这个频繁的互动啊，快速的迭代的创意的这种工作。那么第三个和第四个是一四币和一二币，这两个呢被称为侧端的，先分我们，我我认为的就是说它是一个轻量化的模型，它只有四十亿和二十亿的一个参数，所以呢，呃，它的这个体积相对也比较小，但是呢，虽然说它的体积比较小，但是可以通过这个 single 的强化处理一些日常的对话呀，这个日常的整理，呃，简单的，这样还是非常的流畅的，我们可以看到这是专门四网页端的一个界面，其实我这两天用的，用下来，我觉得他的这个云端的和网页端的这个使用其实是非常的非常的好给我的体验。因为普通人说实话你的电脑可能配置没有那么高，所以你装了最高的那个等级的那个模型，你使用起来你的电脑可能就会如果说你的性能不够的话，你的电脑就会起飞的。所以我建议啊，就是如果说你不是做一些特殊的一些任务的话，我建议直接用网页版的是最靠谱的。那电脑端有 pc 和 mac 的，它的一个好处我刚刚讲了，就是直接在本地运行，断网也可以使用，最大的一个好处就是它是保护隐私的，不用担心你的文件或者说是你的信息隐私会被泄露，因为断网也可以使用，我觉得啊，是这么的一个最大最大的一个特点。那么另外就是它的手机端是苹果和安卓系统都可以用啊，因为手机的内存是有限的，所以呢我的建议就说如果是你非要在手机上装这个，我建议就是用的轻量化的这个版本的，否则的话你的手机肯定会发烫，它运行起来特别的耗费你的本地的这个手机的一个算力的。所以最最第三个就是云端的，我是最推荐的这个直接再往月端调，而且你可以直接用免费的算力，因为使用也是免费的，你往月半使用也是免，不像其他的一些大毛器，你用着用他就没法用了，他就你的这个免费的额度，用完了不让不让你用了。但是 gm 四它是无限使用的，目前来说是免费使用的，所以的话呢，大家如果说是想用的话，尽快用起来，我觉得是非常好的一个大冒险。大家如果说有其他的问题，我们在留言区可以互动一下，有什么问题可以直接问我哈。
27一人公司小马哥
05:06
手机就能跑的AI大脑！Google Gemma 4实测 Google 刚刚开源了 Gemma 4 系列模型，最小的 E2B 只需 4GB 显存，手机就能离线运行。
本期用 iPhone Air、iQOO 15、iQOO 12 三台手机真机实测 Gemma 4 E2B，跑了常识推理、数学逻辑、代码理解三类任务，用数据告诉你端侧 AI 到底能不能用。同时演示 Ollama 本地部署 Gemma 4 + Claude Code 调用的完整流程。
#Gemma4 #Google #本地大模型 #Ollama #ClaudeCode
查看AI文稿
AI文稿
不久前，谷歌发布了 jam 四系列，它不仅是一款开源模型，更是一次关于如何把超级大脑装进手机的工程奇迹。今天我们一起来看一下它是如何用不到四 g b 的显存，跑出大模型的效果。这里我们做了一个测试，使用三台手机在本地离线跑 jam 四 e 二 b，屏幕上呈现的是这三台手机的测试数据，下面给大家看一下实际运行的情况。第一个加油问题，第二个 g two 铜龙问题，第三个字母出现次数问题。可以发现，关于对常识的判断仍然是小模型的短板。然后这三台手机中， iqoo 十五的运行速度最快。 simon 四一共四款，覆盖从手机到工作站的所有场景。 a dos base 最轻量手机和树莓派都能跑，自带语音识别，量化后只要四 g 显存。 a，跨出白瓷笔记本甜品级，速度和能力之间的平衡点。二十六 b，混合专家架构，总参数二五 b，但每次只激活三点八 b，用小模型的成本干大模型的活。最后是三 e b 单词，旗舰级模型，全参数推理，开源模型排行第三，适合有好显卡的用户。这里要讲一个关键的概念，单词和猫的区别，单词密集型。你看屏幕上这些格子，全不在闪，因为每次推理所有参数都参与计算，三十一币就是三百一十亿次，运算一个不少。它的优点是稳，缺点是慢，而且吃显存。切换 m o e 模式，注意看大部分格子暗了，只有几个在亮，这就是混合专家的精髓，模型里有一百二十八个专家，每次只派八个上场，剩下的待命。最后说说它的边界，左边是强项，文档识别，发票解析，代码补全，长文档，问答 agent，自动化任务，这些它都能做，而且跑在本地，意味着你的数据永远不用上传到别人的服务器。右边是它的短板，如果你问它能否替代跨腾或 gpt，答案显然是不行的，那能否进行高质量写作？这里我的回答是勉强可以，至于大规模的代码重构，那以它的能力还差得很远。说白了， jam 四是一个极其出色的本地工具型 ai，你把它当高效工具用，它不会让你失望。如果你把它当全能大脑用，那你就会很失望。想试的话，这里有两种方式，手机用户可以直接去 google 的 a i h gallery 上下载使用，电脑用户更简单，欧拉玛一键运行。下面我们来看如何用欧拉玛本地部署 jamal 四 e 四 b 模型，并使用 clogot 调用它。在 clogot 直接提问它是什么模型，它是由谷歌训练的大语言模型，欧拉玛在首次请求时加载模型，加载耗时三十八秒，显存系统分配总计实际首先确保电脑上已经下载过欧拉玛，只需执行一行命令，欧拉玛 round gemma 四冒号意思币，等待模型下载完成，总计约九点六 g 币。成功后在终端测试。问答，它是一个大语言模型，名字是 gemma 四，由 google deepmind 的开发，属于一个开放权重模型系列。复制这个模型 id，克隆项目源码，进入项目目录，运行安装命令，下载完依赖后进入引导界面，颜色模式随便选。第四个是我们做的国产模型适配选择第三项，本地欧莱玛模型，然后粘贴刚刚复制的模型 id 回车。确认到这一步配置成功。我们问个问题测试一下，现在已经调用成功已经登录的用户，想要切换模型，输入 logo，退出登录，然后运行帮人 devi，即可重新配置。我们最新版的 cloud code 已开源，大家关注评论获取。目前呢，该模型权重在 hackin、 face 和 kaido 上都能下载。以上便是我对 gmail 四的实测解读，如果你觉得有用，不妨点个关注，我们下期再见。
842AGI_Ananas
03:23
GitHub 2万星！Gemma 4 太猛了，谷歌最强开源 #编程 #大模型 #Gemma #Github #端侧
查看AI文稿
AI文稿
好，大家好，我是小刘。呃，今天我们一起来看一下在 ktapp 上最近比较火的几个开源项目。在这几周里面，那首先第一个是我们昨天讲过的这个 hermes agent，那这个开源项目其实是一个自我进化的一个 agent，呃，它主打一个可扩展，然后多带你开发工作流，现在已经目前从 openclaw 上全程迁到这边来了，就我自己使用的话，一般不再使用 openclaw 作为我的 agent 的一个呃主要的工作方式。那还有就是这个 open screen，这个是一个那个录屏工具，就可以帮助你放大放小，就大家现在看到这种屏幕啊，放大放小啊，就使用这个开源项目啊，当然它也是呃开源的。那第三个就是这个能够让你的这个 codex 呢，能够支持多个不同的那种角色嘛，就是，呃和那个监牢的 code 的有点像，就那我今天给大家分享的是这个这开源项目，这个开源项目在 get up 上目前收获了呃接近二十 k 的 star，它是一个端测模型。啥意思啊？就是说你可以在你的手机上去跑各种各样的本地离线大模型。好给大家举个例子，比如说我现在想在我的这种 iphone 上去跑模型，那这时候我直接可以把这个模型给它下到我手机上，这时候呢即使断网的情况下，它也可以通过这样的方式来去跑这个模型，并且这个模型还是多模态的。啥意思？就是你发图片给他，他可以直接去理解这个图片，并且呢能把这图片的这个细节说出来，也就意味着我们不需要去接入其他的模型，你有一台空闲的手机，你可以对外暴露一个接口，然后你的这种 app 就可以直接调这个 iphone 的这种，哎，这种能力啊，因为它的 gpu 本身来说在本地嘛，对吧？有时候我们做一些小的离线的这种呃 app，就可以通过这种方案去实现我们的这个呃模型的能力。那建议的话就是官方是建议在呃十二之后的这种手机设备，因为这样的话你的设备会运行的比较流畅，如果是之前的话，跑起来可能会，嗯，比较的卡顿啊。这是一个离线端侧的模型，所谓的端侧就是它的号的算力，就是用的是你本地的这种算力，可以看到这里有个那个呃 c p u 对吧？ c p u 是吧？ c p u 还有 g p u。然后这里可以调各种各样的域值，还支持不同的这种参数，那其实整个内内存占用大小其实也不是很大，就二点五四 gb 吧。然后呃，这是我们这一次呃再介绍的。首先的话可以看到他有目前有四个类型的模型，一二 b，还有一四 b，三十一 b 和这个二十六 b，激活四 b，那最好的肯定是这一个，对吧？这两个字可能会相对来说会好一点。然后我们可以看官网上的一个使用方式啊，挺有意思的，那你可以从这里去安装，你也可以从这个地方提供两个路口去使用这个开的项目。那官方也是哦，现在属于一个哦， ipad 阶段吧，我觉得，呃还有很多功能可能不是很完善，但是作为一个模型来说，他还是挺有意思的，他有兴趣的话可以去尝试一下打开，然后这里是测试哎，去问他问题，然后可以看到他甚至会自动调用 google 的这种地图，还有算术题啊，然后，呃，图片识别啊，你看他这识别这个图片啊，还有语音识别，还有就是一些常见的这个模型我觉得，嗯，最大的好处是什么？就是你可以在没有网络情况下去呃做一些呃就是问题的询问，即使在那种信号很差的地方，你也可以第一时间得到答案啊，还是挺有意思的，大家有兴趣的话可以尝试一下。好了，那这本视频全部看完了，我是小刘，我们下期再见。还多做了个 ppt，没用到，哈哈哈。嗯，好，我们下期再见。
148程序员晓刘
03:28
手机也能跑大模型了，Gemma4这次玩真的！#AI #Gemma4 #AI新星计划 #本地部署
查看AI文稿
AI文稿
谷歌啊，这次新发布的 jam 四，很多人第一反应啊，还是看参数升级。但是啊，我觉得这次真正厉害的啊，不是它三十一 b 的大模型，也不是二百五十六 k 的超强上下文，而是啊，谷歌开始认真把大模型往手机和电脑这种本地设备里推了。更关键的是啊，这次还直接放到了 app 二点零协议下，这两件事情一叠价啊，味道就完全不一样了。其实啊，以前的杰玛虽然能用，但是很多人根本不敢放开手脚用，不是他的模型不够强，而是协议的边界太模糊。我给你打个比方啊，以前的杰玛，就像谷歌免费租给你一套房子，你能住，但是啊，规矩啊特别多，不能改装修，不能转租，就算转租，下一个租客也得守规矩。最坑的是啊，什么算改装修呢，他也说不清楚，就比如说换个灯泡，也可能会算你违规。但是啊，这次不一样了，杰马斯啊，直接换成了 apec 二点零协议，相当于他把这套房子直接送给你了，你想怎么改就怎么改，想住就住，想租就租，想开公司赚钱也行，谷歌啊，再也不管你，也不会找你要钱了。再说说模型本身啊，杰马思啊，这次一口气出了四档模型，不能小看它，这次官方主打的是智能 a 帧能力，它原生支持工具调用、结构化阶梯输出系统指令，还能处理图像和视频。最核心的就是这个 m o e 能力，能够根据指令来进行自动分工，真真意义上实现了省时省算力。哪怕基础的 e to b 和 e forb 都自带原声音频输入，上下文处理能力啊，也是直接拉满，最高二百五十六 k，再加上一百四十多种语言支持。杰马萨已经不是单纯回答问题的工具了，它已经变成了一个本地智能助手引擎。目前啊，欧拉玛已经支持本地部署了，我们直接用这个指令就可以直接安装了。模型的选择啊，也取决于你的电脑配置，我整理了一份配置表，大家可以自取。好这里啊，我就不演示安装了，我们直接上。结果现在这台电脑是完全断网的状态。本地呢，跑的就是通过欧拉玛拉取的 jama 四一或币这个模型。第一步啊，我给他一份长篇学习资料，让他呢压缩成三句普通人能听懂的话，每句呢，不超过二十五个字。第二步，我让他把这三句话改成二十秒的抖音口播，开头三秒必须有冲击力。第三步，我让他直接按 jason 格式输出标题、封面字、分镜和置顶评论。注意看啊，重点啊，不是他会写字，而是这三步啊，全程在本地完成，不用连云端也不怕断网，而且输出的内容啊，能直接拿去用。如果这种能力再往前一步，本地内容助手，本地办公助手，本地智能工具很快就不再是概念了。还有一个大家忽略的关键布局，官方已经把 jam 四接入了安卓系统的原声 ai 框架和全设备智能平台，这意味着它从一开始就不是只给电脑端玩家用的。土哥的目标啊，是让它成为所有智能设备的通用。再过一个多月啊，就是谷歌年度的开发者大会了，可以敬请期待一下。所以我敢说啊，杰玛斯啊不是一次普通的模型更新，它是一个分水岭， ai 不再是大场云端的专属特权，而终将要回到每一个普通人的手里。好，本期视频就到这里，我是爱分享的阿月，我们下期再见。
23阿悦很严格
01:51
Gemma 4登场：不跑云端也能碾压GPT-4？#AI #科技 #人工智能 #认知
查看AI文稿
AI文稿
这几天，谷歌寄出了一季重锤全新的 jam 四，这回可不是简单的例行更新。对于 ai 赛道来说，这是一场实打实的底层清洗。他告诉所有人，想要拥有最强的逻辑推演能力，根本不需要你去连什么数万元的高端云服务，哪怕你在自己的笔记本，甚至是稍微高端点的手机上，都能把这台数字怪兽给跑起来。以前咱们觉得大就是正义，没个万亿级别的参数量，这模型都不好意思出来跟人打招呼。但 jam 四这波操作直接玩出了花，哪怕是参数只有三十一倍量级的主力版，在性能逻辑上居然直接摸到了同级别模型里顶级巨兽的后脚跟，这背后就是逻辑推理被极度浓缩后的技术奇迹。这就好比你找了个专科门诊，不用费劲挂专家号，系统会自动把你问的问题匹配给逻辑最强的那个核心模块。以前那些商业模型最大的护城河是因为我有资源，所以你要租用。现在 jam 四硬是把这道收费墙给拆了，这意味着未来的竞争彻底变味了。以前大家比拼的是谁囤的芯片多，谁能卖更贵的授权，现在看的是谁能把这算法逻辑做的足够小，跑的足够快，最后真正把生产力毫无压力的塞进每个普通人的办公场景里。对于我们每个人来说，这预示着一种全新的交互方式。不管是在飞机上，还是身处信号全无的山区， ai 都会一直躺在你的设备深处待命，你的数据资产再也不会被迫为给大厂商做练功时了。真正的科技不应该只活在服务器、机房里让人仰望，而应该变成像水龙头一样的基础配置。当你彻底拥有这种随处可调用、随时都能逻辑进化，还不用付月租费的模型时，不管是写文章还是理账单，你的效率感知是真的要从本质上变了。觉得这是以后每个人生活必不可少的工具的评论区咱们仔细聊聊，毕竟这场属于咱们的算力狂欢是真的到点了。
5森盟体制谈规划

热门推荐

热门分类