千问3.6 27B稠密模型原地提速20%+Hermes实战！ OMLX在0.3.9版中率先加入了原生机遇MLX框架的MTP多token预测特性。这个特性可以直接利用千问3.6、Gemma4这些模型内部的投机解码构架来同时并行预测多的token从而达到提高推理速度的目的。同时我们用MTP千问模型来驱动Hermes来实战一下LLM WIKI的任务。#ai干货分享 #hermes #ai赋能课堂 #零基础学ai #ai教学视频

Gemma4 mtp教程

35

19

33

5

举报

发布时间：2026-05-14 11:13

查看AI文稿

AI文稿

哇啊，大家好，今天给大家带来 o m l x 的最新更新，零点三点九版，这个版本里除了加入了对 deepsea v 四的支持外，最重要是加入了对 m t p 的原声支持。 mtp 简单的来说就是模型内部的一个投机解码架构，和普通的投机解码相比， mtp 不需要你额外挂一个草稿模型，所以可以省内存在官方的 github 发布页，大家可以根据自己的 macos 版本下载。下载完成之后需要下载对应的支持 m t p 解码的模型，我们可以来到 o m x 作者的哈根 face 网站下载后缀带 m t p 的模型，大家可以根据自己的内存情况酌情下载。下载完成后，我们需要到模型设置里打开 native m t p 这个选项。这里我们用千万三点六二十七 b 稠密模型做例子，因为 mtp 对混合专家模型的加速效果不明显，我们先用 mtp 模型执行一个写修仙小说的任务，我们可以看到速度大约是每秒二十五个 tokens。下面我们用普通的没有 mtp 的模型跑一遍相同的提示词，我们可以看到生成的速度是每秒二十个 tokens。在同样都为四比特量化的情况下， mtp 模型比非 mtp 模型的速度快了百分之二十。我们再来看看巴比特的 m t p 模型，其实我觉得六比特会是一个甜点区间，但是奈何作者没有发布六比特的，所以我们直接上巴比特的。此时巴比特的千问三点六二十七 b 稠密模型的推理速度也有每秒十八个头，肯斯和四比特五 m t p 的模型几乎一样，要知道巴比特的量化精度几乎和 f p 八浮点差不多了，几乎达到了满血模型的水平了。最后我们再用这个几乎满血的巴比特 m t p 模型来驱动最近很火的 hermes，使用 andrew karp 大神的 l l m y t 来执行一个搜索并整理知识库的实战任务。这里我的搜索 api 额度用完了，所以我需要让千问三点六稠密使用浏览器智能体直接操作浏览器来获取信息。这个 release 页面应该是太长了，我们让他只关注零点三点九的 release 内容。我们可以看到千问三点六二十七币顺利的操作浏览器拿到了所需的信息。这里他在查看了 l l m wiki 后发现没有相关的内容，然后他阅读并根据 l l m wiki 的结构开始创建 o m l x 的相关 wiki 页面。最后我们可以看到千位顺利的完成了任务，并且按照 l l m v t。的结构和要求更新了 skin 吗？ index 入口，还更新了 log，我们打开 obc 点快速的看一下，很好，没毛病，现在就等拉玛 c 加加的 m p p 更新了，毕竟 g g u f 的量化性能更好，更小的量化可以带来更好的推理速度呢。

粉丝3656获赞2.0万

相关视频

05:28
Google最强开源Gemma4，一键部署指南！【小白必会】 #ai新星计划 #人工智能 #谷歌 #教程 #本地部署
查看AI文稿
AI文稿
公主，你现在看到的就是谷歌最强的开源模型加码四，可以看图，能听音频，也有不错的推理机制，最重要的是完全免费，给我几分钟，从零开始，将加码四部署在自己的电脑上。我们直接开始先花一分钟和大家聊一下贾马四是什么？它是谷歌刚发布的开源 ai 模型，跟商业版的怎么奈同根同源，你可以理解为谷歌把自家最强的 ai 技术浓缩成了一个免费的版本，直接送给你用。那么它好在哪里呢？三个点。第一，多模态，不只是聊天机器人，你可以发图片让他看，发音频给他听，还能写代码。我们可以看看这张表格，横轴是模型的参数体量，而纵轴就是性能表现。贾马四以满血版的性能表现和千万的三百九十七 b 的模型能力基本持平，关键在于它的体量只有千万的十分之一，这真的非常夸张。第二，完全免费，不用充会员，不按 token 收费，并且可以商用，你可以模改它做成各种有意思的本地模型，拿去做产品也没有任何的问题。第三，隐私安全，因为跑在你自己的电脑上，所有的数据都不会出，你的电脑拿它处理合同，财务，私人物件，不用去担心泄露。 ok，我们直接动手。你现在只需要打开一个浏览器，然后把它放到全屏上，直接官网上搜索欧拉玛点 com 啊，然后这个东西就出来了。然后你只要点击整个画面的一个右上角 download，看到没有？然后你可以选择你是 mac os 系统还是 linux 还是 windows，我是 mac os，那你就直接点击这个 download from mac os，然后我们就可以看到这个画面上的右上角应该是会有个下载的链接，然后等它下载好就可以了，因为我这边其实已经安装好了吗？那么我这边的最终的一个输出效果的话，大概是在这里。你们下载完了之后，打开你们的桌面上的欧拉玛，你们看到的应该是现在这样子的一个画面，那就说明你已经安装成功。佳马仕一共有四个版本，你可以根据你的电脑配置进行模型的选择，模型的能力越强，所需要的配置就越高。对于内存小于三十二 g 的玩家，我建议大家直接安装一四 b，三十二 g 及其以上，可以试试看二十六 b 和三十一 b 的参数量，其实这两者模型的能力大通小异，如果你是为了极致的精度，可以选择三十一 b，但是在我看来，二十六 b 呢，其实是一个非常甜点的位置，达到了速度和精度的一个平衡。如果你不知道你的电脑内存是多少，这里针对 mac 用户，你可以选择终端输入这行命令。而 windows 用户你可以点击 win 加 r，点击回车，召唤出来你的终端以后，然后再输入这个命令，也可以显示出你的内存。选择好对应的模型，我们只需要打开终端，和刚刚一样的步骤，根据模型输入指令直接回车即可。等待模型下载好，打开你的 oala，选择模型就可以开始了。 ok，我们打开我们欧曼的软件，你点击这里，然后往下滑，你就可以看到你刚刚已经安装好的这个佳马仕。我们来问他一个很有逻，就是说很有那个逻辑陷阱的一个问题，就是我今天要去洗车，但是只有一百米，你觉得我是走路去还是开车去？ ok，我们来看一下他的一个答复是怎么样子。这是一个非常有意思的一个逻辑陷阱题，我们可以从不同的维度去分析。逻辑层面上来说，必须开车去， ok，这一点已经很棒了啊。那如果说是从脑筋急转弯角度上来说，他说如果你走路去，那么你是在散步，而不是在洗车。哦，也就是说他分为了三个维度，一个是脑筋急转弯，一个是实用主义层面，还有个就是逻辑层面。我们来看一下他这个佳马仕的这个逻辑能力。哎，你还真别说这小参数，但他的表现还是不错的。那么 jamas 它的一个很大的优点就在于它其实是支持这个多模态的。我们来不妨给他上传张图片，我们来看一下。 ok，那么我们上传一张什么图片呢？哎，上传张这个图片，你们看怎么样啊？就是这是一朵花，然后有个太阳，有一本书，我们来让他看看。我说，啊，描述一下，描述一下这个图片，我们来看看他的多模态识别能力怎么样？说实话，本地具有多模态识别能力的模型，而且是能够你自己去模改的，其实并不是很多。我们来看一下。 ok，一， jeff 二，然后 jeff 三，给了几个他看到的一些画面。好，我看他现在在思考和输出。这张画面充满了诗意，唯美且带一丝忧伤。画面主体是一本翻开的书籍。哎，确实是对的，背景与中景是一个画面，然后呢，躺着一只洁白的玫瑰，然后背景是有一个夕阳，散发出这个温暖的金橙色光芒，哎呦，很不错，你们发现没有，是不是很棒？就是说他好像表达的还是很到位的，但是因为呃，我其实本来还是想测一下这个关于音频识别和这个视频识别的，因为这个佳马仕它也是支持视频识别的，但是因为欧拉玛官方不太支持，所以大家可以自己去谷歌 as do do 上面去玩一玩。所以总的来说，其实通过这么两个比较简单的测试，它当然不够严谨，而我觉得感受来说的话，这个香奈儿丝还是真的是能够在本地帮我们处理一些比较复杂的一些任务的，就是在文字层面以及去多模态识别能力上来说，是一个比较抗打的模型。看到这里相信你一定会明白， olama 本身是一个模型管理器，你当然也可以不用贾马四，你可以选择开源的 deep stick，千问等等，其他的开源模型还是同样的命令，一键配置就可以了。本地捕鼠的最大优点就是保护你的隐私，模型的使用不会受到任何的限制，同时也可以支持模型的微调，让它更合你的口味。下期我打算教大家小白如何从零到一，微调自己的本地模型，感兴趣的可以点个关注，我们下期再见。
9990赵逍遥Xavier
01:32
谷歌放大招！Gemma 4配“MTP起草器”推理狂飙3倍 #fullservice #电脑知识 #程序员日常 #洋垃圾 #大西洋唱片公司介绍
查看AI文稿
AI文稿
科技圈投下了一枚效率核弹，谷歌官方重磅宣布为开源顶流 jam 四系列正式退出多头肯预测 ntp 奇草器实测推理速度直接最高飙升百分之三百，而且最离谱的是输出质量和逻辑能力竟然零损耗！这波白飘级优化直接把端测 ai 的门槛踩进了地狱！难度为啥这么神？其实谷歌是看透了咱们显存贷宽被卡脖子的痛，直接祭出了投机解码的硬核黑科技前的模型就像一个字一个字往外蹦的老学究。而现在，轻量级的 mpv 起草器化身预言家，利用闲置算力，一口气提前猜出后面一串词，再交由 jam 四这个主考官一次性定型批改通过。用布加迪跑北京，早晚高峰更是被它完成了高速公路不限速。不管你是拿 pixel 手机 macbook，还是吃亏已久的 rtx 三零六零老显卡，配上这尊神，直接全网通杀手机，端速度干翻二点八倍，消费级显卡也能丝滑跑通三幺零 e 参数大模型，以后再也不用花重金租天价算力，也不用忍受一次一顿的归宿。打字 animation 大厂还在算计怎么靠 api 割韭菜，谷歌反手就把屠龙刀塞给了普通人。这不仅是开原界的降维打击，更是咱们打工人一线搞 a 阵、跑知识库的铺天富贵！
4互关-三千万女AI机器人一亿男AI机器人
01:18
gemma 4 mtp#AI
查看AI文稿
AI文稿
每天介绍一个 ai 技术，今天讲 jama 四密 t p 给你的模型推理加速三倍，不降低输出质量。看完就知道怎么用推测解码加速推理，你是不是也遇到过这个问题？ l m 推理速度慢，等待时间长，每次生成一个 token 都要移动数亿参数，从 v r a m 到计算单元，浪费时间又影响用户体验。推测捷码把 token 生成和验证分开，用轻量 draft 预测多个 tokens 目标模型并行验证。如果同意一个 forward pass，就接受整个序列。原本生成一个 token 的时间，现在可以生成多个 raft 共享目标模型的 carry cash，不需要重新计算 context，对边缘模型实现高效聚类。技术进一步加速生成，每一步都优化，速度自然快。实测效果三倍，速度提升，零质量损失。 apple cly 康批量处理达到二点二倍加速， midi i 一百也能达到类似效果。二十六 b o o m 和三十一 b 单词模型在消费级 g p u 上跑得飞快。今天的分享就到这里， jama 四 m t p 让你的模型推理加速三倍，零质量损失。点赞收藏关注一下，明天继续分享 ai 技术，转发给你的朋友，他们可能也需要推理加速。
4王鹏LLM
02:58
Google深夜放毒：MTP投机解码本地大模型提速三倍教程 Google深夜放毒，教你用MTP投机解码技术让你的Gemma 4 /Qwen3.6 27B 本地大模型提速三倍 #本地大模型加速 #MTP #投机解码 #投机解码教程 #本地大模型MTP
查看AI文稿
AI文稿
谷歌真的是深夜放毒，官方教你把 jam 四提升三到四倍。我们先看一看谷歌刚刚发布的这个技术文档，这个技术文档里面呢，它就提到了一种叫 mtp 的技术，也就是我们前几天刚讲过的 mtp。呃，谷歌提到 mtp 的话，它基本上已经是比较认同这个技术，而且这个技术是非常值得推荐的。呃，我们先看一下它给的一个对比效果， mtp 也就是投机解码，谷歌给出了一个实用的效果，我们可以看到两侧的一个速度差异，基本上能把这个本地大模型的速度提升两到三倍。好，我们先看一下具体的一个配置方法，比我们想象的简单。这两天我一直在做测试。嗯，把这个谷歌的这个模型直接在嗯， l m studio 里下载一下，看一看，试一试能不能配置。但是实际上我们可以看到它这个模型吧，就是选择这个下面这个投机接码的草稿模型的时候是没有办法去兼容的，所以说我们只能用我们自己的方法去用命令行的方式去配置。先点开一下我们的智能体，让它帮我们配置一下，看看有什么样的方法。在视频的最后，我也把千万三点六二十六 b 这种模型的配置方法。呃，具体方案给大家再演示一遍。呃，因为很多人对这个千万比较感兴趣。好，我们先翻找一下。呃，我之前配置的一个历史记录，我们可以看到谷歌非常贴心的给到我们非常成熟的方案。第一个是直接用奥拉玛直接拉取这种支持自投机解码，或者是支持已经配置投机解码的大模型，我们什么都不需要做，直接用奥拉玛运行就行了。但是我们都知道奥拉玛它的速度比较慢，我也不大喜欢，所以说我们还看一看有没有别的方法。第二个方法就是直接使用刀口镜像啊，这种也不需要我们去手动去配置，然后直接拉取镜像运行就可以了。我也是选择这种方法，然后把这个投机码运行起来的效果还是很不错的啊，跟官方说的一致啊，基本上这个就没有什么技术门槛了，把这个命令行就这一句话，那你运行一下就可以了。嗯，非常非常的简单，我会把涉及到的一些呃代码命令行直接贴到文本教程里面去。好，最后我们再补充一下前文三点六的一个 mtp 投机码配置，我们可以看到这两个模型它的搭配起来是速度最佳的，我们测试一下看一看。嗯，这个生成速度，呃，作为本地大模型来说是非常非常的够用了。其实重点就是把主模型和草稿模型选对配套可抄作业的文案教程已放公众号。
33酋长师兄
06:46
iPhone 最強本地AI | Gemma 4 #IPHONE #手机AI #离线AI #GEMMA4
嗨喽，大家好，今天分享iPhone本地运行Gemma 4的使用感受！感谢收看！
查看AI文稿
AI文稿
整个恢复的速度相当的快，这是在手机上，而且大家看现在完全的没有联网。哈喽，大家好，那今天跟大家分享一下，基本上可以说是 iphone 上面最强大的免费本地 ai，完全不需要联网，搭载的是 game 四啊，非常的强大，大概就这个软件啊。 edge gallery 点开之后点击这边，我们可以选择我们的 model 子啊，这边有非常多的什么 jimmy 三呐， jimmy 四， jimmy 四是 google 推出的啊，给迷迷同样也是 google 推出的，但是他不想给咪咪，给咪咪那是付费的，这个是完全的免费的，这里面我是下载了一二 b，一二 b 它是二十亿参数，一四 b 是四十亿参数。那真马四相比于过去的真马三，主要有这么几个特点啊，首先第一个就是它整个脑细胞啊，整个容量会更加的高啊，就是模型架构进行了一个非常大的优化。苹不是苹果啊， google 通过非常高效的蒸馏技术 distillation，可以让四十亿参数，就这个一四二 b 啊，可以达到过去一百亿二百亿模型那这种水平，所以它整体智商就更加的高了，但是它占用的内存却没有变，所以它就可以让我们使用这个 iphone 十七 pro max 这种十二个 gb 内存的手机，也可以非常流畅的使用，而且它现在是支持了多模态原生支持，就是它可以理解我们拍摄的图片，逻辑和语言都是同步的，识别精度跟上一代比啊，提高了大概百分之四十，而且它整个记忆力也增长了，整个智商更加的高了。过去我们在使用手机端的模型的时候，哔哔几句，他就忘了前面哔哔啥了，所以这个是一个非常大的痛点，但是这次 jam 四它每秒可以达到一百二十八个头肯，所以我们把一整页的，比如说五百页的这种 pdf 啊，这种文章丢不进去，它也可以在几秒内看完，然后回答我们。再有一个就是 iphone 上为什么使用它会更加的好用，就是因为 iphone 它独特的架构就是 m r x，反正就是统一内存啊，什么 cpu， gpu 啊，这几个都是统一使用内存，所以在这个 a 十九 pro 里面使用这个加速单元，再配合上 g 八四，整个发热更低，跑得更加的快。那所以我们简单的给大家演示一下啊，首先这个 ai chat 啊，这个是完全在本地的，所以我们现在打开飞行模式，关闭蓝牙，关闭 wifi，都是可以正常的使用的。这边有什么 e 二 b 啊，它有一个 best overall 最推荐使用的这个啊，我们试一下这个 e 二 b 就可以整个大小容量也就是二点五四个 cb，然后 ch 你是谁？马上就回复了，我是战马四，一个由 google dmind 开发的开放群众的大型语言模型，你有没有意识，整个回复的速度相当的快，这是在手机上，而且大家看现在完全的没有联网飞行模式，所以我们在飞机上在处理这种文档，我突然有一个呃，突发奇想，想要咨询的时候，就我们直接在手机上跟它逼逼就可以，它就会给我们一个非常不错的答案啊，整个推理模型也相当不错。然后我们在这边点击这个之后，我们可以选择 max token 啊，我们可以进行选择 topk，说实话，这个我也不知道它是啥意思啊，哈哈，然后我们点击 ok，我们可以再问一下啊，根据哥德尔不完美的系统，它都是有一个缺陷的，那么宇宙它作为一个系统，他为了解决内部的这种无法解决的矛盾，所以他创造了生命，他看本地啊，在本地这么深刻的问题，他触觉了哲学系统论，生命起源，噼里啪啦，哎呀，生存压力，适应性创造的本质有很多，在本地这个速度我个人感觉已经非常的够用了，还哔哔呢。 ok，他最后来了一个总结，一个看似完美的系统，其内在的动态张力矛盾是其演化的燃料，生命正是这种内在张力的一种具象化和解决机制。他不是为了追求绝对的完美，而是为了在既定的有缺陷的宇宙框架内，实现一种动态的，有目的的存在。人生的哲理根本就是存在，扎斯的存在就是他们关于这个歌德尔的不晚辈定律啊啊，我再找一期视频单独跟大家分享一下啊，今天我们就先跳过，总之我们在这边可以跟他比一遍，然后点击加号，之后我们看，我们可以看他的 history，然后点击这边右上角的小加号，我们可以创建一个新的聊天，这个都是可以，然后我们后退，后退之后这个是 ai chat，唯一比较不满的就是它整个功能是比较分离的啊。当我们想要 ask a mage 用图片进行交流的时候，我们必须要到下面这边啊， explore other use cases 有各种使用的场景啊， ask a mage，我们可以让他啊回答我们拍摄的照片和图片。在这边点击加号之后，我们可以选择 photo library，选择我们的照片，选择 camera 啊，这都是可以的。我选择 camera 拍一个，呃， use photo，然后我让他逼逼。这个是什么？有哪些特点啊？这个失误了。哎，这个失误了。这是 playstation port。差一点啊，等会啊，我们刚才是使用的二 b，我们使用四 b 试一下。二 b，他可能智商没那么高啊。使用这个二 b 啊，使用四 b 来试一下。这是什么？有哪些特点？嗯， yes 哦，他把旁边的 major sense 控制特点，触觉反馈，自适应班级， l two， r two 可以根据游戏内的动作提供不同的阻力。啊，噼里啪啦，还有例子呢啊，荔枝麦克风和扬声器设计和人体工程学啊，这些都有了。 ok，这是什么花哦？金樽花，万寿菊。我们再换一个，让他翻译一下，翻译成中文，重新打开飞行模式， wifi 关闭。大概它同样可以在本地完全免费的进行翻译，相当不错。所以我们在飞机上啊，都可以用注意力焦点， attention， focus， injection，汇聚所需信息的过程。第一段，第二段它都会进行一个分段，第四段，第五段原文都有此处文字被遮挡，这种细节相当不错。 very good。然后这里面呢，还有一些比较简单的，什么 ask，你 major 啊，什么 audio square，但是没有特别大的鸟，用什么 prompt lab 啊， tiny garden，这是一个小的游戏 mobile actions 啊，它可以用这个小的模型来操纵我们的电脑啊，不，是操纵我们的手机，比如说， turn on flashlight，可以打开我们的闪光灯， turn off， create contact， send， email 这些，但是我用了一下，不是特别的好用，实际来讲比较好用的可能是这个 agent skills，在这边我们选择四 b 的模型，什么 generate， q r code 呀，粘贴进来之后生成 q r 码， loading skill，它是可以使用我们的 agent skill 的，我们可以让它生成一个 q r 码完全离线的状态。另外这边啊，还有其他的什么 interact， map 啊这些用起来感觉就那样啊。然后这个比较有趣， text spinner，它需要一个访问的权限，大概是这样的一个效果，我们可以更改它的文字啊， spin 使用中文给它相机权限。呃呃，任何文字都可以，就这种效果，虽然没什么鸟用，但是还挺有意思啊，就是这样的一个为的。这个呢，就是 google ai h 格兰瑞，我们可以使用 google 最新推出的振马四，高效的二 b，高效的四 b，我们都可以在这边使用。但是这个软件呢，说实话，目前它整个 bug 还是有一点多啊，就是用的时候卡住的情况是，呃，挺多的，挺平板的。对大家有兴趣的话啊，想要免费使用的话，可以试一下，再等一下它们的更新吧。啊，可能我现在是使用的艾弗莎士六点五 bug 版本，所以它整个匹配度不是特别的好啊，大家可以试一下。
3291大耳朵TV
01:17
iPhone最强AI！Gemma 4 本地部署教程，完全免费 #AI #gemma4 #本地AI #离线AI
查看AI文稿
AI文稿
现在你的手机即刻就能拥有，基本上可以说是 iphone 上面最强大的免费本地 ai，重点是完全不需要联网，并且搭载的是 jam 四，它就是来自谷歌的 edge gallery。首先我们需要明白 google ai edge gallery 它是什么，简单理解就是有些 ai 任务不一定非要把内容发到远端服务器上处理，而是可以直接在手机上完成。先看系统要求，目前要求是安卓手机需要安卓十二级以上，而苹果手机则需要 ios 十七级以上。在里面搜索 edge gallery 下载即可。打开以后我们选择中间的 ai chat，就可以在里面看见多个版本的 demo 三和 demo 四模型，你们可以根据自己需要来下载，例如这边我选择第一个，我们直接 download 地下载，下载速度呢根据你的网络环境来决定快慢。下载好以后，我们直接点击蓝色按钮打开，我们直接来提问，请问你是什么模型？可以看见他回答我们的速度很快，帮我写一首中国古诗是关于春天的，他就会在很快的时间内写好，并且帮我们解释这首诗就是这么简单。而且我们当前是没有联网的状态，他完全是在我们手机本地运行，所以有兴趣的朋友赶快去试一试。希望本期影片对你有帮助，我们下期再见！拜拜！
1110科技猎奇
02:51
一分钟本地部署 Google 最新开源模型 Gemma 4 Google 刚刚开源了 Gemma 4，这可能是目前最值得本地跑的小模型之一。我用一分钟就完成了本地部署，全程不需要写一行代码。不用花钱买 API，你自己的电脑就是 AI 服务器。完整步骤都在视频里，跟着做就行。
#Gemma4 #Google开源 #本地部署AI #凯文不要嗨 #一人公司
33凯文不要嗨
05:43
AI教程:Ollama安装到指定盘因为Olladm的程序本身和模型都默认安装到C盘，很占用C盘空间，所以我们就需要将他们安装到C盘以外的盘符。
#ollama #gemma4 #gemma #这也能开播
查看AI文稿
AI文稿
大家好，这个视频我们就要说一下怎么去将欧拉玛安装到 c 盘以外的其他盘符 c 盘以外的这里呢？我们先下载欧拉玛的安装程序，先下载这个 downloading，欧拉玛，点一下，点一下 download for windows，在这个位置等它下载，安装好在这里如果下载安装比较慢的话，我们就复制下它的链接，鼠标右键复制下载链接，然后打开我们的迅雷找一下，将它复制到我们的迅雷里面去进行安装，这里新建它默认会将我们的下载地址会放进去，我们直接点下载就好了，如果没有的话，这个位置我们就 ctrl 加微粘贴就可以了，然后直接点下载，这样呢下载就会快很多，我们等它下载好这个地方就直接取消叉掉就可以了。好，下载好了我们就右键打开文件夹，将它 ctrl 加 x 剪接出来，放到这里面就好了，这里我们打开 cmd 命令，在这里直接直接就执行命令， e x e 斜杠，大写的 d i r 等于 f，我们安装到 f 盘就冒号，然后再一个斜杠，就这个是左斜杠，记住安装到 o l a m a 这里就是说将欧拉玛安装到我们的指定盘符 f 盘 o l a 就是欧拉玛的这个文件夹里面，直接回车好，它会弹出这个安装窗口，我们点这里安装，大家看到这里这个位置就显示它已经安装到我们 f 盘了，我们等它安装好，下一步我们就要设置模型的位置安装，除除了我们就让它安装，安装的时候我们去看一下 olama 的文件夹里面呢，我们新建一个文件夹叫做 models m o d l s 这就是我们等会儿需要安装模型的位置，我们就所有的模型都下在 oama 整个文件夹里面就好了，这个文件夹准备好，我们就等它安装吧。好了，欧拉玛安装好了，并且自动运行起来，我们这个地方选择 settings 设置，这个地方就是模型的一个设置，我们这地方点击 real 浏览，浏览到我们的 f 盘曲，此电脑 f 找到欧拉玛的文件夹 orders，点确定好，这样呢，它的模型也就会下载到嗯，我们指定的文件夹里面。这样子过后呢，我们就要开始准备给它下载模型，我们还是 java 四复制这条命令，到 c m d 窗口粘贴这辆 mini 直接回车。那么哦，这里安装过后，我们没有加载环境变量，关掉，重新打开一个 c m d 窗口，这个时候再粘贴执行好了，现在它就开始自动给我们下载模型，我们到模型文件里面去看一下有没有变化，右键属性看，通过两个属性的大小对比出这个文件，随着模型的下载进度不断地增加，然后这个文件夹不断地变大，所以就表示我们的模型也放到这个文件夹了，已经这样子呢，整个欧拉玛包括它的模型都放到了我们指定的盘符了，谢谢大家。
282何止于静
02:30
开源Gemma4，它来了！谷歌公司刚刚公布开源大模型Gemma 4！五大升级听我细说。#Gemma4 #谷歌Gemma大模型 #Apache开源协议 #超长上下文 #多模态
55边山李博士
06:28
16GB版mackbook部署实测Gemma4 E4B多模态，接入龙虾（附傻瓜式部署）
本视频主要测试了Gemma4 E4B LiteRT (3.6G大小)这个模型的文本、音频和视频理解能力。mac用户强烈推荐使用omlx傻瓜式部署本地模型！#ai #gemma4 #ai新星计划 #本地部署
查看AI文稿
AI文稿
手机都能跑大模型了？谷歌最近发布了 jam 四，一次放出四个模型，从手机到服务器全覆盖。我甚至在谷歌 lrt 上发现了只有二点五 g 和三点六 g 的量化版本，这也算是让大模型走进千家万户了。我在自己十六 g m 四芯片的 macbook 上部署了 jam 四 e 四 b 的两个量化版本，还顺手接了一下小龙虾。在看测试之前，我们先快速看一下这次 jam 四到底有多离谱。先看这张图，横轴是模型参数大小，纵轴是模型打分。 jam 四三十亿币的分数和将近四千亿参数的千万三点五基本持平，但它只有三百一十亿的参数分数一样，参数量少了十倍，让步数成本极大的降低。这还没完， jam 四还支持原声读模态，这意味着模型是真的在看图，在听声音，而不是通过编码器翻译之后再送给他模型。关键这个模型还是真开源的，它的许可证书是阿帕奇二点零，这意味着你可以修改它，可以商用，甚至可以改完币源再卖钱。那接下来咱们就来看看量化版本的 jamma e 四 b 到底怎么样。这个 jamma 四 e 四 b lite r t 版本的模型需要用到谷歌 lite r t l m 的开源推理框架，它是谷歌专门用于在边缘设备，比如手机、笔记本上部署大模型的推理框架，它支持音频和视觉推理，不过它没有图形界面，所以我这里就临时手搓了一个页面用于测试。这看着可能有点丑，呃，稍微忍一忍就好了。我们这先来给他一个经典问题，我想去洗车店洗车，我家距离洗车店三十米，我该开车去还是走路去？ ok，我们直接发送给他。很明显他这里关注错了重点，没有注意到前面的前提，一本正经的比较了开车和走路的优点缺点，我们看一下他的模型速度怎么样。这次提问，他的首个 token 的返回时间是一秒钟，相对来说还是比较快的。然后我们再来看他的输出速度，大概是十七个 token 每秒钟，这个速度来说就不是很快了，那整体的耗时呢？也是回到了四十五秒钟。接下来我们开启一下推理模式，再问一遍这个问题。呃，很遗憾他还是没能答对。我们从他的思考过程中就可以看到，他一开始把目标就定错了，他没有真正识别出来问题的目的，所以他就在错误的路上越推越远。我们再来测试一下图片识别的功能，这是我之前做的一个封面，让他分析一下这张图片，我们来看一下结果。他可以识别出这个图片的风格和构图，以及他设计的一些角色和文本以及图标，说这里沙尘暴的背景以及角色的穿着和打扮，甚至他的神态都读到了。呃，只不过唯一的缺点是他没有把背后的这个龙虾形象和这个龙虾的文字联系在一起，他认为他是螃蟹。然后还有就是他把这个识别成了一个营销海报，而不是一个视频封面，而这也可能是我做的有问题，我们再做一下视频测试，我这是从上期视频中截取的十五秒的一个片段，里面就是讲了大模型调用工具的过程，我们让他分析一下这个视频，他这个模型的视频识别主要是把视频拆成图片序列和音频轨道来去理解视频，我们看到他已经返回了，结果这里他的总耗时确实有点长，这一个十五秒的视频，他的总耗时大概是两百零七秒，他个首个头肯的输出时间大概是第三十四秒的时候才返回，那因为开启了推理过程，他的推理过程是没有被计算在输出速度里的，他已经到这个三头肯每秒的速度。我们看一下他的结果，他的这个视频分析结果还是很可以的，他精准的读到了我这段视频的意思，他的整个流程是完全正确的，甚至他还进行了关键技术点的分析。我这条视频并没有明确说他是一个代理性的行为，但是大魔性还是识别到了他这个潜在的含义。通过他的知识回答的这个，下面我们再测一下他的音频功能，这个模型支持的音频上线是三十秒，这里我截取了一段二十八秒的音频，让他提取音频内容，并且翻译成英文，我们来看一下，结果他很好的识别了原文，并且翻译成了英文。唯一有个小瑕疵，这里的基本正确，我的原文应该是一本正经，然后它的总耗时时间相对来说也是有点久，大概耗费了一百三十二秒。这个模型的上下文窗口会比较小，它的上下文窗口是三十二 k。做一些简单的问答应该还是可以的。如果大家想简单部署本地模型，苹果 m 系列芯片的电脑可以用 o m l x 来傻瓜式部署模型，这个推理引擎专门为 mac 做了优化，用起来也很简单，在下面安装，这里点击发布，然后到下面下载你系统对应的安装包就可以了。下载好后打开安装器，然后这么一拖就完事了。第一次打开会有这样一个界面，主要配置两个，一个是 port 端口号，如果要通过 opencloud 或者其他 agent 调用本地模型，都需要访问这个端口号。下面的 apikey 就是调用时的密钥，保存之后就会来到这个面板，我们点击上面的模型选项卡，选择下载器，然后搜索杰玛四，那这里就可以很方便的下载模型，下载的时候可以选择 m l x community 前缀的模型去下载，根据你电脑的配置选择就可以了。在设置这里我们可以直接加载模型，我们就可以在聊天选项卡里使用模型了，比如随便问他点什么，这样你就完成了模型的本地部署。那如果我们想让 openclaw 使用 o m l x 部署的本地模型，可以在 openclaw 的模型配置中加上这么一段。这里的端口号和 apikey 就是你之前在 o m l x 里设置的，给 openclaw 发条信息试试。那我们在这里就可以看到我们的一个请求已经进来了，像我这样一个你好，只是两个字，它就要加载四万多的 toc，因为 open class 会在上下文中塞很多信息，比如核心 md 文件、 skill 你的记忆以及其他的一些东西，这些都会占用 toc。在我目前这个电脑上想通过本地部署使用小龙虾还是有点费劲的，一个是它的预装填速度比较慢，还有就是它的 token 稍微异常，这里就要报错了，如果大家有更好的设备，可以本地部署玩一玩，最后别忘了一键三连。
69鹤之Neo
04:34
老手机硬核爆改，本地跑通Gemma 4多模态并接入OneAP 🔥 变废为宝！骁龙855老手机硬核爆改，本地跑通Gemma 4多模态并接入OneAPI！
抽屉里吃灰的红米 K20 Pro 还能干嘛？我把它爆改成了一台纯本地的 AI 服务器，不仅跑通了参数量约 7.52B 的 Gemma 4 多模态模型，还通过自写中间件完美接入了 OneAPI！全程硬核折腾，快来看看完整的部署通关流程👇
🛠️ 第一步：底层打通与环境保驾护航先通过 Linux 服务器配置无线 ADB，利用 Magisk 获取 Root 权限，并写了脚本实现开机自启无线调试，彻底解放数据线。随后在手机原生 Termux 里装好 clang、cmake 以及 termux-wake-lock 防休眠锁，防止系统杀后台，为后续长时间编译做好准备。
🧠 第二步：疯狂避坑与跑通文本模型一开始想用 llama-server 提供服务，结果发现安卓底层的 Bionic libc 存在兼容问题，果断弃用，改用 Ollama 完美跑通了纯文本推理。接着编译 llama.cpp，注意这里是个大坑：旧版的 llama-llava-cli 已经被废弃了，必须编译最新的 llama-mtmd-cli 工具。最后把 5.3GB 的文本主模型和 946MB 的视觉投影文件塞进手机。
👁️ 第三步：榨干老手机，点亮多模态加上灵魂指令参数 --jinja，多模态链路正式打通！过程相当壮烈：推理一张图片时，老手机的 8 核 CPU 基本吃满，内存占用飙到 7.1GB 甚至开始调用 swap，总耗时大概两分钟多。虽然属于“可用但不轻盈”，但它真的能看懂图了！
🌉 第四步：手搓 Bridge，变身标准 OpenAI 接口为了把手机 AI 变成局域网里的正规军，我在另一台 Debian 服务器上手搓了一个自定义 Bridge（桥接中间件）。这个神器绝了：
多模态接管：收到 OneAPI 的请求后，Bridge 会先下载图片，通过 SCP 把图传到手机，再通过 SSH 唤醒手机执行命令行推理，最后清洗掉杂乱的日志，包装成标准的 OpenAI 格式返回。
秒回探活：遇到 OneAPI 的渠道连通性测试，Bridge 会直接触发“短路探活”秒回结果，防止超时报错。
github：https://github.com/shihua-guo/Diary/tree/master/daily/202
查看AI文稿
AI文稿
ok，下面就进行分享，就是如何把手机改造成可以部署大模型的 linux 服务器，其实本质我们就是把它改造成 linux 服务器，然后可以我先看一下现在的效果吧，可以看到我现在是已经使用电脑连接上我的我的设备了，点击这个就可以远程控制了。然后这个是安装了一个 linux 的壳子，我们可以在它上面去安装很多我们在 linux 服务器上需要需要的东西。然后另外一步呢，这里是我手机是吧？然后这里就是我电脑可以直接进行对它进行连接的，这些就是我安装之前安装的 open file，还有一些部署的一些大模型，可以看到命令还是一样的，你看到我上次就是部署了谷歌的那个模型，然后这这样就是大概的档次，下面说一下具体的计划吧。可以看到，首先我们如果我们需要把基础给搭建好，基础搭建好呢，就是我们需要先获取它集成访问的一个硬件，首先我们就需要解解锁，这个必要，呃，我们需要提交申请。然后第二步呢，解锁完之后我们就可以进行 root， root 就是我们可以获取很多权限，比如说我们开机的脚本啊，或者还有，呃，还有很多摄像头的获取啊，还有很多都需要 root 权限。然后呃，下一步呢就进行部署，这步比较简单，我们就需要安装一个一个工具就好了。然后另外的我因为我们需要，因为会对手机进行大量的操作，所以我们如何对它进行方便的操作，就是需要配置好，提前配置好它的 app 连接，我推荐呢使用无线的方式，就使用 wifi 的方式进行对它进行连接，这样子我们就可以把手机放在任何的地方都可以，然后并且还需要设置它的开机脚本，就不需要，我们需要就并不需要我们每次都通过 usb 连接电脑了。然后其他的就是一些额外的服务了，就是命令是能干的，它基本上都能干，然后解锁呢，这里就我们按照网上的，网上的教程就可以了，这里好像还有个等待时间，然后这里 root，就是按也是按照教程去就可以了。然后对比，我认为这一个是最好，最好的方案就是用个 tmus 这些连接，因为它本质应该就是一个壳子来的，它基本上就原生调用你安卓的底层，而且并不需要额外安装另外一个命令系统用这个调试。呃，对，其实我接下来的操作全部都是由 ai 完成的，首先我们要把它打通，就是把电脑和手机打通，我们安装完这个还需要安装 s h 这个连接工具，这样子连接完之后就可以像我这样子直接就可以连接，通过 ip 加端口就可以连接了，只要连接得上 ar 就可以帮我们完成任何东西了，这就是一个思路。然后这一个开启无线调试，其实也是让 ar 去完成就好了。这个启动脚本呢，需要需要 look 权限的，这就是为什么我们需要进行一个 look， look 也比较简单，然后其他的，嗯，也是一些额外的这些就是，嗯，大概是这个思路吧。然后下面，然后下面再分享一下具体，其实我已经把那个教程放在我的地毯上面了，首先我会把链接贴上来，就包括部署的记录嘛，这些也是 ai 写的，有部署的记录，我看一下现在有没有启动啊？现在可能没有启动。哦，对，前提是好的，现在我们看一下那个服务有没有启动。这个呢？就是我在呃本地的一台服务器搭的一些服务，看一下通过 one 的 a p i 进行访问。好，可以了，大家看到没有？这个就是部署在，部署在我那个呃 k 二零上面，但这个很慢很慢，下面继续说吧。这些反正都是 ai 帮我完成的，其实我具体也不知道它完成了什么，总之我就分享到这里了。然后这些教程呢？其实，嗯，你可以直接发送给 ai，重点就是如何打通电脑和手机的这个链接。重点是个，好，就这样子。
82Deepdick
04:58
上条视频说Gemma4只能当聊天机器人，我不信。
今天给它装上了文件系统权限，它能在本地创建文件了。
然后我又想了个新招：让聪明的模型先示范一遍，再让Gemma4复刻——
结果它找到了图片，调用了技能，就是卡在最后一步出不来。
是模型太笨？还是内存不够？我倾向于前者，但还不确定。
答案等4月16号Mac Studio到货才揭晓。
另外顺手整理了一个选版本的经验公式，内存怎么对应参数量，视频里说清楚了。
#Gemma4 #openclaw #本地部署 #AI工具 #AI测评
查看AI文稿
AI文稿
hello，大家好，我是 ken。上条视频说到 gemma 四在接入到 openclaw 之后，只能充当一个聊天机器人，我不愿相信，也不甘心，一个二百六十亿参数的模型，能力应该远远不止于此。于是我今天又坐下来折腾了一天，有好消息也有坏消息，听我慢慢说。先说好消息，今天的第一个突破，在我给他安装了文件系统技能之后，赋予了他读写我本地文件的技能。果然，他可以根据我的指令在桌面生成一个 markdown 文件，算是一点小小的生产地了。但当我让他在桌面上创建 word 或者是 ppt 文件的时候，还是一样会牢牢卡住。好消息到此为止，但接下来我想到了一个新的思路，既然 openclaw 是有记忆的，它可以学习并且积累技能，那么如果我先接入到一个聪明的大模型，把我需要的技能都完整的走一遍，再切换回 gem 四大模型，看它能不能完美的复刻出来。于是我切换成了 podocr 技能之后，在桌面上放了一张带有简单文字的图片，然后让 codex 先做一遍演示，把图片上的文字准确地提取出来发送给我。结果非常顺利， codex 不但把桌面上的文字准确地提取了出来，还帮我顺带把技能也优化了一遍。好现在切换回 jama 四，让他重复刚才的操作。我给他下了一样的指令， jama 四可以正确地调用 pad ocr 这个技能，也能够识别到桌面上的图片，但就是在提取文字这一步，他怎么样都做不到，会卡住。我中途问他是否有停止工作，向我汇报进展，他都说正在提取文件中，但是无论我等待多久，十分钟，二十分钟，半个小时都没有给我任何的反馈。我担心是不是他在运行的过程中，我的电脑内存不足，导致他没有办法生成，于是我把模型切换成了更轻量级的 e 四 b 版本，结果还是一样，会在提取文字的过程中牢牢的卡住。这让我有点困惑，究竟是我的电脑内存不足，还是模型的能力不够？我更倾向于认为是模型的能力不够，因为二十六 b 混合专家模型在实际工作的过程中呢，只会调动四 b，也就是四十亿的参数。这个被激活了四十亿参数的专家可能还没有学会怎么去运用 o c r 这项技能，但也不能完全排除是运行内存不足导致的。现在还不能下定论，只有等四月十六号我的 max studio 到货以后，我让他跑三十一 b 满血版的大模型才能够有答案揭晓了，到时候我会第一时间和大家分享我的测试结果。上一条视频的评论区有很多人问我，他的设备的内存是多少，什么版本能够跑什么样的大模型？这里就 gemma 四的四个版本呢，我分享一个简单的小公式，供大家去进行自行计算。普通模型呢，就用你的内存或者显存储以四，得到的数字就是你能运行的大模型版本。比如说，如果你的内存是十六 g 除以四等于四，那么也就是说你的电脑可以跑 e c b 这个版本。接入 open cloud 以后呢，可以做问答机器人，也可以生成 markdown 文件。但是 jam 四的二十六 b 混合专家模型是略有不同的，因为就像我刚才所说，它在工作的时候呢，只会调动四 b 的参数，所以呢，是比较特殊的，如果内存达到二十四 g，就可以运行二十六 b 混合专家模型。还有一个简单的测试方法就是如果你电脑的内存是足够的，你可以把呃一二 b，一四 b 和二十六 b 三个版本的大模型都下载在本地，然后用欧拉玛去运行它们，看看你提出问题或者下指令之后，他们是否能够做到秒问秒答。如果能够做到秒问秒答的话，那接入 openclaw 它是可以做问答机器人使用，没有问题的。但是如果在欧拉玛中只是作为聊天机器人，它的回答都是相对来说比较慢的话，那接入 openclaw 肯定是没有办法使用的。在接入 openclock 以后呢，内存的消耗量会稍微大一点，所以大家在实际使用的时候，最好还是能够留一些余量的好。今天的折腾就分享到这里评论区，告诉我你们还想看什么，我们下期见。
33AI Ken
07:00
谷歌发布AI大模型Gemma4！iphone17pro实测谷歌新大模型Gemma4开源免费重磅上线！不用花钱买token了？！到底好不好用？
iPhone17pro手机实测+选型指南+安装攻略+调教干货+适合场景！#gemma4 #大模型即将改变世界
查看AI文稿
AI文稿
穿越到古代，你会带什么？我的答案是一台装了 jam 四的手机。大家好，我是小赵，这期我要跟大家分享一个有点上头的测试。五哥上周刚刚开源了他们最新的大模型伽马四，号称口袋里的智力小钢炮，逻辑推理能力，尤其是数学和代码，在二零二六年的精准测试中，竟然吊打了二零二四年那些比他大三四倍的模型，并且可以直接在手机上跑，完全离线，完全开源，支持了一派克二点零这个开源绿卡。听起来很厉害吧？我也这么想，于是我把它装在了我的 iphone 十七 pro 上，体验了一下，发现它有点不太对劲。本期视频我会分享这五个部分，大家可以拖动进度条，快速找到你想看的部分。视频有点长，先码再看。我还贴心的准备了白马斯的完全指南，包含了本期设计的相关资料，大家可以在评论区获得。那我们现在开始，我现在已经是装好的状态，我决定先给他上一个强度。找到了一个测试 ai 的问题，最多能够换多少瓶啤酒，大家可以算一下能换几瓶，看看你是不是比 ai 聪明。这个是他的回答速度，我没有做任何变速，你可以感受一下是不是还行。咱们加速看一下他的答案，但是他的答案，嗯？我开始困惑了，就这我们试试简单的问题。第一个问题，帮我用文言文写一封求知信，回答平平，文言文味道不足，逻辑还有点跳。第二个问题，帮我制定一个穿越者生存方案，给了几条，但特别笼统，像是在套模板。我带着这个攻略，估计我也活不过一 ko。有办法，咱们求助一下他的老大哥 jimmy，让他来帮助咱们调教一下这个小弟。 jimmy 给出了让小弟 jamas 变聪明的方法。我们按照这个回答设置一下这几个参数，然后再试。哎，不错了，这个看起来靠谱很多，还有核心词汇的解析，适合学文言文的学生玩一下。不知道为什么，他总是会遇到一些卡死的情况，你们也有遇到过吗？我们再把这个算术题发给他算一下。我又分别测试了几个场景，包括翻译、图片和语音识别。 skills 五个的多语言确实还是强大，断网情况下依然有高质量的翻译输出，而且准确性也不错，号称支持一百四十多种多语言，还是很牛的。图片和语音识别，给他一张图，他能够描述的很清楚，图片展示了什么内容，哪些文字，比如给他小票和病例，让他去做一些分析，都是能做到的。我也让它识别了一些东西，比如蜜蜂，蜈蚣，还有花朵，不是所有的都很精准，也许未来结合一些 skills 还有更多玩法。 skills 这一块在 i g gallery 里能直接找到的只有十一个，其中有两个值得一提的，一个是情绪音乐，它能根据你的描述去生成匹配的音乐，或者根据你发给他的图片去生成音乐。在拉我的官网申请一个 api key，点进去就能使用了，给你们看一下这个效果。咱们这个视频也使用了爱马仕生成的这个音乐。第二个虚拟钢琴 skill，像一个内置的钢琴游戏，确实没有太大的创新，但是可以期待一下后续会有更多的游戏 skill，如果本地断网就能写小游戏，玩小游戏的话还挺有意思的。官方演示的大转盘和地图我都体验失败了。其他的像哈西计算生成密码、二维码之类的 skill 更像是展示一些可能性。咱们给不太了解的朋友解释一下，伽马四到底是什么？它是谷歌 deepmind 的在今年四月二日发布的开源 ai 模型家族，一共有四个版本，从手机到服务器都能跑。我今天用的呢是一四 b， e 代表有效参数，四 b 代表激活参数，大概是四十五亿。这个版本是专门针对手机优化过的版本，下载到手机上大约三到四个 g。如果你也感兴趣，但你不知道你的设备该选择哪个版本的话，可以参考这张图。手机的安装方式呢，也很简单，下载这个 app，打开之后选择 java 四一四 b 或者一二 b。我是 wifi 下载的，网络呢不是很稳定，大概两三个小时，然后就可以完全断网使用了。网上有很多镜像资源可以使用，大家可以自己搜一下。如果你有兴趣体验一下，可以按照这个方法来优化。第一步，开启它的思考模式，在 edge gallery 点右上角的设置图标，找到 enable thinking，打开它，这相当于让模型在回答前先打草稿，对逻辑推理多步骤问题的效果提升非常明显。第二步呢，调整 temperature 参数， temperature 控制的是创意度，如果在零点一到零点三的范围内呢，它会更严谨，适合需要准确答案的问题。如果在零点一到零点七的范围内会更发散，适合创意写作。我的建议是设置在零点三到零点五，平衡一下，准确和自然。最后是写一个好的提示词，这是最有效的一步。比如，如果你真的穿越，你可以这样写，要给他设定好他是一个什么觉，答案更精准。另外，你可以给他一些具体的要求，比如说让他尽量具体给出可操作的建议。如果涉及历史、著名朝代背景，让他的语言清晰，避免模糊表达等等。如果你有更好的能让他变聪明的方式，也欢迎你在评论区分享。说点真实的，显然 jimmy 四 e 四 b 跟豆包 kimi 相比，在联网状态下真的差不少，毕竟四 b 的端侧模型和云端大模型没法直接比。但对于一个完全离线好在手机上的 ai，这个效果已经还不错了。那他究竟适合哪些人？我觉得他可能适合这几类人，一类是对数据敏感型和隐私意识强的用户，比如合同草稿、私密日记总结、医疗记录整理。第二是如果你旅行可能会去没网或者信号不好的地方，比如坐飞机、山区、景区、区域、不发达的国家。第三，学生党不用开网络，能专心学习，可以用来做题，辅助知识点解释作文润色、英文对话，或者你真的要穿越。当然，最后这个场景目前还没有技术能实现，但手机离线跑 ai，这个是真的可以。好总结一下今天的结论，一 ems 一四 b 可以在 iphone 十七 pro 上完全离线运行。第二，默认状态下确实不够聪明。当开启了 thinking mode，调了 temperature，再加上优化了 prompt 之后便好用了。第三，它不如豆包等在线产品效果好，但离线这块还是很不错的。你们觉得手机 jonja 最适合用在哪个场景？如果你有什么需求，希望 ai 能帮你实现。评论区告诉我，我下期可能直接出你的需求教程。喜欢这期的朋友点个赞收藏一下留着随时调教你的手机 ai 关注一下，我是小灶，我们又要去见。
4小灶叨叨
08:37
ORC识别WX机器人通过桌面运行的微信进行Orc识别，将消息对接Openclaw实现聊天机器人，每个聊天在openclaw串讲独立会话。用到技术#openvc #paddleocr #gemma4 #openclaw #openai
查看AI文稿
AI文稿
一直呢就是想做一个微信聊天机器人，但是呢没去做，这两天我把它做出来了，嗯，我们先直接看演示效果，后面我再详细的说是如何实现的。在正式演示之前呢，我们先我先说一下，我在 open core 里面创建了一个 agent 叫做谦尔，他专门就是用做聊天的。然后呢这边我们将脚本运行起来，看实际运行效果，把上面给清理掉，清理掉过后我们直接运行这个脚本，它首先会去检测我们整个列表是否有新的消息，如果有新的消息的话，它将会把消息发给我们的倩儿，让倩儿给我们自动进行一个回复，而且是每一个用户就会创建一个不同的绘画。好，上面没有消息，我们看到了，所以它全是零。这是做完了一次的轮询，我们再来，我们现在这边用手机给这个微信发送一条消息，你好，给他发送一条消息，大家可以看到这边微信这边已经收到消息了，收到消息过后，这边的轮询马上就过来，会检测到消息，然后让 open core 进行一个回复。好，这边收到了消息，用百度飞讲进行了一个消息内容的识别，然后 open core 那边也新创建了一个绘画，根据这个用户大家看到我的鼠标是没动的，它自动的进行了一个鼠标的操作，这边它是回复了一个内容，我们再对内容进行回复，让它接着继续。我也在成都，你在成都哪里啊？好，这下边会马上就收到消息的，马上就会好的，已经收到了消息，让它自进行自动一个回复，待会看到消息已经回复过来，我们进入这个绘画里面看一下。在进入 open core 绘画过后呢，我们可以实时的看到这个消息， open，我们 open core 收到了什么消息，然后 open core 给他回复了什么消息，我们再来给他说一下。不喜欢逛街太麻烦了，看一下 openclo，马上马上又又会抓取到消息过后进行一个回复啊，大家可以看到这里， openclo 收到了消息，不喜欢逛街太麻烦了，然后生成一个回复，然后发给微信过去了，这个是支持多用户的，就是这个列表里面有多个用户给你发消息啊，它支持多个用户一起聊天，然后根据每一个不同的用户去创建一个绘画，独立的绘画就不会导致串台了。好，我们结束的脚本，好了，这就是演示，就这么多，前面呢我们进行了一个效果的一个演示，下面呢我们来对这个整个文件进行一个分析，我把所有的脚本都放在了这个 w x 这个下面，我们运行脚本是这个就是 no repel teams，就是说未读消息列表的一个回复，在这里呢，它主要首先第一步它去调用这个这个脚本，这个脚本里面呢去进行一个桌面的截图，在这里我们给他一个窗口的名字，他就会去截取我们电脑专电脑上面桌面上运行的这个窗口，把它一个图截下来，截下来过后呢，我们在这边进行了一个识别， get 整数这个函数进行了一个识别，识别过就识别是否有未读消息，在列表里面识别我们的微信列表有没有未读消息。好，我们再回来，如果我们在这边识别到了有未读消息过后，我们首先进入这里，我们看一下这边，我们将这个列表进行了一个循环，循环就是说这边就是说我们一个先给了它的一个序号，就是 index 一个序号，序号给了过后呢，我们给他一个 i team，就是每一个 i team 就是一个对应的一个绘画一个人，说白了就是过后呢，我们去检测他的头像，看头像中是否有未读的消息，这里我采用的是 omar，用 omar 检测的，检测了过后呢，如果是我们检测到了有未读消息过后，我们进行进行下一个操作，就是进行鼠标移动的一个操作，还有鼠标的点击，点击到过后呢就会识别到它的，通过它的头像我们进入到了一个，我看一下这里 find user， find user 呢，就是说在用户这这个函数呢，就是在我看一下在上面，就在这个里面它会读取这个 user index 这个文件，在这个文件我们为为每一个用户创建了一个唯一 id，如果有的用户他就直接调取这个 id，然后将这个 id 传给 openclo，作为一个绘画 id，也是唯一标识的规划 id，那么这就是上下文连过来就可以，那么如果是没有用户在这个列表里面，那么它就会在这里面加一个，我们看下这个地方就进行 right gt。 jason 调取这个像这个 jason user， jason 里面加一行，然后结束过后呢，我们中间有一个过程，需要一个 new，我看一下是在哪里 find user 里面，对 find user 里面，因为我们用的识别，对昵称的识别的话，用的是百度飞讲的一个昵称识别识别的时候，所以我们有一个 message check 这么一个来对比两个用户了，已经有的用户昵称和现在当前识别到列表的用户昵称的相似度有多大，因为有时候百度飞讲这些啊，也会识别错误的，比如说将呃某些汉字吧，可能会识别的有错误，但是呢它通过对比识别度，因为不可能每个汉字都识别错误，通过对比就可以了。对比结束过后，我们这个地方就需要进行消息回复，我们就进行 new message o r c 这里面，在这里面我们这个地方给他划了一个区域，在这个位置就识别那个区域的消息，消息识别过后，在这个位置就发给了 open curl，就把消息发发给了 open curl 这个位置位置 message to open curl 这个脚本调用，我想是这个 message to open curl 这个地方就通过，因为 open curl 是支持 open i 的 api 接口，所以我们就直接通过 open i i 的接口就直接向 open curl 进行一个交互。然后在这个地方呢，重点说了一个，就是这个地方就是叉杠 opencl，杠 sense 杠 key 这个，这个就是为每一个用户创建独立的一个绘画，这样就不会将要给王哥发送的消息发送给了你李哥。然后我们再到再回来一下，再回到这个主主运行文件夹里面来，回到 new message 这里面，当我们收到了消息过后，我们就会在这里执行这个操作。 mouse check 到 mouse control 里面去，我看一下 press ctrl 这里面就会，这是鼠标的位置，这是消息的内容，将消息内容复制粘贴到，这是执行复制粘贴和鼠标点击的这个是复制消息，然后这下面就是粘贴消息，粘贴了过后，这下面执行回车就把消息给发送出去了，这个程序运行的流程的反大致就是这个样子。嗯，有喜欢的可以大家一起交流，谢谢大家。
26何止于静
00:47
手机本地ai部署我觉得豆包收费以后大家可以用这个了本地没有违禁词只要自己拿来微调一下干啥都可以，响应速度也很快pocketpal+gemma-4-E4B-it-q4_0是我目前用的质量最高回复最快的组合#pocketpal#gemma4
2若水0
01:11
Google最强开源Gemma4！小白部署教程！ #gemma4 #人工智能#谷歌#教程#本地部署
查看AI文稿
AI文稿
谷歌最想看的模型街马四他来了，那他到底能用来做什么呢？他能看图，写代码，听音频，最重要的是完全免费。这条视频带你从认识到安装再到上手。车料我已经打包好了，那我们发车吧，我们先认识一下杰玛四是什么。你可以理解成谷歌免费的把自家的核心配方和后厨工具一起打包给你，你可以自己开火，自己调味，甚至自己开店。那我们想要知道的工具就是自己的 ai 应用。首先我们要先部署，打开浏览器，搜索欧娜玛，点击右上角的 download，选择系统并确认。下载好后点击安装。打开我们的欧娜玛，点击这里，选择刚下好的模型，然后开始跟他对话，这里我给了他一道题目，测他的逻辑能力。可以看到这种比较绕人的问题他两次都能抓住，交易的本质还是很不错的。再给他一张图片，让他描述一下细节，这里他把人物姿态、环境、背景、光线氛围都形容的非常细致，甚至还把我这张图里面的小人印也识别出来了。安装好之后，我们可以进入小龙虾或者其他可以进入本地的模型，实现真正的偷啃自由。我是晨晨，关注我，带你了解更多 i a 知识！
15澄澄AI提示词
01:12
谷歌Gemma 4免费部署到手机！筷莱琼茅郝元彤夺郝支持离线支持离线使用多款模型，太强悍了#软件下载 #Gemma4 #ai #资源分享 #大模型
查看AI文稿
AI文稿
g m 四开源了，现在手机端也可以直接用了，我看有很多同学还不知道怎么本地部署软件，对网络环境没有要求，直接安装就能下载各大模型总共有七个模型，本地离线，没有网络的情况下可以直接使用就非常的方便。我就把整个软件打包了，要的可以找我拿。接着我们来试用一下这款软件。软件安装好后呢，我们点击 ai 三有三个以及昆二点五和 deepsea，直接点击下载就部署成功了，打开聊天就能用。这回我关掉网络给你们测试一下。我把手机所有网络都关了，没有网络的情况下直接可以和 ai 对话就非常的方便。它还支持最近很流行的 skills，内置了八个技能，当然你也可以自行添加，技能多了工作起来也是得心应手。它还支持语音转录，支持图像识别功能，以及全球首款 ai 语音小游戏，不受网络限制，不好 token，随便你用就非常的方便。关键词，七八九。好的，今天就分享到这里了，拜拜。
8GT同学（主页获取）
05:13
#ai工具使用 #创作者中心 #创作灵感 #openclaw #gemma4 openclaw对接Gemma4，省去token费用
查看AI文稿
AI文稿
谷歌近期开源的 gmailfo 的模型绝对值得安装，它不仅可以断网本地运行，而且允许免费商用。安装了 openclaw 小龙虾的朋友，每天需要消耗大量头啃，接入 gmailfo 就可以省去一大笔费用。使用电脑安装 gmail 之前，需要先安装欧拉玛，搜索欧拉玛或直接输入欧拉玛 com 这个网址，点击下载按钮，这里提供了 macos、 linux 和 windows 对应的版本，选择适合你的下载。下载完成之后，安装之后打开欧拉玛 app，打开终端。这个时候我们需要选择 gmailfo 版本，打开饿了么官网，在顶部找到模型菜单，打开之后找到 gmailfo，向下拉可以看到 gmailfo 的版本对比列表，这里可以看到模型体积，这里是上下文长度，点击这里可以查看全部版本信息，选择好之后记下版本名称。我这台电脑是 macbook air m 二芯片，八 g 内存。我首先尝试 e 四 b 模型，打开终端，在终端里输入饿了吗 run x x，你需要把 x x 替换成你刚才选择好的版本名称。例如，你想安装 jama four 二六 b 版本，就输入饿了吗 run jama four 二六 b。如果只输入了 oledma raw，会默认安装 latest 版本。安装完成之后，这里会显示 success 输入信息，按回车键就可以对话了。当然，我们有更用户友好的方式，打开 oledma app，点击左上角的 newchat，在下拉框里选择你所安装的版本，就可以在对话框提问了。大家可以看一下我这个版本的响应速度，发送问题之后，等待了大约一分钟才开始进入深度思考模式。输出答案的速度是这样的，所以这个版本并不适合我。卸载之后安装了 e 二 b 版本，响应速度是这样的，非常快。如果你的电脑配置了十六 g 以上的运行内存，就选择一四 b 以上版本，否则就选择一二 b 版本。如果你的电脑非常强大，那就选择二六 b 和三一 b 这种更强大的版本。更精彩的部分来了，那么如何用 gmail 对页 openclaw 小龙虾呢？首先在奥利码 app 页面找到 openclaw 这一行，点击复制命令行，拉到终端粘贴，点回车键。如果你的电脑里没有 node js，终端会这样提示，直接输入命令行 pre instyle node，点击回车可以安装。安装完成之后再次运行 olemans openclo，终端会提示没有安装 openclo，是否需要安装？直接点击回车键，等待片刻会显示安装成功。这里需要选择驱动 open clone 的大模型，点击键盘上的向下方向键，选中你所安装好的 oem 系统，会提示不当指令会引起不安全事件。是否继续？这里提醒小白用户最好使用闲置电脑安装 open clone，以免造成隐私信息泄露或者财产损失。如果你想选择不继续的话，就使用向右方向键，选中 no，点击回车键。如果你想继续，就点击回车键。系统会提示是否允许 node 查找本地网络中的设备，如果选择允许，我们 call 就会连接本地网络里的设备，比如手机、电脑、音响、电视等等。如果不清楚是否有风险，就选择不允许。之后会看到系统提示，询问是否连接 message app。使用向右发现键，选择 set up later，等到终端里出现 hurt bit ok 的时候，说明已经连接正常。往上翻，找到 open the web ui 的下一行网址，复制到浏览器里，打开就来到 openclaw 小龙虾的操作界面了。我发送一个测试题，让它设计一款小游戏。它的响应速度是这样的，因为我没有对小龙虾开放太多权限，它并不能独立完成这个设计。更多使用 openclaw 小龙虾的技巧。我会在另外一期视频里来介绍，本期视频里提到的网址和工具我都会放到视频下方。
4AI观察站
01:59
Gemma4 26B 能力挑战测试#hermes #hermes爱马仕 #gemma4
查看AI文稿
AI文稿
低配置本地小模型能力测试啊，这个第三个任务测试，我们现在是 jumbo 二十六 b 的模型，我们第三个任务呢就稍微难一点，要写一个俄罗斯方块，然后把它放到呃， mac 电脑上这个可以运行的一个 app，把它放到桌面上啊，然后呢啊，他开始去执行啊，写代码，我们先来看他跑了九分四十一秒啊，这个速度对于之前我们两个模型来说很快的，之前模型有写一个多小时都没写出来的，他写了九分多钟，然后最后他告诉我他完成了这个游戏的编辑。但是呢他这个啊，进行这个打包的时候遇到了权限和路径的这个环境限制，他给我两个方案，一个是直接运行啊游戏，然后让我这个，而且还告诉方法啊，在怎么样去运行打开终端。另外一个是他告诉我方法，呃三个步骤，然后让我手动去把它打包，我尝试了呃，按照他说的这个方法手动去打包是那个没有作用的，所以他这个方法有问题。然后我又尝试了这个啊，第一个方法就是直运行的话确实能出来这样一个界面。然后是这样的啊，我摁上的话呢，这个方块可以旋转，摁下的话呢就会下一格，但是他还没有给这个游戏里面添加这个重力，就是说他不不会落下，这方块不会自己落下，我必须摁下，然后呢？左右这些是可以的，然后呢？左右这些是可以的，然后呢？左右这些是可以的，摁一次落一次啊，但好在他最起码写出来了，对吗？我们之前的那两个模型根本就没有写出来，我看我们把这个方块挪满之后啊，挪满之后没有任何提示，界面自动就消失了。所以呢，虽然他写的很简陋啊，有很多功能还需要继续完善，但最起码他做出来了啊，所以这个模型还可以。下面第四个任务我想他肯定完成的，会更容易了，我们看一下。
15戚向北
03:00
如何不联网就能使用Gemini？ #Gemini #Gemma #开源 #AI
查看AI文稿
AI文稿
如何把谷歌的 gemini 免费的安装到你的电脑手机上，并且呢，不用联网也可以使用，也不用担心数据泄露，也不用支付会员费用，答案就是安装它们的开源模型 gemma。那 gemma 又是什么呢？和 gemini 虽然是两个名字，但是它们本质上都是同一个东西。 gemma 是 gemini 的开源模型，也是 gemini 经过简化之后的模型。这里面要讲一个大模型为什么叫 gemini， gemini 经过简化之后的意思。二零二三年，谷歌为了应对拆 g p t 带来的生存威胁，谷歌合并了内部两大顶级 ai 实验室，谷歌 brain 和 deep brain，那这个就是谷歌 ai 版图上的双子星。其实在拉丁语里面， gemma 就是 gemini 这颗大宝石切下来的一块儿小明珠。打个最简单的比方，网页上那个无比强大的 gemini，就像城市里面的中央供水系统，水流极其的庞大，但是你必须连上水管，也就是连上互联网，并且用多了，人家是要按流量收你费用的。而 gmail 就是谷歌免费送给你的一台满级配置的高端净水器，虽然出水量不如水厂大，但是它完全免费，完全是属于你自己的。在最新发布的 jam 四家族里面，同样支持多模态，也就是它既可以看图，也可以听懂声音，还可以写代码。点到这里，你肯定会问，谷歌是来做慈善的吗？为什么要把一个模型免费放出来呢？那这样子谁还会去充 jamie 的会员费呢？这个其实是谷歌一个极其高危的羊毛，想象一下，谷歌现在建了一栋无比豪华的写字楼，如果他把内部的办公空间完全免费开放，让所有的创业者出创公司全部搬进来，表面上看他亏了租金，但实际上呢？当整个商业生态都用他的标准写代码，他就掌握了规则制定权。等这些小公司项目做大了，需要更强的算力了，自然就会购买谷歌云服务，或者租用顶楼收费的 vip 会所。另一方面，谷歌面对试图垄断闭源生态的 openai 和开源大户 meta，如果不把 jama 拿出来免费送，那整个 ai 时代开发者生态就会被别人拿走。所以免费送模型本质上就是为了抢夺未来十年的技术话语权。那这个免费开源神器到底适合谁呢？首先，对于做科研、商业分析、金融投资的朋友就特别合适，因为自己手里面有大量未公开的研报和财务数据，根本不敢上传到网上的 ai 里。而像 jam 这样部署在本地电脑的开源模型就是他们最好的选择。而最新发布 jam 四有四个版本，就像小杯、中杯、大杯、特大杯，那到底选哪个好呢？这条视频就直接告诉你答案，手机就直接选小杯，普通电脑选中杯，高端电脑选大杯，企业级的就选超大杯。如果你不知道你的电脑是什么型号的，那就选中杯。那如何安装这个开源大模型呢？建议去欧拉玛的官网上下载，注意一定要下载带 it 版本的，它代表了是能够听懂人话的指令微调版，如果你在安装的过程中出现问题，建议搭配豆包使用。这就是本期的视频啊，关注我，带你了解更多 ai 内容！
385麦克Mike（AI分享）

热门推荐

热门分类