大家好,这两天杰纳斯啊,非常热,有人说他是一个开源模型的一个新王者啊,到底是不是呢?我们今天可以来测一下,刚好这两天有一个特别重重要的一个新闻,就是说,呃, 捷豹四呃跟卡布扣的,在这个奥拉玛这个角度上可以做一个无缝的集成,只需要两步操作,第一步就是你装奥拉玛,然后呢下捷豹四的最新的 efo, 比如说我的这个笔记本电脑,它是 rtx 四零六零的一个显卡,它有八 g 的 显存,我这个机器有十六 g 的 内存。 那么这时候呢,我们就可以下它一个 efo 的 一个模型,也就是捷豹四 efo 大 概九点六 g 下,下来以后呢, 然后用再装一个 cloud code, 你 可以用那个,比如说你去 windows 一下,你可以用它的 cloud shell 命令啊,一键安装,安装好以后,你你可以用这个奥拉玛的一个集成命令,把 cloud code 让他去用本地的杰纳斯 eiffelb 的 这个模型,那就这条命令, cloud cloud 杠杠 model。 杰纳斯,然后呢他会先去 下载这个模型啊,他发现我已经下载过了,所以马上就成功了,然后他马上呢去启动这个 cloud code, 然后让他去用这码四这个模型,然后他会问你几个问题,最后呢就是会让你信任这个当前的这个文件夹。好,我们现在已经到这了,我也是刚刚装好,我们来试一下, 请帮我写一个写一个 hello word 的 htm 页面,并在默认浏览器中打开。 好,我们看一下啊,它的这个怎么样?它现在用的就是我们的本地的杰纳斯 infob 的 这个模型小模型啊,然后我们看一下它的一个 gpu 的 一个利用率啊, gpu 一 现在有百分之九十六,那跑满了,你看到了是吧? gpu 一 的这个利用率跑满了,我们看看它到底怎么样啊,哈哈, 它现在这个要显示 token 哦,出来了,大概花了不到两分钟吧。三分钟啊, and i will use the batch。 对, 它是先计划啊,然后 yes, ok, 那 现在 open yes, 继续 ok, require pool yes, 哦,打开了,看到吗? hello, word this is the basic html page。 那 好,我们再让它做一个稍微难一点的,我说写一个最简单的贪吃蛇游戏,并在 切神浏览器中打开,我们看一下啊, 一起创建。 ok, 我 们这样好,打开了,就是贪吃蛇,我看一下啊,可以看能不能玩。 ok, 这个是最简单的,还没有碰到。这个还没有,还没有开始就结束啊,就是不是还没有开始就结束,这个人最简单,但是我们已经看出来这个杰马四啊,他的一些这个功能,我觉得就是他的这个编程的能力啊,我觉得还是可以的啊,因为我这个是小参数模型呃,你不能对他有太高的要求。 ok, 那 么我们今天用这个 cloud code 和 java 四 evo b 这个,呃,一块编代码的。这个游戏呢,我们就告一段落了,我觉得它还是有点用的啊,有些很简单的任务,我们是可以用本地模型的,这样的话也节省非常昂贵的云端 api talk 的 费用。好,谢谢大家。
粉丝182获赞1291

hello, 大家好,欢迎来到我的频道,这里是荒野星洲观察带你,我吃的是小看 ai。 好, 那么咱们本天呢,就来讲一个谷歌团队的 deepmind 最新发布的一个叫迅雷马四的一个模型啊,这个模型就很厉害了哈,那我们看到啊,这个模型它其实是包括三种啊,不同的参数量的, 或者三种不同的大小的,也属于一种小型的,包括啊,两臂和四臂的一个模型啊,它专门为移动设备设置的,这个呢,我们会 待会就会专门在我们的 iphone 上来试一下。我的设备呢是 iphone 十七 pro max, 我 们也来实测一下啊,这个设备这个模型呢,在我们的 iphone 十七 pro max 上的一个运行实际表现是怎么样啊?我们待会也会拿图像文本和视频一起来看一看 啊,那那感兴趣的小伙伴呢,也可以待会或者是直接跳转到后面也可以,也可以来听一听我们前面对这个模型的一些分析。 好,那我们看了,还有除了两个两币和四币的一个密集参数,也是 dance 模型, 那我们先来看一个 m o e 模型,一个三三啊,一个二十六 b 的 m o e 模型,那看上去都比较少啊,和那我们动不动 deepsea 的 这种六百七十 e b 的 这种模型相比的话呢,还是小比较多的,而且只有这三十 e b 的 二十六 e b, 二十六 b 的 啊,但是呢,谷歌他有自己的一个在小模型上提升效果的方法,这个我会讲。 好,我们可以看它这个模型的一些特点,我们可以看到它是支持推理的所有的模型,其实小模型它也支持推理开启推理模式,包括原声多模态, 它可以处理文本啊,包括可变宽高比的这个可变分辨率的所有图像和视频和音频啊,它都是原生提供的。好,我们看了原声多模态大模型,我们之前讲过非常多次了, 他和我们说非原声的用这个投影层相比的区别就在于啊,他是省去了翻译官这个这个角色的。如果你是非原声的这个大模型的话呢,你需要做的就是啊,你把这个 啊,你把这个图片啊,你先切分切分块,接下来呢,你再啊读一遍啊,然后文字呢读一遍,接下来把你图片的 这个读完的这个结果呢,翻译一遍,翻译成文本,能够听得懂的,通过投影词翻译一下要投的这个统一的文本向量,就这样你就有一个翻译的过程,那相当于损失了图片的很多的语义,或者损失了图片的很多的一个地方, 那这个时候呢,如果你变成原声呢,相当于你把所有的只要能做 token 的 万物皆可 token, 如果把所有的图片也变成 token 的 话呢,这样就可以在图片文本甚至是音频视频间无暇无缝的进行 attention, 点击计算,这个时候呢,你的图片的任意一个像素点都能关注到你文字里面的任意一个文字,比如说猫的眼睛这四个文字,它就会把更多的 attention 呢啊,就是 点击这到这个最硬的这个图像的这个猫的眼睛的地方去,这也就是原生态大冒险的能力了。但是如果你是 我们说的 clip 模型,做了那种传统的这种拼接型的这个原声大模型的话,然后拼接型的多模态大模型的话,那他就做不到了哈。好,我们包括更大的,像这种窗口小型模型就是边缘层呢,有一百二十八 k, 那 中型模型呢?是二百五十六 k 了, 看,还有是一个增强的编码括领或者这个 h 的 功能啊,它编码方面它说是有改进的啊,并且支持了方正括领了啊,那包括原声系统提示, 那包括他就是有一些原声的系统,其实死在里面都会有的。好,所以我们这几个点的话呢,像我们对一般的普通的一个大模型,比如说这么来说呢,也是非常司空见惯的,但是在这种开源模型里面还是非常不容易的哈, 好,那我们接下来看啊,啊,它是默认的话是 b f b f 十六啊,那我们看它需要多少内存呢啊?如果是对你手机来的话,是需要多少内存或者显存呢?啊?那比如说这个最小这个模型,它需要九点六 b, 默认就是九点六 g b 啊,那如果你 iphone 十 g max 是 默认是十二 g b 的,是 ok 的 啊,那四四四四 b 的 这个模型的话就不行了,所以我们一般 iphone 十 g max 你 可能跑一个九点六 g b 的, 如果你要比这个十五 g b 还要大的话 啊,就可以,但是呢这个只是最小的一个值了,为什么呢?啊?那具体说的话,级别我们可以看到哈, 它具体的所要的这个内存,它取决于哪因素呢?比如说啊,这个我们看 e e 代表的是有效的一个参数啊,有效的一个参数就是 efficient 啊,它为什么呢?这么说呢,在有效的参数呢,我们看到是 e 八啊, e 二比,那就是有效的参数是两 二十亿啊,那就是四十亿个有效参数啊,我们看教程的模型,它采用了什么?我们之前没有讲过,这叫做每层进入 p l e 技术 啊,为什么要有这个 p l e 技术呢?我们看它的目的是以在程度上提高设备中的参数效率啊,我们看 p l e 是 什么意思呢啊?所以我们知道一般情况下,我们这个每一层啊, transform 层的那个逻辑是怎么样的,哎,就是你先走 attention, 再走情感传播啊,那接下来就 ok 了, 对吧?你就出去了啊,你首先是透看词源化或者是 embedding 啊, embedding, 然后再啊,我们说这个 attention, 再然后再添加传播就可以了,就剩三步,但是呢,哎,它这个 pl e 呢,在每一步里面,它会多给你一个词汇表啊,相当于呢, 它不会给这个模型添加更多层,而是为每个司法单元的解码器层提供小型嵌入。 我们说这个 ple 到底是什么意思呢?其实是这样的哈,就一般情况下,每一层的参数它是固定的,我们知道非常多拆 transform 层,那每一层的 transform 层呢,它都对于这个每一个 token 它来进行计算或者推理过程中呢, 它的参数都一样的,但是呢,我们这时候如果有了 p l e, 相当于呢,对于每个 token, 它会有一个单独的一个词汇表,那会去进行叉表,那对每个 token 它叉表那会有不同的一个微调的一个作用,相当于呢,对你每个 token 在 每个层里面进行了一个微调,这种情况呢,它这个目的最终就是说 即使在你小参数量的情况下呢,也能达到你大参数量的模型的一个作用,因为为什么呢?因为你的模型的啊,这个体积啊是有限的,所以他谴责在不加大层数的情况下来做,做到了微调的效果。一般情况下他就说如果你想要模型效果更好,就是跟你是 kelvin, 你 需要加大模型的层数, 你需要加到目前的参数量,你需要加到目前的计算量,但是这个时候呢,谷歌这种方法就是适用于小模型啊,去 p l e 技术呢,可以在你啊不加载模型参数量的时候能够做到我们刚刚说的这些效果哈。 好,那么接下来看这个 m o e 我 们就比较熟悉了,我们之前很多视频都讲过,对吧?好,我们看到是二十六 b 的 m o e 模型啊,每一个每个 token 仅只激活四十四十一个 a, 就是 四 b 的 参数啊, 啊,但是说二百六十个亿个参数都必须加在显存里面,这我们讲过,为什么吧?因为因为它是专家并行的,或者是说啊,它要找专家的,那你如果不抓在它显存里面,你永远不知道下个 top 你 要找哪个专家,对吧? 好,那我们这个就不讲了哈,啊,包括仅是它这个我们上次说的仅是精准权重,对吧?不包括很额外的这个 k v catch 啊等等等等,这个我们就不再讲了。 好,那我们先看一看这个模型卡片,也就是最新的它有什么区别呢?我们可以看到,之前呢,我们都看过了,那这些其实我们也看过了啊,那编码器的参数我们就不再看了 啊,其实我们看到滑动窗口上下文长度转换词汇表,这个大家有感兴趣的话可以看一下,包括这个积分结果可以看到哈。这个啊,编码四呢,这个三十一 b 和骏马四的一个二 b 的, 这个模型呢,还是差啊, m m l u 是 通识技术,通识能力的话还是差挺多的,对吧?那么一个最最强的是八十五啊,这个时候六十啊,那么这个还是差的就比较多 啊啊, m l m m u pro 呢,也是差的比较多的是我们,但是呢,这个能在最小的这个模型能在你的是边缘测计算或者边缘测运行就已经很不错了。好,那么接下来呢,我们就不看了,好,我们直接进行测试。 好的,那大家现在看到的呢,这个就是我的手机了啊,那么关于怎么用这个 app 啊,其实大家只要到如果你是苹果手机的话,你在啊啊,你,你在比如说漂亮区的 app store 里面下载一个这个东西,叫做 google ai gallery, 这么样的一个画廊就能够 啊使用了,你只要下个 app 就 可以了,你就没有什么复杂操作,当然你也可以在 a s studio 里面,但是 a s studio 里面呢,它就 就是联网的了,那你要到本地跑的话呢,你可能就要下载这么 app 了,我们看了它是纯本地的,我们其实是把它这个关掉啊,我们把我们的网络关掉,它也是在这个本地跑的,我们看看这个 app 的 界面能不能看得出来啊?它可以,如果我们讲到这个 model 的 话, 选择 model, 我 们可以看到啊,最新的 model 呢,就是这 game 四,它包括原来还有 game 三 n 这种的话, game 四的话呢,我们可以直接是用的,包括它对, game 四呢,它有非常多的一个功能,比如说我们看到这个 s image, 就是 我们可以给他图像,或者是给他一个语音,或者是给他一个文字, 甚至让它用 agent 的 模式,那我们这四个都会一个一个来试一下,下面这个就不用了哈, prompt lab 就 不用了,所以我们来试试一下,一个一个都试一下吧。那好,我们这边是基本的这个 chat。 好, 那么我们看这个模型总共大小是二点五四比,也算是比较亲民的一个大小了,我们试一下。 好,首先呢现在他在把模型,权重等等一切的东西加载到我的这个显存里面来。好,那现在是加载进来了,我们试一下,再看看。这里能上传啊,他什么也上传不了,那我们看看他到底情况怎么样,就比如说,呃,帮我写一首关于 春天的诗。 好,那我们接下来的设置这里看一下它可以设置的,比如说啊,加速器的话, cpu, 那 我们可以用 gpu 了啊, temperature 的 话到 e, 然后 top p, top k, max, token, 这,这个都不用调。那我们把 emoji 滤镜,我们看看它,打开心情,打开推理模式,让它推理一下。好,我们看到啊,这个啊, emoji 滤镜处这个设置都 ok, 那我们试一下,那么看这个速度还是可以的啊啊,不过问题在于它比较耗电,耗手机的电,那他也知道,因为他是本地跑的嘛,他要跑去跑去 p u 当然是比较耗电的,不过我们看这个速度确实不错。 这个推理能力还可以啊。推理了这么多啊,只不过有个问题呢,就是它这玩意是它这个怎么做?是这个传统的,这个传统输出了这种 markdown 格式啊, 哎,这个这个这个,你前端 ui 也不给你整合一下,你看这个档格式乱输出的。嗯,这个问题不大吧,这算是一个,他也不是完全没有整合,你看这个这个啊,井号的,星号的他就整合了这个加粗,但是井号的就没有这个大标题的就没有, 你们看啊,是个一是个啊,当春日的余温渐渐散去啊,溪水涟漪一朵朵花啊,爱你们吧。我觉得还行。那我们接下来再问一个问题,看他在 k v cash 上升的时候,他会不会速度变慢呢? 那比如说我们再问一个问题,就像,呃,你觉得 心情不好的时候可以做什么? 这个还是很快的啊,我们现在看到虽然说退了也很快,但是我的这个手机的电量也消耗了很快。可以告诉大家的是现在就没问题的话,我们手机电量呢已经消耗了三个点了啊,三个三,百分之三了。这个这个,呃,这个就没有办法了, 这我没看到啊,现在它的速度是明显的比刚刚要慢了,这也很正常这也很正常,因为它这个目前的 kiwi cash 是 越积越多了。嗯,虽然慢了吧,但是我感觉还是能接受的,对于你本地模型来说的话还是能接受的 啊。我摸一摸我的手机我的手机呢,目前还是还可以,并不是非常烫的感觉啊,目前我的手机 在这呢啊,这手机感觉还不是特别烫,还可以的,就表示这个,哎呀,这苹果十七这一代啊,它这个散热做的还是可以的啊,这个这个这个这个散热做的还是可以的,一般来说的话,如果你要跑本地跑这种效果的话,肯定是已经炸裂了这个热度 啊,这个手机电呢又一进一步下跌了,现在已经比较慢了啊,这个这个,这没有办法,因为这个已经花了一点二分钟了啊,这我们能感觉到一开始呢就花了这个 啊,三十八秒,现在要花一点二分钟啊,因为呢,你的随你输出输入越来越多,你的 qq 量越来越多,那这个时候呢,你需要进行计算量就会越来越大的,因为你是 n 平方,大家记得吧啊,你的指数,你的计算量次数是 n 平方, n 的 就等于你上升段长度,那你随着上升段的长度越来越多,你的计算量越来越大 啊,那你无论是在 pfif 还是 dq 阶段呢,你都会沉压的啊,所以我们看了这个文字的话,还是不错的,还是不错的,而且它的推理能力也可以, 嗯,还推流能量。那,那我就不尝试问一个这种很高级的推理问题了,那如果你要问推理问题的话,那我觉得他这个这个这个算了啊,算了,算了,那一般来说我们也不会用这种本地的这种啊,这个 ai 呢去问这种推理问题吧。 好,那么我们接下来就看一个别的一个场景啊,比如说,那我们接下来呢就来测一下视频吧。好,我们现在看到啊,我们现在是来测视频的啊,大家看到我们这有个 s cam 啊 image, 然后我们把我们上一期关于飞龙的这个视频呢,在这个图呢,图片给它塞进去了啊,就我们先测的是图片 image, 设了一个图片,那我们就问一个问题,就是说你能从这张图片里面推断出 我买的英伟达啊,那比如说是 nv 机啊 的股票是短期利好还是利空?那这个问题倒是有一点推理难的力度哈,我们看他能不能够啊,扛得住这个问题啊。 好,那我们看一下啊,他确实是能够识别出我图片里的这些数据的,他能够识别出我图片的数据的,他是没有问题的 啊,这是原生态模态的。好,那么接下来看啊,我们手机的电量呢,又一步下跌了,我们之前一开始呢是有八十八啊七十八的,现在呢又下跌六个点,我们就没问几个问题,这个,这个就是说 啊,所以说的话呢,你最好还是不要问一种很推理的问题了。那,那估计扛不住啊,那可能就是啊,原地位的隐私啊,本地还是可以的 好,那他对投资建议的话,他还会有一些这个免责条款啊,可以的,我们看啊, 该报告整体倾向是利好的,偏向利好的。你非常像就是一句非,就是一种估计高预期失业率低于一些展望明向预期强烈的就业收益将对 n v 产生产生利好 啊。所以我们强调这一说,一说放出来的科技,我告诉下,下一说重新考虑,放松后备政策,重重开包容,看我们周瑜身上表现,看你转的款式宽松。 呃,这,这就,大家如果看我上的视频就明白,他这个是讲的是不对的哈,这个讲的是不对的,可能是因为模型比较本身参数比较少的原因啊,因为大家看到这个飞龙数据是超出了我们的预期,按照我来说超出了市场的依据很多了,按照我来说,他应该是 会使这个免疫素充实,这个考虑通胀这边,那就会省的这个乱密不断或者加息,导致短期科技股这些 n v 点会沉压的。他并没有分析到啊,他主要的是后背甚至可能转向宽松,这个是我们这个不对的哈,不对的,所以的话啊,这个是不对啊,有,而且呢,他这个也 在这个模式里面,他没有办法去联网搜索,比如说问一下,你上网搜一下,看看能不能上网搜, 他也是没有办法上网搜索的,他看到了他,他是一个大眼不识,并没有具备搜索的一个能力啊。所以的话呢, 本地的这个用的这个模型啊,确实就是局限性比较大,这个我们也能理解的,本地的局限性现在摆在这了。好,那我们就不再去逗他玩了哈,因为没有什么意思,我们测试一下就可以了。好,那我们接下来看一看,比如说呢,我们接下来看一看这个,嗯, agent agent skills。 好, 那么这里也可以用 agent skills, 我 们看看。 还是这个模型好,先把它加载到我们的选项里面,那我们接下来看它有非常多的 agent skills, 包括。呃,哎,我怎么点了一个这个玩意?等一下 啊,等一下啊,那我们说再来一遍,我们看到有多少个 scales, 我 们点下这个 scales, 好, 看到的有非常多 scales, 我 们它总共八个 scales, 包括 in interactive map, 包括 kitchen, adventure 啊, cosplay, 还包括 query uki p 点。啊,那它还是能够搜索的,但是它有一个 scales, 上面就会搜索的,还有 qr code, 是 可以专业 qr code 出来。啊,那我们呢,其实这里呢,我们也看到啊,它可以 看到你的系统其实词的。那这个系统其实词呢?这个显示的是这个,它就只有一个 skills。 嗯,然后其他的呢?都是指的?是啊,让它符合 skills 输出,这个可以是个 agent 的 一个这样的一个标准的一个格式了。 好,那我们接下来试一试这个 kiting adventure 吧。啊, kiting adventure, 好,那它成功加载了这个 kinead 玩者。它其实呢,它就是一个啊,像一个冒险小文字游戏。那我们接下来用中文来跟他聊一聊,玩一玩这个游戏。 好,那么看你醒来,已光滑的金属面上,台面已经低沉的不像了。你想做什么?仔细检查周围环境,被搜索,那就回答一个。一, 那我能不能自己说呀?啊,我想逃跑,能不能行?行啊,行,行,你想做什么?你说什么?但你成功, 那我想跳下去,能不能行? 好吧,我感觉这个游戏有点无聊啊,多少有点无聊。嗯,这个车确实太无聊了。那我先来试一试能不能让它去,能有一个这种的搜索的啊,我看能不能让它能搜索 啊。 found that one battle of the other ones。 他 他就发现了什么啊?他是能够搜索到一些东西的,但是为什么他只搜索到这一个呢?他是一个 for a given topic 我 并没有给他任何的。 啊我告诉了他了啊我我这个新闻学子问了他 tell me who won the best picture。 那 如果我这个时候我试一下啊啊告诉我现在北京的天气我看它能不能自动去降用这个啊。 skills 他返回过信息报信息而不是返回信息报那他并没有返回一个信息报啊。那这个时候呢就表示这个工具他不是很好用啊他不是很好用。 可能呢对于这个奥斯卡二零二六年奥斯卡还在那用呢但是对于我这个其他问题就用不了了我也不知道为什么因为他这个东西确实是不是很好用所以呢他并不是一个非常好用的一个 agent 不 过我们可以让他写代码他说他能写代码是不是那我们说帮我 写一个完整的啊贪吃蛇游戏 包括钱过关的。那我看看他的极限承压能力怎么样吧如果他作为 agent 的 话他应该要能这么做的对不对如果做不了的话那我觉得他就不是合格的扣进 agent 的 了。 呃这卡住了这就比较尴尬了。那那我只能我重新走也走不了。好吧 刚刚呢就非常尴尬啊刚刚非常尴尬这个整的给他整死机了因为大家看到这个是个新功能我估计还在背的版本咱们再试一次给他一次机会实在不行那就算了吧。啊那那只能说明他要在在这个看在 as studio 里面用也好点。我们边缘测他确实是比较呃捉泥鳅肘啊只能说是那我们这里试一下就帮我写一个 拥有前后端的完整的 贪吃蛇游戏看能不能行啊。那我看这个加号能没有什么。这个 fork library camera 呃也没有什么东西对吧?好那我这个这个 skills 也都选上了,我们看能不能行吧。 啊他怎么把这个系统其实词给打出来了?不是我没有让你打系统其实词啊。 哦他他一定要打系统题的词吗?哦还行啊他写出来了。哦。我感觉这个这个不太对啊。这个 貌似它并没有一个很好的啊或者是一个拓字来支持它,有可能是这个环境它只能是用来做 agent skills 它只能限制于我们刚刚看的那几个 skills 里面。 这个可能这个啊 read file 或者是 crit file 呢,它并没有这么样的工具,也就说它并不能够创造这么样的文件在一个沙滩环境里面,所以导致它就只能输出这种所谓的全文本 啊。那这个算不上一个 a 人呢我觉得算不上一个 a 人呢。那可能最多也就是能够调用一下你的啊这个 skills 那 其实也算 a 人了嘛但是它不是一个合格的 coding 呢,不知道大家怎么看啊。这个东西 好那么我们现在手机的电量呢也成功掉到了六十九啊,就没回答这个问题效果就不太好,我们两个花了三格电啊。所以大家如果除非是对你隐私问题特别要求严啊,不然的话还是不建议让你下个模型自己在这里跑,而且你看后面它是越来越慢的啊,它越来越慢就由于我们刚刚说的原因。 那这个也没有办法,他就是越来越慢的放。那那我们就不等他了啊。那我们首先呢就来总结一下咱们今天的这个视频吧,咱们今天的视频就给大家测试到这里了啊,那么今天这个视频呢啊,也是非常多的意外吧啊,因为这个确实这个模型刚发布也是个悲的版本, 不过呢我们是还是带大家来啊,测试了一下它的各项能力,特别是它原生多肽能力啊,主要是它能够在你手机里面通过十二 gb 的 那个运存,它能够做到啊, 它能够输出点东西,我认为它不错了啊,而且它能做的芯片和原生多肽,这个就超过了我们之前很多的一个模型了啊,所以这个是它,我觉得它是最主要的一个 优势啊,就它与它原生多肽,它能够识别各种各样的一个多肽信息啊,它那个你手机本地执行,你就先别管它效果好不好,你别管它是慢不慢 啊,那至少呢它能够做到的,在目前的话也是首屈一指的啊,那这就是我们咱们本期视频的全部内容了啊,包括包括呢,那这个耗电确实很夸张,很夸张啊,那么咱们呢就不太测试了,测试我感觉我的手机要不行了,现在已经微微的有点发烫了,它也不是特别烫 啊,有点发烫了啊,有点发烫。好,那么本期视频就到这里吧,那感谢大家的这个收听,那如果大家觉得这期视频对大家有帮助,或者想自己下载玩一下的话,也欢迎哈, 那么欢迎下载玩一下,如果安装方面有什么问题的话,也可以私信来问我啊,那么如果大家觉得这期视频对大家有帮助的话呢,欢迎给我点个三点,点个关注吧,那么咱们下期视频再见了,拜拜,咱们下期视频再见。

谷歌刚发布了王炸级别的开源大模型 g m 四,本视频将为你带来详细的评测。本次的 g m 四最大的杀手锏是彻底转向了 ipad 二点零纯开源协议,这意味着他终于解除了之前的法务紧箍咒,开发者可以闭眼商用。虽然三十一 d 模型在 reno ai 榜单上拿到了开源第三, 但回归到真实场景,它的表现其实是一把极其锋利的双刃剑,评价非常两极分化。首先看旗舰级的三十一 bance 模型,它的编程能力非常惊艳,实测写 html 界面,排版精美,在 levelbench 拿到了百分之八十的高分,达到了专业程序员的指令水平。 而且它的 token 效率极高,平均消耗只有 coin 三点五的百分之六十五,非常适合需要反复调用、在意成本的本地 agent 工作流。 但它的偏科非常严重,数学精度不足,简单的运算经常出错,尤其是在处理信息密度大的长文本时,很容易产生幻觉,而且在开启慢思考模式后,偶尔会陷入死循环,无法跳出。接下来是性价比极高的二十六 b m o e 模型, 这款模型是本地二十四 g 显存用户的福音,虽然总参数有二十五点二 b, 但推理时仅激活三点八 b 参数,这意味着你只需要十六到十八 g b 的 显存就能跑起四 b 的 量化版,而且速度极快,实测能达到每秒六十个 token, 非常适合那些需要塞入臃肿系统提示词的 a 帧子应用。不过这款模型的评价极其割裂,虽然有人觉得它实用,但也有开发者直言它在中文写作和逻辑推理上,灌水严重, 被戏称为数字干水制造器。最后是端侧的小杯模型 e 四 b 和 e 二 b。 它最大的亮点在于原声支持最高三十秒的音频输入,这意味着你不需要外挂 s r 语音转文字模型,英文转写效果几乎完美,是做本地语音助手的绝佳选择。但它的视觉能力简直是灾难, 面对简单的发票截图或手机截图,文字提取错漏百出,甚至连最简单的网页自动化操作第一步都会报错。在视觉理解这个维度上,它被 q n 三点五的九 b 模型按在地上摩擦。 那么在实际选择时,如果你需要构建本地的高频 agent 循环照用,且对 token 预算和响应延迟要求极高,那么二十六 b m o e 是 首选。 如果你想打造纯离线的语音交互设备,直接用 e 四 b 即可。当然,如果你最看重的是开源协议,需要变商用 jamas 的 pitch 二点零协议就是最大的优势。 相反,如果你需要一个强悍且稳定的综合小尺寸模型, q n 三点五的九 b 版本在综合能力上是碾压 e 四 b 的。 另外,如果你依赖高精度的数学计算 o c r 文字识别,并且要求极低的幻觉率,或者需要一个更成熟的生态和丰富的尺寸矩阵,那么 canon 三点五会是更稳妥的选择。在底层架构上,简码四引入了两项黑科技, 第一是 pl e 逐层嵌入,这是小模型专享的,它不再把所有信息在初识阶段一次性打包,而是在每一层都生成专属信号, 本质上是用额外的算力换取存储空间,增强表达力。第二是混合注意力机制,它采用了五层滑动窗口和一层全局注意力交替的结构,配合双 o p e 配置,直接将上下文处理能力拉升到了二五六 k。 针对硬件部署,这里给一套基于 ansel 和 m c p p 的 建议。如果你只有八 gb 显存,勉强能跑 e 二 b 或 e 四 b, 但只能做简单的摘药或语音识别,千万不要尝试复杂的视觉理解或长代码分析。二到十六 gb 显存是 e 四 b 的 舒适区, 也可以尝试二十六 b m o e 的 重读量化版。而如果你拥有二十四 g b 显存,强烈推荐跑二十六 b a 四 b m o e, 这是目前最有限势意义的型号,能同时兼顾二五六 k 的 长上下文和高效的吞吐量。 最后,分享两个长文本推理的闭坑技巧。如果你在进行存文字的长上下文推理,建议在辣妈 c p p 中直接关闭微震视觉功能,这样可以节约大量显存。 另外,面对复杂任务时,可以通过 a p i 动态调整 thinking budget, 也就是思考预算,防止模型陷入无限思考的死循环,导致机器直接卡死。

google deepmind 最近发布的 gemma 四带来了一个非常反常识的结论,模型的能力不太单纯,取决于参数规模的大小。数据证明, gemma 四的三十一 b 参数模型在数学、推理和编程这些硬核任务上 竟然直接飞平,甚至超越了那些参数量在二零零 b 以上的巨型模型。更离谱的是它的微变体二十六 b a 四 b。 这个模型虽然总参数有二十六 b, 但每次处理任务时,真正起作用的活跃参数只有三点八 b。 也就是说,它只用了三十一 b 模型不到十分之一的计算量,就跑出了百分之九十七的性能。这说明,只要架构设计足够高效,我们可以在极小的算力成本下获得极强的智能表现。 不过,这种效率提升并不是万能的,在需要复杂规划的长周期任务中,比如自动写代码的 s w e bench, 测试规模依然是王道。这意味着,架构优化能让小模型在特定任务上极其强悍,但要触碰智能的最高上限,总参数量依然是绕不开的物理基础。 要理解 jam 四的优化,得先看一个痛点,全是 former 模型。在推理时,最迟显存的不是模型权重, 而是 kv cache。 简单说,模型得把之前所有对话的记忆都存在显存里,上下文越长,显存占用越高,很容易直接称爆。针对这个问题, jam 四在一二 b 和一四 b 这类边缘模型中用了一个直接的办法, kv 共享发现深层网络中 相邻层学到的记忆表示其实高度相似,独立计算纯属浪费。于是他让后面的很多层直接附用前面层的计算结果,比如一二 b 模型有三十五层,其中二十层都在共享。这种精确附用直接砍掉了大量溶于计算,让模型能跑在算力受限的设备上。 不过,在三十一 b 这种大模型里, google 并没有开启这个功能,因为大模型需要每层独立计算来保留更多信息增益。 接下来是整个架构中最精妙的部分。 global attention 的 五重压缩全注意力计算是最昂贵的 logo, 为了把它压到极致,设计了一套环环相扣的链条。 首先,他使用 gq a 组查询注意力,把 k v h 的 数量压缩到八比一,但这会导致信息丢失。为了补回来,他把 key 的 维度直接翻倍,用更宽的向量来承载信息。 接着,他走了一步极端的棋,让 key 等于 value。 这意味着模型在解锁和读取时用同一套表示,不仅让 k v catch 再次减半,还起到了一种智能化效果,防止模型过密合。 但这样做在长文本下会产生位置编码失真。于是他引入了 pro p e, 只对百分之二十五的高频维度进行旋转,让低频维度纯粹保留羽翼,不再被位置造成干扰。 最后,他强制要求最后一层必须是大局注意力,确保输出的每一个词都能看到完整的上下文。这五步走下来,原本沉重的大局计算被压缩到了极限。 在位置编码上, jama 四采用了双 rope 机制,简单说就是给不同场景配了不同的尺子。对于局部滑动窗口,它使用标准 ope 参数 f 为一万,处理五幺二到一千零二十四个口径的短距离保证位置感知极其精准,而对于大局注意力, 它切换到 prope, 把 feta 猛增到一百万,并且只旋转一部分维度。这样在面对二五六 k 这种超长上下纹时,能够有效过滤掉远距离产生的位置噪声。 一套组合拳下来,模型既能处理好眼前的细节,又不会在长文本中迷路。接下来看一个非常独特的设计。 playa embedding, 简称 ple, 在 传统的 embedding 在 所有层里都是同一个, 这就要求这项量得预先编码好所有层可能需要的信息,这对固定维度的向量来说压力太大了。 pl e 的 做法是给每一个解码层都配一个独立的小型 embedded 表, 这意味着 token 每进入一层都会收到一个专属的信号。在一二 b 模型中,总参数虽然有五点一 b, 但真正参与计算的有效参数只有二点三 b, 剩下的二点八 b 全是。这些 embedded 表虽然在硬盘上占空间,但推理时只是简单的查表,几乎不增加计算量。说白了, 这就是用存储空间换取计算效率,让模型在保持二 b 级别推理速度的同时,拥有更强的表达能力。 最后我们来看看二十六 b a 四 b 模型的灵魂双路径混合架构,它和 q n 或者 glm 的 纯欧以不同,它在每一层都设计了两条并行的路。 第一条是 dance m l p 路径,这是一个不依赖路由的全量计算通道,就像一个稳固的底座, 提供最基础的信号。第二条是路由猫 e 路径,这里面有一百二十八个极其精细的小专家,每个 token 进来后,路由器会挑选最合适的八个专家来处理。这种设计非常聪明,它既有了 dance m l p 保证的稳定性,又利用了一百二十八个小专家带来的极高参数利用率。 相比于早期只有八到十六个大专家的模型,这种细腻度分发能让每个专家学习的模式更专注,从而在极低的活跃参数下依然能跑出接近大模型的性能 架构决定了效率,但训练决定了上限。目前一个行业共识是,通过蒸馏让大模型教小模型,效果远好于单纯的强化学习。 q 三采用了强到弱的蒸馏, clm 五则用跨阶段蒸馏来防止模型在学习新能力时忘记旧知识。 而 gemma 四的强大,很大程度上得益于他的老师是 gemini 三。 google 利用 gemini 三生成了海量的高质量的推理链数据,然后为给 gemma 四进行指令微调。说白了,小模型的能力上限,其实就取决于那个教他的老师有多强。 在训练管线上,三家公司走出了截然不同的路。最明显的差异在多模态式线上, gemma 四走的是原生融合路线。 他在预训练阶段,就把视觉的 y t 编码器和音频的控风的编码器直接揉进了模型里,让模型像人类一样,在同一个大脑里同时处理文字、图像和声音。这样端到端的响应速度最快,逻辑一致性也最强。而 g l m 五走的是工具调用路线,它的基础模型本身不处理图像, 而是像个调度员,需要看图时就去调用 g l m vision 这种专用模型。这种做法虽然在响应速度上稍慢,但灵活性极高,升级某个模态只需要更换对应的工具模型即可。 k y 三则采取了折中方案,将视觉能力交给独立的 vr 系列模型来承担。 最后聊聊量化,也就是怎么把模型压缩到手机或显卡上。大多数模型用的是后量化,也就是模型练好了,再强行把精度从十六位压到四位。这就像是强行瘦身,难免会损失一些能力。但 jam 四用了 q a t, 也就是量化感知训练, 他在训练过程中就故意加入量化造声,让模型在还没出场前就习惯在低精度环境下工作。结果就是像维利亚发布的斯比特福典版本,精度损失极小。这种在训练阶段就做准备的方案,比事后压缩要高效的多。 把数据摆在一起看,你会发现一个很有意思的现象,在数学推理测试 ai 米上, james 的 二十六 b 模型虽然活跃参数只有三点八 b, 但得分高达百分之八十八点三,这简直是效率奇迹。但你看 g i m 五,它凭借七四四 b 的 庞大体量,拿到了百分之九十三点三的最高分。 尤其是在需要复杂规划的 s w e bench 测试中, g l m 五毫无对手。这再次印证了我们之前的结论,在简单的推理和编程任务上,我们可以靠架构效率来以小博大,但如果要处理极其复杂的 agent 规划任务,总餐数量带来的规模效应依然是不可逾越的壁垒。 面对常文本处理,三家公司走出了完全不同的技术路线。 java 四采用了滑动窗口和全聚注意力的交互设计,目标只有一个,在保证能看到全文的前提下, 把单次推理的开销压到最低,追求极致的效率。听闻三则比较保守,坚持使用标准的全注意力架构,通过调整位置编码来扩展长度,追求的是极致的稳定和通用。 而 glm 五最激进,它用了 mla 和 dsa 这套双重压缩方案,彻底抛弃了传统的缓存方式,目标是让模型在处理超长历史记录的 a 帧任务时依然能快速回溯且不暴显存。 可以说,这三者分别代表了效率、通用和能力三个不同的工程方向。最后,我们给这三个模型做一个简单的定位总结,帮你决定怎么选。 如果你追求的是极致的性价比,希望在有限的算力下部署尽可能多的实力,那么效率至上的 jam 四是首选。如果你需要一个表现稳定、生态完善且能应对各种通用任务的助手,那么均衡的 q 三是最稳妥的选择。 而如果你是在开发一个复杂的 ai agent, 需要模型具备极强的长文本规划和代码编辑能力,那么专精于此的 glm 五则是目前的最佳答案。 回顾整个 jam 四的拆解,我们要记住三个核心结论,第一,参数效率的边界远比我们想象的要远,只要架构设计的好,小模型也能打赢巨无霸。第二,现在的开源模型竞争已经从单纯的参数竞赛转向了谁的蒸馏策略更好,谁的强化学习工程做得更深。 第三,这个世界上没有所谓的最优架构,只有最适合特定场景的权衡。对于所有关注 ai 基础设施的同学来说,与其盲目的推算力,不如花时间去理解不同架构的效率特性,这才是真正的竞争力。

谷歌发布了 gemma 四这个全新的开源大语言模型家族,只在让本地硬件上也能实现高水平的性能。 在直接测试中, gemma 四在数学编程和逻辑推理等基础测试上超越了 l com 四和 queen 三点五等同类领先产品。 谷歌还调整了授权方式, jam 四采用 apache 二点零许可证发布,取消了此前对开发者的商业限制和使用限制。 顶级精准测试成绩与宽松授权的结合,改变了企业级和本地 ai 部署的技术选择。 该系列包括四个模型,你可以选择针对边缘设备优化的 e 二 b 和 e 四 b 专家混合模型二十六 b a 四 b 以及旗舰级的三十一 b 稠密模型。 e 系列模型具备原声音频处理能力,可以在边缘设备上直接进行语音转录和音频分析。 这一系列的核心创新是思考模式,在给出最终答案之前,模型可以在内部生成数千个推理 token 以处理复杂的逻辑。这种转变在 m 二零二六数学基本测试中表现的尤为明显。 gemma three 的 得分为二十点八百分比,而 gemma four 在 使用其推理链时达到了八十九点二百分比。这一表现表明,体积较小的开源模型现在也能执行此前仅限于封闭专有系统的多部推理。 二十六 b 到四 b 模型采用了专家混合架构,由一百二十八个小型专家网络组成。由于每个 token 只激活了三点八亿个参数,它的计算量仅为稠密模型的八分之一,同时保留了三十一 b 模型九十七个百分点的性能。 对于边缘硬件,一二 b 和一四 b 模型可以在配备四到六 g b 内存的标准笔记本电脑和智能手机上运行,能够处理如 o c 二和音频翻译等任务。 在工作站上,二十六 b a 四 b 模型需要十六到十八 g b 的 显存,因此可以在像 r t x 三零九零或四零九零这样的单张消费级显卡上运行。 这种硬件效率使得企业级编程大规模二十五万六千上下文分析以及本地自主智能体成为可能。 部署过程非常简单,如果追求极致速度和以音频为主的任务,可以选择 e 四 b 模型。如果硬件不是限制条件,想要获得最大能力,可以选择三十一 b 稠密模型。 对于大多数本地开发者和企业用户来说,二十六 b a 四 b 模型在速度与推理能力之间实现了最佳平衡。 整个系列都可以通过现有工具如 ansloth 和 lamda c p e。 在 本地部署和微调。 通过结合炼制思维推理,贸易高效性以及 apache 二点零许可证, jamah 四实现了本地化的能力水平。

谷歌终于坐不住了,正式卷开源市场, jm 四的效果到底如何呢? jm 四的发布啊,真的有可能让我们实现头很自由。这期视频呢,老张给大家简要介绍一下 jm 四怎么安装到本地,以及如何搭配到我们的 open klo 大 龙虾上, 附带所有的安装步骤啊,大家可以一起来体验一下。后续呢,老张也会根据测评效果给大家接着发视频,这期是我们完整的部署流程,老张重点给大家简单聊一下,就是为什么 jm 四的发布啊,会让大家感觉谷歌真的开始卷起来了呢? 首先第一点,他和目前谷歌的 jimmy 三用的是相同的技术基座啊,所以说他的能力是毋庸置疑的。第二点就是商业自由,你直接部署下来做什么都是可以的,都是允许的。然后第三个就是支持多模态,无论是文本、图像甚至小规模的视频音频, 他都可以直接支持。第四点就是结合前段时间爆火的 open klo, 他 可以直接在本地对接 open klo 以及对接 klo 的 code, 实现本地的偷根无线化。这是老张给大家总结的四点,为什么詹姆斯的发布会让大家感觉,哎,可能真的要进入到一个新的纪元, 然后呢,他所发布的这四款模型呢?老张给大家做了一张图片啊,大家可以到时候把它截下来。第一个模型一二 b 的, 他本身是用于手机或者边缘设备八 g 显存, 然后最高端的三十一 b, 他 所对应的旗舰版本呢,是对应的是二十四 g 加,所以大家根据你的需求来进行对应的模型选择。老张这次视频呢给大家来看一下三十一 b 的 这款模型的安装, 然后关于本地的安装部署啊,其实非常简单,任何开源模型,其实我们只需要让他和欧拉玛就是那个小羊驼结合到一起就可以了,然后找到你符合要求的版本。安装成功之后啊,欧拉玛现在已经有了一个完整的应用端了,所以大家可以直接在这个位置和他进行对话交流。 那我们想要下载 jm 四到你本地的电脑上,我们可以使用它的官方指令,会告诉我们直接怎么样去进行 jm 四的对应安装,像老张想安这个三十一 b 的 对吧?我们就把它拿过来, 把它直接这有一个 c l i 命令行安装方式,把这个东西直接复制在你的开始菜单中,单机右键选择运行输入 cmd, 直接把刚才指令粘贴过来,这儿的时间会很长,因为它有二十个 g 的 大小,我们直接稍作等待 安装成功之后,我们也可以直接回到它的客户端中,在模型选项上找到我们安装好的詹姆斯冒号三十一币, 然后可以直接进行对话。老张他处理一个较为复杂的提示词,我们让他看一下当前显存的内存消耗, 咱们拿这个 ai 慢距的提示词来测试啊,这个提示词非常的长,我们看一下他读取提示词的能力,以及他的这个显卡的性能消耗,我们看一下啊,这个显存直接拉满的,达到了百分之九十四的占比, 而且这个响应速度还是非常快的,只需十一点七秒啊,就把整体的业务流程给我们直接补齐了,而且呢按照需求给我们进行了对应的提问,要什么样的慢距效果,所以说以目前的测试反应来看呢,他的这个响应速度起码要比之前的很多大模型要好的多, 所以接下来我们自己来尝试一下对话类的工具,可能大家都不是很需要的,我们能不能把它接入到我们的 open clone, 丢到我们的龙虾里,让它们俩来进行联动的。然后这期视频呢,老张顺便给大家提一下,就是最新版的 open clone 的 部署流程 啊,咱们可以快速的去过一下一些重点的细节,因为之前老张发过很多期的部署视频一块的呢,因为它本身啊, wsl 它是相当于在 windows 系统上安装一个 linux 的 独立系统, 这样的话呢,就直接相当于在你电脑上安装了一个独立的存储空间,它所谓叫做沙盒安全,而且运行起来呢是不会有任何的兼容性的对应问题的,因为 windows 中啊,它的权限呐,路径等经常会报错。所以说我们这 期视频重点教大家怎么用 wsl 进行 win opencl 的 部署安装,这样的话, windows 和 wsl 的 安装您都了解之后之后学起来就非常方便了。 然后接下来呢,老张给大家简单的介绍一下在 wsl 中如何安装我们的 openclaw, 因为之前呢,咱们介绍过太多次了,很多兄弟留言说老张就别介绍怎么安装了,然后我们就给大家简单说一下注意事 项。首先第一呢,你想在 wsl 上安装 openclaw 的 话,第一点你得先在你的 windows 系统下把 wsl 安装一下,当然很多电脑老张发现其实都是自带的, 怎么检查是否自带呢?咱们可以直接输入 wsl 空格杠杠威森,如果弹出定的版本号,证明 wsl 电脑已经安装了,如果没有弹出的话,使用安装指令 wsl 空格 insert 直接安装即可。然后紧接着按照老张给你提供的指令复制粘贴就可以了。先安装你的优班图, 安装之后进行一下更新。安装完优班图之后啊,在这选择这个倒三角,找到优班图系统,就可以直接进入到你的优班图系统当中。 在你安装过程中啊,它会让你设置一个用户名和密码,到时候可能需要做一步密码验证。在优班图系统中,注意是优班图系统中运行这些环境指令,分别安装 python 三,安装一个压缩包工具,方便安装一个 node 点 ps, 然后再安装一个 get 工具。 如果说为了检测每一步安装是否成功的话,你可以分别输入,比如 note 杠 v、 npm 杠 v, 包括 get 杠 v, 在 这检测我们对应的这个版本。如果都能弹出版本号,证明你三项安装都是成功的,这是配置 openclo 的 基本的内容要求。 然后紧接着我们把基本环境配置好的兄弟,你还需要在这个位置安装一下这个欧拉玛。 这老张要重点说一下,说老张我不在本地都已经下载好欧拉玛了吗?为什么在优班图里还需要再配置一下?其实我们优班图中是可以调用本地的欧拉玛的,但是很多兄弟在调用过程中分别给老张留言说说调用时无论是 ip 地址找不到,还是 ip 的 动态变化,导致每次都需要重新连接,重新配置。 所以说最简单的方式就是把欧拉玛在你的优班图系统中再次的安装一遍。其实安装非常简单,只需要把第一步的安装指令复制过去,直接在这个位置直接粘贴即可。安装成功的检测方式很简单,你就输入欧拉玛, 如果他不报错还给我们对应的选项,是咱们是进行对话呀,还是怎么样的证明你的安装就是成功的? ctrl c 直接退出。 所以说欧拉玛安装之后,紧接着就是把我们的模型在当前的优班图中跑起来。老张刚才给大家测试的是 jm 四三十一 b 模型,我们直接输入指令欧拉玛空格 run, 然后你的模型效果直接回车,第一次时他会直接进行对应的模型下载。如果说你现在只想用 open klo 来调用欧拉玛的这个占四的话,可以在我们的本地电脑上把之前咱们那个桌面端给他 删掉,如果说你不你想两端都使用的话,就可以直接在这个位置进行使用了,然后发一个你好看一下响应速度, 嗯,响应速度是非常快的,所以接下来我们把这个家伙欧拉玛的詹姆士直接部署给我们的 openclo, 在 这怎么中止对话,摁一下 ctrl c, 再摁一下 ctrl d 啊,就可以直接进行中止对话了啊,所以说大家可以直接的把它退出来, 退出来之后我们在这儿部署一下 openclo。 关于 openclo 的 安装呢,官网推荐是使用 c o r l 这种安装方法,但是老张发现很多兄弟在使用这种安装方式时呢, 出现了这个网络问题,导致下载出现卡顿,如果说 c u i l 的 方法报错的话,直接使用 n p m 安装也是完全可以的,安装完之后直接输入 open klo 空格杠 v 来输出最新的 open klo 的 对应版本啊,这就是老张跟大家说的一些建议啊,大家按照这个要求去做就行了。 然后接下来我们进入到配置,直接是直接输入它的配置指令回车,选择 yes, 然后选择快速开始就可以,我们直接配置一下模型, 然后选择更新,这选择谁呢?选择这个欧拉玛啊,然后选择默认的这个 ul, 选择本地模型,让他去给我找一下咱们本地有哪些模型,稍作等待 好,选择当前的这个模型,咱们四三十一币,然后配置我们的聊天软件啊,这个老张之前讲过太多太多次了,现在呢,他又支持了很多,包括 qq 之类的,大家有需要的话可以按照之前老张的教程再来一遍,我们先跳过 打开之后啊,就可以直接对话。但是如果说善于观察的兄弟们也发现了,老张呢把这个使用模型呢换成了这个一四 b 的 模型,不是那个三十一 b 的, 因为三十一 b 呢,老张在测试的时候也好,或者在一些使用时候也好,他有的时候会出现这个连接超时的问题,也是 oppo klo 更新到最新版本出现了一个能启动问题, 这个呢,老张现在还没有特别好的解决方案,所以说我先用一次必得给大家进行演示,发一个,你好,我们来测试一下他的响应速度啊,还是比较快的。 然后接下来呢,我们再把之前的那个慢句的提示词发送过来,我们来看一下他能不能更好的帮我们去进行慢句提示词的对应理解,以及对应的相关反馈。 嗯,其实我们看到啊,他反馈的这个结果呢,和三十一 b 相比啊,真的是有一定差距的,但是呢,确实也是另一方面实现了我们所谓的叫偷根自由。 大家呢也可以后续啊,去测试一下怎么让本地如果你的显卡够用的话,把这个大模型给它跑起来。然后老张呢也会及时给大家更新,无论是在评论区中还是视频中教大家如何使用。我是程学老张,定期分享 ai 好 用知识,希望大家多多关注。

等等,一个只有三百一十亿参数的模型,怎么能跟一万亿参数的模型几乎同分?它的参数量不是小了一点,而是小了三十倍。 三十亿币可以在很多消费级的设备上跑了,按正常的逻辑,它根本不应该出现在这一档。而三十亿币的小模型就是谷歌刚发布的 jama 四。那 jama 四到底是什么?实测它的性能真的有这么好吗?一会我们详细对比,并且在手机上、电脑上都给它跑起来。 最后我们一起说一下,为什么它引起了如此广泛的讨论,以及它引起的新风潮,为什么可能直接改写接下来 ai 竞争的方向。 好,废话不多说,我们开始伽马四,是谷歌新一代的开源模型,这次直接发布了四个版本,能在手机上跑的一二 b, 能在普通消费机电脑上跑的一四 b, 以及需要一些高配电脑或者工作站的二十六 b 的 混合专家版本,以及最受关注的三十一 b 的 重密模型。 这个产品结构本身也解释了谷歌的野心,想把从手机、消费机设备到工作站这条开源路线一起凸出来。它的卖点非常明确,第一,谷歌算是铁树开花了, 这代的 ram 是 阿帕奇二点零的证书,是真正能让开发者去用、去改,去商业化的开源模型。二,它主打的不是参数有多大,而是 intelligence profile, 说白了就是同样甚至更小的体量,尽量打出更高的能力密度。比如这个图,横轴是参数量,纵轴是盲测得分,越往左上角走, 同样参数量的情况下,它的性能就越高。第三,它不只是要聊天,谷歌这次明确在推 reasoning and egotic workflows, 包括多步的推理,代码的生成,图像理解,上下文,甚至小版本还支持音频等多模态, 我们这些一会儿我们在手机上跑模型的时候都能看到。那这就是为什么伽马斯这次热度很高了,过去很多开源模型我们还是追求的最好的性能,那这次呢?谷歌的小版本在打本地和边缘设备, 而大一点点的版本却在挑战开源模型的榜单,说的就是这个三十一 b 的 模型这么小,已经在开放的榜单上打造一个所有人都能看到的位置了。那问题就来了,它的实测性能到底怎么样?真的有这么好吗?接下来我们一起看一下。 既然它号称和最好的那几个开源大模型旗鼓相当,那我们也不客气了,分别测试一 g m 四最好的三十一 b 版本和谷歌自家旗舰 g m d 四 b 版本,并且与同参数量的千万四 b 进行对比。三,如何在手机上跑 j 码四,以及我的真实体验。 首先在云端,我们对比四个模型, j 码最好的三十一 b 版本, gmail 三, flash gmail 三点一, pro 以及 deepsea v 三点二,在很多人都需要的编程文案和推理场景, 看看这个小模型有没有一丝替代昂贵一线模型的可能性。问题一,编程类,请用单文件 html 做一个高端现代家具品牌的网站首页, 这是 jam 生成的网页。其实啊,不经验,但是也不算差,考虑到它的体量,这个结果算是超过预期了。但问题也很明显,有些图片没有正常演示,图纹对应也有错误,所以完成度还是差了一大截。 这是 deepsea v 三点二生成的网页,整体也不错,设计能看,交互也有往下滚,还有一些动画效果,而且它的图片、文字这些元素是对得上的,说明它已经有些理解。这是一个电商的首页了。 这是 jammin 三 flash 生成的网页,第一眼观感已经很好了,设计感呢,比 jammin 更成熟,但是它的问题是动画和交互偏少,整体呢,没有达到完整的状态。 这是 jimi nike 三点一 pro 生成的网页,好疑问,是最强的对吧?几乎是一条提示词下去,设计,排版、交互细节都到位了,也充分理解了这是为电商准备的, 以及开头这些细节的动画,确实有一种高端,一种成熟的感觉。结论, jimi nike 三点一 pro 大 于 jimi nike 三 flash 大 于 deepsea 大 于 gemma。 这一次 gemma 是 最差的。问题二,文案, 请帮我写一段适合发朋友圈、社交媒体的短文案,主题是我第一次用本地 ai, 发现他已经在电脑上自己能做很多事情了。并列三四名, gmail 三点一 pro jimmy 四、 真香,安全感拉满,不要钱的专属助理,这些词都用力过猛,太假。第二名, gmail 三 fresh 最大的问题就是太过营销了,比方说,真后悔没去试,试过就回不去了,太香了,就是营销味太重。 第一名呢是 deepsea, 是 最像真人随手发朋友圈的,比方说啊,刚刚是在电脑上跑了个本地 ai 这种词,或者是速度比想象中的快, 隐私还放心,这些表达都相对比较自然。除了最后那句,推荐你们都试试看,稍微有点假,但整体来说还是最顺的。所以文案这里 deepsea 大 于 jimi nike 三 flash 大 于 jimi nike 三点一 pro 题目三,简单的推理题这个题所有模型都应该答对,这里主要看 jimi 四拉不拉垮。 一个农夫带着一只狼,一只羊和一颗白菜。过河船一次只能载农夫和另外一样东西,如果农夫不在,狼会吃羊,羊会吃白菜。请问怎么把这三样东西都安全的运到河对岸?请一步一步说清楚。 标准答案之一就是,人先带着羊过去,然后人自己回来,然后人带狼过去,带着羊回来。第三步,人再带着菜过去,人自己回来,最后是人再带着羊过去。 其实这道题都答对了,所以如果只看评理结果,那这题就是平手任马四,最好的三十一 b 白板啊。虽然阿尔瑞纳的盲测分数比 deepsea v 三点二高,但是文案和编程这两个我们需要最好模型来做的场景。我自己的测试没有 deepsea v 三点二好, 但是考虑它只有三十一 b 的 大小,编程的效果已经出奇的好。在云端测完最好的版本,下面我们测一下本地能跑的 ram 四,因为啊,大部分人的电脑都跑不了三十一 b 的 版本,所以我们在本地测试 ram 四 e 四 b, 并且对比同参数量的千万三点五四 b。 至于题目这么小的模型,测试编程能力就是有点耍流氓了。因为编程大家肯定都用最好的模型,所以这里我们测试三个日常助理的题目,考常识,考文案,考简单的推理一、常识规划能力。下周我要去巴黎玩,四千, 除了机票之外,预算一万,第一次去,住在巴黎市中心,帮我安排一个计划,并且告诉我最容易踩坑的五件事情, 这是他们的回答。简单来说啊, jama 这边没有出现事实性错误,而且行程写得更顺。但是他的问题就是,他几乎忘记了处理预算这件事情,而且最后的建议啊,没有这么贴切。千万正好反过来五个避坑建议相当靠谱,而且他是有意识的去考虑预算的,虽然是有些混乱吧, 但是千万里面有事实性错误,把两个景点荣俊苑和法尔赛混在一起了,而且他的思考时间啊,差不多是 jama 四的十倍, 所以各有一缺点,结果打平。题目二,文案把下面的 ai 味很重的口播稿点成更像真人说的话,要求更自然,更顺口,信息密度别掉,不要鸡汤,不要夸张, 人马四 ai 味实在是太重了。比如这一句,原句是,如果我们今天只是把 ai 理解成一个简单的聊天机器人,那很可能低估了这场技术变更的真正影响范围。 人马四改写的是,这可不是个小升级,是个大变格。这种话听起来就像 ai 反过来千问那句,你要是现在还把它当个普通聊天机器人,那你可能把这事看清了,我觉得就更自然一些。所以这题呢,比较简单,千问四必 大于 jama 四 e 四 b。 第三题还是刚才那个简单的推理题,一个农夫怎么带着一只羊一只狼和一个白菜过河的问题而都答对了。那么这个题平手可以看到 jama 四 e 四 b 的 版本啊,在我们的测试中,跟千万三点五四比打平,而且文案写的还没有人家那么好, 所以在我这里这个版本是没有什么惊喜的。 jama 四也能在手机上直接跑谷歌 a i h gallery 这个软件。 我的实测感受,第一,手机上有两个版本, jam 四一二 b 的 二点五 gb 和三点六倍 gb 版本。那么这两个呢,都是二十亿参数级别,专门为端侧部署优化的小模型, 两个都支持多模态,也就是图片和音频的理解。二就是有两个加速模式, cpu 加速和 gpu 加速。我的安卓手机呢, cpu 加速明显更快一些。 三,没办法联网,但是能用 viki pita 这个 skills 来获取维基百科上的信息。四,有 agent skill 模式,但是只有默认的 bug skills 和自己定义 skills 的 选项。 五,就是啊,图片识别模式非常的不稳定,经常出现闪退。从所有的评测我们看到啊, gemma 四远远不是最强的,那为什么它掀起了这么大的讨论呢? 就是因为他三十一倍的体量和高性价比的性能,大模型啊,越强越贵越大,就离普通的设备越远。在卷性能的另一端,他开辟了一条竞争的道路,就是谁的能力密度更高,谁更能落地手机电脑这样的普通设备。 那这条路线呢,有三个值钱的地方,第一就是成本更低,对吧?如果一个模型更小,能力还足够强,他的推理成本就会更低,对算力的依赖也更小, 同样的用户数量,竞争力就更高。第二就是他打开了一些之前做不了的场景,比如一些隐私敏感的企业弱网环境离线场景,这条路呢,可能会放大可成交的市场范围。第三 就是卖钱的方式有可能会变。现在 ai 公司卖的是旗舰模型的 api token, 如果未来有更低的部署门槛,更强的观测能力,更好的私有化能力,那钱不一定只在 talk 里赚了, 可以从企业部署私有化方案、设备预装垂直方向里面转。也就是说啊,开始从卖能力变成卖能力加卖系统,更加对接 to b 的 生意, 由此可能会带来竞争壁垒的改变。如果模型能力越来越近,那优势就会变成了谁更容易部署,谁更容易接近工作流了。当然,将来大家肯定还是会选谁的旗舰模型能力最强,尤其是 ag 的 能力和写代码的能力。 但是除了这条竞争路线之外呢,也许我们会看到 ai 竞争的第二条追求更强能力密度的路线。哎,如果你都看到这了,你是不是应该点个关注呢?我们下期再见!

谷歌发布 gemma 四,引发开源模型领域震动。 cursor 正推动 ai 编程全面迈向多智能体协助模式。 meta 似乎正在幕后紧锣密鼓地测试一批神秘模型。 t i i 最近也展示了一款小型视觉模型,在处理高难度任务时,其表现甚至超越了体量庞大的竞争对手。 最近行业动态平平,我们来详细聊聊。谷歌刚刚正式推出了 gemma 四,这可不仅仅是小修小补的迭代,这是开源模型家族,包含四种参数规模,参数规模从二十亿跨越至三百一十亿。 这些模型源自 gemini 三技术,相当于共享了 google 的 核心研究成果,但以开源的形式呈现,其产品阵容相当有看点。其中的轻量化模型集二十亿和四十亿参数的高效版本, 专为边缘设备打造,含盖智能手机、树莓派、 jadison、 orange、 nano 等各类硬件。 它们支持十二点八万上下文窗口,具备多模态交互小模型,甚至还支持音频输入,这可是个大新闻,这意味着您可以进行语音分析,无需依赖云端推理,直接在本地完成。再看高端系列,包括两百六十亿参数的混合专家模型, 以及三百一十亿参数的稠密模型。它们支持高达二十五万六千的上下文窗口,主要针对工作站和消费级显卡。其中两百六十亿参数的 mail 一 最值得关注,因为它虽然总参数量高达两百六十亿,但在推理时只有约三十八亿参数处于激活状态, 这大大提升了其响应速度和运行效率,这正是目前的核心方向。谷歌正在推崇单位参数智能的理念,他们不再一味地追求扩大模型规模, 而是致力于在更小的体积下挖掘更强的性能。根据他们的精准测试,三百一十亿参数模型目前在开源模型中排名第三,位列 arena ai 排行榜,而两百六十亿参数的 m o e 模型则排在第六。这成绩相当亮眼,特别是 考虑到它们号称能超越其他模型且体积大出二十倍的那些。此外,这款三百一十亿参数的模型在 g p q a d m。 的 精准测试中拿下了百分之八十五点七的高分,这可是向难度极高的科学推理测试。 在开源模型中排名第三,四百亿参数以下,这绝非营销噱头,数据实打实地证明了这一点。这些模型完全能胜任多步推理, 还能处理数学任务、 jason 结构化输出以及智能体工作流中的函数调用。它们还具备全模态能力,能处理图像和视频,实现 ocr 识别,还能进行图表分析,甚至在某些场景下支持音频处理。 此外,它们还支持超过幺四零种语言,并支持离线代码生成,而且覆盖范围极广。目前已上线 hugging face、 kegel、 alama 以及 google a s studio 等多个平台,几乎能与所有主流工具集成,如 transformers、 v l l m l a c p p m l x nvidia, nine 等。你可以在 collab or vortex ai 上进行微调,再部署到 google cloud 投入生产。但讲真,这其中最大的变化其实并非模型本身,而是许可协议。这是谷歌首次以 apache 二点零协议发布 gamem 模型, 这意味着完全商用、自由修改,无苛刻限制或终止条款。你可以随意修改模型,部署到任何地方,甚至是私有本地环境,并完全掌控你的数据与基础设施。相比以往,这是一个巨大的策略转变, 毕竟他们之前的策略线之重重。这显然是为了应对压力来自开放权重竞争对手,尤其是中国的挑战。比如阿里巴巴和月之暗面等公司的模型,正展现出强劲的竞争势头。谷歌的态度很明确,为了保持竞争力,他们决定全面开源, 这势必会引发开发者的广泛采用。 jammer 的 下载量已突破四亿次,社区衍生版本也超过了十万个。如今有了 app 二点零协议加持, 这个数字将迎来爆发式增长。开发者可以在自己的 g p u 上微调模型,将其部署到终端设备,并放心地基于此开发商业产品,无需顾虑授权问题。 我们还能看到,这里有强有力的硬件合作伙伴。谷歌与 pixel、 高通及联发科合作,针对移动端部署优化了这些轻量化模型。这显然是为了将 ai 直接推向终端设备,而非仅仅依赖云端处理。这次发布本质上是谷歌试图缩小开源与闭源模型间的差距, 同时也为了稳固其开发者生态。这种进步不仅惠及研究人员或开发者,更彻底改变了实际生产流程中的各种可能。 好了,言归正传,回到视频内容,这次更新带来的惊喜远不止是一次简单的版本迭代。 cursor 三的核心理念其实很简单,即简化 ai 编程智能体在实际开发中的管理。以往大多数 ai 编程工具给人的印象 还是单助手、单对话、单任务的模式,而 cursor 三打破了这一局限,它更贴合当下的实际工作流, 让多个 ai 智能体同时处理不同任务。开发者只需负责监控比对结果,并在必要时介入。此次最大的升级包括并行智能体、智能体标签页以及全新的布局,方便你在代码窗口间自由切换 或智能体式图,甚至两者并行使用。听着简单,实则影响深渊,无需再深陷融长的 ai 对 话现在可以同时运行多个智能体分头处理任务, 一个负责修代码,一个负责做测试,另一个则能尝试完全不同的新方案。这让他不再只是编辑器里的聊天机器人,而是更像一个专业的 ai 工作空间科室。三的适用环境也更为广泛, 支持本地远程 s s h 工作树及云端开发环境。显然,他的目标用户不只是单打独斗的个人开发者, 他还试图适配规模更大、更为复杂的实际生产环境。 cursor 现已将 worktree 功能整合进全新的智能体窗口,让病情开发和分支管理变得井井有条。 此外,还新增了 worktree 指令,用于处理独立任务以及 b、 s、 d、 f、 n 指令来对比多个模型的生成结果。这很实用,毕竟现在的开发者往往想多看几个方案,在从中挑选最佳答案。 此外,还有一些实用的功能升级。 m c p 应用现在能提供更简洁、更规范的结构化输出,大文件代码差异渲染更快,企业用户在安全与溯源方面拥有更多控制权, 所以 cursor 三不仅仅是为了显得更聪明,它只在让 ai 编程更异于管理,更具扩展性,在项目扩大时也确实更加适用。于此同时, mate 似乎正在进行更多动作,幕后进展远超常人预料。 mate ai 内部测试发现了几个模型变体,它们似乎不同于当前驱动 ai 助手的 luma 四系统。 你发现的有 avocado mango、 avocado 九 b, 还有一个叫 avocado dh 的 模型,这大概是深度思考的缩写。光是这一点就很有意思了,这说明 meta 的 测试进度远超外界对下一代模型所知。其中名为 avocado mango 的 版本展现出了相当扎实的多模态能力, 甚至能生成一张提壶骑自行车的 svg 图。虽然这个测试项目相当随意,却依然是个有用的指标,证明它不仅能处理纯文本内容, 较小的九十亿参数版本表现也相当惊人。所以如果 mate 最终用朗玛斯在其消费级产品中换成 avocado, 用户能明显感受到性能的质变。尴尬的是, mate 在 发布节奏的把控上似乎任贤齐立。 据报道, avocado 原定三月发布后被推迟至两千零二十六年五月之后,原因是内部测试显示其性能上不足以抗衡顶级竞品,甚至有消息称 mate 曾考虑暂时向谷歌购买 jimmy 的 授权。 说实话,这足以见得如今的竞争有多么白热化,这些公司正面临着巨大的追赶压力,即便是科技巨头如今也愿意考虑那些决策,他们在不久前看来还简直是天方夜谭。 而且 avocado 可能还不是故事的全部,名为 perrocco 的 另一模型系列也在 meta 模型选择其中被发现同样包含三个版本,分别是常规文本模型、推理模型,以及具备图像和视频理解能力的多模态版本。 这些模型目前尚未公开。没人知道 partycarto 是 取代了 avocado, 还是作为其补充亦或是完全独立的产物。但核心结论显而易见, met 在 后台测试的模型数量远超外界所知。 此外,还发现了两种新模式,文档智能体与健康智能体。这与目前 ai 领域的整体发展趋势不谋而合,与其让一个助手包揽所有任务, 企业现在开始针对特定任务打造更专业的模式。 meta 的 平台未来或许不再只是聊天机器人,而是集成了多种垂直 ai 工具的综合平台。 最后,技术创新研究所发布了一个更侧重研究导向的新成果,不过其背后的理念其实很好懂。 他们推出了 falcon perception, 这是一款小型视觉模型,拥有六亿参数,专门用于理解图像内容。根据自然语言指令,它不再将任务拆分到多个系统里, 一个负责识别图像,另一个负责判断后续动作。 falcon perception 只在完成所有流程,从头至尾均通过单一模型实现。目前很多视觉系统仍像是把不同零件拼凑起来的工具包, 而 ti 正是想简化这一过程。 falcon perception 通过读取图像数据,并从底层开始将文本与图像融合,从而帮助他将您的指令与图像实际内容更直接的关联起来,只在提升视觉定位、提升分割和理解能力,无需大型模型即可处理复杂的视觉场景, 其背后的训练投入依然相当巨大。据 t i i 称,该模型接受了约六千八百五十亿 token 的 训练,只在增强物体识别、视觉细节读取、 布局理解以及处理复杂提示词的能力。他们还推出了 pivot 机准测试,以更直观的评估高难度视觉理解任务。在该测试中, falcon perception 全面超越了 some 三。在他们列出的所有积分指标上,它在简单物体上表现更优,在属性和 ocr 类任务上也表现更好。 在空间理解上优势尤为明显,物体关系处理和复杂场景识别也更甚一筹。其中,空间理解能力的提升最为显著,得分由 s m 三的三十一点六分跃升至五十三点五分,差距十分惊人。 t i i 还沿用这思路开发了 falcon ocr。 这是一款专注于文档识别,仅有三亿参数的小型模型,对于如此轻量的模型来说,表现相当惊人。它在欧林库上取得八十点三分,基本与八十点二分的 gemini 三 pro 持平, 并以明显优势胜过六十九点八分的 g p t 五点二,在 omnitocbench 测试中达到了八十八点六四分,领先于 g p t 五点二和 mr o c r 三,但仍落后于 pad o c r v l 一 点五。 所以,尽管 falcon ocr 体积更小,它已足以与那些大得多的系统一较高下,但在文档理解能力上,这 使它非常适用于大规模 ocr 任务,因为这些任务对速度和效率要求极高。好了,本期内容就到这里,欢迎在评论区留下你的看法,如果视频对你有帮助,欢迎点赞订阅,不错过后续更新,感谢观看,我们下期再见!

谷歌刚放出来的 jam 四用的 apache 二点零协议,不管是商用还是魔改都随便用,三步就能装自己电脑里,以后跑模型一分钱不用花 它。四个版本对应不同配置,四 g 内存就能跑二点三 b 版本支持图文音输入,手机都带得动。六 g 内存选四点,五 b 版本日常聊天够用,十八 g 内存上二十六 b 混合专家版性价比最高, 二十 g 以上直接充三十一 b 满血版,推理编程能力拉满。第一步,装 alama 苹果电脑,去官网或者 homebrew 装 windows powershell, 输一行命令就行,工具全包了。第二步,终端输 alama run, 加你选的版本自动下载启动。第三步,直接聊天,出回复就成,现在就去试免费的 ai, 不 用白不用。

今天安装体验了 iphone 上运行 google 最新大模型 jam 四一二 b 的 感受,最核心的改变就是他本地运行的能力。这意味着什么?意味着我不再需要担心网络延迟,不再需要担心隐私泄露,他直接在我设备上跑,速度直接拉满。真实感受。首先是速度,我问一个复杂的逻辑问题,他几乎是及时反馈,那种秒回的感觉完全颠覆了我对 ai 响应的认知。 其次是精准度,我试着用它对一张复杂的图进行深度分析它识别的细节,那种对上下文的理解真的非常到位,比我以前在云端体验过的那些模型精确度高出好几个档次。现在本地运行的 jam 四一二 b, 在 效率和深度上,跟我现在小龙虾用的 mini max 每月产生的费用载速度和体验相比,已经 是现了。这个飞跃,他不是在模仿,他是在从行定义本地 ai 的 上线。这感觉就像我把最强大的引擎装在了我的手机里。 jam 四,文本处理能力核心能力是强大的文本理解、生成、载药、翻译、编程辅助等音频处理能力。特定版本 jam 四中的某些版本,如二 b 和四 b, 具备处理音频输入的能力。

五哥扔了颗开元核弹, jam 四真的来了,但国内能用吗?我仔细看了下,情况有点复杂,技术是真牛。三十一 b 参数干翻四零零 b 对 手,数学编程能力炸裂,小到能塞进树莓派,大到需要四十八 gb 存,全家统齐了架构有黑科技 p l e 共享黑, 可以管存混合。注意力不是简单归零,但在国内只分两存,内部用放心用,自己下载加服务器,团队写代码搞研究,完全合法,无 需备案。对外用麻烦了。 demo 四,没在国内备案,你得走完整流程,耗时数月还不一定成。给国内团队的三条路,一、纯内部下载模型,内部研发爽。二,混合策略,内部用 demo。 四,搞研发提能力,对外产品用备案的模式,模型 安全高效。三、投铁合规,非要对外用 jam 四,准备好时间、金钱和耐心,有完整备案流程,高端恩卡受管制,但小模型和二十六 b 猫 e 在 普通电脑手机上就能套,受 影响。简单对比, jam 四数学编程墙, apache 二点零真开元,下面备案国产模型,中文理解好备案和规范, 技术人狂喜,但产品经理要冷静,对内当利器,对外守规则。二零二六年了,模型能力卷上天,合规红线也在手,聪明的团队懂得在技术和规则之间跳舞。

开源大战全面爆发,谷歌 jam 四彻底开源,豆包一天烧掉一百二十万亿头啃, deepsea v 四还在憋大招?四月二日, ai 圈同一天发生了三件大事。 谷歌凌晨突袭发布 jam 四,四个规格覆盖手机到服务器,最重要的是把协议从自家私有改成了 apache 二点零,这意味着任何人都可以拿去商用。 五哥连字都没得说。字节豆包官宣,日军 token 消耗量突破一百二十万亿,三个月前还是六十万亿?两年前刚上线是一千两百亿, 两年涨了一千倍,成了全球仅三家超百万亿 token 的 公司之一。阿里千问三点六 plus 悄悄上线,发布首日就在 open route 平台创造了单日一点四万亿 token 的 全球记录。这个平台上所有模型,历史上从来没有一个模型单日超过一万亿, 他是第一个。而这一切的背景是, deepsea v 四还没发布,只有爆料说四月内要来。三件事同天发生,不是巧合,是开元赛道到了正面决战的关键节点。谷歌憋了一年,这次终于开门见山。 gemma 系列是谷歌的开源产品线,和碧源旗舰 gemini 共享底层技。 去年三月发了 jam 三,开发者用完就投诉协议太复杂,商用受限,生成的合成数据拿去训,其他模型还要受约束,一堆麻烦。这次 jam 四直接换成 a patch 二点零。 a patch 二点零是什么概念? meta 的 l l m a 三用的也是类似协议。 deep six 系列同样是 mit a patch 协议行业里公认最干净、限制最少的开源协议。 谷歌这次不光放开商用,还专门说了一句,基于 jam 四生成的合成数据训练其他模型不受任何约束,等于说你可以拿 jam 四生成无数条训练数据,再拿去训自己的模型,谷歌什么都管不了,这对整个开原生态的意义不亚于模型本身的性能提升。 再说性能,四个版本覆盖从手机到服务器, e 二 b 二十亿参数和 e 四 b 四十亿是端侧模型,支持原声音频,手机离线可跑。 二十六 b m o e 式混合专家架构,激活参数只有约三十八亿,推理成本低。三十一 b 单词是旗舰版,三百一十亿全量激活 三十一 b 版本的成绩炸裂。 a i m e 二零二六,数学竞赛准确率八九点二 percent, 上一代 jam 三只有二零八 percent 提升四倍多。 lipcode bench 代码测试从二十九点一百分之涨到八十百分之 g p q r diamond 的 科学推理力百分之八十四点三, m m l u pro 综合知识百分之八十五点二。 arina ai 全球开源模型排行榜第三名, 只用了三百一十亿参数,击败了餐数量大他好几倍的对手。谷歌自己说是前所未有的单位参数,智能水平同等参数比别人聪明。有一个短板要说上下文窗口三 e b 支持二十五点六万 token, 而千万三点六 plus 给的是百万 token。 deep sec v 四的爆料也是一 mill, 谷歌在这个维度上已经落后了豆包的一百二十万亿到底意味着什么?数字太大,先换算一下,一百二十万亿 token 一 天 等于每天处理二点四亿本三体三个月前是六十万亿,两年前刚上线时是一千两百亿, 两年涨了一千倍。自解火山引擎透露了两个增长驱动,一是 ai 视频创作爆发, cds 二点零 api 公测一分钟七百二十 p, 视频消耗头肯约三十万以上币,普通对话贵几个数量级。 二是智能体规模化落地, agent 完成一个任务,消耗 token 量是普通对话的几十到上百倍。企业大规模部署 agent, token 消耗已陈述效应增长。全球日军 token 消耗超一百万亿的公司目前只有三家, open ai、 google 字节、跳动、豆包挤进了这个俱乐部。 百度、腾讯、阿里还在这个量级以外,但阿里的千问三点六 plus 刚上线,数据还会继续涨。千问三点六 plus 一 点四万亿 token, 凭什么? 四月二日,阿里在没有新闻发布会,没有铺天盖地通稿的情况下,悄悄在 openroute 上线了千问三点六 plus 预览版, 然后第二天 openroute 官方发推,这是我们平台有史以来第一个单日处理超一万亿 token 的 模型,而它才上线一天。一点四万亿 token 一 天,这个数字是怎么来的?因为它来了两个东西, 百万上下文加接近 cloud 的 编程能力。上下文窗口。一百万 token 是 目前开源模型里最长的档次之一,一次能塞进去的内容相当于整个代码仓库或者大约七十五万字的长文。企业用 ai 处理长文档, 代码 review 复杂分析,这个参数直接决定了能不能用,编程能力怎么样。 s w e bench 代码修复成功率六十九点六百分之,接近 cloud。 opus 在 开源模型里算顶尖水平, terminal bench、 二点零 n l r repo 等测试持平或优于同类竞品。还有一个关键指标, api 定价 输入每百万 token 最低只要两元人民币,同七 cloud 系列同档次性能的 api 要贵得多。百万上下文加顶级编程能力加白菜价,三个优势叠在一起, 开发者涌进来是必然的。千问三点六 plus 上线后,适配了主流智能体框架, open claw、 千问 code、 claud claud client 全部支持。等于说原来跑在 claud opus 上的工程师工作流,现在可以无缝切到千问三点六 plus, 全省一大截。这就是为什么一点四万亿偷坑一天。 deep seek bc 最后一张牌说完已经发布的,再说没发布的 deep c v 四预计四月内正式亮相,已经进入灰度测试。从目前爆料和技术论文整理来看,几个核心指标总参数约一万亿,一 t m o e 架构激活参数约三百二十亿左右,这意味着推理成本不会爆炸,但总能力上线拉到了前所未有的级别。 上下文窗口一百万 token 和千万三点六 plus 同档,从 v 三的幺二八 k 直接跳到 em, 不是 小幅升级,是一个级别的跨越。 ingram 条件记忆模块, 这是 v 四最让人兴奋的部分。什么叫条件记忆?简单说就是 ai 能在不同对话之间保留有条件的记忆, 不是把所有历史都塞进上下文,而是智能提取对当前任务真正有用的记忆片段,融入当前推理过程。 deepsea 在 二零二六年一月发表了 ingram 的 论文,把整个技术路线公开了。这次 mo 架构的补完,你有了超大模型的能力上线,再加上条件记忆,等于让 ai 开始有了跨绘画认知积累, 原生多模态文本图像、视频输入全支持。 v 三是纯文本, v 四直接跨到多模态。如果这些都能兑现, 加上 apache 二点零或 m i t 协议,开源 deep six v 四将是今年上半年开源赛道最猛的一张牌。问题是已经被期待了三个月,一次次说下周就来,结果一次次延期。 ai 圈儿有个玩笑说 deepsea v 四发布时间是薛定谔的四月,没打开盒子之前,他可能在任何时候发布,也可能在任何时候再延期。开源的胜利,还是另一种封锁。 看完这一波,不得不说一件事, apache 二点零协议正在成为开源 ai 的 标配。 jam 四切到 apache v 三已经是 mit 协议签问三点六 plus 同样走的开放路线, l a m a 三也是类似逻辑。这背后是什么? 是一个基本判断。开放生态的聚合效应比封闭能力的护城河更值钱。闭源模型的商业逻辑是能力壁垒, 我的模型比你强,你只能用我的 api, 我 收钱。但当开源模型的能力跟上来,这个逻辑就开始动摇。开源的商业逻辑是生态聚合,我的模型免费,但围绕它的云服务、微调服务、企业部署方案收钱 越多,人用,生态越大,商业转化越多。现在的格局是,谷歌 mate、 阿里 deep seek 都在下同一盘棋, 用最宽松的协议开放模型,抢开发者,抢生态,抢下一代 ai 工程师的使用习惯。 open ai 和 antropic 站在这个浪潮的对面,但他们的商业模式建立在能力差距上,当开源模型的编程能力、推理能力、 上下文处理能力都接近甚至持平,闭源旗舰,这个差距还能撑多久?有一个数字可以参考 open router 上目前全球 ai 掉用量排名前列的模型,中国开源模型已经占据一半以上。这还是在没有 d aaps、 a x v 的 情况下,开源大战的战场 不在实验室,在开发者的电脑上。下一步会发生什么?说几个可以追踪的点。第一, deep sec、 v 四发布后,中美开源模型的差距会更清晰。如果 v 四如期发布,且性能达到爆料水平,开源赛道的能力天花板将再次被刷新。如果继续延期, deep sec 的 口碑会受影响, ai 圈等不了太久。第二,豆包一百二十万亿 token 背后,是企业 ai 部署规模化的信号。一百万亿级 token 消耗量不是来自个人用户,是来自企业 agent。 部署视频生成、批量调用大规模自动化流程, 意味着 ai 从工具阶段进入基础设施阶段,用量不再依赖用户激活,而是跑在服务器上自动消耗。第三, a patch 二点零协议的蔓延会加速开源模型能力的向上竞争,协议越宽松,基于这些模型的微调增强,衍生模型就越多,开源生态的贡献者越多,能力迭代就越快。 这是一个正反馈循环,一旦启动,很难逆转。对谷歌来说,这次 jam 四的转变是迟来的正确选择。但能不能真正把开发者留住,要看的是生态支持、工具链、文档质量,这些都是 mate 和 deepsea 积累了更久的优势。 对用户来说,结论很简单,开源模型越来越强, api 越来越便宜,以前只有大公司才能用的 ai 能力正在向所有人评权。 这一波开元大战打的是生态,赢得是每一个会用 ai 的 人。你觉得 deepsea v 四如果在四月内发布,最让你期待哪个新能力?是百万上下文还是 ingram 条件记忆?

凌晨,谷歌 deepmind 的 ceo 发了四颗钻石, james 来了,协议从限制性改成 app 二点零商用,零门槛,不是来送模型的,是来抢开发者的技术下放。 james 三,同源架构性能越级数学 aime 加百分之三百二十九, 代码加百分之一百七十五,智能体调用加百分之一千两百零九,编程竞赛 e l o 加百分之一千八百五十四。更狠的是,端测内存压到一点五 g b 以下,手机树莓派离线就能跑。莱玛四没做到的快,三点五没做到的伽玛四做到了。你以为谷歌只是在开源? 不,这是把开源竞争从圈参数变成圈美参数。智能通一千万 d c 可质朴 ai 的 护城河今天被劈了一刀,迈特拉玛的护城河正在收窄。当 jamie 三的技术装进开源盒子, 规则就变了,不是谁参数多谁赢,是谁能让开发者在口袋设备里跑起来谁赢?你是那个等开源的人,还是那个抢先动手的人?

hello, 大家好,我是 ken, 今天早上刚刚打开手机,我就兴奋的睡不着了。 google 刚刚发布了伽马四,一个可以本地部署的大模型,我的第一个念头是省钱了, 如果把它接入 openclaw, 从此在本地生产 token, 那 是不是就可以不用再被云端 ipi 一 点一点计废了呢?然后我花了一整天的时间来验证这个想法,结论有点出乎意料。先听我说完, 我在本地部署的是二十六 b 混合专家模型,二十六 b 代表着他拥有二百六十亿的参数。 混合专家模型的意思是,他不会一次性把所有的参数都用上,而是根据你的指令调动一小部分的专家来进行回答。这样的好处是推理的成本更低,回答的速度也更快。 这个版本在二十六 g 内存的 m 五芯片 macbook 上刚好能跑。这里 jam 四的几个版本呢?我也简单的跟大家分享一下。最轻量的是 e 二 b, 一个二十亿参数的模型,它在市面上大部分的设备上都可以运行。 那么 e 四 b 呢,是一个四十亿模型,运行它呢至少需要有十六 gb 的 内存。蓝血版是三十一 b, 拥有三百一十亿的参数能力最强,但是目前我手头的设备呢,都没有办法运行。目测 如果说要跑三十一 b 的 模型的话,至少需要三十六 g 的 内存。以我这一个月以来把所有的大模型接入到 openclaw 的 体感来看呢,二十六 b 版本我再应用下来,我认为它称日常工作是完全没有问题的。 截止到这里,一切都让我很兴奋。在 macbook 本地上跑通以后,我迫不及待的把它接入了 openclaw。 和我之前用其他大模型接入的体验不同, jam 四在接入以后没有那个互相了解定义角色的初识化环节,不过正常对话是没有问题的。那么问题来了,他能做些什么?说实话,就是个聊天机器人, 连在桌面创建一个 word 文档都做不到,更别谈生产力了。如果只把它看作是一个聊天机器人的话,那么在欧莱玛中直接运行反而比嵌入到 open cloud 中要更快,所以呢,还不如不用。 然后我掏出了我二零一七年的 windows 老本,这台机器呢,有十六 g 内存,按照 ai 的 建议,分别部署了 e 二 b 和 e 四 b 两个版本的模型。单独跑模型的话, e 四 b 这个四十亿参数的版本呢,每个回答要等待时间在十秒以上。那么 e 二 b 这个二十亿参数的小轻量级版本呢?如果是处理简单问题,基本上可以做到秒问秒答。 但当我把他们接入到 openclaw 之后呢,连收到两个字都没有办法回复,不管哪个版本,通通卡死。所以结论很明确,内存不够的设备不要尝试把 jam 四接入到 openclaw, 硬件是硬门槛,绕不过去。 总结一下今天的折腾,二十六 g 内存的 macbook 可以 本地运行,二十六 b 混合专家模型接入 openclaw 也能正常对话,但完全没有超出聊天机器人的额外生产力。 十六 g 内存的 windows 老本呢,接入 openclaw 可以 说是失败的,那么如果在本地运行呢?一二 b 和一四 b 两个版本都可以作为聊天问答机器人来进行本地使用。 我的判断是,如果内存能够达到三十六 g 以上,能够完整的跑下来二十六 b 混合专家模型,那么也许真的可以变为生产力。但是限阶段大多数人的设备都没有达到这个门槛。 本地部署不是不值得探索,但是要先看看自己的硬件设备有没有达到那个门槛,再决定要不要去折腾,不然的话结果可能会很打消你的积极性。 我是 ken, 专注用 ai 做可持续相关工作流的自动化。如果你对 ai 工具和自然语言编程感兴趣,请关注我,我们下期见。

好的,所以谷歌刚刚发布了 gemma 四,这是四款全新的模型,具备多模态、思维链、函数调用等全套功能。说实话,光凭这些就足以让我报道了。但这还不是最有趣的部分,真正有趣的是它的许可协议。 gemma 四采用的是 app 二点零许可证,而非带有奇怪限制的自定义协议,也没有那些所谓的开源权重,但不许与我们竞争的条款。 这是一份真正的 ipad 二许可协议。这意味着首次你可以拿取 google 最好的开源模型进行修改,微调商业部署,对他做任何你想做的事, 没有任何附加条件。而且当我们把这些与模型内部结合时,这里谈的是拥有一百二十八个专家的 mo 架构,原声音频支持、原声视觉能力以及内置推理功能。所有这些都构成了一个巨大的突破。好的,让我先快速介绍一下背景,因为这里有四个模型命名有点让人困惑。 gemma 四分为两个层级,所谓的工作站模型,包括一个拥有三百一十亿参数的稠密模型和一个拥有两百六十亿参数但激活部分为四十亿的混合砖加模型以及边缘模型,即 e 二 b 和 e 四 b。 这些是微型高效模型,专为手机、树莓派、 jackson、 nano 等终端设备打造,几乎可在任何需要高质量模型的边缘场景中运行。 从最初发布以来,我就一直在介绍 jamma 系列的模型。我在频道上介绍过 jamma 三,我知道当时虽然很多人对他印象深刻,但对许可方面的一些事情感到有些沮丧,所以你有了这么强大的模型,但许可协议的限制太多,导致很多人转而选择 lama 或 queen。 所以谷歌这次选择 app 二点零协议基本上是在说,好吧行吧,我们将沿用与其他开源模型提供商相同的规则。事实上,就在我们讨论这件事的时候,中国的一些其他开源模型提供商实际上正在撤回他们最新的发布版本,不再像过去那样将其开源。 所以这里另一个重要的前置信息是,谷歌表示这些模型是基于 jammy 三的研究构建的,所以基本上一些旗舰商用模型采用的架构创新正在慢慢流入开源权重模型中。 所以,如果你一直在运行本地模型,我知道很多人都在这么做,那么格局已经逐渐稳定成了这种模式。我们某种程度上已经超越了 lama 模型。我们现在有了 q w, mister 等模型,它们都在这一固定的参数量级范围内,针对稠密模型进行精准测试竞争。 但我们也看到,直到最近,大多数这些模型还是仅限文本,或者顶多是文本加视觉。 如果你想用音频,就得外挂 whisper 或者外接一些外部语音识别管线。而且通常如果你想实现函数调用之类的功能,就只能指望模型配合你的提示模板了。 因此, gemma 四所做的就是将这一切视觉、音频推理以及函数调用原生地打包进单一模型家族中。 而且这四项功能实际上都是从架构层面原生构建的,并非事后拼凑上去的。好吧,因此,让 g m 四优于前代系列的关键一点在于,它现在具备了常练思维推理的能力。 我们已清楚看到这能提升输出质量,获得更加最终答案等。现在它不仅能够跨文本进行推理,还能跨越不同模态进行推理, 所以它可以根据需要进行跨图像推理,你只需传入一张图片即可利用它。而且首次你实践可以在音频上进行推理,这也挺酷的。 显然,这种长练思维的能力大幅提升了许多。精准测试结果在 mmu pro 以及 swebench pro 上也取得了非常出色的成绩。随着推理能力的提升,函数调用也随之而来。 所以,如果你想做任何设计智能体的任务,本质上就需要使用函数调用和工具。因此它整合了他们在去年年底发布的 fashion gem 模型中所投入的大量研究成果。但现在小模型和大模型都具备了这一能力,所以很多人会觉得这没什么新意。 但过去人们做这类函数调用的方式其实只是让模型更擅长指令遵循,然后诱导它去执行 demo。 四实际上是从零开始就原生集成了函数调用功能,因此,这在一定程度上针对多轮遗传流进行的优化,支持您使用多个工具,这在某些智能体基准测试和任务中体现得尤为明显。 好的,我在之前的推理中提到,不幸的是,并非全部四个模型都支持音频,而是那两个较小的模型实际上具备音频支持功能, 而且这种音频支持比我们在 gemma 三中拥有的要好得多。以及之前一些支持音频的 gemma 模型一样,这意味着你可以进行语音识别和转录等操作,还能实现语音转翻译文本的支持。稍后,在 walkthrough 环节,我会展示这一点。 新的音频编码器不仅效果更好,而且体积更小的多。这对你在边缘设备上运行这些模型大有裨益,你将不再占用那么多设备存储和内存。将 gemma 四与之前的 gemma 三 n 系列相比,另一个关键点在于图像编码器。 jam 三 n 系列模型的图像编码器虽然不错,但其实现方式确实有些过时了,它在处理宽高比等方面表现也不佳。 正因如此,你常会发现它在 ocr 这类任务上表现不佳。 jam 四模型基本上原生支持这些交错的多图像输入。 我的猜测是,从实际体验来看,它应该接受了相当程度的 ocr 和文档理解训练。 而且因为你可以进行这种多图像输入,你实际上可以在这里处理视频,并在这些多张图像之间进行推理。所以,总的来说,将 jam 四与 jam 三以及 jam 三 n 进行对比,你会发现更新非常多,尤其是小模型支持了音频功能,并且多模态支持也更好。 而 jm 三 n 的 上下文窗口仅为三十二 k, 即便是 jm 四的小型模型也拥有一百二十八 k 的 上下文窗口,大型模型则达到两百五十六 k。 好 的,我们来聊聊这些架构选择和模型规模本身。 因此,这个混合专家模型总共有两百六十亿参数,但任意时刻只有三十八亿处于激活状态。 现在他们并没有像最近一些其他模型那样选择超多的专家数量,他们拥有一百二十八个这样的小型专家,每个头肯激活其中八个, 外加一个始终在线的共享专家。所以,如果我们将这与 jama 三模型相比,其最大的模型是一个拥有两百七十亿参数的重密模型。显然,在这种情况下,您会同时使用全部两百七十亿参数。 所以这大致意味着你拥有了相当于二十七 b 模型的智能,却只付出了约四 b 模型的算力成本。现在你肯定可以在消费 g gpu 上运行它了。而且我相信即使我在发布前录制这段视频,我们也会看到它在奥拉玛 l m studio 等平台上出现。 而且谷歌自己也发布了量化感知训练检查点,这就是量化感知训练检查点,这样即使精度较低,模型质量也能保持高水平。 那么,如果您不想用 me 模型呢?好吧,他们作为工作站组发布的第二款模型,是一个拥有三百一十亿参数的稠密模型。这采取了一种不同的方法,这比 jam 三的层数更少,但在此处进行了相当多的有意义架构升级。 他们加入了直规一化,并将注意力机制改为真正适用于长上下纹的形态。 说到长上下纹,这些工作站模型开箱即支持两百五十六 k 的 上下纹窗口, 这对于本地模型来说相当可观。另一个很酷的地方是这里的视觉编码器,因此他们放弃了一种支持原声宽高比处理的视觉编码器。 因此你可以输入图像文档或截图,而模型会自动处理实际尺寸。这肯定会在文档理解 ocr 以及人们希望针对此类任务进行训练的各种下游应用中成为一大看点。 好的,因此,对于这些工作站模型,谷歌将其定位为您的本地编码助手 i d e 结队编程伙伴,甚至是您将在小型服务器上供多用户运行的工具。所以这个三十 e b 能进行代码生成、补全和修正。 此外,我们还拥有完全支持多语言的模型预训练,含盖一百四十种语言,后训练及指令为调则覆盖三十五种语言。好的, 现在如果我们看看边缘模型,我们有 e 二 b 和 e 四 b。 这些情况之所以特别有趣,原因则不同。所以,这个系列中实际支持音频的是这两款车型。它们内置了 a s r 编码器,可用于语音识别,比如将语音转换为文字。 因此,你可以在一个设备上用一种语言说话,并获得另一种语言的文本输出。所有功能都在同一个模型中完成。现在有趣的是,这里的音频编码器相比 gemma 三 n 模型被大幅压缩了, 它缩小了百分之五十,从六百八十一 m 参数降至三百零五 m 参数。这意味着不仅参数量减少了,所需的磁盘空间也大幅减小,从三百九十 mb 降到了八十七 mb。 而且有趣的是,它们似乎将真时长从一百六十毫秒调整到了四十毫秒。这意味着我们在转录时应该能获得响应更快的效果。 现在,他们保留了 jam 三 n 中的一些创新,但从架构上看,似乎他们也意识到三 n 中引入的某些创新未必是最好的选择。我猜这是 jam 团队意识到并非所有研究都能直接迁移到生产环境 好的。这些小型模型上的视觉编码器也大幅缩小了。过去我们看到的视觉编码器大约在三亿到三点五亿参数, 这标志着他们彻底摒弃了过去那种做法,转向了一种更轻量级的新架构,因此速度也快了很多。如果你正在构建本地助手,比如真正的语音优先人工智能,且不希望将数据发送到云端,那么这正是你需要的东西。 你拥有一百二十八 k 上下文窗口、视觉处理能力、音频支持、函数调用以及模型思考能力。所有这些功能都集成在一个足够小巧的模型中,可在边缘设备上以极低延迟运行。好的直接切入正题, 我将测试这里最小的模型,以展示它的一些关键功能。由于我是在发布前进行测试,必须使用特殊版本的 transformers cool, 但本质上我只是下载了 jam 四最小版本的权重, 大家很快就能看到。如果我们要起用思考模式,只需在聊天模板中传入开启思考的参数即可,对吧?所以我们只需设置 enable thinking 等于 true, 我 们运行它得到响应,然后直接把响应发出去。 所以你可以看到我在这里问的问题是,深度学习和金融领域有哪些常见的用力。接着答案就从这里出来了。如果我们想关闭思考功能,只需在这里设置 enable thinking 等于 false, 现在得到的答案其实非常相似,不过这次没有经过思考环节,而是直接给出了答案。因此你拥有开启或关闭思考功能的能力来完成这个过程。接下来,如果我们要向模型输入图像,可以看到我正在加载一张图片。 然后我们只需要获取处理器,我们只需传入一张图像即可。 你可以看到我们实际上只需将图像传入即可。这就是我现在正在做的。我们刚刚获取了处理器图像令牌,这样他就知道在这里插入图像。随后在定义输入时,我们传入文本输入。这本质上是经过应用聊天模板处理后的消息, 然后我们传入图像。在这种情况下,我们只传入了一张图片,并且确实可以看到我们可以完成这个过程。实际上我只输出了一百二十八个 token。 但你可以看到我们问的是这张图片是一个女孩和狗在海滩上。 我问他这张图片里到底发生了什么?你可以看到这张照片捕捉到了人与狗之间温馨可爱的瞬间。 这里是对正在发生情况的拆解。我们可以看到主体,可以看到互动关系。但在我把完整的设置的内容放进去之前就被截断了。 他在图像方面表现非常出色,而且速度也相当快。这是一件很酷的事情。如果我们想处理音频,基本上做同样的事情,所以这里我只有一个音频文件。那我就播放这段音频文件,让你们听一小段 在假面舞会中起舞。闲置的真理与直白的目光令人厌倦。流行滚动,点击拍摄今天我会是谁?或者不是。但这样的潮水仿佛沉睡般涌动。满意的无声无息,也无泡沫。 好的,所以你能听到这里其实是两个声音。我们可以看出,如果传入这个文件,我们基本上就是把实际的音频传进去,然后就能得到文本,然后我们只需运行它并处理即可。 果然如此,他会给我们一个输出。现在如果我们看看这里,他其实转录的相当不错,对吧?但你可以看到他非常准确的捕捉到了这里的这位女士的声音,以及那位男士的声音。 那么我会一定用这个代替 a s r 模型吗?大概不会吧。但如果你打算将它们串联使用,比如计划先接入 a s r 模型,再进入 l l m 模型,那你完全可以再次实现这一点。这里用音频还能做的另一件超酷的事 就是进行某种形式的翻译。所以在这里你可以看到我们定义了一个目标语言,在这个例子中是日语,我们定义原语言为英语, 我们可以直接告诉他好的,转录原语言的这段语音片段,然后将其翻译成目标语言。接着我们还能指定它如何格式化等输出要求。 果然,他确实做到了这一点。先以英文进行转录,随后给出日文译文。我把这段话复制到了 google translate 中,看起来大致准确。 所以别忘了这只是 erb 模型,对吧?这是一个非常小的模型,我们可以用更大的模型来处理这个,而且我的猜测是它在一些多元任务上表现可能也会更好。 所以如果你想运行小模型,可以在 t 四上跑。我这里实际用的是一块 t 四显卡。如果你想运行更大的模型,且不使用任何量化,你需要配备足够内存的设备,所以你是在看类似 h 一 百, rtx 六千 pro 这类东西。 但总体而言,无论是工作站模型还是这些小型模型,在各自的特定应用场景中都表现出色。 好的,所以该模型已发布在 hugging face 上,同时也登陆了 google cloud。 所以 如果你想部署更大的模型,你可以做到。 我觉得特别酷的一点是,你实际上可以部署那两个更大的模型。现在完全以无服务器方式使用 cloud run。 cloud run 现已支持使用 g 四 gpu。 这实际上是 nvi d i a r t x pro 六千,拥有九十六 g b v r a m。 你 可以加载完整版本并在无服务器环境中运行,且能自动缩容至令未来我也会探索这一点。总之,现在有四个新版 jam 发布, 这些的基础模型和指令微调模型都已发布,这里的机模型在微调等方面将会变得非常有趣。 我想我可能会制作一些视频,围绕小模型和大模型展开展示。当你拥有一个非常强大的基础模型时, 就像 jam 系列一直做的那样,你真的可以通过针对特定用力进行自定义微调来获得实实在在的好处等等。现在我认为这还不是 jam 四系列的全部型号。 我想接下来几个月我们可能会看到更多,但这确实是个很好的开端。让我们开始使用这些模型,并为您的特定用力进行测试。 总之,像往常一样,请在评论区告诉我你们的看法。如果有什么特别的内容,你想让我用这些模型展示一下。就像过去我做的一些 jama r g 视频那样, 那么也许我们可以看看如何对这些内容进行更新。正如我之前所说,我几乎肯定会制作一些不同的微调视频来展示这些模型实际上能做什么。所以如果你对这方面感兴趣,记得点赞订阅,我们下期视频见。暂别了。

谷歌最新开源的大模型 demo four 据说很强,在综合能力上甚至超越了二十倍规模的开源模型。 今天教大家如何快速部署在本地,以及分享一下在 mac mini 上的实际体验感受,具体感受什么样?大家看视频吧。首先打开欧拉玛官网,下载它的应用程序, 打开应用程序,我们看一下他目前支持的一些免费的开源模型,还没有 demo, 所以 我们需要去他的官网再去下载下载到本地。那么这里呢,有很多不同的型号 可以看一下,它有很多不同参数的型号,有满配的,还有一些轻量版的。那因为我这个是 mac mini m 四十六 g 版本,所以我们就选择它系统默认推荐的这个九点六 g 的 好,只需要复制这个指令,然后打开终端运行,它就会自动去下载 这里下载了。那么我们先测试一下, 测试一下他的回复速度,因为是第一次响应,所以速度会有点慢,然后我们打开活动监视器,看一下他占据内存的情况, 这个模型本身就有实际系统走内存差不多也跑满了,这里他已经有回应了,我继续再测试一条, 第二次响应速度要比第一次快很多, 我叫 jam 四,我是一个由谷歌 deepmind 开发的。 ok, 现在我们打开欧了吗?然后去加载一下,这里要重启一下这个程序,然后再看模型选择,里面 最下面就已经有了已经安装好的,现在我们把这个模型对接到本地的小龙虾,只需要复制这个指令,打开终端,在终端里面运行,它就自动会加载好, 这里有不同的模型选择,都是他支持的一些免费的大模型,我们选择 demo 让他去运行。 ok, 这里已经加载好了,测试一下他的响应速度。 这里我是放了八倍速了,说实话,因为实在是太慢了,他平均回复一个问题的速度差不多要两分钟, 非常非常慢。我本来想在这个小龙虾里面测试一下他的执行任务的能力,但是这个速度的话确实没有办法, 但是它有个好处啊,如果你有低血压的话,你就可以用它。我是动物城朱迪警官,你好吗?我过得还好,不错,谢谢。这里我甚至尝试开启快速模式, 但是实际的感受没什么变化,就还是那么慢, 所以只能放弃在这里面做测试了。那么我们还是回到欧乐玛,在这个软件里面测试一下这个模型本来的能力。这里给他放两张图,让他识别一下图先, 一个是标格,一个是周杰伦,看一下他能不能准确的识别。 这里我也是开了倍速的啊,但是这里的速度要比小龙虾里面快很多, 我给他给出的答案是,图二是陈坤,图一是一名中国艺人, 看来这个版本的模型识图能力还是有点差。接下来测试一道经典的陷阱题啊,这个对大模型来讲是一道陷阱题,很多大模型都倒在了这道题上面, 那么他给的建议是走路去,最后测试一下他的复杂推理能力, 这道题是我让 gbt 五点四给我出的一道推理题。 abc 三人中恰好有一人是骗子,永远说假话,另外两人永远说真话。他们各自说了一句话, a 说 b 是 骗子, b 说 c 是 骗子, c 说 a 和 b 至少有一个是骗子, 请问谁是骗子?给出答案,并且给出完整的推理过程。好,他给出的推理过程和答案我跟 gpt 五点四给的标准答案对比了一下,是一样的, 所以它的复杂推理能力还是可以的。 ok, 总结一下实际体验感受啊,你如果是 mac mini m 四十六 g 版本,虽然能运行,但是它会把你的内存拉满,就是你的电脑会一直处于满负荷的状态,而且响应速度也很慢,所以使用感受是很差的。 当然,如果你的电脑配置足够高的话,你是可以去尝试部署在本地的,因为它的响应速度肯定要比我这个要快很多。而且你还可以尝试去部署它的满配版,比如三十 e b 那 个版本, 能力应该是要比这个强不少。

google 今天新开源的这个 java 模型非常有意思啊,各位 iphone 用户直接在 app store 里面搜索 google ai edge gallery 就 可以下载这个 app, 下载完之后呢,你点击打开它就会跳转到这个界面,第一个是 ai chat, 就是 你和 ai 直接聊天。第二个是你可以让 java 直接为你去做事情, 比如说我点开它这里,你第一次进来的话,它会让你下载模型,模型就两点多个 g, 在 手机上非常友好,可以直接开始用,而且基本上我试过近几年的 iphone 都可以直接开始跑这里大家可以看到我是没有连任何网络的, 我可以直接让他去写一个代码,在我头上加一个旋转的标签,这个你要允许他使用摄像头,我把头露出来,他就会看到这个已经加上去了,非常的有意思。 iphone 用户可以赶快去 app store 里面下载这个软件体验一下。

谷歌这次彻底掀桌子了,全新开源大模型伽马四震撼发布!要知道,自从初代伽马发布以来,全网累计下载量已经突破了惊人的四亿次,开发者生态里涌现了超十万个衍生遍体, 这热度直接拉满!为什么要激动?因为伽马四直接继承了谷歌最强老大哥 jimmy 三的底层核心技术, 更狠的是,它首次升级为 a p 七二点零协议纯正开源。这意味着,无论你是搞科研,还是直接拿来商业变现,统统免费授权。这波属于是对开发者贴脸送福利了。 这次谷歌一口气端出了四款不同尺寸的模型,从小杯到超大杯,分别是一二 b、 e 四 b、 二六 b 谋架构和最强的三一 b 密级模型。 这意味着,无论是直接塞进手机进行轻量化的端侧推理,还是在专业设备上进行满血的算力输出,这套全家桶不仅实现了全硬件覆盖, 而且全系支持完全断网的本地离线运行。相比上一代, jam 四直接进化成了全能六边形战士。首先是多模态大爆发, 四款型号全系精通图文双修,其中 e 二 b 和 e 四 b 这两款小模型更绝,甚至长了耳朵能直接听懂你的语音。最离谱的是,这次 jam 四全系内置了硬核的思考模式,遇到复杂问题,他不再是瞎给答案, 而是像人一样一步步推理打草稿,逻辑能力直线飙升。其次是超强记忆力,二六 b 和三一 b 这两款大模型支持高达两百五十六 k 的 超长上下文,吃透几十万字的长篇文档跟玩一样。 即便是两款端侧小模型,也标配了一百二十八 k 的 超大窗口,再加上它原声支持超过一百四十种语言,咱们中文用户用起来简直不要太丝滑。 更恐怖的是他的跃级战斗力!在权威的 irina ai 排行榜上,三一 b 模型直接杀入全球开源模型前三,二六 b 拿下第六,这是什么概念? 他们直接把一重体量是自己十几二十倍的老牌开源巨无霸按在地上摩擦,完美权势。什么叫四两拨千斤?你可以直接把本地跑起来的 jam 四无缝接入到 continue 酷士的本地模式里,或者配合咱们常用的小龙虾、 openclo 以及 cloudco 等工具来使用。用奥拉玛提供底层算力,用这些可视化界面和智能体框架发号施令,瞬间就能为你打造出一个真正免费、不限量 且绝对保护私有代码资产的本地最强代码外挂。把最强的 ai 塞进每个人的口袋,随时随地帮你写代码做分析,这才是真正的科技屏权。如果是你最想在本地设备里装一个什么类型的 ai 助理呢?来评论区聊聊。

如何把谷歌的 gemini 免费的安装到你的电脑手机上,并且呢,不用联网也可以使用,也不用担心数据泄露,也不用支付会员费用,答案就是安装它们的开源模型 gemma。 那 gemma 又是什么呢?和 gemini 虽然是两个名字,但是它们本质上都是同一个东西。 gemma 是 gemini 的 开源模型,也是 gemini 经过简化之后的模型。这里面要讲一个大模型为什么叫 gemini, gemini 经过简化之后的意思。 二零二三年,谷歌为了应对拆 g p t 带来的生存威胁,谷歌合并了内部两大顶级 ai 实验室, 谷歌 brain 和 deep brain, 那 这个就是谷歌 ai 版图上的双子星。其实在拉丁语里面, gemma 就是 gemini 这颗大宝石切下来的一块儿小明珠。打个最简单的比方,网页上那个无比强大的 gemini, 就 像城市里面的中央供水系统, 水流极其的庞大,但是你必须连上水管,也就是连上互联网,并且用多了,人家是要按流量收你费用的。而 gmail 就是 谷歌免费送给你的一台满级配置的高端净水器, 虽然出水量不如水厂大,但是它完全免费,完全是属于你自己的。在最新发布的 jam 四家族里面,同样支持多模态,也就是它既可以看图,也可以听懂声音,还可以写代码。 点到这里,你肯定会问,谷歌是来做慈善的吗?为什么要把一个模型免费放出来呢?那这样子谁还会去充 jamie 的 会员费呢?这个其实是谷歌一个极其高危的羊毛,想象一下,谷歌现在建了一栋无比豪华的写字楼, 如果他把内部的办公空间完全免费开放,让所有的创业者出创公司全部搬进来,表面上看他亏了租金,但实际上呢?当整个商业生态都用他的标准写代码,他就掌握了 规则制定权。等这些小公司项目做大了,需要更强的算力了,自然就会购买谷歌云服务,或者租用顶楼收费的 vip 会所。 另一方面,谷歌面对试图垄断闭源生态的 openai 和开源大户 meta, 如果不把 jama 拿出来免费送,那整个 ai 时代开发者生态就会被别人拿走。所以免费送模型本质上就是为了抢夺未来十年的技术话语权。 那这个免费开源神器到底适合谁呢?首先,对于做科研、商业分析、金融投资的朋友就特别合适,因为自己手里面有大量未公开的研报和财务数据,根本不敢上传到网上的 ai 里。而像 jam 这样部署在本地电脑的开源模型就是他们最好的选择。 而最新发布 jam 四有四个版本,就像小杯、中杯、大杯、特大杯,那到底选哪个好呢?这条视频就直接告诉你答案,手机就直接选小杯,普通电脑选中杯,高端电脑选大杯, 企业级的就选超大杯。如果你不知道你的电脑是什么型号的,那就选中杯。那如何安装这个开源大模型呢?建议去欧拉玛的官网上下载,注意一定要下载带 it 版本的, 它代表了是能够听懂人话的指令微调版,如果你在安装的过程中出现问题,建议搭配豆包使用。这就是本期的视频啊,关注我,带你了解更多 ai 内容!

哈喽,大家好,酷狗前两天刚刚发布了最新的大模型 gm 四,这个大模型它是完全的开源和免费的,能够在本地的设备上离线运行,我用了这几天,我觉得这才是二零二六年最合理的 ai 技术路线。 真正值得关注的是,呃,他的这个原声支持函数调用,这就意味着这个模型能够自主的使用工具,浏览网页,执行代码,调用 ipa, 相当于你在本地安装了一个智能体,全程也不用联网,也不用花钱,完全可以调用本地的算理。但是呢,很多人都不知道怎么使用,所以今天跟大家分享一下专门四的使用。专门四分别有四个不同的版本,分别是 e 二 b 四、 b 二十六 b a 四 b 和三十一 b。 这些模型大小各异,可以部署在手机、电脑和云端的服务器中,它非常适合文本的生成、编码和独立任务。这张图片呢,是谷歌官方的一个,相当于是个测评吧, 不同大模型之间的一个测评。我们可以看到这几个都是市面上比较好用的大模型,嗯,包括我们国产的 d c 克千万和 kimi, 还有那个 g p t, 我 们可以看到这是它们之间的那个性能的一个对比吧。嗯, nice 区域,我们可以看到这个是 g m 四,在我们传统的认知里,模型越大,参数越多, 它的性能就越强。在途中我们可以看到 g m 四的这个三十一 b 的 这个模型,在实战能力上竟然超越了千万的三点五,因为三十一 b 它只有 三百一十亿的这个参数。千位三点五呢,它有将近四千亿的参数,这两者之间的这个体积相差了十倍,所以呢,你可以看出这面四就是用十分之一的体积跑出了十倍体积的对手,那这就意味着你不需要再付 报的这个服务器的费,你在自己的电脑上,手机上就能够拥有世界最顶级的这个 ai 大 脑。然后我们看一下这四个版本的功能吧, 以及定位。三十一 b 被称为是全能大脑,它可以处理任何的这个你所想要的执行的一些任务吧,它的定位呢,也是非常的明确,是最顶级的一个型号,擅长呢查某某的创作以及 深度的逻辑推理,它就像人类的思考会给你列出这个提纲一样,然后排查啊错误,然后再输出, 所以他非常擅长于这个深度的长文写作。那么第二个是二十六 b 的, 这个被称为效率之王,它的定位就是相对于上一个呢,它是一个平衡的版本,那么它的功能是保持在极高的智商的,同时呢,响应呢,要比三十一 b 更快, 所以呢,它适合于这个频繁的互动啊,快速的迭代的创意的这种工作。那么第三个和第四个是一四币和一二币,这两个呢被称为侧端的,先分我们,我我认为的就是说它是一个轻量化的模型,它只有四十亿和二十亿的一个参数,所以呢, 呃,它的这个体积相对也比较小,但是呢,虽然说它的体积比较小,但是可以通过这个 single 的 强化处理一些日常的对话呀,这个日常的整理,呃,简单的,这样还是非常的流畅的, 我们可以看到这是专门四网页端的一个界面,其实我这两天用的,用下来,我觉得他的这个云端的和网页端的这个使用其实是非常的非常的好给我的体验。因为普通人说实话你的电脑可能 配置没有那么高,所以你装了最高的那个等级的那个模型,你使用起来你的电脑可能就会如果说你的性能不够的话,你的电脑就会起飞的。所以我建议啊,就是如果说你不是做一些特殊的一些任务的话, 我建议直接用网页版的是最靠谱的。那电脑端有 pc 和 mac 的, 它的一个好处我刚刚讲了,就是直接在本地运行,断网也可以使用,最大的一个好处就是它是保护隐私的,不用担心你的文件或者说是你的信息隐私会被泄露,因为断网也可以使用,我觉得啊,是 这么的一个最大最大的一个特点。那么另外就是它的手机端是苹果和安卓系统都可以用啊,因为手机的内存是有限的, 所以呢我的建议就说如果是你非要在手机上装这个,我建议就是用的轻量化的这个版本的,否则的话你的手机肯定会发烫,它运行起来 特别的耗费你的本地的这个手机的一个算力的。所以最最第三个就是云端的,我是最推荐的这个直接再往月端调,而且你可以直接用免费的算力,因为使用也是免费的,你往月半使用也是免,不像其他的一些大毛器,你用着用他就没法用了,他就你的这个免费的额度,用完了 不让不让你用了。但是 gm 四它是无限使用的,目前来说是免费使用的,所以的话呢,大家如果说是想用的话,尽快用起来,我觉得是非常好的一个大冒险。大家如果说有其他的问题,我们在留言区可以互动一下,有什么问题可以直接问我哈。