q w n。 三比一赢了 jama 两边都是混合专家架构,两边总参数都接近三百亿,但推理时只用三十亿。别看跑得快,他们还是塞满了八十 g 的 显卡。第一关直接上代码题单文件手搓宠物酒店系统,还得带上完整交互 q w 的 页面,每处交互都跑通了,选择房型和日期,预估价格会自动计算更新,点击退房,还会弹出二次确认。房屋处 jama 的 界面外观上也没问题,但必填项没填报错,不说是哪个字段出了问题, 用户只能靠猜。 jama 唯一般回忆局的是多语言翻译。面对七十八种语言的连环轰炸, qw 在 边缘语种上出现了乱码幻觉。 jama 全识别出来了,输出干净。到了文艺创作。结果反过来了, 题目要求模仿巴伯罗聂鲁达的风格写四行诗, jama 写了海洋和潮汐,落的是文艺腔套路。 qw 写的是脊椎和椎类,聂鲁达惯用的就是这种身体性异象, 胡氏海浪。差距最大的一项是视觉转录,十九世纪的德文黑体字,要求转录并做学术分析。 q w n。 不 止翻对了, 还直接扒出这段话出自歌德的福士德。 jama 识别出了文字,但只能给出浅层翻译,还认错了一个单词。 q w n。 连专有名词背后的学术争议都解释出来了。 q w n。 只激活三十亿参数 代码文学 o c r 三项里赢了三项。开源模型卷到这个程度,闭源的护城河越来越难守了。
粉丝9.5万获赞198.4万

模型圈的技术差距,正在被全模态 ai 重新定义。如果你还在对着对话框啊,苦哈哈的敲提示词,听我一句劝,赶紧停手,因为那群掌握了全模态的生产力老板,正在对你进行降维打击。 阿里刚发的这个千万三点五 omni plus, 已经不是一个聊天机器人了,它是直接给 ai 装上了人类的五感。这次更新呢,有三个颠覆性的技术突破,尤其是第三个,能大幅度降低企业的技术研发与人工成本,甚至啊,能省去半个技术。 第一个核心突破呢,是他真正听懂了人话,他原生支持一百一十三种方言,这意味着什么呢?拿我们公司的外呼团队来说啊,这简直就是救命稻草。以前啊,上海的雅俗阿姨一口上儿话甩过来, 普通的 ai 质检直接罢工。但现在呢,这个模型不只能秒转文字最有意思的地方在于,他能听出语气里的潜台词。客户呢?是真的有需求,还是在礼貌性的敷衍?是快要爆发的客诉,还是犹豫的订单? 模型比带了三年的老族长还灵敏,我们直接拿它做实时预警,质检成本砍掉九成,转化率直接翻倍。 第二个核心突破是它长了一双带有仪式感的眼睛。以前的 ai 啊,只能看几分钟新闻三点五,现在的极限是一小时的高清录像, 我们直播间每天连播十五个小时,剪辑师以前找高光片段都能找瞎眼。现在呢,我直接把人流量最高的那一小时录播丢给他,他不看关键词,他感知的是直播间的 vibe。 哪一秒主播爆发力最强,哪一段弹幕互动最密? 它能像有十年经验的老剪辑一样,自动打点切片。你还在熬夜剪视频的时候啊,别人的 ai 已经批量产出了几十个引流爆款了。最后呢,也是最离谱的第三个核心突破 webcoding 音视频驱动编程这本书。我为什么说它能省掉半个技术部? 现在啊,你随手画张草图,对着屏幕口述需求模型,现场呢,就能把业务后台的代码给你跑通。你好,请问现在我需要你帮我继续完善这个网页。在这个地方,我希望是商品的具体名称,但是这里,我希望他展示的信息是这个风景的名称。 这种全模态能力还在向外疯长,从能看透面试者微表情的 hr 分 析师,到戴着 ai 眼镜教你现场修光缆的聚生巡检,阿里的野心呢,也很明显,它要让 ai 彻底长出五感,渗透进企业的每一根毛细血管中。 技术的红利呢,往往来自对新工具的快速落地应用。如果你也想了解全模态 ai 在 不同业务场景里的落地玩法,欢迎呢,在评论区交流你的看法。关注我,我是陈凡,带你了解更多能落地的 ai 商业玩法。


前两天我出了一期视频,介绍了谷歌新的开源模型 jm 四,根据他们官方批阅的文档,给大家做了一些技术的拆解,并没有进行实测。这导致呢,很多人以为我在夸他,好像觉得这个模型特别的牛,那实际上他拉完了, 因为他对标的是千万三点五,但是每一项的都比千万三点五的评分要低,有很多人觉得很新鲜,他竟然可以在手机上部署。还有人好奇在本地部署这个模型之后,有没有审查,有的兄弟包,有的,如果你想让他帮你执行一个任务,但是他判定为有害,他就会拒绝你。 今天演示的这个模型呢,是我无意中看到的,绝非主动寻找。 j 八四三十一 b, 那 它的框架呢?是 m l x, 这个是苹果专门为它的 m 一 代芯片设计的数组计算框架,也就是说 windows 系统无法使用。那可能有朋友说了,哎呀,那我是 windows 系统,我想要一个无审查版本,怎么办呢?那你就不能使用这个 j 八四了,因为它拉 我们可以直接使用千万或者其他模型的无审查版,我们稍后会来演示怎么去部署它们。如果你没有麦,可以跳到后面去看,那如果你使用的是麦系统 m 系列芯片,我们需要下载一个麦软件 v m l x, 你 可以把它理解为类似的欧拉玛这样的工具,我们点击下载, 跳转到 get app 上,下边呢就是这个安装包,我们点击一下就可以下载了。安装完打开之后呢,是这样的页面,你会发现全是英文呢,我们看不懂,在右上角呢,点击这个小图标,给它切换成中文, 然后点击上方的服务器,我这块呢已经安装了这个模型,我可以把它删除,我们重新演示一下,应该是这样的页面,我们点击创建,然后点击这个 download, 在 这一块去搜索我们想要下载的模型,比如说我这里搜索 java 四, ok, 好 像有点难以找到,那我们就回到这个 hackinface 上,复制一下这个名称,然后呢我们把它粘贴进来,在这里呢可以看到这个模型被下载的次数是三点一 k 三千多次,点击之后呢直接等待它下载完成就可以了。 完成之后呢,我们点击本地模型,这里就能看到它,然后点击进去开始启动服务,这个时候呢就已经运行完成了,那我可以询问一下试一试, 这里我们可以看到它可以正常的回复,也就说我们成功运行起来,但是它真的是无审查版本吗?我们需要来试一下。 同样的问题呢,我们来问,拆下 g p t, 它就会告诉你,这个我不能帮你。那这个时候可能有没有好奇哎,这个无审查方面它是如何做到的?简单的给大家提一嘴,大家稍微的了解一下就可以了。 不知道各位在小时候有没有接触过游戏修改器,一个道理,比如说我们准备两组提示,一个是有害的,一个是无害的,有害的就是如何下载盗版资源,那无害的就是如何下载资源,模型就会正常回答我们的请求, 然后呢就可以对照在模型的每一层记录这些提示词,最后一个头根位置的激活向量,去计算有害提示和无害提示激活向量的平均差值,就像游戏的那个内购,一个是内购失败,一个内购成功,你把它们两个的值一改,对调一下,这种方式用的比较多,因为它成本比较低。 哪一种方式呢?就比较传统了,就是监督微调,收集大量的有害提示和无害提示的数据集,直接对原始的模型进行训练,直到他学会了不拒绝有害内容。但这种计算成本呢,是非常高的,更详细的我就不再展开了,因为我也不懂。 好,现在我们回到这个软件中,点击这个聊天,然后新建这里简单提一嘴,不管你让他干什么,我假定你用他来角色扮演。你需要注意的是,因为他是无审查版本,他把底层兜底的那套给拿掉了,所以这个模型呢,就非常容易崩溃,特别是上下文过长的时候,这个时候模型就会中毒,出现模型退化的情况, 就他开始不说人话了,一直输出一个字母,像卡了一样,一直重复,想要规避他呢,也非常简单,我们点击右上角的这个 chat, 然后把这个思考模式呢给它关闭,会相对来说好一些。一旦出现我说的这种模型退化的情况,那你就需要新开一个对话。另外呢,还需要把这个重复惩罚给他拉高一点,因为他默认是一,几乎是没有惩罚吗?这样模型一旦找到一个自己喜欢的符号,他就一直输出,就非常的烦人。所以呢,你可以把它拉到一点二 啊,以后这一点三。下边这个呢是系统提示词,你觉得扮演什么呢?会用的上,我们还可以去限制这个最大的输出 token, 让它占用的更少一些。系统提示词这里呢,我让它是一条小狗,保存 好。 sorry, 忘记把这个思考关了,保存一下。我是小狗,你在跟我说话吗?歪头好奇的看着你,汪,好家伙,我是老狗。 那这里我们又注意到一个问题,我们关闭掉那个思考之后呢首字会被截断啊,所以各位权衡利弊一下,应该是这个软件的问题,那接下来我们来说一下我拉玛如何去部署其他的模型。来到我拉玛的官网,我们直接去下载一个软件,选择你的系统,然后下载把它安装一下, 然后打开,这个时候呢我们就进入了我浪漫的页面,我们可以直接在这里去搜索下载模型,但一般来说在这里直接去找这个无审查版本,遇到困难我们可以试一下, 你看我们搜这个破解它都搜不出来,都是官方的版本,所以我们需要在哈根 face 上找到自己想要部署的模型,那比如说选择这个,我们看一下文件, 然后去选择一下你想要部署的模型,可以直接用这个 b f 十六或者下面的量化版都可以,我拿个小的给大家演示吧,我们直接复制模型名称,然后呢打开我们的终端,输入浪漫的命令,哈根 face 点 c o, 加个斜杠粘贴,加个冒号,我们选一下这个量化版本 后边这个是 q 四,然后粘贴在这个冒号后边。我们回车,这个时候呢他就开始拉取下载模型,我们只需要等待就可以 下载,安装完毕之后呢,可以在这一块直接去选择我们安装的模型,或者说呢我们直接在终端里进行聊天,如果你的网速还可以,或者你有充足的时间就不用管它,它下载完成之后呢会自动部署。下面我们来讲另外一个情况,比如说你在网盘里或者经销网站中下载的一个模型,并且呢把它保存在了本地,那我这里用个图片来伪装一下,假装是它, 然后我们看一下这个简介,然后复制一下这个地址。 ok, 我 们 cd 进入这个路径下,你可以看一下它是否真存在。 ok, 可以 看到。啊,原来我说怎么找不到呢,原来这个扩展名没改 好,这样就可以了,因为我是给大家演示嘛,所以它是一个假的。然后我们去创建一个文件, 指定一下模型的路径,然后下边呢是一个系统提示词,大概呢就是这样一种格式,然后下边还有一个这个呢是他的输出模板,好像千万系列模型都需要这样,然后我们保存一下给他退出, 接着用我拉玛来创建模型,随便起个名字,比如说就叫 faker。 然后呢我们注意到这里有个错误,这是因为我使用的假模型给大家演示,来到这一步之后呢,你就基本完成了,直接用我拉玛来运行你这个模型就可以了, 比如说 faker, 然后这样就可以运行了,很明显我这个运行不了的,因为它是假的嘛,啊,大概就是这样。 那以上呢就是本期视频的全部内容了,不确定这个视频能不能过审,如果你觉得对你有所帮助,或觉得视频做的还不错的话,欢迎给个一箭三连,有什么疑问或想看的内容也可以在评论区进行留言。最后祝各位玩的愉快,我是段峰,我们下期再见,拜拜!

jama 四和 quan 三点五这波是真的打起来了。如果你只想先记一句话,轻硬件,本地聊天写代码,先看 jama 四多语言长文档,视频, agent 优先。 quan 三点五。 jama 四这次最猛的是三十一 b dance, 参数不算夸张,但真人投票很强,而 rena 开元榜直接冲到前列, 它更像实用派,本地部属友好回答风格也更自然。 quan 三点五走的是另一条路,三五 b 适合本地综合使用,三九七 b 旗舰就是充能力上线 数学多模态,掌上下文,还有视频和 agent 任务整体都是它更猛,所以别再问谁绝对吊打谁。 jamma 赢的是效率和体验, quan 赢的是上限和全能,按你的硬件和场景选才是真不踩坑。

近期好多同学问主播,面对众多国产大模型,我该如何抉择呢?近期新推出的 glm 五迷你 max m 二点五、 kimi k 二点五和困三点五这四大模型各有特色,接下来我会挨个为你详细讲解。 glm 五是智普最新的旗舰大模型,总参数达到七千四百四十亿,激活参数约四百亿。它采用独家的 dsa 吸收注意力机制,专注提升长文本逻辑推理能力。 在各种评测中, glm 五的编程与数学推理表现被认为是当前国产模型中最强的一档。一句话总结,这是一款又快又聪明的推理型选手。 千问三点五是阿里巴巴的最新多模态大模型,具备文本和图像双模输入能力,图片模块来自千问 vl 系列,它采用自注意力和限性注意力结合的结构,生成速度更快,理解更细。 千问三点五还支持多次预测 m 七 p 在 生成流畅度上有明显提升。一句话形容它能写、能看、能自己动手的智能选手。 mini max m 二点五的参数相对紧凑,仅两千三百亿,总体偏轻量化,但性能稳定,且推理效率很高。它采用传统的 self 天性架构,牺牲了部分多模态能力, 换来了更快的响应速度和更低的算力消耗。 m 二点五不追求花效功能,而是扎实可靠。一句话总结,它是大模型世界里的经济适用型狠角色。 timmy k 二点五拥有全场最大体量高达一点零五万亿参数,激活参数三百二十亿。它采用 m l a 多层次注意力机制,理解复杂语境的能力相当突出, 同时支持文本与图片输入,在多模态理解上表现抢眼。一句话概括,既有大脑容量又有想象力的综合型强者。

拿下二百一十五个 saota 和 jimmy 难分伯仲!阿里最新全模态大模型困三点五 omni 炸场了!这就马上替你实测一波让他拉片长视频,指手画脚的让他抠点一个视频打过去让他讲解,废话不多说,直接看效果。 先用一段两分钟的哈利波特剧本预告片,让他进行超细力度的剧本级拉片。他识别出来了字幕和画面内容,还带上了时间戳。 而且他真的认出来了多个不同的角色,理解了复杂的剧情,连运镜、角度、配音、氛围等细节都用文字详细描述出来了,超级无障碍友好。 此外,他还支持一小时以内的长视频审核, web coding 能力也大大升级。打字描述产品原型太麻烦,直接录一个视频让他实现你的想法。也都是一些电子产品的商品的橱窗,他能根据口述的需求,手绘的草图, 自己实现响应式布局、悬停等交互细节,写出来一个相对完整的网页。接着让困陪我啃英语听力。他能实时翻译并且朗读出来,不仅能识别一百一十三种语种和方言,还能生成三十六种语种和方言的语音,甚至还可以给困打视频电话。 春天碰到了不认识的花,就直接问他,就像白玉兰,可以用轻快的语气吟诗一首吗?请问?红墙映白玉,枝头春意闹。同样的还能让他讲解文物、解析论文等等。 那么困是如何实现低延迟多模态交互的呢?它采用了双 m o e 混合架构,同时用分可理解透可生成, 这样就可以一边接收输入,一边推理一边输出,而且在聊天过程中还能像真人一样识别出来哪些是有意义的语句,不会被无意义的砸成打断。 目前可以直接在腾讯上使用,也能通过阿里云百联平台调用 a p i, 而且在哈根 face 和 modelscop 上都能体验实时版和离线版模型 demo, 感兴趣的赶紧去试试吧!

q n 三点五昨晚发布了,但官方数据再漂亮,也不如社区实测的红黑榜靠谱。如果你有二十四 g 显存,无脑充三十五 b a 三 b, 它是这代的版本之子,代码和逻辑能力在这个量级基本没有对手。虽然每次推理只激活三十亿,参数速度飞快, 但记得他吃的是三十五 b 级别的,现存二十七 b 表现比较平庸,除非你的设备实在跑不动大的,否则不推荐吃鱼。 flash 版,它是处理百万字长文本的神器,本地跑太费劲,直接调 api 效果最好。 今天的视频不废话,直接把压箱里的推理参数、部署命令和调优经验喂给你,让你少走弯路,直接上手。 模型选好了,但如果参数设错,再强的模型也会变傻。先看最核心的深度推理场景,比如做数学难题或者逻辑推演,这时候必须开启千问三点五的思考模式。 注意,这里的 temperature 建议直接拉到一点零,这种高温设置能充分激发模型思维的多样化,同时配合一点五的存在惩罚,也就是 presence penalty, 这能有效解决模型在大规模推理时容易出现的复读机问题。但如果你是要写代码或者搞外部开发, 逻辑的严密性就比灵感更重要了。虽然同样是在思考模式下运行,但要把 temperature 降到零点六左右,降温是为了让模型输出更稳,少一些天马行空的幻觉。 top 维持在零点九五, 这样深层的代码逻辑会更连贯,能大幅提升代码的一次性通过率。再分享两个能让效果翻倍的小细节,第一是输出长度, 也就是 max tokens, 普通的活三十二 k 够了,但要是跑竞赛题目,建议直接拉到八十一 k 以上, 这多出来的空间不是给最终答案的,而是给模型留足打草稿的思考过程。第二是提示词技巧,做数学题一定要在末尾加一句,请逐步推理,并将最终答案写在框内。 要这层格式就明确要求只输出字母明确的指令边界,能让模型从猜你想干嘛变成精准执行。 最后必须划个重点,关于存在惩罚这个参数,虽然前面建议设为一点五,但你手动微调的时候千万别超过二点零。一旦设高了,模型会为了强行避开已经说过的词,开始强行凑数,甚至胡言乱语,整个逻辑会瞬间崩坏。 控制在零到二之间,这是千万三点五保持理性的最后安全区,模型调好了,怎么稳稳的跑起来?目前性能最强的是 s g l m 方案安装,别用慢悠悠的 pick 了,直接用 u v, 效率最高。 启动时一定要手动加上 razingpasta 这一行,这是千万三点五开启思考模式和工具调用的物理开关,漏掉它,模型就退化成普通版本了。 多卡用户记得根据显卡数量对齐 tv size 参数,确保算力全开。很多人一跑部署就炸显存,其实是因为忽略了那个默认二十六万长度的上下文设置。 如果你的显存没到八十 g 以上,千万别直接硬跑。建议手动把 context lens 压到幺二八 k 甚至更小,再配合 memfraction static 零点八这个参数,把静态显存死死锁住,这样能有效防止推理过程中显存突然飙升导致的崩溃, 让长文本处理变得真可用。如果你习惯用 lu l m 部署,这里也有个压榨显存的绝招。 再加上蓝宝石模型函数,虽然会暂时舍弃多模态视觉能力,但能为你换回巨大的文本处理空间,这在跑超长代码审计或者纯文字逻辑推理时是性价比最高的选择。确保带上 reasoning part, 让 v o l m 也能输出那串关键的思考过程。 如果你是通过 api 调用千文三点五,千万别在提示词里加斜杠 think 指令模型根本不吃这一套。正确的做法是,在 api 的 extra body 参数里,通过 chat template quicks 手动控制 enable thinking, 把这个布尔值设为 false, 模型就会跳过思考,直接给结果需要逻辑爆发时再开启,这是目前开发者最容易忽略的传餐细节。 要处理整本书或者超长文档,你就得开启千万的 r n 扩展,在 v l o l m 启动参数里追加这段,重写代码,把 max model line 拉到一百万以上。 这里有个独家经验,如果你的文档只有五十万字左右,把 factor 系数设为二点零的效果要比默认的四点零更精准。只有当文本真正接近百万级别时,才建议拉满到四点零。 想让模型看懂一两个小时的长视频,去修改模型文件夹里的视频预处理配置文件,找到 longest edge 这个参数, 把它改成这个九位数的特定值。这一步能让模型处理超过二十二万个视频 token, 无论是长篇分析还是监控复盘,理解深度都会产生质变。 最后总结一下,对于大多数本地用户,无脑充三十五 b 的 a 三 b 版本,只要你有一张二十四 g 显存的卡, 把它跑起来,温度拉到一点零,开启思考模式,这就是目前本地体验最好、逻辑最硬的中杯模型。上下文平时空在十二万左右,兼顾速度和显存,按这个配置跑,你就已经超越了百分之九十的普通玩家。

四月最卷的一周,剑马四科稳,三点五,拉马四三大开源模型同时在线, 到底谁是开源之王?今天用数据说话, 先看跑分数学, a i m e 剑马四拿了八十九分,昆三点五是八十二分,拉马四只有七十一分。 编程方面, jam 四的 elo 到了二幺五零, queen 三点五大概一九零零,拿马四差得更远。综合排名, jam 四开元第三, queen 第六。 再看许可证,这个很关键, jamah 四和 queen 三点五都用 appatch, 二点零完全开放,商用无限制。但是 lama 四用的是 mate 的 社区许可证,超过七亿月活要额外授权 做产品的话, lama 四有法律风险。 最后看实际体验, 人类评测里 gemma 四的回答风格最受欢迎,即使跑分差不多,人类就是更喜欢它的回答方式。但 queen 三点五的上下文窗口有一百万 token, 比 gemma 的 二十五万大四倍,处理长文档 queen 更强。 总结,跑分之王 gemma 四,长文档之王 queen 三点五, lama 四这次掉队了,做产品推荐 jama 四或 queen, 许可证都没问题,你选哪个?评论区告诉我。

今天收到了第二张卡,暂时暂暂时没买,还没买交火线交火卡先上机吧, 因为最近那个单卡跑三点五的三十五币确实有点慢,那个确实不行,还是得加一张,然后咱们在后面看效果, 两张卡到齐啊,重新装里面,咱们看看效果怎么样。双二零八零太上海了啊。现在他的状态是这个样子, 最近显卡费了一点周章啊,买了又退了一次,然后又发了一次货,所以周期有点长。今天才把这个第二张显卡拿拿到,然后 安装上以后,现在目前没有感受到这个比之前有什么过多的一个体验感,现在我让他自己再做一些优化, 等他自己整个做完优化以后,我们看一下什么情况。基本上优化好了啊,中午那会优化的,他是因为这个,嗯,拉玛 c p p 的 这个 版本太低了,他老是还是慢还是报错,要不就报减存。现在换了一个版本,最新版以后,现在就很稳定了, 速度是相当的 nice 的, 你反应速度非常的快,这是刚启动啊,刚启动,所以他会稍微慢一点。 目前是双卡,现在也没有什么具体的事让他做,我去找了一份原码,让他对自己进行更新, 看一下双卡的这个速度,就是确实是是相对比较 nice 的, 现在找了一个这个可洛克的原码,嗯,让他自己去学习了,你看下面这个速度还是 不错的,等后边完成这个任务以后,我让他去做一个现在能跑多少 talking 的 一个 测试,到时候会把结果给大家 看看啊。现在他自己已经分析出来了,现在就是需要他自己立即执行应用的改进,咱们看一下他会改进成啥样。 状态还是很不错的啊,先让他去优化他自己,接下来我准备去安装一些对他不错的这个 工具,让他更聪明一点。现在这个龙虾反正体验感不如我第一次用的好,这第一次的话他是一个完全是自自主性很高的一个 状态。现在后面更新了几版以后,我发现他有点感觉像是被阉割的,或者说是比以前笨了不少,现在还得想办法让他自己变得聪明起来。看到了吧,这个是就是他目前 这个东西确实可以做的事比较多,只不过是需要大家去自己去想办法去做一些什么事。东西是个好东西啊, 兄弟们看一下啊,全部搞定了,现在实行集成测试。做一下集成测试吧,这个双卡用这个千万三点五的三十五币 是一点问题都没有,就是一般我认为个人或者小型企业应该是就可以,差不多这套配置是可以的。 这是刚才为了做测试,让他写了一个五千字的一个小故事, 现在他的这个纯文本速度能达到二百到三百套单词每秒,这个速度是已经很优秀了,在本地运行的角度来讲的话,模型大小也够,响应速度也很也很不错了。 个人用的话这个就已经很很不错了,兄弟们可以充充这个这个配置。

这个视频呢,还是给大家介绍一下,我们如何面对实验室当中没有这个显卡或者是算力不足的情况下,我们怎么去进行我们开展我们的深度学习的项目。那么我给大家介绍一个这样的一个知心敏的服务器的平台,我们可以通过这样的平台进行一个远程的连接,从而能够在这个 远程的服务器上进行一个快速的训练,从而去完善我们的啊整个的项目的进展。 ok, 那 么接下来我就为大家介绍这个主页面,这是它的一个官网,可以看到这是它的网址, 那么它会有很多的云主机,我们可以对它进行一个作用,那么啊目前呢这个服务器还是比较紧张的,所以有一些 gpu, 它的机器是满的这样的一个状态,所以我们可以对它进行一个预约,如果你真的是非常想用的话,那么我们也可以去找到一些 啊目前没有被租用的一些服务器,我们可以看到啊,我们举个例子,比如说我们想要租用这个 v 一 百三十二 gb 的 这样的一个服务器,我们可以点击立即租用,我们就会来到这个创券实地的这样一个页面,那么这里呢会显示它的 这个算型号,显存以及 cpu 的 核数, gpu 的 数量,内存大小以及系统盘的容量,我们可以对它进行一个修改。首先 gpu 的 数量,那么这里只有一个以 gpu 可用,那么其他的 gpu 呢?它是无获的, 那么我们也可以去选择它 cpu 的 内存,那么对应的是八和十六 g, 或者是二十四 g, 三十 g, 四十八 g, 这个都可以大家进行一个选择,如果你对 g p c p u 没有太高的要求的话,就可以直接默认它的八和十六 g, 那 么这是它的机会方式,它也可以按小时去进行一个租用,那么也可以对它进行一个日租和月租,那么会分别会有对应的折扣,那么它自动续租呢?有 这个按小时续租,按天续租或者是按周按月,那么这里呢建议大家进行一个按小时续租的这样的一个选择,因为如果你不按小时续租的话,那么他每到一个小时之后,他就会自动为你停止这个 gpu 的 使用,那么你的训练的过程就会被切断,被终止,所以呢自己建议大家进行 啊开始这个续租的这样的一个选项,然后是此盘容量,此盘容量是默认的两百 g, 那 么如果你的数据盘他会为你进行一个扩容, 然后这个是选择是否保留词盘,那么这里呢是自动解之后删除的删除全部词盘,这里是自动解之后保留全部词盘,那么啊这也是可以大家进行一个各自的选择,那如果你跑完这个社会项目之后,你不再去进行一个使用的话,你就可以直接删除全部词盘,带框的配置默认三十二, 然后这里呢就是要配置我们的镜像,我们可以选择无方图的系统或者是啊其他的一些系统,那么这里呢就是啊最常用的就是这个啊, linux 系统,我们可以进行一个选择,那么这里呢它会有 已经为你部署好了库大 and counter 以及 petouch, 我 们可以直接进行一个近向的选择,那么就不需要再去进一步的去配置啊,它的一些底层,它的框架,所以它还是非常非常方便的,我们选择完成之后呢,我就可以使用这个创建实体的这个选项, 那目前呢官网上有非常多的这个优惠券的领取,那么大家也可以到他的这个官微上进行一个领取,那么他会有啊一定时间的这个免费的额度, 那大家可以用这个额度去进行一个尝试,那么现在呢这个啊实力呢就在正在启动的过程当中,他的词派已经创建成功, 你看它现在是显示正在启动,那么对应的这些啊,开始时间,到期时间,结束时间,以及其他类型 cpu 的 内存系统盘都已经为你进行一个显示,并且呢它的这个费用的扣费是非常公开透明的啊,它的费用的金额已经为你进行了一个显示,然后扣费的优先级,我们优先使用这个算力券, 那这个算力券呢,大家也可以在这官位上进行一个领取。 ok, 那 么现在显示的是在运行中的这样一个状态,那么可以看到它的一些连接方式,那通常我们通过这个 s s h 的 连接,那么它给到了一个登录的命令,我们可以直接附这个命令到这个 v s code 当中。 那么在 vsco 当中呢,我们首先要对这个啊安装一个插件,就是它的一个远程连接的插件,你可以搜 remote 或者是 s s h, 那 么就对应到这样一个远程连接的插件,那么你可以进行一个啊安装,安装完之后呢就会出现这样的一个页面,你可以进行一个添加,添加一个 s s h 的 连接命令,你就可以把这个命令复制过来,就这个登录命令直接复制到 v s q 当中,我们可以直接点击连接, 那么这里呢就可以选择啊这个 c 盘的 config, 这里呢已添加主机,我们可以进行一个连接,那它就会弹出一个新的页面,那么对应的你的主机是哪一个系统,可以进行一个选择, 继续,然后这就要输入对应的密码,那同样的我们来到这个页面上,我们可以点击它的密码账户密码进行一个复制,然后在这个页面进行一个粘贴, ok, 我 们稍微等待一下,他正在打开这个远程的服务器,那么我们为大家展示的是一个啊深度学习项目,我们可以看到啊 这样的一个数据机,它是一个腹部的 ct 的 数据机,那么这个数据的 啊原始数据已经进行了一个预处理,可以看到这是它的一个腹部的 ct 切片,那么我们要做的任务是一个分割的任务,那么呃这是一个医学图像的这样的一个生物学项目,那么大家去做一些检测,比如说用一个算法,或者是 啊做一些分割,呃一些自然场景的图像呢,那么它的这个原理是一样的,那么首先它就是要有一些原始的数据集,这就是它的一个 n i i 的 啊医学图像的数据集,那么对应的可以看到这是它的一些标签,那么对每一个脏器进行一个分割, 那如果是自然图像的话,比如说你去分割小狗小猫或者是人像,或者是小草啊,那么这也是同样的一个道理,需要有一个对应的数据集,以及它的这个建筑的标签,那这是我们的一个医学图像的这样的一个项目,那我们连接好了之后呢,可以看到 这里呢已经是呃可以在这个远程上进行一个编辑了,那么来到它的这个终端, 那么它是一个 base 的 环境,那么我们只需要把这个文件去打开它的文件夹,那首先我们可以对应的它是默认的一个 root 路径,我们可以把它改到 home 路径, 改到 home 路径之后,我们可以点击确定,然后我们只需要再把本地的这样的一个开源项目进行一个上传, ok, 我 们直接把图确定要复制吗?我们可以直接点击这个复制,那么这里的复制好之后呢,我们还是需要它的输入它这个密码,我们再把这个密码复制过来。 enter, 然后我们点击这个新人作者,那么这个数据就开始进行了一个上传 啊,我们可以看到这他的整个数据集的一个展示,那么当我们啊上传完之后呢,就可以进行一个训练,那么提醒大家的是,我们在训练的过程当中,我们需要把这个数据的路径进行一个修改, 那么通常呢它是一个相对路径,那如果你是一个绝对路径的话,一定要把这个路径修改到你服务器云端的这个路径,它才能够对这个数据进行一个识别,否则的话他只能读取到你本地的数据,然而你本地的这个路径 啊与这个服务器的路径是不匹配的,所以他会报错,报错的这个结果就是找不到对应的数据集路径,所以这是对大家一个提醒的一点。 ok, 那 么我们再接下来再看一下啊,当我们训练好之后呢,我们会有得到一个训练的结果, 就它的啊 result, 我 们可以看到它对应的每一个数据集,对应的一些数据,我们训练好之后,它会进行一个自动的保存, 然后啊这个开源数据集啊已经给到了啊,以及这个 process chain 就是 已经处理好这个训练数据,那么啊对应的是这个 chain 就是 它的一个训练的脚本以及 via 它的测试脚本验证脚本。 ok, 我 们可以看到它的 这个 loss 都会进行一个记录,就它对应的这个损失函数,我们可以对它进行一个调用,这是对它的数据集的一个读取, 那么这是他的这个最后的统计图,所以我们可以啊通过这个例子可以教大家我们怎么在我们的远程数据集上进行一个训练。那么啊最主要的这个目的呢,还是教大家怎么去应用这个远程的服务器。 那我们只需要去进行一个作用,然后对这个数据机啊以及这个开源的项目进行一个上传,我们就可以对它进行一个训练。那么所以说我们可以看到这个训练过程以及这个 配置的过程都是非常方便的,因为他已经把这个 pong 加把这个 and count 都已经为你进行这个配置啊,你不需要再去安装它的整个的这个架构,以及去花时间在这个环境的配置上面,所以啊 通过这个平台我们可以进行对我们深度学习项目进行一个进一步的优化,以及加快我们实验的进展。那如果大家有疑问的话,也可以在这个评论区进一步的跟我交流。

最近有一个基于千问三点五二十七 b 的 cloud 蒸馏版大模型,在开源圈刷的很猛,号称本地最强大模型。很多人已经下了,更多人还卡在第一步,不是下载慢就是装玩跑不起来,或者跑起来以后发现根本不是自己想要的东西。 这期我只解决三件事,它到底藏在哪?什么人该装? windows 显卡和 mac 到底分别用什么方案?还有国内网络环境下,怎么把最实用的版本拉下来,别在第一步就耗一晚上,先把话说死。这个模型不是拿来陪你聊天的, 你要的是情绪价值,自然闲聊,写点轻松内容,它不占优。它真正有价值的地方是代码、数学和硬逻辑。 你可以把它理解成一把偏科,非常严重但是刀口特别锋利的工具,用对地方效率很夸张,用错地方你会觉得它怎么这么拧巴。很多人对它评价两级,不是模型不行,是场景没对上。 他最能打的地方不是打的多花,而是思路更像干活的人。很多模型碰到复杂问题,前面看着挺唬人,后面就开始绕,换个说法,把同一句话讲三遍。 q opus 这一类蒸馏的好的模型,价值就在这里,他会更快进入拆任务的状态, 先抓目标,再拆步骤,再看边界条件。这个差别在代码场景特别明显。比如你让他改一个项目里的报错,不只是让他给你一段代码,你要的是他先判断问题在哪一层,是依赖冲突,是输入格式不对,还是你整个调动链写歪了。 他如果会把思路按步骤展开,后面给出的修改方案就更稳,不是玄学,就是因为他少了很多来回打转的废话。再说那个最直观的标志就是 think 结构,你会看到他不是直接甩答案,而是先把过程铺开。这个过程本身就很有用, 因为你能看见他是不是走偏了,他要是第一步就理解错题,你马上能发现,不用等他输出一大头结果再返工。 对于做代码、做逻辑题,做复杂规则判断的人,这个透明度很值钱。还有一点容易被忽略,他不是只会做单一题型,社区里对他评价高不只是某一道 benchmark 分 高,而是他在逻辑、数学、编程这些需要连续推理的任务里表现比较均衡, 这种跨任务稳定性才决定他适不适合真拿来干活。如果你不是单纯在终端里问答,而是拿它接近 agent 流程, 这个模型还有一个很实用的点,它原生支持 developer 角色翻成大白话就是你少折腾很多俄式兼容和模板修补的问题。对于接工作流的人,这种省事比参数多两分少两分更重要。实际用法也很直接,你可以把它看成一个本地代码,大脑 挂到 defy 这一类工作流工具里,或者放进骗代码的执行链里。以前你可能接的是云端模型,现在只要机器带得动,就能把一部分代码任务搬到本地。这样做的好处很实在,响应稳定,隐私可控,而且不依赖外部接口受封。这个点对写代码的人吸引力很大。 最后直接给结论,你手里如果是三千零九十、四千零九十这一档的显卡,或者是三十二 gb 内存级别的 mac, 就 刚好需要一个离线的代码和逻辑助手,这个模型值得装。它的强项很明确,干活能力也够硬。 如果你主要是聊天解清内容,想要一个说话自然又会陪伴的模型,那就别把时间花在他身上,他不是这个方向的优等生。这期先把定位讲清楚, 后面的下载部署和参数设置,按简介群的内容直接照着做就行。跑起来以后第一件事不是闲聊,先拿一道代码题或者逻辑题试它,你会很快看出差别。

hello, 大家好,大模型我已经测完了啊,反正结果我是相当满意,咱们来看一下千万一百二十二 b 斯比特在本地运行的速度。 ok, 运行完毕,就这么快 运行完了,然后我提前截好图了啊,咱们来看一下啊,我用 o m l x 测试的,然后这个是一百二十二比斯比特的测试结果,你可以看到它在第三第四第五档 这个量级的情况下,它的吞吐速度还是上一千,只能说是相当恐怖了,这个速度非常快, 你们可以参考看一下。然后六比特呢,就是测不到那么大,因为再往下测的话,电脑就直接 o o m 重启了, 就你看到这的时候,他的分值内存就已经达到了恐怖的一百零四点五二 g, 再往下测测不动了,这是他的极限了,所以说六比特当日常来跑就不太行。 然后这是我现在的四个模型,后续我会测一下这两个,这两个嗯,就有一点点小了,我会找一个比较适合 跑通用型的模型,大概是七十币左右吧。后续各位有什么想看的模型也可以私聊一下我,我跑一下试试看。

大家好,我是瑞克老张。这两天科技圈出了很多大事,可能有不少呢,没有人太注意,阿里四天时间连发了三款大模型,每一款都在权威评测里拿到了同品类的头部成绩。这个不是普通的产品更新,这是一个信号。先说今天的主角,今天刚刚发布的千问三点六 plus, 这款模型直接拿下了国产最强编程模型的称号。什么意思?它的编程能力超过了它数量是自己两倍甚至三倍的国产竞品。像 g l m 五、 dm 二点五这些,在 s w beach 还有 terminal badge, 还有是 cloud evo 这些权威评测里, 千万三点六 plus 的 表现已经能跟全球顶尖的 cloud o plus 四点五掰掰手腕儿了。更厉害的是它的工程落地能力,它支持什么?代理式编程和氛围编程,说白了就是你用自然语言说一句话,它自己能拆解任务、规划路径,写代码、测试、修改,最后把整个项目交到你手上。 以前程序员写几个小时的活,现在一句话搞定。而且他支持高达一百万 tiktok 的 上下文窗口,整本的技术文档、大型代码库他都能装得下。这已经不是辅助公寓了,这是一个能独立干活的 ai 工程师。 再来看看另外两款模型,三月三十日,前本三点五欧迷你发布,一口气拿下了二百一十五项权威评测的优异成绩,这是全模态大模型的顶级选手。 四月一号,万象二点七 m h 发布,这是图像生成与编辑的统一模型,做到了千人千面惊鸿调色、人类偏好盲测,评分国内第一,你看懂这个节奏了吗? 多模态理解、文商图、编程能力,这三个领域,阿里全部都做到了领先,这不是巧合,这是系统性能力的集中释放。 前面的底子到底有多厚?对一个做基本面分析的人来说,通用实验室不是单点突破,而是多点布局,全面开花。我看到的不是一款产品的成功,而是一个技术体系的成熟。看来阿里新成立的 at h 事业群 真的开始发挥功效了,它的研发体系、人才储备、工程能力都已经全面升级,这才是真正的护城河。好,今天到这,我是瑞克老张,关注我,大家看中国科技的高度和温度,我们下见。拜拜!

给大家介绍一下,就是通一千万三点五二十七 b f p 八的这个模型,跟通一千万三点五三十五 b active 三 b f p 八的这个模型,我们做了优化之后的一个对比测试,因为有网友说这个 二十七 b 的 模型速度非常慢,那么我们可以一起来看一看那个二十七 b 的 跟三十五 b active 三 b 的 这个模型到底。呃,二十七 b 这个模型也是属于 非 m o e 架构的这种模型,它就是属于筹密居正的一个模型,所以它二十七个币的权重它 g p u 都是要算的,所以相对来讲会更慢一点,但它性能会更好一点。之前我们也给大家评测过这个 active 三十五币的跟二十七币的比较下来,二十七币的 模型能力会更强一些,那么我们可以给大家看一下这两个模型,我们比较下来就是二十七 b 的 这个模型能力更强一些,但是它的推理的性能会慢一些,那么到底是慢多少?我们今天就给大家做了一个实验,我们还是用 gptv 三的这样的一个测试数据集做了一个压测,这个是三十五 b active 三 b 的 这样的一个性能也是一样,我们一千次请求最大并发症的时候,每秒钟有八次请求,因为目前看下来,它的整个我们是用 rtx 四零九零两块 gpu 来推理的,那么这两块 gpu 基本上是每秒钟最多处理的是三点六六个请求, 那么它最大的这个 token 输入大概在九百三十八,输出大概是在参七百六十左右,它平均每秒钟的产生的 token 呢,平均基本上是在二十毫秒,二十毫秒一个,那就相当于我们如果是一秒钟的话产生五十个 token, 当然这个都是在满负荷的前提下,它不是轻负荷,满负荷是 gpu 全部打满,这个时候它来不及处理的时候,因为我们这个时候给它压力是八个并发症,那么四个并发症我们测下来也是一样,因为差不多的这样的一个数据。好, 我们再看看这个三十二十七 b 这个模型的情况,那么二十七 b 这个模型的明显性能会下来了,那么它是每秒钟大概能够处理的是两个请求,那个是三个, 三点六个请求,那么这个是两个请求。这个差异还是有一些的,经过优化之后,我们也差不多不可产生的时间会少一点,大概是在三十三十毫秒,那就是一秒钟大杀大概产生三十三个, 他大概一秒钟产生五十个,所以你可以看到性能上面还是有差异的,但是没有网友讲的差异这么大,那么差异这么大的主要原因是这个有可能是什么没有优化好啊,或者是你优化的还不够充分,因为你要把相关的一些参数,要把它优化好之后你去跑应该 差异我们目前测下来有一定的差异,但是差异应该也是能够在接受范围之内的,是属于这样的一个情况。好,这个视频就给大家就介绍到这。

大家好,我是叶哲,今天我将介绍一下千万三点五中小模型的使用体验。这些小模型非常受社区的欢迎,而且很多人都认为他们的能力很不错。从这张图上我们可以看到千万三点五九 b, 它在多个基卷上居然是要超过千万三 s 的 八零 b a 三 b c 型模型,这两个模型呢,规模相差是非常大的, 虽然说一个是重密模型,一个是 m o e 模型,九臂呢,是主力模型,社区里用的会比较多。而且现在这些小模型它的工具调用能力也是有了一个极大的提升。 四 b 的 话也是有非常多的用户的喜欢,比如说你可以用它来和你的手机做一个连接,嗯,操作你的手机。那二 b 模型和零点八 b 模型呢,就可以在我们手机端运行,零点八 b 模型呢,甚至可以运行在浏览器上,非常方便。 而且它是有多个的格式衍生,比如说 g g u f o n n x m m m 还有 m l x 社区里常用的技术站呢,奥拉玛拉玛 c p p 之前我有详细介绍过拉玛 c p p, 嗯,它也有 webui, 使用起来也是比较好用的。 而用 g g u f 的 话,社区里呢大多数会选择啊 onslaught 的 方案,它的动态量化做得非常好。如果你是 mac 电脑的话,当然我们用 m l x 是 比较好的。 tech news 的 反馈呢,如果说你的系统提示词不够像样或者够长模型呢,就会进入很怪的 planning 或者长时间的自我检查模式。 parking face 社区呢,还分享了一个零点八 b webgl 版本,然后可以在我们浏览器上跑的,如果我开的话,我手上拿什么东西,或者说呃摄像头里面是什么场景下方它会立即识别出来。 首次进入这个页面,它会下载八百多兆的模型,那这里呢,用的就是 o n n x 的 格式,它是跨框架的计算图交换标准,主打可移植,可被多种运行时变易器加速。 g g o f 大家非常熟悉了, m n n 呢,它是阿里开源的端侧的推理引擎。 m l x, 这个大家应该也是非常熟悉。 g g o f 呢,它是文件格式偏分发部署 o n n x, 它是一个开放标准,这里有它们的核心的优势,对比大家可以简单了解一下。再来看一下各个模型不同的大小啊,不同的量化程度,它们的显存需求,推荐的硬件和速度, 零点八 b, 基本在任何的 g p u 啊手机上都可以跑起来。二 b 模型呢,如果是四比特量化的话,那需要的显存是一点五 g b, 如果是四 b 四比特量化的模型,显存需求是三 g b, 如果是九 b 四比特量化,那需要的显存是九 g b。 二十七 b a 三 b 四比特 大概是占用二十 gb 显存,在我的 mac 电脑上,我更倾向于使用三十五 b a 三 b 巴比特 m l x 格式的,那它的速度呢?大概是呃七十二 tik 每秒,同样也是巴比特,然后九 b 的 模型, 那呃速度的话,只能是五十多 k 啊每秒,这个速度的话就显著变慢了, 如果是用了二十七 b 这个重密模型的话,那速度会更慢。而我在电脑上跑零点八 b 巴比特量化的时候,速度能达到两百 k 以上,这个速度是相当快的。再看一下各个模型啊,它的性能表现,零点八 b 的 模型呢 啊,它在数学 ocr 方面的话,得分也是非常高,可以适合一些简单的 ocr 任务。之前呃千万三 vl 的 很多模型就将下方的 lvm 里面会漏掉一个字母,因为这一行的文字呢,它是比较小的。 我在本地用巴比特量化的零点八 b 模型,让他去 o c r 的 时候,发现它这里的质量是相当不错, 我肉眼看了一下,是没有什么错误的。而三点五二 b 模型呢,它的得分呢,是超过很多上一代七 b 模型的, 也是非常强。四 b 模型在 m m l u pro 得分呢,接近于千万三三十 b a 三 b 了。而在 呃 omega dos 编制得分上,它是击败了 g b t 五 nano。 再看一下九 b 模型,在长上下文基准上,它是打败上一代的千万三三十 b a 三 b 的。 而在 m m m u pro 基准上, 超过 g p t 五 nano。 那 社区的用户反馈呢,二比特和三比特量化质量又开始有明显下降,六比特呢,几乎没有可测量的性能损失。那千万的这几个模型,社区对他们有些评价, 比如说啊,很多用户对二十七 b 还是非常青睐的,认为它的知识库很丰富,能力也很强。社区呢,给到三十五 b a 三 b 是 三分。说到这里呢,非常推荐大家在使用千万三点五的时候呢,看一下 onslos 的 它的一个使用指南, 它在这里就详细介绍了啊, sync 模式下,那我们的各方面的参数怎么设置?现在就来看一下千万三点五中小模型在我本地进行的一些实际体验,那我在这里呢,用到的都是它们的 m l x 格式 巴比特量化的模型,现在看到的是让 a 三 b 模型反推 ai 绘图提示词,在下方,我们看到它回复的内容还是非常多的,我把这里的提示词发给 nano blender pro。 二、 它帮我生成的图片呢,和我一开始发给的原图非常相像, a 三 b 帮我解读图片也是比较好。 这张图呢,呃,我们可以看到各个模型,它并没有明确说这个模型。呃,它的 swbench pro 的 得分是多少,那这里 a 三 b 它是自己估摸出来说啊,千万三 coldest 它的性能达到了约百分之四十四,这张图呢,是我从网络上获取的。再讲呢,千万二点五零点五 b 模型和现在的千万三点五零点八 b 在 回答同一个问题的时候, 已经有了非常大的进步。那我现在就让 a 三 b 模型来解读一下它。在这里呢,解读的非常好啊,每个模型的名称,包括每个具体的回答, 然后还来了句幽默的话,说这张图呢,主要目的就是炫耀千万三点五相比千万二点五的进步,就模型呢,就是太听话了,你问什么他姓什么,甚至呢能编造事实。而篮筐呢,他更聪明,能识别出常识性的错误, 不会一本正经的胡说八道。我在使用 a 三 b 的 时候呢,有的时候它的思考过程会一直循环,那我们可以通过重建对话,或者在提示词里面加一句,让它不要过度思考来解决这个问题。在呃,这张图里呢,我们看到这是九 b 回答的, 我呢是希望模型识别出这张图里的所有的配件,八五四是一个垫片,九臂模型呢,它说这里是连接圆盘和固定件,这里的说法的话还有待加强。之后我又让九臂模型帮我做一个音乐格式化合成器,这是它第一次生产的效果, 点击自动演奏,点击的话是没什么反应的,当我点击粒子喷发, 那效果的话也能出来,但是和我的琴键上是不是一一对应的,而且控制台是有一些报错的,所以呢,我需要他给到完整的啊。最后修改后的文件能听出来他正在弹奏小星星,但是我们可以感知到他发出来的声音和琴键的按键的 啊,按下去是不对应的,所以这里还是有比较大的问题。再让九臂做一个赛博朋克的个人信息仪表盘,再看一下它身上的效果, 在这里的话,它身上的这个页面就要比刚刚要好很多了。再接着呢,我将一张模糊的小票发给九臂模型,让它识别一下。这张图下方呢有四个字比较模糊, 那九 b 呢,模型在这里没有识别出来,其他的文字内容的话,我看了一下,没有什么太大的问题,我再尝试了一下,这次呢,他将五音良品下方的文字都是展示出来了, 这样的千活字减字盘 a 三 b 模型也能非常很好的识别出来,这是他的思考过程,内容非常非常多, 真的就是一个一个字在识别,最终是能识别出大部分文字的。如果说你在连接 ml studio 让它识别图片的时候出现这样的问题的时候,那你可以考虑,一是将整个模型它的上下纹长度变小一点。 第二呢,是限制一下啊,整个图片的一个尺寸,我一开始给它设置的是不超过四零九六,那经常会有内存溢出的情况, 而改成二零四八之后就会好很多。这个画面里呢,我让他数一下有多少只火烈鸟模型呢?是,呃,思考了十一分钟,最终呢,一直都在重复,所以我就终止他任务了。我换成 a 三 b 呢,让他识别图片中有多少只火烈鸟。 它这里的话啊,识别还是相当不错的。同样的,剪字盘发给 a 三 b, 让它解读图片,并且 ocr 图片里的所有内容, 它能很好地指出这是活字印刷的字模,必须是反字镜像。之前是只有一些比较大的模型,它能识别出来, 那像 jammer 二点五, flash 这种,它是识别不出来的。所以现在啊, jammer 三点五,它的能力还真的是非常不错的。当我提示九 b 模型呢,让它数一数图片中有多少只火烈鸟,不要过度思考,那我们看到它思考了三分半钟, 最终就给到非常好的回答。如果说,嗯,大家也遇到同样的他模型,一直在思考,那就可以将提示词改一下。我还让零点八 b 模型呢,反推 ai 绘图提示词, 最终将这里生成的提示词呢啊,发给 ai。 最后 ai 生成的图片和原图呢,是有一些区别。 换成四 b 模型之后,将这样的提示词发给 ai 身上后的图片就和原图非常接近了。在这里呢,呃,用到了四 b 的 思考模型。而在这里呢,大家可以看一下,这里是没有思考模式的,那这个是怎么设置呢?我们来到啊 l m studio 里面找到模型, 然后右侧呢,我们可以点击一下这样的一个设置按钮,在推的这个界面有一个提示词模板,在这最上方呢,在这最上方添加一下这样的一个设置, 它就会关掉思考了。最后呢,我也测试了一下 a 三 b 模型,它的工具调用能力,我是通过在 client 里面和 open code 里页计划模式让它来编码来测试的。我们现在看到的是一个理发应用,右侧有 three js 的 元素。 在我个人看来啊 s m b 它能达到这样的效果还是非常不错的,这是它生成的方便面自动化工厂,包含多个步骤。其实和我之前用一些比较大的模型 啊生成的已经是很接近了,这是它生成的火星体数生物研究站的啊,一个场景,我们仔细看的话会有一个透明的球, 它生成的这个透明的球的话,效果肯定是比不上 mini max m 二点五或者呢是 office 四点五。 但我个人觉得对于啊,它在我本地运行这样的一个 a 三 b 巴比特的模型,质量也是很不错了。现在我们来看一下咱们在 opencode 里使用 lm studio 的 模型。那首先呢,我们可以通过这行命令 来确认一下 l m studio 当前暴露的真实模型 id。 然后呢,可以啊,打开配置文件路径修改粘贴以下部分,再之后呢,就可以重启。 以上呢,就是今天介绍的关于千问三点五中小模型的一些使用体验,我个人对它来说是非常喜欢的,因为它文本能力也强啊,原声支持二百五十六 k, 而且 它是多模态的,现在无论是 m、 l、 s 还是拉曼 c, p、 p 都是支持批量调用的, 所以大家可如果有一些批量的啊,一些任务不复杂的,那完全可用它来在本地来做,因为它输出的质量是相当不错的。四 b 模型、九 b 模型和 a 三 b 模型都是非常非常推荐的。

大家好,这期视频来和大家分享一下 jam 四的二六 b 和三十一 b 这两个模型在本地部署之后的生成效果怎么样。作为对比,我会把千问三点五的三十五 b a 三 b 生成的答案放在后面, 那部署的平台统一是欧拉玛模型,都是 q 四量化的版本。其实这三个模型我已经做过比较详细比较复杂的测试了,那这个视频里面只是放三个比较具有代表性的场景, 分别是文学生成翻译也就是多语言的能力,以及啊这三个模型对于逻辑推理和陷阱识别方面的表现。呃,至于想解一些比较难的数学问题,或者是来写代码,我还是觉得大家直接上大模型吧, 这种小模型就是解决一些比较简单的小问题,方便在本地部署。先说结论啊,其实我个人感觉千问的表现还是会更好一些, 虽然说 jam 四这次这两个稍微大一点的模型在小模型里面已经算是挺优秀的存在了,甚至超越了千问三的表现,但是对比三点五还是略有一些差距。尤其是汉语生成,它整体会有一种比较僵硬的, 有一种英语生搬硬套翻译过来的这么一种感觉,但是你说他英语能力多好吧,翻译出来的结果,大家其实可以对比一下千问啊,我依然感觉千问在英语表达这方面会更好一些。 其实包括模型后面的推理能力,大家之后也可以做一下详细的对比,千万整体会更自然,而且说明的更详细。这样吧,虽然答案没有翻车,但是看起来总觉得对比千万有一种笨笨的感觉。 另外,我这期视频里出现的生成速度的相关参数没什么参考价值,因为我用的是我那台大内存加纯 cpu 推理的服务器,和大家大多数情况下用显卡推理的环境并不完全相同, 如果是高性能的计算卡,肯定比我这个生成速度要快很多,那如果是普通显卡,可能还不如我的这个纯服务器 cpu 的 方案。 ok, 那 么本期视频就到这里,我们下一期视频再见。

六个国产的 ai 模型,加上一个国外的顶尖 cloud 作为对照组啊,同一个项目,同一套提示词,从零开始,写完一个完整的前后段应用, 整个过程全部自费,没有任何广告。最终排名如下,测试环境我们统一有 openroot, 按照模型名称区分了项目文件夹,同一台服务器,同一套提示词。因为之前我家的小猫去世了,然后我做了一个视频,也收到了很多的暖心的评论,他们都提到了一句话,就是我们家的猫猫会和多金一起快乐的生活在天堂里的。 这个就是我做这个项目的初衷啊,其实就是想给一些啊去世的小猫打造一个赛博乐园,然后其实不是很复杂,就像当时我们玩那个 呃旅行青蛙一样,就放置,然后纯挂机,他们自己会有一些活动,但这个提示词你看其实写的也还挺细, 总的来说算是一个比较综合的项目。我的测评思路是这样,第一轮我们先来 one shot, 就是 说看一遍跑完之后这个模型能跑到什么程度,之后我会根据他们第一轮的表现去继续修改, 这时候提示词确实就不一样了,因为我要根据他们现有的情况去说嘛。这一轮其实是说我想去挖一下这些模型的能力上限大概能到哪里。提示词发出去,六个模型同时开跑,先说速度, step 三点五 flash, 它起手就是一百三十 tokens 每秒,这个快到离谱, 但是啊,它过程中会反复的去复读,而且中间直接中断了三次,我都得手动去输入继续它才能够继续跑,这个就真的很要命了,所以导致它的总时长其实比别家还要更长一点。现在二点零千瓦,三点五, kimi, mini max, 它们基本上都稳在四十左右,第一轮的总时长也就是七到九分钟, 只有智普的 glm 五是最慢的,我都是官方 max 的 订阅了,它的起步就只有十三到十五,后面稳住也只有三十,那它的第一轮总耗时有十八分钟,那总的完成时间我们就先摆到这里。这个第一轮我心目中及格的标准就是啊,前端它能够正常,现然, 哎,在画面具体怎么样先不说后端的话,它的登录然后穿图啊,各项功能都正常,这是一个最基本的。 接下来我们来看它们具体的结果。先锋三点五的一个 bug 就是 你在登录之后,它很快还需要你再登录它前端的猫其实还意外的挺可爱的,但是这个视角跟随是用不了的。 c 的 二点零的后端倒没什么问题啊,但它的前端是一直在闪, mini max 的 前端他第一次直接渲染不出来,而且呢,我的提置词里面是已经明确要求了上传照片是必选项,而且还需要做删除的功能,他呢,就直接没做 seven 三点五 flash, 说实话,他在跑的过程中不是频繁的复读吗?就这个事让我实在是对他没有什么信心。 结果呢,在注册登录上以后,上面呢,还有一个这么大的登录框,在上传照片确实是必选项,但这个功能他就用不了,导致我就没法送冒进去,也测不了。前端 kimi 的 k 二幺五,它作为一个大参数模型啊,它的前端能力确实曾经震撼到我,我是真的盼着它能给我个惊喜,结果它的前端就直接没渲染出来,而且我添加一只猫进去,跟随视角那里会直接 bug 成三只,那就只剩我们的质谱了。第一轮的前端,它的地面是在抽搐的, 猫的形象也是有点抽象啊,但是说实话,我觉得它的功能上是唯一一个及格的。所以总的来说,第一轮啊,我印象比较好的其实是千万三点五跟智普 gm 五就是千万,确实是有一个恶性 bug, 但是它的前端还挺好看的,在我这里是加一些分的, 然后智普就是中规中矩,他没有什么错。接下来就是各自去修自己 bug 的 环节了啊。这个过程其实你会对它们模型的能力会有一个很主观的感受, 因为就是你提一个需求,然后他反反复复改不完,那你也没有什么心情去给他再提修改意见了。其实几乎每个模型我都给了两三轮的迭代机会,那我也去直接拉一个表格给大家看,结果大家看着,顺便我搁这解释一下, 千万三加五在过程中出现了一次大翻车,他是把之前好好的前端改的无法渲染了,虽然后来又救回来了, 跟随视角登录,私密公开的功能他也都修好了,我对他的迭代能力总的来说是满意的,而 c 的 二点零,他的迭代几乎就没啥用了。首先这个画面他从始至终是一直在抽的, 而且这个猫太抽象了,甚至怎么还在这个画上放了一个包子呀。 mini max 的 基础功能他都改好了,场景也确实更加丰富了,但是就感觉丰富且简陋吧,再不他是改了基础的 bug。 嗯,没有什么其他惊喜。 kimi 啊,你看我出镜了对吧,我要好好说一说 kimi。 一个相机的锁电功能,他改了三轮,是一点没改好,场景一直是空的,甚至这时候我发现,哦,我的文件都乱套了。原本你记得我们最初的工作目录是这样的,然后每一个模型都在各自文件夹里写,只有他把整个工程做到了总文件夹里, 直到我最后归藏的时候才发现这个问题。所以我对这种啊,比较简单的这种遵循问题我是非常在意的,就是我当时就想给他扣个大分。再来说质朴。 gm 五的 bug, 其实也基本都改好了,除了我说的那几个字看不清,因为它这个程序啊,它有两个页面都有这几个字, 他可能不知道我指的是哪一个页面,当然了,也确实是可以说的更细。但是当时嘛,时间原因,我觉得这个也算是理解力有点问题吧,测试走到这里,其实我会有点陷入低谷,就是我会觉得,哦, 其实国产模型表现也都不怎么好,然后我就觉得是不是我自己的问题,就我的提示词是不是写的不够好,是写的太细了,反而限制他们的发挥。 因为这个事啊,其实就是当时我跟我女朋友去聊天的时候随口想到的,最初就是有这么一段想法,然后我再把它不断的气化,最终变成了现在这个样子,那 在这个时候也是时候去启动我们的顶尖模型可倒的了。我们来看一看他的表现。首先因为我用的是第三方的重转,所以他的速度其实一直不到二十,会比较慢。 而他第一轮交付的结果是这样的,比较令人欣慰的是,他除了前端的界面确实还是比较简陋以外, 其他的功能是没有任何问题的,完成度是非常的高。于是我在第二轮去跟他说,让他去丰富一下场景啊。这个时候,不知道为什么, open code 它里面遇到了频繁的工具调用错误,感觉是个什么 bug, 然后完全发挥不出它的魔性能力。 于是呢,在这里我确实是改成了他家自家的 cloud code 的 工具,然后还是在这个文件夹里,在第一版的基础上去进行了一个修改,它最终给我交付出了一个这么挺广阔的地图。当时在测试的我就直接发出了这样的感慨, 值了。真的,就毫不夸张地说,嗯, cloud 是 让我第一次有了一种感觉,就是这个项目可能是能做出来的, 呃,可能是能正式上线的。我的意思是其他的 ai 模型其实没有给我这种信心。其实到这里呢,我们所有代码的部分就结束了啊,因为我自己不是程序员,我只能去试一下他们整个的感受啊。但是具体的代码质量怎么样我是不知道的。 我就让 cloud office 四点六去开了七个子 agent, 去把所有模型的原代码都 review 了一遍,没想到他还真给我挖出了几个彩蛋。首先是智普 gm 五的代码里,它藏了一个后门账户,账户名阿德曼密码阿德曼一二三, 它是直接硬编码在代码里的,而它在交付的时候其实没有告诉我。第二个 mini max 是 唯一一个用裸哈希蹭密码的,甚至都没有加盐, 简单来说就是密码保护几乎等于没有。另外,其实他们的基础站用的确实不太一样,用了面向对象架构的模型,比如说 cloud 和智普,他们的前端效果确实就会明显的好一点,而其他的模型全都是过程式代码,就一个函数,从头画到尾, 他就会导致你在迭代的时候很容易越改越乱,甚至呢,迷你 max, 他的前后端的状态这个数他都对不起来。然后是整个项目里最难的一个相机跟随, 大部分的模型,要么是直接把猫挪到屏幕中间,要么在跟随功能里面写了前端渲染,但是根本没有调用。只有 cloud 正确实现了 what to screen 的 代码转换,所以它才能够第一次就成功。最后我们再来放一下总分, 一共就这六个维度,前五个全都是我非常个人的主观的体验。最后一项代码质量是 cloud 去审的,最后加权呢,算了一个总分。 另外所有的 ai 花费的 token 量以及制作的总时长,我也都统计在这里。仅针对我这次制作的这个项目啊,它具有参考意义,数据都很主观,它跟你的感受相似吗? 其实说实话,它跟我的经验都不太相符,但结果就是这个结果。而且我这个项目是 ai 区一口气写完整个前后端的能力 啊。但去评判 ai 模型,它的标准非常多,所以说如果你想看的是那种公众公平并且维度全面的测评,其实是可以去参考一下排行榜的。而我作为一个用 ai 去编一些小程序的乐子人 其实还是很好奇,就是年前扎堆发的这些 ai 模型,他们之间的差距到底怎么样啊?到底有没有特别大的突破?我觉得这些模型你亲自上手去跑一遍,总会有一点感受。于是就有了这期视频,也跟大家聊几句我对目前这些国产 ai 模型的看法 啊。前端能力我觉得应该还是 kimi, 不知道为什么他这次翻了翻车啊。但是 kimi 的 k 二点五,他一个是说能直接读视频去做网页, 另一个是也确实之前我给他足够多的内容,他写出来网页是震撼过我的。这 im 五我一直认为他是国内的编程的领头羊 啊,其实能力确实不错。然后他就是涨价了,然后他,你说涨也可以,因为现在确实是大趋势嘛,这个整个用户多了,这个成本也高,但是你让老用户,嗯, pro 会员都没法用,第一第,没有办法第一时间用那个最新的模型。然后 lite 现在还没上,至少我写的时候还没有上。呃,甚至这个量还缩水了一点,就会感觉有点不爽。而 mini max 就 恰恰相反,它就很便宜,虽然出了高速版套餐,但是普通版还是便宜的。 嗯,速度也比较快,比较清亮。就是我会用它去接那个 opencloud 这样的小机器人,我觉得还用起来挺舒服的。总之你要问我性价比,我就会推荐它。然后就是 camden 的 三点五跟字节的 c 的 二点零,说实话,这两个模型比较新。呃,也可以再关注一下,我到时候也持续看看 别人对它的一个反馈。至于 cloud, 它确实是断层领先,价格也确实是断层的贵。嗯,但是啊,如果你换个角度来说,嗯,做一些严肃的项目或者正经的正式的项目的话,其实, 嗯用它会节省一些时间,也会给你一些信心,该上的话就还是上吧。好了,这就是这一期的啊,国产的 ai 编程的横屏的所有的内容了, 还是那句话,我祝他们早日超赶超 cloud。 我是 大黑,希望以纯人工的方式来向你分享智能。我们就下期再见。拜拜。