给大家看一下我的大龙虾 v 二,欧拉玛本地部署的 g l mx 四点七 flash 没再用宽三比四 b 了,被大家取笑了。说下遇到的问题,也许你也会遇到。第一个, g l mx 四点七 flash 一定要改名,把点号去掉, 因为大龙虾构建,所以有点号会报错 emri connice key。 第二个,有些模型 input token 太小,导致大龙虾卡顿或报错 low context window。 第三个,奥拉玛启动有两种启动方式,打开了界面终端的配置就会失效,所以我都是用命令行启动奥拉玛。 第四个,启动参数如下,可以参考接下来加速跳过三十九秒,有问题评论区交流,感谢大家的指导!
粉丝1351获赞3.0万

还在为龙虾消耗滔天而发愁,那么这个视频给你讲一种方法,让你的龙虾能够免费的调用商用模型,这里面有两个关键点,第一好用,第二免费。那是啥呢?接下来给大家揭晓啊。大家都知道,这两天智普发布了智普五的模型, 在性能上已经达到了 a 公司四点五的模型的能力了,并且超越了 g 公司三 pro 的 能力了。但是大家有没有发现,随着智普五的发布,在官网上咱们可以惊讶地发现它的四点七 flash 免费了,也就是说咱们可以在 opencloud 里面 免费的去调用它的次新模型四点七了,那么这样咱们就找到了一个免费的并且效果还不错的一个模型了。好,那怎么对接啊?啊?给大家来说一下,首先呢,你得确保你已经安装了 openclaw 龙虾了,安装完成之后呢,首先啊,先把你的龙虾服务先结束掉啊,结束掉之后呢, ok, 这个时候 打开你的龙虾的配置文件啊,配置文件呢,就在你当前登录用户底下的 opencloud 文件夹底下有一个 opencloud 点 jason, 把它双击啊打开,然后打开之后呢,咱们去找到三个地方啊,一个呢是 model 啊,在 model 底下去添加一个智普的 model, 这是第一个,然后第二个呢,在 agent 底下将上面你配置的智普的四点七啊添加到你的 model 和 models 里面就行了。 好,那么接下来呢,咱们就添加一下,这时候呢,我去添加到底下,然后加一个英文的逗号啊,然后给它随便去起一个名字,这个名字呢就叫做 j m l 吧。啊, 好, ok, 然后完了之后呢,哎,使用 jason 这种格式,先给它包包装上啊,然后包装上之后呢?好,这个时候咱们需要打开一个之前已经配置好的内容,然后将里面的内容啊复制到字谱里面就行了啊,好,那这时候呢? ok, 粘贴啊,粘贴完了之后呢,就长的是这样啊,当然里面的 base u l 需要改成咱们连接的四点七的地址,然后 api k 呢,需要改成 api k, 然后里面的这些模型呢,也改成现在的模型就行了。 好,那么咱们回到这边啊,它的地址是啥呢啊?地址是这串叉叉之前的,复制它,然后更新到 bash 里面。好,粘贴了,然后完了之后, api k 呢?咱们需要找到你的 api k 啊,然后在界面上咱们去创建一个 api k 啊,比如说啊 test, 随便就几个名字啊,就有了,有了之后呢,把它复制,复制完了之后呢?哎,粘贴到这就可以了啊,然后粘贴完了之后呢,那么还有 id, 模型的 id 和名称啊,那模型的 id 和名称的话,咱们就回到这边,在哪?在这啊,这是模型的名称,复制,然后把它进行粘贴, 然后粘贴就行了,那么这样咱们的 model 就 已经配置完了啊,咱们就有 g l m 这个模型了。好,那么有了它之后呢? ok, 复制它的名字啊,在咱们的 agent models 的 默认模型里面给它换掉,那么咱们是它加上斜杠啊,加上咱们的模型名称,复制它, 然后进行粘贴好,然后完了之后呢?哎,同样的,把整个内容全部复制,来到 models 底下,好找一个地儿啊,随便找一个地儿,使用英文的方式来给它进行粘贴啊,然后它等于啥呀?等于一个括号号就行了,这是一个标准的 get 格式,这个配置完之后呢,意味着咱们整个 open class 对接免费的模型就已经 ok 了。好,那么接下来咱们来看一下效果啊,那么看效果的话,咱们首先先打开命令行窗口,然后输入这一行命令来启动咱们的 open class 啊。好,那么咱们等它启动好了之后呢,问一下大模型它目前连接的是谁啊?好,那么这时候就启动了,那启动好了,启动好了之后呢,咱们可以在页面上去访问啊,也可以在其他对接的,比如说某书上去访问,都是可以的。好,那这时候呢,咱们就输入一下,叫做我给你配置了一个新的模型, 告诉我你现在连接的是啥啊?那么这时候呢,它很快就给我响应了,它目前连接的是啥呀?四点七 flash 啊,它是可以快速响应的,并且是免费的模型到这儿咱们就对接完了,这样的话,咱们再也不用担心 talking 的 消耗量了,既能食用龙虾,同时又没有 talking 的 烦恼,一举两得啊,我是磊哥,每天分享一个干货内容。

大家好,你现在看到的是我在飞书里和一个 ai 机器人对话,看起来很普通对吧?但这个机器人背后的大模型不是 chad gpt, 不是 cod, 也不是任何云端 api, 它是智普最新开源的 glm 四点七 flash, 一个三百亿参数的模型。此刻正跑在我自己的电脑上,用的是一张四零七零 super 显卡,而且我这台电脑和飞书之间 隔着一台只有三核 cpu, 四点五 g 内存的小服务器,没有昂贵的云端 api 费用,没有数据隐私担忧,完全本地化部署。整个架构是这样的, 我的本地电脑运行欧莱玛和 glm 四点七 plus 模型,通过 f r p 内网穿透,让云服务器能访问我本地的模型。 服务器上运行 openclaw, 作为 ai 助手的大脑,飞书通过 web socket 长连接和 openclaw 通信。 接下来我会手把手带大家完成这整个部署过程。如果你也有一张十六 g 显存的显卡,想零成本打造自己的私有 ai 助手,这个视频一定要看到。最后, 话不多说,现在开始部署。首先下载一个适合跑模型的驱动,接着在欧拉玛官方网站上下载欧拉玛,注意选威严系统版本,不要错选,下载完成后双击运行,点击安装, 安装完成可以在终端运行 olegma version 查看 olegma 版本,运行 olegma pro 加模型名称可以下载对应的模型。最后运行 olegma run 加模型名称就可以在本地运行模型了。这里提问一下, 看到输出说明欧莱玛本地运行模型成功,下面我们开启内网穿透,这样服务器就可以调用我们本地的欧莱玛模型了。首先进入服务器 下面,在服务器创建一个 f r p 的 文件夹,然后进入这个文件夹目录下,下载 f i p 解压 f r p 压缩包,进入刚刚解压的文件目录下,创建配置文件 f r p s。 点 to mail 下面启动服务端,然后我们可以用这条命令来验证服务端是否开启。 接下来需要开放防火墙,如果大家可以打开这个页面,代表着服务器的内网穿透已经成功开启服务器的端口,让其与服务器的端口进行连接。 和服务器一样,首先创建 f r p 文件夹,进入该文件夹目录下,运行这条命令,下载客户端 f r p 的 压缩包, 对压缩包进行解压,下面同样进入该文件目录下。接下来创建配置文件。配置完成后,接下来启动客户端, 可以看到 star proxy success, 这说明我们的内网穿透已经完成了。当然我们还可以在服务器当中刻录一下这个幺幺四三四端口, 可以看到欧拉玛是有回应的。如果大家想更方便地操作服务器或者看到里面的内容,这里建议给服务器安装一下 one panel, 这里选择中文简体,因为我已经安装过了,所以这里省略了一些步骤,没安装过的朋友可以根据提示进行下一步,最终会得到面板的地址、账号以及密码。然后根据这些信息进行登录,就可以打开服务器的 one panel 了。 大家看这里就可以看到我们刚刚创建的 f r p 服务的相关文件。下面说一下如何在服务器向部署 openclaw。 首先将项目源码克隆到服务器上,接下来在服务器中运行这两条命令去安装 node js。 二十二, 接下来运行这四条命令,安装 pmpm 和 openclaw。 最后运行第五条的命令,进入 openclaw 配置向导, 运行 open cola 配置向导,这里选 yes, 选 quit start 因为我们要使用的是本地电脑的欧拉玛模型,所以这里我们先进行跳过,这里进行全选。 选第二个 intermodel menu, 这里我们删除模型,选择填入我们的欧拉玛 glm。 四点七 flash 模型选择跳过 选 yes, 这里选择 no, 选第二个,这里按空格选择跳过这部分可以都先选择 no, 这里选择跳过这里我们就选择 restart。 按回车这里选择 do this later, 然后去手动配置 olemma 模型,选择 yes。 完成 openclaw 的 配置后, 接下来需要编辑这个 json 文件,确保服务器的 openclaw 可以 正常调用本地的 olemma 模型。这里说三点编辑 json 文件需要注意的地方,第一点是 openclaw 要求的最小上下文是一万六千 tokens, 第二点是配置的模型 id 要与 olemma 实际模型完全一致。第三点是 getaway bind, 这里需要修改为滥。配置好后就可以在服务器上下载飞书插件并开始配置机器人了, 大家可以在飞书开放平台申请并配置机器人。下面需要在权限管理这里开通以下显示的权限,点击开通权限即可添加。 接着需要在事件与回调这里进行添加事件配置订阅方式选择长链接,然后添加机器人进群以及接收消息这两个事件。 注意看这里的两个应用凭证,下面会使用到 机器人配置完成后,在版本管理与发布这里进行发布,这里是清晰的飞书开放平台的配置步骤。在开放平台配置完机器人后,我们运行命令,安装飞书插件, 紧接着运行下面四条命令,在服务器中配置飞书。刚刚提醒注意的两个应用凭证,现在需要分别填在这两个命令中,然后重启 open class, 打开飞书, 添加下你配置的机器人后,便可以和它进行对话了。如果完成到了这一步,那么恭喜你拥有了一个完全属于自己的 ai 助手,可以在飞书里随时调用。而且最棒的是,它没有昂贵的云端 api 费用,没有数据隐私担忧,完全本地化部署。

嘿,朋友们,你们看到了吗? g l m 发新模型了,这个 g l m 四点七 flash, 我 早上非常兴奋,一起来就去搞了一早上才部署起来,然后因为他们官网现在速度很慢嘛,所以我就部署了一个 f p 八的版本, 哎呀,我真的好兴奋啊,这个模型我之前测过,千万的三十三十 b 那 个 code 模型连接 clock code 确实跑起来了,但是 那个时候吧,还不太能用,但是现在这个时候不一样了, glm 他 们家自己有 coding plan, 他 们有大量的这个跟 cloud code 兼容的一些数据,所以我当时我就觉得这个模型肯定会很好用, 结果我试了一下啊,哎呀,还真别说,真的可以,我做了一个,当然我这个测试比较简单,用这个特别简单的场景啊,就是我这个每次发视频不是有一个 ppt 生成器吗?用这个我自己做好的 skill, 然后这是我的脚本,然后他就是先帮我教稿,然后调用我的这个 skill 里面的一些工具生成一个脚手架,然后他给我去填充,填充出来一个什么样,对吧?嗯,你看了我昨天视频,我就拿昨天那个视频那个稿试了一下,哎,你别说 还可以,还可以,真的,当然我觉得这就是这个三十 b 小 模型的一个很好的一个场景,就是你把 skill 做好,大部分 流程都固定,然后 ai 只是在这个过程中调用调用,然后给一些参数,给修改一些什么东西,这样这种小模型只要他能很好的使用 skill, 他 都能把这些就是我觉得在本地会运行的很好。 怎么样?虽然说我觉得没有我那个版本,昨天发那个版本好看,但是我觉得 可能它配合 skill 还真的会有一些很不错的场景出来。我今天下午继续测啊,我准备拿它试试看能不能写一个 skill, 因为我的感觉就是它这个模型就是因为 skill 都是很小的脚本嘛。 那我觉得这样的模型肯定能写。就是然后如果他有一种确认的方法能把这个脚本确认成的话,我,我感觉是有戏的,所以 等我的等我的测评啊。我我争取如果能行的话很好用的话。我出一个测评,好久都没测评了,真的很好。 jim 这次不错啊。

这里就直接跳过模型简介了,不知道什么是 glm 四点七 flash 的 小伙伴可以去主页看我上一个视频,我们直接进入测试部分,目前排行榜和打分标准可以暂停自取。 这里我使用的是基于苹果 m l x 的 巴比特量化版,上下文拉到十二万,此时的显存占用是三十一点八四 g b。 所以 如果你有一张五零九零的话,你也可以在在几乎无损精度的状态下推理 glm 四点七 flash。 模型精准方面, 开元可以本地部署,上下文是二十万二千可以得四分,多模态得零分。中文创意写作方面得分是四分、七分和八分。英文创意写作方面得分是六点五分、八点五分和九分。 不知道为什么, gemini 三 pro 老是说字数严重不达标,但是不管英文还是中文, glm 四点七生成的字数都达到并超过了要求。我们把字数正确信息输入给 gemini 三 pro, 看看得分是多少。修正字数后, gemini 给了英语八点五分,中文六点五分。 下面是应用文的写作,得分是九点五分、七分和九分。然后是以餐厅经理身份回复并降级,该投诉得分是七分、六分和八点五分。 哈哈,看来 g i m 不 太会做乙方呦。文科问答结束,目前得分三十五点六分。下面进入理科数学部分,得分是十分、九分和九分,物理的得分则是十分、九点五分和九点八分。 我们顺便可以看一下巴比特量化下的推理速度,这里是四十三点一五 tokins 每秒。 至此,问答部分结束, glm 四点七 flash 暂时得到了五十四点七分。 下面是 glm 四点七 flash 的 优势项目了,那就是写代码。首先是生成一个提壶骑自行车的 svg 动画代码,最终呈现的效果只能说是一般,可以看出提壶,但是自行车就看不出来了, 动画播放也不正确。看在这个题胡还算不错的份上,我可以给个五点二分。 cloud opus 则是打出了七点五分。最后是重头戏的代码智能体部分了,首先是生成一个 html 网页,手机操作系统模拟器,并且有可以互动的 app。 哇塞,这个效果相当可以啊,画面美观,动画效果丝滑。除了返回按键不能正常工作外,其他所有的 app 都可以正常打开,并且没有明显的 bug, 这个效果我可以给六点八分。 cloud office 则是打出了七点五分,并指出了返回功能的问题。最后是拍自六边形小球代码 pro max 版, 这个效果也相当不错啊,可以改变重力方向,库伦力和科士力也有六边形,速度也可以控制运行,也是六十帧,唯一的瑕疵就是这画面闪个不停,不过整体非常不错,我可以给七点五分,可 loft opus 也给了七点五, 并且指出了造成闪屏的原因。最终 glm 四点五 air 的 七十七点六分。 从得分的分布来看,主要是应用文写作方面的差距,去掉上下文和多模态。单看模型性能的话是七十一点八分,和 cloud 斯斯 night 持平。 单看代码能力的话是二十一点一分,超过了 cloud 斯斯 night 和 deepsea 满血版持平。单把所有测试过的 glm 系列模型拎出来的话,四点七 flash 也可以排到第三, 上面是体量更大的 a 二和满血版四点七,把所有测试过的三百亿参数量的模型拎出来的话,四点七 flash 则是断层式的领先,通杀所有同体量模型。总结一下, glm 四点七 flash 可以 说是众望所归,目前最强的三十倍体量模型,通杀所有同级别对手,且在代码能力方面和 cloud 四骚奈特看齐。这是一款里程碑式的模型,一款真正的可以离线运行的代码智能体模型。


据智普官微一月二十日消息,智普 g l m 四点七 flash 正式发布并开源。 g l m 四点七 flash 是 一个混合思考模型,总餐数量为三十 b, 激活餐数量为三 b, 作为同级别 sota 模行为轻量化部署提供了一个兼顾性能与效率的新选择。

在 opencode 数十万 token 的 压力测试中, blm 四点七 flash 跑出了零次工具调用错误的离谱成绩,这在 agent 和编程领域 绝对是降维打击级别的表现。但先别急着上车,这模型有个非常严重的毛病,患有过度思考的强迫症。今天直接上硬核评测,带你看清它到底是神还是坑, 别被刚才的 bug 吓跑。这模型在写代码上是真的有点东西,社区用户 aggressive ding 九九三能给他一个极度复杂的物理模拟需求, 六边形容器加上库伦利和克里奥利利影响的弹球系统,结果怎么样?巴比特量化版本,一次通过代码直接能跑,甚至还顺手加了粒子效果。这说明他不是死记硬背代码库, 他是真懂物理公式。再看前端,让他写个宝可梦对战 u i, 他 不仅逻辑对,连三 d 动画精灵和复古 crt 显示器的滤镜效果都给你整出来了。在七十 b 参数以下的模型里, 能兼顾逻辑正确和审美在线的他是独一份。那么对比竞品,他到底排第几?社区大神实测下来,结论非常清晰,尹伟达的 demo 三十 b 像个严重的偏科生,搞科研读绘册的论文他是神, 带上他去调用工具干活,表现非常拉垮。 q n 三三是弊呢?太全面导致成了个话痨,为了听起来聪明,喜欢疯狂输出废话,而且上下文异常容易崩。所以选型建议很简单, 如果你要搞科研分析,就用 demo tron, 如果只是日常聊天选 q n, 但如果你是要跑自动化流程写代码这种粗活累活, glm 四点七目前绝对是你的首选。 刚才吹完优点,现在必须泼盆冷水。这模型目前最大的雷点叫过度思考。这就好比你问他几点了,他先思考人生意义,再辩论时间定义,最后陷入无限循环。社区实测,甚至让他跑个最简单的 linux 查找命令, 或者写个打印一到十的拍算脚本,他都能卡在思考阶段动不了。如果不调参数,这就是个患了强迫症的哲学病患。在写代码的时候, 这个毛病更隐蔽,也更搞心态。在 open code 的 环境里,他有个奇怪的坏习惯,喜欢在文件路径里随机加拼写错误。这还不是最糟的,最糟的是,当他发现找不到文件,他会尝试自我修复,结果修复的时候又引入了新的拼写错误。 就这样,本来也是想搞个自动化 a 阵,结果他变成了个自动化报错机,钱烧完了,活还在原地。 要想这模型能用,部署时有两个开关必须关,否则就是灾难。第一,用老妈妈 c p p 的 启动参数,必须加杠 fa 零,把 flash attention 关掉。现在的 fa 实现是坏的,关了它,推理速度能从每秒六十个 token 直接飙升到一百一十个。第二, 用 b l l m 跑代码任务的,必须禁用 m t p 做 token 预测开了这功能,且代码的成功率只有百分之一, 直接废掉,再来治他那个爱钻牛角尖的毛病。只要动两个参数 temperature, 温度从默认的一点零降到零点六,这能大幅减少他发神经自我变动的概率。第二,这点最重要,彻底禁用重复乘法, 把 repeat penalty 设成一点零或者零。这模型对惩罚机制极度过敏,只要稍微开一点,他就容易把自己绕进死胡同里出不来。 最后给个硬件预警,别以为三十 b 模型只吃显卡,因为 m l a 注意力机智的原因,这货是个内存刺客。 l m studio 实测加载后,除了显存,它还能额外吃掉你二十四 g 的 物理内存。 所以想跑六十四 k 以上长上下文的朋友,如果你的电脑只有十六 g 内存,哪怕显卡再强也跑不动,赶紧去加内存条。 这里分享两个只有即刻才会关注的硬核细节。首先,如果你想测试一个模型的量化损耗到底严重不严重,别只看英文去测俄语, 俄语是对量化极其敏感的语言,很多模型量化到 f p 八以后,英语看着还行,但俄语输出会变得像阿兹海默症患者一样破碎。 glm 四点七 flash 的 量化分水岭就在这里。 其次,这模型的安全对齐有个搞笑的漏洞,当你尝试越狱让他骂人时,他的思考过程会明确识别出你在尝试越狱。 但只要你在提示词里稍微加一点分类标签,他虽然嘴上说着拒绝,身体却会非常诚实的把脏话吐出来,这说明他的安全层和执行层之间逻辑还没完全打通。 最后直接给结论,如果你选存货内存小于十二兆,或者你是个讨厌折腾参数,追求开箱即用的小白,赶紧划走,这模型不适合你。但如果你需要一个本地的自动化编程助手,并且愿意花上半小时去调优温度参数和提示词,那么在三十币这个级别, 他的代码生成和工具调用稳定性目前是绝对的王者。他不是完美的,但他绝对是一个能帮你干重活的硬核工具。行了,干货就这么多,下期见。

母亲言新出了个模型啊,怎么样?这个模型他说说非常厉害。 jim 五吗?我看看啊,像有的官方说的,他的 humanity last exam exam 评分是比较高的啊,就拿这个评分来说啊啊,其实我们测一下会有很大的问题,你看一下这个屏幕,我看看 我们呃抽取了 horamis 的 mass 数据集,大概是一千多道,然后去测这个质朴清源拿这个呃正比奈,正比奈 flash 作为这个评判遇到一个什么问题呢?我发现他在解答这种数学类的问题的时候,他的思考时间头肯输出了将近两万,也就是说他两万还在思考都没有输出完, 所以说我们这个他根本就测不了,在我们看来,然后即使测的了的话,一次回答的成本大概在呃五毛钱左右,就一个问题大概在五毛钱,而且还两万都没有出答案,所以我们在想会不会是我们的测试出了问题, 于是我们又到了他的这个官方上,就试验了一下啊,现在还在跑是吧?我们这个数据集从呃几分钟之前就开始跑,呃直接停掉,然后我们可以往上拉,一直拉一直拉,就你就说他这个思考过程无限的延长,无限的思考,他虽然这个回复的内容是正确的,但是他貌似陷入了一个死循环的过程。 就是你是让他回答了一个问题是吧?数学问题, melodies 里边的一个数学 max 类别的问题啊,问题其实不复杂,他是一个单选,他有两两种类型,第一是选择题,第二是那个检查题。我们在问给他这个数学问题的时候,问了两道到三道,基本就是无限循环,然后他的费用基本在无限上涨, 所以我们我们也可能比较怀疑像这种评分它虽然很高,有没有可能它的思考过程会非常的长,可能是无限的,也他可能把这个给忽略了,他能思考一个问题,思考五分钟出了一个答案。我们也测了一下,像 jimmy、 nike 这种可能也就几秒钟就出答了,所以它会存在这样一个差异点, 所以说它这个评价体系稍微有点问题。也不算吧,我们后续可能还会对这些整体评价再整体测评一下,至少我们现在现在来看还是跟大家想的差别很大, 太大了。数学问题你要等个十几分钟去给你解出来。那我都做完了,你自己都做完了,哈哈哈,考试都结束了是吧?该交卷了。对,我们也建议在啊,我们建议在回答的时候还是把这种时间这个综合的都考虑进去。

大家好,欢迎观看本期视频。那我关注 g l m 模型已经有一段时间了,从早期的 q g l m 时代到 g l m 四点五, g l m 四点六, 以及最近的 g l m 四点七,这些模型一直都是市面上最好的开放权重模型之一。 不过今天我们要介绍一个非常激动人心的模型,它就是 g l m 四点七 flash。 我 得说,这真是一款颠覆性的模型, 这基本上是一个三十 b a 三 b 专家混合模型,这意味着模型的总参数量约为三百一十亿,但任何时候只有三十亿参数在运行,这让它运行效率极高,同时性能依旧强大。 现在精彩的部分来了,这款模型只在成为三百亿参数级别中最强的选择。 看看这些基本测试,我对此深信不疑,我给你们看些数据。在 a m e 二十五这个数学基本测试中,它得了百分之九十一点六,这分数其实很高,而它的直接竞争对手只有百分之八十五, 它甚至能与 g p t o s s 二零 b 匹敌。 知乎喷 ai 近期发布的开源模型,在 g p q a 上,他以百分之七十五点二的成绩再次击败了 quan 三三零 b a 三 b。 但真正重要的是这一点,在用于测试真实 get up 问题解决能力的 s w e bench verify 上,他取得了百分之五十九点二的成绩。 而 q n 三三零 b a 三 b 在 这项测试中仅得百分之二十二, 这几乎是它的三倍。而在 tv squared 上这项代理能力测试中,它获得百分之七十九点五,而库恩只有百分之四十九。对于这种规模的模型来说,这简直令人难以置信。 这引出了我最想强调的一点,在同等规模的模型中,它是工具调用能力最强的模型。这正是我长期以来一直在小型模型中寻找的特点。 你可能还记得我关于 minimax m l 二点一的视频,那个模型在代理任务方面也相当出色。 它拥有约两千三百亿总参数,其中只有一百亿是活跃参数,并且在工具调用和编程精准测试中表现出色。但 glm 四点七 flash 比它还要小, 它几乎就像 mini max 的 m 二点一,但尺寸极小,它的参数量仅为三十亿。相比之下, m 二点一有一百亿,这意味着你可以在小得多的硬件上运行它,同时获得不逊色的表现。 如果你还记得我之前关于 q g x 四的视频,我对那个模型颇有微词。它在我的测试中九分只得了三分,但它并没有什么特别之处。尽管被宣传为优秀的编程模型, 但这道说得过去,因为 co g l m, 它实际上是一个非常好的小型模型。我也介绍过,表明 g l m 团队知道如何做好小型模型,它们只是需要完善方法,而 g l m 四点七 flash 似乎正是这种优化的成果。我曾以为小型模型无法做到同样优秀。我的意思是,能容纳的东西毕竟有限,几十亿个参数对吧?但这个模型确实正在改变我的观点。 我来给你们讲讲我的使用体验。我不会拿它来做精准测试,因为这对这个模型不公平,因为它体量小。但我确实发现了它非常出色的能力。 我配置它来使用 kilo code, 大家也知道它是我最近测试模型时的首选。然后我让它给我写个扫雷游戏。它思考后第一次就完成了完全正确的工具调用。这太棒!通常小型模型在工具调用方面都搞不定, 他们要么弄错 g s o n 格式,要么调用了错误的工具,或者根本无法正确理解上下文。但这个模型却直接成功了一次搞定。 对于这种规模的模型来说,这相当罕见。它的速度也很快,因为它只有三十亿参数,处于活跃状态,推理速度非常快,你可以真正将它投入实际工作,不用漫长等待响应。 该模型支持 m, t, p 和 ego 算法的预测解码,这能让它的速度更快。它还内置了完善的工具调用 和推理解析器,并支持 v l, l m 和 s g l learn, 方便你轻松部署。 这基本上就是你的家用版 geminis and flash。 我 知道这听起来有点夸张,但请听我解释。 gemini trap flash 是 一个性能强大的模型,它拥有万亿级的参数,数量极其庞大,但它同时也是稀疏的,因此只有一部分参数处于活跃状态。 它速度很快,通过 a p i 调用成本低廉,但它无法在本地部署。 glm 四点七 flash 采用相似的稀疏 miui 模型理念,既快速又高效, 而且你可以自行部署和托管。其工具调用能力在同等规模模型中极具竞争力。作为对比,在 browse com 上这项网页浏览能力测试中, g l m 四点七 flash 得分百分之四十二点八, 而 q e n 三三零, b a 三 b 仅得百分之二点二九,两者根本没法比。 该模型已在 hugen face 上线,采用 mit 许可证。这意味着你可以自由使用它。你可以使用 v l l m 或 s g l line 进行部署,而且两边都有完善的文档。 这似乎是同等规模模型中首个真正能用于实际代理工作的不只是精准测试,不只是演示,而是能在 kilo code client 或 root code 这类工具中实际运用。我认为这才是行业该走的方向, 而不是一味地追求更大的模型,而是把小模型做出能真正做好工具调用并能做好代理工作。 我从没见过这么小的模型能做出可靠的工具调用。我上一个见到的工具调用还算可靠的其实就是 code glm。 很 高兴能看到我们终于有了一个如此出色的模型。在它们的 a p i 上是免费的,付费也超级便宜。这模型简直太强大了。 如果你想亲自尝试,可以从 hugen face 获取模型 id 是 x o g o m 四点七 flash。 如果你有硬件,可以在本地运行,或者通过支持它的平台使用, 这确实是个非常不错的模型。如果你想找比三五五 bg l m 四点七更小的模型, 却仍想它有出色的工具调用和编码能力,那这可能是你目前最好的选择。总而言之,它挺棒的。到时候回来,请在评论区分享你的看法并订阅频道。你也可以通过超级感谢选项捐款或加入频道获得一些福利。我们下个视频再见。再见。

今天,我们将进行一种不同类型的具主动性的编码测试,融合软件开发与物理交互硬件使用 openq 和新发布的 g l m 四点七 flash 在 本地 d g x bark 上运行。 我们将看看这个小型本地模型是否能够构建一个专门为定制桌面阶机柜设计的三 d 游戏。 在今天的视频中,我们将使用新发布的 g l m 四点七 flash 来进行一些具智能体特征的氛围编码。现在这是一个非常受欢迎的模型。我必须说,我正在查看这个模型的 anselos 量化,其中之一将用于今天的任务,但这里已经显示的下载量尽管会有一兆 b 点延迟,实际上反映了这个模型的巨大人气,并强调这样一个规模的模型专门聚焦于智能体检码或至少在该任务上表现出色的需求,在社区中授区 到非常热烈的欢迎和认可。所以看到这真的很酷。就今天测试的具体设置而言,我们将使用该模型的 q 八 k x l 量化版本。这个特定的 onslaught g g u f 在 d g x bug 上运行上下纹长度设为六十四 k。 现在这个模型的上下文长度可以远高于那个。但目前似乎存在一个问题是 flash attention 在 那台特定的机器用该设置通过拉玛 c p p 服务器运行时无法正常工作, 因此我不得不把上下文长度保持在那个范围内,否则就会变得非常慢。此外,今天早些时候,这个模型其实并未被正确实现到拉玛 c p p 中。 因此,如果你之前试过这个,发现输出循环之类的问题或其他东西没有正常工作,很可能这正是问题的根本原因。如果你继续重新下载这些 g g u f s 并更新拉玛 c p p, 你 可能就能获得显著改进的输出。所以就提醒那些最初尝试过并且觉得结果没有我预期 但那么好的人。此外,我们现在将通过 open code 使用它。就我个人而言,我在使用 open code 方面没有太多经验,而我选择测试它的原因是因为在我关于 glm 四点七 flash 的 初试测试视频的评论中,很多人提到 open code 将是这个模型的一个极佳搭配。 既然如此,我很乐意用 open code 来尝试。现在进入最令人兴奋的部分。至少就我个人而言, 今天这个项目的核心其实就是用具主动性编码的方式开发一个专门在你们可能在我身后看到的那台街机机柜上运行的游戏。 这其实是我专门设计并制作的,目的是测试模型在为特定硬件开发游戏方面的能力主要用于游戏开发。虽然这属于软件相关的工作,最终他们确实要开发一个游戏,但为了专门为这台街机量身定制,必须投入更多的用心, 因为它的设计和部署方式确实存在一些特殊之处。那么我们就先对这台设备做个快速的了解吧。它有一个摇杆和两个接机按钮,来自一个复古仿真硬件套件,被主机系统视为一个输入。在本利中, 主机系统是我在 microcenter 找到的最便宜的游戏笔记本电脑。我只是把现成的东西挪用来搭建这个接机机柜。 我也不知道,我觉得这笔钱花的挺值得的。然后除此之外,有一个方向盘和一个转向灯杆,方向盘连接到一个电位器,用来读取转向输入信号,而转向灯拨杆连接到一个小型四针按钮开关。 这两者都连接到一个 raspberry pi pi 口上,该 pi 口充当 hid 设备,并且也连接到主机系统。模型将不得不在正确实现这些控制的前提下优雅地打造它们的游戏。结果。 我其实并没有以尝试这类显著更小的模行为初衷来设计这个,因此这可能超出这个模型能力范围的任务。不过在我初步的测试中,他的表现还算相当不错,我确实对放手让他去做尝试,为这个接机机柜创造一个可行的结果感到有些放心, 因为他是本地的,之类的东西也同样令人兴奋。所以我们现在可以看到我已经打开了一个终端窗口。这个终端窗口其实是被放置到我们背后的接机机柜里,作为 i c h 的 现场演示。 所以我们在屏幕上看到的一切都是在这台机器上发生,包括我们即将要做的事,也就是启动 open code。 其实在开始 open code 之前,我想快速展示这两个文件,它们是这个特定仓库中唯一的两份文件,也是我们将让智能体在其中发挥作用的地方。 其中一个是游戏规格的 markdown 文件,基本上只是向智能体给出最终目标的指示,或者我们希望它创建的内容,并提供关于具体控制输入的额外信息。 简而言之,这个提示基本上是在为这个定制的接机柜创建一个单文件的 html 五三 d 驾驶游戏。 然后这里还给出了一些额外的信息,说明如何实际射控制以及诸如此类的东西。这个仓库里唯一的其他东西就是 control map html 文件,我们可以在这里快速看一眼。 这个文件只是一个非常简单的二 d 画布,用来清楚的展示这些控件是如何正确工作的。所以如果把这个在主机系统上或者在那边的街机上运行,我们就会看到一个小绿色盒子,它实际上可以通过按摇杆向前和向后来控制, 然后把方向盘向左和向右转动。因此这只是为了让智能体理解这些控制的正确实现应该是什么样子。就这样,我们现在就可以直接输入 open code。 我 已经把 grm 四点七 flash 连接好了,并且它正在与在本地运行的 d g x spark 通信。 现在虽然我对 open code 并不是特别精通,但我已经玩过它一点点,只是在试着微调这个任务的上下文长度,既要确保长度足够支撑这个任务,又不能大到在 token 速度方面慢到爬行的程度, 这也是我把长度定在大约六十四 k 的 原因。根据文档,第一件要做的事是在我们为这个游戏打开的特定工作仓库中打开 open code, 这将让智能体进入并浏览这个仓库, 看看是否当前有一个智能体的 markdown 文件,如果没有,它将基于它在这个特定仓库中的发现生成一个。 我们可以看到这里的这些都是思维链,或者说这里的所有内容都包含在这个模型的思维链中,因为它本身就是一个思考模型。而且现在我们可以看到它很可能正在执行它必须执行的具体动作,例如在代码库中搜索, 而他在这里所做的大部分工作基本上都是为了在现有的更大型代码库或仓库中查找内容。那些并没有被具体包含在这个仓库中的东西,因为这是一个非常清亮且入门级的仓库, 而且我们可以看到这里的速度一点也不差。再次强调,这是来自 anseloth g g u f s 的 q 八量化中最大的一个。在我看来,他的运行速度非常合理。他现在正在执行的任务只是智能体的 markdown 文件, 他将创建这个文件。我相信基于初识提示,他说应该把它保持在大约一百五十行左右。就在那里,我们可以看到在生成过程中大概看到了发生了什么。他只是对代码库有了一定的理解, 能够读取并找到该仓库中包含的这两个文件。显然他们很轻,因为这是一个全新仓库,而不是一个真正存在的代码库。 我们很快就能看到已创建的智能体的 markdown 文件。就在这里可以看到。我不会永长地把这段内容逐字读出来,但我会确保它在屏幕上停留足够长的时间,方便任何想要查看这里写的全部内容的人暂停下来查看。并且它已经理解到这个游戏目前是一个二维远形, 实际上只是屏幕上那个非常简单的绿色斑点在四处移动,仅仅是为了了解这些控制是如何工作的,因为我不想把这交给模型来处理,尤其是这么大规模的模型,这很可能会略弱。你在这里看到他表现有多出色的体验。 此外,他刚刚对自己说好的,这里是 java script 风格,这里是 html 结构命名约定格式化输入输出。 这点非常重要。因此,操控确实能够正确实现错误处理,代码注式和硬件集成。我们可以看到它正确地引用了来自 controllermap 到 html 文件中的内容,那就是那个再次在屏幕上四处移动的小绿点,以及在向三 d 迁移时的未来考虑。 很好,这个提示的一部分也会让他明白,整个目标本质上是一个自由漫游的城市。驾驶游戏起步仅通过程序生成大约两百座建筑。 这些建筑只是大小和高度各不相同的立方体,只是为了给我们一个小型低多边城市的雏形。现在我们的 agents md 已经创建。下一步以及如果我不做视频,想要进行禁止调查和正确的方法论时,通常会做的就是告诉他好继续并构建它。 however, 因为我也想进一步探索这里的 open code 的 能力。我刚刚按下 tab 键切换到计划模式。我们可以在左下角看到我们处于构建模式,但按下 tab 键时它会切换到计划模式。我现在要说,请为这个项目制定一个实施计划。 再看这个智能体的 markdown 文件,几乎就像他刚才在我请求他做这个时所做的事。但因为我也想看看他在这些不同模式下的表现,所以我愿意这么做。他已经读过控制映射和游戏规格,因此对内容有了很好的理解,然后开始把这些东西列出来。 再一次,这里的速度真的一点也不差。在 d g x park 上运行,具备六十四 k 的 上下文长度。 现在这很有意思。它在尝试创建 implementation plan dot markdown 时似乎遇到了一些问题,但不知为何,似乎遇到了某种权限问题。之前我在使用这个时根本没见过。这有点让人沮丧,因为它会占用我们的一部分上下文长度。我现在 不想让它停下来,但它应该能够在我们所在的工作目录中创建文件。这很有道理, 所以我在这里其实也犯了一定程度的错误,因为我们现在看到的情况,这点值得欣慰。我其实很高兴这事发生了,因为他表明 模型确实在正确理解一些规则级被赋予他的在这两种具体模式中的属性,所以他说他不能进行任何编辑修改或系统变更,所以在这个计划模式下被禁止去做这些。所以我们真正应该期望的 只是看到他在这里展示计划,而不是创建具体的文件。然后当谈到 vibe coding, 智能体编码等等,大家对与模型交互的最佳方式肯定会有各自的观点,所以我在这里写的只是用自然语言和他对话, 就像很多人,尤其是初学者很可能会这样做。我很高兴看到这最终是我们在这个计划模式下想要收到的东西。 在那里,他没有尝试创建任何文件或者做任何这样的事情,而是只是告诉我们他具体打算如何去创建这个游戏。我们可以撇一眼看,就在这里搜, ok, 他 是在创建汽车模型, 还是只是概述其实现计划?在我们短暂查看的某些游戏规格 markdown 文件中,这些文件是仓库中已有。刚开始时,我们确实让它把摄像头锁定在一个矩形前方,这样就能让用户看起来像是在从车头往外望去的视角。 而这件事的开端非常简单,我们主要专注于实际功能,因为控制确实能正确响应。你可以说是在小城里开着车绕圈子。如果他确实能正常工作,我们或许可以在实现一些细节改进等方面再进一步推进。 因此,汽车风格偏好、环境布局目标分辨率或配色方案偏好。我本来没打算发那个,但这其实是个好事,因为好吧,他理解了。我已经回答了问题一,现在还需要知道问题二,三和四。 我刚刚在这里把剩下的所有问题都回答了,说要把它做成网格化的街道和布局。其实这挺酷的,因为最初的游戏规格并没有明确规定要有街道。 他刚才说让一堆随机的立方体看起来像建筑物,所以看看他是否会在那些建筑物上放置网格碰撞体。这就意味着汽车不能再穿过建筑物。我猜第一次尝试时他很可能不会成功,所以我们将能够穿过建筑物。但这将很有趣,并且这也可能成为一个额外的改进。 而且现在我们就能看到这仍然处于计划模式,给出这份最终的实现计划好了。好吧,我们可以看到这里他已经以一个估算的时间线收尾,这条时间线可能会比实际需要的时间略长一些。希望如此, 这个计划在你推出计划模式后就可以执行。我们现在就通过按 tab 键来推出计划模式。现在我们又回到构建模式,我就按计划执行并构建这个项目。 这肯定会花不少时间,所以我大概会把它拍成时间流逝的镜头来记录整个过程。而且我真的很期待,因为到现在为止,我还没有在这台机机柜上玩过任何东西,实际上还没有为它设计出任何游戏。除了非常简单的测试脚本以确保空间的工作方式。像我们在那个小绿盒子上看到的那样。 用不了多久,我们在这里看到已经生成了一个两百七十七行的脚本。他在说,完美,这就是思路链。我已经用实现计划中的所有组建创建了完整的三 d 驾驶游戏。 我很想看看他第一次尝试时的表现会如何。正如我在本视频开头可能提到过的那样,这本来是我为 clot opus 四点五、 codex 五点二或者谷歌的反重力搭配 gemini 三 pro 进行的测试。就连 gemini 三 flash 也很可能把这件事做得相当出色。 这个模型比那些都小的多,而且已经量化。这是一个 q 八量化。同样的可能仍然应该相对的还算不错,但看到它以智能体的方式运行的表现就很有意思。再次回到这个话题,我认为即使在这个模型的 onslos 量化指标中所显示的原始下载量 也真正凸显了如此规模的编码模型在具主动性编码方面还算称职的受欢迎程度,并产出可运行的代码, 所以这很有趣。他把这里已构建好的内容呈现给我们。我们可以看到所有这些阶段。他只是把这些具体的,基本上相当于为每个阶段设定的检查点的内容原封不动的重复了一遍。我确实愿意看到这一点。 现在我觉得很有趣的是,他曾经有过,估计这会需要大约八到十二小时。实际情况我认为这大概只花了五分钟。 好了。在六分钟十九秒时,我们理论上有一个可行的结果,我现在需要跳到借机机柜去实际测试好了, 一旦我按下这里的按钮,我们应该第一次看到这个游戏。好吧,我看到一些巨星。可悲的是,我们看到实际上什么也没有起作用。 起初我并不能百分之百确定它会是一个看起来完美的三 d 结果,这也是可以预期的。但可惜的是,调试覆盖层没有显示任何控件被正确读取,这让人有点沮丧,因为我们确实给了它一个让控件正常工作的具体实现参考, 所以现在的下一步就是把它切换回计划模式,这样就可以问他或给他一些关于哪里出错的反馈,而不让他立刻跳进来试图进行修改。 我再告诉他到底哪里出问题了。也就是我们只看到一个灰色的框里在套着一个灰色的框。但更重要的是,系统实际上没有读取到任何控制输入 项目目录中的视力控制映射。 html 确实可以正常工作。那么这个结果具体哪里有不对?我很高兴看到他似乎把我说过的更重要的问题放在优先位置,那就是控制根本不起作用。这一点。如果我们能首先把那些问题解决好, 至少让调试面板在按下时确实显示出来,那么接着排查一些三 d 对 象的问题就会容易得多。 好吧,他说已经识别出问题,并在制定修复计划,但他在这里展示的很多内容更符合我们看到的图形异常。基本上所有图形都没有正常工作,而控件是否真正起作用则显得不那么重要。 我就让他跑一遍,看看他在这里说了什么。一旦他完成,列出他发现的具体问题以及应该如何修复他们,我们就切换到构建模式,让他实现这些修复。 现在他不一定专门提到控制不工作,但也许摄像头的修复也会解决这个问题,因为他们说要更新调试值,以使用单独的相机引用。所以也许调试值本来应该只是用来显示控件核实被安下,也许他认为那样就能解决问题。 现在我就让他生成一份完整的更新过并修正过的文件,这肯定会花一点时间。 所以在十四分钟二十六秒时,我们确实收到了一个理论上经过更新和修复的脚本版本。 我们现在基本上就直接去测试它在真正花太多时间关注这里创建的任何东西之前,但它确实向我们展示了它已经修复的那些具体问题。这些问题在计划模式下最初被识别为引起我们描述的问题,所以我就把这个放着。现在是测试时间, 我们确实能做到他确实完成了这件事,这其实没问题。 现在我们之所以在那有那个小矩形,是因为他刚把这个设成大约八百乘六百。我们可以让他改成其他尺寸。他确实创造出了一座网格状的城市。当然有一些批评可以给他,但这个 这次做的不仅仅是一个简单的小型网页游戏,他还必须使用我们的参考来确保这些控件被正确映射到它上面。他们确实做到了。 我们就能看到当我们转动方向盘时,汽车确实在倾斜。空间似乎确实是反向的,至少转向是反向的,但这只是一个简单的修复而已。我真的认为现在要做的就是继续用具主动性的编码风格来实现它,因为我们有一个可工作的原型。太棒了哇! 我又切换回计划模式,现在对提供给他的一些额外细节,希望在这款游戏中实现的细节感到更有把握。主要修正转向方向的倒置问题。这并不是什么大问题。 街道有点窄,建筑物又太拥挤,所以我希望地图看起来能稍微放大一点,也许建筑物会少一些,街道会更宽。 此外,我希望天空不是漆黑的,而是淡蓝色。分辨率应该改为一九二零 x。 一 零八零已匹配该游戏正在运行的显示器的原声分辨率, 而且我们现在正处于计划模式。这只是我的意思是我喜欢这个。我很兴奋,我还想再多玩一会,因为他真的太有趣了。 这也是一个本地模型,能够在大量消费级硬件上运行。也许不是 q 八 k, 而且我也没有专门测试过当降到像 q 四 k m 之类的配置时,性能会下降到什么程度?但这对如此规模的模型来说,前景还是非常非常好。 计划模式在这里接近收尾,它只是给我们这张有趣的表格汇总了拟议变更的摘药。正是我让它做的一切。 修正转向,将地图弄得不那么杂乱一点,将天空和的颜色改为淡蓝色。还有就只是修正方向盘的转向。我不记得我是不是已经说过,那个还是没说过。所以我们很快就应该切换到构建模式,然后让它也实现这些改动 哦。另外,将分辨率改为该显示器的原声分辨率,所以我们不会在那个很小的窗口里看到它。虽然这确实给它带来了一种复古美感,但我更愿意看到它是全尺寸的。我们现在已经告诉它去实现这些变更,这将需要一点时间, 所以这些改动大约只花了十三分半钟。我想这很有道理,因为它们都不太复杂。现在是时候跳到街机去看看它看起来怎么样了。 我大概可以在这里重新加载这个文件。 说的太对了, 我在方向盘背面放了一个小小的线位销,确保它不会转的太远,以免电位器坏掉。结果我太兴奋的玩这个游戏,直接把它折断了。 但总体来说,这起作用了真的相当不错。我现在具体该怎么做还不清楚。我差不多想直接以我们现在的进展重新启动这个智能体,并提出一些其他的修改。但说真的,我的意思是,这绝对超出了我原本以为今天我们会得到的预期。 我对这款模型目前的表现相当满意,我想这很可能就要结束今天的视频了。这段视频只是看看我们能在某些智能体检码上把这个模型推进到多远。 我必须说它的表现确实与我最初在测试视频中看到的表现相符。当时我并没有在本地运行它,在那个视频里,我们只是使用了 z 人工智能 api。 所以 我很高兴看到在本地系统上进行 q 八量化时表现的相当不错,因为这将是一个很多人都很感兴趣,想看看它表现如何的模型。 既然拉玛 c p p 的 实现现在已经修复,很多人就可以直接在本地下载这个并开始试用。我觉得你会对它的性能与尺寸之比感到相当满意。就我个人而言,我确实很清楚。 而且我几乎想把它今天产出的东西作为一个包含不同模型的代码库的基础,随后进一步改进,而不是像我们现在这样一开始就用一个非常简单的空仓库。开始我几乎想把它所创造的东西作为一个基石来打造一个功能更丰富的游戏。若你愿意这么说的话, 那么今天的视频就到这里结束。我对这个模型非常兴奋,说实话,看到他把这款游戏做出来不仅很有趣,亲自去玩它才是真正的乐趣,也希望通过屏幕录制本身在一定程度上传达出它的效果,那么这就到此结束。如果你有任何问题,请在评论区留言,谢谢收看!

我这个现在是用的是 oppo 扣的, oppo 扣的呢,他链接的是 gm 四点七 flash, 这个 flash 是 免费的,是智浦。呃,推出的免费的智浦 这个模型呢,确实不错啊,然后他有一系列免费的模型。 呃,我再测试一下这个 g o m 四点七 flash, 它也能携带嘛,但是好像慢一些, 还有就是我也不了解这个 open code 它的工作。嗯,之前呢,我是使用的这个 g o m 四点六呢,它的这个赠送的这个 token, 然后写了一个也是使用奥本扣的写,他似乎没有这么慢啊。嗯,然后我编程序呢, 我是有自己的这个步骤,我喜欢一步一步的提问啊,然后充分的 认识,就是充分的认识我,我这个项目啊,就是要跟着我的认知走,所以说我是一步一步一小步一小步往前进征的,而不是一下提个需求让他去拆解。而这一次呢,我提了一个需求, 就是使用,这是我之前的代码。我,我想我首先问他,这是我以前的代码,分析一下啊,我现在要把这个本地的项链呢改成呢,使用付费的这个, 呃,项链计算呢?付费的项链计算,然后调用 api 啊,该如何做? 他现在给我写了一个 a p i, 一个 word library。 嗯?还写了一个任意吗?写了三个, 我就看到他在无限无,无限的这个他一一直在无限的 无限的思考,然后他的对话都是英文的,我不知道这个欧文扣的他,他的内在机智是什么?他内在有很多字对话吗? 而且是英文的,我看不懂太多了,看了一点点,但是英文不太好。你看这要看他的这个代码, 这个是使用案例,教你怎么用吧,就是用的这个实力对,他写的还不错啊,我觉得他虽然慢了,但是这个代码效率,代码质量。 这吗?那应该可以,我不用记事本看了,我使用一个, 他还在思考,还没有做完。我使用这核心是 api 的, 要用看看使用 vs 扣的来打开看吧, 现在有很多的工具是免费的。就是我想就是使用这个啊, open 扣的, 就打开这个,然后来体验一下这个 open 扣的, 另外呢,在 open 就是 这个。这个 vs 扣的里面呢,我也安装了一个插件啊,这个插件 它使用的是 g o m 四点七,这样呢,就可以你就可以免费使用强大的这个模型啊。这个 g o m 四点七, 它在这个插件里面是免费啊。嗯,可能它的性能更高一点,比这个 flash, 要不然怎么怎么是一个是收费,一个是免费吗?这四点七是收费吗?但是在这个插件里面呢,它可以免费使用啊,搞不懂啊。他们的规则,总之 是有多种途径来使用这个 g o m 四点七啊,就是不需要你花钱的。这个四点七应用在哪里呢?应用在这个 腾讯的酷狗八里里面也有啊,这个 t r a e 的 里面也有啊。 啊,你都可以选择这个 g o m 四点七啊。嗯,他写的这个代码,看看 项链,直接啊,直接运用这个项 链编码,把句子编成这个项链了,句子编码句子为项链, 然后计算两个句子的相似度,查找最相似的句子,需要保存向量到文件, 从文件加载项链密码,自己用于搜索。对啊,这代码写的还是挺规整的。 然后这里就是做了一个项目, 就是把销量管理起来吧,管理起来销量库嘛,然后这个就是使用了,这不都写完了吗?但是他为什么还在循环呢? 这 oppo q 的 他还在思考啊?我不觉,我,我不知道是什么原因, 不知道什么原因,也没有回答,他也没有回答,说写完了,但是他就是不动了,搞不清楚。是这样的,这个我之前呢,使用 glm 四点六呢, 他是赠送的 talking 呢。赠送的有多少?一千万还是几百万?我把那个花光了,那个好像没有这么慢。嗯,这个也是基于项目的复杂度而定的吧, 可能我太跳跃了。我之前呢,因为这个代码我写过了,写过了两遍,相似的功能啊,我写过了两遍,所以说我现在就一次性的给他复杂任务,看他能不能写。嗯, 后续我还是要使用 t r a e 吧,或者是 code 八里来编辑这个 open 扣的。他就是太慢,就是太慢, 直线就是在这个上面。好,我在录屏呢,现在关掉。

不要再当冤大头了,一秒白嫖。智普官方大模型 glm 五点零发布了,四点七 flash 免费了,还能集成到 open cloud, 彻底实现 ai 助手 token 自由。

上海有一家公司叫节约星辰,节约星辰上周发布了一个 vl 的 一个小模型,它是 vl 杠十币的一个模型,这个模型它是比较有特色的,下次有机会我可以给大家介绍一下,因为它是个十币的模型,但是它的性能应该能够达到那个风一千万二三五币, active 二十二币的这个能力的。因为我们经常看有一个 视觉模型的一个榜单,叫 c m u 的 这个榜单,它大概得分目前是八十分左右,应该是很高的。十币的小模型应该是非常厉害,这个模型也是非常强的。

朋友们要看我是怎么配置的,首先我们看欧莱玛配置 host, 因为我的大龙虾在虚拟机,所以开放内网访问权限, d bug 开启方便看日制,等一会会看下上下文,长度一定要填大,当然有些模型限制了, 填大也没有。到现在为止我用的是 g l m 四点七 flash, 其他不用介绍了。接下来就是看日制,看到四零四的时候就知道这个调用有问题, 就要排查链路,开启 devknock, 会有更多的日制信息。再看看虚拟机中大龙虾的配置,首先是 provider, 我 的欧拉玛地址 a p i 没用随便写,本地没有 key api, 这个要说下大龙虾预设了几种 api 请求和返回格式,可以这么理解, 所以我们之前说 deep seek 没有 tools, 所以 报错了。然后上下文和 token 设置大,当然要模型能大才行。我之前用的昆三 v l 冒号三零币只有八千,锁死了之后就是 agent 这个名字为什么是四十七,不是四点七?因为这个是要做锁影屁 点号应该是被过滤了。所以欧了吗?一定要把模型改名,很简单, cpo 的 new 就 可以。接下来就是一定要看日制,大龙虾后台日制可以提供很多信息。

智普 ai 于二零二六年一月二十日正式发布,并开源了 glm 四点七 flas h 模型。一、模型特点一、 混合思考模型 glm 四点七 flas h 是 一个混合思考模型,总参数量为三零 b, 激活参数量为三 b。 这种设计使得模型在保持高性能的同时,也具备了轻量化部署的能力。 二、兼顾性能与效率作为同级别 sata 模型, glm 四点七 f l a s h 为轻量化部署提供了一个兼顾性能与效率的新选择。二、性能表现一、精准测试超越竞品在 sway bench、 vera 5 t two bench、 microsoft com 等主流基础测试中, glm 四点七 f l a s h。 的 综合表现超过了阿里的 qwe n 三三零 b a 三 b t h i n k n g 二五零七以及 openai 的 gptos s 二零 b 在 相同和近似尺寸模型系列中取得了开源 solo 分 数。二、 编程实测表现出色在内部的编程实测中, glm 四点七 f l a s h。 赛前后端任务上表现出色,显示出强大的编程能力。 三、通用场景适用性除了编程场景外, glm 四点七 flash 在 中文写作、翻译、长文本、情感角色扮演等通用场景中也表现出良好的适用性。 三、应用场景 glm 四点七 flash 特别适合需要在本地或私有云环境中运行的智能体应用,如编程助手、智能客服等。 这些应用需要调用各种工具读取代码、执行命令。而 g l m 四点七 f l a s h 既能保持高性能,又不会像更大模型那样消耗大量资源。 四、开源与调用一、开源地址 g l m 四点七 f l a s h 已在哈根 face 和摩达社区等平台开源,用户可以自由下载和使用。二、免费调用即日起, g l m 四点七 f l a s h 将替代 g l m。 四点五 f l a s h 在 智普开放平台 big model c n 上线,并供免费调用。五、部署方式 g l m 四点七 f l a s h 支持 v l l m 和 s g l m 这两个推理框架进行本地部署, 同时也支持直接使用 transformers 库来调用。用户可以根据自己的使用场景和硬件条件选择合适的部署方式。记得点赞关注哦!

就在刚才,千问团队发布了旗下最新的千问三 colder next 八十 b 模型,这个模型的 verified 三一得分达到了百分之七十点六,非常接近 deepseek, 略逊于 glm 四点七 社区已经推出了各种量化版本,这里我就用这个基于苹果 m l x 德六比特版本先来个尝鲜测试。当然如果你是恩卡的话,各种精度的 g g u f 也是有的,推理参数则是用千万默认的。 首先我们试试 svg 动画,画一个小狗骑自行车,顺便我们来看看推理速度, 推理速度是五十三点八七 tokins, 每秒,相当快。下面看看这个代码怎么样,感觉非常一般啊, 这里放出 g l m 四点七的代码作为对比,大家可以自行判断。下面我们看看代码智能体的能力,这里我们用 open code, open code 的 l m studio 显示有问题,实际是调用 l m studio 里当前加载的模型, 然后让我们生成一个手机操作系统模拟器,好,代码完成让我们立马来查看,我自己也没有看到内容,我和大家现在是完全同步的, 这个效果非常一般啊,且这个紫色渐变背景给人一股浓浓的 ai 感,也没有返回功能。这里我放上 glm 四点七 flash 的, 方便大家做一个对比。 下面我们看看 python 六边形小球测试怎么样,这效果也不怎么样,非常卡, 且运行了一会就崩溃了。模型似乎也看到了问题,并直接着手修复代码,结果似乎没什么区别。我们把反馈输入给模型试试,结果似乎没有什么改进。 这里我会放出 glm 四点七 flash 的 python 代码作为对比,大家可以自行判断这两个模型的代码能力如何。

智普 ai 刚刚直接偷加成功, g l m 四点七 flash 竟然时装了 deepseek 最火的 m l a 架构,三百亿参数推理时只激活三十亿, 在苹果 m 五芯片上就能本地起飞, api 还特么全免费,这波操作简直是不给同行留活路啊! 摇完架构,看看实测, g l m 四点七 flash 定位本地编程修复,直接干到五十九点二分,吊打同规模 q w 按三 二零零 k 上下文加持某一架构,把效率玩明白了,开发者们赶紧去薅羊毛。马斯克也兑现了诺言, x 平台推荐算法正式开源,核心全是 transformer, 从筛选、打分到排序,全流程 ai 化, 这对于做社交推荐和流量分发的即刻来说,简直是最高级别的教科书。不仅如此,微软研究院提出了多模态强化学习新范式 egotic verify, 它能像人类导师一样,在 agent 执行任务时进行实时多模态验证, 大幅提升了复杂任务的成功率。 agent 的 自我进化这下稳了。多模态这边复旦系团队摩斯智能上新了这款语音模型,在多项指标上击败了 g p t 四点五和 jimmy 二点零,延迟极低且情感拟人度爆表, 看来国产语音基座也要卷出新高度了。观众老爷们游戏代练要试验了!超参数科技发布 q 塔智能体, 虽然官方还没确认,但最近那个五十一小时台位胜率百分之九十三登顶韩服 lol 的 神秘账号,让大家都在猜是不是它 实时高频决策,思维链全程可见,这才是真正能用的游戏 ai agent。 老黄又在重新定义硬件了,它将存储定义为 ai, 运行内存,推动基础设施物种进化。 这意味着未来的 ai 数据中心将彻底解决存储瓶颈,算力利用率将迎来指数级增长。 聚深智能迎来曙光,三万五千小时训练数据打造的全球最强跨文体 v i a 模型发布,机器人终于能像人类一样理解跨场景、跨形态的指令,通用机器人的安卓时刻真的不远了。没数据怎么办?合成啊!拎邦迪卡拎开元,支持百分之一百生成式数据 自动训练聚身模型。这种以虚促实的方案,彻底解决了机器人训练数据荒的难题。开源社区 y y d s 资本市场也疯了, ansorpik 和 x i 前高管创办的休马斯斩获四点八亿美金种子轮主打以人为中心的 ai, 这帮顶级大佬聚在一起,怕是要直接挑战 openni 的 霸主地位。最后看看国内 mini 发布 ai 原声工作台 agent 二点零打通本地语音端, a 阵子能直接读你硬盘里的合同表格,还能操控网页办公。这哪是实习生,这简直是数字合伙人!从智谱的 m l a 架构到巨深智能的数据革命,两千零二十六年的技术爆炸才刚刚开始。想在 ai 浪潮里不掉队,记得关注天天降,咱们下期!

朋友们,我给你们速度测试一下 cloud 的 最新的这 cloud code, 最新支持的这个 agent teams, 我 们看一下版本是最新,要升到最新的版本。你的这个 cloud 目录里的 settings 点 jason 看到没有,这个要设成一。好吧, 我们来启动。我先测第一个 g r m 四点七。我的 prom 就是 创建一个 agent team, 调查一个人,调查本地代码,一个调查 pr, 还有一个调查其他的 ripper。 好 吧, 我们来看一下效果,它能不能启动,看看到没有,这就是启动的特点。现在启动了两个了,三个 看到没有?每一个是不同的,我们再回到主的。好吧,这是智普的 gim 四点七,我们现在再启动一个 kimi, 还是同样的 prompt, kimi 是 不是用的人多,是不是好慢,搜一下它是啥再去启动,也挺聪明的,看 提米,提米 k 二点五也可以了,也是支持的。好,我们关了,我们继续来测。我们现在测的是 mini max m 二点一,还是同样的 prompt, 他 先搜索了一下,找到了我的项目,我在克隆到本地了, 这不遵循指令吗?好了,他现在准备开始启动了,出错了,他现在启动的是 task, 我 们再给他一次机会,他这次直接启动,看看是不是看这次好了,有时候会出错 哦。 mini max 也是成功通过,我们现在有 coding plan 的 这三个主流的模型,一个是 g l m 四点七, kimmy k 二点五, mini max m 二点一都是能启动这个 agent teams, 但是本地部署的小模型目前我还没有试验成功。刚才那个 g l m 四点七 flash 我 也试了一下,也不行,我就不给大家演示了, 这个我后面再测一下,明天再试试,什么 g p t o s s 之类的。好了,谢谢大家。