粉丝1.1万获赞13.1万

智普于二月二十一日发布 g l m coding plan 致歉信,并公布处理和补偿方案。智普介绍, g l m 五发布后流量超出预期,公司扩容节奏没有跟上,不得已将 g l m 五按照 max pro lite 的 顺序逐步开放。 目前 max 用户已经全面开放, pro 用户虽已开放,但高峰期可能会因集群负债较高遇到限流, lite 用户将在节后非高峰期逐步灰度开放。针对受到影响的 lite 和 pro 用户,公司支持自主申请退款。

ai 扫盲什么是 g l m? g l m 是一个通用语言模型,它通常指的是一种大规模的预训练语言模型,用于处理和生成自然语言文本。 g l m 模型通过在大量文本数据上进行训练, 学习语言的模式和结构,从而能够执行多种语言任务,如文本生成、问答、翻译、摘药、情感分析等。 g l m 模型通常基于 transformer 架构,这是一种深度学习模型,特别适用于处理序列数据,如文本。 transformer 模型通过自注意力机制来捕捉输入序列中的长距离依赖关系,这使得 g l m 在处理复杂语言任务时表现出色。 g l m 模型的应用非常广泛, 他可以用于提升各种自然语言处理任务的性能,同时也为研究人员提供了一个平台,用于探索和开发新的算法和技术。 随着计算资源的增加和算法的进步, g l m 模型的规模和性能有望继续提升,为人工智能领域带来更多的突破。

大家好,我是牙医,没想到 g m 四点七发布后,仅仅时隔了一个月,智谱又发布了 g m l 五,废话不多说,让我们开始测试 来看实际的测试结果啊。这次新引入的边框大鱼缸这个设计,这个设计出呢,我是想打算测试通过编程实现四种不同的粒子效果模拟,包括水滴,碎屑,烟雾、气泡,而且还是粒子混合在流体中的复杂场景,越符合大家的直觉,证明模型的编程水平越好。 可以看到这个折运效果还是欢迎的不错的,与新出的 club 四点六几乎没有什么区别,不过液体受到冲击的运动,这个效果还有一定的差距。鞭炮连锁爆炸测试, gm 五 比 gm 四点七提升了很多,首先指令遵循这个有了很大的提升,比如提示词中要求高度为五,每组升成十个鞭炮,总计升成十组鞭炮自由落体,但是 gm 四点七把高度五给忽略了,以及本次的视觉效果 有了相当大的提升。 g r 五的玻璃箱子效果,色调映射还有补光,这些都让场景有了电影级的画质提升, ui 设计也有巨大的提升。细节上, g r 五使用了 c s s 变亮,富有科技感的自定义字体,这些都是四点七版本没有的拍摄。杯子倒水测试这个提升也不小, g r 五实现了独立的顶点碰撞函数,并且在主循环中对所有的角点都进行了检查, 防止粒子掉出去。而 gl 四点七没有进行脚点的碰撞检测,这样我们就能在实际测试中看到这个 gl 五的杯子在倾倒的时候, 粒子更不容易从杯子中间漏出去,以及啊,视觉也有提升,很难想象一个纯二维的演示视觉效果会有什么提升,但是没有错,还是有提升的。 gl 五给每个粒子都加了一个模拟三 d 的 高光效果, ui 呢,也提供了进度条、帧率、闪视状态信息和多种快件的操作。不过 gm 四点七有一个优势啊,就是默认他就用了空间网格哈奇算法,这个算法能显著提升粒子的碰撞检测性能,所以动画上 gm 四点七会更流畅。而 gm 五是知道这里有性能瓶颈,只不过他认为四百个粒子还好,但实际上这个最差的情况每针都会有十六万次的碰撞检测,所以还是要上油化的 大象牙膏测试。 gm 五使用了六十段的吸粉点还有指数曲线来模拟这个锥形瓶的形状,还精心制作了瓶口的这个唇边效果。当然成也精细,败也精细,锥形瓶的瓶身搞成了抛物线,所以不得不说美学是有提升的。 这个叶面下降效果也很好,因为剑玩舞每次叶位变化的时候都会重新创建这个几何体,然后就能精确匹配烧瓶内壁的曲线,实现了叶面高度下降的时候液体的底部不动这样的一个正确的效果。接下来是常温本召回能力测试, 这次的召回水平更是摧枯拉朽了,各个长度的召回都在百分之九十八以上,相当可用。不过这次有点问题,来看这个题目,哈利波特释放钻心弯骨咒,贝拉特里克斯的表现是怎样的?我们给到 ai 的 选项是, a。 疼得满地打滚 b。 撞倒在地。 c, 我 欺哈利波特老无力, d, 没有大意,成功闪了。我测试了两次。当我给模型小说原文的时候,模型正确找到了原文中的描述,这个咒语把贝拉特里克斯撞倒在地,他尖叫了一声,但是很快就站了起来,所以我们应该选 b 撞倒在地了。但是当我不给模型原文的时候,就只问这个问题啊, 模型竟然精准脑补出了小说的英文原文。于是我在专门没有原文参考的情况下,把所有问题重新测了一遍,结论是,这样召回水平还能有百分之五十一点四,四选一啊,蒙对了一半,这个就有点高了,所以本次常规召回能力并不是很自信,建议官方考虑一下训练语料的问题 来招 a 阵能力测试仍然是我们让大墨行模拟外卖骑手来送外卖。考虑到之前 g r m 四点七已经是这个测试的最高分了,所以本次 我把单位时间内系统生成的订单量增加了五倍。这次 gm 五的测试得分是七百三十八点六九,作为对比 gm 四点七是五百七十一点九一,又刷新了测试的最高记录。那么提升在哪里呢? 我在分析所有数据的时候发现了一个细节,四点七版本在第一百九十八轮就宣布了任务完成,这个时候它的利润是四百三十七点八八,而系统提示它继续。于是 gm 四点七又工作到了第二百五十九轮, 这时候利润达到了最高分五百七十一点九一,然后他就再次开香槟就不干活了。作为对比 gm 五,他只有在二百七十七轮的时候庆祝了一下,说我突破了七百元利润大关,然后就继续干活了。 这种差异是为什么呢?因为 gm 五每次在对话中都会跟踪剩余的对话轮次,这个是四点七版本,从来没有做过这个模型的原认知提升啊,直接解释了为什么 gm 五能够持续工作到第三百轮,因为他很清楚知道自己还有多少轮可以用了。 那么为什么他中间还停了一下,因为他甚至给自己定了一个小目标,俺要突破七百元大关。于是在突破了七百元之后,他小小的庆祝了一下。 总结,这次健马五在各个方面都带来了肉眼可见的提升,编程也在各个细节上都有优化,本身很强的 agent 的 能力上呢,进一步采用了一些自主意识 来提升性能。遗憾的是,本次的长文本召回能力测试分数执行度不是很高。不过这点也不用担心,因为 agent 的 测试运行的时候也要用到超过一百 k 的 上下文,这样就考验了上下文的能力, 所以召回性能还是没有问题的。另外这次在视觉效果上和美学上也有显著的提升,比如这次他就有一个小偏好,演示中他很喜欢用这个充满科技感的 o b 闯字体,是不是感觉很不错?以上就是本期的测试, g m r 五这么猛,我很期待接下来的 g m r 五 v 了,我是牙医,我们下期再见!


嘿,朋友们,你们看到了吗? g l m 发新模型了,这个 g l m 四点七 flash, 我 早上非常兴奋,一起来就去搞了一早上才部署起来,然后因为他们官网现在速度很慢嘛,所以我就部署了一个 f p 八的版本, 哎呀,我真的好兴奋啊,这个模型我之前测过,千万的三十三十 b 那 个 code 模型连接 clock code 确实跑起来了,但是 那个时候吧,还不太能用,但是现在这个时候不一样了, glm 他 们家自己有 coding plan, 他 们有大量的这个跟 cloud code 兼容的一些数据,所以我当时我就觉得这个模型肯定会很好用, 结果我试了一下啊,哎呀,还真别说,真的可以,我做了一个,当然我这个测试比较简单,用这个特别简单的场景啊,就是我这个每次发视频不是有一个 ppt 生成器吗?用这个我自己做好的 skill, 然后这是我的脚本,然后他就是先帮我教稿,然后调用我的这个 skill 里面的一些工具生成一个脚手架,然后他给我去填充,填充出来一个什么样,对吧?嗯,你看了我昨天视频,我就拿昨天那个视频那个稿试了一下,哎,你别说 还可以,还可以,真的,当然我觉得这就是这个三十 b 小 模型的一个很好的一个场景,就是你把 skill 做好,大部分 流程都固定,然后 ai 只是在这个过程中调用调用,然后给一些参数,给修改一些什么东西,这样这种小模型只要他能很好的使用 skill, 他 都能把这些就是我觉得在本地会运行的很好。 怎么样?虽然说我觉得没有我那个版本,昨天发那个版本好看,但是我觉得 可能它配合 skill 还真的会有一些很不错的场景出来。我今天下午继续测啊,我准备拿它试试看能不能写一个 skill, 因为我的感觉就是它这个模型就是因为 skill 都是很小的脚本嘛。 那我觉得这样的模型肯定能写。就是然后如果他有一种确认的方法能把这个脚本确认成的话,我,我感觉是有戏的,所以 等我的等我的测评啊。我我争取如果能行的话很好用的话。我出一个测评,好久都没测评了,真的很好。 jim 这次不错啊。

十二月二十四日,据优克德公众号消息,公司战略合作伙伴智普上线并开源 g l m 四点七优克德模型服务平台 u modelverse 已完成部署并正式上线。

由于我的 ipad 内存不够了,所以无法开箱系统了。但是我可以用电脑开箱啊,用的是 virtualbox, 现在就开箱。 windows xp 创建虚拟机过程不演示了,十倍速快进。 下一步这里自己填。 下一步 依旧需要等待下一步 重启了。 问题了,把挂在的镜像 卸。 ok, 现在正片开始 进入系统了,还是老样子,先调个分辨率,你手机的分辨率也该调了,看一下系统占用,依旧上不了网。有请我们的老朋友,蜘蛛纸牌 不行台太难了,这期到这里。

这里就直接跳过模型简介了,不知道什么是 glm 四点七 flash 的 小伙伴可以去主页看我上一个视频,我们直接进入测试部分,目前排行榜和打分标准可以暂停自取。 这里我使用的是基于苹果 m l x 的 巴比特量化版,上下文拉到十二万,此时的显存占用是三十一点八四 g b。 所以 如果你有一张五零九零的话,你也可以在在几乎无损精度的状态下推理 glm 四点七 flash。 模型精准方面, 开元可以本地部署,上下文是二十万二千可以得四分,多模态得零分。中文创意写作方面得分是四分、七分和八分。英文创意写作方面得分是六点五分、八点五分和九分。 不知道为什么, gemini 三 pro 老是说字数严重不达标,但是不管英文还是中文, glm 四点七生成的字数都达到并超过了要求。我们把字数正确信息输入给 gemini 三 pro, 看看得分是多少。修正字数后, gemini 给了英语八点五分,中文六点五分。 下面是应用文的写作,得分是九点五分、七分和九分。然后是以餐厅经理身份回复并降级,该投诉得分是七分、六分和八点五分。 哈哈,看来 g i m 不 太会做乙方呦。文科问答结束,目前得分三十五点六分。下面进入理科数学部分,得分是十分、九分和九分,物理的得分则是十分、九点五分和九点八分。 我们顺便可以看一下巴比特量化下的推理速度,这里是四十三点一五 tokins 每秒。 至此,问答部分结束, glm 四点七 flash 暂时得到了五十四点七分。 下面是 glm 四点七 flash 的 优势项目了,那就是写代码。首先是生成一个提壶骑自行车的 svg 动画代码,最终呈现的效果只能说是一般,可以看出提壶,但是自行车就看不出来了, 动画播放也不正确。看在这个题胡还算不错的份上,我可以给个五点二分。 cloud opus 则是打出了七点五分。最后是重头戏的代码智能体部分了,首先是生成一个 html 网页,手机操作系统模拟器,并且有可以互动的 app。 哇塞,这个效果相当可以啊,画面美观,动画效果丝滑。除了返回按键不能正常工作外,其他所有的 app 都可以正常打开,并且没有明显的 bug, 这个效果我可以给六点八分。 cloud office 则是打出了七点五分,并指出了返回功能的问题。最后是拍自六边形小球代码 pro max 版, 这个效果也相当不错啊,可以改变重力方向,库伦力和科士力也有六边形,速度也可以控制运行,也是六十帧,唯一的瑕疵就是这画面闪个不停,不过整体非常不错,我可以给七点五分,可 loft opus 也给了七点五, 并且指出了造成闪屏的原因。最终 glm 四点五 air 的 七十七点六分。 从得分的分布来看,主要是应用文写作方面的差距,去掉上下文和多模态。单看模型性能的话是七十一点八分,和 cloud 斯斯 night 持平。 单看代码能力的话是二十一点一分,超过了 cloud 斯斯 night 和 deepsea 满血版持平。单把所有测试过的 glm 系列模型拎出来的话,四点七 flash 也可以排到第三, 上面是体量更大的 a 二和满血版四点七,把所有测试过的三百亿参数量的模型拎出来的话,四点七 flash 则是断层式的领先,通杀所有同体量模型。总结一下, glm 四点七 flash 可以 说是众望所归,目前最强的三十倍体量模型,通杀所有同级别对手,且在代码能力方面和 cloud 四骚奈特看齐。这是一款里程碑式的模型,一款真正的可以离线运行的代码智能体模型。