你现在看到的国外艺人公司大神单口分享的这一切内容,就是我用 kimi 制作的,他不仅可以改文字改内容,对整个设计风格不喜欢,还可以让他给你重新换一套设计风格。 事情的起因是我前几天看到一个博主在分享老罗和成免的播客做的 ppt, 内容很精致,思路很清晰,结构明了。我看到评论区大多数人在问 ppt 是 怎么制作的,有人说是 gemini, 我 就按照老办法把播客的内容通过剪映字幕识别先导出来,丢给了 gemini, 虽然也做出来了,但和我的预期还是有点差距,让他重新修改。三个小时过去了,还在转圈,所以我就想到这两天更新的 kimi 试一试。你现在看到的就是用 kimi 所出的效果,三个小时的播客内容,不到三分钟就可以做成了结构清晰的高颜值 ppt。 话说我自己本身也是一名 u i 设计师,这种内容在以前没有半个月的工期是做不出来的,更何况是这种设计感。 然后我又把国外大神单口在推道上的万字长文丢给了 kimi, 输出很稳定,结构清晰,设计的层级感也特别的清晰明了, 一点也不比三年设计师做的差。如果你不喜欢这套风格,还可以换一套,也是完全没有问题。导出的格式是完全的 ppt 格式,你在后期去更改也是完全没有问题。 你以为这就完了?我在想能不能通过一个视频链接,让他给我生成同样的 ppt 内容。刚开始看到调取失败,我以为完了,可能不太行,直到后来重新调取就有了。现在的内容直接 以代码的形式给你写成 ppt, 最后我还告诉你如何查看内容结构,也是高质量产出。你想了解哪个知识博主的视频内容,完全可以通过这样的方式进行二创。后来我还用他做了弊端的数据调研,让他给我做成网站, 仿照这张图出一张完整的 ui 界面。看到效果,这下我知道我的 ui 职业生涯真的结束了。无论是动态还是界面的设计,以我六年工作经验的 ui 来干这些内容至少也得两周时间,而你现在只需要提出你的需求就可以完成。 kimmy 的 能力远远不止这些。后来我发现这个博主分享的案例直接很震惊,效果的稳定性突出我的意料。一百张皮克斯风格的动画风景内容,五十张都能保持高度一致,而且每张都有故事描述。 还有就是他对于 ai 的 提问确实值得我们大多数人学习,一个提问能让四个 a 政的帮他同时干活,最后输出的结果质量非常高,而且是有理有据。 后来我也思考了他对 ai 的 提问和我对 ai 提问的方式。我深刻反思到,现在 ai 其实已经做到了技术评权, 评权的关键在于会提问, ai 提问的核心在于你发问的技巧和想象力,能通过 ai 创造出什么样的产品,这个才是我们应该学习和去训练使用 ai 的 一个核心点。
粉丝1064获赞9157

大家好,我是紫玲。半年前,我们发布了 kimi k 二第一个万亿参数的开源模型。后来我们又推出了 kimi k 二 thinking, 通过增加思考时间,提升了 a 阵解决长城任务的能力,它可以独立完成长达三百步的思考,与工具调用交替操作。今天我们推出新模型 kimi k 二点五, 它是我们目前最强大的模型,在 a 阵编程、视觉和各种通用任务上都表现出色。更重要的是, k 二点五是一个开源模型。 k 二点五在极具挑战性的 a 阵评测中取得了当前最佳表现,包括 h l e browse com、 deepsearch、 q a 等等。同时,它的编程能力也非常强,我们不光是想让 kimi 会写代码,更希望它具备设计审美,它能做出那种像专业设计师出品一样有高级审美和动效的网页。 k 二点五通过视觉能力把编程的门槛真正降了下来, 直接传个录屏给他, k 二点五会用干净专业的代码把它从头到尾复现出来。除了前端设计, k 二点五在软件工程上的表现也非常好。这里我们要介绍我们的新的编程产品, kimi code 支持输入图片和视频,它还能自动发现并把你现有的技能迁移到当前 kimi code 的 工作环境里。接下来看一下办公场景。为了让 kimi 真正融入大家的日常工作流, k 二点五已经开始熟练掌握 office 套件的核心技能。不管你是要搭建复杂的财务模版,或者是制作一份咨询公司级别的 ppt, 我们希望把这种专业能力赋予给每个人以前那些得花好几天才能搞定的任务,比如说把五十个不同部门的报告合并起来, 或者把一篇三万字的论文编成一份精准的 ppt, 现在可能只需要十几分钟就能搞定。在 k 二点五上, 我们从单个 a 政进化到了 a 政集群,同单个专家进化成了一个专业团队。在一项复杂的任务中,我们不再让一个 a 政去包揽所有的需求,而是 k 二点五会创建并协调一大群专项 a 政并行工作。这些专项 a 政本质上都是 k 二点五的分身, 但是他们各自承担着不同的角色和子任务,没有任何预设的规则,所有的角色分配和任务拆解,都是由 k 二点五现场及时决定。在这个例子中,我们给 kimmy 投喂了四十篇关于心理学和 ai 的 论文。 他先通过多次调用工具,按顺序把这四十篇论文通读了一遍,以此确保上下文里保留了完整的、必要的信息。 紧接着,他衍生出几个子 a 证,本质上就是把 kimi 复制了很多份,每个 kimi 分 别负责不同章节的书写,最后主 a 证负责把关验收,把所有的内容汇总,生成了一份长达几十页的专业 pdf 报告。 a 证集群的并行处理能力,大幅缩短了复杂任务所需的时间。比如要做一百家公司的市场调研,他能指挥一群不同行业背景的分析师分头行动,十几分钟出结果,而不是几个星期 面对三百页的复杂翻译项目。比如完整翻译一本书,他能动员一个语言学专家团队快速准确的完成交付。如果要综合分析五十篇学术论文,他会派出五十个资深研究员进行分析,并且快速生成一份详细的综述。 a 阵集群的规模化训练在技术上是非常有挑战,为了解决这个问题,我们重构了整套强化学习的基建,并专门优化了针对性的训练算法, 以确保它能达到极致的效率和性能。以上所有的新能力都汇聚在 kimi k 二点五这个强大的开源模型。从今天起,大家就可以在 kimi com 或者 kimi app 上使用 k 二点五模型。对于编程用户,我们推荐你把 k 二点五和 kimi code 的 搭配使用。 企业和开发者则可以通过 kimi 开放平台调用 k 二点五模型的 api。 欢迎大家来体验 k 二点五模型的新能力,期待听到你的反馈,谢谢!

问你一个问题,这两个网站你觉得哪个做的更好?这个是我上传一段视频和提示词,让 gemini 帮我做的网站。这个是我用同样的视频和提示词让 kimi 做的网站。仔细看这个视觉和交互,你更倾向哪一个? 如果对比不够明显,我们可以再看一个案例,比如这两个。这里我让他们帮我做的是一个宠物电商网站,但我发现 jammy 理解成小猫视角了,好的,我就当他是在卖萌吧。而 kimi 则精准理解了我的需求,视觉和交互也不错,甚至还能添加购物车,这让我有点意外。 说实话,就在 kimi 的 这波更新之前,我觉得 jimmy 在 审美做网页这块完全没有对手。但现在先不说 kimi 有 没有超过 jimmy, 至少作为国产自研大模型, kimi 让我看到了国产的实力。输入简单的一句话,上传一个参考图和的视频,他就能把你喜欢的网页复现出来,同时效果还非常惊艳, 甚至输入纯文字,他也能稳定发挥。这期视频我们就通过几个实操来一起感受一下,也顺便给大家提供一个保姆级教程。 首先我们可以先来做个简单的东西,一句话让他帮我做个小游戏,比如前段时间很火的萝卜紫金猫的热梗。这里我们就直接打开 kimi, 点击左侧的网站,然后给他输入这句话,帮我做一个前段时间很火的萝卜紫金猫的网站,让他自己去理解我想要的东西以及互动效果。很快他就给了我答案。 随后我忍不住试玩了一下萝卜,真棒!我发现他不仅做出了小游戏,甚至还加了表情包以及梗百科,太有意思了。不得不说, kimi 真的 有点东西, 甚至我让他复刻一个千禧年风格的 qq 网站,他也能做到。就像这样,还是在刚才的界面,点击左侧的网站,在这个加号这里选择文件和图片,上传这个 qq 千禧年风格的视频,并输入这段提示词。等待了一会之后,他就给我复刻出来了。 这里我们可以看到它完美复刻了我要的风格。在这里,我可以更换头像,可以改名字,也可以跟朋友聊天, 还可以更换我的 qq 秀。怎么样,有没有勾起你曾经的回忆? 当然,我们也可以通过图片生成网站,比如这个案例,我有一张喜欢的鎏金花鸟的图片,我想用它的风格来做一个四合院酒店的官网。这个时候只需用同样的方式 把这个图片直接丢给他,再配上一句大白话,帮我根据这个图片的风格做一个四合院酒店的官网。随后他就会立刻识别图片的内容风格,再读取技能。文件开始生成,几分钟之后,就生成了一个风格一致的网站,他有完整的菜单栏,而且仔细看这个界面和交互的效果。 说实话,任何人都不会想到这是用 ai 做出来的效果。除了前端交互视觉,通过这几个实测案例,我们还发现 kimi agent 的 思维其实就像一个产品经理一样,他会先仔细查看你上传的参考图和视频,认真理解,然后开始规划思考,列出代办事项,在设计用户界面与用户体验,最后进行开发与构建。在网站生成之后,所有文件都可以下载,也可以二次编辑或管理,就像这样。 总体来讲,我认为 kimi 的 这次更新是国产大模型的一次里程碑式突破,它让 ai 的 审美上升到了一个新的高度,也让开发小白不再被专业的技术门槛束缚,让我们普通人也能借助 ai 来实现创作落地。

这个 kimi k two five 一 出来大家就炸了,就觉得,哎,这个东西可能会让 ai 真正的变成一个人人可用的一个工具,就真的是那种 就每个人都可以用的感觉,就好像每个人都可以当老板啊,就这种感觉。咱们先来聊第一个部分,就是这个效率飙升利器, agent swarm 智能体集群。 首先第一个问题就是这个东西到底是怎么帮我们提高任务处理效率的?这个就相当于说原来的那个 ai, 它是一个人在干活,现在它是可以分身成最多一百个 agent, 然后去并行地处理这个事情。它的这个工具调用次数也可以达到一千五百次。 它是我们目前最强大的模型,在 a 阵编程、视觉和各种通用任务上都表现出色。更重要的是, k 二点五是一个开源模型。 k 二点五在极具挑战性的 a 阵评测中取得了当前最佳表现,包括 h l e browse com、 deep search、 q a 等等。 同时他的编程能力也非常强,我们不光是想让 timi 会写代码,更希望他具备设计审美,他能做出那种像专业设计师出品一样有高级审美和动效的网页。 k 二点五通过视觉能力把编程的门槛真正降了下来, 直接传个录屏给他。 k 二点五会用干净专业的代码把它从头到尾复现出来。接下来看一下办公场景。为了让 timi 真正融入大家的日常工作流, a 二点五已经开始熟练掌握 office 套件的核心技能。不管你是要搭建复杂的财务模型,还是要处理专业的 pdf 排版,或者是制作一份咨询公司级别的 ppt, 我 们希望把这种专业能力赋予给每个人。以前那些得花好几天才能搞定的任务,比如说把五十个不同部门的报告合并起来, 或者把一篇三万字的论文编成一份精准的 ppt, 现在可能只需要十几分钟就能搞定。就这个 agent swarm 和 传统的那种 ai 的 最大的区别到底体现在哪里?就最直观的就是它不是一个人在干活了,它是一个集群的智能体,它可以并行地去处理这个事情,然后它也不需要你去提前定义好每一个步骤, 它会自己去分析这个任务,自己去拆解这个任务自己去调度,等于说就彻底把用户从这个繁琐的流程当中解放出来。没错没错,而且就是它这个 kimi k two five, 它是 自己通过这个 p a r l 就是 并行智能体强化学习,然后自己学会了怎么去协调这些子 agent 的。 所以他在遇到一些大规模的复杂的任务的时候,他会比这个传统的 ai 快 非常多, 而且他也会很稳定的去输出这个结果,所以就是人类用户就只需要说提出我要干什么就行了。这个 agent swarm 到底能在哪些实际场景当中发挥它的威力呢?比如说你要在一百个不同的领域里面 去筛选出 top three 的 创作者,然后他可能几分钟就给你整理出来一个非常结构化的结果,就这种速度确实很夸张。还有就是比如说你要做一个呃几十篇论文的这种文献综述,他也可以帮你很快的就分好工写好。然后包括你要做一些这种 市场分析,或者说这种产品开发的一些多步骤的这种项目,它也可以就是自动的帮你拆解成一个个小任务,分配给不同的 agent 去做,就会大大减少你这种人工的繁琐的操作。 ok, 对, 对,它的这个在一些权威的测试里面的分数已经超过了很多 同类的这种开源的或者闭源的这种大模型。对,所以它的这个性价比和它的这个实际的能力都是非常让人惊喜的,这个生产力平权啊,真的是离我们越来越近了。好了,那就是这一期节目咱们就到这里了,然后感谢大家的收听,咱们下次再见。拜拜。

杨志林终于带着 kimi k 二点五回来了。说实话,这次他们带来的不只是模型升级,而是一个全新的玩法。 最让我觉得离谱的是这个智能体蜂群。咱们平时用 ai, 基本上是一个人帮你干所有事,但 k 二点五不一样,它能自己指挥一百个小帮手同时干活,他们管这个叫并行智能体强化学习。 举个很直观的例子,你想找一百个不同领域的头部 youtube 博主,现在 k 二点五能瞬间裂变出一百个子智能体,有的专门搞物理,有的专门搞人类学,分头去搜,最后把结果汇总成一张完美的 excel 表。 这个过程完全不用人工干预,全是 ai 自己安排的。效果有多夸张,端到端的运行时间直接缩短了百分之八十, 这效率基本上就是一个人就是一个团队。再说说代码能力,这次 k 二点五相当于给代码装上了眼睛。以前写代码得靠猜或者靠描述,现在 k 二点五能直接看视频写代码,官方演示里给他看个迷宫图,他自己识别哪是路哪是墙,脑子里构建出节点,然后直接写代码,跑出最短路径。 甚至你给他一段明画的视频,他都能把那个网站的前端界面还原出来,还能自己修 bug。 这种看图写马的能力,说实话比很多初级程序员都要强。 这背后是 kimi k 二点五吃了十五万亿的视觉和文本混合数据,硬是把视觉和文本给打通了。大家最关心的钱的问题, k 二点五这次也把性价比拉满了, 跟 gbt 五点二比一比。在浏览器综合测试 browse com 里, k 二点五的成本只有人家的二十一分之一,也就是省了二十多倍的钱,但分数反而更高。在号称人类最终考试的 hle 上,他拿了五十点二分,比 gpt 五点二还高,成本却只有对方的十分之一。 花小钱办大事,这才是开源该有的样子。除了这些,炫技的 k 二点五在干实事上也没落下。写一万字的论文,做百页的 ppt, 在 pdf 里手搓复杂的数学公式它都搞定。在内部的办公测试里,它比上一代 k 二 thinking 强了快百分之六十。在 ocr 识别、长视频理解这些硬核活上,它的数据也是全面碾压 gpt 五点二和 cloud。 总的来看, 从自我指挥的蜂群协助到看视频写代码, kimi k 二点五这次是真的用数据证明了开源模型不仅能打,还能把币源顶级模型按在地上摩擦。这种净化速度,你们觉得咱们普通人的饭碗还能端稳吗?评论区聊聊。

这是原始网站,这是 kimi k 二点五的克隆效果。大家好,我是鸭。一月之暗面刚刚发布了新模型 kimi k 二点五,最重要的更新是它是一个统一模型, 不仅支持文本输入,还支持了图片和视频输入了。以往大家想要克隆有动画效果的网站,只能截图描述,现在只需要像我这样录一段视频塞给他就可以实现了。那么 kimi k 二点五的性能怎么样?让我们开始测试。 首先我们来看多模态测试, 我们给他一个 unix 操作系统的发展历史图,让他照着写一个网页,可以看到成功实现了,而且各个部分还原的效果都不错, 不过呢,有些地方有重叠。接下来我们给他一个 apple 收入构成的商机图,让他也照着写一个网页,可以看到元素都还原了,但是它比例有些大,然而这已经是 so 它了。这个是 geminis 三 pro 的 效果,大家可以对比一下。来到重头戏, 如果我们遇到了有动画效果的网页,这时候我们就可以录个屏,然后让他实现。这个呢就是我实现的效果。大家可以看到,无论是这个小行星带,还是鼠标让陨石弹开乃至滚动切换,都还原的很不错。 当然也有还原不太好的地方,比如原始网页滚动的时候,这个图片是像柔性材料一样会弯曲的,这个没有实现,但是在现在效果我觉得打八十分是没有问题的。再来看编程能力测试,大象牙膏测试,这个真的收它了,看看这个粒子效果,三角烧瓶的建模,瓶内液体的光影 太猛了,而且他这个喷发的泡沫是有随机性的,不是固定的,让我们再欣赏一遍 鞭炮连锁爆炸测试,由于之前效果就已经很 so 塔了,碾压了别的模型三个赛季,所以这次并不能看到太大的提升。在我测试过程中,它有一次生成了动态光源,注意看这个火光。不过这个存在性能问题。 我看了下代码,主要问题还是鞭炮催泄的粒子太多了,以及动态创建的对象太多,导致 g c 压力过大。当然动态光源也会存在性能问题。拍摄杯子倒水测试,这个就太猛了,直接追 cloudsonnet, 甚至在他的杯子底部没有增加斜边的情况下,实现了侧面滴水不漏,但 代价就是性能有问题。我同样呢也看了下代码,主要问题在粒子碰撞检测的时候,时间复杂度是 n 方的,我们总计有四百个粒子,那么每一针的检测次数最高能达到八万次,计算极致的效果,带来了极致的卡顿。 这里其实可以用空间网络划分来优化,即只检测临近的粒子,如果两个粒子八杆子打不着,那我们就不需要检测。于是我让 kim k 二点五使用空间网络划分又优化了一下,这个呢,就是优化后的效果, 可以看到即使四百个粒子他也不卡了。最后是头盔轮机芯测试,这个主要考验模型的建模水平和空间理解,比如齿轮有没有正确的旋转,琴动机构对不对?注意看这个琴动机构的齿轮,甚至是斜齿,非常的 nice。 本次新模型官方也对 agent 能力进行了优化,所以我使用自己编写的归机骑手测试也测了一下,这个测试是给大模型提供十四个函数,模拟外卖骑手取餐送餐,看模型最终的盈利情况,借尔判断模型使用库进行大型任务规划的和实施的能力测试运行了四十分钟,总计消耗了一千万头 衔最高分数是五百四十九点七七, glm 四点七,扣顶是五百七十一点九一, 但这个 agent 能力完全是处于第一梯队的,可以胜任复杂的 agent 任务。再来看长上下文和召回能力测试,同样使用我自己编写的霍格沃兹测试, 这个测试使用哈利波特小说原文加针对原文的问题进行提问。首先很多同学质疑,大冒险肯定练了小说,先别急,我们先不给 k m k 二点五小说原文直接问他问题,看效果,测试结果是它的总体准确率只有二十二点五,四选一的情况下不到百分之二十五,这个运气也太差了, 要我我就全选 c, 可以 看到正确率波动也只在百分之二十五上下徘徊,这是完全没练过小说原文的体现。然后再来看测试出来的召回效果,相当不错,均值都在百分之八十五以上。不过在我测试的时候发现了新问题,貌似模型的审查很严格, 使用小说提问的时候经常会误判为敏感,导致召回效果下降。这个图是出现误判的情况,这一点我已经反馈官方了,目前官方已经在修了。总结这次 kim k 二点五的编程能力, 在算法准确度以及性能上仍然能看到不小的提升,尤其是拍摄能力直接是一体,对 a 帧的和长上下文召回能力也完全在线,不过需要注意审查问题以及本次重要的更新。同时支持了图片和视频模态。我甚至已经想好场景了,做一个摄像头的 m c p, 让他帮着我盯着屏幕干活。以上就是本期测试的全部内容,您的支持就是我创作的动力,我们下期再见!

月之暗面 kimi 重磅升级,全新 k 二点五模型震撼发布,多模态能力颠覆想象, ai 进化再提速!一月二十七日,月之暗面 kimi 正式发布并开源 kimi k 二点五模型,官方称这是迄今最智能、最全能的版本。 新模型采用原生多模态架构,支持视觉与文本输入、思考与非思考模式对话与 a 政治任务实现全面突破。 kimi k 二点五显著提升了开源模型的代码能力, 尤其在前端开发领域,用户仅需自然语言对话,即可生成完整前端界面,甚至上传录屏后模型能自动拆解交互逻辑,并用代码赋现,大幅降低编程门槛。另一大亮点是从单一 a 帧升级为 a 帧集群, k 二点五可动态调度一百个分身,并行处理一千五百个步骤,助 a 帧负责最终结果验收。目前提供四种模式,快速响应、多轮思考、文档解读、集群处理。同步更新的还有会员权益体系, 免费用户每月享一次深度研究,加三次 ok computer, 加三次 ppt 服务,付费会员通过阶梯定价获得更多使用次数,商业化路径进一步明晰。

hello, 兄弟们,最近呢, kimi k 二点五是不是很火?然后呢,他们公司的杨志玲,包括另外两个联合创始人,还搞了一次对话,回复了全球呃众多用户网友开发者的一些问题。 呃,具体的细节我就不讲,整体说一下。就是首先呢,呃,杨志玲透露了,下一代 kimi k 三肯定会比现在的 kimi 二点五要强很多,那架构上的大改。然后,呃,结合他现在在储备的一些技术啊,他个人认为是会会强很多啊,比现在所有都要强。然后呢,呃,有一个问题我注意到,就是 在 kimi 的 这个回答中,有很多 cloud 这个这个词儿,就是那个另外一个 forp 这家公司的那个编程工具啊。 然后,呃,大家都问他是不是因为他是蒸馏的,或者说是有什么 抄袭的嫌疑啊?那个严志玲也回复了一下,这个东西实际上是因为在大量的预训练的数据里面呢,有很多啊,这 cloud 的 这个词哈,这个词非常火,所以呢,才会有这样的,才会有这样的一个现象出现。 呃,现在的 k m k 二,因为它是一个原生多模态大模型啊,原生多模态啊,原生多模态是什么样子呢?就是它的模型。 呃,网络里面啊,就结合了所有多模态的能力啊,我们现在看到的很多模型啊,虽然它的也能够出图片,也能够识别图片,但是它不是原生的,它是在模型前面或者后面加了一个另外的一个身图的模型,或者说做做图像识别的模型啊,这是,这就不是原生的 那。呃,我个人觉得它原生多肽的能力应该是今年二零二六年比较,呃, 在我们国内的模型里面是比较重要的一点啊,比较重要的一个方向,那原生多肽,还有一个我前面说的那个 叫做非对称 ai 物理模型,也是非常重要的,应该到今年我们国内应该会开始开始弄。那今年的多肽模型应该国内必须要出趋向于成熟啊,不然的话差距就有点大了。 另外一个呢,从整个他们三个创始人的这个对话看下来就会发现其实 kimi 这边 比较缺资源啊。第一个你说那个,呃词就是有很多可绕的这个词就说明他们前面的数据工程的投入可能还不够, 这都是要花钱的数据清洗啊,数据的这个,呃,这我们叫对齐啊,还是不够。第二个呢,他们另外一个创始人说啊,可能创新就是在约束中产生的。我这句话也有道理啊, 但是实际上大模型这个东西呢,确实比较依赖一个我们叫做比较固定的确定的投入啊,才能做到一定的水平。但是不论怎么样啊,这家公司非常的优秀,希望他能够越做越牛逼啊。

大家好,昨天聊了 kimi 的 k 二点五,相信大家都很好奇,为什么这个模型突然变得这么强?今天 凌晨预示暗面三位联合创始人搞了一场三个小时的有问必答叫 ama, 让我们了解了很多模型训练的细节。我为什么觉得这件事值得单独说说?因为这是大模型企业非常罕见的一次暴露脆弱。 你看这些大厂的发布会,讲的都是成功经验,我们多牛,跑分多高,超越了水。但约扎面这次不一样,他们真的在讲试错的过程, 什么方向走不通,什么架构规模化失败了,什么时候该放弃?这才是 deepsea 和 kimi 真正不同于大厂的地方,不是复刻成熟的经验,而是用一套方法论去验证和试错。有人问他们的策略储备怎么样?差距有没有缩小?杨志林很坦诚, 差距并没有缩小,但要实现 agi 究竟需要多少算力,其实还要拭目以待。卓金宇补了一句很有意思的话,创新往往诞生于约束之中。 有人问了,达摩星训练烧 gpu 怎么界定沉没成本,某个方向三个月没有进展呢?是继续转向还是放弃? 回答的很实在。我们把所有实验结果分享给所有技术人员,每天讨论,鼓励每个人质疑一切从目标设定到最细微的技术细节。他还透露了一个细节, kimi 的 leiner 这个项目呢,经历了将近一年的探索与挣扎,而 moba 呢,就是混合注意力机制,几乎从公司成立之初就在做。 他说了一句话,我觉得特别能反映这家公司的文化,关键在于团队要有把事情真正做成并落地的价值观,而不仅仅是为了表面光鲜。 周星宇分享了他们做 skating 实验的方法,他说自己有时候从小到可以在单个 gpu 上训练的模型开始。为什么要这么想呢?因为核心目标是 预测系统的可扩展性,有些架构无法扩展,有些优化器无法扩展,甚至有些数据也无法扩展。他举了一个真实的失败案例,当时急于把 kimi liner 移植到 k 二中,结果达到一定规模后, skating 失败了,不得不暂停研发, 经过漫长的调试,经历数月才达到现在的水平。然后他说了一句很重要的结论,从统计学角度来看,大多数小规模行之有效的方案都无法突破规模化的瓶颈,而那些能够成功推广的方案通常都简单有效,并且有数学依据。 研究的重点在于如何应对失败,而不是庆祝成功。 kimi k 二点五有一个很酷的功能,叫智能体蜂群 swarm, 一个模型可以调度一百个子智能体任务执行效率最高提升百分之四百五。 有人问,一百个病型推理流调度器不会成为瓶颈吗?怎么处理延迟和上下文丢失?答案是,各个子智能体可以在不腐蚀或污染主调度器上下文的情况下独立执行。他们本质上拥有各自独立的工作记忆, 只要在必要时将结果返回给调度器,本质上是在一个全新的维度上扩展了模型的上下文长度。 有人问 k 三会有什么重点,杨志林说正在尝试新的架构和新功能,就算每比 k 二点五强十倍,也肯定会强很多。 kimi 大 力投资于现行注意力机制,将其作为未来模型的一个关键方向。测试的时候我也发现幻觉还是很影响体验,他们也承认仍然有很大的改进空间。 关于智能的上限呢?杨志林是说,模型能力的瓶颈往往不在于架构的复杂度,而在于任务本身是否可验证。智能的上限更多取决于能否发明新的学习算法,而不仅仅是更高效的架构。 这场 ama 让我看到了一家真正在做研究的公司应该是什么样子。不怕暴露失败,不怕承认差距,把试错本身当做方法论的一部分。 当大家都在比拼我们超越了谁的时候呢?能说出创新往往诞生于约束之中,研究的重点在于如何应对失败,这样的话本身就是一种稀缺的品质。感谢关注未来博士,我们一起用跨界的视角看懂未来的方向。

朋友们,就在昨天,现在是一月二十八号,在昨天一月二十七号, kimi 发布了他最新的模型 k 米 k 二点五, 可以看一下他在各项精准能力中的测试了,基本上可以说已经和国际的顶尖模型持平了, 并且在代码测试中,它是超过了杰米娜和咱们的 g p t 五点二,最重要的是它更新了一个功能,我往下翻给大家看一下。 kimi k 二点五,它更新了一个 i g t 集齐的功能,它可以专门建立动态的 i g t, 就 像你 创建一个公司,然后给你的员工分配任务一样,去完成所有的任务,好给大家看一下啊实际的效果。我在这边已经跑了一个, 这里一共给了他一二三四五六七八八个文档,这个文档是整个设计网站的设计方案,包括前端后端,我要让他一次性给我输出这套网站设计的非常全面,并且还有多多个参考的网站都放在这里。 可以看到一开始他就直接给我创建了两个新助手,一个太极和一个一飞,就是一个全站工程开发师来用到了我在 在网上设计中给他们说的要用到的这些技术路线。太极是一个专门开发前段的那么一个人,他现在专注于开发前段,一个人开发后段,等我结果跑出来了,给大家看一下效果。

中国的 ai 公司呢,月至暗面呢,又有好消息发布了,最新的 kimi k 二点五模型。 k 二点五模型,你以为它只是在聊天方面呢,比以前更强了?那你就大错特错, k 二点五呢,发布可能会让更多的人呢,更快的失业。呃,很多人盯着它的十五万亿的头,可能训练量 觉得他只是变强了,但只有百分之一的人呢,看懂了恐怖的一点, ai 已经学会了分身术。以前你是问一句,他回答一句,现在你是下一个指令,他自己会裂变成一百个智能体分头去干活。为什么说这是国产模型的暴力进化呢? 因为他从低信原理的角度讲呢,他实现了从单兵作战改成了分群思维。举个真实的现场, 你想做一个交互网页,你以前要写代码,调布局,找素材,现在呢,你只要给 kimi 二点五录一段你喜欢的网页视频, 它能看懂你所有的细节,瞬间突出整套代码,这叫视觉编程。更离谱的是呢,它发布的 agent swarm 智能体群。当你丢给他一个复杂的财务模型,或者是三万字的行业调研,他不是在脑子里运转,而是瞬间启动一百个子分声, 有的负责搜书记,有的负责写公式,有的负责做视觉。一千五百次工具调用呢,在后台同时爆发。这就好比呢,你原本只是想请个大厨,结果他带了一整个五星级饭店的后厨团队进场,而且呢,之间的沟通完全不需要你操心, 对吧?二零二六年呢, ai 会进一步的快速迭代和发展,中美的竞争也会更加激烈, ai 从建议者变成执行者的应用呢?会遍地开花,别再死磕。简单的去学习怎么写提示词那个呢?已经落后了,你现在该学的或该了解该掌握的,应该是如何去当好一个场景中流程化的 完成整个工作的数字化指挥官。 kimi k 二点五的开源呢,意味着这种顶级的生产力呢?逐渐平民化对吧?平权来得更加猛烈和快捷,别等潮水涨过头顶才去学游泳。评论区告诉我,如果现在给你一百个全能的数字风声,你最想让他们帮你 干掉你的哪些工作?关注我,我是 leknows, 带你洞察 ai 生产力,记得点赞关注哦!

朋友们,就在昨天,现在是一月二十八号,在昨天一月二十七号, kimi 发布了他最新的模型 k 米 k 二点五, 可以看一下他在各项精准能力中的测试了,基本上可以说已经和国际的顶尖模型持平了, 并且在代码测试中,它是超过了杰米娜和咱们的 g p t 五点二,最重要的是它更新了一个功能,我往下翻给大家看一下。 kimi k 二点五,它更新了一个 i g t 集齐的功能,它可以专门建立动态的 i g t, 就 像你 创建一个公司,然后给你的员工分配任务一样,去完成所有的任务,好给大家看一下啊实际的效果。我在这边已经跑了一个, 这里一共给了他一二三四五六七八八个文档,这个文档是整个设计网站的设计方案,包括前端后端,我要让他一次性给我输出这套网站设计的非常全面,并且还有多多个参考的网站都放在这里。 可以看到一开始他就直接给我创建了两个新助手,一个太极和一个一飞,就是一个全站工程开发师来用到了我在 在网上设计中给他们说的要用到的这些技术路线。太极是一个专门开发前段的那么一个人,他现在专注于开发前段,一个人开发后段,等我结果跑出来了,给大家看一下效果。

你敢信吗?英国的海岸线居然没有一个固定长度!用一百公里的尺子量是两千八百公里,换五十公里的尺子量,就变成三千四百公里。尺子越细,长度越长, 理论上甚至能无限长。这到底是测量出错了,还是世界的本质本就如此?这个颠覆认知的悖论可不是凭空想象出来的。它的出现源于一次偶然的科学探索。 早在上世纪初,波兰数学家与果斯坦豪斯就率先注意到了这种长度测量的不确定性,但当时只是初步观察,没有深入研究。真正让这个辩论系统化 的,是英国数学家刘易斯弗莱伊理查森。一九六一年,理查森在计算各国边界长度时,发现了一个诡异的现象, 不同机构给出的国界长度差异极大,尤其是海岸线,测量单位的大小直接影响最终结果。他原本以为,就像测量普通几何图形一样,只要把测量单位缩到足够小, 海岸线长度就会趋近于一个固定值。可事实恰恰相反,单位越精细,长度反而越长,那些之前被忽略的小海湾、礁石缝隙,都会成为增加长度的新部分。直到一九六七年, 著名数学家本华曼德伯在理查森的研究基础上发表了一篇重磅论文,标题直接发问英国的海岸线有多长。他第一次点出了悖论的核心, 海岸线具有分形曲线的特性,从几百公里的大轮廓,到毫米级的礁石纹路,甚至沙粒上的细微沟壕,它在所有尺度上都存在不规则结构,没有所谓的最小细节, 自然也就没有固定长度。这个观点彻底刷新了人类对测量和长度的认知,让海岸辩论成为分型几何领域的经典命题。后来人们做了无数验证,就将测量美国缅英周的海岸线,用英里作单位量是三千四百七十八英里。 换成英尺量,因为要追踪每块礁石的轮廓,长度会大幅增加,要是用到原子级的单位,长度更是会向着无穷大去进。这也印证了曼德博的判断, 海岸线的长度本质上取决于测量的精度。海岸辩论最震撼的地方,就是打破了我们对测量的固有认知。我们一直以为只要工具足够精密,就能得到绝对准确的结果,可在海岸线这样的分型结构面前, 这种想法完全失效。它揭示了一个真相,世界上不是所有事物都能用量化的、固定的标准来定义,很多看似确定的概念,其实都依赖于我们观察的尺度。 这个悖论直接推动了分形几何的发展,让人类开始关注自然界中无处不在的分形结构,比如树叶的脉络、云朵的边缘、山脉的轮廓这些看似杂乱无章的分形特性。 同时它也让我们明白,生活中的很多标准答案不过是特定尺度下的共识。换个视角,结果可能完全不同。本华曼德伯曾说过, 地理曲线的细节如此复杂,以至于它们的长度在不同尺度下有着无限的可能性。海岸辩论从来不是一个单纯的数学游戏, 它告诉我们,用单一的标准去丈量复杂的世界,本身就是一种局限。就像我们用不同精度的尺子看世界,看到的真相也会截然不同。 其实生活力到处都是海岸辩论的影子。有人觉得一份 ppt 一 天就能做完,这是用天当粗尺子,忽略了找素材、改逻辑的细节。 有人觉得桌子擦干净了,可在显微镜下还有无数细菌,这是尺度不同带来的认知差异。我们总在追求绝对的标准答案,却忘了很多事情本就没有固定结果,就像海岸线的长度, 没有绝对精准的值,只有适合当下需求的测量结果。你生活中有没有遇到过换把尺子看结果完全不同的事情?评论区分享你的经历!