openai 简直是马不停蹄,就在今天三月十七日,他们刚刚发布了两款新模型,分别是 g p t 五点四 mini 和 g p t 五点四 nano。 说实话,这发布节奏确实挺惊人的, 因为 g p t 五点四推出还不到两周,而它距离 g p t 五点三发布也才刚过去几天。照这个势头, openai 的 更新速度简直飞起, 感觉每次刷新信息流都会蹦出一个新模型。接下来我们就带大家揭开这两个新模型的面纱,看看它们的功能以及各自的试用场景。首先要问的是,为什么还需要这种小模型?既然已经有了全能的旗舰模型,答案其实非常简单, 准确率并不总是核心瓶颈。比如你正运行一个客服机器人,整天回答那两百个重复的问题,你并不需要它能通过博士级的化学考试,你真正需要的是速度快、成本低且响应及时的工具,这正是其核心意义所在。这些模型专为这类工作赋载而生。 在这类场景中,延迟直接决定了产品体验,比如响应灵敏的编程助手、快速处理辅助任务的子代理,以及运行特定系统的电脑。这些系统能够捕捉并解析屏幕截图以及能够实时对图像进行推理的多模态应用,所以它们并非旗舰模型的精简版, 而是针对特定任务的量身定制。 openai 官方博客的首要新闻就是 gpt 五点四 mini, 那 我们就从它聊起。 gpt 五点四 mini 叫 gpt 五 mini 有 显著提升,在编程推理、多模态理解方面 以及工具调用方面,性能远超 gpt 五 mini, 且运行速度提升了两倍多,它的表现也直逼体量更大的 gpt 五点四原型,在多项评估中, 包括 s w e bench pro 和 o s world verified 等精准测试。最后,这一点才是最关键的,它不仅速度更快,而且 mini 模型 与完整版之间的性能差距已显著缩小。在 s w e bench pro 中,它用于测试实际的软件工程任务。 g p t 五点四, mini 得分为百分之五十四点四, r 旗舰模型得分则为百分之五十七点七。 考虑到它的成本仅为旗舰版的零头,且运行速度极快,这一差距已微乎其微。而在 o s word verify 的 测试中,该项只在评估模型实际操作电脑桌面如识别截图并执行点击, mini 达到了百分之七十二点一。颈椎旗舰版的百分之七十五。 这两款模型其实都超过了百分之七十二点四的人类基准。这个细节非常值得我们深思,一个并非旗舰的小型模型,表现竟然能超过人类基准,尤其是在桌面导航任务上, 这就是我们目前所处的技术阶段。官方博客还专门探讨了编程工作流,而这正是 mini 最吸引人的地方。这些模型能处理定向编辑、代码导航前端生成以及低延迟的调试循环,这让他们非常适合处理编程任务,能以更快速、更低廉的成本完成。 博客中还提到了一种非常巧妙的架构模式,以 codex 为例,由 gpt 五点四等大模型负责规划、协调和最终决策, 同时将任务下放给 gpt 五点四分钟爱子代理,让其并行处理专项任务,例如搜索代码库、审阅大文件或处理参考文档。 这样你就不用浪费昂贵的旗舰算力在工作流的每一个步骤中,而是将其作为指挥大脑,让 mini 来处理具体的繁琐工作。在 codex 中, mini 仅消耗 g p t 五点四配额的百分之三十,对于大规模运行代码工作流的用户来说,真能省下一大笔成本。 专门看推理能力。在研究生水平的 g p q adam 的 测试中, mini 得分为百分之八十八,而完整模型则是百分之九十三, 虽然还没法完全等同,但坦白说差距已经很小了。尤其是考虑到它在速度和成本上的巨大优势。官方博克还提到了多模态能力以及电脑操作也是 mini 的 一大强项。它能快速识别复杂的 u i 截图, 这对那些需要执行实际任务的 ai 智能体直观重要,毕竟它们不仅是生成文本,还要能接管电脑进行操作。接下来聊聊 gpt 五点四,也就是两者中体积较小的 nano。 nano 是 gpt 五点四系列中最小巧、最经济的版本,专为对速度和成本要求极高的任务而设计。 openai 推荐将其应用于分类、数据提取、排序以及负责处理简单辅助任务的代码子代理。官方博文对 nano 的 功能定位描述的非常直接,也明确了它的局限性,它并不适合处理复杂的推理难题。 nano 在 s w e bench pro 测试中得分为 fifty two point three nine percent, 在 terminal bench two point zero 中为 forty six point three percent, 性能虽不及 mini, 但仍叫上一代 nano 模型有大幅提升。而在 o s word 这项桌面导航测试中, nano 的 得分仅为百分之三十九,所以你绝不会用它来处理需要实际操作界面的任务。但这本就不是它的设计初衷,它专为处理以下工作流而生海量、简单、结构化的任务。 比如你的系统需要处理成千上万份文档,负责分类、自断提取和任务分发,这才是 nano 最能发挥价值的地方。从定价中也能清楚地看出这一点。 mini 的 输入价格为每百万 token 零点七五美元,输出者是每百万 token 四点五零美元。 nano 甚至更便宜,每百万输入 token 仅需零点二零美元,输出也仅需一点二五美元。 为了让大家有更直观的对比,完整版 g p t 五点四的输入成本为二点五零美元,而输出则是每百万 token 十五美元。 也就是说, nano 的 输出成本仅为旗舰模型的十二分之一。对于任何处理高频或轻量级任务的工作流, 这笔账算下来,性价比确实极具说服力。官方博客还分享了首批测试反馈,来自测试过这两款模型的企业客户。 为了专注 ai 工具用于金融、法律及研究文档分析,他们称 gpt 五点四分钟 i 步数甚至超越了竞品在输出质量上的表现,且在成本更低的前提下实现了更高的引用召回率。实际上,其端到端通过率更高,来源归音也更精准,表现甚至优于在同类工作流中运行的完整版 gpt 五点四。 这简直太惊人了!竟有公司表示, mini 版的表现超越了其在实际应用场景下的全功能模型。 no 省的 ai 工程主管也提到了一项重大转变, 像 mini 和 nano 这样的小模型,现在已能可靠地执行智能体工具调用,而这项能力此前主要局限于体积更大、速度较慢的旗舰模型。这确实是又一次重大改革, 这意味着你能开始构建更强大的智能体,而无需再通过高成本模型处理所有任务。在可用性上, gpt 五点四 mini 今日已上线 chat、 gpt、 colex 以及 open ai 的 api, 免费和购,用户可以在 thinking 选项中找到它,而付费用户则会将其作为备选方案,也就是当 g p t 五点四 thinking 达到调用频率限制时, 而 nasa 目前则仅限 a p i 调用 open ai 显然是将其定位为面向开发者的基础设施,而非大众消费品。 而这背后更深层的意义在于, open ai 正积极引导开发者转向分层模型架构,只在确实有必要时动用大模型,其余工作则交给更轻量的模型来处理。 随着 mini 和 nano 的 性能不断提升,那些实际上必须依赖完整旗舰版模型才能解决的问题正变得越来越少。这一趋势非常值得玩味,毕竟这意味着运行重型 ai 系统的成本性能在提升,成本却在持续下降。我也看到了一些类似的推文,比如屏幕上这条, 他们的大意是合着我花了大价钱买 g p t 五,结果只要多等上六个月,就能瞬间获得同样的体验。半年前全球最强的 ai 现在成了入门廉价款,这无异于告诉所有 g p t 五的付费用户,你们就是群小白鼠。这种想法正是目前很多人的心声, 这种不满情绪乍看之下合情合理。你刚买了旗舰版没过几个月,更便宜且性能相当的产品就问世了。但我们有必要看清 mini 的 真实定位, 它的表现并不能完全等同于 g p e 五点四。在 s w e bench pro 测试中,它得分百分之五十四点四,而完整版为百分之五十七点七。在 g p q a 测试中,情况也大抵如此, 虽然差距很小,但完整版依然更胜一筹。在复杂推理和攻克难题方面, mini 是 专为追求速度和极致性价比而打造的,它是应对不同任务需求的另一种利器。它并非为了取代现有模型, 而且这种大趋势并非 open ai 所独有,这正是目前 ai 行业的发展趋势。半年前还需最强、最贵模型才能实现的功能, 如今正被整合进更小巧、更快捷、更实惠的产品中,这种迭代进程只会不断加速。这究竟是好事还是令人头疼的坏事,可能取决于你站在利益链条的哪一端,但这同样值得关注。
粉丝2637获赞1.8万

家人们来一起看看本周的 ai 周报。首先必须说,阿里的 ai 两年招直接在国际和使用领域双开化。先是阿里通过一千万最新版本三点五 max 直接冲进全球大模型公司第五, 数学综合性能稳稳处理,夺进了全球前十。这可不是单纯对参数,是真真正正的技术实力被国际认可。而且阿里还把影视级的 ai 配音模型直接开源了, 解决了一直以来多人配音不同步、口型对不上、情绪不自然的问题。以后做视频配影视,普通人也能用上专业级的配音工具,关键还是免费开放,真正让技术复会。 顺着国产大模型的强势发展, mini max 也带来了新突破,推出了国内首个能深度自我迭代成长的大模型 m 二七。 以前的 ai 都是开发者教什么会什么,而这个模型呢,自己构建能力独立完成复杂任务,逻辑推理和使用工具的调用精度也大幅提升。这意味着国产 ai 开始从被动学习走向主动进化,未来能适配更多复杂的工作和生活场景,潜力真的太大了。 老鹰大模型内容创作者的福利也来了。小鹰雀 ai 上线了全新的短距制作工具,还是首个搭载最新 ai 视频 cds 二点零的短距 a 帧。以前做长剧本、拍视频要写脚本、做分镜剪视频。现在这个工具能实现从剧本到成片全自动化,哪怕十万字的长剧本,点一下就能直接生成视频,大大降低了短剧长内容的制作门槛。 还有智府推出的全新模型 glm 五 t 宝,专门针对大家常用的 ai 智能体场景做了深度优化,不管是日常办公的工程调用,还是复杂工作的任务拆解能力都大幅增强,在国产模型的自然测试里 直接拿了第一,还配套适合个人和企业的定制套餐,甚至做了专门的企业安全管理,不光好用,还兼顾安全和实用性,真正贴合咱们的实际需求。 最后一定要提一下中国团队做的 a r 智能体,这可是全球首款可实现自我进化的个人 ai 智能体,也被大家称为养龙虾不如养骡子。一改传统 ai 部署繁琐,存在安全风险的问题, 无需复杂操作即可部署,支持七层二十四小时在线,能持续学习用户使用习惯,还能共享智能模板,更适合小白用户使用。 聊完国内,咱们再把目光转向国外,看看海外科技巨头的新动作。首先是谷歌大动作,悄悄测试 mac 系统的桌面应用,还准备上线超实用的 桌面智能功能,这个功能可不只是简单的聊天工具,还能直接看懂你的电脑桌面内容,识别屏幕画面,还能和你实时交互做多媒体内容理解上下文,甚至能直接联网搜信息,相当于给电脑装了一个全能的 ai 大 脑, 以后用电脑办公,创作效率会直接拉满 ai。 做图的朋友肯定关心老牌的迷你专新动态,它的 v 八版本正式开启测试,这次升级直接把体验拉满,升成速度比以前快了五倍,还新增原声二 k 的 高清渲染模式, 细节的画质直接上了一个台阶,而且还能更精准的理解复杂质量,你想怎么画,要什么细节,它都能精准拿捏。 唯一的小遗憾就是成本略有增加,但对比画质和效率的提升,还是很值得的。 open a 这次把目光放在小模型上,推出了 g p t 五点四迷你和 nasa 两款超实用的小模型,性能直接逼近满血版的 模型。 mini 版本主打代码编写和逻辑推理,速度比以前快了两倍多,做编程组分析超顺纳洛版本体积小,成本低,专门做数据提取、文档分类这种基础又高频的工作,关键是价格可特别亲民,给开发者和普通用户更多选择, 不用再为了小需求用大模型花冤枉钱。苹果也带来了硬核的技术突破,发布了全新的 lto 大 模型,直接解决了三 d 制作的一大痛点。以前用一张二 d 图做三 d 模型, 总被光影问题难住,做出来的效果也很假。而这个模型只用一张普通的二 d 图,就能还原出真实质感的三 d 物体,还能精准计算出光照效果。这不仅让三 d 制作更简单,还为未来的空间计算 arvr 打下了坚实的基础, 以后沉浸式体验会越来越真实。最后,要说英伟达的新工具内蒙可乐,直接解决了开发者搭建 ai 智能体的两大痛点,隐私和部署栏。以前想做自己的 ai 代理,要么担心数据泄露,要么部署流程繁琐。现在这个工具支持简单命令,一键部署, 既可以用云端模型,也可以搭载本地模型,手机、电脑、平板都能兼容,大大降低了 ai 代理的落地难度, 以后更多人能做出属于自己的专属 ai 出售。其实不管国内的技术突破,还是国外的科技升级,能明显感到 ai 已经不再是飘在天上的概念, 而是真正能落地解决问题、提升效率、普惠大众的工具。国内的 ai 越来越有国际竞争力,从跟跑到并跑甚至领跑。 国外的 ai 则在不断地探索技术边界,两者相互促进。未来的 ai 一定会给我们的生活和工作带来更多惊喜。不知道今天的这些 ai 新资讯哪个最让你感兴趣?欢迎一键三连,下周继续给大家拆解更多 ai 干货,让我们一起在 ai 大 潮中共同进步!

哈喽,我是严校长,之前几期视频去讲了这个本尼大模型吧,然后很多人就觉得这个本尼大模型在速度上肯定是非常的差的。然后这期视频主要给大家实战演练一下啊,只见我们用录屏的形式看一下。呃,我最近发现这个模型啊,就是刚出的千万三点五三十五 b a 三 b 这个模型, 你看我用的是这个八位的一个量化版本,但这个版本其实跟我们线上去使用的话,差别并不是很大,特别在高峰时期,他不会被压缩。 如果你用线上模型 open color 想省钱不用的话没有意义,你训练的东西没有用,然后你大量使用的话,你的这个开销,特别是多 a 镜头的这种场景,你的成本是相对比较高的。所以说如果你有重度的 open color 依赖的话,可以尝试一下和我一样用麦克斯丢丢 去做本地模型的部署,可以看到我这台机器是二百五十六 gb 的 版本,这个机器目前跑这个东西都是小儿科啊,你看就占用了六十。然后我们来看一下这个本地模型到底速度怎么样, 我们先做个简单的测试啊,比如说你可以做什么?大家重点是关注他这个回复的这个速度,以及这一块他思考的这个时间啊,可以看到这个速度基本上是秒出的呀,可能现在赛文比较小啊,可以看现在能跑到四十七啊,可以跑到四十七 啊,然后这个是八位的啊,这个八位如果我换到四位,我们常用的这个版本的话,可能速能跑到五十多啊。比如说我们来点复杂的,比如说 天气怎么样?因为这个涉及到要一个联网搜搜索嘛,他会在网上去搜啊,他的步骤可能你看现在已经操作了两步了,第三步了啊, ok, 把他读到了我当前地址啊,然后天气都带出来了啊。比如说我再问一下别的地区, 因为这个就要考虑到一次两次的上下文的连连接,而不是简单的常用的这种。呃,人工智能进行一个单次对话,你看他联想到了我后面发的这个深圳的话,他能联想到这个天气的信息。然后我们接着来去 啊,问一个复杂啊,比如说推荐一下二零二五年的高分韩剧啊,这个其实是有点难度的啊,首先他要在网上去扒资源啊,找到有用的信息,然后进行整理。 这个步骤对于本尼达模型其实压力算是很大的,你看一下我们这个目前新出的纤维三点五,在这个本尼达模型上的效果怎么样?可以看到这个速度 其实有很多人应该用过线上的版本,你们又不觉得我这个速度并没有很慢是不是?而且我这个是没有弄虚作假了,这些片子可以看到都是都是新出的,而且刚刚的思考过程都是看得见的。 然后我们来反过来推一下,你看现在上下文是有一定下降的啊,跑到四十五,但是四十五点七 t 肯啊,这个叫 t g 头肯,就是吐字的,这个速度其实是已经很合理了,我们再继续给他一点有难度的啊,比如说这个片子啊,我直接跟他说嘛, 这个具体讲什么?好看吗?啊?你继续进行二次追问这样一个测试方法是很容易测出一个模型以及对于 open klo 的 适应能力,可以看到速度依然可以很快的出来。 然后我们再继续增加难度,比如说这个片子一出来,我觉得你看他,他甚至给我一个建议啊,就是他可以帮我搜磁力链接,这个就很强啊。我说,呃,找找四 k 的 吧 啊,其实这个又又叠加个难度,首先上下文的长度变长了,哎,再加上他对互联网解锁的这种能力就更强了。因为我们用的是巴巴比特这个电话版本吗?如果试比特可能会弱一点,但是他只影响他试错的这种 几率吧。可以看到这种他已经不断的在尝试了,如果你是精度比较低的,他可能试错的次数会多一点,但是基本上都能出结果,而且可以看到我现在的这个显存。 嗯,这点三条文基本上不会有开销。比如说你预算有限的话,你可以入 m 三要求的这个九十六 gb 现存的这个版本,如果你呃预算 大概在两万左右的话,也可以买六十四 gb 的 m 二要求的话,你跑四 b 的 量化体也不会差很多 啊。你看这个,这个他现在就是遇到了问题啊,你看,呃,就说在某个网站上没有找到这个资源 啊,这就是现在本地模型,我目前来测试就是很容易出问题的一个点,但是这个问题我觉得是可以解决的,因为通过你去优化它的 skill, 它可以解决更精准的一些,因为我现在是完全让它呃重新尝试,相当于没有没有教学的部分啊,让它自己去尝试, 那后期你就可以完全用自然语言去沟通,然后他会更了解你的习惯,写出更合适的 skill 啊。这些视频主要是给大家讲,就是关于本地大模型啊,以及这些使用体验上的速率以及性能的问题,可以看到一些正常使用都没问题。 我们再做点哪一点呢?比如说打开浏览器,进入小红书,搜索 back 丢丢,其实这个是有点难度的啊,就哪怕很多线上模型,我们去跑浏览器的自动化,其实都呃不是那么容易成功的。而加加我们现在已经有一些上下文的堆积了,然后我在中间突然插入了一个和上下文完全没关系的 啊,内容其实对他来说是有一定的难度的,可以看到他第一次试错了,他第一次直接用这个,呃,直接去抓了呀,他就是很简单,他打不开浏览器,但是他用了一个其他的方式帮我推出来了这个目前我想找到的东西,也就说他又找了一个别的解决方案啊,但是千万三点五,这个本身是一个小模型啊, 如果我们后期去切到这个 mini max, 你 看它这个,嗯,空间都占用一百三十八,实际跑起来大概占一百八十 gb 的 现存。比如说如果你预算更高一点,大概五万的预算的话,你完全可以入这个二,像我一样二百五十六 gb 的 这个 m 三要求啊,就跑这个 mini max, 像这些什么浏览器啊,以及呃下电影啊这种小科的问题吧,但是它的速度可能就跑不到五十头克,每秒大概有三十头克,但是日常使用完全够了。 ok, 那 下期视频我们会继续分享如何?呃,更高效地使用本地这个大模型,来去跑一些 open klo 的 一些复杂任务。

openai 刚刚更新了两个小模型, gpt 五点四、 mini 和 nano。 但如果你只把它理解成更便宜的 gpt, 你 就看浅了,因为官方这次已经把话说的很明白了,在 codex 里,更大的 gpt 五点四负责规划和协调, mini 负责并行处理更窄的子任务, 比如搜代码库审大文件。 nano 则继续把价格往下打,明显就是给高频重复的任务准备的。这说明 openai 不是 在做低配版,而是在补一层真正能跑量的执行层。 更关键的是,你把整个行业放在一起看,会发现大家都在朝同一个方向补课。 astropica 最近把 oppo 的 四点六推到一百万上下文重点强调 coding 和 ai agents, 它在补的是记忆和长任务持续性。 x a i 这边要求模型能接工具,接知识库,接系统,把动作真正执行出来。再往外看, google 新推的 gemini 三点一 flashlight, 官方定位就是最快最省钱,适合高频 ajax 任务。所以你把这些拼起来看,逻辑就非常清楚了。 open ai 在 做分工, ansapic 在 做长记忆, x a i 在 做执行接口, google 在 做高性价比的小模型层。而 karpay 说的软件三点零时代,其实就是这件事的总解释。未来不是你去找软件,而是你说一句,需求 ai 临时给你组织出一套工具和工作流。 所以未来真正值钱的不是一个最聪明的 ai, 而是一整套会分工、会记忆、会执行,还能低成本反复调用的 ai 劳动力系统。

openai 发布 gpt 五点四 mini 与 nano 面向高频低延迟任务的全能型小型模型,适用于编程推理、多模态理解及工具调用等核心场景,支持文本与图像输入、工具调用、函数调用、网页搜索、文件检测、计算机操控及技能扩展、上下文窗口达四十万 token。 在 codex 平台中, gpt 五点四 mini 仅消耗 gpt 五点四配额的百分之三十,开发者处理简单任务的成本降至旗舰模型的三分之一。

朋友们,这是拯救你们手里 mac 的 一个视频,建议你们一定要看完。近期我发现很多博主在自己的主力机 macbook 或是 mac mini 上去安装小龙虾呃,有的甚至买了上万的设备,但是都有一个问题就是巨慢无比。 经过我的一番折腾,我在我的 macbook air 二十四 g 主力机上呃完成了十倍的优化。 我觉得可能从来没有人想过说用一个盖板的 mac mini, 或者是说用一个 macair 去部署一个本地的模型去玩龙虾。为什么?如果说你用过 luma studio 或者是欧莱玛去跑纤维三点五 四 b 的 模型呃,那么基本劝退呃,那速度简直就是无归盘。我们来看一个测试啊,兰博索六和 o m l x 去基于千万三点五四 b 的 模型完成的一个技术测试。那么我们从首充分的耗时和平均的总耗时能够看出来, o l o m l x 完全碾压兰博索六。 那么它是怎么做到的呢? o m l x 完全就是为 mac 而生的。首先呢,它 是原生的 macs 的 m l x 服务器,核心是具备一个智能的缓存功能,那么在它主要上其实有介绍到它的核心能力。第一个是它把敢把 k v 缓存放到 ssd。 我 们知道内存是有限的,但是 ssd 的 空间是无限的,会大很多倍,即使来一百个 a 帧的请求也是能够存得下的。 更离谱的是,它还做了分页缓存,传统的 m l x 开十个窗口就存十份,但是 o l m x 只会把相同的前缀存一份,不同的部分在各自存储。 这可是 v l l m 这种工业级框架才有的缓存技术,竟然也应用到了 o m l x 上,这个 o m l x 的 新框架再加上新的 m 芯片,我觉得看到了新的希望。不过话说为现实。

openai 可能刚刚泄露了 gpt 五点四,据传它拥有两百万 token 的 超长上下文能力和像素级视觉。与此同时,一个仅六七八 kb 的 ai 智能体名为 nano, 竟能在五美元的硬件上运行。 阿里巴巴也刚刚开源了 koopa, 这是一套全能的个人 ai 工作站,它具备长期记忆和多通道控制能力。 从超大模型到微型边缘智能体,再到全能 ai 工作站,这些重磅消息几乎在同一时间立即发布。咱们今天就来好好聊聊这些进展好了。先从那个让所有人都猝不及防的消息说起。 g p t 五点四可能刚刚遭遇了意外泄露,这并非官方正式发布,也没有任何预兆, 但代码里确实留下了他的痕迹。一张截图开始在 x 上疯传,网友们随即展开了深挖。在 open ai 编程助手 codex 的 一个 pr 中, gpt 五点四的字样直接出现在了版本引用里, 这意图已经非常明显了,其中提到了 fast 命令,这种快速模式显然与该模型直接挂钩,而且这并非唯一的蛛丝马迹。就在几天前, 一名 openai 开发者在 github 上提交了一个 pr, 其中一个版本判断条件暴露出了一些有趣的东西。在临尾以下的功能开关配置中, view underscore images underscore resolution 这项功能目前仍处于开发阶段,现已支持原始分辨率。就在 view underscore image 界面中,代码条件里明确写着, 当该功能开关起用,且目标模型为 gpt 五点四或更高版本时。但这些代码并没存在多久,没过多久, gpt 五点四就被悄悄改成了 gpt 五点三 codex, 但那时网友们早就已经截图存正了。 更有趣的是, gpt 五点四竟然出现在了 codex 的 下拉模型菜单里。多处迹象表明,这绝非一次简单的比物。 所以要么是有人接连犯了一系列巧合的错误,要么 gpt 五点四确实存在,就躺在内部服务器里发布指日可待。接下来的内容技术含量会更高一些。传闻称, gpt 五点四可能会支持高达两百万 token 的 上下文窗口。 两百万。要知道,目前主流的超长上下文模型处理能力也仅在几十万 token 级别。 两百万个 token 意味着可以处理超长文档、整本书、海量的代码库,甚至是完整的系统设计,甚至能容纳长达数月的聊天记录。而这一切都只需单次推理即可实现。但有个关键点是大多数人都没想到的,两百万个 token 的 窗口可不仅仅是存储容量的问题。 要实现这一点,模型必须缓存推理过程中的海量数据,这会极大地增加对内存的要求以及计算的复杂度。这绝非意是在巨大上下文规模下保持性能是严峻的技术挑战。如果解锁不准确,上下文窗口再大也毫无意义。 不少开发者指出,真正关键的是前窗口范围内的召回率,如果模型无法准确解锁两百万 tock 深处的相关信息, 那么窗口再大也没用。甚至有人讨论其所谓的八帧测试,如果该项测试的召回率能超过, 那才称得上是真正的突破,否则那终究只是个虚高的数字。接下来我们聊聊视觉能力。 同一份泄露的 pr 中还提到了 gpt 五点四的一个新功能开关或是后续版本。它们能绕过传统的图像压缩机制,它不再需要在处理前压缩图像,而是直接保留全分辨率的原始字节数据, 这意义非同寻常。目前大多数 ai 视觉系统都会降低分辨率,或在将图像输入模型前进行压缩,这会产生模糊伪影,有时还会导致细微的失真。如果 g p t 五点四能在像素级别处理原始分辨率图像,这将为高精度 u i 分 析 强劲的工程图纸、建筑蓝图、医学影像,甚至是高分辨率设计稿的应用。开启大门前端,开发者与设计师能直接上传高保真原型。工程师们可以提交复杂的工程图纸模型,不会对边缘产生幻觉,也不会误判压缩后的线条。 像素级的精准视觉分析是一项完全跨越阶层的能力。随后,更诡异的事情发生了,当有人询问拆 gpt 五点二的版本号时,据传它竟然自称是 gpt 五点一, 并非玩笑,他的语气非常严肃。不过熟悉奥特曼行事风格的人对此深表怀疑,这可能只是一种炒作手段,这可能是内部测试留下的痕迹,也可能是版本信息对不上。但结合传闻图像处理开关、新增的下拉菜单,以及 tiktok 上的蛛丝马迹,这一切看起来就不太像巧合了。 就在各种猜测愈演愈烈之际,大家也都在期待, deepsea 四竞争对手可没闲着。 以上是 ai 发展的其中一面超大模型,海量上下文窗口像素级视觉,现在让我们来看看截然不同的另一端,这就是 nowclaw。 一个六七八 kb 的 ai 智能体框架,完全由原声 c 编写。目前大多数智能体框架都依赖 python、 type script、 go 或 rust, 并需要引入虚拟机解释器、垃圾回收机制和运行时环境。而 number two 的 做法则非常彻底,它彻底抛弃了运行时程,无需 python, 无需 jvm 或 goon time, 也没有任何托管开销。它直接翻译为机器码,除 l i、 d、 c 外,没有任何外部依赖。 结果如何?翻译后的二进制文件体积仅为六七八 kb, 内存占用仅约一 mb, 启动时间不到两毫秒,大家可以感受一下这个差距。大多数常规智能体框架需要一 gb 以上的内存, 即便是一些 python 实现占用也超过了幺五零 mb。 即便是 go 和 ras, 智能体内存通常也要五到十 mb。 而 number 超跑运行只需一 mb 左右启动时间的表现也同样惊人。在主屏零点八 ghz 的 精准边缘硬件上, 某些框架的启动耗时甚至超过了五百秒,其他框架则需要三十多秒,各语言能跑进一秒以内, rust 甚至能缩短到十毫秒以内, lisp 仅需不到八毫秒, 部分场景能启动甚至不足两毫秒,这已经达到了微控制器的性能级别,而这正是其关键所在。 noctuo 专为这类场景而生,即无法使用数据中心高性能计算机的场景,它是为微型低功耗设备量身定制的,比如那些仅售五美元的廉价硬件, 比如树莓派、 arduino 或 stm 三十二开发版。这类硬件无需使用高性能 pc 或云端服务器就能在小型硬件上直接运行完整的 ai 智能体,并能直接连接各类传感器和外部设备。 从底层设计来看,它的架构非常灵活,你可以把它看作是一个即插即用的系统,也就是负责与 ai 模型对接的部分。感谢收看! 在通讯支持方面,他原声支持十三个平台开箱即用 telegram、 discord、 slack、 whatsapp、 i l c 等。他还内置了超过十八种工具,让智能体能真正去干活,而不只是聊天。 尽管它极其小巧,它依然能胜任更高级的架构。既由一个主智能体来协调多个子智能体,它还支持一种叫做 m c p 的 协议及模型上下文协议只在规范模型与工具内存之间的交互。由于它是用 zip 编辑的,内存管理由手动完成,而非依赖后台系统的自动调度, 这听起来风险不小,毕竟自动内存管理通常是为了防止程序崩溃。但在这里,开发者通过精细的设计有益确保了系统的极致清亮。为了在仅有 e m b 内存的限制下依然能保留有效信息, north claw 巧妙融合了向量解锁与简单的关键词搜索, 如此一来即可获取相关信息,无需额外运行庞大的外部数据库,安全性已深度集成于其底层架构之中。 api 密钥默认采用 ch 二零 polly 一 千三零五加密, 该加密算法先进、高效、低功耗,处理器也能流畅运行。当智能体调用工具或执行代码时, 它会被 landlock、 fire、 jail 和 doctor 等防护层严密隔离,这样即使发生意外,风险也会被控制在局部,不会影响系统其他部分的运行。整个项目由约四点五万行 zg 代码编辑而成,并通过两千七百三十八项测试来确保 其运行的正确性与安全性。该项目基于 mit 协议开源发布,这意味着企业和开发者可以将其自由用于商业产品。接下来是这一体系中的第三个关键环节。阿里巴巴团队刚刚开源了一个名为 coca 的 项目。 coca 并非只是一个简单的机器人,其定位是高性能、专为开发者打造的个人智能体工作站。这里的重心 已从单一的模型转向了模型所运行的环境。它由三个核心层组成, agent scope、 agent scope run time 以及 r e m e。 agent scope 负责处理智能题的通信与逻辑。 agent scope runtime 则保障了执行的稳定性与资源管理。 r e m e 则是其中的记忆管理模块。 r e m e 直观重要,因为它解决了大模型系统的一大痛点,无状态性标准大模型 api 无法记住之前的对话,除非显示器重新提供上下文。 i m e 则赋予了智能体长期记忆的能力,它让智能体能够存储用户偏好以及本地或云端的任务数据,从而实现跨灰化的持久记忆。智能体不再是被动机器人, 而是与你进化的伙伴。此外,托帕引入了技能扩展系统。在这种架构下,技能是一个独立的功能单元, 本质上就是智能体可以调用的工具,无需修改核心引擎来扩展能力。开发者只需将 python 函数放入自定义技能目录即可。这些技能遵循标准化规范, 添加网页抓取功能、总结 reddit 或 youtube, 你 可以实现本地文件交付、查询个人知识库,并用自然语言管理日历和邮件, 无需改动核心引擎,即可构建复杂的智能体工作流。此外, copa 还解决了另一个痛点,通讯平台的碎片化问题。 它引入了全域访问层,统一了智能体在各类通讯协议下的交互标准。只需一个工作站,十粒就能同时接入钉钉、飞书、 discord、 qq imessage, 全面覆盖企业办公与社交平台。工作站会自动将智能体的内部逻辑 转化为各平台的 api 指令,无论你从哪个平台发起对话, ai 的 记忆都能实时同步。不仅如此, coca 还支持执行定时任务,这意味着它不再只是被动地响应指令,智能体能主动执行后台工作流,比如每日研究汇总代码库监控和自动报告, 随后将结果推送到你常用的通讯工具。总之,我会持续关注 g p t 五点四的最新动态以及 deep c o v 四的发布进展,因为这场竞赛正迅速进入白热化。如果你正深耕此领域,不仅要关注模型层, 同样要重视架构层,那里才是目前真正的优势所在。好了,感谢大家收看我们,下期视频见!

就在二零二六年三月十八日, openai 毫无预热,没有倒计时,直接上线 g p t 五点四 mini 和 nano 两款轻量级模型。这俩模型核心就一个特点,快、强,还超便宜,直接成了轻量级模型的天花板。先看硬实力, g p t 五点四 mini 在 编码、计算机使用、 博士级推理这些核心能力上无限逼近满血版 gpt 五点四,编码得分差百分之三点三,计算机使用仅差三个百分点,速度还比上一代 gpt 五 mini 翻了两倍,就连最小的 nano 编码能力都吊打前代重量级模型,性价比直接拉满。价格方面更惊喜, gpt 五点四 mini 的 输出成本只有满血版的三分之一, nano 更是低到十二分之一, 竞品 kloud 四点六 opus 还便宜九倍,网友直呼,这俩就是龙虾的主力模型,轻量级任务用它又快又省钱。而且两款模型各有侧重, mini 能独立搞定生产环境里的复杂任务,不管是代码编辑、工具调用,还是解析屏幕、做计算机操作,都能独挡一面。 nano 则专攻分类、数据提取这类高频低复杂度的活性价比无敌。 唯一的短板就是长上下文处理,和旗舰版还有不小差距。更关键的是, open ai 这次还带来了全新的 ai 架构思路,此智能体协助让满写版 gpt 五点四当总指挥,负责规划、决策和协调,把 具体的执行任务全部分发给 mini 和 nano 并行处理。这套思路已经在 codex 落地, mini 在 codex 上的执行效率是 gpt 五点四的三点三倍,花同样的预算能跑三倍多的任务,现在这已经成了 ai 行业的共识,不再追求单一超大模型,而是分工明确的协助系统 开放范围也超给力。 gpt 五点四, mini 在 拆的 gpt、 codex、 api 三端同步开放,免费用户都能体验,付费用户额度用完后还能自动降级,用 mini 彻底缓解额度焦虑。 nano 目前暂时只在 api 端可用,专门解决高频清量任务。 这波更新直接让普通开发者、 ai 创业者花小钱就能接入高阶 ai 能力,推理成本直接降了一个数量级。曾经只有大厂玩得起的 ai 能力,现在人人都能用上。当然,这波超强更新也引发了不少争议, 很多开发者担心自己的工作会被 ai 替代,还有人质疑模型训练数据的版权问题,毕竟这些模型是用开发者的代码喂出来的,现在却反过来替代人类。但同时也让行业看清一个趋势,软件工程的核心竞争力已经从单纯的写代码、敲字符,转向了系统架构设计和整体方案规划。说到底, g p t 五点四, mini 和 nano 的 发布,只 直接拆掉了 ai 落地的成本和延迟两道壁垒,让 ai 技术的行业渗透速度大幅加快,小模型也正式成为 ai 应用走进各行各业的关键。在体,大模型负责思考,小模型负责执行,这已经不是愿景,而是今天就能落地的架构。我是王朝,关注我,每天为你分享最前沿的 ai 新闻!

三月十七日, openai 一 声不吭扔了一颗炸弹,没有预热,没有倒计时, gpt 五点四 mini 和 gpt 五点四 nano 直接上线。这不是常规更新,这是 openai 对 ai 行业游戏规则的重新定义。先说结论,小模型终于站起来了,性能逼进满血版速度分贝 gpt 五点四 mini 在 swuban pro 编程机准测试中拿下百分之五十四点四,而满血版 gpt 五点四是百分之五十七点七,差距只有三个百分点。 在 os world verify 的 计算机使用测试中, mini 拿到百分之七十二点一,满血版是百分之七十五。这意味着什么?意味着过去只有大模型才能干的活,现在小模型也能接住了。 更关键的是速度,官方数据运行速度比上一代 gpt 五 mini 提升两倍以上。延迟敏感场景、代码补全、实时截图解析、 ui 交互这些对响应速度要求极高的任务, mini 的 表现甚至优于大模型。 另一个亮眼就是价格杀疯了。 mini 的 api 定价,输入零点七五美元每百万 token, 输出四点五美元每百万 token。 nano 更狠,输入零点二美元,输出一点二五美元。 作为对比, nano 的 输出价格只有 gpt 五点四的十二分之一, mini 是 三分之一。这是什么概念?以前养一个 ai 助手,现在能养十二个 双模型,分工明确,迷你定位,全能执行者四零零 k 上下文窗口支持文本图像输入、工具调用、函数调用、网络搜索、文件搜索、计算机使用全套能力,已接入 api codex 和叉 gpt 免费用户也能通过 thinking 功能体验, 那 no 则是极致轻量版 api 独占文本分类、数据提取排序简单,子代理开发者可以把它当做架构里的杂务工,便宜、快速,可大规模并行。这背后的战略意图是什么? open ui 再补一块关键拼图,让 ai 真正进入生产环境。过去两年,行业陷入一个误区,模型越大越好。但真实场景里,延迟和成本才是决定产品生死的关键。一个需要等五秒才响应的代码助手,用户用一次就卸载一个调用一次烧掉几美分的 api, 创业公司用不起 gpt 五点四。 mini 和 nano 解决的就是这个问题,他们继承了 gpt 五点四的核心能力,但针对高频工作赋载做了专门优化。这不是简单的缩水板,而是精准切割板。保留核心能力,砍掉不必要的计算开销。 对开发者的影响就是架构设计思路要变了。以前是一个模型干所有事,现在是动态路由分层协助习建模型当总指挥, mini 当执行团队, nano 当杂物工。复杂任务给大模型拆解,简单任务直接扔给 nano, 中等难度的交给 mini 快 速处理。 codex 用户已经尝到甜头, mini 只消耗 gpt 五点四额度的百分之三十,但编码能力接近满写版,这意味着同样的预算,你能处理三倍的任务量。 openai 这一步直接冲击了编程助手、 ai 代理、多模态应用三个快速增长的市场。 cloud gemini、 deepseek 的 小模型产品线现在面临一个强劲的对手。 更值得关注的是 nano 的 定位,零点二美元每百万 token 的 输入价格已经逼近一些开源模型的本地部署成本。当云端 api 便宜到这个程度,还有多少人愿意自己维护基础设施? gpt 五点四、 mini 和 nano 的 发布,标志着 ai 行业从拼参数进入拼效率阶段,模型大小不再是护城河工程,优化能力才是。 对于开发者,这是最好的时代,工具更便宜、更快、更易用,对于竞揍对手,这是压力最大的时刻。 openlight 正在用产品矩阵覆盖每一个价格带和性能区间,小模型时代正式开启。

别眨眼,这可能是你用 ai 成本最低、效率最高的一次机会。 open ai 刚发布的 gpt 五点四、 mini 和 nano, 低成本、低延迟,却能逼近旗舰模型性能, 让 ai 落地不再是梦想,而是随手可用。想象一下,你想做编程助手、 ai 代理,或者给企业打造数字化员工,以前调用大模型一次,费用高、延迟长,团队几乎都要算成本账。 现在 mini 和 nano 来了,小巧却高效、秒级响应,费用低到让你敢于试错。 企业可以用少量资金快速在内部或产品中部署 ai, 把大模型的能力几乎完整搬到桌面和业务流程中。不仅如此,这两款小模型保持了旗舰级性能,从自然语言理解、代码生成到任务规划,效果丝毫不打折。 就像你用迷你版厨具,却能做出米其林水准的菜肴,速度快、成本低、效果惊艳。这意味着企业和开发者可以在商业市场快速迭代产品, 用小投入换大回报,这背后的趋势值得注意。 ai 正在从规模竞赛走向场景化优化。过去大家比谁模型更大、参数更多,现在企业更关心落地效率、成本控制和用户体验, 小模型正好满足了这一需求。在快速增长的商业场景中,谁能用低成本、高效率实现 ai 应用,谁就能抢占市场先机。对于创业团队,这意味着试错成本大幅降低, 可以快速探索编程助手、 ai 代理等新场景。对于企业,这意味着数字化升级可以快稳省,而不是被昂贵算力拖累。 g p t 五点四、 mini 和 n o 的 发布,不只是技术迭代,更是商业策略和落地模式的革命, ai 不 再只是实验室的炫技,而是直接成为生产力工具。小而美不只是体积小, 更是一种新的思维方式,用更低成本释放最大价值,让 ai 从高大上的概念变成办公室开发桌面业务流程中随手可用的利器。下一轮竞争将由谁能最快用小模型创造价值来决定。

今天跟大家讲一下这个在小龙虾里面,他这个的模型是怎么切换的,那我当前这个模型是 glm glm 五的模型,那如果说我要切换成呃 glm 四点六 v 的 这种模型,那该怎么切换呢?那切换里面我们有这么几种办法。 呃,先给大家说一下,一种我们先打开一个终端,在这个终端里面呢,我们输入这么一个命令,叫 openclock apple color, 然后呢 o d l 是 model 四,那设置 set j ai, 这是智普的那个前缀 j ai, 然后写杠 g l m 杠四点六 v, 那 这个就是切换成把把这个默认模型切换成 g m 四点六 v 的 版本,然后我们敲回车一下, 敲回车完之后呢,它这里呢会告诉我们模型已经设置成功了,然后呢我们给这个小龙虾呢的网关重启一下, 重启一下,这个可以重启一下, 那重启完之后呢,我们回到这边来,我们去刷新一下这个浏览器,你看它当前呢这一个会增加了,多增加了一个叫 g l m 四点六 v 的 这么一个呃默认模型, 那这个呢是我们切换模型的一种方法,当然大家这里看到的这是一种呃通过它这种内置的这种 p p n 的 一个命令, 呃可以设置的,那如果说呃这里面的那个模型默认的模型不在我们的小龙项链表里面,比如说像 deepsea 这这种模型,那要怎么设置呢?因为 deepsea 它是不能通过这种呃简单的命令去设置,它只能通过自定义的呃 模型去设置,那它这边呢有两种,一种两种命令,一种是直接通过什么通过这种呃非交互模式的这种条命令就可以执行,比如说像这个, 比如说像这种像这种一条式的命令,它这里是什么呢?它这条命令呢?它这个是什么?呃是像这个参数呢?是。呃 执行非交互模式,使用非交互模式。那第二个叫 modelcare 了,这一个呢?按本地模式配置网关,这个是按本地模式配置网关。那第三个是什么呢?第三个是使用自定义的 api t 接入,这个是使用指定 api t 接入的参数。那第四个参数呢?这个第四个就是给这个呢?呃提供商命名为叫 dbseek, 对 吧? 那第五个这个参数呢?这个是什么?这个说明让它兼容 openai 的 协议。那第六个呢?第六个是什么设置?呃, deepsafe 的 这个接口地址。那第七个是什么呢?第七个是,呃设置默认模行为 deepsafe chat。 那第八个这个呢?那就简单了。第八个这个就是填写我们在数据库上创建的这个 api t, 这个就是 api t 的 序号。那第九个这个是什么呢?确认接受非交互模式的风险提示,一定要加这句话,要不然如果说少了这个,它上面的这个就执行不成功,那我现在来给他执行看一下 啊,这里已经告诉我们。呃, justin 呢?已经备份了,然后呢?这里也执行完成了。那执行完成之后我们要记得什么?记得是,呃,我们要给它一个重启网关,网关重启一下。 网关重启完之后我们直接在这上面刷新一下就可以了啊,刷新一下它当前这个 deepsea 的 这个什么?呃,模型已经加载进来了,那我们可以直接什么跟这个呃, 我们直接问用 deepsea 看一下 它,这里会回复我们是由深度求索公司那一个研发的这个大模型, 那这个模式像这种方式呢?都是用一条的命令方式,那还有没有办法用?呃另外一种方法呢?就不用一条命令,我们用那种直接 on 使用的是什么? openclock on board 这条命令呢,就是类似于刚刚安装的时候我们去执行,那我接下来也给大家去演示一下这个呃,我们用这种命令,使用 openclock, 使用这样子的粗俗化的方式去呃配置我们的 deepseek 的 这个呃模型。那首先呢,我现在呢先给它做一个啊,先把这个呢做一下来还原。其实所有我们所有配置的这个 wincore 的 这些配置参数都在这个文件里面,我先把这个删掉, 删掉完之后复原这个文件, 我重命名一下,我复原这个文件之后呢,我们我在这里呢先给他什么,先把它网关 重启一下啊,重启完之后我们确认一下是不是恢复到我之前的呃初设设置,我刷新一下啊, 这已经呃复原到最早的之前的设置了。好了,我现在呢给大家去演示一下这个什么呃通过这个叫做 open, 通过这条命令怎么去呃配置我们的 deepcom 这个模型,那我们执行这条命令叫 opencloud on board 的 这个命令, 那这个执行完之后呢?他就是我们,就像我们第一次安装的时候会告诉我们这个呃一些风险信息吧。完了我们给他确认一下这个选择 yes 啊,这个还是继续选择 quickstar, 那 这里呢告诉我们什么配置,是否继承原来的值,那我们选择第一个就可以了。 use assign 就是 继承原来的值, 那关键就是这些位这个位置了,这个位置这里的模型驱动商呢?有这么多个,那我们要选择哪一个呢?我们选择的是这个叫做 custom, 因为这里没有 dsp 的 那个默认的夫商,所以说我们这里要选择的是自定义的 夫商,那我们选择这个回车,那回车完之后,关键这个位置的 api, 那 个 api base url, 这一个要改成什么?就是我们的模型的接口地址, 这里的接口地址呢?要改成我们的这个叫 deepsafe v 一 的这个默认模型,那我们啊路径改一下,黏贴进来,就一定要改成这什么 a p i deepsafe, 点 com 点 v e 这个 u r 的 地址呢?是兼容 openai 的 接口模式。那我们回车,那这里呢?我们是什么?呃,黏贴那个 api key 的 值,那我们把 api key 的 值黏贴进来, 然后呢这个位置这里有三个参数,是选哪一个呢?我们要选择的是什么?叫做呃,说明兼容和 ai 模式协议,然后我们这里选择第一个兼容 open ai 协议, 那这里呢? model id 又是什么呢? model id 呢?这里呢是设置默认模型,也就是这个提供了哪些的默认模型?然后我们选择呃,输入 d e e p s e k 默认模型,然后显示 a t, 其实就是这一个, 其实就是呃这个位置接口文件里面的这个,其实就是这个, 其实就是这个。这个 deepsafe 提供的这一个叫做什么?推理模型跟聊天模型,然后我现在先选择的是聊天模型,叫 deepsafe chat 的 这个模型。好了,那我们给它 model id 选择了 deepsafe chat, 那这里的是什么呢?那 point id 又是干什么的呢?那 point id 它其实是是模型的一个小名,那我们这里的小名呢?也可以叫让它默认叫 custom api, 这个默认的也行,那我们选择用默认值吧。 那第二个是这个是别名,那这里的别名呢?我们也可以不填,没关系,我们直接敲回车也不填。然后第三个,这什么使用的一些我们交互的方式吧,那这个我们直接跳过啊,这里呢也是直接跳过, 然后这个是配置技能,那技能像我们之前也配置过了,我们可以选择 low, 也可以选择 yes 或者点 yes, 在 这里面跳过也行。我们先跳过,那这后面都是跳过了啊,像谷歌的,国外的这些 a p i 我 们都跳过,目前都没有申请 好了,那这个是不可使的,这个也跳过,那现在最后步呢?这个是什么呢?我们再重启一下就可以了。重启网关, 重启完关之后我们选择的是什么?还是继续选择 open 的 web ui 的 这个方式,然后呢它这里呢?它这里呢?你看它这种方式也可以把这个 deepseek 的 这个模型给它配置进来,那这个就是我们呃默认的这种, 呃自定义的方式,把 deepseek 的 一些那个 a p i 呢?呃配置到小龙虾里面去好了。呃,这个今天呢,呃,跟大家讲的这个第三方的 a p i 呢?呃就到这里了。

速度提高了两倍,性能却可以逼进满血的 gpt 五点四,什么模型这么强?就在刚刚, openai 推出 gpt 五点四 mini 和 gpt 五点四 nano 相比上一代响应和运行速度提高了两倍, gpt 五点四 mini 更是突出,性能直逼满血的 gpt 五点四,成本更低,运行速度更快。 api 已经接入 codex, 对 于经常用 codex 的 玩家来说是个大福利,因为简单 codex 的 项目可以让 gpt 五点四迷你来处理了,不需要再像之前那样苦苦等待 gpt 五点四蜗牛般的响应速度了。 另外,谷歌也不甘示弱,放出重大福利, jamming 的 免费用户也支持个人数据库了,从通用的 ai 模型到个人专属的 ai 模型,重要的是这些个人数据不会用于 jamming 的 训练,保证了用户的隐私。 这相当于是用闭园强大的 ai 模型享受上开园 ai 模型的专属福利。关注茶官, ai 学习不迷路!

全世界都在等的 deepsea 微四版本终于快来了,它会是 ai 时代的拼多多吗?大家好,这是动力枪极速版,一个直讲前沿科技的账号。就在昨天著名的 ai 开发的社区 l 站上,有博主发帖称,自己正在内测的 deepsea 微四 light 测试版在本周二悄悄升级到了零三零二版,公开测试的部分成绩已经接近了美国 astonropac 公 此基建模型 cloudsonnet 四点六,可以轻松地写出我的世界风格的游戏,相关的前端代码也非常的风格化。其他的测试人员也表示, deepsea v 四将在 app 和网页版首发,大概也是考虑到去年用户量激增对中国云基建产生的冲击, api 接口将暂缓发布,优先保证用户体验,要不然接口开了所有人一起用的话,又得跟去年一样挡机了。 那么问题来了, deepsea v 四能不能成为下一个国运级的 ai 产品呢?答案是肯定的,因为大众对它的期待已经达到了历史的新高度,公众已经不允许它失败了。 我们来看一组晚点统计的数据啊, deepsea 的 中国用户粘性非常夸张,在春节期间红包大战和 cds 二零的冲击之下, deepsea 的 用户使用时长在短时间内是暴跌的。但是随着其他厂家春节活动的结束, deepsea 的 人均使用时长和使用频次又再次回升,回到了绝对第一的位置。 再加上去年中国正体市场的推广,让大量的人手机里面都装上了 deepsea, 这样的数据足以说明 deepsea 在 中国是有绝对的基本盘优势的。 第二就是 deep stack, v 四版本的能力没有拉垮,早在上个月的 ai 混战中, deep stack 就 已经完成开发了,开始闭门测试了,有开发者和云浮厂商参与测试。根据测试人员透露信息,参数模型方面, v 四 light 版本估计为两千亿,而完整版的 v 四参数量可能突破一万亿,同时呢,也支持一百万 token 的 上下文知识库也更新到了去年的九月份, 在任务完成方面表现得更加出色。相关的测试也反馈啊,该版本在深层复杂的 svg、 矢量图形等高难度任务上表现惊艳。 v 四版的性能明显是优于现有的网页端和 app 端的模型的 各项泄露的跑分可以说是遥遥领先,然而却迎来了行业打假。部分媒体对流传的测试数据提出了质疑。新智源和多位技术博主的指出啊,网传跑分途中的数据存在硬伤,比如说这个数据竞赛得分在统计上是不合理的,权威机构也确认网传的数据是伪造的。然而面对泄露的信息和跑分传言, dpc 的 团队选择沉默,没有进行任何回应。 刚才我觉得啊 deepsea 团队还是一如既往的低调,他们是拿产品说话的。在过去两代模型里边, deepsea 一 直在做一件事,那就是用工程能力把成本给打下来。在中美 ai 技术竞赛中,中国从一开始的技术追随者在两段时间内就走出了完全不同的路线。美国现在走的呢,是以 open ai、 algorithmic 和谷歌主导的高端技术路线, 模型更大,训练成本更高,系统更封闭,但是呢,价格要更贵一些,可以理解为是资本密集型 ai。 而像 deepsea, deepsea、 kimi, mini max 等公司在遭遇算力紧张的大背景下, 思考如何优化成本。他们用上了专家混合模型架构,压缩推理成本,优化训练效率,最终结果就是百万投放的成本已经降到了接近一到两块钱人民币。虽然说相关模型的性能可能只有国外旗舰模型的百分之九十,但是它的成本却只有对方的百分之十, 深受普通用户和重要企业的欢迎。所以啊,这个事就非常的,中国制造不拼谁最强,拼的是谁最便宜。好用这种方法呢,也打破了很多人的陈旧认知,美国在定义 ai 的 上限,而中国正在定义 ai 的 价格。 东方商业历史,决定行业规模的不是上限,而是价格,这跟拼夕夕的逻辑是一模一样的,只有让更广大的用户用上了 ai, 才能够继续谈 ai 技术突破和市场规模的事。所以啊, deepsea 微四版本,我既希望他快点来,又希望他不要那么着急。各位,你们期待 deepsea 微四吗?欢迎在评论区里面一起交流哦,记得点关注我们,下次见,拜拜!

oppo klo 火出圈之后,连带着 ai 养虾都成了热门话题,甚至还成了 mini max 越暗质朴的财神爷。最开始大家还只是在技术论坛里交流怎么搭环境、跑测试,谁都没料到热度会爆的这么快。励志艾面动手最早二月十八日便上线了一件部署工具 kimi klo。 当然消费也高,高级版用户需每月花一百九十九元才能使用。其次是吃到最多红利的 mini max。 二月级 oppo klo 刚显出破圈的苗头,他就上线了。基于这个框架搭建的 max klo 直接把普通用户的上手门槛降到了最低,不用折腾服务器配置,不用对着代码文档调试, 打开网页就能直接用。没过一周,又把 ios 和安卓端的移动端版本推了出来。文文接住了破圈后涌进来的海量用户。短短一个多月,凭借着与 oppo 科尔胜肽的深度绑定,在港股市场, mini max 智普 ai 市值双双突破三千亿港元。 不过好多跟着入坑 ai 养虾的朋友转头就懵了,市面上这么推 ai 模型,到底哪个才能真的拿来养好虾?刚好有份用 pinch, pinch 做的权威度测评出来了,不光看纸面分数,还实打实测了模型的干活能力和使用成本。成功率这块,谷歌的 g mini 三 flash preview 以百分之九十五点一的成绩排在第一,确实能打。 但最亮眼的还是国产模型 mini max m, 二点一和 kimi k 二五之间冲进了全球前三,成功率分别是百分之九十三点六和百分之九十三点四。科卡外头部模型几乎没差距,百分之九十以上成功率的第一梯队基本被谷歌 mini max kimi 和 andro 的 最新模型占满, oppo ai 的 g p d 四 o 系列掉到了百分之八十五左右, 还有些模型连百分之七十的成功率都没有摸到。速度这块头部模型咬得特别紧,最快的 mini max m 二点五和第二名的 g p m 二点零 fresh 耗时差了不到零点一秒, 基本可以忽略。普济成本段的差距就夸张了,最便宜的 g b t 五 nano 只要三美分,最贵的科尔多克斯四点六要五点八九美元,差了快两百倍。结果后者的成功率还没有前者高,性价比直接拉垮, 最后屡下来,真要拿来养虾落地干活。 mini max m 二点一和 kimi k 二点五是真的划算,百分之九十三以上的成功率,成本还不到二十美分, 就是速度稍微慢了一点。要是预算特别紧,只能做简单任务, g b d 五 nano 也能凑合用,那些贵的离谱的高端模型反而没有什么入手的必要。现在 n g 的 工具真的是百花齐放,选择多了反而容易犯选择困难症。其实也不用纠结,没有最好的模型,只有最适合你的场景生产,看成功率,做原型看速度,个人玩看性价比,按需选择就好。

全球 token 使用量上周数据出炉,中国大模型周调用量直接顶到了四点一九万亿, token 环比增长百分之三十五。什么意思呢?就是咱们这边已经把 ai 的 token 当电费在收了啊。连续两周,中国 ai 调用量全球 number one, 直接把老美甩在了身后,我们又又又遥遥领先了。来看第一个 midimax m, 二点五,周调用量一点八七万亿, token, 全球位免冠军, 这处理量相当于一周读完了三亿本书啊。第二个看总量,中国的四点一九万亿,美国三点六三万亿,这已经不是追赶了, 这是我们中国卷王的日常操作,差距只会越拉越大。第三个全球前五,中国占三席,第一个 mini max, 第三个就是 deep sec, 第五个就是 借月星辰啊。以前咱们是靠勤劳致富,在全球拼刺刀,现在咱们是靠算力直接枪尾打击啊。有很多朋友们不懂什么叫 token 啊,我解释一下,就是在 ai 时代把电能转换成算力,最后再转换成 token 啊,让我们来使用这个就叫 token 啊。其实出现这种情况还是国产 api 的 gbt gmail, 你找一个客户写一封开发信,然后发送给客户,这一套自动化流程要一美金,但是用国产的 deepsea, 你 只要一块钱人民币,你每天要是发一万封邮件,处理一千个循环的话,那这个省下来的就是纯利润啊。 这几天我也实际测试了一下,像什么全网搜索行业热点,然后总结成你的行业文章啊,或者是全部自动化下来,也就八毛到一块不等 啊,一天发个十篇文章,也就是不到一杯奶茶的钱,还有就是我发个什么国内的公众号文章,也是不到一块钱。 最方便的就是睡在床上,让小龙虾给你的客户啊,发一个邮件催他付款,问他这个项目进展的怎么样,也就一到两毛钱 啊,这价格已经算是很香了。所以你懂点计算机,有自学能力的还是尽早用起来吧。啊,不会的,你也不要焦虑,再等等啊,让子弹再飞一飞,成熟一点,稳重一点,咱们再用,最后赶紧跟上宇哥的步伐。