小米米某大模型抄袭千问,又到时间给大家科普了,我们先来看段视频,兄弟们,看我发现什么米魔的惊天大瓜啊,我为了证明一下我没有篡改这个网页,我刷新一下,啊, 哈丁 face 官网啊,整个链路都没问题。来来来,我们在这翻到这个第三十六行, ok, 我 们可以看到这是什么东西?千问二的配准键。第三十七行啊,千问二的模型直接导入进来了, 哎,我记得去年好像有一群人在黑那个那个什么华为的盘古啊,说什么里面用的千问啊,说是什么套壳。千问,哎,我就想问一下,怎么米磨这么久了,导入了这么多千问的东西,也没有见有人来说这件事呢。啊,那么这个回旋镖今天打的痛不痛呢?做这个视频的人说实话很不专业, 通过项目里引用了一个开元包就判断他抄袭,没毕业的大学生估计也不会这么去判断吧, 更不用说这是在判断一个 ai 大 模型有没有抄袭。 ai 大 模型是不是抄袭,其实不是看文件里有没有别人的名字,也不是看你用了谁的包,真正要看的是四个关键点, 第一点,权重有没有问题。权重是什么?我举个简单的例子,如果我要判断一辆车是不是性能车,我可能会看两个指标,功率和扭矩, 但这两个指标的重要性它是不一样的。比如在我的判断标准里,功率占百分之六十,扭矩占百分之四十,那这百分之六十和百分之四十就可以理解成权重。大模型也是一样, 大家经常听到某某大模型,他有几百亿的参数,简单理解就是这个模型内部有几百亿级别的权重数字。如果两个大模型在大量底层权重上高度相似,那就很可能涉嫌抄袭。 之前某大模型被质疑抄袭,也是因为权重的相似度过高,而不是因为代码里引用了其他开源的项目。第二点,输出指纹是否相似,其实就是同样的问题,答案的相似度是否过高。 如果大量冷门问题、错误答案,甚至是一些奇怪的 bug 都一模一样,那就很值得怀疑了。第三,训练数据有没有问题?就是有没有使用未经授权的训练数据,或者是拿其他模型的这个输出来偷偷训练。 第四,开源协议有没有遵守?用了别人的代码、模型、结构、工具类等等,有没有遵守协议,有没有该公开的公开,有没有该署名的署名?我们再回过头来看这个视频, 它所谓的证据是什么?就是发现小米 miimo 的 源码里用了千问相关的开源包,那这最多只能说明它引用了开源代码或者是开源主键。 可问题是,千问本来就是开源的,而且是 mit 协议, mit 协议本来就允许使用、修改、商用。小米米某也是开源的,同样是 mit 协议,他没有藏着掖着,也没有必要藏着掖着,因为真正做技术的人都知道,引用开源包 不等于抄袭。如果引用一个开源生态组件都能被说成是抄袭的话,那今天百分之九十九的软件项目都得算抄袭。开源组件本来就是给大家用的,只要遵守协议,只要公开透明,那就没有问题。 真正恶心的是什么?是明明用了开源却对外宣称自己完全没用,明明是站在开源生态上,却非说自己是从零自研。至于前面的三点,目前没有任何证据能够证明小米存在问题,如果有,请你们甩我脸上。 现在是既没有权重证明,也没有输出指纹证明,更没有训练数据证明,仅仅是因为引用了开源包就判断抄袭,要么蠢要么坏。
粉丝1.2万获赞67.9万

现在是小米的 max 阅读套餐啊,这个十六亿的 token 是 小米送,然后从昨天早上八点钟开始吧,到现在差不多四点八亿,快五亿了,也就三十多个小时。五亿 token, 这还是在它这个运算速度受影响的情况, 就是它的这个运算速度跟 calculator 里面的这个就是包月的,这个模型的运算速度还是没法比, calculator 里面有一个叫做 auto 的 这种模式,就这个模式可能比这个小米啊,比千万的 plus 这种运算速度,至少我觉得至少得快十倍或者八倍、七八倍这样子 的。就是如果说这个小米的这个大模型,只要算力够的话,一天烧掉七八个亿或者十来个亿的 token 不 在话下。然后我用这个 小米的 miimo, 这个是 miimo 二点五 pro, 然后这边是一个千万三点六 plus, 然后他们昨天晚上分别做了两个重构的任务,就是非常长的任务,基本上这两个做的都差不多,就是我没想过小米的这个模型其实做出来的这个效果也不错, 但是这两个模型都没有完全的把任务全完成,因为这个涉及到的文件确实挺多的,可能得几十万行代码吧, 他得扫描十几万行代码,那现在这个项目接近二十五万行代码,光文档就有十三万行,所以说体量非常大。这个重构呢,也是重构这个所有的这个命名就是很多变量名,他在写的过程当中命名不规范,然后我就写了一个命名的规范这个文档,让他们重新的把所有的命名全部规范一下, 说为什么这个项目没有上线就重构啊?是因为就是过去,比如说我们做一个项目的话,可能一两年或者两三年就写了一堆的代码,然后史山代码这个时候就有一些比较 大拿吧,技术大拿,或者说是有点洁癖的这些人,他就喜欢去重构这些东西,就是把那些分散在各个角落重复被写的这些功能,然后浓缩到一个工具里面,或者浓缩到一个函数里面, 让所有的业务都去掉这个函数以后每次我想去改点什么东西的话,我就直接在这个函数里面改,其他的这些业务就跟着都变了,大概就是这么个意思吧,重构就是这么个意思,过去你要想重构的话,写出大量重复代码的话,得花很长时间,很多人 才会出现这种问题。但是 ai 恰恰相反,就是它很快就能写出来一堆东西,然后你就会发现你的需求是一个个提上去的,然后它就一个个给你完成,最后你会发现这个需求和那个需求之间它有一些共用的东西,那这个时候你就必须得让它抓紧重构,如果不重构的话 就是属于恶性循环,你的代码会越来越乱,越来越乱,第一是你自己也梳理不清楚,第二就是 ai 也会越来越糊, 就是你的这个项目架构,特别是这个底子如果不好的话,那后面你给他提个需求,他得查一大堆东西。所以比如说我要改一个人的头像,那么这个头像就得在一个地方去改,以后我再上传头像,或者在裁切头像,或者在干其他的事情, 就只要和头像相关的都到这个模块下面去做,如果不这样的话,你这边业务这个页面上有个头像,你想在这改一下,然后你又换了个页面,也在那也改一下,他很快就给你写出来,然后很快就能实现。 你在写的过程当中你好像觉得没什么,但是慢慢你会发现,比如说原来那个头像是切成方的,那我又现在又想把它切成这个长方形的,那这个时候这边切了正方形的,然后那边那个长方形的可能还没动,它还是长方形的,这就会导致就是有可能你的界面不一致什么之类的,反正就是大概类似这样的问题 吧。所以说 ai 写代码只要你发现了有一些重复性的东西的话,它重复在改相同的错误,比如说这个页面上的错误跟 另外一个页面上的错误基本上是一致的,但是他改完这另外一个没变,那就说明这两个地方他是有重复的,两两部分代码就是实现了两次,相当于说是甚至实现三次都有可能。 因为我们的这个需求不可能是一下子就提的特别清楚的,而且架构也不是一下子就能设计的特别完美,所以说这个就是在不停的写,不停的改,然后不停的重构,好在就是重构还不错,然后这个小米的这个 执行呢,一晚上跑下来整个也没断,就他可以跑六七个小时,七八个小时,千问其实也可以跑六七个小时、七八个小时,这两天千问他没有断,就是以前我不是说上个视频,我不是说这个千问就跑着跑着就断了吗?就是算力,这个叫什么?到了到了一个算力上限了, 他就断了这两天。这个千问三点六 plus 就是 这几天啊,还不错。我也不知道是因为我装了小米的原因还是怎么样的,反正就是这两天他没有因为这个算力给我限制了。 小米这个 miimo 二点五 pro 的 这个模型也是一直没有那个断掉过,就是用下来还是蛮稳定的,就白天的时候会有点慢,晚上十二点之后到凌晨的那段时间,它是算力低谷,然后那个时候它是零点乘一个零点八的系数吧,然后整个的这个 算下来的结果我觉得不错,因为我的任务实在是太长了,所以说它是会丢掉一部分东西,但是你再去审核一遍的话会发现,然后再让它去补充这些业务,就一次可能比如列了七八个任务,它就会给你完成三到五个, 然后有些是完成了一半,最后你问他完成了吗?他告诉你只完成了这几项,然后你再接着让他继续完成。那这个过程其实蛮长的,就是从昨天早上八点一直到今天晚上八点三十多个小时吧。呃,有二十多个小时就是完成两个长任务。其实我觉得还不错,毕竟这个人家是白给的嘛,咱也得这 也不能说是完全无脑夸啊。但是确实还不错,就是作为一个卖手机的,卖汽车的,然后做了个大模型,能达到这种水平,就我觉得是不输千问三点六 plus 的, 然后他给的这个 max 的 套餐,我在这个平台上也看了一下。卧槽,这个有点贵啊,这一年合五千多, 五六千吧,然后一个月大概十六亿的 token, 按照这种使用量的话,如果说它的速度不限制的话,我估计这个 十六亿的话,可能也就三四天就能这个给它用光了。但是啊,就是这个项目是这样的,就是在初期的时候野蛮生长的,这个过程当中肯定会消耗很多 token, 但是随着这个功能稳定下来之后,它可能就用不到那么多 token 了, 因为我已经有好多个这个编程账号了,都花了钱的它可能用不到了,我也不会盲目的去一下子买太多账号吧,先看看吧,因为这个项目基本上也到了一个收尾的阶段,所以 说就给大家汇报一下,我觉得如果说你想用 mimo 去编程没有问题,这绝对不是个玩具,这应该是一个工业级的比较可靠的一个大模型了,特别是编程,我觉得还不错。

本地大模型 vs 云端大模型 ron 千万三点六三五 b a 三 b q 下划线四 k m v s 豆包,本地模型需要加载云端模型,点开就用。 提出一个简单的问题,模拟日常使用场景。 问题是看一下我的电脑配置能跑动哪种规模的语言,大模型还可以运行哪些 ai 应用需要用到模型的视觉识别和逻辑推理能力? 目测两个模型 top 输出的时间差不多,本地模型还在思考,豆包直接出答案。本地模型出答案速度很快, 本地模型回答完毕,豆包还在继续生成答案, 豆包也回答完毕。 两个模型对于这种简单问题的答案,质量还比较接近,都很准确。本地模型的知识库截止二零二四年,不如云端模型能时时更新。 本地模型支持搭建个人知识库。云端模型不行,本地模型只消耗电力,没有其他费用。云端模型基础版目前免费,未来可能会收费。

今天我们来做国产大模型从夯到拉的排名,夯级别, deep seek 开源之王六七幺 b 参数,性能炸裂人上人级别,质朴 g l m 和通易千问都是全能选手。 顶级级别,豆包和 mini max 各有特色。 npc 级别,小米米某虽然是新秀,但还需努力! 这个排名你服不服?评论区告诉我!这个排名你服不服?评论区告诉我!这个排名你服不服?评论区告诉我!

哇啊,大家好,今天给大家带来 o m l x 的 最新更新,零点三点九版,这个版本里除了加入了对 deepsea v 四的支持外,最重要是加入了对 m t p 的 原声支持。 mtp 简单的来说就是模型内部的一个投机解码架构,和普通的投机解码相比, mtp 不 需要你额外挂一个草稿模型,所以可以省内存在官方的 github 发布页,大家可以根据自己的 macos 版本下载。 下载完成之后需要下载对应的支持 m t p 解码的模型,我们可以来到 o m x 作者的哈根 face 网站下载后缀带 m t p 的 模型,大家可以根据自己的内存情况酌情下载。 下载完成后,我们需要到模型设置里打开 native m t p 这个选项。这里我们用千万三点六二十七 b 稠密模型做例子, 因为 mtp 对 混合专家模型的加速效果不明显,我们先用 mtp 模型执行一个写修仙小说的任务,我们可以看到速度大约是每秒二十五个 tokens。 下面我们用普通的没有 mtp 的 模型跑一遍相同的提示词, 我们可以看到生成的速度是每秒二十个 tokens。 在 同样都为四比特量化的情况下, mtp 模型比非 mtp 模型的速度快了百分之二十。 我们再来看看巴比特的 m t p 模型,其实我觉得六比特会是一个甜点区间,但是奈何作者没有发布六比特的,所以我们直接上巴比特的。 此时巴比特的千问三点六二十七 b 稠密模型的推理速度也有每秒十八个头,肯斯和四比特五 m t p 的 模型几乎一样,要知道巴比特的量化精度几乎和 f p 八浮点差不多了,几乎达到了满血模型的水平了。 最后我们再用这个几乎满血的巴比特 m t p 模型来驱动最近很火的 hermes, 使用 andrew karp 大 神的 l l m y t 来执行一个搜索并整理知识库的实战任务。 这里我的搜索 api 额度用完了,所以我需要让千问三点六稠密使用浏览器智能体直接操作浏览器来获取信息。 这个 release 页面应该是太长了,我们让他只关注零点三点九的 release 内容。我们可以看到千问三点六二十七币顺利的操作浏览器拿到了所需的信息。 这里他在查看了 l l m wiki 后发现没有相关的内容,然后他阅读并根据 l l m wiki 的 结构开始创建 o m l x 的 相关 wiki 页面。 最后我们可以看到千位顺利的完成了任务,并且按照 l l m v t。 的 结构和要求更新了 skin 吗? index 入口,还更新了 log, 我 们打开 obc 点快速的看一下,很好,没毛病,现在就等拉玛 c 加加的 m p p 更新了,毕竟 g g u f 的 量化性能更好,更小的量化可以带来更好的推理速度呢。

做宠物博主,每天跟狗狗贴贴,我都离不开这幅千万 ai 眼镜记忆,并且支持三 k 录像,最长三分钟,超十分钟 vlog 连续录制。还值得一提的是,它的零点六秒极速抓拍,能够轻松抓到狗狗每一个可爱的瞬间。只需要说 千万录像,就能录制第一视角高清画面。它还采用 ai 云台双重防抖,拍摄的视频更稳定流畅。平时拍毛孩子日常素材不用再额外举着手机全程解放双手,每一帧可爱互动都能轻松记录下来。想好好记录毛孩子成长的宠物博主,这副千万 ai 眼镜记忆,真的可以闭眼入啦!

这期是为江苏某企业配置一台满足 ai 视觉检测工作站,支持两百人并发私有化部署。千问三点五一百二十二 b 模型搭配 a m d t r 七九六零 x 二十四核心四十八线程锐屏五点三 g, 负责检测前的数据预处理与调度运算。四根六十四 g d d r 五 r e c c 五六零零内存条两百五十六 g, 能避免做视觉研发卡顿与数据异常。两张 r t x pro 六千九六 g 工作站版用于企业本地部署。千万三点五杠一二二 b n v f p 四,能满足两百人在线并发稳定落地。 显卡架构推理性强,模型部署能覆盖企业的研发、售前、售后等场景应用,实现一机多用,性价比极高。

国内的 ai 软件我个人推荐还是切问,那么这是阿里出品的,为什么呢?相比豆包和 kimi, 切问是很多功能都是免费的,这是最主要的, 那么而且它的功能呢,是比较多,品质也比较高。你让他做出来的东西啊,你看啊,让他那个最新的这个 happy house 生成了这个视频,你看啊, 几乎是比较逼真的。那么你还可以让他去做,比如说是 ai 深土,我让他这个生成了海边的一些婚纱照, 那我们看一下,相当的不错的啊,那大家看一下,这是完全两个自然的这个人哎,就是自然照变成了婚纱照,是非常不错的。 那么其他比如说是你让他做一些抖音短视频的脚本,他也能做好的。 那比如说是我们可以让它这个脚本我做出来的啊,那可可以看一下,也是相当不错,它都可以各种各样,都可以跟你说内容啊,台词啊, 是吧?都可以。那除了这些功能,其他还有很多功能呢,你看一下 ppt 的 生成, 那些代码翻译、写作、录音资料也是相当好用,他会录的啊,每个人说的声音,那么他都会录, 那这个是功能非常好的,真的蛮值得的这个软件。

国产大模型从夯到拉,排名来了, deep seek 必须是夯开源之王智普 g l m 和千问都是人上人级别, 豆包和 mini max 属于顶级水平, mino 只能算 npc, 小 米还需努力,这个排名你服不服?评论区见。

国产 ai 的 春天真的来了,家人们国产大模型现在真的支棱起来了!阿里千问三点六直接拿下 calderina 编程榜单, 国产第一,全球第二,仅次于 cloud code。 一 百万 tocan 的 上下文设计稿,直接生成前端代码适配全智能体框架。 今天就硬核测评一下千问三点六 vs cloud code, 看看国产 ai 编程的水平到底是什么样的。先划重点,这次的千问三点六的成绩可不是厂家自吹的,是全球权威盲测榜单 codrina 的 结果。真人程序员测评 一千四百五十二分,直接超越了 openai o 三 mini 就 追着 cloud code 跑。首先比核心能力, cloud code 正在复杂逻辑处理、前沿技术理解、 架构设计、高阶算法这块还是全球顶流。但是千问三点六直接把国产编程模型天花板拉高了一百万,头啃的是超大上下文,超长代码文档直接啃, 原生多模态更狠。设计师丢一张 ui 稿,它能直接生成附用的前端代码,这波时操心直接拉满咱们实测场景见真章。日常开发写业务流的代码 单元测试,做代码的注视简单的低 bug, 千万三点六完全能打,甚至中文理解更符合国内的 程序员习惯。变量命名、注式风格全都是咱们熟悉的套路,响应速度还贼快。但碰到了超复杂结构设计、前沿算法调研,还是 cloud code 更胜一筹,细节把控、逻辑严谨性 略胜一筹。最香的还是价格千万三点六,两元就能解锁百万级的 ai 编程。再看生态和适配,千万三点六全面兼容了主流智能体框架, 阿里云还同步推出了企业版代码审查、安全检测、私有部署全安排,企业客户可以直接从 amblanc 迁过来,省钱。还支持国产 cloud code, 胜在生态积累久,和 i d e 的 集成比千问更成熟, 但千万三点六的迭代速度肉眼可见,差距已经在快速的缩小。总结下来呢,日常开发千万三点六完全能替代 cloud code, 性价比拉满。 复杂项目可以用千问做基础开发, cloud 做核心优化,双模型搭配,直接效率翻番。这次千问三点六的突破,可不是单纯拿个排名,而是国产 ai 在 编程这个核心赛道实现了从跟跑到并跑的跨越。 以前总说国产大模型不如国际顶尖,现在千问三点六用硬实力证明,在细分领域我们已经可以正面刚了。 当然,客观的说,和 cloud code 在 复杂场景还有点差距,但架不住咱们性价比高、迭代快,符合国内开发者需求。后续千万再优化 i d e 集成股权前沿技术库, 真的有机会冲向全球第一。国产 ai 的 春天真的来了。评论区说一说,你要不要充千万三点六,下期实测千万三点六设计搞正代码的真实效果。

养狗人的随身爱搭子就是这副千万 ai 眼镜 s 一, 每天呢都能记录小狗和自己的美妙生活,真的太棒了!有了它呀,养宠小麻烦轻松解决!小狗不配合梳毛怎么办?你好,千万来了,狗狗梳毛不配合怎么办?先降低它的抗拒 感!这回复啊,靠谱,赶紧来试试!还真配合梳毛了,一阵式解决难题!想记录小狗萌它,一个指令啊,就能搞定!千万录像, ai 云台双重防抖,看这拍摄的画面,又稳定又清晰,真的不错,不用举着手机边跟狗狗玩,就把视频拍好了。有了千万 ai 眼镜 s 一, 养狗生活变得更加惬意。

大模型时代,别再选错了。你有没有发现,用 ai 写出来的内容总是差点意思,不是 ai 不 行,是你没用对模型。 你有没有过这种经历?用 gpt 写文章被限制,用 cloud 做中文创意差点意思,用 gemini 处理长文本,结果总丢内容。不是工具不行,是你没选对。 为什么你选的大模型总是不够好用?因为大模型没有最好,只有最适合,选错模型等于白花钱,加效率打折。 第一个维度,推理能力。它决定了这个模型能不能处理复杂任务,比如做数据分析,写专业报告,做多步骤推理。 gpt 四的推理能力目前是最强的。 第二个维度,速度。同样的任务,有些模型需要三十秒,有些只需要五秒,速度直接影响你的使用体验等的心烦,效率就下去了。 第三个维度,成本。同样是 gpt 四,官方订阅每月二十美元,但通过 api 按量付费可能更划算,选对付费方式能省不少钱。 第四个维度,中文能力。很多国外模型英文很强,但中文处理差点意思。对于中文用户来说,这个维度最重要,直接决定用起来顺不顺手。 第五个维度,安全合规。你的数据会不会被存留?生成内容有没有安全红线,企业使用的话,合规性是必须考虑的,这一条很多人忽略了。 第六个维度,生态模型本身再强,如果没有插件,没有完善 api, 无法集成到你现有的工具里,用起来会很麻烦,生态越丰富,用起来越顺。好,六个维度讲完了,现在给你一个决策思路,先问自己,我的核心任务是什么? 任务定好了,模型选的就清晰了。如果你是写作创作者,写公众号,写文案,做内容策划,括号的三点五目前是最有选择。它的创意能力强,中文表达流畅,逻辑结构清晰。 如果你是程序员,写代码、 debug, 读代码、架构设计, gpt 四仍然是首选。它的代码能力最强,支持的上下文最长,处理大型项目最得心应手。 如果你是企业用户,关注数据安全合规团队协助国内模型更合适。通一千问,背靠阿里云生态, g l l 开源可控,都适合企业场景。 如果你是研究人员或学生,读论文、整理文献,做文献综述, timi 的 掌上下文能力是他最大的优势。二十万字的论文直接丢进去,他能帮你梳理。 如果你需要处理图片、视频、音频多种内容, jammer 是 多模态能力最强的,可以一个模型搞定多种媒体类型的理解和生成。 好,这里是总览,看不懂哪个没关系。后面每一期,我会把每个模型单独讲透,每个模型的强项、弱项,最适合的场景,一张图全部看清,先把这张图保存起来。 接下来的系列,我会把每一个模型单独用一期讲透。 g p t 四 cloud gemini kimi 同意签问 g l m minimax 明某一共九期,真正讲透绝不浮于表面。 每期五分钟,二十个场景,每一个模型都从档案能力、场景对比、适用人群五个维度讲透,不讲废话,全是干货,让你能直接做出选择。 下一期,我们从 gpt 四开始,它是当前最被广泛使用的大模型,也是很多其他模型的参照标杆。 gpt 四到底强在哪里?适合什么人?有哪些短板?下期见。如果你觉得有用,订阅订正新,每天更新,我们一起看懂 ai。

大家好,我是程序员老马,今天给大家带来 q n 三点六 plus 实测,仅一天,他就以一点四万亿 token 的 调用量打破 open router 全球记录,直接拿下日榜第一。 实测过程中有收获也有不少避坑感悟。首先,通过 open router 接入模型,主要目的测试辅助 ai 编程。此次接入整体步骤较为简单,无需复杂的技术操作。但有一个关键点需要提醒,注册 open router 账号时必须开启局代理,若未开启, 浏览器会拦截验证码插件,导致无法完成注册或登录,进而无法获取配置所需的 epikey, 直接阻断接入流程,新手极易在此踩坑。在三方 ide 中完成配置后就可以进行操作,开启对话发布指令。 由于是免费使用模型,模型调用失败的概率极高,严重影响编程辅助效率。问题的根源在于 open router 的 海外服务节点偏少,免费版本的节点支持不足,导致稳定性大打折扣。 综合本次实战体验, q n 三点六 plus 免费版日常使用问题不大,如果进行比较重的任务,就会出现稳定性不足。想要简单体验 q n 三点六 plus, 可直接在千问客户端 api 服务,按照提醒进行大模型体验,选择对应模型即可,无需部署配置 会消耗免费额度。最后,建议大家不必在免费版本上过度消耗精力。若想真正感受 q n 三点六 plus 的 流畅体验和编程辅助优势,不妨尝试付费版本,能有效规避各类问题,提升实操效率。

千万三点七 max 发布测试结果,接近顶尖模型水平一分钟了解!这两天,千万三点七 max 发布了,在第三方机构和微软全球大模型盲测总榜中,千万三点七 max 超过几米 k 二点六、 deep sec v 四 pro glam 五点一,与 g p t cloud gemini 最强模型接近,位列国产模型第一。在编程智能体方面,千万三点七 max 在 s w e pro、 s w e montingale 等测评中均取得领先,表现在 terminal batch 二点零, terminus 得分六十九点七。在通用智能体方面,千万三点七 max 提升显著,在 m c p artless、 m c p mark skill batch 等现实能力测试中表现优异,超越 glum 五点一、几米 k 二点六,创下国产新高。支持 perseum thinking 参数,保留前序轮次思维内容,增强 agent 决策一致性,减少重复推理,投可消耗默认关闭。推荐用于 agent 长周期任务 测试了下,在跨框架泛化能力还是不错的,比如在 clod code 下能够长时间工作,但也发现需要更精准的提示词和长期迭代, 一般太模糊的提示词第一次出来效果都不是很好,需要多轮接待。各项指标跑分上已是国内搜塔,但体验下来感觉部分能力还是可以的,部分水平已接近顶尖模型。

千万,早呀,有什么不饿肚子又能减脂的建议吗?别焦虑,我帮你科学减脂,不饿肚子也能瘦。 你好,千万,我现在有杯冰美式,给我搭配一个减脂早餐吧。你可以拿一个茶叶蛋,再加一根即食鸡胸肉,蛋白质直接拉满,碳水的话,选一根蒸玉米或者一个红薯。 请问中午不知道吃啥?帮我做个随机减脂午餐选择器。好的,收到你的需求,我将为你设计一个随机减脂午餐选择器。 帮我叫个鸡胸肉减脂餐,要有玉米和红薯,想吃点有劲的更舒服。我给你找了几款搭配齐全、配送也快的减脂餐。 坐于椅上,背部挺直,双腿交替伸直,抬起至与地面平行,保持三十秒,每侧各做五到六组。帮我做一份一周减脂计划表和体重记录表。 以下为七天完整训练安排,总时长控制在六十到九十分钟,每天含热身与拉伸,强度适中,便于坚持。