兄弟们,如果你需要本地制造 token, 看下加了 cloud 四点六 opus 的 这款模型。首先咱不说复杂参数,先提个关键一点,这个模型是 obliterate 消融版本, 简单说就是移除了大部分拒绝项链和安全护栏,平时用的时候不会轻易拒绝你的请求。再说说实际使用感受,加了 opus 的 这款代码,能力接近 cloud opus 水平,实测下来生成很丝滑。最后根据你的显卡选择参数。
粉丝1707获赞1.4万

国行苹果智能这回真的要来了,就在苹果刚刚发布的 macbook air 详情页上,苹果罕见的把国行 ai 内置的模型给放出来了, 用的是千万三的十四 b, 还是一个四 b 的 量化的低精度小模型啊,看来苹果的策略还是优先追求速度。我们看到千万自己官网的模型已经更新到了三点五了,就更别说外版目前用的是内加五的模型了, 大家可以自行去搜索一下两者模型之间的差距到底有多少,我自己也问了一下,看来这个三点五的数据库非常诡异啊,从尝试来判断,两者还是有较大的差距的, 不过相信对于国行用户来说,都这个时候了,能用就行了,还要啥自行车呀。按照苹果目前的发布节奏来看,如果 i s r 六点四的正式版上不出现, 很有可能会拖到 w w d c r 六上正式公布。都等了这么久了,不妨再等等吧,我到时候也会第一时间给大家带来深度测评,还请大家一见三连。

尝试在这台老爷机上部署千万三点五,处理器是 i 五四五七零八 g, 内存无读写,我用的是 rms 对 d l 进行部署,打开官网下载安装即可。安装好之后下载千万三点五模型, 我们直接进行搜索,模型越大就越聪明,但是配置要求也越高,我就下载零点八 b 模型来演示,大家可以根据自己的需求和配置进行下载, 下载好模型就可以进行载入了,载入时可以设置上下横,长度也是根据自己的配置和需求设置, 到这里模型已经可以跑起来了,如果不需要联网搜索和本地知识库,做到这一步就行。如果需要联网搜索,就打开浏览器的插件中心搜索,配置 sis 插件进行安装, 然后打开插件设置,把语言改成中文, 搜索引擎可以改成百度搜索,结果按需修改,改好后记得点保存。然后回到 r m, 打开网络服务, 再回到插件,设置了 api 添加供应商, 选择 r m studio 保存即可。点击新聊天,选择千吻模型就可以在网页里进行对话了, 需要联网搜索就打开下面的开关,点击引用的网页就可以看到千吻通过网络搜索到的内容。 然后是建立本地知识库,先在设置里选择文本切入模型,那么会自动帮我们下载好,下了菜单里没有的话就等一会, 记得点保存。现在就可以在知识管理上传我们自己的知识库了, 等状态变成已完成,就能在对话里调用知识点进行回答,点击输入框下方的知识点,选择刚刚上传的知识点即可。

云端 ai 托盘太贵,这节课教你本地部署 ai 大 模型,零成本使用纤维三点五,彻底告别托盘焦虑。我们这里会使用 o m l x 来运行大模型, 点击这里,请直接到下载页找到最新正式版本,未来稳定期间请不要找标注 dv 的 版本,找到后点击 s s, 根据操作系统版本下载。安装方法非常简单,直接拖拽过来即可。安装完成后直接运行,初次打开会弹出提示页面端口和其他的保持默认,点击启动服务, 提示成功后再点击。打开管理面板,在顶部的菜单中也可以实现这些操作。管理面板打开后接着安装模型,在顶部菜单,点击模型下载器页面,打开后用最快的速度点击摩塔社区,这是因为打开这个页面后会自动联网查找模型,但是由于网络不通问题,可能会导致页面卡死, 我们快速切换到摩塔社区,让它来不及联网就不会卡住了。点击模型下载器旁边的设置按钮,修改镜像地址为 h f mirror 点 com, 点击保存按钮,现在可以切换回来了,在搜索框里搜索千问三点五九 b mx 杠 speed 这个模型,这个模型的性能对一些常规需求已经非常足够了,运行起来大概占用六 g 左右内存,最低配置十六 g 内存的 bug, mini m 四都可以流畅运行。找到后点击下载按钮,因为我这里已经装过了,就不重复下载了,等待下载完成后会自动安装。再设置 模型,设置里可以看到已安装的模型,点击最右边的设置按钮图标,这里推荐设置聊天模板参数,点击添加设置 enable sync 值为 force, 不 然每次聊天呢,它都会思考很久。其他设置大家根据自己的电脑配置来调整,完成后点击保存,点击就绪按钮 会变成已加载状态,模型已经运行起来了,点击导航栏的聊天按钮,确认下顶部选择了正确的模型。现在啊,可以直接发消息给他, ai 会马上进行回复。 回到仪表盘里可以看到 tok 统计信息。总结下,在 mark m 系列芯片上,可以使用 o m x 来运行本地 ai 大 模型,彻底告别 tok 焦虑。低配置的 mac 电脑推荐使用纤维三点五杠九 b, 这个模型只占据六 g 左右内存, 而且性能足够使用,完全可以用来驱动 open core 文字版内容请看课程讲英文档。下节课我们继续学习 open core 的 安装,并对接上这节课所部署的本地 ai 大 模型。

朋友们,本地部署那个大模型还是可行的,我根据网友的建议去用了这个,用这个模型加载器,然后我现在在本地部署,在 mac mini m 四上部署的,然后我现在问他一下,他响应速度还行, 你看没这么快就响应量也还可以,你看响应速度非常棒。 然后就是这个拓展处理的话,拓展量非常大,如果说你本地绘画的话就还好,如果说你上 ag 的 话就得上这个模型, 不是这个模型这个容器吧,用这个加速就挺好的,可以部署本地的。

我给大家免费送一百万的千问 token, 帮助大家跑通 opencloud, 构建自己的数字员工。 其实 opencloud 的 配置并没有大家想象中的那么复杂,我们首先打开 opencloud 的 中文官网,点击安装,我们这里能看到两个命令,我这里以 windows 命令为令,打开 power shell, 输入这行指令,它会自动配置环境并安装。首先我们需要选择模型供应商,这有很多的模型,比如说 mini max, 智普,我们这里选择自定义模型供应商,因为这是我自己建的一个, 然后复制一下,然后把这个 key 复制进去,把密钥复制进去,然后选择第一个 open ai, 最后配置一下使用哪个模型,我们这里使用千问三点五 plus 模型, 然后它会自动的去验证是否有效,我们问它是什么模型好,我们看到它已经回答出来它的是千问三点五 plus, 那 么我们这配置就完成了。接下来大家就可以自由的发挥自己的想象力,养自己的龙虾。 大家如果想要更进一步的配置你的龙虾机器人,需要用到其他的大模型的 api, 我 提供的 api 只是用来测试的。 我现在已经开始用龙虾机器人搭建自己的一人公司。我会在接下来的视频里分享我的进展,欢迎大家关注。

what? 昨天阿里千问团队发布了其千问三点五家族的一系列小模型, 官方的 benchmark 自然是吊打一众体量更大的模型,且在某些项目里碾压闭园的 chat gpt 五 mini 和谷歌的 gemini 二点五 flash。 本频道的老传统,我们只看疗效,所以我替大家跑了一下测试。 不过作为一个九 b 的 小模型,大家也可以自己在本地推理运行,实际使用,看看测试问题和评分标准。在这里大家可以暂停查看,你也可以自己到我的两个网站查看模型测试的得分情况和测试的结果。首先介绍一下模型, 我使用的是 mx f p 四的量化版本,好在苹果 m l x 推理框架下,此时千万三点五的九币模型,以下简称九币,在测试里拿到了七十三点五分,这是一个相当不错的成绩, 这个成绩可以说是通杀了千万三的中等体积三十币的模型,这一点和官方发布一致,甚至略强于欧洲的 davestro 一 百二十三币, 这是一个体量十二倍有余的大家伙。同时我们还可以发现,九币和三十五币是紧紧挨着的, 得分非常接近。去掉上下文和多模态的支持,此时九币的得分是六十六点五分。 下面我们来看单个类别。在中英文的创意写作部分,九 b 的 得分是十三点七分,这个得分是偏低的,和几乎一年前发布的 deepsea r 一 零五二八齐平。应用文写作的成绩也是偏低,只得到了十五点八分, 属于倒数的行列。数学和物理方面得分则是相当高,拿下了十九点八分,几乎是满分,不过在我测试过的模型里,似乎数学和物理的得分都非常高, 这其实也从侧面显示了大模型的一个训练方向。在写代码的部分,九臂非常意外的干掉了三十五臂。这里我们开启对比模式,我们可以看到平胡骑自行车的 svg 动画项目里,两者可以说是都非常拉,但是九臂拉的更多。 而在 html 手机操作系统模拟器的项目里,九臂的表现竟然意外的还不错,不过也就是看着不错, app 没有一个可以互动,不过三十五币也没好到哪里去就是了,两者可以说是半斤八两, 拍四六边形小球测试,两者各有千秋,但是根据打分标准, colode opus 四点六给了九币的代码质量一个更高的分数,我们就不去质疑 colode opus 四点六了哈。 综合来说,九币的得分还是属于符合预期的。至于为什么和三十五币如此接近,其实在社区间有一种算法, 即混合专家模型和筹密模型比的话,其实际智力水平就是用总餐数量乘以激活餐数量除以十,所以三十五币的智力水平 就是一个十倍稠密模型的水平。而这就是为什么作为千万三点五家族里中等体量的二十七倍稠密模型的性能如此强大原因,毕 竟人家每次推理都会激活所有二十七倍餐数量,而三十五币每次只激活三倍餐数量,性能自然不可同日而语。最后预告一下,下一期我们会测试一下更小的四倍模型,敬请期待哦!

what? 大家好,这一期是最后的千问三点五小模型四 b 的 实测,并且对千问三点五家族中小模型的一个总结性视频,这里也是测试好的结果,最终得分是六十二分, 看起来还可以,甚至超过体量大很多的 g p t o s s 二十 b 和千问三的三十 b 模型,但这都是拜千问三点五的上下文和多模态的加分, 如果去掉上下文和多模态的加分,此时四 b 的 得分就只有五十五分了,属于垫底的水平,不过还是比两 b 和零点八 b 强, 这两个模型属于是图一乐,硬要说使用场景,可能当做 o c 二模型使用吧。从得分的分布来看,创意写作部分得分是十一分,也是属于垫底的水平。 这里要特别指出英文创意写作部分,在明确要求写英文的时候,他输出的是中文,这个情况和零点八 b 的 模型是一样的。 应用文写作倒是意外的还不错,得到十七点四分的好成绩,甚至超过了九 b, 且三个子项即 jimmy 克洛德和 gpt 的 三方打分环节表现都不错。数学和物理的问答部分就很有意思了, 首先数学表现相当不错,得到了九点七的高分,但是物理只得到了六分。最后的代码智能体部分对这个四 b 的 小模型来说也着实太难了。 首先我们来看看 svg 鹭湖骑自行车动画,大家可以自己看看鹭湖和自行车哪个看得出来。 但是很有意思的是, html 手机模拟器的项目里,四 b 模型竟然得到了六点四的高分,大家可以自己看看,这个效果 可以说和三十五币放在一起也毫不逊色,感觉是针对过 h t m o 写代码有优化。最后的拍摄六边形小球测试则是直接 crash, 我 好歹给了个零点五分,毕竟调用了 open code 的 工具写了代码, closed, opus 则是给了三分。至此,千问三点五家族除了旗舰模型三百九十七币外,所有可以本地推理的模型我都测试完了。这里是总览, 他们的成绩可以说是非常符合直觉的,按照餐数量的大小呈现一个明显的递增的趋势。其中难得的是,九币这个模型综合性能竟然非常接近三十五币的混合专家模型。如果我们加入千万家族的上一代模型对比的话, 再拿掉上下文和多模态之后,代际之间的性能是可以明显感知出来的。九 b 超过了上一代的三十 b 模型,但是上一代的八十 b 模型还是强于三点五的三十五 b, 但是却被三点五的一百二十二 b 模型吊打。 总结一下,千万三点五家族模型九 b 参数量的模型,作为一个甜点模型,在八 g 显存就可以轻松部署, 且推理速度也有保障,同时支持多模态及图片和视频,让其可以胜任大多数人的普通任务,比如图片的搜索,图文的总结和查询,是一个非常值得推荐本地部署的模型。

大家好,我是小木头。在新春佳节之际,首先呢祝大家在马年新年快乐,万事如意,身体健康,马到成功。在新春来临之际,通易千万也发布了他们最新款的大模型千万三点五, 本期视频,我们就来了解一下这款全新的大模型,并且尝试将其集成到 openclock, 从而打造自己最强的国产 ai 助手。 那现在就开始咱们马年的第一期视频分享吧。首先咱们对千万三点五还是来做一番简单的了解,这是通用千万系列最新一代模型千万三点五首发开放权重版本是三九五 b a 十七 b, 这个是整个三点五系列的起点。大家要注意的是,这是开放权重,不是完全开源,但是呢,你可以拿到模型权重自己部署。 这是一套原生多模台模型,他并不是传统的厚接插件式的多模台,而是从训练阶段就做了早期的文和图的融合,基于了原生多模台的架构, 这与过去的那种先训练文本模型在外挂视觉编码器的方式呢是不同的。在原生多胞胎的支持下,信息融合更深,上限呢更高,多语言覆盖从上一代的一百一十九种语言和方言提升到了二百零一种, 这对于非英语场景的开发者来讲是一个非常大的利号。云端版本的千万三点五 plus 默认是支持到了一百万的 token, 这个呢指的是上下文窗口,同时内置了官方工具和自定义的工具调用,官方给到了全面的测评,从分数来讲呢,显然这与过去我们在了解新模型时并没有什么意外,最新的模型在方方面面的测评上表现都非常非常的优秀。 我们来看一组数据,在三十二 k 上下文架,相比于千文塞 max, 它的解码吞吐提升了八点六倍, 二百五十六 k 下更加的夸张,达到了十九倍,相比于千万三二三五 b, 也有三点五到七点二倍的提升, 这把大模型可用性往前推升了一大步。从这张图标可以看到,这个对比效果呢,也是非常夸张的,在过去的对比中,似乎我们还没有看到这么大的飞跃。官方博克还给到了我们许多有趣的 demo, 展示了多模态理解加工具调用、加长链路执行的合体能力。这其中呢,包含了编码 agent、 视觉 agent、 空间理解、图像推理,每一个都并不是一个独立的 demo, 感兴趣的朋友呢可以来一个一个的观看了解一下,非常的有趣。 在官方博克这里也专门提到了在 open clone 中的基层,它能够很好地支撑像编码这类任务的执行, 再集成到 openclo, 并且部署到云端,看起来我们完全可以打造一款自己的国产 ai 助手,并且是最强大的哟。 现在呢,我们就尝试将千万三点五这款最新的大模型集成到 openclo。 openclo 是 近期非常热门的一款 ai 助手,在过去的视频分享中,我们也介绍了如何在本地如何在云端进行部署与配置,还没有做这部操作的朋友呢,可以回看过去的视频分享, 那现在呢,我们就来做集成千万三六模型,在许多的云端平台都提供了支持,同时呢,作为一款开放权重的模型,大家也可以实现本地化的部署,我们今天要介绍的呢,是以 open router 所提供的 api 为例,看看如何集成到 open clone。 我 现在分享的是在腾讯云端部署的小龙虾,大家可以在任何的部署中采用同样的方式来配置。 openroute 是 我常用的一款服务,目前呢也第一时间提供了千万三点五模型的支持,目前有两款,一个是三点五 plus, 一个是三点五三九七 b a 十七 b。 我 们以三点五 plus 为例,在云端 通过 openroute config 来进行模型的配置选择。 model 在 分类中已经有了 openroute, 我 们选择它就好。 因为我已经完成过了 openerer 的 配置,已经添加了 api key, 所以 在这里呢,直接就跳到了模型的选择。我们现在翻到 openerer 所提供的模型列表这里,大家或许会发现并没有前文三点有模型, 怎么办呢?没有关系,我这里呢其实已经配置过老的像 cam 三二三五 b 的 模型,我们可以继续这里的配置选择,继续退出当前的配置。 在目前我已经配置过 api key 的 情况下,大家看起来这波操作呢并没有做什么,那如果大家是初次配置呢,这样呢就完成了 open directory api key 的 配置。我们接下来要做的是使用当前这个命令 openclo model set 来设置 open directory 这一款千万三点五的模型, 设置的这个值,它的格式呢是服务商。以 openerer 为例,在这里呢就是 openerer 斜杠后面带上的就是模型的 id, id 来自于模型页面,我们在这里复制这个 id 就 好, 我正是通过这种方式粘贴过来的。这样呢,就完成了三点五模型的配置。配置完成后,或许大家可以尝试重启 dm, 接下来我们来到 channel, 比如以 telegram 为例,我们来看看配置的情况。在 telegram 中,可以使用 slashmodels 命令来选择我们想要使用的模型或列出当前的模型服务商。 当我选择了 openraw, 会列出其中已经配置的模型。这是我已经配置的几款模型,大家根据自己的情况可能会看到的有所不同。 那我如果点击千万三点五这款模型,理论上期望是将其设置为默认模型,但在这里大家会看到这么一个错误,说这个模型呢,还不被允许使用, 那么该怎么做呢?我们是来到 opencl 后台进行手工的配置调教,还是说通过对话的方式让 opencl 来帮助我们解决这个问题呢? 在 ai 时代,在智能体时代,我们应该尝试避免手工再去做这些事情了,完全可以交给 open core 自己解决。因此在这里我们告诉他问题是什么呢?这个模型三点五不能够被使用,希望他帮助我添加到 open core, 他 会自动的帮我完成这个工作, 它会更新配置,重启网关,并告诉我重启后就可以使用了。那在这里呢,我们来看看。 当然了,在对话中,我还将其切换回了 gpt 三点五 codex, 并且期望 codex 帮我验证当前的配置是否一切正常了。它告诉我是的,一切正常,我们可以开始使用千万三点五了。 那么我们通过模型的配置这里呢再次确认过它的模型呢,已经设置为了铅汞三点五。那接下来呢,我打个招呼,看起来一些工作正常,我们现在可以回到 openclo, 作为开发者,我们还是希望更多的验证究竟是不是正常的工作了。咱们可以使用 openclox dash dash follow 这个命令来实时的监控日制, 再打个招呼吧,看看对话情况。在这里大家可以看看日制的情况,在一个子系统的执行中,它用到的模型呢是千万三点五 plus 零二一五 think 模式是关闭的对话呢,一切正常,我们在这里也能看到它的回复,这表示端到端已经通了。大家如果还不确定是不是使用了三点五的模型,那现在呢,可以来到 open router 后台查看实时的 api 调用情况,我们可以看到最新的调用呢,就是用的千文三点五。 好了,这就是我们如何在 opencl 集成千万三点五。在这次的发布中,我们得到了两个版本,一个是千万三点五 plus, 一个呢是三点五三九七 b a 十七 b。 感兴趣的朋友呢,可以来集成这两款模型,分别在 opencl 中跑一跑,看看它们在功能上究竟有什么差异,在日常的编码任务的执行上,是否能够很好地完成我们交给他的任务。 那么这款模型的能力究竟如何?是否能够成为我们日常工作学习中的主力模型呢?大家在使用后也欢迎在评论区给我们留言吧, 那今天的分享就到这里,感谢大家收看。那么在视频结束前,也再次祝大家新年快乐,万事如意。好吧,那我们就下次视频分享再见同学们,拜拜!

各位朋友,三月二日阿里放大招,开源千问三点五系列四款小模型,重点看这两款袖珍战神零点八 b 和二 b, 它们有多强!第一,体积小到离谱,零点八 b 模型压缩后仅三百 mb, 比一张照片还小,却能塞进手机智能门锁甚至传感器里。第二,速度闪电级 实测,在手机芯片上推理只要十五毫秒,相当于眨眼功夫完成思考,语音助手实时翻译,从此告别卡顿。第三,自带多模态 buff, 看图说话,图文问答直接搞定,不用外接插件,智能摄像头,用它做物体识别,又快又准。 第四,记性超群,支持二十六万字超长上下文,长文党分析,连续对话不在话下,最关键是完全开源,免费开发者用几行代码就能部署到边缘设备,让 ai 真正跑在指尖。这波操作妥妥的端测智能革命啊!

今天带你硬核开箱一个阿里在除夕刚发布的天问。三点五 plus, 直接 c u r 调 api, 不 加任何系统提示词和框架,就为看看这 m o e 的 架构,三千九百七十亿的总参数, 仅激活一百七十亿的模型,视觉理解的水平到底怎么样?实测的结果还是挺诧异的,为什么要测视觉?因为视觉能力真的能干活。比如你用 a s 动画操作 mac 版微信,但微信没开放 api, 不 跟 cv 的 模型匹配,又笨重又脆弱。说一下实测的细节,在桌面的截图理解上, 你给他一张混乱的 mac 桌面截图,他能准确识别每个窗口、终端、 room 等,并推断出这是一个开发环境。 带手绘的草图转代码给一张手绘的登录页,草图带手写批注二十五秒,他直接生成了一个能直接运行的 html 文件,用 css 渐变模拟横线纸,用 cursor 字体匹配手写杆, 甚至忽略了批注,知道那只说明而非 ui 元素,还原度达到了百分之八十五。微信的自动化实践才是高潮,我用它配合脚本, 实现了从截图到发送微信消息的全流程。一、截图扔给钱文问搜索框在哪儿?他返回接入 search box center, 幺五零, 逗号三十五,还提示需要搜索。二、换算坐标,点击输入联系人。三、再次截图,让他确认聊天窗口和输入框的位置。四、点击输入框发送消息。五、最后截图验证发送成功。整个流程,天问充当了眼睛和大脑。 四次视觉识别,每次七到十五秒,过程中窗口缩放、主题更换、微信更新,全部都不怕,因为模型是真正的在理解屏幕的内容了, 而不是匹配像素块。天籁三点五杠 plus 创新的混合注意力机制加极致稀疏 m o e 架构 加超长上下文决定了它这么强。非常可贵的是整个千问三点五系列全尺寸开源阿帕奇二点零协议, 这意味着开发者中小企业都能低成本用上顶级模型。如果你也在探索 ai 视觉自动化或者 r p a, 真的 可以试一试千问三点五 com plus。

就在除夕当天,阿里开源了重磅的新一代多模态大模型千万三点五。这次开源的模型是千万三点五、三九七 b a 十七 b, 其中三九七 b 表示总参数量三千九百七十亿, a, 十七 b 表示激活参数仅仅一百七十亿。这是一个极致稀疏的 mo e 架构模型。千万三点五另一个重大突破是支持原生多模态模型在训练之初就在文本和视觉的混合数据上联合学习, 而不依赖编码器、对齐层等外挂。多模态方案没有了中间翻译层,就没有了信息折损,真正具备跨模态的直觉理解力。 原生多模态这条路虽然不好走,但业界普遍认为原生多模态是解决多模态问题的唯一正确思路,是通往 agi 的 必经之路。本期视频我们就从编程能力、视觉 ag 的 能力、视频理解,还有带图推理多个场景来测试下千万三点五模型。 千问三点五强大的原声多模态能力,可以对图像进行像素级的精确定位,可以作为视觉智能体的大脑自主操作手机与电脑跨应用,完成多步骤复杂任务。我在 github 上面没有找到很好用的视觉方案操作电脑的 ai ai 的 框架。不过这个也不难, 我们直接上难度,让千问三点五从零开始,写一个通过视觉识别进行自动化操作的 a 帧,然后我们把这个 a 帧接入千问三点五的 a p i 来测试一下效果。 这一个 case 既包含 ai 编程,又包含 a 帧的驱动。这里我用的 ai 编程工具是 open code。 我 们先来到这个文件夹, c 盘用户,你的用户名点 config open code, 找到这个 open code 的 配置文件,苹果电脑是屏幕上这个地址,然后输入这段配置,这里要填写一个 api key, 在 阿里云百联平台可以获取到这么一个 api key, 然后启动 open code, 输入斜线 models 命令,把模型切换成千万三点五 plus。 接下来输入提示词, 用 m s s 与 pi 凹凸 g u i 实现一个根据指令操作,电脑的 ai agent, 用户可以提供一个输入任务,然后模型拆分任务,先截图再思考,然后操作,以此循环,最终完成用户的任务。 好,我们直接开始千问三点五,最让我惊讶的就是它的编程速度,控制台哗哗的刷字,我刚拿起杯子喝口水,杯子还没放下,一个完整的 agent 都写完了,最后统计二十六点一秒就完成了任务。 官方的数据是在二百五十六 k 长上下文的情况下,千问三点五的性能与千问三基座模型持平,解码吞吐量激增了十九倍,巨大的推理速度提升跟我刚才的测试也是相符的。接下来我们按照提示先安装 python 依赖,然后进入配置文件,配置上千问的 api 端点与 api k, 这些都可以在阿里云百炼平台获取。然后我们来测试一下,先把 python 启动起来,输入提示词,打开回收站,把里面的东西全部删除。 千问三点五对图像进行了像素级的定位与代码级的细致处理,每一次鼠标点击都无比的精准,除去等待删除的两轮,实际上仅仅用了四轮思考就完成了任务,整个 a 帧的代码一次跑通,没有出现任何报错,令人印象深刻。 我们再来测一个例子,使用 vs code, 把桌面上这个千问凹凸 g u i 的 项目提交到 github 上面,注意 config 点 jason 不要提交,这里面有 api key。 千问打开了 vs code, 并且按照规划一步步的执行它,先是打开了项目目录, 然后找到控制台,输入 git 命令,把 config 点 jason 添加到 git ignore 里面,然后出使化 git 工程提交。接下来点击左侧的 south control 按钮,再点击 public branch, 选择 public 仓库,把代码推送到了 gitup 上面。 仅仅用了十九轮思考就完成了如此复杂的工作,而且中间毫无差错。除了像素级别的视觉定位能力,千万三点五还有着强大的视频理解能力,能够理解长达两小时视频中的持续变化与因果关系。这里我来到千万三点五的网页版模型,选择千万三点五 plus, 然后我上传了一个行车记录仪的视频,我问他,这是一个行车记录仪的视频,几分几秒发生了事故,然后事故的原因是什么?千问定位到了一分十四秒,我们看到他找的非常的精准。 我们再来看一个例子,这是一个时长将近十分钟的足球比赛的片段,然后我问他两个队是什么时候开球了?千问三点五告诉我两个队是一分五十九秒开球了,我们来验证一下,一分五十九秒非常的正确。 然后我问他第二个问题,这个足球比赛是从哪里举办的?千问回答,这场足球比赛是在南非的德班,他告诉我原因,零分零零秒中间明确显示着德班,我们来看一下,没有问题,在五分五十六秒,谁从佩德罗那里拿到了球, 我们可以展开看他的推理过程,他可以把一个关键片段暂停,然后前进后退反复的观看,还能从视频前后的信息里面学习到每个球员的名字, 最后给了我们一个完美的答案。我们再来看一个例子,测试下他的代图推理能力,这里我上传了一张金门大桥的图片,然后我要求他使用 three 点 g s 来复刻一个三 d 版的金门大桥,不到一分钟就完成了任务,交付了七百七十行的代码,这个桥的钢栏还有整体结构看着非常的正确, 上面还有几艘小船,我们把时间调成夜晚,还可以看到车灯,这个完成效果已经完全媲美一线大模型了,效果非常的棒了。我们再来看一个例子,用 h t m l 复刻红白机的坦克大战,这个还原度相当的高了,连敌人的走位都复刻的惟妙惟肖,真的不错。 我们再来看一个例子,使用 three 点 gs 实现小球三 d 迷宫内运动,迷宫要复杂一点,好玩一点,这个三 d 迷宫足够的复杂,足够的好玩。从这个例子可以看出,原生多模态就像让一个模型张开了眼睛,从而学会了更密集的世界知识与推理逻辑,生成的三 d 游戏质量跃升了一大截。 除了我们重点测试的多模态与 a 智能能力,千万三点五支持的语言数量从一百一十九种跃升到二百零一种, 根据官方消息,不久还会继续开源不同尺寸不同功能的千问三点五模型,可以部署与本地端侧等不同的场景。经常玩本地部署的朋友们都知道, 千问是现在唯一坚持开源全尺寸的模型,而且开源协议还是最友好的阿帕奇协议,开发者可以在摩达社区和哈根 face 上面下载部署新的模型。 同时阿里云百链每百万 token 输入低至零点八元,是 gbt 五点二的十五分之一, gemini 三 pro 的 十八分之一,非常的香。本期视频就到这里,感谢大家点赞支持,我们下期再见!

一个做小雪老师的发小联系我,问我能不能帮他做一个 ai 生成视频朗诵古诗词的软件,他上课的时候展示给学生看,因为是发小,让他喊了几声爹, 我耗时一周手搓了出来,给他一个版本,逻辑式,用户选择,诗词选择配音,人物画像选择与描述,点击立即生成。后台拿到诗词进行分镜和人物画像, ai 根据图片生成视频片段,最后合成视频。 这里面配音用到了开源的 h t t s 声源,后期剪切用到了分配函数大模型,接入的千万大模型 take, 费用由他们学校承担。这里因为视频生成比较慢,我就演示一下已经生成过的,给它做了基础的音频上传加字幕编辑等常规功能。 床前明月光,疑是地上霜。举头望明月,低头思故乡。

今天,我以一个架构师的身份,带你看透千问接入阿里生态的本质,不是简单的功能打通,而是一次互联网生态架构的重构。在架构师眼里,千问早已不是一个聊天 ai, 它是阿里整个生态的统一入口层,前端承接用户意图,后端调度、全平台服务。它是网关、是中书、是中台,是整个阿里体系的 ai 化风格。绝大多数人以为 千问只是接入了淘宝、高德、支付宝这 app。 错,架构层面,它接入的是阿里沉淀十几年的四大核心能力域,不是界面打通,是服务能力、数据链路、业务逻辑全部底层贯通,这才是真正的技术壁垒。过去我们用阿里是打开一个个独立 app, 架构是分散的、烟囱式的。 现在千问把所有服务拉平,变成统一意图、入口加分布式服务调度,这是典型的中台化架构在 c 端的终极形态。这才是千问最可怕也最值钱的地方, 落到用户身上,价值非常直白。过去是人找服务,现在是服务找人。你不用理解阿里有多少 app、 多少系统、多少入口,你只需要说出需求,千问负责把背后复杂的架构全部抹平,串联执行,这就是 ai 时代最顶级的用户体验架构。 所以,第一期我想告诉你的本质是,千问接入的不是一堆应用,而是用 ai 重新定义了一个超级生态的交互架构、服务调度能力、组织方式。这不是功能升级,这是架构革命。下期我们讲,为什么只有千问能做到?这背后的架构壁垒到底是什么?

好,四零九零,跑本地大模型的又一天啊,现在我已经有了 ai 干活,我睡觉的这种一点点的感受。昨天晚上给他布置了一个稍微复杂的任务,然后今天他把这个任务做完之后,已经把这个报告生成了。看看他做了挺多事情的啊,这是完整的做了一件事情,我用的模型是千问的三五 b a 三 b, 就是 这个, 昨天我还说用这个 mini max 二点五免费的,也还不错,但是呢,昨天晚上我测试的时候出现了一个问题,就是用这个 mini max, 你 问他别的简单的,就是单个文件的问题的话,他回答得非常快,但是你让他设计一个完整的工作流,就是完整的功能,他可能是因为由于上下文限制 导致就运行,运行着他就突然停下来了,然后你再给他重新发指令,让他继续运行,然他又开始运行,但是运行一段时间他又自己停下来了,就没反应。所以说昨天我把这个免费的模型切换到了我这个本地的千问的三五 b a 三 b 啊,就是在这跑到现在早晨我又给他重新说了几个任务啊,他又开始在跑了,然后昨天的任务已经顺利完成了,没有断掉,然后我还没有检查结果,但 还是接着让它去来做优化。但是还是有一个问题,它在这个这里在是在生成 token 吧,然后里面一直在跳啊这些参数,但是它这个显存啊,百分之十,有的时候会到百分之五十 十,但是现在是百分之十,然后电源才跑了六十三瓦,我觉得没有满速跑,不知道是什么原因呢?然后我在这个 low 的 这里啊,也查了一下,然后这个最佳的一个参数配置,嗯, cpu 现成,然后评估的预处理,还有就是这个 cpu 卸载四十层,然后底下的这个 k v 缓存到 g p u 也都取,也都开着呢。我查了配置之后问了 deepsea, 他 说这个配置应该是没有问题的,但是为什么他不是满满载在工作呢?难道这个模型有一些必要的算法非要用到这个 c p u 吗? 搞不清楚,再看看吧。好,现在它提示呢,需要建立一个文件,然后正在工作,然后这边的 l m studio, 它是在生成这个 token 嘛?然后底下在动,但是这个 g p u 的 话,一会儿是百分之四,百分之十一,待会儿一瞬间就会飙到百分之百, 它不是一直满载的,这个我搞不清楚是为什么。然后这个左边的这些配置,然后我都问过那个 deepsea 了,他说这个配置已经是非常正常的一个配置了,比较理想的一个配置。但是你看这个 gpu, 它有时候是百分之十几,有时候就是标到百分之一百, 然后上面这个一直处在这样一个生成 token 的 状态吗?这是什么意思?有没有人知道?如果它显示正在处理提示词的话,那么底下的 gpu 就 会闲下来,有人知道这是什么意思吗?

阿里在除夕夜终于推出了它的新一代的开源大模型 queen 三点五,这个呢,对于我们这些应用公司来说的巨大的福音真的是千呼万唤始出来。 queen 三点五呢,目前已达到了开源的模型里面的绝对的 sota, 整个的参数呢,只有三百九十七 b, 这个规模其实对于大模型来说是非常小的,尺寸, 就是 deepsea r one 近一半的这样的一个参数量,激活参数只有十七币不到。上一代的万亿参数模型 queen 三 max 的 四分之一性能呢还大幅提升,最核心的是顺带实现了原生多模态能力的一个代际的跃迁。那先看一下各项指标,目前的 queen 三点五不仅是当下的开源大模型的 soho, 而且在认知能力、指令遵循 通用 a 阵各项评测上呢,可以说是赶上甚至超越了 gbt 二点五、 cloud 四点五、 jimmy 三 pro 等同期的币源模型。 比如说直林遵循的 i f bench, 视觉数学的 math vision 这一图像来做数学题,文档理解的 omni dark bench, 数学推理的 wemath, 空间智能的 rough coco, 多元的 nova 六十三,搜索 agent browse com, 视频理解的 m l v u。 这几个指标上呢, 目前千万的三点五都是 sota, 除此以外呢,千万三点五是支持两百零一种不同的语言和方言,它在训练中呢,是直接把文本语料跟视频语料完全的在 day one 就 作为原生的树语言进行训练,而不是像前面几代一样先训练文本模型,再加上视觉理解能力。这个被称为原生的全模态能力 集,在训练中支持了原生的多 token 预测,就是在训练阶段就学会了对后续多个位置的 token 进行联合预测,而不是一个 token 一个 token 的 预测。这样的系列的提升呢,让 coin 三点五呢,整个变成了应该说是大模型生态里面目前最香的一个香饽饽了。当然, 然而它在有些地方呢,还是有待提升的,比如说在数学竞赛和极端推理方面呢, queen 三点五对比 g p t 五点二还有一定的距离,比如说 a m e 二十六, h m m t 这几个特别竞赛的测试级上,目前 queen 三点五对比 g p t。 五点二还差了几个版本点,但是目前我看呢,差距并不是 特别大。对于编程这个领域呢, g p t 的 三点五呢,也不是它的最强的优势,貌似在代码工程常识推理这边呢,反而呢, 这段时间出的 g r m 五更有优势。另一方面呢,从上下文角度来说, queen 三点五是非常惊人的,达到了 e m 就 一兆的上下文的空间,这个呢,是完全匹配了目前闭源的 gem library 和 grok 的 能力, 比 g p t 都会更强。所以呢,整体来说呢, queen 三点五除了一些单向的,比如说数学和编程能力以外,在各项能力上已经是全面赶超月模型,是绝对的开源模型的 soata。 另外一个非常惊人的就是它的性价比, 目前并三点五官方提供的 a p i 的 接口呢,是每百万头肯零点八元,这个成本呢,大约呢是 g b t 的 十到二十分之一,在它的运行速度上也实现大幅提升,目前整个的头肯的吞吐速度呢,比上一代提升了八点六到十九倍,一句话介绍呢,就是全面领先开源,媲美闭源,适用于多模态的各项能力, 持小成本的快速部署。那我稍微说一下,关于千问三点五成功出世,对于整个生态会有什么样的变化,我们认为呢,原来对于 ai 的 应用公司来说,其中的一个很大的成本就是业务模型的成本,因为成本的制约呢,导致应用市场可以选择的场景并不多,主要呢就是一个 to pro user 的 最愿意付费这份用户 les mansa laura 这类,他们的主要的场景就是需要找到最愿意为市场付费的这部分用户。通过封装更加完整自动化的产品, 即使建立在一个币源的高成本的结构之上,也可以带来一定程度的毛利。但是在千万三点五能把各项的成本降到一个非常合理的范围之内,以及呢可以支持自部署的基础上,绝大部分的应用公司呢,空间就会大很多, 不仅是选择多高的超级专业用户,也可以去不断的开展,付费能力稍微弱一点,但是整个受众会大很多的极端用户, 或者是偏专用红跟 c 端之间的金字塔的中间才能用。对于应用公司来说,最喜欢的状态就是开源模型,离闭源模型最接近的时间点,这个呢是通过产品的设计,通过限制场景或者通过后续率,可以快速的补齐模型上与闭源的距离, 从而呢实现应用层面的成功。所以我们说真正的 ai 应用呢,其实到了二零二六年可能才刚刚开始,在二零二五年之前,绝大部分的应用场景呢,是受限于模型的成本,大部分的毛利是在有模型的公司上才能运作成功。 以及最核心的应用场景是基于聊天框的这种最简单粗暴的入口级的产品的争夺。但它到二零二六年,随着各项模型能力不断的补齐,整个市场的竞争又回到了对于应用场景和产品设计领域的争夺上,整个的市场的受众和可以参与者这样的一个双边网络也会不断增大,对于 ai 应用公司来说,应该是真正的圆脸。

我在使用 rtx 五零九零运行千问三点五模型时,发现一个非常反直觉的现象,参数更大的三十五 b 模型生成速度可以达到一百六十 token 每秒,而参数更小的二十七 b 模型却只有二十 token 左右。 为什么会这样?今天就给大家总结一下本地部署千问三点五的避坑指南。第一点,不是显存够就选更大模型,要优先选择二十七 b, 而非三十五 b 模型。 三十五 b 采用的是猫 e 混合专家架构,每次推理仅激活了少量专家,仅有二到四个,因此计算量更小,速度更快,但是输出质量不稳定。而二十七 b 是 稠密单词模型,每一层的参数都会参与计算,所以整体算力开销更高,速度会变慢,但是结果更稳,质量更高。 第二点,量化版本不是越大越好。二十七 b 常见的有二比特到八比特多种量化版本,体积大约在十五 gb 到三十 gb 之间。经过大量实际测试,目前公认的结果是, q 四量化版是综合表现最好的版本,在体积、速度和效果之间取得了一个比较理想的平衡, 更高的量化。如 q 六、 q 八,虽然精度更高,但提升有限性能,收益不明显。第三点,关闭思考模式,提升速度。很多人遇到的一个问题是,模型响应慢,输出容长。 在使用 alama 时可以这样操作,先输入 set nothing, 再进行提问就能关闭思考模式。关闭后,模型响应速度明显提升,输出更直接, tocan 消耗也会下降。最后总结一下,千问三点五的二十七 b 模型输出质量更稳定,它的 q 四量画板是最为推荐的平衡选择,同时关闭模型的思考模式可以带来大幅性能提升。欢迎点赞收藏,我会持续更新更多大模型的实战部署经验。