粉丝2.1万获赞10.9万

观众朋友们大家好,这里是速冻月饼,今天给大家带来的是美居物语接入免费 api 的 教程。首先进入英伟达的网址注册并登录账号, 这里我就随便写来演示了, 你可以填 qq, qq 邮箱或者你其他的邮箱 输入密码,然后输入密码,再次输入密码,再进行一次人机认证, 然后创建账户,我这边之前已经创建过了,所以就不创建了, 这边我是登录了之前已经创建好的账号, 创建好账号之后,点右上角 api 密钥, api case 生成 api 密钥,这个日期你可以填十二个月或者是其他的日期 啊,对这个名称只能填,只能填英文或数字 复制,然后点击模型, 搜索你需要的模型 进入,点查看源码, 然后这个页面先保留,进入魅居物语云端模式,启动游戏 云端大蒙形这个地方。嗯,先把刚才复制的密钥填一下,这里是填这个, 这个的话你可以选择获取,然后在这里面选, 或者是直接在这里复制 保存。测试, 刚才出了点问题,我现在换了另一款模型,接着测试, 哥哥是键盘吧, 现在已经可以正常使用了, 速度还行。本教程到此结束,感谢关哥哥也喜欢玩游戏。

各位投资者朋友们中午好!今天是二零二六年二月十二日,科技圈刚刚爆出一则重磅消息,小米宣布开源起首代机器人 v l a 大 模型。这个拥有四十七亿参数的机器人大脑,不仅刷新多项技术标杆,更可能悄悄撬动一个千亿级市场。 想象一下,过去的机器人像反应迟钝的木头人,看到杯子得卡顿几秒才伸手。而小米的 v l a 模型通过两项核心设计解决了这个痛点。 一是混合架构大脑加小脑视觉语言大脑理解模糊指令,还能精准捕捉空间关系动作执行,小脑直接生成高频平滑的动作块,连续抓取、折叠一气呵成。 二是异步推理模式,让模型思考与动作执行脱钩,就像人一边走路一边规划路线,彻底告别动作断层。 关键数据,在三大仿真测试中,它全面碾压三十种现有模型,真机测试中,连叠毛巾这种高难度柔性操作也能流畅完成。为什么说 v l a 是 巨深智能的起点呢?首先是从专用到通用的跨越,传统机器人只能完成固定任务, 而 v l a 模型让机器理解开放指令,适应家庭、工厂等复杂场景,遇到突然倒下的瓶子,能实时调整抓取策略,这正是场尾问题的突破。其次是自动驾驶与机器人的技术融合。 v l a 的 本质是认知驱动,而不是简单的视觉动作映射,它用语言模态进行推理,比如自动驾驶车遇到施工标志时,能结合常识选择绕行。 小米去年开源的跨巨深模型,已经打通自动驾驶与机器人技术壁垒,下一步很可能出现一套模型,驱动万物的生态。 再来看产业链机会,核心逻辑很清晰, v l a 开源降低机器人开发门槛,硬件需求激增,上游零部件厂商直接受益。重点给大家梳理几家受益企业,首先是方正电机,独家供应小米二代机器人三十二个关节电机加菱巧手模组, 单套价值超过两万元,技术适配 v l a 毫秒级响应二零二六年产能规划五到八万套,预计贡献营收十到十六亿元。 今日股价上涨百分之三点零一,近一年涨幅超过百分之一百六十四。其次是智微智能,为小米 ai 大 模型提供训练与推理硬件支持, 受益于算力需求增长。还有美利云与小米生态链金山云合作数据中心,承接大模型算力需求。这里也要提醒风险,技术落地进度不及预期,行业竞争家具特斯拉、语数科技等都在布局同类技术。 最后,我们聊聊小米开源战略背后的洋谋。小米开源模型看似技术分享,实则为生态卡位,通过吸引开发者加入,快速积累真实场景数据,反补模型迭代,这正是特斯拉自动驾驶成功的核心路径。 下一步,如果小米将 v l a 与汽车家居生态整合,或将引爆人形机器人加智能驾驶的联动浪潮。 总结一下,今天的技术突破可能只是机器人革命的第一章,投资者应关注硬件供应链的确定性机会,同时跟踪模型落地带来的数据飞轮效应,保持警惕,更保持想象力。

如果把一台一万美金的顶配电脑逼到显卡全线飘红,那他正在跑的这坨代码,可能是现在最败家的吞金兽。二百七十个 g 的 内存占用,光模型权重就比别人的硬盘还大。我们要用这个大家伙去单挑月租十块钱的云端算力。 今天这笔账就算的明明白白,到底是买铲子划算,还是雇人划算?这回题目有点变态。做一个未来风的豪华旅游网站,不光要脸好看,还要有 css 特效、表单逻辑,甚至后端本地。这台 max studio 已经把 gpu 拉满风扇开始消胶。 与此同时,云端的 deep agent 反手甩过来三个问题,要不要详情页?邮件发给谁?他在做需求分析,这哪是写代码的,这分明是个懂行的老产品经理。更离谱的是,他顺手把网站需要的图片都给画好了, 还在自动写 tailwind 的 配置文件,完全不用人插手。再看一眼本地的大个子,还在那纠结文件夹结构。最尴尬的是他连你电脑装没装 no 的 环境。最尴尬的是他连你电脑装 no 的 环境。 写出来的这份文件,格式乱的像被猫踩过键盘。任务清单里密密麻麻列了七十一个子任务,云端全在自动跑,这是最终交付的页面。这审美确实有点东西。 顶部的磨砂玻璃特效随着滚动还能自动吸顶手机端的汉堡菜单,点开私班顺滑。这种自动滚动的轮播图,以前手写至少得调半天。 c s s, 以前你得是个全站工程师,现在你只要会打字就行。表单填进去,居然真的触发了后端逻辑, 甚至连确认邮件都给你发到了邮箱里,闭环了,回头看一眼,本地那边,跑了快三十分钟才勉强交卷, 还得你亲自上手修 bug 装依赖当保姆。更狠的是,云端还能一键部署,连域名都给你配好,甚至连数据库密要管理,这些脏活累活全包圆了,甚至还能直接生成这种带图标的商业 ppt, 就 很离谱。 这一万美金的硬件确实猛,但在云端生态面前,他就像个互联网的战神,能打但有点孤单。一边是烧电费的本地怪兽,一边是包月十块的云端大脑。对于想快速出活的人来说,这选择题其实只有一个选项。毕竟在这个时代,拼的不是谁的铲子更贵,而是谁挖矿挖的更快。

大家好,这里是 ai 前线,我是老师根谷。呃,昨天有人问我啊,第一,我不能科学上网啊,我只能登录国内的一些网站。呃,第二的话,我也没有钱,还买不起这个, 呃, gbt 这个服务啊。呃,请问老师有没有一种免费的啊,不需要翻墙也能使用的呢?答案是有的。呃,第一就是你要去摩达这个注册一个账号啊,摩达就是这样一个摩达社区啊,就 models scoff 点 c n 啊, 进入这个社区以后,你注册一个账号啊,需要用你的手机就可以去注册账号了。第二步的话,你注册账号的时候,他右下角会出一个呃,使用额度,你看这个是一个月啊,可以翻过来看一下,这有个额度, 每天有两千个 api 调用啊,应该是够的。然后呢?最左边啊,我把它拉过来一下,最左边他有一个这个令牌服务,你访问这个令牌, 哎,这个你就把它复制出来啊,当然你注册的时候需要用阿里云的账号,也就是你支付宝去登录,它就可以送你每天两千个 a p i 调用啊。然后第二步,我们在 n 八 n 这个这样一个界面上点 set, 对, 然后再点这个安装社区节点啊, 然后点击安装,我这已经安装了摩登社区的 a p i 啊,在这里,然后你第一次没有的话,你把这个摩登社区的 a p i 它在这里 啊,你要去点它的这个一个啊,这个浏览器点过去它就有这个,你输入一个魔搭 model scope 啊,它第一个出来的就是这个,你去把把它塞到这个这个地方,它就能够搜索出来啊,我可以给他演示一下, 你直接安装就好了,因为我已经安装了,他告诉我,对吧?安装完了以后回到这个 n 版,对吧?你创建这个加它的时候, 它就能够出现这个摩达社区的这个聊聊聊天啊吧?摩达社社区的这样一个 api 调用啊,然后你点击这个就刚刚把这个 key 把它塞进去,塞进去的时候它自动的就能够连接成功了。连接成功了以后,比如说我现在要用它很很简单, 比如说我输入啊,比如说我输入什么呢?我输入,比如说辣椒炒肉的做法吧。 好,然后他就进入了这样一个大模型啊,可以拖过来看,他正在想,对吧?稍微等一下, 哎,他说,哎呀,你问对人了,我特别喜欢做辣椒炒肉了,这是我拿手好菜,这一哒哒哒哒是吧?可以看到啊,这就是已经调通了这个摩纳社区,然后你可以看一下这个访访问令牌,我是不是已经消耗了?刚刚我刷新一下,因为我没刷新 啊,他这个应该是已经消耗了两三次了啊,当前的额度你看这个就一变成二了,我刚刚是第二次用,所以说两千次每天还是比较丰裕的,一般来说我们用它进行一些。呃, 我我们昨天昨天录制的课程就是,呃,我怎么用它进行一个这个应该应该是这个,这里自动更新这个热点文章,是吧?我这一个流程里面大概需要用到四到五次调用,所以说一天两千次已经足够用了。嗯,大家也可以动起手来试一试啊,有问题可以在评论区。

腊月二十七号,我是数码博主文澜公子,今天咱们聊一个科技圈的重磅炸弹,小米在二零二六年二月十二日正式开源了其首代机器人 v i a 大 模型小米杠 robotix 杠零,四十七亿参数大脑加小脑混合架构,消费级显卡就能跑, 还能在三大仿真测试里拿 sorta 成绩。这波操作我看完只想说,小米这是要在机器人领域搞价格屠夫二点零版本啊。 eva 大 模型是啥?让机器人长出眼睛和脑子?先给不熟悉的朋友科普一下, eva 是 visual 杠 language 杠, action 的 缩写,翻译过来就是视觉杠、语言杠动作。简单说,这是一种让机器人看懂环境、听懂人话,做出 动作的 ai 模型。以前的机器人要么是预设程序,碰到 a 情况做 b 动作死板的很。要么是纯视觉驱动,能识别物体,但理解不了复杂指令。 v i a 大 模型把视觉识别、语言理解、动作生成三个能力融合在一起,机器人终于能像人一样看情况办事了。 小米这次开源的兆米杠 robotics 杠零,就是国内大厂首个全量开源的 va 大 模型,不是放几个 demo 视频,不是发篇论文,而是代码权重、技术文档全给你,全球开发者都能免费下载,二次开发,这格局确实够大。二、大脑加小脑架构 小米的独门秘籍兆米杠 robotics 杠零最酷的地方是它的大脑加小脑混合架构,技术名词叫 mixture 杠 of 杠 transformers 混合 transformer 大脑部分 v a m 视觉语言模型,负责理解人类自然语言指令和环境空间关系。比如你跟机器人说,把桌上那个红色的杯子拿到 厨房,大脑要听懂红色杯子、厨房这些词,还要在视觉画面里定位到具体物体。小脑部分 d e t 扩散 transformer 专门生成高频平滑的动作训练。大脑决定要拿杯子,小脑负责规划手臂怎么伸,手指怎么抓,路径怎么走, 而且动作要连贯自然,不能一顿一顿的。这种分工设计非常巧妙,大脑处理慢但精度高,小脑响应快但负责执行,两者配合,就能实现听懂复杂指令加流畅执行动作的效果。相比其他 v a a 模型端到端的黑箱设计, 小米这种架构更可解释,更容易调试,也更容易优化。三、性能实测三大测试拿 salt a 甄姬叠毛巾、拆积木全搞定参数架构吹得再好,不如看实际成绩。 jamie 杠 robotis 杠零,在 libera、 kelvin、 simple runv 三大主流仿真测试里,全部拿了 sorta state of the art 行业最佳。具体数据,杠 libera 测试平均成功率百分之九十八点七,接近满分。杠 kelvin 和 simple runv 同样刷新行业记录。仿真测试成绩好,真机表现怎么样? 小米放出的 demo 视频里,机器人能流畅完成叠毛巾、拆解积木等复杂任务。叠毛巾这种操作看着简单, 其实对机器人的柔性控至空间感知序列规划要求极高,要识别毛巾的形状,找到合适的折叠线,控制力度不能扯坏,还要记住折叠的步骤顺序。 更狠的是,这些任务都是基于自然语言指令完成的。研究人员说一句,把毛巾叠成方块,机器人就能自己理解规划执行,不需要预设程序,这才是真正的具身智能。 四、技术突破 rx 三零六零就能跑,彻底打破硬件门槛。如果说性能和架构是面子,那硬件门槛就是里子,直接决定这项技术能不能普及。传统机器人大模行动不动就要 a 一 零零, h 一 零零这种专业级显卡成本几十万起步, 普通开发者根本玩不起。 jamie 杠、 robotis 杠零,通过模型压缩、异步推理、动态计算图优化等技术,实现了在消费级显卡如 rtx 三零六零上实时推理。 r x 三零六零什么概念? 现在二手市场二千块左右,普通游戏玩家都能买得起。这意味着全球数百万开发者用自己的游戏本就能跑。小米的机器人大模型,不需要申请昂贵的云计算资源, 不需要买专业设备。另一个技术亮点是解决了动作断层问题,传统 vi 模型生成动作训练时容易出现卡顿、抖动不连贯的情况。像机器人得了帕金森,小米通过异步推理模式,让大脑和小脑并行,工作实时较准,动作输出平滑的像人类一样。 五、全量开源代码权重文档全给你,这波格局大了。最后聊聊开源本身,小米这次是真的全量开源。杠,技术主页详细的技术报告和架构说明。杠, get 好 代码,完整的训练推理部署代码 杠,哈丁 face 模型权重预训练好的四十七亿参数模型下载就能用,没有阉割,没有保留,没有商业授权限制,基于 ipc 二点零协议, 全球开发者可以免费使用、修改、二次开发,甚至商用,这操作在机器人领域非常罕见。以前大厂开源模型往往是放个小版本或者延迟半年才开源,生怕被竞争对手追上。小米这次首发即开源,全量无保留,说明他们有更大的野心,不是卖模型,而是建生态。 想象一下,未来,全球开发者基于招募杠 robatix, 杠,零开发各种机器人应用,工业机械臂、家庭服务机器人、医疗辅助机器人、教育编程机器人。小米提供底层技术开发者创造上层价值, 整个具身智能行业的创新速度会指数级提升。六、行业影响机器人领域的安卓时刻要来了!小米这次开源, 被很多业内人士称为机器人领域的安卓时刻。二零零八年,谷歌开源安卓系统,打破了塞班 windows mobile 的 封闭格局, 让全球开发者都能做智能手机应用,最终催生了移动互联网 explosion。 现在小米开源 v a a 大 模型可能正在复刻这个历史进程。降低技术门槛,统一开发标准,激活创新生态。对于整个行业来说, 杠,学术界有了开源机械模型,可以更快验证新算法。杠,创业公司不需要丛林训练大模型, 专注场景应用即可。杠,硬件厂商可以基于统一软件标准开发机器人本质。杠,普通开发者用游戏本就能入门,机器人开发门槛降到历史最低。当然,挑战也存在。 v i a 模型距离真正的通用机器人大脑还有距离。复杂环境下的泛化能力长,训练任务的规划能力多机器人人协助能力都还需要突破,但小米这次开源,至少把行业起跑线往前推了一大步。总结 小米的机器人野望从开源开始,绕命杠入八 t 杠零的开源,标志着小米在巨深智能领域正式亮剑。四十七亿参数大脑加小脑架构,消费级显卡可跑三大测试 saut 全量开源, 每一个关键词都指向同一个目标,让机器人技术民主化。这不是一次简单的技术发布,而是一次生态战略卡位。小米在智能手机时代靠性价比加 miui 生态崛起, 在机器人时代,他们可能想复制这个路径,用开源大模型建立技术标准,用硬件供应链优势降低成本,最终成为具身智能时代的安卓。腊月二十七,离春节只剩三天,小米在这个时间点放出大招, 显然是想在二零二六年开年抢占机器人赛道的舆论 c 位。作为数码博主,我期待看到更多开发者基于着米杠 robotis 杠零做出有趣的应用,也期待小米的机器人硬件产品早日落地。 毕竟,让每个人都能用上智能机器人,这个愿景比卖多少台手机都更酷。我是文兰公子,咱们下期再见!

三秒告诉你一个薅免费大模型 a p i 的 神级开源项目, free all l m a p i resources 直接把全网能白嫖的 l l m a p i 全整理好了。滴滴号已经有十 k 的 star。 这个开源仓库专门列出了各种提供免费访问大模型,不管是直接免费调用的, 还是带试用额度的,全给你分类,列的明明白白。最牛的是这个项目每天自动更新最新可用的模型,还在等什么?感兴趣的直接收藏。

那很多人呢说这个国产 ai 编程工具啊不行,然后国产模型拉跨,顶多做做这个 demo 项目。但是呢我今天却用一套国产组合,直接在一个前后端分离的开源项目上,从零到一的完整开发了三个功能。 更关键的是呢,我今天这个视频会把中间所有的真实踩坑经历,怎么反馈的,怎么修复的,怎么连调的全程给大家展现出来。那看完这个视频呢,你就能直接把这套流程运用到自己的项目当中去。 ok, 咱们话不多说,直接开始。首先呢我们介绍一下今天的开刀工具啊,它就是 tree 的 国内版,加上字节最新发布的 seed 二点零这个模型, 虽然说我用的是个人版,但它是完全免费的,并且它这里呢也是可以去切换其他模型的。开源项目的话呢,我们用到的是这个路由 view, 它是一个前后端分离的项目,架构呢也是比较新。 那接下来我们就实现第一个功能吧,在现有的这个项目当中呢,我们想要去增加一个博克管理的模块,这里的话呢,我们首先切到这个 solo 模式,然后呢打开 开这个 plan mode, 这里呢是我的一个提示词,大家可以暂停看一下。那现在的话呢,我们就让这个 tree 来执行,首先呢他会去查看当前项目的一个结构,然后了解到一些关键配置和代码风格,包括一些业务代码和架构风格。然后呢他就生成了一个这样的实现计划。那我们点开来看一下 啊,他这边写的还是非常详细的啊,包括数据库的一个准备,给他的一个约定是在多克容器里面,对吧?包括我们指定了账号名和密码,然后就是后端开发的一些实体类啊,那这些都是 c l e d 了,就没啥可说。前端开发呢,他说要去添加一个 marvin editor 这样的一个依赖啊, 还有就是下面的一些技术实现的要点,那如果你有一些需要补充的,也可以随意编辑,那我觉得他做的是完全没有任何问题,所以说我就直接让他按照这个计划去执行,然后呢他就开始去拆分子任务挨个执行了, 那这里的话呢,它可以自己调用终端执行这个多款命令啊,并且呢会读取终端的一个输出啊,方便后续的这个执行过程当中去做一个优化和验证。那紧接着呢,它就创建了我们所需的这个表结构啊,还有这个后端实体类啊, map 文件啊,以及这个 xml 文件,包括前端的页面等等等等啊,整体的一个执行速度我觉得还是非常快的。 但是呢,我突然意识到一个问题,就是项目自带的这个表结构 solo 还没有执行啊,我忘了跟他说了, ok, 那 这个时候呢,我们可以去打断这个 solo 的 进程,然后跟他来提一嘴。还有一点很重要,就是若一的这个菜单和按钮权限呢,是需要在数据库当中去做配置的, 而且呢需要给这个 admin 做一个权限的分配,那这一步呢,他也是做对了啊,并且他新插入的这个 menu id 呢,他也是知道从啊什么样那个值开始往上递增, 那这个小细节我觉得是非常的惊喜啊,接下来的话呢,我们就让他翻译启动整个前后端啊,然后下面的话呢,我们就去这个浏览器看一下效果,登录进去是没有啥问题的,但是这边所有的中文都乱码了啊,那于是呢我就反馈了这个中文乱码的问题,那最终呢他也是得到了解决。 接下来的话呢,我们就去这个博客的模块看一下啊,发现是没有任何数据的啊,那于是呢,我就让他去帮我生成了一些测试数据,最后呢我还让他去用网上的一些开源的图片,丰富了这个封面图和文章里面的配图,最终展示的一个效果就大概是这个样子, 然后这个分类管理啊,标签管理啊,以及文章的这个查询分页,包括新增更新也都是没有任何问题的啊,这个需求我觉得他做的非常的快,有一些小问题,但是他也能够一轮就帮我们解决啊,整体还是非常 nice。 那 接下来的话呢,我们就让他去做一个博客网站啊, 那这里的话呢,我们就找到了一个设计稿啊,然后我这边呢导出图片,然后呢让翠来帮我们还原这个 u i 的 设计,那这里呢是我用到的一个高保真还原呢, 这边呢是指定 tree, 采用这个 fondant design 这个 agent skills 来编辑,它也是先熟悉了一下相关的代码和现有的逻辑,然后呢去列了一个具体的实施计划,那我们简单来看一下,那我觉得是没有任何问题的,所以说我就让它按计划执行。 ok, 那 到这里的话呢,这个博客网站就做完了,整体的速度也是非常的快, 我们现在呢就去这个浏览器看一下效果,左边呢是 tree 生成的一个实际的网站的效果,这版的 ui 还原我觉得还是真心不错的啊, 没有那种紫色的或者说礼物风格的那种 ai 位,大家也可以去看一下这个效果啊,如果说满分十分的话呢,你愿意给他打几分呢?最后呢我的一个想法是给这个传统项目增加一点 ai 的 能力啊,我的一个想法是这样的,就是我们想要去写一个定时任务,然后呢每天去抓取指定网站的这个播客内容, 然后呢我们让他去做一个 ai 的 翻译并改写,然后存到这个数据库。但是这里我们先做一个免责声明啊,就是本视频纯粹是为了教学展示用的啊,绝对不会去做任何恶意的抓取或者是洗稿,还有其他的一些侵权的行为。同样的他也会去先熟悉本地的一个代码和相关的逻辑, 然后列计划。这里呢我也是觉得非常的靠谱,所以咱们就直接执行。然后呢我发现了一个很重大的遗漏,就是我们没有告诉他大模型调用相关的一些信息。 所以说呢,我们现在就去这个火山方舟开通一下啊,比如说我们就选择这个多包 c 的 一点八。然后呢我们点击这里的 api 调用 啊,随便取个名字,然后复制下面的调用视例给到 tree, 它会自动地去提取我们这段内容当中的大模型的 u i l, api、 key 这些关键信息啊。然后呢自己去写了一段这个提示词啊,那我们让它继续去执行,那现在整个功能呢就已经执行完毕了,我们手动执行一下定时任务, 看一下这个效果怎么样。那在后台管理系统呢,已经是可以看到刚才我们抓取大模型处理后的这篇薄壳了啊。接下来呢,我们就去到薄壳网站看一下它实际展示的一个效果怎么样。整体我觉得还是非常不错的啊,尤其是在这个 暗夜的这个主题下面啊,显得是更加高大上了,对吧?然后底部这边也是有它的一个原文链接可以去跳转的,还有这个免责声明, ok, 那 到这里的话呢,这套基于弱一的智能薄壳系统已经是完全跑通了,从后台模块增量开发,到前端网站的还原,再到定时抓取 ai 自动生成内容,全部呢是在一个真实的前后段分离项目当中去完成的。这次体验呢,其实也是我最近比较关注的一个点啊,就是 ai 编程真正的价值不是去写页面,而是参与工程的这个构建。刚刚呢,在这个火山的发布会上面,其实也是做了一个很有意思的案例啊,官方呢,用这个 tree 加 c 的 二点零,在 github 上面构建了一个 ai 春节庙会的 web 应用场景。 那在那个庙会当中呢,每个 ai 小 人都有这个环境,感知推理和记忆系统能够自主地去产生行为和互动,这其实呢,也是一个非常复杂的场景,但是通过 tree 和 c 的 二点零的一个配合呢,几轮提示词就完成了整体架构和运行逻辑。 那你会发现呢,不管是庙会这种多智能体场景,还是说我们今天这种真实的工程改造核心能力呢,其实就是一样的啊,理解结构,拆解任务,然后协同执行。那如果说呢,你也在做真实的这种项目,不妨可以上手体验一下。 ok, 那 今天的视频呢,我们就先到这了,下个视频再见, peace。

是不是觉得谷歌 nano banana pro 和 vivo 三点一这些国外大模型收费都贼拉贵?想自己做工具接入第三方重转 api 省点钱,结果对接的门道一点都不会。今儿这期视频就专门解决这个痛点, 手把手教你搞定 api 接入!大家好,零基础也能学 ai 编程,跟着我一起做好玩又实用的 ai 小 应用! 到底什么是 api 呢?哈喽,先给大家把 api 讲透,它的全称是应用程序编程接口。举个例子,你开发 app 想加入天气功能, 不用自建气象站,手动计算数据,直接调用天气平台开放的接口就能快速获取实时天气信息。咱们对接全靠 api 文档,里面会明确标注请求、地址、参数,照着步骤就能接入谷歌 nano banana pro 绘图 api。 第一步,先找准模型的官方名称,直接问豆包就能快速查到。我们要对接的就是 gemini 三 pro image preview 这个大模型, 接下来照着我这个提示词输入就行。我用 gemini 三直接生成了可运行的 python 代码,只需要修改两处关键信息, api key 和 custom base 下划线 u i l 改完就能直接调用第三方中转 api。 部分中转 api 平台可能需要额外调整一下 model id 参数, 就这么简单,你也能快速做出专属工具,轻松调用 ai 大 模型。好啦,你学会了吗?那这一期的教程就到此结束啦,咱们下期再见!

给大家测试一下千万三点五,今天的话千万三点五已经更新,我们可以看到在他的官网中已经可以进行测试,他是千万三点五。 然后接下来我给大家全面的介绍一下,我们以这五个为例,第一个就是测试一下他的代码能力,第二个就是一个最近的比较火的一个问题,然后接下来是这个数列问题,然后是他的一个数学问题, 接下来是它的一个知识读补的一个通用性的问。我们首先看一下原本的这个网页, 我们可以看到这是一个亮白色的一个汇报,千万三点五的一个网页,我们会把它进行一个基于此进行一个春节风格的改造,这个是千万三点五 plus 的 一个效果。 接下来就是三点五的一个三九七 b 的 一个模型,我们可以看一下 这个模型是开源的,然后接下来我们对比下一个模型,这个是 cloud 写的一个, 接下来我们使用工薪后的 deepsea 进行看一下它的代码能力,还是比较适合中国人的审美的。 然后接下来我们看一下 jrm 五的 它的一个春节风格的改造。 好的这就是我们第一个模块,然后给大家介绍一下它的三个核心的一个架构,第一个是它的一个注意力的机制, 使用了百分之七十五的 g d n, 这个就是为了大局的遗忘啊,然后是精确的一个攻心,然后我们看一下, 接着就是它的一个 o m o e 的 架构,然后是一个多模态的融合,它支持一个原声的语音,然后我们的一个视频,还有一个文本,或者输入我们图片的一个输入, 这是我们的一个技术路线的对比。然后我们接下来进行第二个,我们进行测试一下这个问题,我想去洗车。首先是我们的 这个问题,然后我同时发送给了左侧的三点五 a 十七 b 的 开源模型和三点五 plus, 在 它的一个摆链的一个平台上,然后我与此同时我会给 deepseek 进行发送以及 jrm 进行发送。 我们看一下它的一个对比的效果。在这个界面里面我们可以进行一个官方的对比看一下,我们可以看到我们输入的信息可以包括文本,图片,视频,然后的话它输出的是仅仅是文本,因此 比如说我们可以应用在一个视频的自动剪辑上面,是可以进行使用这个模型的。接下来是它的一个价格, 最重要的是它的一个上下文,在 opencloud 里面,上下文决定着很多的一个复杂的操作,可以看到这个上下文 plus 的 话是 em。 然后这个开源模型呢是二百五十六 k。 然后接下来我们看一下他的一个结果,这个答案是一个经典的逻辑题,我们必须要开车去对很聪明的模型。然后接下来我们看一下 step, 很 简单直接的告诉我们要开车去。然后接下来是 g r m 的, 它依然没有思考完毕, 这也是我们经常测试遇到的一个问题,但是它的答案是对的。然后我们接下来进行下一个问题, 我们测试一个树列, 首先进行对于这两个模型的一个测试,当然的话我已经测试完毕,这是没有问题的。然后接下来到了 deepsea, deepsea 的 思考确实很快,我们继续, 我们已经看到 deepsea 花了四秒的时间思考完毕,还是非常优秀的。然后接下来是它的 开源的模型已经输入的结果,然后接下来是三点五 plus, 结束结果是正确的,然后接下来看一下它的 g r m, 我 们稍等它一下也是对的。然后接下来我们测试最后一个问题, 我们的结论是全部通过,我们看一下,首先给 g m 一个,然后是 db6, 然后是这两个模型,我们发送 我们看一下它的一个反馈结果, dbic 花了五秒的时间测试完毕,五秒。然后接下来看一下 三点五的模型还在推理,看一下 g r m 的 g r m 的 话也在输出, 我们可以看到他花了四十七秒输出了他的一个正确的答案, g m 五。然后接下来我们看一下三点五 plus, 还有他的一个三九七 b 的 一个模型还正在思考, 我们可以看到三点五的 plus 已经正确的输出了答案,可以发现这几个模型还是能力比较强的。 然后接下来我们进行最后一个,它是一个通用型的知识图谱的一个抽取, 我们打开我的项目到这里面,我们可以看到现在我已经处理完毕, 我们使用的是民法典的前两章,一个使用的是他的一个三点五 plus, 另一个使用的是千问的一个 plus。 然后接下来我们进行交互问答一个问题,首先对于这个 三点五的话,他已经给出了一个答案,我们可以把它给复制出来,然后通过一个中间的 ai 进行一个测评, 我们在这输入自己的问题,然后发送,然后我们看一下它的一个最终的结果, 我们可以看到这是相关的一个问题,然后是它的答案,为什么一定要这种方式呢?因为知识图谱对于我们的一个文本是一个抽象性的一个连接概念,它比普通的 red 更加的一个有上下文的衔接性,因此我们可以对比一下它回答的一个维度。 然后我们看一下它的一个三元组,这个是 千问三点五 plus 抽取的一个实体,我们可以看到是一千多个,然后接下来是它的一个 plus 的 模型,这个少一些。

今天咱们来聊一聊小米最近开源的第一代机器人 v l a 大 模型,这个模型呢拥有四十七亿参数啊,然后呢能够同时处理视觉和语言的理解, 并且呢还可以进行高性能的实时执行。没错,那这个小米这次开源的这个大模型确实在机器人领域还是引起了不少的关注的,那我们就开始吧,咱们先来看第一个大的部分啊,就是这个大模型的核心的亮点,那这个咱们主要就来看一下这个 x o m robotics 的 零这个模型啊,它的这个四十七亿参数到底带来了什么样的影响? 你怎么看?这个参数规模的作用?就是这这这四十七亿参数啊,就是让这个机器人能够理解非常复杂的视觉和语言的信息。对,它不光是能够识别这个物体是什么, 他还能理解这个环境和这个指令里面一些很微妙的变化。对,就比如说他在那个精准测试里面,对 libra 啊,什么这些精准测试里面,他的成功率都非常高,几乎就是百分之九十九的成功率,听起来他的泛化能力确实很强,对,没错,然后呢这个模型呢,他还特别厉害的是他把这个参数的数量和这个运行的效率做了一个很好的平衡, 所以他不光可以在高端的设备上面跑,他也可以在我们普通的这种消费级的显卡上面跑,所以他就把这个门槛大大降低了,所以大家都可以来使用这个机器人。然后呢这个所谓的大脑加小脑的这个双核心的体系到底是怎么工作的?就是他其实是有一个呃多模态的一个视觉语言的一个大脑, 就他是一个决策中书,他来理解你这个复杂的指令和这个环境,然后他会把他的这个计划交给他的这个动作专家,就是他的这个小脑,这个小脑呢就专门来管这个运动的细节, 他的这个动作的轨迹的生成是靠这个流匹配技术,他会让这个动作非常的平滑。哦,原来分工这么明确啊。对,而且他们两个是异步的工作的,所以这个机器人他就可以一边在感知这个环境,一边在执行动作,然后他遇到一些突发的状况,他也可以马上就反应过来。 ok, 就 他的这个整个的感知决策执行这个循环会变得非常的快, 所以它就可以真正地做到这种实时的互动。哎,那我想知道啊,就是这个 xiaomi robotics 零这个模型,它开源了之后,具体会给行业带来哪些变化?就是它们把所有的核心的代码和这个预训练的权重全部都放出来了, 所以这个门槛儿一下子就降下来了。就原来可能需要上百万的投入才能够做的一些研发,现在可能普通的团队有个几千块钱的这种消费级的硬件就可以玩儿起来了,确实听起来就更容易上手了。对,而且它不仅仅是让这个家用的或者办公用的这种服务机器人能够更快地落地,它其实也可以帮助 各种各样的这种硬件去变得更聪明。这一块儿我特别想问,就是这个 shaomi robotics 零 这个模型,它是怎么解决传统的这种 v r a 模型?它的这个推理延迟高,然后动作不连贯这个老大难问题的,它们就是用了一个 mixture of transformers 的 这种混合架构,然后把这个决策和这个动作的执行分成了两个脑子, 一个脑子就专门来理解这个任务和环境,另外一个脑子就专门来控制这个动作的细节,那他们两个就可以各司其职并行的去工作哦,所以说是这个是这个所谓的大脑和小脑的这个分工带来的好处。对,没错,然后呢,他们还用了这个异步推理的模式,就是让这个机器人可以 一边在执行一个动作,一边在后台去算下一个动作,再加上他们的这个动作块的这个机制以及这个流匹配的技术,就保证了他的这个动作之间的切换会非常的顺滑。 加上他们的这个特殊的 attention mask, 以及这个动作的这个输入的设计,让它可以对这个环境的变化可以非常迅速地做出反应,就彻底解决了这个卡顿和延迟的问题。那你觉得就是这个小米 roblettix 零,它在训练的流程上面和数据的使用上面有哪些地方是做得比较独特的?嗯, 这个模型它是用了一个两阶段的训练方式,那第一个阶段就是它会把这个多模态的信息和这个动作的信息一起都融合到这个模型里面,然后它用了一个叫做 action proposal 的 机制,让这个 视觉和语言的这个特征可以跟这个动作的空间去对齐哦,所以每一步都在为后面做铺垫,对,没错没错。然后第二阶段就是它会冻结这个视觉语言的这个部分, 专门来训练这个动作的这个 expert 它是用了大量的轨迹数据和这个各种各样的这个交互数据,有两亿条轨迹和八千万的这个多模态的样本, 去让它学会这个非常复杂的操作,同时它也不会遗忘掉这个基础的理解能力。你觉得就是这个小米 robotix 零,它在实际的落地和这个技术普及上面,它到底做到了什么程度?这个我觉得最大的突破就是它,呃,只需要一个消费级的显卡就可以跑这个实时的推理, 就你不再需要一个非常昂贵的计算机群,就可以让这个机器人动起来,那这个门槛一下子就降下来了。哦,确实这个对于很多小团队来讲太友好了。对,然后不光是这个,就是他们还把所有的模型的权重和代码全部都放出来,所以大家都可以去 在这个基础上进行修改,或者说去复现这个最新的这个成果,包括在这个双臂机器人上面去做这个复杂的操作的这个演示也都非常的稳定,所以就是 让这个科研和这个产业都可以去加速的去探索。然后我们来聚焦到第三个部分啊,就是这个开源的深邃意,那我们就想请你谈一谈,就是这个小米 robot x 零这个模型的开源到底是如何改变了这个机器人领域的创新的格局?这个我觉得就是最直接的改变,就是 以前可能只有大公司或者说这种顶级的实验室才能够玩得起的这种具身智能,现在可能一个小团队或者说几个爱好者,他们有一个几千块钱的这种消费级的显卡就可以在本地跑起来。这个最先进的这种模型就门槛一下子被拉低了, 就说现在这个普通的开发者也有机会去参与到这个前沿的探索当中了。对,没错,就是大家不用再去重复的造轮子,大家可以在这个统一的开源的基础上去专注于自己的新的想法,新的应用, 然后这个整个行业的创新的速度就会被大大加快,原本可能需要几十万的投入才能够做的事情,现在可能几万块钱就可以做了,那这个创新的门槛儿一下子就被拉低了。你觉得这种小米 robotix 零这种全量开源的做法,会给这个行业的生态和技术的进步带来哪些具体的变化?就是它的这个全量的开放代码和权重, 就等于是说给全球的开发者递出了一张入场券,大家都可以在这个统一的标准上面去做二次开发,那这个就会让各种各样的新的应用像雨后春笋一样冒出来, 所以这个就会让大家的写作变得更容易了。没错没错,让大家这个改进又会很快的回馈到这个社区里面,就形成了这种使用优化再分享的这种良性的循环, 那这个技术就会进步的更快,整个生态也会更加的繁荣,那最终会推动这个机器人技术的标准化和这个产业的升级。你觉得小米 robots 零这个开源之后,对于小米自己的战略布局有哪些直接的影响?就是小米其实通过这个开源就把自己在这个机器人领域的技术实力 展现的淋漓尽致嘛,然后也让自己成为了这个行业的风向标,大家都在看你这个技术,你这个标准,大家都在跟你走,那你这个品牌的号召力和行业的地位肯定就会水涨船高,这会不会也吸引来更多的人才和合作伙伴?当然会啊, 就这个开放的平台,不光是吸引了全球的这种 ai 和机器人的高手都加入进来,还让这个模型和小米的这个智能硬件形成了一个完整的闭环, 那这个就是一个生态的壁垒就已经建立起来了,然后也为他们的这个产品加速的落地和商业化铺好了路。好吧,今天我们聊了这么多,关于小米这个开源的这个机器人的大模型带来的一些技术的突破和产业的变更,然后也看到了这个小米 robotics 零给这个行业和开发者带来的全新的可能性。 嗯,好吧,那么我们也期待着未来会有更多基于这个大模型的创新和应用不断的涌现出来。好了,这就是本期播课的全部内容了啊,感谢大家的收听,我们下期再见,拜拜。拜拜。

绝大多数人使用 gmail 三的方式,其实依然停留在两年前使用豆包的那个时代。今天我想结合谷歌的官方文档和我的实战经验,给大家分享三个 gmail 三点零的进阶的使用技巧。第一招是能帮你把它训练成你的专属顾问,第二招能够让你更高效地去创建你的 agent skill。 第三招甚至能让你无 现白嫖。顶级算力过程中会有一些提示词的模板,我都会在片尾告诉大家获取方式。我们现在看第一招吧。系统指令。很多人都知道要给 ai 写人设提示词,但是其实大家都没有用。对,如果你只是给 ai 对 话框里发一提示词,它其实只有临时记忆, 你会发现聊着聊着就变味了。而这个系统指令其实是给这个 ai 对 话框写入一个基因代码,它是一个永久的人设或者是思考框架。现在你在这个 google ai studio 里面, 在右侧就可以去写出你的这个系统指令。在 gmail 官网有一个叫 jim 的 地方,也是大家去设置系统指令的地方。那这个系统指令怎么写才让它成为你的专属的战略级顾问呢?我参考了 google 的 官方文档,还有我自己的一些用法,给大家总结了五个模块的万能公式。第一个模块其实就是用户画像,简单说就是亮出你自己, 把你的这个底牌和限制告诉 ai。 举个例子,你像我没有任何的海外公司,那当我想做一个出海的 ai 产品的时候,涉及到支付模块,我的 ai 就 不会给我推荐像 stripe 这样我不具备任何资格的一个方案,而是直接给我能用的平替。再比如像我告诉 ai 说我的电脑是 macbook, 以及我不懂 c 加加,我就是一个 webco 的 用户,那他给我代码的时候就会给我直接能在 mac 终端去运行的命令,而不会给我一些看不懂的 windows 指令。 那第二块其实是关于行为和语气,其就是你和 ai 的 沟通方式。其实 gmail 三有一个特别容易犯错的地方,就是他特别爱讨好人,他训练的时候就默认是一个顺从的助理角色,那你像我这种 i n t b 性格,我一般会给他下个死命,就是你不要谴责我,你也不要附和我, 而且我告诉他就我是 ceo, 你 是执行层,但是你在给我建议之前,你必须像苏格拉底一样去反问我,这样呢?时间长了,他现在给我口头禅就是 ceo, 你 百分百是对的,但是有三个风险在落地的时候要考虑等等,这 就是我觉得 ok 的 沟通方式,当然你也可以找你喜欢的有效沟通。第三个是关于时效性啊,因为 gmail 三的这个模型内置的训练数据都是二五年一月份的,所以我会强制告诉他涉及到一些行业动态,你 必须给我开启 google search, 不要拿这个一年前的这个旧新闻来骗我,在 studio 里面的话,它现在也默认会开启 groundwave。 google search 在 底部大家应该能看到第四和第五个模块是关于逻辑推理、输出规范的,优先评估风险是个永远正确的事情,不确定的给我 ai 幻觉, 并且因为我平时经常整理提示词,所以我会要求他给我输出格式基本是 markdown, 如果有一些专业名词的话,对中文给我参照一下,然后你把这五个模块的这个提示词都填进去的话,你的 jimmy 瞬间从一个只会讲片儿脏话的网友变成一个最懂你的专属顾问。 不过各位注意啊,如果你像我一样经常用 google s studio 的 话,你千万不要放任何的真实的姓名、电话等隐私信息,因为这些会被拿去平台做模型的训练数据的。 那第一招说完,我们再说第二点,建立你的 agent skill 的 实验室。现在 agent skill 这个概念其实真的挺火的,但本质就是用提示词 去封装一套工作流。那你现在已经会了这个系统指令了吧?那其实你就可以在任意一个对话框去创造一个工作流提示词的测试环境。简单说其实就是让 ai 自己卷自己。比如我就会告诉 jimmy 三,你有两个活儿,第一个活儿就是按照我的这个流程写文案生成内容。那还有一个角色是你要站在旁观者的角度去 去记录我的评论,去找茬,去想你刚才哪一轮工作做得不够好,去底层去修改和完善。基本上当我每一轮的任务结束之后,我就会输入复盘这个指令,它就会生成一个升级版优化过的提示词, 以此循环往复,不断的去完善这个核心的一些算法,提示词等等。这个可以给大家看一下,我基本上在我很多的提示词测试的时候,都会在开头加上这样的一些规定,其实比我们自己去复盘在那瞎琢磨效率高了不止十倍。 你在这些实验室里面测试好了,直接搬到 course deal 或者是 webcointing 里面,效率大大的。那还有一个进阶用法,其实是白嫖免费额度。大家都知道免费的 gmail 用多了都会被限制额度,那怎么榨干它的价值呢?我自己平时是用三个策略哈。第一招就是 多个账号, google a s studio 和 gmail 的 官网,它其实是两套额度系统,所以如果你有两套谷歌账号的话,那你每天相当有四波免费额度,可以疯狂白嫖,轮着造。那如果你没有的话,有更好的法,比如说模型混用,简单说就是一些普通的追问或者查资料,你直接让 gmail 三六零 flash 去做,一点不比 pro 差,而且速度快,占用的额度也非常的少。只有你做一些核心的复杂决策,需要回顾上下文,包括第八个的时候,你再找 pro 模型去做好纲要,用在刀刃上。 第三招其实我觉得反而更重要,一定要紧盯着 token 的 使用进度条。免费额度其实它不是看你问了几个问题,它其实看的是你整体的算力消耗,对话越长,上下文越多,哪怕你只发个嗯嗯, 你的消耗也是翻倍的。根据我的经验哈,五万是个小卡,十二点九是个大卡,这个数在哪看呢?在 google a s 六里面,在每个对话框上面能看到这个对话框已经 累积的这些算力。我这个对话框已经快要废弃了,因为一旦它超过了这个预值之后,你会发现它的反应变慢,幻觉增加非额度,用不了几次它就会告诉你到顶了。所以如果你发现已经到这些极限的时候,你就千万不要犹豫,直接开个新对话框,这就叫卡 bug 级的省流。 当然啊,如果大家对这个上下文无损迁移感兴趣的话,我也可以专门出一个视频讲一讲我天天干这个事。最后多一嘴很多官方的一些参数,选用默认值就好了,不需要多刻意的调整,够用的。 其实 ai 好 不好用,强不强就关键看你怎么用,你有这些进阶的方式的话,你就可以在免费的额度情况下发挥它最大的潜能, 这其实就是最大利好于我们普通人的一个时候。今天视频里面提到这些提示词模板,老规矩我都会整理在我的 ai 同款笔记里面,大家去一小说幺零幺回复关键词自助拿走就行。好吧,那我继续去开发我的 ai 产品了,咱们下期再聊吧,拜拜。