粉丝4186获赞3.8万


哈喽,大家好,我是千里风光的小海,今天我们来到史上哈最大的一次更新,只需要一张图片就可以实现摄像头实时画面。好,我们来看一下最新最重磅的二点七 beta 二十五版本啊,到底有怎么样的全新的一个界面, 以及有什么样的效果?好,首先我们打开哈这个 dpl, 看二点七贝塔二十五版本哈,我们双击,好,我们打开一下,好,打开之后是这么一个界面。好,这就是新版的一个界面,还记得我们之前啊,最新的是二点六 d 的 版本哈,那个版本其实更新是非常大的, 那个版本的更新是什么?就是在添加了一个新的摄像头,而且它在二点四之后一直有了一个新的模型,那个模型是二五六乘二五六的一个分辨率啊,今天啊,今天我们看到的这个 g u i 界面,它的界面和之前完全不一样啊, 它现在更像一个软件的界面了,可以看一下,这个是二点六 d 啊,哈喽,大家好,我是这个是二点六 d, 我 们可以看一下二点六 d 的 界面啊, 二点六 d 大 概就是这么一个界面哈,它的界面就是,嗯,这里一个图片哈,这边是一个目标图片,然后它的参数在这个位置,然后下面是摄像头,然后点这个 live 就 可以直播。好,新的界面 和之前是不一样的哈,点这个位置哈,二点七 beta 版本哈,把它翻译成中文,他说的是,嗯,二点七的 beta 版本,为了庆祝 get up 获得八万颗星啊,就是八十颗啊,好,他说他新增了实时美颜,他这个音速 app 哈,优化器哈,这个和之前其实差不多哈,好,然后他新增了两款哈增强器哈,一个是 g p e n 五幺二, 一个是 g p e n 二五六哈,一般来说我们用二五六哈就可以了哈,用五幺二的话可能显卡不一定带得动哈,这个哈就相当于是把我们的个面部进行一个增强, 这个在啊 facebook 以及这个 visumaster 我 们都讲过哈,这个模型是非常非常自然的, 它会让我们的皮肤保持的自然的程度的基础之上进行一个优化,同时还会把我们这个面部哈变得更加清晰哦。下巴面罩哈,这边有点用,它新增了一个实时的一个视频观看,这个之前是没有的哈,它更像一个软件界面的哈,分辨率它可以更改,这个是我觉得,嗯,这个版本里面最有 用的哈,最有用的一个功能,他现在可以支持去调节这个分辨率,待会我们看到这个界面就知道了。好,最后一点哈,他提升了这个流畅度,现在他的帧率啊,提升了,这个位置哈,就是刚刚我们二点六 d 在 中间的这个位置哈 的这些参数放到这里了,放到左边左上角这个位置啊,然后这里啊,就是我们刚刚讲的这个画面增强的一个增强器啊, g p e n 就是 叫这个 face enhancer, face enhancer 就是 面部增强嘛,我们可以看一下,它有三个模型啊, g p e n 二五六五幺二幺零二四啊,一般来说我们用二五六或者五幺二啊,这两个就可以了, 幺零二四肯定是带不动了,好,还有就是嘴唇啊,嘴唇,然后就是之前一样的哈,两个模型,一个是英姿 vip 幺二八, 一个是 hyper sweep 哈,这是二五六的一个,嗯,分辨率哈,这个分辨率就非常非常高哈,比这个提升了很多。基本上来说有了这个之后,我们就再也没有使用这个 in sweep 幺二八的这个可能性了哈。紧接着这个地方哈,这个地方和之前一样哈, 这边是人脸图啊,这边是目标人脸图,如果你换视频哈,这里就可以添加视频。紧接着哈,最重要的,最重,最重要的就是我们刚刚讲的二点七 beta 二十五版本最大的一个更新,可以看到这个位置哈,三二零 p、 四八零 p、 五二零 p、 七二零 p、 幺零八零 p, 包括二 k 最高支持 二 k 的 分辨率。一般来说我们做直播的话,七二零幺零八零和二 k 的 分辨率。一般来说我们做直播的话,七二零幺零八零和二 k 的 分辨率。一般来说我们做直播的话就是七二零和幺零八零, 所以说他现在新增的这两个分辨率对我们来说哈诱惑力非常非常大。好,紧接着我们来看这个效果哈,好,我们可以看到哈,现在这个分辨率啊,就是二点七啊,贝塔二十五二点七版本的一个效果, 非常非常清晰啊,这就是他的一个分辨率的一个提升。好,紧接着我们再说啊,新的功能, 比如说这个哈,这里有三种,这里有三种,我们可以开关看一下,我们先把它切到,嗯,这个二米六,切到这个二米六,然后我们点一下这个开关,我们点一下这个开关,可以看到啊,一下子变清晰了,我们把眼镜取下,好,把眼镜取下,我们来开关,来给大家演示一下,这新版才才有的功能啊,这新版才有功能, ok, 这是不开这个脸部增强,这是开这个脸部增强,这是二五六哈,我们再开一下这个五幺二,好,这是五幺二的一个清晰度,还有个幺零二四,我们也给大家演示一下,不推荐幺零二四,你看现在已经有点卡了,看到没有?已经有点卡了哈, 好,幺零二四,给大家演示一下,你看这幺零二四,就非常的清,非常非常清晰啊,但是,但是太卡了,太卡了,我们还是切到这个二五六啊,二五六,我觉得就足够了,足够了,可以看到现在清晰很多啊,我们再开关看一下, 可以看,这是不开的哈,不开这个面部增强。好,这是打开面部增强,所以说这个面部增强是非常有用的。好,我们紧接着来说这个哈,注意看这里哈,这里有个遮罩哈,看到没有?这个遮罩, 这是遮罩哈,我们可以清晰的看到这个遮罩了,你看这很精准的哈,你看这个位置他就不合适哈,我们可以看到我们偷回来一点。 好,差不多啊,差不多这个样子。好,这是遮障的一个功能,看到没有?这样子的话,我们说话嘴巴他就会把那个我们的嘴巴去还原回来,就,他就不会把我们这个嘴巴给换了,这样子,我们张开牙齿的时候,他就会把它还原回来, 还原成我们本来真实世界的哈,这个嘴巴他就不会像之前那么假,所以这一点非常的重要,而且他可以可塑化啊,现在增加了这个嘴唇的一个遮罩的一个可塑化。这个我觉得哈,这个和之前的所有版本都不一样,可以说这个功能哈,非常的有用啊。好,我们再给大家演示一下啊,看这里, 再演示一下,差不多就这个样子啊,好,可以看一下这里啊,这个位置看,看到没有?这个是控制额头,看到没有?控制额头就顶部啊,顶部的额头可以控制 我们拉上去,就这样可以控制了啊,之前就控制不了。好,请接着我们再看下面这个他是控制下面,看到没有?下面这个部分,这个部分可以控制了, 相当于这个是控制上面部分,这是控制下面的一个财气部分。好,再看一下这个眼镜,你看这个眼睛看到没有?眼睛,我可以还原成自己的眼睛,看到没有? ok, 这是和之前完全不一样的。好,我们来演示一下,大概是这样子的, 你往左边拉哈,大概就这样子的啊,就很自然,很自然,这样子的话就可以还原成我们自己的眼睛,这样子的话把我们这个眼睛相当于抠出来,抠出来之后哈,他更加这个自然,因为有些哈 a i 的 眼睛他出来,你觉得有点假啊,你就可以 把这个拉到最左边,拉到最左边,如果说你要啊,用 a i 的 这个眼睛,让他的相似度和提升,就跟这个图片的这个眼睛一模一样的话,那我们就拉这个拉到最右边, 大概是这么一个效果,这个功能哈,我说实话在二点四哈,二点六哈都没出现,在二点七终于出来了,这个大家一直呼吁的这个嘴巴这灶哈,以及这个眼睛这灶,这两个功能 同时哈都出现在二点七的版本,而且哈他还新增了这个脸部增强,这个之前他也没有,而且他之前开的这个脸部增强效果不好,现在他的效果就非常的好了。好,紧接着我们再讲下一个功能哈, 显卡啊,可以看到啊,他现在可以去,嗯,去选择这个显卡。我们现在开了脸部增强啊,开了这个嘴巴遮罩,开了眼睛遮罩开了之后啊,他这个显卡占用只占了百分之三十,也就是说他对显卡的要求并不是很高啊, 我们通常来说是推荐三零六零以上的显卡就可以。好, ok, 我 们继续讲下一点,这里还有一个显示帧率啊,显示帧率我们可以打开来看一下,现在是二十二点六,二十二点七,如果说我们把这个面部增强关了,我们来看一下,帧率他就提升起来了。二十,三十,三十多,三十一啊,三十三, 好,大概就是三十一点八哈,三十二针的样子。好,这个功能哈,就是之前的这个蓝屏功能哈,这个没啥用啊。好,紧接着我们来拉一下这个,我觉得这个拖过来和拖过去 好像都没什么变红,我觉得这个就保持默认就可以了。好,紧接着我们再讲下一个哈,他的这里会有一个 note 啊,他现在可以去加载这个颜色的一个 note, 就是 我们可以改变我们换脸的一个颜色哈,这个和之前的玩法有点不一样了,有点像专业摄影师了, 我觉得这个用处不是很大啊,可能有点噱头的意思。好,说完了所有的功能哈,我们来讲改变分辨率, 这个在之前我从来没想象过,他把这个分辨率单独拿出来可以做设置啊,好,我们来看一下,比如说我们现在点这个三二零 p 啊,点一下三二零 p 啊,你可以看到很模糊啊,很模糊。好,我们再点一下啊,把这个增强也打开,增强,打开一下,好,就会清晰一点。好,紧接着我们点这个四八零 p 啊, 好,清晰一点了,看到没有?清晰一点了, ok, 我 们再点这个五二零 p 啊,这就是我们刚刚设置的啊分辨率,再点这个七二零 p, 你 看七二零 p, 哇,现在这个清晰度可以看一下啊,现在这个清晰度一下子啊提升了一大截啊,一大截。好,再看这个幺零八零 p 啊, 哇,这幺零八零 p, 我 说实话比七二零 p 啊清晰很多,但是就变得有点卡了啊,好,现在我们把这个人脸增强给关一下。 好,这是把人脸关增强关了之后啊,我们打开一下这个 fps, 就 这个帧率可以看到啊,现在是十五帧,十五帧, ok, 幺零八零 p, 还可以达到十五帧,十二帧以上就不会卡。好, ok, 我 们来看一下这个效果,可以看到幺零八零 p, 一个效果。好,我们改成这个幺四四零 p 来看一下。 好,这是幺四四零 p 的 一个效果,这样子就很卡了,非常非常卡。好,我们是不推荐这个幺零八零 p, 幺四四零 p 啊,我们综合来看哈,就是用这个七二零 p, 用七二零 p, 或者是这个 官方默认的这个五二零 p, 这两个是最流畅的哈,我们现在切回到七二零 p, 好, 我们可以看到现在是七二零 p, 可以 达到二十二点六,二十二点四,二十二点三,二十二点九, 大概是二十三针啊,大概是二十三针,这个可以说是非常非常流畅啊,好,我们来就用这个效果,我们来切几张图哈,给大家演示一下啊,今天我们的所有的功能以及改变这个分辨率啊, 全部都就扫清楚了哈,我们现在就来讲这个效果了。好,现在我们把眼镜取掉哈,这个眼镜有点影响,你们如果戴眼镜的话,可以戴这种黑边框的眼镜, ok, 我 们换这张图片啊,好,换这个图片之后啊,这么一个效果。好,这是男换女哈,这是男换女。好,我们紧接着再切下一个哈,多演示几个, ok, 又切换了一个, 大概是这么一个效果。好,现在我们可以改变一下这个眼睛,给大家演示一下,看到哈,我们可以这样,可以看到,这是之前完全完全没有的一个玩法,包括啊,包括这个啊,我们都可以去改,看到没有可以去改啊, 我们可以去改。好,我们随便改一下,演示一下。 ok, 好, 包括这个,这个我们可以去改。好,大概这个位置。好, ok, 好, 我们继续切换下一张,好,再切换,嗯,大概是这个效果好,比如说这个哈,我们打开一下,这个增强, 哇,一下子就非常的清晰啊,可以看到这个清晰度啊,而且这个帧率啊,也足够啊,这个帧率也足够啊,很流畅,我们把它关掉,大概是这么效果。好,我们再切换。哎,刚刚是这个,好像是切换这个吧, ok, 嗯,好,我们来摸一下脸吧,摸一下脸给大家演示一下。好,你看这里哈,看到没有这个手就进去了,如果说我们在手进去的时候,你看到没有?这个手进去了,我们去调哪里?去调这个位置,看到没有? 看到没有,他就收回来了,看到没有这样子的话,他就可以和之前不一样了,看到没有,你这样子就不会像之前那样出来。这个你,你如果拉过来,他就手就进去了,看到没有他可以控制了,现在 可以控制到这个位置,比如说我们把手指刚好出来,好,大概是这样子的,这样就可以去控制啊,现在可以说是非常方便啊。好,我们拉回来,好,包括这个眼镜,我们可以拉,我们拉过来 啊,拉回来,拉过来。好,我们再继续切换下张图片。这个胡子哥,这个胡子哥,我们之前也是很多啊,可以摸一下看,看到没有,那就出来了,还是一样的。这个出来了,出来了,我们就这样,我们就把它 切一下,切一下,切一下,看,就这样,可以切,看到没有?这样可以切。 ok, 大 概就是这么个功能演示,包括这个额头,看到没有?这个额头我们可以去控制。 好,我们控制上面就可以控制额头。眉毛,眉毛这样就变了,看这个眉毛就变了,好,要变眼睛的话,我们就拉到左边,好,也可以去融合一下,稍微融合一下好,拉到右边,好,包括这个嘴巴, 我觉得这个嘴巴大概拉到中间啊,但中间偏右一点点是比较合适的。好,我们再摸一下脸吧,给大家演示一下,好,旋转一下,给大家演示一下。 ok, 好, 我们退一点,有些人说我们是不是不能太远,我们可以远一点给大家演示一下。好,这是比较远的,是,好,这是比较近啊,我们推一个特写给大家演示一下。好,这是特写,我们来看一下特写。 好,如果说特写你们想要把这个变得更清晰,我们就打开这个,打开这个,你看这是特写。 ok, 我 们把这个关了。 好,好,这次关了一个情况。好,紧接着我们再切换下张,好,吴彦祖的一个情况。 ok, 我 们退一点再进啊,好,我们旋转一下给大家演示一下。 ok, 大概是这么效果哈,我们可以拉一下把这个眼镜拉过来,确实有点有点整蛊的感觉啊,有点整蛊的感觉,还是拉过来啊,拉过来像素高一点。好,我们最后再切换一张啊, 好,差不多就这个样子啊,好,今天我们的内容哈就讲解的差不多结束了哈,我们今天把所有二点七贝塔二十五版本的全部功能都给介绍了,而且我们着重介绍了这个分辨率的一个变化, 还有他的一个新功能啊,以及效果的一个演示啊,我们演示了很多很多的效果,如果说以上内容啊,对你有所帮助的话,可以一键三连,如果需要啊本地部署这个工具的话,可以后台搜索关注我,我们下期聊更多的爱知识。

你知道训练一个万亿级参数的 ai 大 模型,工作量有多大吗?想象一下,我现在有一道非常复杂的数学题,每张卡呢,只负责一小块, 但不能有人偷懒,不能有人出错,不能有人掉队,而且呢,要连续跑上几天,日夜不停顿才能出来结果。 这类万亿级大模型的高校全参数后训练,此前呢,主要是依靠英伟达的 gpu 体系,而使用国产算力的非常少。 但是最近呢,深圳核桃学院牵头,联合哈工大、深圳深圳市大数据研究院、华为 gts 等团队,最近做了一件大事, 科研团队用国产的升腾九幺零 c 芯片集群,在一个月的时间内,把 deepsea v 四 pro 这个一点六万亿参数的巨无霸模型,稳稳地训练了一千五百多步,一步都没有崩。 为什么这件事值得我们说一说呢?我们先来科普一下背景高能预警前方呢?这个 ai 的 知识含量有点足, 这个一点六万亿参数的 mo 一 模型,用的是稀疏专家的结构,也就是你可以理解为,我们有很多专家每一次提问呢,只激活其中的几位专家来回答, 听起来非常高效,但后训练起来麻烦大了,专家之间呢,要频繁沟通,通信量呢,是普通模型的几十倍,而且注意力机制还在动态切换模式,对芯片算子的效率极其敏感,需要调动大量的显存资源。 此前, deepseek v 四 pro 已经在国产算力上做了推理部署。根据团队透露,这是公开可查范围内,第三方机构首次在国产算力集群上完成 deepseek v 四 pro 的 全参数后训练。 简单地说,以前呢,只是能用推理,只是走输入进来、输出出去这么一条路。现在希望大模型能调后训练,走前向加反向多条路 输入输出算一遍。然后呢,要算错在哪里?每个参数怎么调,计算量和通讯量都会翻好几倍。这件事做成了,实现了三个硬核突破。第一,显存拼图。 万亿级的大模型不可能只塞进一张卡,团队设计了分布式的承载方案,每张卡呢,放什么,怎么放,他的整个这个算力,怎么调度,全都算的明明白白。 第二是负荷均衡, mo 一 的模型,他最怕负荷不均,有几个专家忙的够呛,其余在闲着。团队呢,这一次呢,专门保证专家分工合理,通信不堵车。 第三是有人守夜。全参数后训练,最怕的不是慢,而是跑着跑着系统突然崩了。这次团队搭了完整的监控体系,全部实现可控可控。 一句话总结,国产 ai 基础设施正在从推理、部署和轻量的微调转向呢。万亿级 mo 模型的全参数后训练,这块硬骨头可以说我们啃下来了, 我们也期待未来科学家的团队可以以此为基础,继续探索新一代通用人工智能的基础理论、新范式和新架构。我是斗牛士,如果关于大模型你有话要讲,欢迎评论区留言,关注我,更多的思考,更好的生活!

你们是不是每个月都为 api 账单感到肉疼?但是啊,偷看还是不够用,一不小心啊,超量还会被自动扣费百分之九十九的人啊!不知道, 官方啊,正在免费发放永久的 api k, 支持 tipsy、 v 四 pro、 智浦、五点一,还有十几个最新大模型随便调用,不用绑信用卡,不用充值。重点是啊,流程特别简单,小白也能搞定。 我们打开官方网站,点击右上角的 log in 进行注册。我这里已经注册过了啊,直接登录即可。然后点击头像,找到 api case, 点击创建 api k, 输入一个名字,然后选择到期时间,我们可以选择永久有效。然后我们把 api k 复制到一个方便我们一会儿可以使用的地方。然后我们来到 excel 页面, 随便找一个模型,来找到模型的 face url, 这里边有非常多的模型都可以使用, devic, 智普这些热门大模型基本上都能直接调用。 然后我们可以将这些信息配置到我们的 agent 里边。以我用的 hermes 为例,我安装了这个 hermes web ui, 这样我们直接可以在窗口进行配置,不需要使用复杂的命令。行了 输入命令,打开我们的 hermes webui, 在 左边找到模型选项,选择添加 provider, 选自定义,然后将我们得到的 face url 和 api k 填进去, 点击获取。如果里边显示有模型,那证明我们已经连接成功了,里边有大量的热门模型可以选择,然后点击添加,就能配置完成了,然后我们就可以开心地使用了。 关注我,我是老李专发工具里的硬核干货,推荐真正好用的效率神器,点个关注!

将我们的体系解放的豆包,让豆包给我们生成一个网页,我们点击它这个右上角的就可以展开,可以预览代码信了,免撤销,检查下它的功能的完整性,然后分享导出文件发送到微信好友, 这个文件我们用 qq 浏览器打开, 点击建立,可以看一下它是否已置这个 api。 k, 我 们就从 deepsafe 官网拿 我们输 deepsafe 来的它一个开放平台,然后点击左上角的这三根杆,点击与 p i k 一 起往后创建自己的 p i k, 输入名称,请我们随便输入,往后创建,记得复制这个 api, 然后返回我们的页面, 点击 e p i 设置,输入我们的 n p i, 然后获取模型,进而我们连获取到两个模型,有 fla 写的 pro 版本或属于我们的人设,保持那个人设就能开始我们的聊天了。

把 deepsea 部署到本地之后,如果你不对它进行训练,那么它和在线的大模型没有什么区别。如果你把没有公开的一些数据和资料,把它训练到这个 deepsea 内部,那么它就变成了你的个人的私有的大模型,变成了一个行业的大模型, 这样它才能真正的为你所用。这样进行训练之后,它的推理,它的思考和回答都是基于你提供给他的这些私有的资料, 这样就会变得非常的精准和有价值。那么怎么训练 deepsea 呢?推荐这本书, ai 训练师,这本书手把手的讲解了如何利用数据进行 deepsea 的 训练,值得好好的读一读。

如何把 deepsea 训练成行业专用的大模型呢? deepsea 大家都知道是免费开源的,免费开源的最大价值就是我们可以拿来进行随意的更改和训练,为我所用。 比如说把它训练成医疗大模型,训练成交通大模型都是可以的。训练成专用大模型后,它能够更加精准和快速的回答行业特定的情况,这就是我们希望达到的效果。 怎么来训练呢?这本 ai 训练师详细的讲解了 deepsea 的 模型训练,手把手去教你训练大模型,并且给出了在很多行业进行商业应用的案例,非常值得一看。

强化实践一定是非常关键的一环,建构实践值不等于理解的实践大模型。这个时代预测下一个 token 很 简单的一个事情,我们在实践模型这边做的一个事情是什么呢?就是准确的预测下一个物理状态,但是这个事情的话是可以确定的事情,这个模型本质上和你施加动作的主体是无关的,你们是用什么路径来 达到这样的结果?因为其实世界模型上大家现在也有这种不同的方法和路径,和你们一起在这条赛道上竞赛的人,哈,这个有所有的大圆模型的巨头,对吧? over ai, 然后 google, 英伟达,对,然后还有像李菲菲,嗯啊,勒困这样的大佬级的人物哈,他们的 labs 也在做这些事情。是的,咱们的武器是什么? 是 r l 吗?强化学习一定是非常关键的一环。首先来回顾一下我们的一些比如说同样在做世界模型的人,比如像李飞飞、 ai、 酵母,那他可能整个是奠基了,包括计算机视觉,对吧?他的主要路线就是说我要去三 d reconstruction, 对, 我要去重建空间智能,对,我要去建构这个世界,但是我们知道其实建构世界其实不等于理解了世界, 为什么呢?它主要主张是说我通过高速破建等等方法,我去模拟出来这个世界本真是什么样子的,比如这个片叶子,它能模拟的非常真,然后这个空间里边可能我能知道这个杯子就是应该在桌子上面的,它不会,比如说一半在桌子里面嵌着,但是建够了世界不代表我就能理解这个杯子,如果,比如说放在桌子边缘, 然后它洒出来了之后,水会往哪个方向倒出来。对,这其实是我们理解物理世界的关键,所以这其实是做三 d 建筑,其实一直以来的天花板或者问题。 另一个路径其实是勒困的 java 路线,那其实 java 本身代表我觉得是一个更加通用或更加泛化的,就是说我们叫引空间,也就是叫 latent space 的 概念。对,那也就是说怎么来理解 latent space? 它其实就像我们人一样,就是我们没有办法去描述什么是咖啡,但是我们会有这样的一个 sense 或这样一个感觉, 这些就是一个在引空间里边我们建立出来一个 concept。 那 其实勒困主张是说我要用大量的自监督学习,我要看大量的视频,自然而然的就学会到这种世界的表征,比如说这个杯子的轮廓,什么是杯子,就应该有个杯盖或者水就应该会洒出来, 他希望能够自然而然地去涌现出来这些物理规律。但其实我们知道的坤自己在说,就是他可能到二零二八年,二零二九年才会有一些可以展示的东西,才会有一些商业落地化。为什么呢?是因为我们知道资金的学习本身很关键,但是在资金的学习过程中,我们会学习到很多就是不一样的东西,就是你可能 loss 能达到很低,但是在我们强调学校就叫如了 hiking。 怎么来理解这个事情呢?比如现在我们大家都坐在这个椅子上,那其实我们可以用一个很简单的规律来解决,就是说这个椅子有吸力,都把我们吸在这里了,所以这其实是能够建立出来一个相关性,但是这个相关性我们都知道它不是真实的情况, 那是什么让我们从相关性变成了因果性?其实是比如说我现在站起来了,我能脱离这个椅子,然后我可能会躺在地上,然后这个模型可能会知道啊,原来这个椅子没有吸力。也就是说在整个假设空间里边,其实我的相关性能够学到很多不同的阿尔法伽马贝塔,但是只有一个是唯一的,一个是真实的物理因果。 所以这也是娄昆为什么说非常贴近第一性原理,但是就是容易学到一些真实物理世界的一些 fake news, 就是 一些假的物理规律。 那我们强调是说其实我们自己是非常认可 latin space 的, 因为我觉得 latin space 本身是一个更加长远,而且一定是未来。因为我们知道像素空间其实是很盎然的,我们知道视频是一个低压缩的, 就像我们物理规律,我们今天聊了很多时间,但是它并没有包含很多的物理规律,比如说杯子洒出来等等,所以物理规律本身在视频里面是稀缺的。首先学习因果性本身,我们需要去引入 action, 也就是引入动作, 也就刚才我们所说的传递式 model, 基于当下状态,我采取不同的动作会导致什么样的后果?那你如果能够学习到这个,那我可以认为你学到一个世界的因果性。嗯,那第二个也是最关键的,就是强化学习。为什么我要说做强化学习呢?不仅是我们自己是强化学习背景出身的, 而且我们是感觉其实现在很多的同事或很多社区大家可能都是为了强化做强化,但是我们会发现其实强化学习代表了我们对于世界规律的认知。就像我们人类去学骑自行车以及我们大模型,其实在二零二三年的时候, 他虽然能够像人一样去说话,大家就是回答不了一加一等于几的问题,真正让大模型成为现在我们所能用的龙虾这种抠定的 agent 其实是强化学习,是我们让大模型不断的在一个沙盒里边通过明确的奖励信号去不断去自己去模拟,自己去兑现,然后泛化出来这种更加通的智能。 我们认为这其实也是未来我们学习物理规律很关键的一环。就像 ralphgo 为什么要杀出神之一手?肯定不是,因为他就是看过很多人类的祈福,人类祈福里边可能也有很少很少很吸收神之一手,但是一定是在自己的这种自我博弈里边 复学习出来这种通用的以及更高级的,我们叫智能 check gpt 变得好用也是因为引入了强化学习。是的是的,而且一定要引入强化学习。 嗯,你们是预训练加上强化学习,然后再加上 physical reward, 就是 物理反馈,是用这样的一个模式来做你们的训练,是吗?对,我们整个模型的话是重新设计了架构,然后重新预训练的, 我们并不是基于一个开源的基作拿过来,然后只是训一些数据进去的,我们觉得这不本质,我们做的一个事情是一个很简单的事情,但是可以 skinning 的 事情。大模型这个时代的话,其实给我们一个引导,或者说给我们一个教训,就是一定要做第一性原理驱动的东西。回过就是看的话就是第一性原理的第一性原理其实就是简单, 比如说像大模型这个时代预测下一个 token 很 简单的一个事情。我们在世界模型这边做的一个事情是什么呢?就是准确的预测下一个物理状态,但是这个事情的话是可以 skinning 的 事情,我知道你们打算今年发你们第一个模型嘛?然后我能不能理解就是这第一个模型就是你们定义的 w 二 这个来过的模型?是的啊,那为了帮助我们理解,就是我们是不是有可能做一个简单的类比,把它和大圆模型做一个类比?我自己可能会首先把它定义成 g d 三十克吧。回归到大模型,你知道在整个大模型出来之前, bird t 五各种模型架构有很多,然后那个时候,比如说我们知道 open i 一 直在 burk 里,一直在 stanford 喊 skinlab, 但是没有人去相信,因为在那个时候大家觉得专用的模型就能解决所有任务,我要每个领域做一个自己的 expert。 但是二零二三年,二零二二年底大模型出来了,所以说现在 skinlab 被大家所熟知。那我们认为其实 g p 三十和叉 g p 一 十刻,它不是说代表了你达到一个所谓的能用的阶段,或者在某个榜单上能够达到一个很高的分数, 而是它代表了一种 scale up 的 趋势,也就是我们知道我们投入更多的算力,我们扩大模型的规模,我们投入更多的数据,我一定能获得一个更好的模型。那对于我们来说,我们认为我们内部已经看到了一些小规模 scale up 的 迹象,那我们其实也希望在今年把这样一个真正懂物理正确和我们看到的东西 去以模型发布的形式,去 tag report 的 形式去展现给社区,这起也是我们的愿景。嗯, skimming 在 世界模型当中还会继续发挥作用。是的,而且一定会的。那这个模型会是什么样呢?在二零二二年年末,二零二三年的时候的话,当拆 g b 出来之后的话,它其实改变了整个 community 的 一个认知,他们觉得大模型是 agi 的 一个途径, 当时是大家是改变了这个认知的。那我们认为我们这个旗舰模型的话,是希望能让大家看到物理模型,它是可以应用在真实的物理世界的。 那他的一个展现形式是什么呢?这个旗舰模型的话可以成为机器人的大脑,也可以生成更具备物理正确性的视频,也可以在一些工业的严肃的仿真的场景里边的话,来替代一些传统的物理引擎。能举个例子吗?我觉得最大的一个特点的话是泛化性。 我们现在的话说说 vivo, 现在它在每个个体、每个机器人场景中的话,它是很难泛化的。但是我们现在的 word model 内部的版本的话,其实我们可以跨越不同的应用场景,比如说厨房场景、卧室场景以及更传统的工业场景,这是场景层面的泛化。第二个的话我们也能在不同的在体层面进行泛化,比如说 公司 a 的 机器人,公司 b 的 人机器人,我们都能一个很好的适配。这个背后的底层逻辑是什么呢?当我现在有一个状态是确定了的,然后我的动作也确定了,那我们到下一个状态的这种 transition 的 话,也一定是确定的,它其实这个 transition 是 不受你施加动作的主体影响的。我把一个水杯从桌上把它弄在地上, 人手可以做这个动作,然后任何一个人形机器人的手也能做一个动作,任何一个灵巧手也能做一个动作。也就是说我们这个模型本质上和你施加动作的主体是无关的,所以我们更能看到这个模型在不同的场景、不同的任务主体上面的话进行一个有效的泛化性。我们会更强调的话,这个模型它是在泛化性的基础上面的话,达到了一些场景的可用性。

codex 如何接入 deepsafe 和小米的 mini 模型使用呢?接入后无需魔法,无需登录,能力依然强大。坐稳扶好直接开始。首先先在电脑中安装 codex, 去官网直接下载即可,然后再去 github 上下载这个 codex plus plus, 下载的时候选这个 windows 打 x 六十四 setup 打 exe 结尾。这个下载完后会有两个文件,一个是 codex 加加,一个是 codex 加加管理工具。 打开 codex 加加管理工具,可以看到我这里面配置了 deepsea 和小米的 mimo api, 这小米的模型能力还是非常强,那估计不少人都低估它的能力了。第一次使用的话,先选择供应商配置, 点击添加供应商,供应商名字就写 deepsea 就 行。接入模式选择纯 api, 然后来到 deepsea 官网,点击 api 开放平台, 首先先充个几块钱,放心,这个很抗用的,比 g p t 是 抗用的多。然后选择 api case, 点击创建 api k, 复制后粘贴在这里。 回到 deepsea 官网左侧,点击接口文档,找到 base url open ai 这个复制链接,粘贴到管理工具的 base url 这个地方测试模型就写 deepsea v 四 flash 上游协议就选择第二个 chat completion, 然后点击上面的保存就完事了。回到列表页,点击使用按钮,变成使用中就可以了。 再点击右上角的重启 codex, 等待一会儿, codex 加加就启动了。下方模型里就可以看到 deep seek 了。 同理小米的 mimo 接入也是一样的哈。打开小米 mimo 官网,可以先不用充钱,注册好填上我的邀请码,就会有十块钱免费用。在控制台内选择 api 密钥,右上角新建 api key 复制后粘贴在管理工具中, 回到 mimo 官网,点击文档左侧选择快速开始首次调用 api, 下拉找到调用 api 复制 base url, 回到管理工具粘贴 模型名可以填 mimo v 二点五 pro, 其他的操作跟前面一样,重启后就会看到模型了, 这次你的 codax 就 完美接入国产模型了。有人就说了我直接官网用多好费劲巴拉不多此一举吗?我想对你说,等你体验使用后再重新回来说。点赞关注我们,下期视频再见哦!

很多人以为这轮 ai 竞争的是参数、量和算力,但是真正决定 ai 是 会聊天还是会思考的,其实是后训练里的三个, o p o, d p o 和价 p o。 先说最早的 p p o 早期的大模型,它只是预测下一个词,虽然学到了知识,但是他不懂什么叫礼貌、安全和有帮助, 所以我们就搞出了 r l h f。 核心算法就是 p p o。 p p o 里有三个角色,第一是考生,就是大模型本身。第二是阅卷老师,就是 reward mode。 第三啊是 goof 老师,就是 critic。 整个过程是 ai 去答题,月卷老师去打分,估分老师猜这道题能得多少分。如果估分老师猜八十分,月卷老师给了九十五分,那这次的表现就超预期了。模型会用 ppo 的 方式,让他下次最可能出现这次的答案。 但是问题是这套系统太贵了,三个模型同时维护,还要做在线强化学习。尤其是估分老师啊,要预测未来到底能多少分,在长推理的场景下非常容易崩。 二零二三年, dpo 就 出现了,它大幅简化了流程,人类说 a 比 b 好, 那模型就直接学,以后就更倾向出现 a 就 行了,不需要单独阅卷老师,也不需要估分老师,更不需要复杂的在线训练,成本非常低,而且很稳定。 后来很多开源模型走的都是这个路线,先微调,再用 dpo 教它,更符合人类的偏好。但是行业很快发现一个问题, dpo 擅长模仿人类偏好,但是他不擅长自己探索, 像 deepsea 那 种,他会说,等等啊,让我重新想想类似的反思能力,它不是人直接教出来的,而是 ai 在 试错的过程中自己发现的。 于是 g r p o 就 出现了,你可以把它理解为 p p o 的 轻量版,它砍掉了最容易崩的估分老师,但是保留了关键的探索能力。怎么做就是同一道题,让 ai 一 次生成八个答案,一起放在一起,比排名第一名就强化,第八名就削弱。 他不需要预测未来能得多少分,只要比比谁出的更好,这就稳多了。加 p o 特别适合数学代码还有推理这类的任务,他们有一个共同的特点,虽然很难做,但是结果特别容易验证。 数学题对不对,一算就知道代码能不能跑,一执行也知道 a 阵他能不能成功,根据结果也能判断。所以现在的格局很清晰, d p o 负责让 ai 说人话, g i p o 负责让 ai 会思考做推理强化。下一轮 ai 的 竞争已经开始从谁读的书多,变成了谁更会反思。

嗯,最近一段时间啊,在本地部署运行这个语言大模型是非常火的,然后我个人认为的话,可能在未来的两三年、三五年的这样的时间里,所有的这个创业者,包括上班的啊,上班族 都会需要去具备这样一个能力,就是去理解大模型的使用,然后去熟练的运用大模型。 所以说今天我就跟大家分享一下在本地部署语言大模型的话的一些经验,然后我不会去讲具体的一些安装的过程,就是怎么安装的啊?这个模型怎么安装的,这个平台怎么安装的 这样一些东西。在抖音上面很多,今天跟大家分享的话,主要就是说什么样的模型,它能够在你的电脑上跑起来,能够流畅的跑起来,它能够帮你去解决什么问题?这个是今天跟大家分享的,然后 简单说一下,就是在本地部署大模型的意思,就是把这些语言大模型安装到你的电脑上,这样子不管是你有网络还是没有网络,你都可以跟他去进行一个问答,然后让他帮你去干活,或者是让他去解答你的问题。呃, 和传统的像我们像豆包或者是 deep deepsea 啊这种语言大模型的话,那它的区别就在于说,呃,豆包这样的语言大模型,它是运行在云端的,没有在你的本地,然后 嗯,如果没有网络的话,你是没办法使用。第二个就是你跟他的聊天的记录,包括你上传给他的文件啊,嗯,他是会上传到云端服务器的,没有私密性。然后对于很多的一些企业来说,包括个人来说,我想保证我自己的一些客户资料或者是自己的私密信息 不上传到这个云端服务区的话,那么这个时候就不建议我们去用这个云端的这些啊模型, 嗯,这个时候我们就会用到在本地部署这个语言大模型,然后目前本地能够部署语言大模型也是非常的多啊,也是非常多。然后我经常根据我的电脑情况的话,我现在目前话主要是用这三个啊, 一个是千万三点六、二十七 b 的 这样一个模型,还有千万三点六、三十五 b 的 专家型的一个模型,还有一个佳马仕啊,佳马仕是谷歌的, 这三个模型是在我的电脑上,我觉得速度和质量都还是比较好的。然后目前整个这三个模型啊,他的实际的一个评测也是在本地模型里面靠前的。 当然这里有一个概念,大家一定要知道啊,就是说对一个大模型来讲,他前面代表是他的名称啊,千万三点六,这个是千万公司的,然后三点六是阿里出的这个模型啊,杰尔玛是谷歌出出的,这个是他前面的这个名字,然后这中间这个就很关键了啊, 呃,三点六和四十他的版本哈,这个不用去管他。然后最中间的就是这个带 b 的 啊,二十七 b、 三十五 b、 三十一 b, 这个表示这个模型他的一个大小,也就是说这个模型的呃,他那个规模什么意思呢? 举个例子就说他如果是人的话,这个就表示了,就表示了你的一个脑容量越大的话,你可能就会更聪明,如果你的脑容量越小的话,那可能你就 不那么聪明一点,然后能够回答的问题就有限。所以说一个越大的模型,那么它的智能程度是非常高的啊。 像我们家用的话,部署的话有啊,四 b 的, 有八 b 的, 有十 b 的, 有十六 b 的, 然后有二十多 b 的, 也有三十多 b 的, 还有七十 b 的, 这样一些模型都是可以在家用电脑上进行一个配置的。 如果你要追求啊,像很多的一些大公司,像阿里啊、腾讯啊、百度啊这些公司,他们在服务器部署的这个模型,那我们在本地电脑上是肯定跑不了的,他们都是千亿级的这样一个参数,在本地是跑不了的啊。 嗯,所以说我们能够跑的基本是在七十 b 以下的,如果说你是非常顶尖的一些专业的工作站,那你可能会跑到七十 b 的, 然后普通家用电脑的话,基本上能跑到三十五 b, 二十七 b, 就 就基本上是一个天花板了,所以说大家可以一定要去注意看。然后 第二个需要注意,就是说啊,模型还有一些后缀啊,后一个后缀的话,主要是它的一个量化的参数,比如说像杰尔玛这个模型,它这个 i q 四,这个表示它是以四比特去量化的,这个参数会非常重要。我们看这个模型文件,它也会有 像三问千问三点六二七比特的话,它是写的 q 六 k, 也就说它是按六比特进行量化的,量化的程度越高,量化它表示一个模型的压缩率, 如果说压缩的越狠,那他的数字就会越低,比如说四比特,那就是压缩的非常厉害的六比特,压缩中等的巴比特就基本上轻微压缩,十六比特就是完全没有压缩, 完全没有压缩的模型,它质量是最高的,然后稍微压缩一点啊,也是可以使用的,精度没有太多的影响。但是如果是四比特以下的这个压缩率的话, q 二 q 一 啊这种, 嗯,我建议大家就不要用了,这种压缩率太低的话,他会失真啊,就会产生模型的一个幻觉,说这也就是这个意思啊。 q 二 q 六 q 四, 但是不是说越大就越好,这个要看你的电脑能不能装,嗯,至于这个模型能不能在你电脑上去部署,能不能流畅的跑起来,有个很重要参数,非常的简单,我教给大家就是什么呀?就是你去看这个模型文件的一个大小 啊,这个模型的话它是二十二个 g 的, 然后我还装了一个千万三点三点六三十五 b 的 这样一个 q 四的模型,它的大小也是二十二 g 的, 然后这个 g 码三十一 b 的 模型的话,是大概是十六个 g 啊,十六个 g, 对, 然后 这个什么意思呢?如果你的显存是三十二级的显存,或者是你的显存是十六级的显存,你一定要记到一点,就是这个模型文件它的大小绝对不能够超过你的显存,如果说它超过你的显存,也就意味着这个模型不能够完全的加载到你的这个 这个显卡的呃显存里面去,如果不能够加载进去的话的话,然后他就会通过这个内存和 cpu 去进行计算。我们都知道啊, cpu 它是一个多任务的啊,多现成的这样一个处理器,它是干很多活的,但是 gpu 它是 专门去干一件事情的,所以说它的计算速度会非常高,而且这个显存的宽带比内存的宽带是要快很多的, 所以说当你的模型全部加载到你的显存里面的时候,它的进行计算就是通过显卡去计算,那么速度就会非常快。如果说你把它放到内存里面去,通过 cpu 去进行计算的话,那么这个速度就会非常非常的慢啊,所以说大家一定要记住这一点,就是你的这个模型的尺寸, 它的容量大小绝对不能够超过你的显存啊,这里我是配置了两张显卡,呃, rtx 的 五零八零和 rtx 的 五零六零钛都是十六 gb 显存的,加起来就是三十二 g 显存,那么这个显存叠加的话,是在这种语言类大模型是可以去进行一个呃, 叠加的,使用的就是平台会进行拆分,但是你去跑一些像 comfyui 这样的一些生图生视频的软件,它就没办法啊。好,这个我就不讲太多了,大家一定要记住,就是说这个模型能不能在你的本地部署,首先第一点去看它的大小,大小不能够超过你的显存。 第二个很多朋友可能会问,那我是十六 g 的 显存,我去下载一个十五 g 的 一个模型没问题吧?当然没问题,你可以装进去,但是你一旦和他对话说成两句话, 你就会变得非常慢,为什么呢?就是在本地部署模型,还有一个很重要的概念,叫做上下文的一个大小,什么意思?就是你每跟他对对一次话,你,你告诉他的问题,他就会占用一定的容量, 随着你在一个窗口里面跟它对话的次数越多,这个容量就会越大。如果这个容量加上它本身的模型的这个容量,最后超过你的显存,它就会加载到你的内存里面去,加载到你的内存里面去的话,然后这个时候速度就会变得非常慢了。 所以说我们要确保就是说一个模型在自己的显存里面去,不能够到内存里面去,不能够让 cpu 去运行它,不然速度就会非常慢。 所以说大家现在知道了啊,就是你去装一个本地模型,第一要素是它的大小不能够超过你的显存,第二要留足够的空间去给它运行上下文,这个空间大概是多少呢?嗯, 大概一万啊,字节的这个上下文的话,需要的显存,嗯,应该是在一 g b 左右,所以说我们普通的对话的话,基本上你设个嗯三万吧左右的上下文,如果你 用这个电脑的 ai 的 a 检测去帮你干活的话,三万的上下文一般足够用啊,那么三万的上下文的话,然后 呃就需要大概三 g b 左右显存。如果你是去除处理这种长的上下文,比如说几十万这个小说啊,怎么怎么样,那你就需要设置非常长的上下长长的上下文,比如说六十四 k 的 或者一百二十八 k 的, 那么就会需要占到七八个 g b, 甚至包括十多个 gb 的 一个显存容量,那么这个时候你在显存里面一定要留够这个容量,如果没有的话,要么你就去压缩你的上下温,把它这个容量变小一点,要么就是下载更小一点的模型啊, 所以说我的三十二 gb 的 一个显存的容量,呃,那么我去跑一个二十二 g 的 这样一个模型, 我的空间容量还有十 g 左右,十 g 左右当然也还需要减掉两个两到三个 g, 这个是系统需要用的啊,就是你加载这块显卡,系统会用到 的,所以说,嗯,可能我能够用到的容量就是八个 g, 八个 g 的 话我就八个 g 的 话,我就大概能够设置三万到啊,六万这样一个一个上下文的一个长度吧。 好,这个知识大家清楚之后,然后我讲第二点非常关键的什么呢?就是说你下载一个模型,嗯, 它能够装到你的显卡里面去,就是我刚刚讲的就是它的容量绝对它的大小不能超过你的显存。第二,你要留够足够的上下文的空间,然后第二这个模型在你的电脑上跑得快不快,这取决于什么呢? 嗯,首先第一当然是你的硬件啊, cpu 这个型号越高,它的这个扩大啊,不要去选择 amd 或者是英特尔的这个这个 gpu 啊,英英特尔和 呃,这个 amd 的 显卡,它们目前在进行这个大模型的计算的时候,没有没办法去开这个扩大加速啊,它的速度会非常的慢, 所以说现在恩威达的这个显卡,它的市场占有率已经达到百分之九十多,就是因为它不光是它的库达啊,还有大力水手啊, d l s s 这个在游戏方面表现很好,它的库达在这个大模型计算方面也是非常的有用, 所以说,嗯,建议大家如果真的是想去学 ai, 然后去跑大模型的话,一定要选择这个 omega 的 显卡,然后,嗯,型号越高的啊,就是像四零九零或者五零九零,然后五零八零、四零七零啊,四零八零这种型号的话都是可以的,就是型号高一点。 嗯,但是最重要是什么?就是我刚才想跟大家分享,就是说,嗯,显卡要用 n 卡。第二就是你去跑个大模型的时候,嗯,他的一个平台会非常重要,我现在跑的大模型的话,这个平台是用的这个立马点 c p p。 呃,什么意思?就是说立马点 c p p, 就是 他去跑这个大模型的一个原生的一个环境啊,就是一个环境去跑它, 嗯,但是这个立马点 c p p 的 话,它会复杂一点,你需要在这个命令行 c i i 里面去进行一个部署。如果说很多啊,新进入这个这个领域的小伙伴 啊,想简单一点也有办法,就是去下载一些像 l m studio 啊之类的这样一个呃平台,这样平台它是直接可以在文档上面进行一个安装的,就不需要去输命令,然后安装好打开这个界面就可以加载这个模型,就非常方便。 那么但是有一个问题,什么为什么我现在不用这他们这些平台,就是因为这个 lm studio 啊,我测试过之后,它的速度比原声的立马的话是,呃,每秒钟升升升成那个托肯的,这个速度是会慢慢很多的。 呃,所以说我基本上就是用原声的立马啊。怎么样去装这个东西我也就不讲了,大家可以去了解一下,我今天给大家实际跑一下吧,跑一下这个 好,需要打开一个命令行,然后去输入到我们的一些启动的命令啊,输入到我们的启动一些命令,这些命令的话也不是很复杂,嗯,基本上在在这个在网上都有。 然后这个命令加载的命令的话,主要是就是加载你模型的这个位置,然后一些启动的参数我就不展开讲,现在我去启动一个这个二七 b 的 千文的一个 q 六的这样一个模型啊,把这个命令输进去,然后回车就可以了,然后它现在就是一个加载模型的一个时间, 然后我的两张显卡的话,因为有一张的这个贷款比较低,是 pcie 的 一点零啊,我现在还没有去改它,所以在加载的时候会速度会比较慢,但是跑起来的时候完全不影响啊,就生成这个托肯的这个速度还是非常快, 然后加载的时候可以稍微慢一点,但是已经完成了啊。在加载完磨成模型之后,就会生成这样一个地址,在本地的一个访问的一个端口啊, 幺二七点零点零点一八零八零在一个端口,然后我们在浏览器里面去打开它就可以了。然后这个因为我本身我是已经啊把它收藏起来,现在我就直接打开它,这是立马点 c p p 的 一个基本的界面,我们就可以跟它对话了,你是什么大魔 模型,这样对话的话,他就已经用这个千万三点六二十七 b 的 q 六 k 来进行一个回答,然后速度大概是在三十 to 肯斯每秒左右啊,有时候会快一点,比如说来到四十 这个时候呢,注意看一下,就是我的两张显卡的显存啊,基本上十六个 g 用了十三点六,然后另外一张的话是十六 g, 用了十五个 g 啊,这里面我做了一个权重调配, 然后我的 cpu 啊,它的运算率是非常低的,就基本上它是靠显卡和显存在进行计算,这个就是非常好的,所以它能够保证它的一个速度啊。现在这个大模型的,呃, 评分比较比较高的有哪些 好?然后提些问题,他就可以去跟你进行一个一个解答,然后 我们就可以在本地去使用它,然后本地使用这个大模型的话,好处就在于说,第一如果你没有网络, 你没办法去使用豆包或者 deepsea 的 情况下,你是可以在自己的电脑上去跑这个本地模型的,一样的话是非常智能,像千万这个二点,嗯嗯,千万这个,嗯,三点六,二十七 b 这个模型啊,我实际测过,他比豆包的这个快速的这个模型 是要聪明很多的,和豆包的这个思考模型的话差不多,当然专家模型就没有办法更详细的去进行一个测试了啊, 他也他也的自然程度也是非常高的,所以说你如果没有网络的话,你就需要去部署一个自己本地的模型。第二点就是对于很多的企业或者个人来说, 嗯,因为云端的模型向豆包我提一些问题啊,把我的企业的财务数据我需要去发给他看,然后把我企业的员工的一些信息,或者是我的一些核心商业机密中标的一些东西,我需要发给他去看, 那么这个他会把这个文件上传到一个云端服务器,这样确实私密性不太强啊。但是在本地的话,比如说我上传啊,他现在已经生成完了,我上传给他一张图片啊,上传随便啊,上传给他一张图片我让他看,呃,你看一下我的电脑 配置啊,这样图片给他的话,他在本地进行处理,那么这个,这个你的这个资料,你的呃所有的资料不需要去上传到云端啊,私密性非常强。所以说很多企业 和个人,然后包括一些商家,他的不需要自己的这个客服资料的流失的话,建议都是去做这个本地的部署,然后他在跑的时候大家可以看到啊。 嗯,显存啊,两个显存还没有用完,十六 gb 的 十五点一,然后十六 gb 的 十三点六,也就是说我现在还有大概呃三个 g 左右的一个空间去跑这个上下文,然后不会报显存,不会报显存的话,一个代表就是一个,一个一个表现就是你的 cpu, 你 看 我这个 cpu 的 话,它的一个运行的一个,嗯,占用率的话是比较低的,这样呢不会去影响模型的速度,主要是靠显卡啊,靠你的显卡进行一个计算 好,然后这个就是在本地跑模型的话,嗯,在平台选择的问题,建议大家如果确实不太熟悉这个命令行的话,就可以去选择这个像啊, 然后 a m m studio 之类的这样一些啊,非常简单的桌面平台,然后下载即安装,安装就可以使用。如果说你懂一些电脑的这个呃操作,然后又想去体验这个大模型的一个速度的快速的话,那么就建议大家像我一样去下载一些啊,这个纯底层的, 呃,跑模型的平台,像立马点 c p p, 还有 v l l e m 之类的啊。然后这个就是影响模型速度运这个计算速度的一个很关键的地方。那么第二个点就是什么呀?就是在大模型上,嗯, 下载大模型的话,像你用这个,嗯,像我用这个,立马 c p p, 它比我用这个 l m studio 最好的一点就在于什么?就在于它可以去支持这个这三个字。大家看到没有,这个叫 m t p 啊, 去支持这种 m t p 的 一个模型,但是像 l m studio 它现在还支持不了,这什么意思呢? m t p 的 话是一种加速的方式, 一种加速的方式,有 m t p 的 模型的话,它的速度会非常的快,没有 m t p 的 模型的话,速度会慢一点啊。这个具体的原理和机制我就不跟大家讲太多,大家可以在网上去了解一下。所以说你想去跑这种 m t p 的 模型的话,建议最好就是用呃,里马,包括这个 v l m 之类的 这个原生的平台去跑,像一些,有一些啊,像这个 l m 丢丢之类的,它现在还用不了这个 m t p 的 模型, 呃,这个也是对模型速度影响非常关键的。然后最后跟大家分享一点,就是说,嗯,我目前啊经常在用的话,主要是有三个,这个人工智能这个智能体啊, 第一个豆包我会也会经常用,有些简单的问题我会问他,因为第一他是纯中文的一个环境,第二在用他用到国内的这个搜索网络的话,去搜索一些东西,速度也是非常快的, 那么我要去学习大模型,要去掌握大模型,要去用本地的一些搭建知识库的人之类的事情的话,让本地模型去不消耗托克的情况下啊,啊不,不是不消耗托克,就是免费,有托克用的情况下 只消耗算力,你的电力的情况下去去用大模型的话就可以用本地的啊,这样一个部署的。呃,还有呢,就会用到这个,像这个 谷歌的这个啊,机密里啊机密里,然后这个是我觉得我用到的这个,呃,怎么说?这个智能体验 非常聪明的一个,非常聪明的一个,然后建议大家如果有这种条件就是科学上网的环境的话,大家可以去试一下啊,这个机密里我觉得是非常聪明的,然后,嗯, 所以说就是本地部署模型的话就是这样一些知识点,当然还有很多很多的一些知识点,然后我希望大家都慢慢去学习,比如说在本地模型的话会加很多参数,这些参数里面最重要的我觉得就什么呢?就是有一个这个参数叫做 f a, 嗯,这么个参数啊, f a 什么意思?就是你在本地去跑大模型的时候,在那个语言环境里面,你一定要去装两个东西,一个叫做 flash attention, 一个叫做 sega attention 这样的东西,然后 flash attention 的 话它主要是去加速这个本地的语言大模型的,你打开它之后啊,你的量化模型会跑得更快 啊。嗯,我在这我在这边再给大家演示一下,我跑这个千问三十五 b 的 a, 三 b 的 这个模型大家可以看一下啊, 哦,我这个模型都是去开启了这个 flash attention 的, 然后,所以说,呃,再加上我用的是 m t p 的 模型啊, m t p 的 模型,然后开启了 flash attention, 所以 说我这个,呃模型生成的速度,这个这个吐字的速度 还是非常的快, 大家可以看一下这个纤维三点五啊,纤维三点六,三十五 b 啊,这个模型是个 mo 模型, mo 是 个专家型的模型,它每次加载到你显存里面的计算量 会小很多,所以说速度会更快,非常的快啊。然后,但是我实测过它和二十七 b 的 模型比起来确实有一点, 怎么说不严谨,或者说有一点傻啊,同样一件事干出来,嗯,它的智能程度,比如说我写了一个围棋的游戏,我用二十七 b 写出来的话啊,我觉得是 ok 的 啊。 除了有一些这个嗯嗯对战的 ai 还需要调整之外,我觉得这个围棋游戏是 ok 的。 但三十五 b 写出来之后,它那个棋盘首先就是非常小的啊,它就不是那种标准的围棋棋盘,是一个可能九乘九的一个棋盘,然后 ai 的 话也是没有反应,需要你自己再去调试, 但是它作为市场的问答是没问题的,我们现在已经打开它了,这个千万啊,我们先去再去试一下,再去试一下,然后 看一下这个三十五 b 的 一个啊,大家可以看到它是千万三零六三十五 b a 三 b, 然后呃一个 q 四 k, 然后杠叉 l 的 这样一个模型也是有量化加速的。我们先问他一个问题,呃,中国从小学到高中的数学教学教育体系 好,我们来设这个问题啊,我们现在看到的,嗯,他的预思考时间会稍微长一点点,这个是因为我显卡插槽的问题啊,是我显卡插槽的问题,我有个显卡的话,他插在那个 pci 一 点零上面,所以说这个加就是预思考的这个速率会稍微慢一点, 如果调整过过后之后,他是是非常快的啊。然后现在他已经在进行一个思考和深层了,然后大家可以看到这个数据大概是在六十四左右。我,嗯,我觉得现在有点不对啊,我平时跑这个数据应该是在 一百左右吧,啊?一百左右吧,所以说九十多一百,所以说这个这个三点六三十五,比这个是很快的啊,是很快的。 然后一些常见的问答,日常问答的话,这个模型是非常推荐大家用的啊。嗯,我说的傻傻的是在做一些非常专业的这个数学,或者是一些啊这个领域的一些计算的话,他可能会比二十七币啊,因为二十七币那么多。专家吗?他毕竟 这个三十五币,毕竟只选了几个专家来回答你的问题,可能说没有那么全面,没有那么深入,但这个模型日常用是非常好用的,非常好用的。嗯, 所以说就是我们现在可以看到我刚才加载这个模型的时候,它会有一些基础的信息,里面有一个很关键的就是在于这个 flesh attention, 我 给大家找一下这个,这个,这个在哪里啊? flesh attention 没,没看到,这个在命令行里面,有时候你会看到它,然后加载的话是在这个, 我现我现在有点找不到啊,有点找不到。呃,我是没有开启吗?应该是开启了,开启了也可以让看一下这个命令行,也可以让。 对,嗯,我是开启了,但是在这个里面好像没有看到啊,没有看到,现在我也,我也不再去找它了。然后我想告诉大家,就是说 这两个东西啊,一个是 flash attention, 一个 sega attention, 它都是这个本地的一个平台,你必须要去跑本地模型,必须要去装到两个插件啊,这两个插件会让你模型的速度升的速度会非常的快。然后 flash attention 的 话,主要是在跑本地语言大模型的时候加进行一个加速, 还有一个叫做 sega extension 的, 那么主要就是在跑这个,呃, comfy y, 也就是说我们说的这个, 嗯,生成图片或者生成视频的这样一个平台啊。嗯,这样这样的一个模型,一些图上视频,纹身视频,然后嗯嗯,这样一些模型呢,他就会去用到这个 sega extension, 说这两个东西你是必须要去装的,然后还有一些环境, 嗯,像拍缝啊,然后库达这些东西,基本上,嗯比较适合一些老手啊。我们去部署它,在用这个 c u a 这个命令行去部署它的话, 都必须要这样去装,如果确实新人入门的时候你觉得太难了,没关系,你就用这个 l o m studio, 这个也是可以的,它除了就是稍微慢一点点,然后不能去加载 m t p 的 量化模型之外的话,它还是非常好用的。 然后当我们部署这些语言大模型之后,我们还可以去跑一些 ai 的 agent, 然后这这些 agent 的 话,他就可以去帮你干活。像我现在用的这个 anything l l m 这个 agent 的 话,然后 他能够帮我生做什么呢啊?嗯?能帮我做什么?我现在已经连到这个三点五啊,纤维三三点五,这个纤维三点六三十五 b 这个模型上面了,然后就可以直接问他啊,我是配置好的,然后 他就告诉我他能够做做哪些事情。但实际上啊,这个 a 剪子的话,他的这个功能还是比较多的,我们可以看到他的一些这个代理的技能啊,比如说去 进行一个呃资料库的搭建啊,就是我们说解锁生成,然后长期记忆,这个是 ok 的。 然后文档的总结没问题,去网站上抓取一些数据没问题,然后访问你电脑的文件系统,然后能够在你的电脑上去创建一些文文档 图标,包括 ppt, 然后能够去进行联网的搜索,然后还可以连接你本地的这个 呃 s q l 的 这个数据库啊,然后去调取一些,比如说你做商家的,对吧?你的你的数据库里面有很多你的商品的价格,你每次在改动的时候,它可以自动的去进行一个连接帮你调整,然后它还具备了一些什么邮件啊、日历啊,然后呃 outlook 这样一些连接的一些功能去,就就能够去帮你做一些 用 ai 的 这个本地模型去帮你干一些事啊。如果你不是用本地模型,比如说你用到这个他们养龙虾或者是跑这个爱马仕的话,呃去用到这个呃 deepsea, 或者是这个 呃谷歌的这个经理的话,他就会按 talk 给你收费啊,这个费用就比较高,所以说如果你只只是做一些简单的日常工作的话,你就可以在 自己的电脑上去部署这样一个本地的模型,然后用自己的 a 技能去跑,就没有一分钱的花费,他只会消耗你的电费啊,以及你刚开始前期的一个硬件投入成本啊。嗯,这边给大家再看一下啊,就是说,嗯,举个例吧, 嗯嗯,比如说我用,哎用 用浏览器去亚马逊网站帮我 查一下二零二六年,嗯,二零二零二六年四月的热销, 热销电子产品啊,这样一件事情,我生成给他之后,然后这个 agent 他 就会调用你本地的模型进行计算, 然后你可以看到他他的一个计算过程,然后他同时会用到他的 agent 的 功能,就去用他的一个内置的或者是你自己电脑上安装的一些浏览器去搜索这个网站,然后去 找寻这个结果,然后反馈给你,反馈给你之后,你还可以让他去生成一个什么 excel, 威尔,威尔的这样之类的一个表格,储存到你的电脑上,就相当于帮你干一些简单的活,这个是没问题的, 所以今天跟大家分享一下,就是说本地这些模型啊,我不讲安装,我就给大家分享一些经验,就是他怎么样跑你电脑上,大家一定要记住这个模型的大小不能够超过你的显存,而且你要留一一一定容量的这个上下纹, 然后同时的话去选择模型的话,呃,最好选择量化模型啊,量化模型,然后带 m t p 加速的那样些量吗?量化模型,然后平台的话,如果你呃 比较精通电脑,就去用这个 c u i 的 命令行去部署一些这个底层的一些跑模型的平台。嗯,如果你不太精通的话,如果是一个电脑小白的话,就直接去网上去当了这个 l m studio 之类的,这些啊,一个桌面版的模型平台就会非常简单。 然后,嗯,今天就跟大家分享这么多吧。然后如果后面会有一些教程的话,也是把我以后在跑模型方面的一些经验给大家分享一下, ok, 拜拜。