粉丝280获赞851

这是个能让你越敲越上头的摸鱼搭子。每天认识一个神奇的网站,第二十二期,今天讲它 是 github 上开源的小猫捉宠,不管你敲键盘、点鼠标,它都能实时同步你每一步操作。工作累了看它陪你一起忙活,治愈感直接拉满。更爽的是,它还能自由换皮肤模型,喜欢哪个用哪个,关键是几乎不占内存,怕误触就开窗口,完全不挡操作,并且 windows、 mac 都支持,真的超级好用!

hello, 各位小伙伴大家好。呃,今天这一批呢,主要是讲如何使用这个 tele skill 去 链接这个 open claw, 然后还有就是如何使用 oalan 去本地部署模型,然后对接 open claw。 呃,今天这两个呢,第一步操作是不是 b 选项?就是如果你可以接受我们之前上面说的 上面说的使用端口转发去链接你的服务器,然后再去进行一些操作的话,那么这个 time scale 不是 你的,不是你的 b 选项这一这个 time scale 主要是 有些小伙伴他想让我去给他出一期这个教程,他不希望使用这个 ssh 的, 然后转发去配置,因为这样太麻烦。 如果说你不需要这个 type scale 的 话,你可以直接跳转,我会把跳转的时间放在底下,你可以跳转到我们的第二部分,使用奥特曼去配置我们的模型即可。 ok, 话不多说,我们现在直接开始 打开我们的这个 type scale 这个网址,既然你已经知道这个 type scale 的 话,呃,我就不会不会去呃,说一些废话。 ok, 我 们直接打开这个 d o c 的 文档, 找到这个 install, 这有安装安装 linux, windows 和 macos。 我 们首先需要在我们的本地去安装 一个 telescale, 就是 windows 的 版本。然后有一个问题,就是你可能遇到你登录的时候就它安装好了之后,你去登录点那个登录按钮,它没有反应这个情况,还有很就很大的概率就是你的本地网络问题。 呃,这个你需要等,是的,我,我解决方案就是等我今天碰到这个问题之后,我就把它存到了底下,点了几下那个 logo 印之后存到底下,然后过了大概有个五六分钟之后,他才弹出一个网页让我去登录,我觉得这很有可能跟他的那个打动的打动方式有关系, 他没有连上他的那个服务器,如果说你也碰到这个问题的话,嗯,只需要等待就可以了。然后在你的电脑上面登录了这个 tele skill 之后呢? 你这你的后台可以看到你的这个设备了,对不对?我去把那个 linux 的 给它安装一下, 今天更换了一下那个服务器,因为这个服务器上面有一张显卡,我等会需要给大家演示一下如何如何在这个上面去部署一下奥德玛,然后跑下的一个模型, 然后我们这直接点击 excel 就 可以,那它会给你一个登录的链接,我们啊拷贝下来登录上去, 连接上去,连接上去之后呢,这就会显示 success 成功了,那就说明。然后我们再打开我们后台的时候,就可以看到这已经有一个设备了,对不对? 有一个设备之后呢,我们首先第一步就是需要在这个 d s 选项这里把这一个 http 的 这个打开,我这里是已经打开过了,你们这应该是 on a 部 http, 把它打开之后我们再执行下一个操作。 对,然后我们需要去申请一个 ssl 返贷啊,这是一个 ssl 证书啊。首先我们可以直接输入这个 tax scale 的 这个 命令,它会提示你说你的这个设备名和你的域名,它给你分配了一个域名,这个域名是多少?我们要根据它的这个域名去进行一个看一下代理。 ok, 我 们先申请证书 啊,最近广东也降温了,好冷。分配好的证书之后呢?我因为我们这儿跑的本地的域名是幺二七啊, 我们本地跑的这个端口是幺八七八九,然后我们需要做代理的时候呢,也要把这个幺八七八九端口给它代理上,我们这有个 tabscale server, 然后把这个 代理给他,代理上去就可以看到,你看他的,这是他们给我配置好的一个 h t p s 的 代理域名,他代理的是我们本地的幺八七八九端口,那么我可以直接通过这个域名去访问他的这一个, 去访问到他的这里一个设备, ok, 现在呢?他报错了,没有关系,这个我们等会儿去解决。那说明首先是我们已经连上了,对不对?然后我们再打开看看一下 它,这个说明是有一个是 double 的 url 没有 token, 对 吧?我们首先把我们的 token 给它带上, token 是 我们之前准备好的,如果说你不知道你的 token 是 多少的时候,我们可以把这个网关给它暂停一下。 我们看的看一下这个当前就是我们的 home 目录,也就是我的 root 目录嘛, root 目录下的 点 open cloud, 这个目录下有一个 open cloud 点 json, 这是一个 json 文件,也就是它总体的配置文件。如果说你看过我上期视频的话,你会对这些配置文件里面的某些配置比较清楚,对吧? 我们直接在这里就可以找到我们的 token, 你 看就是 getaway, 这是网关嘛,对不对?然后这有一个 token, 这个就是我们的 token, 你 可以把这个 token 复制下来,然后粘贴上去就可以就进行一个访问了。好,我们再回到这里,首先它当我携带了这个 token 之后呢?它依然就是一个幺零零六,对吧?没有资源 啊,刚刚应该是幺零零八,只不过我把这个网关暂停之后,它提出我们继续把这个网关取起来, 我们刷新一下, ok, 现在提示我幺零零八了。这个幺零零八是个什么意思呢?这个幺零八就代表着啊,我们这个设备没有经过授权,就跟我们的这个机器人一样,就是说某个设备要连进来的时候,它都是需要授权的,如何去授权呢? 我的这个文档里面其实写的也也很清楚啊,我们可以通过这个 open driver list 去查看我们当前的这个待处理的设备啊,就在这了,对不对? 这个是已经接受的,底下是待接受的,应该是吧? request id 对 吧?啊?上面,上面是带接受的。啊,我说错了,底下是已经接受过的,上面是带接受的,我们把这个 id 需要准备一下,给它复制一下,然后粘贴到这 接受一下。好,接受了我们再刷新一下。 ok, 这里其实就已经看可以看到了,就是这里的 health 已经是 ok 了,对吧?我们也连上了这个问题,是这个问题其实是在它的那个文档里面找到的,那这个问题 是我从这个 reddit 这个 reddit 这个论坛上面去找到的,也就是一开始幺零八这个问题的时候,它是通过修改这个 painting 的 这个 jason 去批准的,就是把这里的未待接受的个状态从 false 改成了 true。 后面我找了一下它的这个参数啊,实际上根据它的官方文档是 通过这里去去请求,所以我就把这个发上去了,也就是在这里节点配对,这,这是它的文档。 哎,这里我是在教大家如何遇到的问题去把它解决掉啊,而不是说,而不是说你只会跟着我的一步步操作,我希望能够教给大家的是 你能够从我这学会解决问题的方案。好,废话不多说,我们继续啊。首先这里我们接受成功了之后呢, 这里其实就已经可以开始访问了,看到没有?我没有通过那个 s s h 端口转换啊,这个是,这个是上一回呵,因为之前的啊,这是我,我通过那个我要进到控制台,你看我这把它关掉之后 s s h 的 端口转换,关掉之后呢?这的底板依旧是可以 去访问到他的这个空台。好,那个 time scale, 其实访问就这样,然后但是如果你安装了那个浏览器插件,对吧?你安装了浏览器插件的时候,你可能依旧需要通过 s s h 端口转发去把你的那个幺八七七七多少, 他这个,他这个端口是多少?我看一眼啊,对,幺八七九二这个端口给它转换转换出来,因为你没有代理这个端口嘛,对吧? 如果说你不知道如何去安装这个浏览器插件,或者说如何去打通你的,让这个 open call 去访问你的这个浏览器的话,你可以去看我的上一批啊,我的上一批其实讲的很清楚。好,现在接下来我们直接去进行我们的这个货拉玛的这个 部署啊,这一批现在讲的就是如何使用欧拉玛部署本地模型,让我们的本地模型去打通这个 open cloud, 这样的话我们就不需要费 token 嘛,对吧?因为我们第一批时候就已经测试过了,就是 那个 open cloud 其实是非常非常费费那个费那个 token 的, 你可能处理一个问题大概就需要花到六七十万,甚至说一百万的 tokens, 那 这样对我们的 钱包不太友好,成了副歌的玩具。所以说我们就可以通过这个本地部署模型去运行这个 oppo, 但是啊,什么都是有前提的,但是 他对你的硬件要求其实也很高,他就可以看到我这一台服务器上面配置的是一是一张 p 一 百,也是他有十六 g 十六 gb 的 显存,如果说你的电脑或者说你的服务器 是五零六零,对吧?或者说是其他其他 p 四,他说拉 p 四对吧?其他的显卡就是他的显存比较低的时候,你运行的模型可能大概就只有七 b 到八 b, 甚至可能更低。我这一个十六 g 大 概可以运行十二 b 的 模型,它会消耗掉我九 g 甚至十 g 的 显存,十二 g 就 对于这种八 g 的 显存就已经不够了。 然后我这个十六 g 的 可以通过分配到分配到 cpu 去运行运行三十 g 的 三十 g 量化过后的模型,呃,但是速度非常非常的慢,等一下我给大家演示一下就知道,就是它 运行的速度跟你的显卡配置有关系,而且它的这个显存要求很高啊,如果说你在这方面没有很高的配置,或者说没有显卡,没有多的显卡去给它运行这个欧拉玛的话,我个人建议还是, 呃,可以考虑放弃一下这个 open color, 因为 open color 经过我们这么长时间测试下来,它其实 没有对我们当前的生产力产生很大的作用,有很多特定方案的时候,我们可以通过其他的方式去解决掉 cloud 的, 它的 c, l, i 还有 q 的 叉啊,写代码都很方便,包括做一些事情都很方便,就没有必要去通过这 opencloud。 opencloud 我 个人觉得它它在未来,如果说它能够一直这么更新下去的话,它在未来其实是有很大的作用, 但是它在我们现在可能作用不大,大家当一个玩具玩一玩就可以了,好吧,啊,又说了一个废话,来,我们直接开始吧, 我们这有个导入的,对吧?我们可以在这里看到有 linux max, windows, 对 吧?如果说你是在 windows 下面运行的这个呃, open cloud 这个网关,我们可以就下载 windows, 如果,但我是 linux 的, 我就直接在这使用命令安装了, 这里先放轻松。好吧,不好意思不好意思,楼上可能起床了, 先安装一下这个,然后可以去看一下它的模型啊,首先它的模型不是什么模型都可以使用的, 我们在左上角可以看到这个 models, 对 吧?进来之后呢,它不是什么模型都可以使用的,它必须要在这个 toos 的 这个呃下面的模型才可以使 用。而这个 cloud 呢,是云模型,大家可以不用去测试 它的那个奥拉玛的网关,在奥拉玛的官方网站上面去进行。 这个模型我一开始想体验一下,发现 就在这个底下找,随便找一个啊, 找一个小一点, 安装完了,还有一个前提啊,就说如果你是服务器上面去运行的话,你首先需要去安装你的 nvidia 的 那个驱动,然后再其次就是安装扩大, 首先你要你必须要能够调出这一个界面, 这个这个进这个属于进阶教程啊。这个方面装 windows, windows 上面装扩大和这个驱动,驱动应该是已经打好了的,但是 你需要去安装一个对应版本的扩大,这个这个安装教程我跟你不会寄望大家可以去网上随便找一下,比如说我的是显卡安装扩大,或者说显卡安装 media 的 驱动,是吧? 大家去搜一下。如果说你是 amd 的, 那版本又不一样了,你是 amd 的 显卡的话,你需要去安装那个什么 r r 什么 c 什么来着,反正他不是抠大了,这个需要大家自己去解决好吗?我这就不解决了,这个这个事情处理起来比较复杂 啊,其实就是安装一下我们的这个这个吧。嗯,我们安装一下速度快一点,占用大家时间太多了, 我这里只是演示如何去运行,就打通就行了,我不会演示它的效果,因为它效果非常的差。我的我的 p 一 百的显卡 想处理一个事情的话,他大概需要回,他回一句话的话大概需要大概需要。嗯, 七到八分钟,对,回一句话要七到八分钟,就我我不敢想象,就是说他他去处理一件事情的话,他可能要跑多久,而且他会显卡会满载内存,很难受的。 等一下,我连一下服务器啊,因为我我如果说一旦在这个上面下载的话,他网速跑快了,我就连不上服务器了, 然后如何去如何去下载这个模型,对吧?我刚刚复制了这个。呃,千万三的这个零点六 b 对 不对? 零点六 b 嘛?一点七 b, 好 吧,一点七 b 下载命令是什么呢?是欧拉玛 o l l a m a, 然后铺, 然后千问三,千问三的冒号,一点七币是吧?没毛病,直接跑,跑了之后呢?这就会开始下载。 呃,可以看到这里模型还是比较大的,只有一点七个,有一点七个 g, 这还只是一点七币的这个模型,你如果要下载更高级的模型, 你就最好把你的硬盘留出来。好吧,硬盘留出来,你看它后面是九点三个 g 了。咳。 其次就是 windows, 它我记得之前测试欧拉玛在 windows 上面跑的时候,它会把那个模型下载到 c 盘,所以说你需要去修。首先你下载模型的时候需需要去修改一下你的那个下载的位置, 可以在这个 d o c 的 哪看到。嗯,我看一下。看飞哥有吗?不是这个,是都看。 嗯, 我找一下模型,他在后面下的,我先找一下文档。我先跟你们说一下这个这个参数,看能不能找到在哪 啊?这个是它支持的显卡,你可以在这个这个里面去看一下它支不支持你的显卡,就比如说我的 p 一 百,我的 p 一 百,在在这儿看到没有,它的效能可能就只有 六,但是如果说你们是五零六零或者说更高级的显卡,他这他的运行效率可能就会翻倍,那也就那也就说从跑一个,呃,跑一个三十 b 的 三十 b 的 模型的话, 回答一个问题可能在两到三分钟,哈哈哈。啊,也不是哎,也没办法接受,然后这是他 md 支持的,现场找不着了,他的那个 carve, 哎,有吗?咳咳, 没有看一下,我们的下完了啊,模型下完了啊,模型下完之后呢,我们可以通过什么命令去查看?到了欧拉玛 o m m a list, 就 可以在这里看到我们的模型,然后我们去测试一下。 run 前问三,一点七 b, 我 们先运行,然后我们再开一个中断,我们再开一个中断。 好,它,这它这就已经运行起来了,你可以在这里面问它了, 那它还是一个 sink 模型,就是它会有思考的动作。好,你看这样其实就已经跑起来了,你可以在我的右边看到我的这个显存情况,你看一点七 b 的 模型就已经占了一点九个 g 的 显存, 我这张卡最多也就只能跑个十二笔。然后我们可以在这里通过欧拉玛的 ps 查看到 我们的这个模型是跑在 cpu 还是 gpu。 如果说你觉得你的模型非常非常的卡,你可以用这一条命令去看一下它是不是加载到了 cpu, 也就是没有识别到你的 gpu, 或者说你的显存太小,它将一部分的 任务交给了 cpu, 然后一部分的任务交给了 gpu, 是 这个意思, 那个命令我都会打到打在底下,大家可以暂停去敲一下,好吧, ok, 这样的话我们这个欧拉玛的模型就已经下载好了,对吧?我们现在把它接入到我们的这个 open class, 这接入呢也非常的简单,因为官方提供了一个什么,提供了一个,提供了一个一键脚本。 我们在这里面搜这个 open cloud 的 时候呢,大家可以看到就是安装这个,我们不管它,然后 quickly, quickly set up, 对 吧?我们快速的设置,但是我我不需要,我不需要它启动。邮件翻译一下给大家看,这个 quickly set up 呢,它会, 它会设置,设置好了之后呢就启动,但是我不需要它启动,我只需要它设置一下,我们首先在这里呢把网关暂停掉, 然后再去设置这个,他会告诉我我需要配置欧拉玛的什么模型,对吧?这里面回车是选中 不是空格啊,是回车,回车完了之后呢,我们按一下 tab 键就可以 continue 下一步了,然后他问我是不是需要备份,最好这里最好备份一下,然后按的这个纤维三一点七 b 到 open cloud, 对 吧?我们去。 yes, ok, 他 现在就去,他现在就设置他的那个参数了,耶,不是说不启动吗? 怎么还是启动了好?他启动没事,我们看一下这里的 agent, 你 看 agent 的 model, 他 这里就已经设置成了奥拉玛千万三,对不对?这里设置好了之后呢,我们去测试一下。 你好,你是谁?然后依旧去看我们的这个奥特曼 ps 啊, 可以看到这里还是百分百的 gpu, 然后可以看到你看我右边这个显卡,它的负债已经上来了,上升到百分之八十八了,对不对?这说明它已经正在调用我们的显卡去进行泡沫型,那这这里其实就已经说明它打通了, 给大家看一下速度有多慢,好吧,哎,这个不是报错,好吧,我给大家说清楚,这个不是报错,而是他这个模型,他没办法去理解我给他的这个,他他内部设定的这个参数,如果说 我是拿一张,我是拿一张那个,呃,我是拿一个非常好的模型,就起码你得是十二 b 往上走的模型,他可能会理解一部分,在我测试了那么久, 得到最好的结果就是你起码最少你得是三十 b, 三十 b 的 前提下他不会很傻,三十 b 以下的话,他使用他配合使用的 oppo, 它非常的差,它效果非常的差,唉。 呃,这样吧,我,我看我暂停一会,我去下载一个三十 b 的 模型,然后去问一句话给大家啊,证明这个不是一个 l 好 吗?对,我暂停一下, ok, 回来了,家人们,我已经把那个模型下载好了, 我们可以看一下,我下了一个 g i m 的 四点七 flash 的 这个软件,还有这个模型,它大概是三十 b, 然后我下载是它, 哎呦我去,没下载到电话了,哎。没事没事没事,问题不大,我们直接切换一下模型吧,切换模型的话也是可以使用这个, 也是使用这个 mini 啊,我去看 yes, yes, 然后它就会自动帮我们的去修改这个配种文件, 嗯,跑起来了,然后看一下它的模型,确实是已经切换好了,你看已经在这写好了,写好了之后呢,我们我们可以去测试一下, 非常的慢啊,非常的慢,大家要做好心理准备 好,模型已经开始了,然后大家可以看到我这个显存一下子就炸满了,对吧?十六 g 的 显存,它炸了,十五点六,完了之后呢,显卡也开始工作了, 我们看一下 ps, 看一下它分分配了多少,你看,这就是我之前说的,当你的显存不够的时候,它就会将你的部分任务丢给 cpu, 而 cpu 运行呢,是非常慢的,你看我们可以看到它分的百分之八十三给 gpu, 分百分之十七给了 cpu, 但是我的 gpu 也在工作啊,它功耗已经达到一百一十四瓦。我的处理器的话,呃,这是一台服务器啊, 运行起来也是比较哎。 呃,我还是暂停一下吧,等他回复了之后我再打开。回来了,回来了。你看,我在十点三十八分的时候给他发了一条消息,他在十点四十二分的时候回了我一条消息, 呵呵呵,你可以看到就是说我在跑这个三十 b 的 模型的时候,呃,这张显卡大概有多吃力,然后你可以去对比一下你的你的那个显卡的那个参数,呃,显卡那个型号, 嗯,我看一下硬件支持呢?硬件支持在这里,对吧?我的等级在这里。然后你可以根据你的显卡型号来去判断一下你回一条消息大概需要多长时间。 ok, 本期视,本期视频其实内容就已经到这就差不多了。然后我最后其实想跟大家说一下,就是, 呃,我希望教给大家的不只是一些,有些按部就班的操作,我希望教给大家是如何去查看。就是当你遇到一个问题,或者是你去接触一个新事物的时候,我希望你拥有这种学习的能力,就是你 遇到报错,你可以去首先去翻译一下这个报错是个什么意思,然后尝试着去根据报错去解决一下这个问题。然后你遇到新事物的时候呢,你可以首先去看一下它的文档,它的文档有的时候有的文,有的软件文档会写的非常的清楚,有些文档其实就写的比较差了, 然后如果说你实在不懂的话,你可以去看一下视频,去学习一下它到底是个什么意思,我希望能够教给大家是这种学习能力,而不是就是说按部就班的一些能力。好吧, 当然这有点可能,有点拆台子,就是说如果说大家都拥有了这个能力,其实我做视频大家也就没人看了,哈哈, ok, ok。 这期内容其实差不多就这样了。然后下一期会教给大家就是如何去搭建那个, 呃,打通这个飞书,就让我们不用不用再用这个这个软件了,对吧?打通飞书,然后再装一个 skis 就 结束了。好吧, open call。 呃,内容其实也就只有这么一点,没什么别的。 ok, 我 们下期再见。拜拜。

氪金没必要白嫖,我教你。今天教你免费下载的是全网爆火的游戏邦购 k 电子捉虫,操作简单,需要的宝子跟我一起来操作吧。 首先我们点击本视频右下角分享键,点分享链接,然后找到应用商店,下载这个蓝色小鸟软件,打开软件稍等两秒, 允许粘贴就会弹出一个资源包,如果没有弹出,就主页搜索王子云酷,然后再等两秒左右,会弹出王子云酷极,打开王子云酷极,找到软件合集夹里边游戏文件夹就可以了。

别再花冤枉钱充 ai 会员了,这是一个能让你免费用的宝藏 ai 工具箱,在这里可以白调各类顶尖模型,选择工具箱左上角的 direct chat 模式,就可以调用各种大模型, 国内国外一网打尽!光 jimmy、 gpt、 科罗德这些一年会员费就好几千。但是在这个工具箱全部随便用,连图像模型也能免费薅!甚至还有最近爆火的 nano banana 生成图片视频都可以切换不同模型使用。如果你不知道哪一个模型更好用,可以查看这里的 ai 工具排行榜,对话 代码升图都是全球用户实战评测的投票结果,避免我们踩坑!

给大家展示一下带智能体的机器人控制系统啊,现在我们可以看到这是一个编程环境,一个 id 上面功能基本上齐全的,这个是用罗马语言编程的, 这个是一个仿真界面,可以实时看到这个机器人的运动的一个状态啊,一个动画展示,然后这边是一个高精度的一个示波器,可以看到每一个轴波和末端它的轨迹。 那接下来我们看一下这个 agent 这个智能体它是怎么给机器人变成的。那么我们先近距离来看一下这个,先鼠标点一下这个逆行,逆行之后呢,这边就动画展示,这边就可以看到这个波形, 这边也可以看到它的一个坐标啊,我们这个机器人它是支持多种机器人的,那这边我们有工业机器人,还有人形机器人、机械狗、特种机器,那我们目前用的是工业机器人, 那我们打开智能体界面,我现在要让智能体帮我们写一个呃,从一点 走到二点,然后再从二点抓一个料放到这个料盘里面,这个料盘是有很多个那个表格的,很多个坑的啊,很多个格子的,然后这些格子的数量,还有行间距这些有我们自己在填,我只要让他帮我把这个算法写好。 好,接下来让他试一试。我们可以看到啊,他已经自己在写了自己的思考了啊,这个思考大概持续三十秒左右啊,现在可以看到我们左边的这个绿色的这个框里已经是他生成好的程序,我们只要点击确认好, 这个就是程序已经写好了的啊,往下看一下啊,写的还挺挺好的。那接下来我们删掉,让他重新再写一个,接下来让他再帮我们写一个从 p 四到 p 五、 p 六、 p 七、 p 八、 p 九的一个 一个点运动,然后这个点呢,我们开启一个呃,速度前瞻,让他走的更平滑。不会让他啊, 走一下停一下,走一下停,我们让它平滑的运动过去啊。同样我们点确定啊,代码就自动生成了,在我们示波器上,我们来看一下这个波形 啊,它是一个连续的一个线段。可能会有朋友问我们机器人控制器是用什么开发的啊?我来介绍一下。我们是用叉不六芯片加 linux 十四内核做一十 car 的 总线协议来实现运动控制的, 插补控制算法以及速度前瞻,拐角减速、连续插补等等等等都是我们一边写算法一边用真记啊,一边调试出来的。

一点五小时练完这些,让你的大模型技术稳固进阶。从新手到大模型大师,第一阶段打牢基础,掌握拍散、神经、网络、 transformer 等相关核心知识。第二阶段, 进阶学习着重 r a g agent、 护栏杆这三个大模型最重要的模块。第三阶段可以试着模型微调和私有化部署,学完一定要练几个实战项目, 可以彻底驾驭大模型,应对各种复杂任务。当你掌握相关技能后,无论是为工作赋能还是转行,都会有更好的发展。如果你还不知道怎么开始,这里整理了大模型学习路线以及配套视频教程等资源,一具学习带走。

我用 ai 把自己变成了孙悟空,又分身出了一个猪八戒,还可以是超人工服,熊猫、阿宝、胖橘又或者是阿凡达。不仅如此,像这样的创意特效展场以及合成高难度的打斗场景 模仿视频片段当中的动作戏 a i 都能给你一比一轻松复刻。这就是前两天吉梦刚刚发布的 cds 二点零模型, 可以同时上传参考题、诗词参考图、参考视频和音频四模态进行视频生成。我们终于也有了自己的国产 nasa 不 nana 视频生成模型了,重要的是小白也能轻松上手。话不多说,今天分享五个 cds 二点零模型玩法上菜啦! 玩法一,一句话 p 视频,比如我现在想让我的这个人物角色模仿我要烟牌视频片段当中的人物,我要烟牌 给我擦皮鞋首先将原视频发给 ai, 然后上传你的人物参考图以及配音参考,并输入这段提示词。点击生成我要烟牌 给我擦皮鞋。再来个难度高一点的。玩法二,动作复刻当你看到了一个很喜欢的动作片段,想把其中的人物替换成你自己的人物,我们只需要把你想替换的镜头发给 ai, 然后上传你的人物和场景参考,并输入这段提示词。看,这不是轻松拿捏了吗? 动作丝滑且自然,特效直接拉满。玩法三,创意特效转场 像这样的特效专场看起来是不是相当震撼?我们只需要上传一张人物的形象照,然后再上传一张人物变身后的图片,再将参考视频发给 ai, 并输入提示词, 这效果也太惊艳了吧!玩法四,节奏运镜像这样的节奏感超跑创意运镜是怎么做的呢?我们先来上上一张运镜的顺序图,然后将想要模仿的视频发给 ai, 再加上这段提示词, 重头戏来喽!玩法五, ai 慢剧动作戏,两个角色图加一个场景图,就能实现这样逼真的打斗戏。 首先将这三张图都发给 ai, 然后按照这个结构输入提示词,这里可以参考我的提示词,按需修改即可。点击生成, 我是鑫源,你的零基础 ai 学习打字拜了个拜!

各位屏幕前的开发者朋友大家好,欢迎收看我们升腾看开源开放创享周的系列直播节目。我是本次系列直播节目的主持人袁滚滚, 我们每期都将邀请升腾看开源社区的技术专家、合作伙伴、开发者代表来和我们一起解读升腾看开源开放过程中的设计思路和技术细节。关注我们的系列节目,也能帮助开发者们更加了解升腾看开源生态,加速后续的开发进程。 当前大模型已经进入了高算力、低食言双需求时代,一方面模型餐数量持续突破,另一方面落地场景对响应速度的要求越来越高,而 m o e 混合专家架构凭借 稀疏激活、算力高效的特性成为开院社区的主流选择。但同时 m o e 模型也面临着通信开销大、专家调度复杂、负债不均衡这些落地难题。那近期呢,还有一个行业热点,也就是智普 glm 四点六 v 的 发布实现了升腾适配。 美团也在今年的九月推出了 long cat flash 开源 moe 模型,更是在申腾 atlus a 二、 a 三平台下创造了记录,在 a 三平台创下了 t p o t 十毫秒的延迟,以及在 a 二平台创下了二十毫秒的延迟。 那五千六百亿总参数的超大模型呢?却能实现如此极致的性能,那背后又有哪些技术密码呢?今天我们特别邀请到两位技术专家,一位是深度参与 longkit 适配优化的 can 大 模型技术专家许可。老师。嗨,大家好,我是许可以 及主导智普 glm 生态适配的深腾 can 技术专家郭光浩老师嗨,大家好,我是郭光浩, 两位将从模型优化、生态落地全链路为我们拆解 m o e 大 模型的优化之道。那下面就进入到我们今天的对话。 首先进入到第一个问题,呃,习老师,作为深度参与了 lunket 的 系列模型适配的专家,我们知道 lunket flash 是 今年美团九月发布的 m o e 架构的特性,堪称效率王者, 但从技术实操上来看呢,这种架构在推理上其实最核心的一些难点,或者说卡点是哪些?和我们分享一下优化这些卡点的一些思路嘛。 嗯,好的,那 lanka flash 大 模型呢?它整体的模型架构由 m l a 氮氧发分以及 m o e 几个模块组成,其中在 m o e 模块呢,主要由七百六十八个专家,其中有五百一十二个路由专家以及呃,二百五十六个零计算专家。 那么在针对此类专家数量众多,但是专家个体有相对较小的模型呢,我们通常会采用一批并行的方案进行部署,也就是专家并行。那么通过把专家能均匀的区分到不同的计算卡上,可以有效的减少单卡上的计算量,得到整网较好的并行计算的收益 啊。那么像此类 m o e 网络采用专家并行的时候呢,通常会需要考虑两个方面的因素, 一方面呢,是需要考虑一批卡上的计算量,也就是我们不同一批卡处理的这些 token 数是否接近我们每张卡处理计算量是否接近。 那另一方面呢,就是需要呃考虑我们的一批卡间如何可以进行快速的通信来路由我们需要处理的这些 token, 我们也是基于阿萨斯 a 三超节点高速互联的能力,以及看软件站提供的像 dispatch combine 系列的通算融合算子呢,去实现了大一批方案下的这个快速通信。 那么此外呢,也是针对呃 lankai 网络的 shaka connection moe 这个算法架构呢,我们也去针对地设计了像并行计算,如何可以更好通过多流并行的方式呢?去掩盖 moe 专家的这个计算和通信的 开销,那么这些也都是我们在方案设计初期会需要重点考虑的。好,那下一个问题呢?我们面向郭老师,那我们都知道郭老师其实深耕智普 glm 模型适配,那也参与过很多开源模型的落地进程, 从生态适配的宏观视角来看啊,我们现在 moe 模型成为了主流开源模型的选择,那对比传统的稠密模型,也就是电子模型,它给硬件平台呢和软件优化带来了哪些差异化的挑战? 呃,这些挑战是否存在一些行业共性呢?呃,针对这个问题吧,其实我们可以看到像今年很多,就是自从 dpc 在 年初开始火了之后,呃,我们有很多很多的模型其实都开始用到了呃 m o m o e 的 架构这里,呃,就是意味着什么呢?意味着这其实 m o e 算是在现在就是像呃主城老师刚刚提出的问题一样,其实已经算是业界一个主流的一个一个典型的架构。呃, 呃, m o e 模型呢?它给给我们的软件和硬件分别带来了怎么样怎么怎么样的挑战呢?主要是以下这两点啊,对软件上来说的话,其实 呃 m o e 架构,它其其实主要是为了解决像餐数量越来越大之后,我们的计算量也会越来越大,但 m o e 带来的就是它会把局部的参数分散到呃不同的机器去计算,然后减少单个机器它上面的计算量啊, 然后意味着我需要去通过通信将呃不同的不同的专家分配到不同的机器上,然后这一点的话,主要是对于通信带来的影响。呃还有一点的话就是呃既然我需要去将不同的专家分配到不同的机器上,那就一定会带来一个问题,我怎么样的分配能让我的 能能让我的各台机器上它的载是均衡的,反而会造成一呃单台机器它的运算比较比较多,然后单台机器它又是很闲的状态, 然后这几个方面都是呃对硬件和软件充满了挑战,然后呃我们近期也会看到,就是呃不管说一些互联网厂商,还是一些呃做呃大模型的厂商,其实他都会成立自己的 inflight 团队。 我们注意到一个关键成果啊,刚刚也提到了我们的呃 longcat flash 呢,其实在我们的申腾 atlus a 三平台上实现了 tto t 十毫秒, 在 a 二平台上实现了二十毫秒的实验,那这个数据的话应该在行业内也是比较领先的水平了,所以我们邀请徐珂老师来分享一下,具体来看是哪些核心技术特点,呃实现了这个发力。 嗯,好的,那其实针对 lockheed flash 大 模型不同的模块呢,也有不同的技术特点,呃在发力,那比如说我们前面提到的 lockheed 是 由 mo a 氮氧发分以及 mo e 几个模块组成, 那么在其中的 m o a 模块呢?啊, lunkai 采用了 skill correction, m o a 用来提升整体稳定性。那么针对呃这个部分呢,看软件站就提供了一系列的融合算子,比如说像 m o a prologue 呃 few simple attention score, 也就是 f i a 融合算子,用来替换原有的小算子实现,可以快速提升 m o a 的 整体性能。 那比如说像 m o a prologue 融合算子呢,就可以替换 m o a 前半部分关于 q kv 的 一些计算,以及 i o p e 的 旋转位置编码,还有 k v k 开始更新等一系列小算子逻辑。那我们的 f i a 融合算子呢,则可以替换 m o a 中的 call attention 的 计算流程。 那这些呃融汇算子的使能呢,都可以很好地优化 moa 部分的一个性能。那么针对 lankel flash 网络的 mo e 专家架构呢,我们也是充分利用了阿奇拉斯 a 三超越点高速互联的能力,去使能了大一批方案进行部署。 那么这样呢,可以有效地降低单卡上的计算量呃,并且通过呢高速通信的这样的特点呢,去有效地提升整网一批运行价的这个性能。 那么此外呢,就针对 longka flash 的 s e m o e 的 这个特点呢,因为 s e m o e 可以 为 m o e 专家的 计算和计算并行以及计算通信并行呢提供更大的并行掩盖的窗口。所以我们通过多流并行以及 cv 控和双管齐下呢去啊设设计适配了一个最优的一个并行方案,那么这样呢,就可以将 s e m o e 的 通信和计算耗时呢完全掩盖。 那么除了上面说的这些呢,我们还利用了看软件站提供的像 wait 预取, super kernel, 静态图模式等一系列的优化措施和技术能力呢,去进一步地提升了我们 longkit 网络的整体性能。 那我们刚刚聚焦了我们最核心的通信和调度难题,那之前我们也提到了通过多瘤病发 c v 控核去实现了 s b o 机制,最后去掩盖我们的 s c m o e。 的 一些计算通信的耗时。那这个方法呢,其实是针对 long cat flash 的 s c m o e 架构去量身定制的吗?还是我们对于很多的这些 m o e 架构也都可以采用这个技术方案 啊?那其实像多流并行, c b 控核这些技术能力呢,是看软件站已有的一些技术能力。在我们今年针对 deepsea 系列模型做深度优化的时候呢,其实也使能了像多流并行这样的特性。那么在 deepsea 中呢,我们通过多流并行可以有效地将 路游专家和共享专家的耗时呢进行掩盖,那么掩盖后呢,共享专家的耗时就可以呃消除不见。那么在 lincoln flush 模型中呢,呃针对星光豹超 overlap 的 特性呢? 这 i c m o e 它一方面是会将呃 m o a 第一个 m o a 的 结果呢直接给到 m o e, 那 么另一路的结果呢,会给像但是 f f n 以及其他的 m o a。 那这样的一个算法设计呢,就可以使得呃我们的 m o e 专家,它有了更大的一个并行的窗口,让我们有更多的机会去并行掩盖通信以及计算。 所以呢,针对这样的特点,我们也将 longcut 的 单层啊进行了一个多流的设计,那么通过 c v 空合呢,可以有效地使这样并行的两路上的计算和通信算子可以有效地利用他们的算力资源,避免进行算力的抢占,那么这样呢,就可以得到一个较好的多流并行的效果。 呃,那我们也在 ppt 的 示地图上给大家画了一张我们采取的一个方案,那么开发者呢,也可以通过自己实际部署的场景呢,去调整多流的这个空格以及多流的位置。 我们再继续这个问题,刚刚其实也提到了我们的 longcat flash 呢,在 atlass a 三上也有一个非常好的表现,那我们 atlass a 三的 matrix link 是 不是也提供了一些呃,底层的能力? 嗯,是的,其实大家也可以看到,就是我们在实现多瘤并行的时候呢,那我们其实是将 m o e。 专家放在了一条单独的计算流上,那这其中啊,我们又实现了大一批的方案,那么专家以及卡肩的这个通信效率其实就非常的重要, 就为了使得多瘤的并行的这个收益最大化呢,我们是不希望 m o e。 专家留有非常长的拖尾,如果通信在此处形成了瓶颈的话,我们就很难拿到非常好的多瘤并行的收益。 那么因此呢,像阿特拉斯 a 三提供的这个 matrix link 以及高速互联的这个能力呢,就可以帮助我们在增加部署的卡数的同时, m o e 通信的这个代价并不是非常的大,那么最终呢,就可以实现像图上这样, 呃,两路计算算子可以相互掩盖,那我们的 s c m o e 的 整体开销呢,就可以被完全隐藏住。那下一个问题呢,还是针对呃,徐老师的,那我们都知道,最近的话呢, m t p 技术呢,也是我们投机推理核心技术。 呃,在大模型的推理加速的领域呢,也备受大家的关注,那能否先用通俗的方式给我们开发者介绍一下它的核心逻辑? 嗯,好的,那 m t p 技术呢,其实今年也是在众多开源大模型中广泛应用。那 m t p 投机推理呢? 简单来说就是将一个或者多个 mtp module 呢,作为 java 的 小模型用来投机起草 token。 那 么这些小模型起草的 token 呢,就会进一步地送给我们的主模型进行验证,或者是说,呃, verify, 如果说 very fine 被接受了的这些 token 呢,它就会作为我们这一次单步推理的输出。呃,所以这样的效果呢,就是我们可能可以用较小的十元开销就可以在单步推理中获得到更多的输出 token, 那 么对应下来,每个 token 输出的时间呢,其实就等效十元就得到了有效的降低。 嗯,那么在增加 mtp module 的 时候呢,其实通常会有两方面的因素需要考虑,一方面是我在不断增加 mtp module 的 时候,嗯,我 mtp 投机的这个效果是否还能够保持较高的水平?也就是我猜这些 token 是 否还能都被我的主模型给验证接受? 那另一方面你就需要考虑啊,我增加了投机的这些 token 数,那我主模型它进行验证的工作量也就相对应的增加了,那我主模型增加的验证号时,是否还能在接受范围内 啊?那么基于这样的两方面考虑呢?业界当前比较常见有像 mtp 二或 mtp 三啊进行投机推理,那我们在 lincoln flash 网络上呢,也是基于原有开源的 mtp 一 呢,就进一步去支持了 mtp 二, 那么像低时延推理的这样的场景中呢,其实使得 m t p 二或者 m t p 三,它可以进一步的去提升算力的利用率,也就是说我们在主模型增长时间较少的情况下呢,就可以有概率获得到更多的输出 token, 那 么对于整体端到端的性能提升其实是非常有益的。 那下一个问题呢,我们要向郭老师请教了,那这次呢, glm 四点六 v 发布的时候呢,其实特别提到了啊对深腾的适配,所以想请教一下老师啊,我们的叉 llm 的 服务引擎分离架构,在我们深腾平台上是如何结合我们的硬件特性实现适配的? 那对于开发者而言,这种架构的深腾硬件组合解决了哪些推理的核心痛点? 呃针对这个问题呢,其实呃大家可以看到,最近在呃 hackin hackinfast 的 下载榜上,我们呃就是 g r m 四点六 v 的 这个模型呢,其实已经呃是下载量非常非常非常非常多的一个多的一个状态, 然后呢它也是针对性的去做了一些,就是多模态的,就是多模态系列的一个模型的支持,然后增强了训练的长呃,长上下文的一个知识。呃,叉 m 整体呢,它是作为一个 c 加加后端的平台,呃,不同于 s g 浪和 v r m, 然后呢,它它呃像比如传统的 v r m 或者说 s g 浪,它都是呃,比如基于呃 l m 大 模型,就语言类的大模型去进行的一些设计。 然后叉 m 整体呢,它是希望去做一个呃综合了,不管多模态推荐,还说小模型等等一系列的融合,去做了一个呃大的融合,它是能够支持多模态这种这种场景在,所以在 g r m 四点六 v 首发的当天,我们也就是从不在叉 m 上做了一些适配。 呃,当然呃叉 m 它主要还是分为服务层和引擎层,在服务层呢,主要就是做了一些满足呃调度 s l a 的 工作,然后在引擎层呢,就是结合深腾整体的硬件的特性去做了一些调度上的适配,然后动态的一些载均衡呃,然后包括一些动态呃,包括一些 m t m 呃,包括一些 m t p 呃等等这样这样的技术特性,结合结合硬件整体做的一些技术特性去去实现了一些适配。呃,当然大家也可以去参照叉 m 的 实现去呃,去在自己的架构里面去使用呃,这对于我们来说也是一个呃比较优异的呃,相当于最佳实践。 再次感谢两位老师的详细解释,那从刚刚的一些讨论中呢,我们可以感受到这些性能突破的背后呢,其实是离不开我们 atlus 硬件以及我们看软件的一些深度配合的,所以其实还有很多开发者都好奇 看,作为链接上层模型和底层硬件的核心桥梁,到底是如何基于 atlus 的 硬件特性 去做到系统级的优化的呢?能不能帮我们总结一下,是最近的话,我们 runtime 的 接口也是在进行一个开源的动作啊?对,然后就是大家可以去 getcode 官网上就是再打一个广告,大家可以去 getcode 的 官网上去查看我们的开开源的代码,然后去进行一些试用啊。 呃,从我的材料上可以看出来就是,呃最下面一层其实是深层的硬件,一系列的硬件,然后呃再往上去驱动,然后再到运行时,再到我们的编辑器,再到编程语言,然后再到我们提供给我们开发者。可能呃大家会传统上用的比较多的,比如说散子库、通信库、图引擎领域的一些加速库, 呃,我们都有,其实都都有去对应的提供一些组建最小化的去给我们的开发者去使用。然后 runtime 那 一层呢,也是最紧紧贴贴近我们硬件,就是结合我们硬件特性去做的一些,呃,代代码的实现,它能够去细力度的去控制一些硬件的资源,释放硬件的性能,然后 达成我们的就是支持我们去做一些极致性的创新。最后也让我们一起展望一下未来,比如我们刚刚一直提到的,我们针对了食盐和蒜粒问题进行了很多解决方案,那从我们的技术适配和生态落地这两个视角来看的话,二位可以具体 再和我们分享一下会在哪些方面做一些持续的优化。那其实像今年开源的 l o m 大 模型呢,他们所支持的上下文系列呢,也是越来越长, 对现在未来呃呃包括像长系列推理相关的需求呢,也会在不断的增加。那么今年我们针对像 deepsea exp 三点二模型所开源的 kpiashofflow 的 技术呢,就是一个充分结合算法、软件以及硬件的特点 去相融合的这样一个技术能力。那么像这样的技术能力呢,可以有很好的去解决在长系列下 kpiash 占用内存过高的一个问题。 那么此外呢,像针对长系列的特意开始稀疏压缩等相关算法,以及我们未来在多模态聚生智能以及空间智能相关的呃算法领域呢,我们都会为大家提供更多的开源优秀实践。 那么在 ai inforce 领域呢,我们也在积极的结合框架去做软硬件协同的呃优化特点,那么这些新兴的技术呢,也都会促使我们的软件站去提供更多的融合算子,去帮助我们的开发者们去更好更快速的去提升整网性能。 呃,除了徐老师刚刚介绍的这些呢,我们同时也做了一些像注入 zero copy 或者 ipc 这样的特点对点通信的一些,其实这样的东西也是为了呃能够解决,像我们在强化学习下面呃去做一些点对点,就是呃从训练到推理, 呃端过渡的一个时间段,然后让我们整体的呃 i r 的 系统能够更加的呃更加的整体和和流畅。 那最后呢,我们也想请两位专家结合你们具体的工作,以及在你们的立场之上,我们畅想一下未来一年你们希望在深腾看的生态中实现哪些变化? 呃,从生态的角度来看的话,目前的话已经有一些厂商,包括一些开发者在深腾的平台上去做了一些开发,做了一些开源。呃,未来的一年的话,希望有。 呃,就是通过我们这样类似的活动,让我们开发者更加熟悉了解深腾,然后在深腾上做出更多的开发,开源出更多的呃,更多的库,让我们生态更加的繁荣。也希望在未来的一年里,我们可以为开发者们提供更多更好用的套件 啊,也提供更多优秀的深腾实践。那么这样可以让初学者们在深腾平台上快速的 hello world 啊,体验深腾的极简应用,也可以让经验开发者们基于我们深腾的硬件特性,基于看软件站所提供的能力呢,去灵活开发,深度优化,创造更多的可能, 从 m o e 架构的效率诱惑,到部署落地的实验困局,从单模型的深度适配到全身态的能力赋用。今天的对话呢,我们也看到技术的终极突破从来不是独行侠的精准发力,更是生态共建的集体智慧 升腾。用 atlass 和看的全站能力搭建了舞台,许可老师郭光浩老师协同我们的所有生态伙伴,用专业能力在舞台上呈现出了更好的作品。而屏幕前的每一位开发者的参与,也会让我们的大模型快与强,真正的走进千行百业。 最后感谢各位老师的分享,也感谢我们屏幕前观众的陪伴和收看,我们下期再见!