今天我们来聊一下奥利码,奥利码的话是一个开源的本地大模型运行和管理工具,能够在本地环境中部署和运行大模型。好,接下来的话我们来安装一下,我们先打开那个浏览器。 好,奥利码的官方是奥利码点 com 好, 网站,打开。好,我们点击登录的版本,那么我们选择那个 windows 的 版本下载就行了, 那么这里的话有两种方式,第一种方式的话是通过 power shell 来进行安装,第二种方式的话,我们是直接下载安装包来进行安装,这里的话我们使用安装包的方式来进行安装,我们下载的话通过迅雷来进行下载。好,我们在按钮上面点一下鼠标右键选择复制链接地址。好,我们打开那个迅雷。 好,我们点击一下新建好这里的话,我们把它放到 d 盘就可以,点击立即下载 好,我们的奥利码已经下载完成了,那么我们在上面点鼠标右键,然后我们选择那个, 然后我们选择打开文件夹。好,我们打开后,那个奥利码的安装包是已经下载到 d 盘了,那么正常情况下我们就双击来进行安装就可以了,但是的话呢, 它里面是没有选择那个安装路径的,如果我们直接安装的话,它会安装到那个 c 盘,那么它安装包是占十几个 g, 会把我们的 c 盘给装满了,如果 c 盘空间不够的话就会安装失败。这里的话我们要通过一个方法把它安装到其他盘,那么我们先打开那个命令提示符,就在这个地方输入 cmd 来打开, 打开,我们先把奥利码的安装包给它输入进来奥利码,然后按 tab 键把它那个补全,补全以后后面我们要跟上杠 d i r 等于双引号,然后我们里面加上我们的路径,这里的话我安装到那个 f 盘去。 好,那么我们直接敲回去就会安装到那个 f 盘里面了,我们来试一下。好,这里的话打开了安装包,打开安装包以后,我们点 install。 好, 我们看一下这里已经安装到那个 f 盘去了。 好,我们的那个奥利码已经安装成功了,那么这里它弹出一个窗口来,那么第一项的话是一个聊天窗口,那么第二项的话就是它可以和哪些应用进行对接,并且使用相关的这一个命令。 第三项的话是一个设置,接下来的话我们看一下那个奥利码的版本,那么这里的话我们先把这个命令提示符给它关闭掉,我们再打开另外一个,这种的话在这会加载我们的那个环境变量和奥利码, 杠杠微修好,敲回车。好,我们安装的版本是零点二,三点二,那么到这里的话,我们的奥拉玛就已经安装成功了,我们在安装的时候注意一下,就是我们要设置一下它的安装路径,那么设置完安装路径以后,它就会安装到我们指定的盘里面去,那么我这里的话是安装到 f 盘, 实际在使用的话,可以根据自己的那个磁盘的容量来选择相应的盘符。好,那么这个是奥拉玛安装的一个大概的过程。
粉丝7609获赞4.0万

大家好,这个视频我们就要说一下怎么去将欧拉玛安装到 c 盘以外的其他盘符 c 盘以外的这里呢?我们先下载欧拉玛的安装程序,先下载 这个 downloading, 欧拉玛,点一下,点一下 download for windows, 在这个位置等它下载,安装好在这里如果下载安装比较慢的话,我们就复制下它的链接, 鼠标右键复制下载链接,然后打开我们的迅雷找一下,将它复制到我们的迅雷里面去进行安装, 这里新建 它默认会将我们的下载地址会放进去,我们直接点下载就好了,如果没有的话,这个位置我们就 ctrl 加微粘贴就可以了,然后直接点下载, 这样呢下载就会快很多,我们等它下载好这个地方就直接取消叉掉就可以了。 好,下载好了我们就右键打开文件夹, 将它 ctrl 加 x 剪接出来,放到这里面就好了,这里我们打开 cmd 命令,在这里直接 直接就执行命令, e x e 斜杠,大写的 d i r 等于 f, 我 们安装到 f 盘就冒号,然后再一个斜杠,就这个是左斜杠,记住安装到 o l a m a 这里就是说将欧拉玛安装到我们的指定盘符 f 盘 o l a 就是 欧拉玛的这个文件夹里面,直接回车 好,它会弹出这个安装窗口,我们点这里安装,大家看到这里这个位置就显示它已经安装到我们 f 盘了,我们等它安装好,下一步我们就要设置模型的位置 安装,除除了我们就让它安装,安装的时候我们去看一下 olama 的 文件夹里面呢,我们新建一个文件夹叫做 models m o d l s 这就是我们等会儿需要安装模型的位置,我们就所有的模型都下在 oama 整个文件夹里面就好了, 这个文件夹准备好,我们就等它安装吧。 好了,欧拉玛安装好了,并且自动运行起来,我们这个地方选择 settings 设置, 这个地方就是模型的一个设置,我们这地方点击 real 浏览,浏览到我们的 f 盘曲,此电脑 f 找到欧拉玛的文件夹 orders, 点确定 好,这样呢,它的模型也就会下载到嗯,我们指定的文件夹里面。这样子过后呢,我们就要开始准备给它下载模型, 我们还是 java 四复制这条命令, 到 c m d 窗口粘贴这辆 mini 直接回车。那么哦,这里安装过后,我们没有加载环境变量,关掉,重新打开一个 c m d 窗口, 这个时候再粘贴执行好了,现在它就开始自动给我们下载模型,我们到模型文件里面去看一下有没有变化, 右键属性 看,通过两个属性的大小对比出这个文件,随着模型的下载进度 不断地增加,然后这个文件夹不断地变大,所以就表示我们的模型也放到这个文件夹了,已经 这样子呢,整个欧拉玛包括它的模型都放到了我们指定的盘符了,谢谢大家。

上期视频我们聊了如何下载和安装奥利码,那么这期视频的话,我们来看一下如何在奥利码里面来下载大模型。好,奥利码安装完以后,它会在那个右下角这里有一个图标,我们打开看一下这个图标, 好,那么就进到了那个奥利码的界面里面来。那么首先第一步的话,我们要设置一下那个大模型安装的一个路径,好,我们点开 settings 这里, 那么我们默认的话是安装到 c 盘,那么大模型的话是占磁盘空间比较大的,如果我们默认安装到 c 盘的话,会把我们的磁盘给占满了,这样的话会影响我们使用电脑,那么我们先要把它放到那个其他磁盘容量更大的那个盘符里面去,这里的话我是安装到那个 f 盘,我们先打开看一下 f 盘, 好,我们进到 f 盘里面来,然后我找到奥利码,那么我的那个大模型的话,我就默认安装到它的那个根目录下面。好,在那个空白处点鼠标右键点击新建,然后选择文件夹,这里的话我创建一个文件夹用来传放大模型 modus。 好, 首先的话我们就把它的路径给它改到那个我们创建的那个文件夹下面去。好,在 f 盘 好,我们找到那个奥利码,好,我们选择那个刚刚我们创建的这个 modus 的 这个文件夹。好点,确定 好,那么它保存了,那么接下来的话,我们来改一下那个镜像颜,不然的话我们下载大模型是比较慢的。好,我们先把这个给它那个关闭掉,关闭后它会自动缩小到那个, 呃,就是右下角的这个图标栏里面来,那么这种的话我们设置一下镜像颜,在我的电脑上面点鼠标右键选择属性。 好,我们点开那个高级系统设置这里,然后我们设置一下环境变量好,这里的话我们设置那个系统变量就可以了,我们点击新建好,我们设置一下变量边。 好,变量值的话是一个镜像颜好,我们再看一下上面这里,那么这里是对的了,然后我们再看一下这一个镜像颜。 好,那么镜像仪在这里的话设错了,我们要把这里给他改一下,是横杠,不是那个。呃,靠下面那个横杠。 好,那么到这里的话,我们镜像仪设置完成了,就是我们检查的话,只是防止那个我们输入错误的话,影响我们下载。好,我们点确定好,我们再点确定好,再点确定好,把这里给它关闭掉,那么我们的镜像仪设置完了以后,我们要把这个给它关闭掉,然后我们重新再来打开,好,我们退出来。 好,我们来点一下那个饿了吗,重新来打开给它运行起来。好,运行完了的话,那个我们来看一下我们下载哪一个那个大模型。好,我们打开它的那个网站。好,那就是这一个进来以后呢,选择那个 modules 这里, 那么这里的话,那个因为速度下载比较慢,我就下载一个比较小一点的。好,我就下载那个 deepsea 小 一点的。 好,下载那个二一版。好,就下载这一个,那么这个是比较小的, 我们下载哪一个大模型的话,可以根据自己的电脑配置来进行那个下载,那么如果是那个电脑配置好一点的话,那就可以下高一点,那么电脑配置不好的话,就像我下一个小的就行了。好,我们进来以后,看到这里有个 c l i, 那 么我们就把这串命令给它复制下来,或者点后面这个图标,然后我们打开那个命令提示符, 那命令提示符的话,我们尽量以管理员的身份来进行打开,我这里登录的是那个超级用户的这一个 administrator, 那 么我打开后默认就是管理员了,如果不是管理员的话,我们点右键选择以管理员身份来进行运行就行了,我们点一下鼠标右键,把命令给它粘贴过来,然后我们就开始来下载大模型了。好,敲回车。 好,我们看一下后面这个下载速度还是比较快的,那么这个大模型的那个大小是有五点二 g, 那 么我这里的话就是影视的话,我就下载一个小的,实际在用的话,可以根据自己的电脑配置来选择下载那个合适的大模型。 好,我们在下载那个大模型的过程中,就是如果速度比较慢的话,那么我们可以按那个 ctrl 加 c 键的话,把它那个停止掉,我们现在来看一下,好,把它停止一下, 停止完了以后,我们按一下那个键盘上面的向上的那个箭头键,好,把命令调出来,然后我们再敲那个回车。 好,我们的大模型已经安装完成了,那么我们看一下就是给他发一个消息。 好,这里的话我给大模型发了一句,你好,那么他回复的话有点慢,可能是我这个电脑的配置有点问题,那么我们实际在用的话,一定要根据自己电脑配置来选择大模型,那么大模型这里的话,我选择的是那个 deep sec 二一, 其他还有很多版本,那么我们可以根据配置来选,你看下面还有很多版本,就是 r 一 一点五 b 那 更小,然后这个还有一个是 r 一 的七 b, 那 么是稍微大一点,那么我们实际在用的话,就是我们选择哪一个版本的话,我们往下面看一下,就是他有很多版本,那么我们根据自己的电脑配置来进行选择就行了。 好到这里的话,我们的大模型已经安装成功了,并进行了对话。好,如果我们要退出大模型的话,我们是通过杠败 来进行退出的毫米桥回车,那么我们就退出大模型了,那么这个就在奥乐玛里面来安装大模型。如果我们是第一次使用的话,首先我们要设置一下镜像眼,第二的话我们要配置一下那个大模型传放的路径, 第三的话我们在选择大模型的话,一定要根据自己的电脑配置来进行选择,那么我们选择相应的大模型以后进来我们还有对应的版本,那么我们根据电脑配置的话来选择就可以了,那么这个就是在那个奥乐玛里面安装大模型的一个简单的一个过程。

今天是我们小龙虾养成日记的赫默斯安装和本地欧拉玛部署的配置,赫默斯大家现在称他为爱马仕,和小龙虾一样是一个智能体,作为智能体的大脑,他可以连接我们本地的欧拉玛,实现指令接收,思考决策工具,调用 最后一个结果输出的全连录本地化壁环,完美解决头肯网络以及隐私的问题。我们今天直接演示一下如何安装以及配置,进行一个实操演练。首先我们准备的环境,我们今天使用马克来进行安装, 当然 windows 和 linux 也是支持的欧拉玛本地部署,这个其实我们前面讲过,已经是比较基础的内容了,我们可以直接到欧拉玛的官网, 这就是欧拉玛的官网,点击这个下载,我们就可以直接选择自己的系统进行下载完之后就可以了,在 mark 上下载。欧拉玛安装完成之后 是带一个终端的,就是我们可以直接使用,比如我们这里有个本地的已经部署的千万三四 b 的 一个小模型, 我们直接可以问大家,比如说你好,他很快就会给我们一个回复,因为我刚才发过你好了,他这个是有记忆功能的,这就是欧莱玛的一个安装。 当然如果安装完之后呢,我们我们可以通过命令行来看到我们的欧拉曼的版本,我们现在装的是零点二零的版本,零点十九之后的版本是进行优化过的。面对 mark 系统运行的更快,我们再回到我们这个文文章中, 这就是我们欧拉玛的安装,安装完成之后,我们可以本地的拉取我们一些模型,这是我平常拉取过的,有的也没有删除,这个我们可以在欧拉玛的命令行中直接可以看到,直接拎死他一下就可以看到我们已经安装过的 所有的这些模型。欧拉玛的安装我们其实是相对比较简单的一个,我们下面可以看一下我们赫默斯爱马仕的安装,这个安装其实现在也是非常容易,就这么一条质量就可以了, 我们可以看到这是爱马仕的一个其他的网站,在这上面有详细的介绍,其他的源码,他是开源的,这里我们可以看到他同样是一条指令安装也可以,我们下面进入安装过程。 好,现在我们已经安装完成了,我们安装完成之后可以通过赫默斯沃审看到我们当前的版本,我们当前是零点九点零的版本,四月十三号的 python 是 三点十二,这些都是自动安装的,其实我们的这个赫默斯爱马仕已经安装完成了,你们可以看到我们这个是版本已经安装完成了, 下面我们要进行一个模型的一个配置,我们这个配置我们刚才安装的欧拉玛的模型在进行配置上,我们可以演示一下配置的过程,直接就是 hermes mod, hermes mod 之后呢我们可以看到这里面有一个列表, 我们可以用上下键选选择,我们这选到 custom, 我 们点击回车,这个时候需要我们输入一个地址,这个地址我们就输入我们奥拉玛的地址,奥拉玛的地址就这个默认的这个地址和端口,我们不需要改它,我们直接给它复制过来, 这个后边加一个 v e, 因为是聊天的,这个时候我们要说 k, 这个 k 我 们随机的就可以,没有关系。 这个时候他会列出我们欧拉玛里面已经拉取过的这些模型,我们这里面选一个我们使用的就行,比如我们的千万三四 b, 在 这里它是一个六, 我们直接输一个数字六就行了。我们选择完模型之后是一个上下文的长度,这个长度我们就要手动输一个,输个六十五 k, 大家记住这个地方长度,他的爱马仕的要求最少是六十四 k, 我们可以稍微输大一点,没有关系,如果我们不输,默认可能是一个四 k, 我 们就没有办法去使用,调用的时候就有问题,这个地方记住我们输比这个四 k 大 一些,这个时候我们再输一个显示的名字,我们就叫前文三,嗯,三 四 b, 这时候我们这个模型就就已经配置完成了。回到这个文章里边,就 当我们的模型配置完成之后,我们就可以启动我们的核模式了,就是我们一个 ai 的 本地运行,我们验收一下看它怎么样,我们直接启动我们输入核模式,哎,我们可以看到这个时候已经启动了核模式, 这是一个界面,我们当前的模型是千万三四 b, 就 我们刚才创建的这里有一个基本的介绍,他的一个吐司, 他的一个 skills 都在这里,现在有二十八个图纸,有七十九个 skills 是 可以使用的。 我们先先运行一下,看这个模型有没有成功,我们给他一条指令,那用 python 写一个代码,看看这个函数的运行情况,看一看我们这个爱马仕的运行情况,我们把这个指令贴在这里,直接回车,我们现在等一等, 我们看到现在我们这个爱马仕已经运行完了,我们给他一个指令,让他写一个函数,并且解释这个函数的代码逻辑,这里写了一个函数,有一个逻辑的介绍,你们可以看他运行的还是非常好的。 好了,这就是今天给大家介绍的爱马仕赫曼斯的安装以及欧拉玛的配置,更多内容我们下一期再见。

你的 openclaw 和 hermes 还在花钱调用大模型的 a p i 吗?今天我教你用零成本本地部署奥拉玛,在你的电脑上直接跑大模型,还能无缝对接 openclaw 和 hermes, 实现免费玩 ai 智能题工具。首先介绍一下欧拉玛,什么是欧拉玛呢?欧拉玛是目前最简单的本地模型工具,在 windows、 mac 和 linux 上都支持,几分钟就能装好,八 g 内存就能跑。当然了,还是建议最少要安装十六 g 内存, 这样体验起来更加流畅。如果有英伟达的显卡,还能够使用 g p u 加速。了解完了欧拉玛是什么之后,我们来看一下欧拉玛如何安装。首先我们要访问欧拉玛的官网欧拉玛点 com, 它的首页是 一个羊驼抱着一个龙虾,下面的英文是 power open claw with ollama, 中文的意思就是使用 ollama 为龙虾赋能,从这一点我们就能看出它是全面的拥抱和支持 open claw 了。这也是为什么今天我要在 open claw 的 专栏里专门做一期 ollama 视频的原因。 废话不多说了,首先要下载欧拉玛,点击右上角的 download, 这里我们可以看到它有 mac os、 linux, windows 的 下载方式自动已经给我们定位到了 windows, 点击这个黑色的 download for windows 按钮, 就会弹出下载框,点击另存为保存,有点大,两个 g, 这个网速非常感人,所以我建议大家用迅雷来下载。 我们已经下载完了欧拉玛的这个安装包,下面我们就开始安装欧拉玛的安装有一个问题,就是它没有让你选择 需要安装的文件夹这个选项,它默认是安装到我们的 c 盘 user 底下的,如果你想安装到指定的文件夹,那你需要换一种方式,我们先把这个安装过程停止。 我们找到拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇 斜杠 d i r 等于这里写上我们的安装地址,也就是记盘的欧拉玛文件夹。打回车就跳出来安装界面,我们点击安装,大家可以看这里已经安装到记盘的欧拉玛这个文件夹下面。 进了这个界面,就代表着欧拉玛已经成功安装并且启动了。安装好了欧拉玛,我们再来看如何下载模型。在欧拉玛的网站上点击这个 models, 就 可以进入模型列表,这里都是可以使用欧拉玛直接下载使用的模型。我们来找一下 谷歌的 jam 四,这个是最近小模型中比较好的,可以通过这一句欧拉玛 ram 四来进行下载。 输入奥拉玛 ram 捷摩斯回车运行。安装完了,我们来跟他说一句话试试。我们在这里输入一个,你好打个回车。 好的,扎马四已经回复了我们,虽然有点慢,但那是我电脑性能的问题。大家可以看到现在已经成功地让大模型在我们的电脑上运行起来了。再下一步我们就来看如何把欧拉玛接入到 open cloud 中。 ctrl d, 我 们来退出欧拉玛,然后输入 openclaw config, 进入 openclaw 的 设置,这个我们直接选择本地运行,这个我们选择第二个 model, 打回车进入,然后我们要在这里找欧拉玛, 这个就是欧拉玛提示我们欧拉玛不可用。我们来重新编辑一下 openclaw 的 配置文件。 openclaw 的 jason, 这个就是 openclaw 的 配置文件。我们来找一下 allow 这一项,这里就是扩展的 allow 这一项,我们要在这里添加上 alama。 我 们来运行 openclaw config 来设置 openclaw 的 大模型。 选择默认的本地模式,这个我们选择第二项 model, 就是 设置模型,这个是选择模型的提供商,我们来找一下 alama, 这个是询问我们选择云服务还是本地模式。我们选择最后一个本地模式,这个是欧拉玛默认的 b、 c、 l。 回车,这个是有哪些可用的模型?只有一个,我们按空格选中回车确认 提示,我们已经把模型信息写入了配置文件,我们退出。我们回到 open 可乐,这里是我们 问了 openclaw 一 句你使用的什么模型,他们回,他回答,我使用的是谷歌的伽马四。我们这次的 olamata 下载安装以及安装模型,以及如何在 openclaw 中使用 olamata 模型。到这里就结束了,关注,我每次 都给大家带来一个 ai 的 新知识,感谢大家的观看,再见。

openclaw 使用扩大模型加阿尔玛模型调用,实现零费用。首先来安装 openclaw, 我 的系统是 win, 第一步我们先下载 node 和 git 这两个插件,去官网进行下载即安装。 然后到 openclaw 官网,下面有安装介绍。 回到电脑桌面搜索 power 十二,点击右键以管理员身份运行,输入安装命令 是配置模型中选择,快一步步选就行了, 配置完会自动打开网页,没成功。没事,需要等三十秒刷新页面就可以了。 opencool 到这里就基本安装完成了。确认 alma 是 否运行,需要保持运行状态,然后我们让 opencool 直接指挥 alma 模型干活就可以。

朋友问我,我的电脑配置是十六 g 的 内存,八 g 的 显存,能不能把大模型部署在本地?完全可以,并且部署后再也不用给我买 tucker。 今天我们来聊聊使用奥拉玛部署本地大模型。奥拉玛具有模型管理的功能,直接把免费模型拉到你本地,在你自己的电脑上跑起来,无需联网, 既不花钱,还保护了你的数据安全。下面直接开始安装,来到阿拉姆的官网,根据操作系统选择自己的版本,下载完成,按指引一步步安装。安装后我们点击这个小羊头的图标,从下了菜单看到可以选用的模型。十六 g 加八 g 的 电脑可以直接安装 七 b 的 模型,前文二七 b 或者 mr 七 b 就 可以配置更高,可以选更强大的模型。在终端使用命令进行下载, alama run 前文二七 b 下载完成,再次打开 alama, 从下到菜单,选用自己的模型,问他一句,嗨,你是谁? 马上回复他,就是你自己的私有 ai 了,再也不用被 api 收费绑架。接下来让 openklo 使用奥拉玛下载的模型,直接修改配置文件或者 openklo config, 选择本地网宽模型呢,就选择奥拉玛贝斯尔,而不用改。继续选 local 本地 模型文件就可以看到自己下载的模型并选用它。好了,现在你已经拥有免费的本地模型文件,就可以看到自己下载的模型并选用它。好了,现在你已经拥有免费的模型了。以后我们再分享各个聚合平台的免费方案,下次见。

一天学一个变态的大模型知识点,今天讲的是奥拉玛大模型快速部署实战教程,那大模型的一个部署方案的话,其实有很多框架知识,那么这就介绍几种,呃,就常用的一些框架,那第一种框架就是一个奥拉玛的一个框架也,这个框架也非常的一个有名啊, 他是一个就是开元大模型的一个模型部署一个平台,他能够通过一系列的一个简单的一批交互,能够使用户能够非常方便的一个实现一个下载下载模型通过一些简单的命令 和对这些模型进行一系列的一个操作,然后呃来快速的来部署一些这些模型,并且支持多种一个操作系统,然后支持多种的一个硬件的一个加速的一个选项, 那么它对应的一个王者的话就是 h t t p s 点欧拉玛点 com, 而且这个欧拉玛呢,它还提提供了非常方便的一个交互界面和对应的一个 api, 那 么我们可以再进入这个 h t t p s 欧拉玛点 com, 以后的话,大家可以看到一个欧拉玛下载对应的一个页面, 然后你可以根据你的一个操作系统来下载对应的一个欧拉玛的这个应用。 那如果你是一个 windows 的 话,你只需要跟跟随它的一个选择前面的那个 windows 对 应的这个这个图标,然后跟随它的一个引导进行一个傻瓜式的一个操作, 然后那个下载完成之后的话,你在你对应那个 cmd 里面输入一个 alama version, 如果能显示出这个 alama 的 一个版本号的话,那说明你的一个安装已经成功了。 那如果是一个 linux 的 一个电脑的话啊, linux 的 一个操作系统的话,那么你可以通过两种方式,第一种方式是打,这是它的一个官方的一个安装方式,就打开终端运行以下命令,这个是一个官方给的一个命令来安装完成之后, 然后通过 volama version 来来看它是否安装成功。但是这种方式呢?我自己时间下来觉得下载速度非常非常的慢,在一些网络 不太好的一些环境下面,特别是一些不能翻墙的一些一些平台,那么这种下载经常下一半以后,你会断开连接,那所以我个人不是特别的一个推荐, 那么推荐的是就是用这种方式来进行一个下载。那首先的话,比如说你是在一个 auto dl 的 一个平台上,你要开启对应的一个雪速加速,那通过 auto dl 的 一个 命令,也就是这个这个 sauce, 这个这个这个这个命令,然后开启完了之后,第第一节课我们讲过,然后再进行一个 用这个命令 we get 的 这个命令来下载对应那个 alama, 它所对应那个安装包。那下载完这个安装包以后的话,你再 alama 的 呃,你在你的那个操作系统上面运行这行命令,对下载完的这个 t g z 的 这个压缩包啊, alama 压缩包啊进行一个解压,那解压完成之后的话,你不管是通过 alama version 显示版本号也好,还是通过 alama server, 那 你就可以开始进行进行一个服务操作了。 那我这儿的话已经下载完成了,就不给大家再演示下载这个过程,那我可以给大家看一下,就是啊下载完它的一个运行的一个一个一个界面,我们看 alama version, 那 看到他的 client 的 一个版本是零点一六点,零点一二点六,对吧?那我要开启这个 omar 的 话,我只需要 omar server, 好, 那我就现在就开始启动这个 omar 对 应的这个服务, 那当然它还官方还提供了一个 docker 版本的一个安装,那你可以通过在去这个 docker hub 这个网站上面去拉取对应的一个 docker 的 一个镜像,对吧? docker pool alibaba 奥拉玛这个这个方式来拉取对应的镜像,然后拉取完成之后通过 docker run, 然后通过一三一一四三四内外端口的一个挂载端口进行一个映设,然后去建立对应的一个容器,那你最终可以在一一四三四这个端口上访问 对应这个奥拉玛,那我推荐大家的话就是按用这种方法来进行一个安装和使用。 那我们现在先看一下欧拉玛的一个部署的一个实践,那么看一下欧拉玛的一个命令行的一个操作,其实欧拉玛它提供了非常丰富的一个命令行的一些 api, 那 么这里比如说欧拉 serve self 代表启动 alama 的 这个服务,那我像我刚才这个过程的话,就已经把 alama 的 这个服务给启动起来了。当然如果你呃就如果 create 的 话,就是代表可以根据一个一个 model file, 就是 alama 的 一个配置文件创建一个模型,一会我会给大家演示, 那 show 的 话是显示某个模型的一个详细信息,那 run 的 话是运行一个模型, stop 的 话是停止一个正在运行的模型 po 的 话,是从一个 模型仓库,因为奥拉玛内部它有个模型仓库,那么你你要进行一个奥拉玛模型的一个调用的话,你首先要将这个模型下载到对应的个模型仓库,你可以通过奥拉玛 po 的 个 方式的话,去拉取对应的一个,就模型仓库的镜像上面去拉取对应的一个模型。这这个有点类似于 docker 的 一个操作,那么 orama push 就是 将一个模型推送到一个模型仓库 orama list, 列出当前你所有已经下载的模型。 老妈妈 ps 就是 列出所有正在运行的模型,这个和 docker 命令非常像啊, copy 就 复制一个模型 remove, 就是 删除一个模型 help 获取命令,那么这个就不讲了,那我们现在看一下一些主要操作的一些界面吧。 那我们先看一下就是 alama 模型的一个下载与推理,那 alama 支持的模型,你可以访问这个地址啊,比如说我, 好,那我们进入这个地址以后,你可以看到目前奥拉玛收入的一系列那么多对应这个模型吧,对吧?那比如说我们现在比较关注的一些千分三系列的,我们看看有哪些模型, 千分三 vl, 千分三,千分三 in bedding, 那 我们今天可能要操作这个千分四零点六 b 吧, 那这里它就有下奥拉玛的一个模型,呃,比如说千万三零点六位 g g u f, 这个是,这个是一个就是支持很多推理框架的一个数据格式, 那它这一反就有一系列这个对应这个模型。好吧,我这就不给大家一一看了,那么你如果要从模型仓库下载模模型,你可以用奥拉玛 pro, 然后接上那个模型名称。 假如说我现在是千万三零点六 b, 它应该是有这个模型的,我把这个模型,因为这个模型比较小,下的比较快。 哎,这个模型下掉了吗? 千万三零点六 b, 或者你换一个模型也行,你先问三零点六 b q q 四 k m 这个模型,因为我前两天还还在的,那么你就可以把这个模型名称给复制下来,对吧? 它它也可能在一些模型仓库也也会做一些调整啊。那么你可以把那个对应的这个模型名称给复制在这儿,那么它就会通过 moorema port 的 一个方式来下载对应的对应的这个模型。 那我这给大家稍微运行一下吧。呃,因为我现在这个这个盘有点满了,所以我现在不能下这个模型。好吧, 大家自己可以根据这个命令去下载对应这个这个这个模型,反正这个模型这个名字呢,就从那个这个这个仓库上面去扒对应那个名字是什么,然后你就去下载下载什么,包括你自己可以点到这个模型仓库里面去。 呃,它这个地方没有写 readme, 我 们找一个有 readme 的, 一个一个一个模型啊。喏,它这里面会写一些,就是下载的一些用法。 嗯,哎,这里这里没写吗? round ten thousand with one command。 好,这里有,那就是这个,这个就是它的一个下载下载命令嘛,对吧?你可以 alama pro 加上这个模模型名字,每个模型边上都有这么个命令,然后你就可以下载对应这个对应这个模型了。好,然后你下载完成之后的话,你需要 去运行推理的时候,你就通过一个 alama run 对 应的这个模型名称,那你就可以来进行一个推理了,就相当于说我把下载这个模型调换起进行一个执行,当然的话你也可以不用 alama to pour 加模型名称这种方式进行一个下载,你直接运行 alama run 模型名称,那这种方式的话,如果你的模型在奥拉玛的本地仓库里面并不存在,它自动会去对应的奥拉玛云端仓仓库进行一个自动下载,并 且并且执行。所以的话,我因为之前录课的时候,这个版本的话是千万三零点六 b 这个模型还是存在的,那我已经下好了这个模型,当然你可以用千万三零点六 b q 四 k m latest 的 这个模型来来演示 奥拉玛的一个使用,这些都是没关系的,就是这里,这里不吃任何模型,反正我们只是主要演示一下奥拉玛交互该怎么使用好了,那我们在这个兴起一个一个 终端,那我运行这这行代码,这个代码运行的过程中大家要注意一点啊,需要在奥拉玛服务启动的一个过程中,你才能运行这个脚本,否则话相当奥拉玛服务没起,你用奥拉玛 run 的 话是 run 不 起来的。 由于我前面已经下载过了千分三零点六币,所以它并没有一个下载的过程,而是直接进行一个, 直接进行一个运行,那么你可以直接在这个地方和千分三零点六币这个模型进行对话,当然如果你在奥拉玛仓库中找不到千分三零点六币,你可以下载一个别的模型,其实也一样的。好,我们看一下 哦。当然,我这个地方有有个问题啊,因为我现在起用的是一个 cpu 的 模式,所以它推理速度会特别特别的慢,那我先退出一下,它退出怎么退呢?这样 就斜杠 b u y 斜杠 back 就 退出欧拉玛。好吧,那我这个地方我需要重新启动一下 auto dl, 那我这个地方先,因为我现在用的是那个对那个无卡模式,无卡模式运行,所以推率速度特别的慢,我要关一下。 好,那我现在重新按有卡的一个模式进行一个开机。 好,我再运行奥拉玛对那个服务,我先把这个关一下 奥拉玛 sir, 启动奥拉玛服务, 然后再进一个奥拉玛 round。 千万三零点六 b, 你 好好, 因为我现在加载了对那个 gpu, 所以 它很快能进行一个推理。 好,这个就是一个命令行模式来执行奥拉玛启动对应的奥拉玛服务。你可以通过杠 by 或 ctrl 加 d 键来结束命令行模式下对奥拉玛的一个对话,然后你可以通过奥拉玛 list 查看已经安装的模型。那我现在先结束一下,然后我先 back 退出,然后我看通过 alama list 查看我现在安装哪些模型。那我现在有一个 alama 三零点六 b, 有 一个 small 千万,这是我自定义的一个模型。好吧,这个是我刚才给大家演示的一个模型, 这是我用的所有在我本地 alama 仓库所对应的一个模型。那我可以通过 alama remove 的 一个方式来删除刚才那个千万三零点六 b 这个模型。 好,那我们来看一下,就是 alama 的 第二种部署方式,是通过一个 python 的 一个 sdk 的 一个方式,那么你首先要安装一下 pip, install 一下 alama, 然后安装完以后用 import alama, 然后 response 等于 alama, 点 generate model 等于千万三零点六 b, 那 promote 等于你是谁?那在这个过程中, 如果你千万三零点六币是在奥拉玛仓库中是不存在的,那么这个时候它会去进行一个自动下载,这一点其实和我们的一个 transformo 的 的那那种加载方式是一样的,就你本地路径下,它找不到对应的这个模型权重的时候,它就会去云端进行一个自动下载,下载到一个默认的一个模 模型路径下面,那么下一次你在执行这个代码进行一个加载的过程中,它就不会再进行一个二次下载,而是从一个指定的一个路径下面进行一个模型权重的一个提取,提取完成之后直接就可以开始进行一个推理。 呃,奥拉玛也支持一系列的一些 api 的 一些交互形式,这个我们可以先不看 啊,我们这个先,那当然的话你也可以通过 chat 的 一个模式来进行一个,只要只要交互过程中发现没这个模型,它就会自动下载,这个我一会我们再看, 那么我们看一下就是刚才讲的是 ollama 去下载一些预训练的一些模型,那么在实际过程中的话,你可能就是要去自定义一些模型。那么首先先给大家讲一下,就是 ollama 它支持的一个模型的一个格式, 它其实支持的是一个叫 g g u f 的 格式,那 g g u f 又全称叫 g p t generator unified format 的 一个格式,这个是拇拇拇 拇拇拇拇拇拇指格式,它其实是由拇拇拇点 c p p 定义的一种高效存储和交换大元模型运训练结果的一个二进制格式。 因此前面我们讲过,就是像这类的一个格式的一个模型,它的一个权重参数的话,通常是比较小的,会比一般的那种 p t h 或者 c k p t。 类似这样的一个权重格式的一个模型权重哪怕是一样参数量的情况下,数据格式会更小一些。 那 alama 也可以支持自定义模型的一个,就是采用一个 modify 自定义,就这个就类似于我们在做 docker 操作的时候,有个叫 docker file, 对 吧?那么你在每次做一个 docker 去去构建一些镜像 过程中的话,你是不是要指定一个 docker file? 那 alama 其实也一样,你要指定一个 model file, 这个 model file 是 用来定义模型 的一些文件,包括里面有一系列定义模型所预训练模型所对应的路径。比如说如果你是 lua 微调,你还有一些适配器对应一些路路径的一些一一一些位置, 包括一些 template, 也会在这个 model file 里面进行一个定义。你就相相当于说我在奥拉玛中,如果要自定义一个模型的话,你要指定一些原生的模型所在的一些位置, 包括一些适配器对应的一些位置,然后以怎样的一个啊提示词进行一个模型的一个封装,那像我这给大家演示演示了一个叫 small 千万的一个 latest 的 这么一个 自定义模型,它就是基于千万三零点六 b 这个模型做的一个提示词的一个优化封装,我给大家看一下它对应的效果, small small 千万 latest。 好, 那我现在去运行这个模型,我先给大家看一下效果, 这个模型呢,我我是在千万三零点六 b 这个基础上给了它一个 promote, 就是 这个 promote 里面核心的就是这么个东西, 这个模,这个 model file 我 要从 from 千万三零点六 b 这个模型里面做一个导入,然后我这个 case 下面是没有 adapt, 所以 的话,如果你没有 adapt 这个因为我不是一个 low 调的一个模型,我是一个原声的一个预训练模型,所以你要在这个 case 下需要把 adapt 的 这行东西给删掉,那删掉完了之后的话, 你可以指定一些 power 那 个 temperature 和一些 top p 啊一些一一反正就一些模型参数,一些一些一些策略。然后给他一个 system, 也是由 guo 炮科技开发的智能助手,专门辅导学生做课程学习,然后给一个退兑换千万三的一个兑换模板, 那么在这个给了这个东西以后,重新给它打包成一个模型,用打包的一个方式的话,其实是这样的,就是我先建一个 model file, 这个 model file 填充刚才刚才说的那些内容, 然后在其中指定千万三零点六 b g g f 模型的一个路径,就是 from 这个这个路径,那这个路径的话,其实 就是源于你刚才下载这个千万三零点六 b c f 的 这个路径,然后你可以创建这个模型 alama crit small 千万,然后杠 f, 然后将你这个配置文件所这个 model file 所指定的这个模型定义文件的一个路径进行一个指定,然后最终运行这个模型就可以来运行这个 small 千万了。那么这个 small 千万的话,它能够根据我刚才的这个提示词 来进行一个回答,他自己是酷跑科技开发的一个智能助手,专门辅导学生做课程学习,提高学习效率和成绩,对吧?那我先把这个过程给退出去,给大家看一下这个 model 是 怎么怎么样的啊? 我先,呃,这样吧,我先欧拉欧拉玛 remove, 我 先把这个 small 千万 latest 这个模型给删掉, 好,它就会 delete small channel latest。 然后我给大家看一下这个 model file 是 怎么怎么样运行的。 auto d, 我 先到对应的这个, 我存放这个,哦,就在就在这个文件夹下,我建了一个 model file 这个文件,我给大家看一下 model file 这个文件。好,这个 model file 这个文件首先我会引用一个, 你用一个一个一个一个模型,就是这个这个千分三一点七 b 的 这个这个模型。哦,我,我还是不要用这个,因为我这个这个这个路径下面这个的魔 logo 的 话,指定了一个适配器, 呃,这个模型我怕,因为我现在系统盘快满了,所以我怕这个用这个 model fare 来起会有问题,所以我们用一个小一点的模型来来测试, 那我这给大家写了一个小一点的模型,就这个 model file 好。 from 千万三零点六 b, 那 大家要注意一点啊,就是刚才其实那个 model file 是 有点问题的,你要用的其实是这个这个东西 为这里为什么直接写千分三零点六 b 啊,而不是直接去写一个模型的一个路径啊?原因在于我 from 的 这个这个这个模型啊,它必须是一个拇拇拇拇拇支持的一个模型,支持的格式的一个模型,也就是说我 from 的 这个模型啊,得要在你的一个拇 list 这个模型库里面所拥有的这个 name, 你 可以直接在这儿进行引用,你不能用那个前面我们刚刚指定的一个什么在在某一个什么 model scope 下面下载的一个非 g g u f 的 格式的一个模型,因为奥拉玛仓库里面模型默认是 g g u f 模型,所以你可以直接进行一个 直接进行一个引用。好,我这 from 千万三零点六 b 是 我奥拉玛仓库里的模型,然后设置一系列的一个 temperature 和一些什么 top p, 一 些什么 number, predict 的 一个长度,什么二零四八,然后指定了个 system, 以及 一一个绘画的一个 template。 好, 那我定义完这个模型以后,我,我怎么样进行一个,哎 sorry, 创建一个对应的一个自己的一个模型呢? 因为我这个模型的话,是相当于对原声模型做了一个绘画模板的一个设置,对吧?当然如果你自己是一个微调模型的话,你可以基于千万三的一个微调的一个结果,以及你的一个 adapter 进行一个合并,那么进行 adapter 合并的时候的话,你你可以参考这给的一个视力 adaptive lora weights, 对 吧?好,那我这里因为没有 lora 的 话,我可以直接来创建这个模型,但创建的一个命令其实都一样的,那我就 alama crate small 千万杠 f。 然后我因为我是在当前目录下指定的一个 model model file, 呃, general 是 model comps, no model fail or safe 杠 f more, 这,这里写错了 modular fail, 那 这个文件名别指定错啊,因为我这刚刚文件名写错了。好,那我现在的话就能定向到这个用这个文文件名进行一个创建嘛。那我现在创建完了以后,我给大家看一下, 那我现在是不是创建了个 small 千万 latest 的 这个这个这个模型啊?那我现在就可以通过奥拉玛 round small 千万 ladies 的 这个名称来进行一个模型的一个对话。好,就是这么的简单,那下面我们就来演示,拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇。 那么第一个的话就是我们前面讲过 alama server 可以 启动 alama server 对 应那个服务,那么当然 alama server 它启动的是一个,就是相当于我把这个服务直接展展,展示在我这个 shell 的 一个窗口里面,那么我断开 shell 以后,这个服务的话就会失控。 那么也有种方案的话,是通过 no hub 的 一个方式, no hub 再加艾特的一个方式,将 alama 在 后台进行一个启动。那么我这儿的话,为了演示方便的话,依旧使用 alama server 在 我们的一个命令行中直接进行一个启动, 你可以看到它的一个 alarm 启动的时候,它会监听的一个端口是当前本机的一四三四这个这个端口进行一个监听,所以你可以通过一四三四这个端口与 alarm 内置的一些就你下载下来的一些模型进行一个交互。 那我们前面已经讲过了,就是我们安装了一个呃,千万三零点六 b 以及千万基于千万三零点六 b 加上了一个 promote 生成了一个 small, 叫做 small 千万的一个自定义的一个模型,那么我们就用这两个模型来进行一个访问,那么它的一个第一个的一个 api 交互的一个接口叫做一个文本生成的一个接口, 它的一个端点的话用的是 pos 的 一个路由的话是杠 api, 杠 generate, 它的一个功能是向模型发送对应的一个提示词,就是用户的一个输入,并生成对应的一个文本,那么我们用这个 来访问一下,当然你这可以设置一些参数啊,那我这的话给它访问一下。那首先我们先看一下我们用哪些模型啊?呃,通过 omaha list 可以 查看我现在拥有哪些模型,那么一个是千万三零点六 b, 一个是 small, 千万 latest 这三这两个模型,那我可以通过 omaha ps 来查看我当前运行了哪些模型。那么我由于我现在没有进行一个刚起服务,没有进行一个模型的一个载入,所以的话我这不需要做任何,呃,就我,我这没有任何模型的一个当前在运行的一个记录, 那接下来我直接向这个欧拉玛,对呢千万零点零三零点六币发送对你的请求,那么欧拉玛内部的话, 他要做的一件事情就是首先我要去加载这个模型吧,那我加载这个模型到我对应的一个显存吧, 然后我进行基于这个模型进行一个回复吧。好,这时候我们再来看对应的一个欧拉玛。 ps, 用这个命令查看当前正在运行的模型,你就可以看到我千万三零点六 b 这个模型已已经起起来了,并且我在我对应的一个啊 显卡上面可以看到有千万三零点六 b 这个模型的一个显存的一个占用。 当然这里要给大家提到的一点就是这里有个 processor, 它里面显示是百分之一百 gpu, 指的是当前我这个模型正在用百分之一百就是纯 gpu 加载的一个模式,那么这样速度是最快的。 当然的话,有部分同学如果在使用过程中发现了一个问题,就是你自己是有有显卡的,但是这 processor 处理器这个地方,它显示的是百分之一百 cpu, 那 么这里可能会有一个一个原因在于什么?我给大家稍微写一下这百分之一百,有很多同学都会遇到这个问题,百分之一百 cpu, 那如果你要那,那这里可能有两个原因。第一个原因是你的你的模型显存占用过大, 就是你机器载不了这个显存,那欧拉玛会会自动将其用 cpu 加载,这是第一个原因 就是你你当前这个模型啊,比如说我,我一个十六 g 的 显卡,我现在要要去跑跑一个三十二 b 的 模型,那我加载不下怎么办?那么欧拉玛会自动将加载不了这个显存,欧拉玛会自动将其用 cpu 进行一个加载,那是第一种情况,第二种情况是安装 奥拉玛的时候用的是无卡模式,奥拉玛会自动适配 cpu, 那如果你安装的是安装时,建议在有显卡的模式下进行安装,奥拉玛会 自动适配 gpu, 也就是说你这个安装过程中建议大家不要去省这个钱,就是以有卡的一个模式进行一个启动, 那么欧莱玛在安装完成之后就会适配你的一个 g p u 显卡,那么后续你起一些小模型的时候,当你当你这个机器能载这个小模型的时候, 那它就会以百分之一百 gpu 的 一个形式进行一个加载。那如果你在无卡模式进行奥拉玛的安装的时候,奥拉玛由于适配的是 cpu, 所以 下一次你在启动奥拉玛模型的时候,它会自动在 cpu 上进行一个模型的一个启动,这里是一个小的 tricks, 很多很多同学的话都会遇到。 好,那我们言归正传,我们现在已经看到了一个,就是我去请求对应的一个千分三零点六 b 这个模型,那我现在改一下,我现在把这个模型改成一个,那我就我就这个这个请求直接改一下,那我现在把千分三零点六 b 改成我们的一个 small, 哎,叫一个 small 千万 latest。 好, 我现在换了一个模型进行一个加载,那么我们现在再来看一下它,它对那个欧拉玛 ps, 那 么它你你会神奇的发现,当之前加载的那个模型欧拉玛三, 呃,这个千万三零点六 b 这时候已经关闭了,那么现在当前正在服务的是一个 small 千万,这其实也是欧拉玛的一个优化,相当于说我在不使用这个模型的时候不进行一个加载, 我只有在使用的时候我再进行一个加载,好吧,这就是一个,呃,绘画文本生成的这么一个接口, 那我们看一下对应的一个第二个接口,是一个聊天接口,也就是一个对 chat 的 一个接口,那么它的端点的话是也就是这个路由 api, 这个路由的话是杠 api 杠 chat, 那 么它是其实支持一个多轮对话的模型,会记住上下文,当然这个多轮对话也是以传餐的一个方式进行一个传递的。 好,我们看一下,就是,呃,现在有个情况就是,呃,我首先有两轮对话,就是你好,请介绍一下你自己,然后他说我是谷谷炮科技开发的 ai 助手,能唱歌跳舞,很高兴为您服务。然后我问你是谁开发的? 注意我们现在用的这个模型是千万三零点六 b, 是 没有进行一个提示词引导的一个模型,它本身并不知道它是谷炮科技开发的,那我们看一下它的一个调用的一个情况。 好,他回复了,他说我是古炮科技开发的 ai 助手,能唱歌跳舞,那这个是不是由于我的一个历史记忆啊? 就是我在这由于阿斯斯坦的说了这句话,所以我再问的时候,那么他就能根据历史记忆来进行一个回答,那当然的话,这里可以你可以选择一个流势和和非流势进行一个对话, 通过这个 stream 参数进行一个控制。呃,我试一下这个地方能不能用流逝来进行一个回复。好,那这个就是一个流逝回复。好,以 chunk 的 一个形式就是流逝来进行一个回复,你可以通过一个流逝的一个接收的一个方式来进行一个文字流的一个推送。 那我们现在再来看一下当前的一个模型的服务状态。好,我刚才从 small 千万这个模型,现在又切回到千万三零点六 b 这个模型了吧。好, 那接下来我们看一下 orama 和 python sdk 的 一个交互,那我这给大家写了一个文件,大家可以在这节课的一个课程目录下面找到这个文件,就是 orama 与 python 交互的这么一个文文件。那我先把,呃, 我直接来执行吧。那,那首先就是一个还是一个文本生成,你你,你,如果要跟 python 交互的,首先你要 pip install 一下这个 alama 这个包,那安装完这个包之后再来执行下面一些代码。 嗯,我看一下 promote, 哎,这为什么 import alama 等于 alama 点 generate, 哎,这为什么,哦?魔斗等于 这个为什么跑不起来?好,可以了那,呃,我们看一下就是它第一个文本生成的一个 api 的 话,就是 alama 点 generate 这个方法了,你就能够实现一个文本生成,它会自动去加载我们这个 alama 三零点六 b, 这直接写对应那个模型名称就行了,那么你可以看到它生成的对应的一个结果,可以在对应的一个啊这里面 response 里面找到,你去解析对应个 response 的 这个值,就可以拿到对应的一个模型正式的一个回复了。 那么如果你是一个对话的一个模式,也就是我们刚才讲的一个命令行模式里面的一个 chat, chat 的 一个接口的话,那么你就从 from alama import chat, 然后 response 等于 chat, 然后将 model 和对应那个 message 放在里边。当然这个 chat 模式它其实是支持单轮和多轮的,那么你可以看到就是 运行之后,你通过 response 点 message, 点 content 的 方法,就可以将原来一坨东西里面去解析出对应的一个所要的一个文本,那么这个就是我们想要的一个东西,对吧? 那如果你要做一个流式的一个响应的话,那么你可以通过一个 stream 的 一个方式,就是 stream 等于 chat, model 等于 这这个东西,然后不一样一点是 stream, 你 就要指定 chat 的 这个函数,呃,这个函数方法里面的话, stream 要等于 true, 也就流逝进行一个传递,那么流逝在传递过程中,它由于是以以 文字快的一个方式逐个进行一个推送的,那前面我们也可以看到,看到在这个命令行工具里面也有演示,它是一块一块生成的,那么我是不是在一块一块推送给我的时候,我也要以一块一块的方式进行一个接收啊?所以的话, 嗯,所以,哎,是这个是这个文件吗? 哦,在这儿,那所以的话,我这写了一个 for chunk in stream, 就 相当于在这个流势里面,我去不断接收对应那个 chunk, 然后把对应那个 chunk 通过一个 message 和 content, 你 或者你,你也可以是 chunk 点 message, 点 content 也可以,那么将它这个文字形式给呃那个打印出来,然后不断追加的一个方式进行一个打印。那我们看一下效果 呦,那它这这里就是一个典型的一个流逝输出,这个就跟我们在那个网页端用 deepsea 进行一个对话时候效果是一样的。 那那接下来还有个就是要讲如何通过一个定义客户端的一个方式进行一个请求。那我们知道我们前面学过很多,就是关于一些大模型的一些调用 里面,它有一个客户端,就叫做一个 open ai 的 一个客户端,或者一个谷歌有自己的一个 客户端,然后包括火山引擎,有火山引擎的一个客户端,那么如何定义一个客户端去连接我对应的一个请求呢?那么它也提供了相应的一些 api, 那 么它的一个方,一个定义客户端的一个方式,其实就是我 from alama import client, 那我有了这个 client 以后,我要去创建一个客户端实力吧,那我创建完成这个客户端实力,我就可以不断的用客户端实力在后续代码中去调用一些接口进行一个访问吧, 相当于客户端实力就是指定对应的一个。呃,我我的一个对应的一个服务是什么?然后我根据我当前的客户端实力可以不断地去调用后续的一个模型,好吧,那么它的一个客户端就是 client, 然后指定你对应的一个, 呃, alama 的 一个服务地址 host 等于 local host, 然后一四三四是 alama 服务的一个端口。那 header 的 话,这个地方随便写什么内容,因为有有一些场景下的话, header 里面需要去传一些, 呃,一些特殊的一些信息,供服务端和客户端之间之间进行一些信,一些加密啊,或者一些一些验证,那么可以在 headers 里面去做一些文章。那我们这个 case 里面的话,其实 headers 用不是用不到,所以的话 headers 里面传什么纸都可以。 那么我我们指定这个 response 的 话,就可以用我们先前定的 client, 以通过 client 点 chat 这个方法去调用。因为我前面没有指定对应的模型,所以我要把 model 等于 small model。 呃,我这个是叫 small model 吗? model 应该是叫做 small 千,呃,我看一下我这个 model 名称叫什么?这 model 名称应该是叫做 small 千万 latest, 那我就是应该是以 small 千万,我先把这个关关一下。好,我,我应该是 small 千万 latest 的 一个方式进行一个调用吧,然后我指定对应那个 message 一个列表,那你这里可以是单轮的,也可以是多轮的。 好,那么它这里就会进行一个呃,思考,然后,好的,请问我是谁?那么这里就会有个 think 的 一个对,然后最终得出一个答案的话,呃,我是 google 科技开发的一个智能助手,那么专门为 学生辅导相应的一些作业。那这个是不是因为我们前面定义了 small 就是 千万零点六 b 一个 google 科技开发的一个 promote 嘛,包装出来一个模型嘛,那就这样就进行进行了个,进行了一个调用,那么你后续也可以连续对话过程中,你可以不断地去调用这个 client 点 chat 的 这个方法,进行一个连续的一个对话。 好,嗯,那前面讲的一些其实都是一个啊,同步的一个客户端,当然的话,我们在生产过程中,由于可能会用一些异步的方法来进行一个请求,那么同步和异步之间有一个什么区别呢?和大家稍微讲一下, 那同步服务的话,又叫主设置,主设置服务,嗯,它的一个核心理念就是说当我的一个请求过来的时候, 我一个请求过来的时候,一个 request 过来的时候, 过来的时候,那么我的一个 server 端的话,我必须处理完成当前的一个 request 以后,就处理完了这个 request 以后,我我下一个 request 才能够被我的服务端所接纳, 也就是我 request 一 结束了之后,我 request 二才能进入到我的一个服务端进行一个处理。那么这样是不是 用户量大的时候,它它这个流量就会被堵塞啊?就相当于我这个服务端,由于这个服务端要一个一个排队处理的话,那我我请求就得一个一个在后面排队啊。 request 二, request 三,那么这个就是一个同步服务, 那与之相对呢,就是一个叫做异步服务。 异步服务它的一个原理是这样的,就是当我一个 request 一 在处理的在被 server 处理的时候,这时候还没有处理完,这时候我来了个 request 二,那我在 request 二进入 server 的 一个过程中的话, server 能够先拉起 先拉起一个县城进行并行处处理, 那 request 三的来的时候,它又会新拉几个星县城进行并行处理。那么这样的一个模服务模式是不是效率会显著比同步模式一个处理完了以后,等第二个再处理效率高的多呀。 好了,那异步就在做这么一件事,那么异步的话,所有的一个方法之间的话都都得是一个非主色式的,那这个同步服务又叫主色式, 是服务,那么异步服务是一个非主色式服务,那么非主色服务服务的话,要用非主色服务的一些专有的一些写法。比如说在 python 中的一个非主色是服务的一个关键字,就是叫做 define, 然后一个 function, 那 我们同步的定义函数的方法是 define function, 以这样的一个模式,那么所有的一个过程的话都得是非主色的。因为在非主色式服务里面,方法之间的调用,如果存在一个 一个方法是主色式的,那么整一个非主色式服务的一个体系将变成一个主色式服务。所以你要写一个非主色式服务的一个接口的时候,你要保证你所有的一些函数方法全部都是以非主色式服务进行一个定义的,包括这个 client 也要以非主测试服务的一个方式进行一个定义。那么非主测试服务的 client 怎么在 alama 中怎么定义呢?那你先 from alama import 对 应那个叫 a s y n c client, 这就是一个异步客户端, 那么它是适用于一个需要并发的一个场景,好吧,然后你去定义一个异步的一个 chat 函数,那么这个 chat 函数的话,就是 就 asy and c define 和 await 进行一个搭配的话,就主必须要有这个 await 来修饰它的一个主色,主色符就是主色过程,那么才能实现 asy and define 的 一个功能,就这两个东西,它是搭配使用的,不能没有这个, 没有这个的话你可以去执行一下,代码是是执行不了的,所以必须是 asy and c define 啊 wait 的 一个方式,来实现一个异步的一个过程。那我们看一下异步客户来来调用的话,呃,哦, asy and c do wrong chat cannot call for a wrong event loop。 那我们试一下直接进行一个调用呢? await chat, 嗯,我这里这个一个模型,这个模型不对,这个模型我得用一个 small 千万 latest 的 这个模型换个模型。 好,那我是不是通过 await 的 await 这个方法的一个形式,就能调用这个异步的一个函数,然后来实现一个异步的一个客户端的一个 chat 模式的一个推理? 好,那这个是一个异步的一个流逝响应,那么我这里也改成一个 await chat 的 一个方式,进行一个异步的一个流逝响应。 当异步流逝响应的时候,他要接收的时候要 a, s, y, n, c four part in await 这个这个这个,然后再去请求一个流逝的过程。这这都一些固定的写法啊,也不用去记,反正就是到时候要用的时候直接直接 copy 过来就行了。 好了,那包括就是 alama 的 话,提供了一系列就是 python, s, d, k 和 alama 之间交互的一些其他的一些 api 接口。那么我这儿给大家总结了一下,有这些方法, 包括这里面我就不一一执行了,我们简单看一下 chat 方法, generate 方法。前面讲过了,那 alama 点 list 的 方法,可以看出所有可用的模型,那 alama 点 show 的 一个方法,可以看 模型的一个详细信息,那欧拉玛点 create 的 一个方法的话,可以从现有模型创建新的一个模型,就类似于我们刚才看的一个创建 small 千万的这么一个过程,那给予一定的一个 system 的 一个 promote, 那 包括一个欧拉玛的一个 copy 的 一个过程,可以做一个模型的一个拷贝 啊,删除模型是欧拉玛点 delete, 然后从远处仓库拉取模型,欧拉玛点 pa, 从本地 呃模型推送到远程。哈,我说 alarm 点 push, 然后生成文本嵌就 embedding 模型,那么就是 alarm 点 embedding 去加载对应的一个嵌文,比如这里当然是得是一个 embedding, 得是一个 embedding model 啊,就 your embedding model, 然后输入一个 input, 它就能返回一个文本嵌入的个结果,那么正在查看的一个模型列表就是奥拉玛点一个 ps 好 了,然后我们最后看一个就是 alama 的 一个错误处理的一个机制,那么 alama s d k 会在失败请求或响应流逝传输出出现问题时候,然后抛出对应的一个错误。那么这个我们在生产时间过程中的话,你一定要有对应的错误处理机制,因为模型不能保证百,永远百分之一百工作正常, 所以的话我们可以通通过一个 try x accept 的 一个方式来捕获这些错误。那么举个例子,我们用 alama 点 chart 这个接口来 来对话模型的时候,如果出现了一个错误的话,你可以用 alarm 的 response error 的 一个方式,来来来,它定义在这个 response error 这这个这个方法里面,那么你可以打应对一个 e 点 arrow 的 方法来打应对这个错误,并且如果发现一个是四零四的时候,那说明这个模型不存在,你要用 alama 点 po 方法来下载一些模型,那么这个其实就是在一些工程实践中的一些错误,处理的一些机制和方法。那这儿的话也就跟大家稍微提一嘴, 那我们 alama 相关的一些代码的话,就先讲到这儿,大家可以去根据我的这份文件去练练一下。 好啊,包括拇。 那么怎么样使用 web ui 呢?那首先你要去安装一下 open web ui, 但是这个 open web ui 这个包非常的大,所以建议大家在安装的过程中去加一个清华园,那就是这样能加快一个安装的一个过程。那么清华园是怎么 啊?我们教你这里直接搜索一个清华园源头。好,那么你就可以去看到那个呃清华园的一个镜像的一个地址,那我把这个地址直接复制到我对应的一个呃教程里面。 好,那你通过 alama pop pop web ui 的 一个方式来下载 alama 对 应的一个 web ui, 那 我这已经下载完了,这个这个这里面东西超多,要下下挺久的。下载完了以后,你可以通过 open web ui 啊,我这遮住了,然后 open web ui, 然后 sir serve 启动这个服务,然后指定一个对应的你希望的一个端口来进行一个访问。那我这儿的话,比如说我这儿因为用的是企业版的一个 auto auto dl, 所以 的话 啊,我是不需要去进行一个隧道访问,就可以进行一个外网的一个交互的。 哎,哦,我,我这台机器没有装那个呃欧拉玛的一个 web ui, 那 么我们这我们这就不演示了, 反正就是它,它是一个什么什么什么东西呢?给大家说说一下。就是你通过这款这款命令的话,就能启动这个 web ui, 启动 web ui 以后的话,你你要去 用你的一个名字和呃邮箱和密码去做做一个验证,那么验证完了以后的话,后续你就可以根据你的一个电子邮件和对应那个密码进行一个登录, 那么登录完了之后的话,你会进入一个工作台,那这这个工作台里面会有你曾曾经在 orama 里面下载的一些模型,你可以在这个 orama 下载这些模型里面进行一些模型的一个切换和选择。 那么你可以在这个这个地方的话,就是一个以一个对话的一个方式,就类似于 d 网页端 deepsea 对 话的一个方式,跟沃拉玛内置的一些模型进行一个交互和对话,那大致就是这么一个功能啊,但我觉得这个功能其实没有太大的用处。 好了,我们看一下欧拉玛它的一个优缺点及一个实用场景,那相信大家在用这个欧拉玛过程中的话,也发现了欧拉玛这个最大优点是什么呀? 是不是方便啊?你,你现在要下载一个新的模型,我只要短短一行代码叫欧拉玛 run 这个模型的一个名称,这个模型就能够自动下载下来并且启动。 然后我通过一些很简单的一些通用性的一些 api, 那 就比如说我这这些 api 我 并不关注这个模型它它真正真正该如何进行的调用吧? 那如果我到一个 github 上面,或者一些 hangageface 上面,那每个模型它可能调用的一些方法参数,呃,参数的一些配置可能多多少少是有些差异的吧。但是我如果我用欧拉玛来进行一个部署这个模型的话,第一我下载起来非常的方便,一个模一个一个模型名称就完事了。第二个的话, 我这个模型格式相对是比较小的,因为我是我是一个 g g u f 的 一个模型格式。第三个的话就是 我下载完了以后,我可以用欧拉玛提供的一个统一这个 a p i 的 一个范式进行一个推理吧。我不需要关注这个模型它它应该怎么样去定义,定义一些不同的一些参数的一些配置吧。那我我直接用欧拉玛提供的一个统一这个模式去调用所有这个模型吧。 所以欧拉玛的话,它非常它它的一个适用场景就是方便,它适合于一些个人用户、小型项目或需要一些快速部署来看看这个模型能力的。这这个这个场景 那么比较适合隐私保护和简单操作的一些应用。那么我直接部署一个,然后通过通过一个后台启动的一个方式将一个欧拉玛服务启动,然后我就可以直接跟欧拉玛破 破下来的一些模型就拉到我对应那个本地的模型仓库,这些模型进行一些接口上的一些一些少流量的一个交互就完事了。这就是一个奥拉玛的一个优点。那么缺点是什么呢? 那缺点在于啊,欧拉玛相相对于一些其他的一些高效推理的一些框架,比如说我们后面会讲的一些 v l l m, 还有 s g long 这样的一个推理框架的话,它在一个高并发和大规模部署方面的话,其实是表现比较差的 啊?表现,表现比较差,因为它不是一个用来做企业级部署的一个框架,企业级的话不可能用 orama 来进行一个部署的,它更多的就是用一个个人的一个验证,好吧?