这两天学习一下,发现了一个新的名词,就是这个西西米,这个我先写一下,这个呢是什么东西呢?它相当于是一个模型的启动器,我们所谓的现在用的大模型的启动器。 第二个是网上之前应该比较火的,这个叫欧拉玛,这个是羊驼的 logo, 它 logo 是 羊驼,这个什么东西呢?他们也是模模型的启动器,这两个是一样的,只不过第一个谁米,这个是那个 rest 写的,这个欧拉玛是那个 go 跟那个 cc, cc 加加写的作用是一样的。第二个点呢,说 这个谷歌开源的这个这个 j m 其实是全在 ai 的 大脑,你特别是 ai 的 大脑,也就是我们现在常说的那个什么参数是模型权重,模型那个权重,还有那个什么基座,这都是那个最重要的部分。对,这不也是迈塔也开源了,拉玛也是 一个模型,相当于是模型的大脑,他俩的作用是一样的。所以说那个这两部分, a 码跟那个拉码,这两个是重要的模型,它是模模,一个代表一个 ar 模型好不好用。最核心的部分。而前面两个 c 码跟那个索拉码,它只是模型的一个启动器,所以说我们要下载一下这个本地的模型,这个要用这些启动器来把它跑起来,把这个模型运行起来, 这这两个相当于是它是一个死的,它是一个死的数据,你需要这两个把这个这个刨起来,把这个模型给刨起来。这如果你用,如果你是以前做做那个软件开发的,没有接触过像我一样没有接触过 ai 这一块的东西, 就相当以前,我们是做以前,你说像那个像腾讯,像自己,他们的核心的业务都是一个后端的架构加他们的推荐,各种比如说推荐算法这些东西比较核心的,是吧?这些东西其实是是一个代码库后端的那个存储,你比如说是 mac 或者是那个 reddit 这些, 这些对一个互联网公司其实是不重要的,他最核心的就是他这些核心的代码数据是最重要的。但是在 ar 时代,这个这一块按理说以以前的软件开发这一块的逻辑,对应的是那个启动器,他是来读取数据的, 它那个就是它是来获取 readdate 这个获取数据的,它获取的就是模型的数据,这一块就是说是那个参数吧,可以说模型的参数数据吧,这个就相当于其实是 my sql ready 这种概念,对于那个以前那种后端那种思维来讲的话,这相当于一个完全的一个反向了,反过来了, 但是这样你就会想到这样会不会这种模型公司很不安全?如果我有一个,我拿一个硬盘,我直接去他们公司把这个他们这块这个模型这块数据给偷出来拷贝下来,那岂不是这公司就完全泄露了?相当于这个问题挺有意思的。 这个问题如果举一个例子比较容易通俗的例子来讲,说这一块,说这一块就相当于是一个用播放器的例子来讲,用播放器的例子来讲,菲米这个跟那个拉玛相当于是一个播放器的一个播放器,就是播放器那个软件后端的这个 jama 跟那个拉玛,他相当就是你的要播放的片子,所以说一个片子的好坏 决定了你这一个 ar 模型的好坏,就可以这样去理解。因为这两块你想想你这一部分前端这个启动器,这这一部分其实都是依照于现在的传说中的这套逻辑实现的,相当于一个传说中的工程化实现, 各家的其实实现的方法都是大致是相同的,核心的差异就在这个模型这一块, ok, 就 学到这。
粉丝1077获赞7238

很多朋友呢在下载完龙虾之后,非常关心的一个问题,我是不是可以用一些免费的模型,然后去让龙虾进行使用,那这样的话我就可以不花钱了。之前我也给大家介绍了一些免费的厂商,提供了一些免费模型,但是那些免费模型呢,他是会限定一些额度的, 那就会有很多朋友问说,我本地部署模型是不是 ok 的? 那怎么让龙虾去连接本地的部署的模型呢?那这期视频呢,我们就来看一看怎么实现。首先呢在本地模型部署有一个非常牛的软件,就叫这个欧拉玛, 这个软件呢我们可以下载之后,它可以去帮我们去下载对应的一些我们想部署的模型,并且呢在它软件里面可以进行一个启动, 这样的话就不需要我们自己去找对应的模型资源,然后进行一个模型文件下载,然后再去启动对应的模型,所以说这个软件呢非常的方便。那这个欧娜玛的一个安装呢,我们这个地方直接就是给大家提供了下载链接, 就进入到欧娜玛点 com 这个地方,然后点击对应系统的一个下载方式,比如说你是 windows 就 直接点,然后下载完了之后直接安装就可以了。那安装完了之后它是一个什么效果呢?主要是有两个地方,首先呢 安装完之后它有一个文件夹,文件夹里面呢它会有一个 app 的 入口,可以把对应的 app 打开,打开之后呢我们就可以在这个地方跟它进行一个对话,可以看一下它所支持的一些模型,比如说 gpt, 然后 deep sync, 千问的,然后 mini max, 还有一些什么拉玛,然后本期我们就以千问的这个模型给大家进行一个讲解,看对应的龙虾怎么去连接。那我这个地方呢,已经把千问和拉玛的这个模型已经下载下来了, 所以说可以看到如果没有下载的话,他这个地方会有一个下载按钮,然后如果已经下载好的这个地方是没有下载按钮的,大家到时候可以下载一下,一会也给大家说一下怎么去进行一个下载。然后我这个地方就可以跟他在这种格式化的页面进行一个对话,问他你是谁, 那可以看到它现在因为它是一个 think 模型,就是它会思考,然后思考完了之后它会进一个回话,可以看到它的一个速度,在本地的一个部署模型速度还是比较快,当然了这个也是看你本地机器的一个性能,那我当前的这个机器呢,是一个五零八零的显卡,所以说它的一个效率还是比较高的。 然后除了这种方式之外呢,我们还有就是控制台的这种方式,就在这个地方我在文档里面给大家写好了, 就是我们可以在 power shell 里面去执行欧拉玛瑙,千问八 b 就 这个模型, 八 b 这个模型如果我们执行了之后,你本地如果没有去下载对应的这个模型,他会先去当 load 的 把对应这个模型给你下载下来,如果已经下载完了之后,他会直接去启动对应这个模型,那你在这个地方也是可以跟他对话的,你问他是谁, 然后进行一个 syncing, syncing 完之后输出对应一个结果,可以看到还是比较丝滑的,那本地模型呢?已经部署成功了,接下来我们就是要让我们的龙虾接入到这个本地模型。接入本地模型呢,其实也比较简单,那这个地方呢,我给大家介绍的是通过修改 opencloud 的 配置文件, 它里面有一个 open cloud, 点 json, 去把里面对应的一个内容进行一个修改,然后我们先按照上面这个步骤去打开 open cloud, 它对应了一个文件位置,我们就可以先去这个地方,然后 按照我命令执行就行了。先 cd 到点 opencloud, 然后进来之后呢执行这个 start 点,打开对应的一个文件夹,打开之后这个地方会有一个 opencloud 的 json 文件,然后编辑给它,在记事本里面编辑就 ok 了。 那我们可以看到之前呢我们这个地方,因为我是豆包的模型,所以说这个地方会有一个豆包模型的配置,那还有一个 agent, 就是 这个与我们对话的这个 agent, 它对应的模型使用的是什么?可以看到这个地方使用的是豆包, 那我们想去使用本地的欧拉玛模型,其实只需要修改三个地方就可以。首先第一个地方就是我们需要在猫豆子这个里面把我这一段给它拷贝进去, 找一下猫豆,然后与豆包进行一个平行位置, 然后把它删掉,加一个逗号,一定是一个英文逗号,然后加完之后我简单说一下它对应的一个内容,首先它是请求的 url 是 什么?就是本地的 logohost, 然后端口,然后 v e 接口 这个 appk 的 话,实际上它是因为本地模型是不需要这个 appk 验证的,所以说你这个地方随便写就 ok 了,跟我这个一样就可以。然后这个地方模型的话你就是用自己的,我们刚才不是下载的是千万八 币吗?所以说这个地方就是千万三八币。然后配置完这个之后,我们还需要去修改 agent 的 它所使用的模型。首先我们需要在底下去把欧拉玛对应的这个模型添加到它可用的模型列表, 在这个地方添加进去。 ok, 添加完了之后我们还需要替换一下,就是这个地方把这个 primary 给替换成我们下面的这个好的保存完了之后呢,我们这个地方的配置就结束了,就直接可以回到命令行执行一下, 我们把这个地方给关掉,关掉之后执行 open cloud get away。 这个因为我们是命令行之前启动的,所以说我们直接关掉之后呢,就相当于对应的龙虾已经结束了,那我直接执行它重启就好了。但是如果大家是 没有在这个地方直接关闭,它是后台执行的,那大家是需要执行 open cloud get away restart。 大家一定要记住这个点,我们直接启动 可以看到这个地方他有 agent, model 是 欧拉玛的千问三八 b, 那 说明我们这个地方配的还是没有问题的。我们来到龙虾这个地方给他对话一下, 那这个呢?是我之前问他的这个模型使用的是什么,那现在呢?我在问他说你现在的模型是什么?你当前使用的模型是什么? 那可以看到它现在已经告诉我说使用的模型是千问,然后它是通用实验室自主研发的超大规模语言模型, 所以说我们现在就已经切换成功了,这样呢,大家就可以拿龙虾去玩本地的模型了,也就不需要花你一分钱了。但是这个地方大家要注意,一定你的机器性能相对来说会好一点,那这个模型的速度运转会更快一点。然后如果你机器性能非常好的话,因为我这个地方配置的是八 b 的 模型, 八 b 呢代表是它的一个参数量,那三十 b 呢?像这种大参数量的,它的一个效果一定是要比我八 b 的 这个模型的效果会好一点。如果你的机器性能非常卓越的话,那你去下载三十 b 的 这个模型, 当然它需要很大的这种资源,所以说当它运转的时候,它对应的这个思考或者它的一个能力也是要比我八 b 的 强的。所以说这个地方看大家一个机器情况。

大家好,这个视频我们就要说一下怎么去将欧拉玛安装到 c 盘以外的其他盘符 c 盘以外的这里呢?我们先下载欧拉玛的安装程序,先下载 这个 downloading, 欧拉玛,点一下,点一下 download for windows, 在这个位置等它下载,安装好在这里如果下载安装比较慢的话,我们就复制下它的链接, 鼠标右键复制下载链接,然后打开我们的迅雷找一下,将它复制到我们的迅雷里面去进行安装, 这里新建 它默认会将我们的下载地址会放进去,我们直接点下载就好了,如果没有的话,这个位置我们就 ctrl 加微粘贴就可以了,然后直接点下载, 这样呢下载就会快很多,我们等它下载好这个地方就直接取消叉掉就可以了。 好,下载好了我们就右键打开文件夹, 将它 ctrl 加 x 剪接出来,放到这里面就好了,这里我们打开 cmd 命令,在这里直接 直接就执行命令, e x e 斜杠,大写的 d i r 等于 f, 我 们安装到 f 盘就冒号,然后再一个斜杠,就这个是左斜杠,记住安装到 o l a m a 这里就是说将欧拉玛安装到我们的指定盘符 f 盘 o l a 就是 欧拉玛的这个文件夹里面,直接回车 好,它会弹出这个安装窗口,我们点这里安装,大家看到这里这个位置就显示它已经安装到我们 f 盘了,我们等它安装好,下一步我们就要设置模型的位置 安装,除除了我们就让它安装,安装的时候我们去看一下 olama 的 文件夹里面呢,我们新建一个文件夹叫做 models m o d l s 这就是我们等会儿需要安装模型的位置,我们就所有的模型都下在 oama 整个文件夹里面就好了, 这个文件夹准备好,我们就等它安装吧。 好了,欧拉玛安装好了,并且自动运行起来,我们这个地方选择 settings 设置, 这个地方就是模型的一个设置,我们这地方点击 real 浏览,浏览到我们的 f 盘曲,此电脑 f 找到欧拉玛的文件夹 orders, 点确定 好,这样呢,它的模型也就会下载到嗯,我们指定的文件夹里面。这样子过后呢,我们就要开始准备给它下载模型, 我们还是 java 四复制这条命令, 到 c m d 窗口粘贴这辆 mini 直接回车。那么哦,这里安装过后,我们没有加载环境变量,关掉,重新打开一个 c m d 窗口, 这个时候再粘贴执行好了,现在它就开始自动给我们下载模型,我们到模型文件里面去看一下有没有变化, 右键属性 看,通过两个属性的大小对比出这个文件,随着模型的下载进度 不断地增加,然后这个文件夹不断地变大,所以就表示我们的模型也放到这个文件夹了,已经 这样子呢,整个欧拉玛包括它的模型都放到了我们指定的盘符了,谢谢大家。

好,那我们来快速的去把整个 ai 这一块的内容呢,给大家去做一个介绍,本地安装欧拉玛,然后呢安装模型是千问三点五,怎么用呢?我们来到这边直接欧拉玛 ios 安装成功之后就这个效果啊,然后呢我们可以直接欧 拉玛 run 千问三点五九 b 跑起来本地部署的模型,但是我估计我同学这个模型可能跑不起来,跑不起来的话你就装一个小参数的六点六七 b 的 话,我同学的电脑可能扛不住, 我这个电脑呢,因为配置相对来说比较高,六十四 g 内存的,所以大家如果一般是什么十六 g 内存的话,那你就砍半啊,你可以装个千万三点五。好,装好之后呢,接下来其实就是 nong qing 那 一部分的使用,但是这些使用这一块的话,因为我前面在公开课里面有详细讲过关于 nong qing 那 一部分,就给大家去简单 这个概括一下啊,概览一下,首先去引入这个欧拉玛的客户端模型,就是这个希腊欧拉玛,然后呢用的是千万三点五九币,用它温度的话,你可以设置的低一点,因为温度呢是保证输出的严谨性的啊。最后呢可以去测试一下,看他有没有成功啊。这个时候呢,我们可以创建一个新的项目,叫 vt ai, wait ai, 然后呢在这个项目里面我们直接啊,或者说我直接把它搞一份过来把移过来啊,如果说我们在这个里面去定义的话,第一个文件包括这个依赖啊,就直接把这一堆装下来, 这里我直接打开它帮我补全一下了, nonchain, 欧拉玛, nongraph, 看有没有区的啊,还有一个 core。 好,可以了,我再把这个关上 一点二点六,好保存。这个我们把它删掉了,不要了啊。 在这个里面,我们可以先写一个简单的脚本,先测一下,比如说在这呢,直接建一个 test 点 js, 把这部分呢,我直接导进来了, 简单一点啊,直接导进来,这块 base 二幺的话,不需要好保存,我们来试一下,直接执行当前的啊,依赖安装一下。好,我们再执行 note test in just 正在换机本地模型,前文模型, 这就是调用的一个过程啊,等它唤醒之后呢,可以看到这种效果,我们可以看到吧,模型响应干嘛呢?生成一个最简单的 t s 加法箭头函数,不解释,那它就生成了代码啊,那生成一个最简单,我比如说再举个例子,生成一个最简单的 t s 的 排序算法, 不解释,正在生成好,但这个生成的过程呢,可能稍微有点慢,我们就不等它了,等它生成完之后,我们再回头来看。那如果说我们要在这个基础上去做处理的话, 大家就知道为什么我跟大家始终说 type script 是 异常重要的,在当下,为什么呢?因为模型的调用,你可以用 type script 来写,写完之后,不管是把它作为 with 的 插件,还是作为服务端调用的一个脚本,都可以。那比如说我把这一段代码,这一段 假设,我给它复制一下之后,我们看好了,给它丢到这个里面来,一旦丢到这个里面来了,那我接下来的这个 v, 这个执行的过程,这个 test connection, 我 是不是可以把它直接注视掉,然后呢?接下来因为这是一个 a think, 那 我们是不是可以等待它?就是等待这个生成,生成之后会返回它的内容,这个时候呢,我们把内容返回一下, response 点 content。 好,返回这个 content 之后呢,那你既然在这个里面你都已经理解了翻译原理了,那在这一块儿你输出的这个 code 是 不是就可以来自于它里面的内容?当然呢,它因为是异步的,所以你要 evade a with 它。好,这里我为了用简编一点,速度快一点,我就用 t s 来做了保存一下,让他们再来试一下。当然这个跑起来比较慢,我就把它关掉了,偏偏 dv 回车再来重新启动一下这个服务。好,你看它正在唤醒本地模型,你这个时候呢,就直接把模型是不是接到你的 项目里面来了?是不是已经把模型的能力接到你的 v 插件里面来了?这个大理解同学在评论区扣个一 啊。当然这是这个相对偏 demo 性质的啊,性质的我们呢,其实之所以要用那个 nonchain 的 原因就是后续呢,可能要去做一些更复杂的链式链的处理应用它。

阿拉玛作为我们最常用的离线 ai 模型工具,最近也是非常活跃,就在刚才,零点二、零点三正式推送了, 这已经是本周第三个正式版本了,四月二号到四月七号五天四个版本,这个节奏属实不慢,我们今天就把这一批更新从头捋一遍。要说零点二零点零系列, 这期的主角只有一个, google 的 詹玛四。四月二号跟着欧拉曼一起来的詹玛四,这次一次性支持全部四个规格,最轻的是 e 二 b 和 e 四 b, 适合笔记本和配置一般的个人 pc, 而二六 b 的 蒙混合专家适合显存或内存容量较大的环境。 最后是三 e b 的 纯密集版本,适合计算资源比较充沛的用户尝试。为了支持 jam 四的运行, alama 底层也跟着 jam 四补了分词器的 sentence piece bpe, 支持 m l x, 后端也修了一个 tokenizer 的 配置不生效问题, 这些是 jam 四能刨下来的基础。然后从零点二、零点一到零点二、零点三 三个小版本,目前共经历了三个小版本。四月三号推出零点二、零点一版本,主要修复了 jam 四的工具调用,解决了参数自创例,有引号的时候解析会出错。 整个脱扣的处理流程也重构了一遍,稳定性提升明显。另外为 gemma 四开启了 flash 叉神长上下文场景下速度更快,显存占用也更低。新 u d a 和 rock 这边也跟着修了一个底层的调用时机问题,按卡 a 卡用户都受益。四月 四号推出零点二、零点二版本就一个改动,打开欧拉玛桌面 app, 以前进去是个启动页,现在直接就是新对话界面,就这一件事,但下面点赞的人还挺多的, 这种小细节确实影响每天的使用感受。零点二、零点三是四月七号,也就是今天刚出的这个版本, jam 四的工具调用又进一步打磨了, app 里的模型列表也 从不更新了, jam 四直接能在界面里找到,不用自己去查命令。另外修了 open call 启动 t u i 的 一个问题, 终端用户应该有感。最后说说零点二,零点四现在已经到 i c r 了,预计很快正式发布这个版本。最值得关注的是苹果 m 的 性能优化,用了一个叫 n a x 的 技术,专门针对 m 芯片, m 五设备的推理速度会有提升。是 m 四在 m l x 路径上的 flash tension 也补全了, m 系列芯片的用户这次能完整享受到这个优化。另外,奥拉玛奎埃的这个命令也做了一次清理,修复了从已有 safeton 模型创建时的问题, 有自定义模型导入需求的用户可以留意一下。目前稳定版零点二、零点三已经通过自动更新推送,如果想尝鲜零点二、零点四的,可以去 guitar releases 手动效 rc 二试试。好,今天的内容就这些,我们下期见。

大家好,本期内容我来分享如何在本地部署谷歌新开源的多模态 ai 模型代码四,我会分享命令行和格式化界面两种安装方案,零基础也能轻松搞定。 最后我还会教你如何修改部署的路径,彻底解决大模型占用 c 盘的问题。本地部署的优势就是你的数据可以完全保存在自己的电脑上,隐私安全有保障,而且支持模型微调, 可以打造专属的 ai 助手。但是他也是有缺点的,就是我们需要稍微懂一些技术,还有就是硬件的支撑,如果电脑配置高,自己可以部署折腾一下。有了本期视频,就算你不懂技术,跟着视频操作也可以部署成功。 本期演示我只分享入门版本,主要就是参考部署的方法和流程。接下来我手把手带大家用欧拉玛一键部署。 首先我们先来了解一下 jam 四到底是什么,它是谷歌新发布的开源多模态的 ai 模型,与 jimmy nay 是 同源的。 简单来说,谷歌就是把自家的 ai 技术打包成了一个免费开源的版本,让每个人都能用上。它的能力是非常全面的,支持文本交互、图像识别、音频处理,还能生成代码, 基本上覆盖了所有的 ai 应用场景。下面我们再来看一下它的核心优势。核心优势它有三个,第一个就是多模态能力,文本、图像、音频代码,一个模型全部搞定。 第二个就是完全免费,它没有会员订阅,没有暗次收费,可以随便的去使用,甚至用它去开发商业化的产品。第三个就是比较重要的隐私安全保障,本地部署模式下,所有的数据处理都在自己的设备上完成, 敏感信息不会上传到云端,这是三大核心优势,就是在我们安装之前,需要我们了解一下这个安装环境。首先系统兼容性 demo, 四是支持 mac os、 linux、 windows 三大主流操作系统,基本上覆盖了绝大多数的用户。 然后就是内存要求,如果你的电脑小于三十二 gb, 推荐安装四 b 版本,自己安装体验折腾一下就可以。如果你的内存达到或超过了三十二 gb, 那 就可以选择二十六 g 或三十一 g 的 版本。 在这里有一个小提醒,就是如果是 mac 电脑 m 系列的芯片,它的显存和内存是合二为一的,大家直接看内存就可以。如果大家不是 mac 电脑,比如 windows 或者 linux, 那 么就优先看显存,显存不够再看内存,这是关于这个配置的查看。像这个本地部署也非常简单,仅需两个步骤即可完成。第一个就是安装欧拉玛,这个欧拉玛就可以理解为是本地大模型的一个容器, 它是装大模型的,有了它才可以运行。第二步就是我们容器安装好之后,我们需要给它把模型放进去,就是部署模型,两个步骤即可搞定。下面我们直接进入实操环节,我们来一起看一下部署的全部流程。 在这里第一步我们就先要有这个欧拉玛,他是一个大模型的容器,就是我们打开之后选择右上角的 download, 这时候我们就需要选择匹配自己系统的版本,在这里我这是 windows, 然后我们选择 download for windows, 在这里选择 download for windows 之后就会弹出窗口,我们选择路径直接保存就可以,当下载好之后,然后我们就安装即可,安装好之后打开就是这样的主界面,这个是我之前安装的版本,部署着一个一点五 b 的 zip, 然后下一步就需要我们去选择大模型,我们还来到刚刚乌拉玛的这个界面,在这里我们选择左上角的 models, 然 然后在这里我们可以看到该马四,然后我们选择进来,它提供了好多个版本,在这里我就选择一个入门的版本,主要就是演示安装的流程,比如我们选择 e 二 b, 然后我们选择,这时候我们就看到了这个安装命令,选择右边的这个两个方框,然后选择 copy, 然后下一步 我们就按键盘上的 windows 加 r 键,这时候出现运行窗口,然后在这里面输入 cmd, 然后直接回车, 回车之后就出现了这个命令窗口,然后我们刚刚复制了直接鼠标的右键,可以看一下,这个命令就粘贴过来了,然后我们直接 回车好了,这时候它就开始部署到本地了,在这里我们需要等待一段时间,好可以看一下出现了 success 这个提示,就证明安装成功了。现在我们在这里可以直接和它对话,比如我们输入你好当前什么模型,然后我们发送 可以看一下,他现在回复我们了,我是一个大语言模型,我叫 jama 四,这时候我们就在本地已经部署成功了, 然后我们再回到欧拉玛的客户端,在这里在这个对话窗口右下角这里,这里可以选择模型,然后我们找到刚刚部署到本地的 jama 模型好了,这时候就切换好了。同样在这里我们也可以直接和他对话,比如我们输入你好,然后发送, 这时候他就回复我们了,你好,很高兴和你交流,请问有什么帮助到你的?到这里我们就已经部署成功了。前面我们分享的是使用命令行 c l i 模式去部署,其实还有一个简变的方法, 在这里我们还可以选择模型后面对应的这个按钮,也是可以直接部署的,这个是非常方便的。好,最后我再分享一个大家比较关心的问题,就是我如何设置这个本地模型的一个部署路径, 在这里我们也不用去改环境变量了,这个客户端是直接支持的,我们选择左上角的设置,然后在这里选择这个 model location, 在 这里我们就可以去设置模型的一个保存路径,在这里大家自己设置就可以,是非常方便的。 好,下面我这里演示的是上传了一张图片,就让他识别这张图片,我们一起来看一下他给我们的结果,好了可以看一下,我们给了他一张图片,我们问他这是张什么图片,他给我们的回复, 这是一张符号或者是图标,然后他还分析了主要包含的元素,还有用途预测等等,能够精准的识别内容,并生成详细的描述, 表现还是可以的。好了,现在我们本地部署成功了,然后刚刚我们也做了一个功能测试,第一个就是我们和他对话,就是文字处理,第二个测试的就是这个图像识别,他也是可以精准识别的, 他虽然是多模态的,但是目前我们用的这个容器不支持多模态的输入,我们暂未测试音频和视频的识别。好,最后我再补充两个细节,就是第一个欧拉玛的拓展性他是非常强的,除了可以部署这个 demo 四, 还支持比如通用签问或者是 deepsafe 等众多的开源模型,部署方法也是完全一样的,一条命令就能去部署。第二个就是本地部署的真正价值不仅仅是隐私保护,更重要的是支持模型微调, 可以用自己的数据去训练模型,打造一个完全专属的 ai 助手。好了,这就是我们本地部署的所有内容,大家感兴趣的可以自己折腾一下,探索更多的玩法。好了,我们本期内容分享就到这里,可以留下你的想法,我们下期再见。

一天学一个变态的大模型知识点,今天讲的是奥拉玛大模型快速部署实战教程,那大模型的一个部署方案的话,其实有很多框架知识,那么这就介绍几种,呃,就常用的一些框架,那第一种框架就是一个奥拉玛的一个框架也,这个框架也非常的一个有名啊, 他是一个就是开元大模型的一个模型部署一个平台,他能够通过一系列的一个简单的一批交互,能够使用户能够非常方便的一个实现一个下载下载模型通过一些简单的命令 和对这些模型进行一系列的一个操作,然后呃来快速的来部署一些这些模型,并且支持多种一个操作系统,然后支持多种的一个硬件的一个加速的一个选项, 那么它对应的一个王者的话就是 h t t p s 点欧拉玛点 com, 而且这个欧拉玛呢,它还提提供了非常方便的一个交互界面和对应的一个 api, 那 么我们可以再进入这个 h t t p s 欧拉玛点 com, 以后的话,大家可以看到一个欧拉玛下载对应的一个页面, 然后你可以根据你的一个操作系统来下载对应的一个欧拉玛的这个应用。 那如果你是一个 windows 的 话,你只需要跟跟随它的一个选择前面的那个 windows 对 应的这个这个图标,然后跟随它的一个引导进行一个傻瓜式的一个操作, 然后那个下载完成之后的话,你在你对应那个 cmd 里面输入一个 alama version, 如果能显示出这个 alama 的 一个版本号的话,那说明你的一个安装已经成功了。 那如果是一个 linux 的 一个电脑的话啊, linux 的 一个操作系统的话,那么你可以通过两种方式,第一种方式是打,这是它的一个官方的一个安装方式,就打开终端运行以下命令,这个是一个官方给的一个命令来安装完成之后, 然后通过 volama version 来来看它是否安装成功。但是这种方式呢?我自己时间下来觉得下载速度非常非常的慢,在一些网络 不太好的一些环境下面,特别是一些不能翻墙的一些一些平台,那么这种下载经常下一半以后,你会断开连接,那所以我个人不是特别的一个推荐, 那么推荐的是就是用这种方式来进行一个下载。那首先的话,比如说你是在一个 auto dl 的 一个平台上,你要开启对应的一个雪速加速,那通过 auto dl 的 一个 命令,也就是这个这个 sauce, 这个这个这个这个命令,然后开启完了之后,第第一节课我们讲过,然后再进行一个 用这个命令 we get 的 这个命令来下载对应那个 alama, 它所对应那个安装包。那下载完这个安装包以后的话,你再 alama 的 呃,你在你的那个操作系统上面运行这行命令,对下载完的这个 t g z 的 这个压缩包啊, alama 压缩包啊进行一个解压,那解压完成之后的话,你不管是通过 alama version 显示版本号也好,还是通过 alama server, 那 你就可以开始进行进行一个服务操作了。 那我这儿的话已经下载完成了,就不给大家再演示下载这个过程,那我可以给大家看一下,就是啊下载完它的一个运行的一个一个一个界面,我们看 alama version, 那 看到他的 client 的 一个版本是零点一六点,零点一二点六,对吧?那我要开启这个 omar 的 话,我只需要 omar server, 好, 那我就现在就开始启动这个 omar 对 应的这个服务, 那当然它还官方还提供了一个 docker 版本的一个安装,那你可以通过在去这个 docker hub 这个网站上面去拉取对应的一个 docker 的 一个镜像,对吧? docker pool alibaba 奥拉玛这个这个方式来拉取对应的镜像,然后拉取完成之后通过 docker run, 然后通过一三一一四三四内外端口的一个挂载端口进行一个映设,然后去建立对应的一个容器,那你最终可以在一一四三四这个端口上访问 对应这个奥拉玛,那我推荐大家的话就是按用这种方法来进行一个安装和使用。 那我们现在先看一下欧拉玛的一个部署的一个实践,那么看一下欧拉玛的一个命令行的一个操作,其实欧拉玛它提供了非常丰富的一个命令行的一些 api, 那 么这里比如说欧拉 serve self 代表启动 alama 的 这个服务,那我像我刚才这个过程的话,就已经把 alama 的 这个服务给启动起来了。当然如果你呃就如果 create 的 话,就是代表可以根据一个一个 model file, 就是 alama 的 一个配置文件创建一个模型,一会我会给大家演示, 那 show 的 话是显示某个模型的一个详细信息,那 run 的 话是运行一个模型, stop 的 话是停止一个正在运行的模型 po 的 话,是从一个 模型仓库,因为奥拉玛内部它有个模型仓库,那么你你要进行一个奥拉玛模型的一个调用的话,你首先要将这个模型下载到对应的个模型仓库,你可以通过奥拉玛 po 的 个 方式的话,去拉取对应的一个,就模型仓库的镜像上面去拉取对应的一个模型。这这个有点类似于 docker 的 一个操作,那么 orama push 就是 将一个模型推送到一个模型仓库 orama list, 列出当前你所有已经下载的模型。 老妈妈 ps 就是 列出所有正在运行的模型,这个和 docker 命令非常像啊, copy 就 复制一个模型 remove, 就是 删除一个模型 help 获取命令,那么这个就不讲了,那我们现在看一下一些主要操作的一些界面吧。 那我们先看一下就是 alama 模型的一个下载与推理,那 alama 支持的模型,你可以访问这个地址啊,比如说我, 好,那我们进入这个地址以后,你可以看到目前奥拉玛收入的一系列那么多对应这个模型吧,对吧?那比如说我们现在比较关注的一些千分三系列的,我们看看有哪些模型, 千分三 vl, 千分三,千分三 in bedding, 那 我们今天可能要操作这个千分四零点六 b 吧, 那这里它就有下奥拉玛的一个模型,呃,比如说千万三零点六位 g g u f, 这个是,这个是一个就是支持很多推理框架的一个数据格式, 那它这一反就有一系列这个对应这个模型。好吧,我这就不给大家一一看了,那么你如果要从模型仓库下载模模型,你可以用奥拉玛 pro, 然后接上那个模型名称。 假如说我现在是千万三零点六 b, 它应该是有这个模型的,我把这个模型,因为这个模型比较小,下的比较快。 哎,这个模型下掉了吗? 千万三零点六 b, 或者你换一个模型也行,你先问三零点六 b q q 四 k m 这个模型,因为我前两天还还在的,那么你就可以把这个模型名称给复制下来,对吧? 它它也可能在一些模型仓库也也会做一些调整啊。那么你可以把那个对应的这个模型名称给复制在这儿,那么它就会通过 moorema port 的 一个方式来下载对应的对应的这个模型。 那我这给大家稍微运行一下吧。呃,因为我现在这个这个盘有点满了,所以我现在不能下这个模型。好吧, 大家自己可以根据这个命令去下载对应这个这个这个模型,反正这个模型这个名字呢,就从那个这个这个仓库上面去扒对应那个名字是什么,然后你就去下载下载什么,包括你自己可以点到这个模型仓库里面去。 呃,它这个地方没有写 readme, 我 们找一个有 readme 的, 一个一个一个模型啊。喏,它这里面会写一些,就是下载的一些用法。 嗯,哎,这里这里没写吗? round ten thousand with one command。 好,这里有,那就是这个,这个就是它的一个下载下载命令嘛,对吧?你可以 alama pro 加上这个模模型名字,每个模型边上都有这么个命令,然后你就可以下载对应这个对应这个模型了。好,然后你下载完成之后的话,你需要 去运行推理的时候,你就通过一个 alama run 对 应的这个模型名称,那你就可以来进行一个推理了,就相当于说我把下载这个模型调换起进行一个执行,当然的话你也可以不用 alama to pour 加模型名称这种方式进行一个下载,你直接运行 alama run 模型名称,那这种方式的话,如果你的模型在奥拉玛的本地仓库里面并不存在,它自动会去对应的奥拉玛云端仓仓库进行一个自动下载,并 且并且执行。所以的话,我因为之前录课的时候,这个版本的话是千万三零点六 b 这个模型还是存在的,那我已经下好了这个模型,当然你可以用千万三零点六 b q 四 k m latest 的 这个模型来来演示 奥拉玛的一个使用,这些都是没关系的,就是这里,这里不吃任何模型,反正我们只是主要演示一下奥拉玛交互该怎么使用好了,那我们在这个兴起一个一个 终端,那我运行这这行代码,这个代码运行的过程中大家要注意一点啊,需要在奥拉玛服务启动的一个过程中,你才能运行这个脚本,否则话相当奥拉玛服务没起,你用奥拉玛 run 的 话是 run 不 起来的。 由于我前面已经下载过了千分三零点六币,所以它并没有一个下载的过程,而是直接进行一个, 直接进行一个运行,那么你可以直接在这个地方和千分三零点六币这个模型进行对话,当然如果你在奥拉玛仓库中找不到千分三零点六币,你可以下载一个别的模型,其实也一样的。好,我们看一下 哦。当然,我这个地方有有个问题啊,因为我现在起用的是一个 cpu 的 模式,所以它推理速度会特别特别的慢,那我先退出一下,它退出怎么退呢?这样 就斜杠 b u y 斜杠 back 就 退出欧拉玛。好吧,那我这个地方我需要重新启动一下 auto dl, 那我这个地方先,因为我现在用的是那个对那个无卡模式,无卡模式运行,所以推率速度特别的慢,我要关一下。 好,那我现在重新按有卡的一个模式进行一个开机。 好,我再运行奥拉玛对那个服务,我先把这个关一下 奥拉玛 sir, 启动奥拉玛服务, 然后再进一个奥拉玛 round。 千万三零点六 b, 你 好好, 因为我现在加载了对那个 gpu, 所以 它很快能进行一个推理。 好,这个就是一个命令行模式来执行奥拉玛启动对应的奥拉玛服务。你可以通过杠 by 或 ctrl 加 d 键来结束命令行模式下对奥拉玛的一个对话,然后你可以通过奥拉玛 list 查看已经安装的模型。那我现在先结束一下,然后我先 back 退出,然后我看通过 alama list 查看我现在安装哪些模型。那我现在有一个 alama 三零点六 b, 有 一个 small 千万,这是我自定义的一个模型。好吧,这个是我刚才给大家演示的一个模型, 这是我用的所有在我本地 alama 仓库所对应的一个模型。那我可以通过 alama remove 的 一个方式来删除刚才那个千万三零点六 b 这个模型。 好,那我们来看一下,就是 alama 的 第二种部署方式,是通过一个 python 的 一个 sdk 的 一个方式,那么你首先要安装一下 pip, install 一下 alama, 然后安装完以后用 import alama, 然后 response 等于 alama, 点 generate model 等于千万三零点六 b, 那 promote 等于你是谁?那在这个过程中, 如果你千万三零点六币是在奥拉玛仓库中是不存在的,那么这个时候它会去进行一个自动下载,这一点其实和我们的一个 transformo 的 的那那种加载方式是一样的,就你本地路径下,它找不到对应的这个模型权重的时候,它就会去云端进行一个自动下载,下载到一个默认的一个模 模型路径下面,那么下一次你在执行这个代码进行一个加载的过程中,它就不会再进行一个二次下载,而是从一个指定的一个路径下面进行一个模型权重的一个提取,提取完成之后直接就可以开始进行一个推理。 呃,奥拉玛也支持一系列的一些 api 的 一些交互形式,这个我们可以先不看 啊,我们这个先,那当然的话你也可以通过 chat 的 一个模式来进行一个,只要只要交互过程中发现没这个模型,它就会自动下载,这个我一会我们再看, 那么我们看一下就是刚才讲的是 ollama 去下载一些预训练的一些模型,那么在实际过程中的话,你可能就是要去自定义一些模型。那么首先先给大家讲一下,就是 ollama 它支持的一个模型的一个格式, 它其实支持的是一个叫 g g u f 的 格式,那 g g u f 又全称叫 g p t generator unified format 的 一个格式,这个是拇拇拇 拇拇拇拇拇拇指格式,它其实是由拇拇拇点 c p p 定义的一种高效存储和交换大元模型运训练结果的一个二进制格式。 因此前面我们讲过,就是像这类的一个格式的一个模型,它的一个权重参数的话,通常是比较小的,会比一般的那种 p t h 或者 c k p t。 类似这样的一个权重格式的一个模型权重哪怕是一样参数量的情况下,数据格式会更小一些。 那 alama 也可以支持自定义模型的一个,就是采用一个 modify 自定义,就这个就类似于我们在做 docker 操作的时候,有个叫 docker file, 对 吧?那么你在每次做一个 docker 去去构建一些镜像 过程中的话,你是不是要指定一个 docker file? 那 alama 其实也一样,你要指定一个 model file, 这个 model file 是 用来定义模型 的一些文件,包括里面有一系列定义模型所预训练模型所对应的路径。比如说如果你是 lua 微调,你还有一些适配器对应一些路路径的一些一一一些位置, 包括一些 template, 也会在这个 model file 里面进行一个定义。你就相相当于说我在奥拉玛中,如果要自定义一个模型的话,你要指定一些原生的模型所在的一些位置, 包括一些适配器对应的一些位置,然后以怎样的一个啊提示词进行一个模型的一个封装,那像我这给大家演示演示了一个叫 small 千万的一个 latest 的 这么一个 自定义模型,它就是基于千万三零点六 b 这个模型做的一个提示词的一个优化封装,我给大家看一下它对应的效果, small small 千万 latest。 好, 那我现在去运行这个模型,我先给大家看一下效果, 这个模型呢,我我是在千万三零点六 b 这个基础上给了它一个 promote, 就是 这个 promote 里面核心的就是这么个东西, 这个模,这个 model file 我 要从 from 千万三零点六 b 这个模型里面做一个导入,然后我这个 case 下面是没有 adapt, 所以 的话,如果你没有 adapt 这个因为我不是一个 low 调的一个模型,我是一个原声的一个预训练模型,所以你要在这个 case 下需要把 adapt 的 这行东西给删掉,那删掉完了之后的话, 你可以指定一些 power 那 个 temperature 和一些 top p 啊一些一一反正就一些模型参数,一些一些一些策略。然后给他一个 system, 也是由 guo 炮科技开发的智能助手,专门辅导学生做课程学习,然后给一个退兑换千万三的一个兑换模板, 那么在这个给了这个东西以后,重新给它打包成一个模型,用打包的一个方式的话,其实是这样的,就是我先建一个 model file, 这个 model file 填充刚才刚才说的那些内容, 然后在其中指定千万三零点六 b g g f 模型的一个路径,就是 from 这个这个路径,那这个路径的话,其实 就是源于你刚才下载这个千万三零点六 b c f 的 这个路径,然后你可以创建这个模型 alama crit small 千万,然后杠 f, 然后将你这个配置文件所这个 model file 所指定的这个模型定义文件的一个路径进行一个指定,然后最终运行这个模型就可以来运行这个 small 千万了。那么这个 small 千万的话,它能够根据我刚才的这个提示词 来进行一个回答,他自己是酷跑科技开发的一个智能助手,专门辅导学生做课程学习,提高学习效率和成绩,对吧?那我先把这个过程给退出去,给大家看一下这个 model 是 怎么怎么样的啊? 我先,呃,这样吧,我先欧拉欧拉玛 remove, 我 先把这个 small 千万 latest 这个模型给删掉, 好,它就会 delete small channel latest。 然后我给大家看一下这个 model file 是 怎么怎么样运行的。 auto d, 我 先到对应的这个, 我存放这个,哦,就在就在这个文件夹下,我建了一个 model file 这个文件,我给大家看一下 model file 这个文件。好,这个 model file 这个文件首先我会引用一个, 你用一个一个一个一个模型,就是这个这个千分三一点七 b 的 这个这个模型。哦,我,我还是不要用这个,因为我这个这个这个路径下面这个的魔 logo 的 话,指定了一个适配器, 呃,这个模型我怕,因为我现在系统盘快满了,所以我怕这个用这个 model fare 来起会有问题,所以我们用一个小一点的模型来来测试, 那我这给大家写了一个小一点的模型,就这个 model file 好。 from 千万三零点六 b, 那 大家要注意一点啊,就是刚才其实那个 model file 是 有点问题的,你要用的其实是这个这个东西 为这里为什么直接写千分三零点六 b 啊,而不是直接去写一个模型的一个路径啊?原因在于我 from 的 这个这个这个模型啊,它必须是一个拇拇拇拇拇支持的一个模型,支持的格式的一个模型,也就是说我 from 的 这个模型啊,得要在你的一个拇 list 这个模型库里面所拥有的这个 name, 你 可以直接在这儿进行引用,你不能用那个前面我们刚刚指定的一个什么在在某一个什么 model scope 下面下载的一个非 g g u f 的 格式的一个模型,因为奥拉玛仓库里面模型默认是 g g u f 模型,所以你可以直接进行一个 直接进行一个引用。好,我这 from 千万三零点六 b 是 我奥拉玛仓库里的模型,然后设置一系列的一个 temperature 和一些什么 top p, 一 些什么 number, predict 的 一个长度,什么二零四八,然后指定了个 system, 以及 一一个绘画的一个 template。 好, 那我定义完这个模型以后,我,我怎么样进行一个,哎 sorry, 创建一个对应的一个自己的一个模型呢? 因为我这个模型的话,是相当于对原声模型做了一个绘画模板的一个设置,对吧?当然如果你自己是一个微调模型的话,你可以基于千万三的一个微调的一个结果,以及你的一个 adapter 进行一个合并,那么进行 adapter 合并的时候的话,你你可以参考这给的一个视力 adaptive lora weights, 对 吧?好,那我这里因为没有 lora 的 话,我可以直接来创建这个模型,但创建的一个命令其实都一样的,那我就 alama crate small 千万杠 f。 然后我因为我是在当前目录下指定的一个 model model file, 呃, general 是 model comps, no model fail or safe 杠 f more, 这,这里写错了 modular fail, 那 这个文件名别指定错啊,因为我这刚刚文件名写错了。好,那我现在的话就能定向到这个用这个文文件名进行一个创建嘛。那我现在创建完了以后,我给大家看一下, 那我现在是不是创建了个 small 千万 latest 的 这个这个这个模型啊?那我现在就可以通过奥拉玛 round small 千万 ladies 的 这个名称来进行一个模型的一个对话。好,就是这么的简单,那下面我们就来演示,拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇。 那么第一个的话就是我们前面讲过 alama server 可以 启动 alama server 对 应那个服务,那么当然 alama server 它启动的是一个,就是相当于我把这个服务直接展展,展示在我这个 shell 的 一个窗口里面,那么我断开 shell 以后,这个服务的话就会失控。 那么也有种方案的话,是通过 no hub 的 一个方式, no hub 再加艾特的一个方式,将 alama 在 后台进行一个启动。那么我这儿的话,为了演示方便的话,依旧使用 alama server 在 我们的一个命令行中直接进行一个启动, 你可以看到它的一个 alarm 启动的时候,它会监听的一个端口是当前本机的一四三四这个这个端口进行一个监听,所以你可以通过一四三四这个端口与 alarm 内置的一些就你下载下来的一些模型进行一个交互。 那我们前面已经讲过了,就是我们安装了一个呃,千万三零点六 b 以及千万基于千万三零点六 b 加上了一个 promote 生成了一个 small, 叫做 small 千万的一个自定义的一个模型,那么我们就用这两个模型来进行一个访问,那么它的一个第一个的一个 api 交互的一个接口叫做一个文本生成的一个接口, 它的一个端点的话用的是 pos 的 一个路由的话是杠 api, 杠 generate, 它的一个功能是向模型发送对应的一个提示词,就是用户的一个输入,并生成对应的一个文本,那么我们用这个 来访问一下,当然你这可以设置一些参数啊,那我这的话给它访问一下。那首先我们先看一下我们用哪些模型啊?呃,通过 omaha list 可以 查看我现在拥有哪些模型,那么一个是千万三零点六 b, 一个是 small, 千万 latest 这三这两个模型,那我可以通过 omaha ps 来查看我当前运行了哪些模型。那么我由于我现在没有进行一个刚起服务,没有进行一个模型的一个载入,所以的话我这不需要做任何,呃,就我,我这没有任何模型的一个当前在运行的一个记录, 那接下来我直接向这个欧拉玛,对呢千万零点零三零点六币发送对你的请求,那么欧拉玛内部的话, 他要做的一件事情就是首先我要去加载这个模型吧,那我加载这个模型到我对应的一个显存吧, 然后我进行基于这个模型进行一个回复吧。好,这时候我们再来看对应的一个欧拉玛。 ps, 用这个命令查看当前正在运行的模型,你就可以看到我千万三零点六 b 这个模型已已经起起来了,并且我在我对应的一个啊 显卡上面可以看到有千万三零点六 b 这个模型的一个显存的一个占用。 当然这里要给大家提到的一点就是这里有个 processor, 它里面显示是百分之一百 gpu, 指的是当前我这个模型正在用百分之一百就是纯 gpu 加载的一个模式,那么这样速度是最快的。 当然的话,有部分同学如果在使用过程中发现了一个问题,就是你自己是有有显卡的,但是这 processor 处理器这个地方,它显示的是百分之一百 cpu, 那 么这里可能会有一个一个原因在于什么?我给大家稍微写一下这百分之一百,有很多同学都会遇到这个问题,百分之一百 cpu, 那如果你要那,那这里可能有两个原因。第一个原因是你的你的模型显存占用过大, 就是你机器载不了这个显存,那欧拉玛会会自动将其用 cpu 加载,这是第一个原因 就是你你当前这个模型啊,比如说我,我一个十六 g 的 显卡,我现在要要去跑跑一个三十二 b 的 模型,那我加载不下怎么办?那么欧拉玛会自动将加载不了这个显存,欧拉玛会自动将其用 cpu 进行一个加载,那是第一种情况,第二种情况是安装 奥拉玛的时候用的是无卡模式,奥拉玛会自动适配 cpu, 那如果你安装的是安装时,建议在有显卡的模式下进行安装,奥拉玛会 自动适配 gpu, 也就是说你这个安装过程中建议大家不要去省这个钱,就是以有卡的一个模式进行一个启动, 那么欧莱玛在安装完成之后就会适配你的一个 g p u 显卡,那么后续你起一些小模型的时候,当你当你这个机器能载这个小模型的时候, 那它就会以百分之一百 gpu 的 一个形式进行一个加载。那如果你在无卡模式进行奥拉玛的安装的时候,奥拉玛由于适配的是 cpu, 所以 下一次你在启动奥拉玛模型的时候,它会自动在 cpu 上进行一个模型的一个启动,这里是一个小的 tricks, 很多很多同学的话都会遇到。 好,那我们言归正传,我们现在已经看到了一个,就是我去请求对应的一个千分三零点六 b 这个模型,那我现在改一下,我现在把这个模型改成一个,那我就我就这个这个请求直接改一下,那我现在把千分三零点六 b 改成我们的一个 small, 哎,叫一个 small 千万 latest。 好, 我现在换了一个模型进行一个加载,那么我们现在再来看一下它,它对那个欧拉玛 ps, 那 么它你你会神奇的发现,当之前加载的那个模型欧拉玛三, 呃,这个千万三零点六 b 这时候已经关闭了,那么现在当前正在服务的是一个 small 千万,这其实也是欧拉玛的一个优化,相当于说我在不使用这个模型的时候不进行一个加载, 我只有在使用的时候我再进行一个加载,好吧,这就是一个,呃,绘画文本生成的这么一个接口, 那我们看一下对应的一个第二个接口,是一个聊天接口,也就是一个对 chat 的 一个接口,那么它的端点的话是也就是这个路由 api, 这个路由的话是杠 api 杠 chat, 那 么它是其实支持一个多轮对话的模型,会记住上下文,当然这个多轮对话也是以传餐的一个方式进行一个传递的。 好,我们看一下,就是,呃,现在有个情况就是,呃,我首先有两轮对话,就是你好,请介绍一下你自己,然后他说我是谷谷炮科技开发的 ai 助手,能唱歌跳舞,很高兴为您服务。然后我问你是谁开发的? 注意我们现在用的这个模型是千万三零点六 b, 是 没有进行一个提示词引导的一个模型,它本身并不知道它是谷炮科技开发的,那我们看一下它的一个调用的一个情况。 好,他回复了,他说我是古炮科技开发的 ai 助手,能唱歌跳舞,那这个是不是由于我的一个历史记忆啊? 就是我在这由于阿斯斯坦的说了这句话,所以我再问的时候,那么他就能根据历史记忆来进行一个回答,那当然的话,这里可以你可以选择一个流势和和非流势进行一个对话, 通过这个 stream 参数进行一个控制。呃,我试一下这个地方能不能用流逝来进行一个回复。好,那这个就是一个流逝回复。好,以 chunk 的 一个形式就是流逝来进行一个回复,你可以通过一个流逝的一个接收的一个方式来进行一个文字流的一个推送。 那我们现在再来看一下当前的一个模型的服务状态。好,我刚才从 small 千万这个模型,现在又切回到千万三零点六 b 这个模型了吧。好, 那接下来我们看一下 orama 和 python sdk 的 一个交互,那我这给大家写了一个文件,大家可以在这节课的一个课程目录下面找到这个文件,就是 orama 与 python 交互的这么一个文文件。那我先把,呃, 我直接来执行吧。那,那首先就是一个还是一个文本生成,你你,你,如果要跟 python 交互的,首先你要 pip install 一下这个 alama 这个包,那安装完这个包之后再来执行下面一些代码。 嗯,我看一下 promote, 哎,这为什么 import alama 等于 alama 点 generate, 哎,这为什么,哦?魔斗等于 这个为什么跑不起来?好,可以了那,呃,我们看一下就是它第一个文本生成的一个 api 的 话,就是 alama 点 generate 这个方法了,你就能够实现一个文本生成,它会自动去加载我们这个 alama 三零点六 b, 这直接写对应那个模型名称就行了,那么你可以看到它生成的对应的一个结果,可以在对应的一个啊这里面 response 里面找到,你去解析对应个 response 的 这个值,就可以拿到对应的一个模型正式的一个回复了。 那么如果你是一个对话的一个模式,也就是我们刚才讲的一个命令行模式里面的一个 chat, chat 的 一个接口的话,那么你就从 from alama import chat, 然后 response 等于 chat, 然后将 model 和对应那个 message 放在里边。当然这个 chat 模式它其实是支持单轮和多轮的,那么你可以看到就是 运行之后,你通过 response 点 message, 点 content 的 方法,就可以将原来一坨东西里面去解析出对应的一个所要的一个文本,那么这个就是我们想要的一个东西,对吧? 那如果你要做一个流式的一个响应的话,那么你可以通过一个 stream 的 一个方式,就是 stream 等于 chat, model 等于 这这个东西,然后不一样一点是 stream, 你 就要指定 chat 的 这个函数,呃,这个函数方法里面的话, stream 要等于 true, 也就流逝进行一个传递,那么流逝在传递过程中,它由于是以以 文字快的一个方式逐个进行一个推送的,那前面我们也可以看到,看到在这个命令行工具里面也有演示,它是一块一块生成的,那么我是不是在一块一块推送给我的时候,我也要以一块一块的方式进行一个接收啊?所以的话, 嗯,所以,哎,是这个是这个文件吗? 哦,在这儿,那所以的话,我这写了一个 for chunk in stream, 就 相当于在这个流势里面,我去不断接收对应那个 chunk, 然后把对应那个 chunk 通过一个 message 和 content, 你 或者你,你也可以是 chunk 点 message, 点 content 也可以,那么将它这个文字形式给呃那个打印出来,然后不断追加的一个方式进行一个打印。那我们看一下效果 呦,那它这这里就是一个典型的一个流逝输出,这个就跟我们在那个网页端用 deepsea 进行一个对话时候效果是一样的。 那那接下来还有个就是要讲如何通过一个定义客户端的一个方式进行一个请求。那我们知道我们前面学过很多,就是关于一些大模型的一些调用 里面,它有一个客户端,就叫做一个 open ai 的 一个客户端,或者一个谷歌有自己的一个 客户端,然后包括火山引擎,有火山引擎的一个客户端,那么如何定义一个客户端去连接我对应的一个请求呢?那么它也提供了相应的一些 api, 那 么它的一个方,一个定义客户端的一个方式,其实就是我 from alama import client, 那我有了这个 client 以后,我要去创建一个客户端实力吧,那我创建完成这个客户端实力,我就可以不断的用客户端实力在后续代码中去调用一些接口进行一个访问吧, 相当于客户端实力就是指定对应的一个。呃,我我的一个对应的一个服务是什么?然后我根据我当前的客户端实力可以不断地去调用后续的一个模型,好吧,那么它的一个客户端就是 client, 然后指定你对应的一个, 呃, alama 的 一个服务地址 host 等于 local host, 然后一四三四是 alama 服务的一个端口。那 header 的 话,这个地方随便写什么内容,因为有有一些场景下的话, header 里面需要去传一些, 呃,一些特殊的一些信息,供服务端和客户端之间之间进行一些信,一些加密啊,或者一些一些验证,那么可以在 headers 里面去做一些文章。那我们这个 case 里面的话,其实 headers 用不是用不到,所以的话 headers 里面传什么纸都可以。 那么我我们指定这个 response 的 话,就可以用我们先前定的 client, 以通过 client 点 chat 这个方法去调用。因为我前面没有指定对应的模型,所以我要把 model 等于 small model。 呃,我这个是叫 small model 吗? model 应该是叫做 small 千,呃,我看一下我这个 model 名称叫什么?这 model 名称应该是叫做 small 千万 latest, 那我就是应该是以 small 千万,我先把这个关关一下。好,我,我应该是 small 千万 latest 的 一个方式进行一个调用吧,然后我指定对应那个 message 一个列表,那你这里可以是单轮的,也可以是多轮的。 好,那么它这里就会进行一个呃,思考,然后,好的,请问我是谁?那么这里就会有个 think 的 一个对,然后最终得出一个答案的话,呃,我是 google 科技开发的一个智能助手,那么专门为 学生辅导相应的一些作业。那这个是不是因为我们前面定义了 small 就是 千万零点六 b 一个 google 科技开发的一个 promote 嘛,包装出来一个模型嘛,那就这样就进行进行了个,进行了一个调用,那么你后续也可以连续对话过程中,你可以不断地去调用这个 client 点 chat 的 这个方法,进行一个连续的一个对话。 好,嗯,那前面讲的一些其实都是一个啊,同步的一个客户端,当然的话,我们在生产过程中,由于可能会用一些异步的方法来进行一个请求,那么同步和异步之间有一个什么区别呢?和大家稍微讲一下, 那同步服务的话,又叫主设置,主设置服务,嗯,它的一个核心理念就是说当我的一个请求过来的时候, 我一个请求过来的时候,一个 request 过来的时候, 过来的时候,那么我的一个 server 端的话,我必须处理完成当前的一个 request 以后,就处理完了这个 request 以后,我我下一个 request 才能够被我的服务端所接纳, 也就是我 request 一 结束了之后,我 request 二才能进入到我的一个服务端进行一个处理。那么这样是不是 用户量大的时候,它它这个流量就会被堵塞啊?就相当于我这个服务端,由于这个服务端要一个一个排队处理的话,那我我请求就得一个一个在后面排队啊。 request 二, request 三,那么这个就是一个同步服务, 那与之相对呢,就是一个叫做异步服务。 异步服务它的一个原理是这样的,就是当我一个 request 一 在处理的在被 server 处理的时候,这时候还没有处理完,这时候我来了个 request 二,那我在 request 二进入 server 的 一个过程中的话, server 能够先拉起 先拉起一个县城进行并行处处理, 那 request 三的来的时候,它又会新拉几个星县城进行并行处理。那么这样的一个模服务模式是不是效率会显著比同步模式一个处理完了以后,等第二个再处理效率高的多呀。 好了,那异步就在做这么一件事,那么异步的话,所有的一个方法之间的话都都得是一个非主色式的,那这个同步服务又叫主色式, 是服务,那么异步服务是一个非主色式服务,那么非主色服务服务的话,要用非主色服务的一些专有的一些写法。比如说在 python 中的一个非主色是服务的一个关键字,就是叫做 define, 然后一个 function, 那 我们同步的定义函数的方法是 define function, 以这样的一个模式,那么所有的一个过程的话都得是非主色的。因为在非主色式服务里面,方法之间的调用,如果存在一个 一个方法是主色式的,那么整一个非主色式服务的一个体系将变成一个主色式服务。所以你要写一个非主色式服务的一个接口的时候,你要保证你所有的一些函数方法全部都是以非主色式服务进行一个定义的,包括这个 client 也要以非主测试服务的一个方式进行一个定义。那么非主测试服务的 client 怎么在 alama 中怎么定义呢?那你先 from alama import 对 应那个叫 a s y n c client, 这就是一个异步客户端, 那么它是适用于一个需要并发的一个场景,好吧,然后你去定义一个异步的一个 chat 函数,那么这个 chat 函数的话,就是 就 asy and c define 和 await 进行一个搭配的话,就主必须要有这个 await 来修饰它的一个主色,主色符就是主色过程,那么才能实现 asy and define 的 一个功能,就这两个东西,它是搭配使用的,不能没有这个, 没有这个的话你可以去执行一下,代码是是执行不了的,所以必须是 asy and c define 啊 wait 的 一个方式,来实现一个异步的一个过程。那我们看一下异步客户来来调用的话,呃,哦, asy and c do wrong chat cannot call for a wrong event loop。 那我们试一下直接进行一个调用呢? await chat, 嗯,我这里这个一个模型,这个模型不对,这个模型我得用一个 small 千万 latest 的 这个模型换个模型。 好,那我是不是通过 await 的 await 这个方法的一个形式,就能调用这个异步的一个函数,然后来实现一个异步的一个客户端的一个 chat 模式的一个推理? 好,那这个是一个异步的一个流逝响应,那么我这里也改成一个 await chat 的 一个方式,进行一个异步的一个流逝响应。 当异步流逝响应的时候,他要接收的时候要 a, s, y, n, c four part in await 这个这个这个,然后再去请求一个流逝的过程。这这都一些固定的写法啊,也不用去记,反正就是到时候要用的时候直接直接 copy 过来就行了。 好了,那包括就是 alama 的 话,提供了一系列就是 python, s, d, k 和 alama 之间交互的一些其他的一些 api 接口。那么我这儿给大家总结了一下,有这些方法, 包括这里面我就不一一执行了,我们简单看一下 chat 方法, generate 方法。前面讲过了,那 alama 点 list 的 方法,可以看出所有可用的模型,那 alama 点 show 的 一个方法,可以看 模型的一个详细信息,那欧拉玛点 create 的 一个方法的话,可以从现有模型创建新的一个模型,就类似于我们刚才看的一个创建 small 千万的这么一个过程,那给予一定的一个 system 的 一个 promote, 那 包括一个欧拉玛的一个 copy 的 一个过程,可以做一个模型的一个拷贝 啊,删除模型是欧拉玛点 delete, 然后从远处仓库拉取模型,欧拉玛点 pa, 从本地 呃模型推送到远程。哈,我说 alarm 点 push, 然后生成文本嵌就 embedding 模型,那么就是 alarm 点 embedding 去加载对应的一个嵌文,比如这里当然是得是一个 embedding, 得是一个 embedding model 啊,就 your embedding model, 然后输入一个 input, 它就能返回一个文本嵌入的个结果,那么正在查看的一个模型列表就是奥拉玛点一个 ps 好 了,然后我们最后看一个就是 alama 的 一个错误处理的一个机制,那么 alama s d k 会在失败请求或响应流逝传输出出现问题时候,然后抛出对应的一个错误。那么这个我们在生产时间过程中的话,你一定要有对应的错误处理机制,因为模型不能保证百,永远百分之一百工作正常, 所以的话我们可以通通过一个 try x accept 的 一个方式来捕获这些错误。那么举个例子,我们用 alama 点 chart 这个接口来 来对话模型的时候,如果出现了一个错误的话,你可以用 alarm 的 response error 的 一个方式,来来来,它定义在这个 response error 这这个这个方法里面,那么你可以打应对一个 e 点 arrow 的 方法来打应对这个错误,并且如果发现一个是四零四的时候,那说明这个模型不存在,你要用 alama 点 po 方法来下载一些模型,那么这个其实就是在一些工程实践中的一些错误,处理的一些机制和方法。那这儿的话也就跟大家稍微提一嘴, 那我们 alama 相关的一些代码的话,就先讲到这儿,大家可以去根据我的这份文件去练练一下。 好啊,包括拇。 那么怎么样使用 web ui 呢?那首先你要去安装一下 open web ui, 但是这个 open web ui 这个包非常的大,所以建议大家在安装的过程中去加一个清华园,那就是这样能加快一个安装的一个过程。那么清华园是怎么 啊?我们教你这里直接搜索一个清华园源头。好,那么你就可以去看到那个呃清华园的一个镜像的一个地址,那我把这个地址直接复制到我对应的一个呃教程里面。 好,那你通过 alama pop pop web ui 的 一个方式来下载 alama 对 应的一个 web ui, 那 我这已经下载完了,这个这个这里面东西超多,要下下挺久的。下载完了以后,你可以通过 open web ui 啊,我这遮住了,然后 open web ui, 然后 sir serve 启动这个服务,然后指定一个对应的你希望的一个端口来进行一个访问。那我这儿的话,比如说我这儿因为用的是企业版的一个 auto auto dl, 所以 的话 啊,我是不需要去进行一个隧道访问,就可以进行一个外网的一个交互的。 哎,哦,我,我这台机器没有装那个呃欧拉玛的一个 web ui, 那 么我们这我们这就不演示了, 反正就是它,它是一个什么什么什么东西呢?给大家说说一下。就是你通过这款这款命令的话,就能启动这个 web ui, 启动 web ui 以后的话,你你要去 用你的一个名字和呃邮箱和密码去做做一个验证,那么验证完了以后的话,后续你就可以根据你的一个电子邮件和对应那个密码进行一个登录, 那么登录完了之后的话,你会进入一个工作台,那这这个工作台里面会有你曾曾经在 orama 里面下载的一些模型,你可以在这个 orama 下载这些模型里面进行一些模型的一个切换和选择。 那么你可以在这个这个地方的话,就是一个以一个对话的一个方式,就类似于 d 网页端 deepsea 对 话的一个方式,跟沃拉玛内置的一些模型进行一个交互和对话,那大致就是这么一个功能啊,但我觉得这个功能其实没有太大的用处。 好了,我们看一下欧拉玛它的一个优缺点及一个实用场景,那相信大家在用这个欧拉玛过程中的话,也发现了欧拉玛这个最大优点是什么呀? 是不是方便啊?你,你现在要下载一个新的模型,我只要短短一行代码叫欧拉玛 run 这个模型的一个名称,这个模型就能够自动下载下来并且启动。 然后我通过一些很简单的一些通用性的一些 api, 那 就比如说我这这些 api 我 并不关注这个模型它它真正真正该如何进行的调用吧? 那如果我到一个 github 上面,或者一些 hangageface 上面,那每个模型它可能调用的一些方法参数,呃,参数的一些配置可能多多少少是有些差异的吧。但是我如果我用欧拉玛来进行一个部署这个模型的话,第一我下载起来非常的方便,一个模一个一个模型名称就完事了。第二个的话, 我这个模型格式相对是比较小的,因为我是我是一个 g g u f 的 一个模型格式。第三个的话就是 我下载完了以后,我可以用欧拉玛提供的一个统一这个 a p i 的 一个范式进行一个推理吧。我不需要关注这个模型它它应该怎么样去定义,定义一些不同的一些参数的一些配置吧。那我我直接用欧拉玛提供的一个统一这个模式去调用所有这个模型吧。 所以欧拉玛的话,它非常它它的一个适用场景就是方便,它适合于一些个人用户、小型项目或需要一些快速部署来看看这个模型能力的。这这个这个场景 那么比较适合隐私保护和简单操作的一些应用。那么我直接部署一个,然后通过通过一个后台启动的一个方式将一个欧拉玛服务启动,然后我就可以直接跟欧拉玛破 破下来的一些模型就拉到我对应那个本地的模型仓库,这些模型进行一些接口上的一些一些少流量的一个交互就完事了。这就是一个奥拉玛的一个优点。那么缺点是什么呢? 那缺点在于啊,欧拉玛相相对于一些其他的一些高效推理的一些框架,比如说我们后面会讲的一些 v l l m, 还有 s g long 这样的一个推理框架的话,它在一个高并发和大规模部署方面的话,其实是表现比较差的 啊?表现,表现比较差,因为它不是一个用来做企业级部署的一个框架,企业级的话不可能用 orama 来进行一个部署的,它更多的就是用一个个人的一个验证,好吧?

班托,班托系统,大家如果说穿的是英文版的话,我们要把它加成中文版, 我们可以点设定,有个 settings, 我们可以通过修改点设定把它改成简体中文。 嗯,这里我们会选择,这里有这么多选项,有英文的英语, english 就是英语,我们选择韩语,中国,选择再改,然后选择完成 后他会提示我们要重启 respect 系统,重启后我们看一下最终他有没有变成简体中文版。 神秘剑重启了,你说早安 九的是英文高名字,我们点,啊,不对也听一下。 终于 现在我们看到里面的图标,他就是显示中文的 老公公文件夹、木板、视频、图片、文档、音乐这些桌面都显示中文了。 好了,这个就设定就生效。

大家好啊,这个视频我就来跟大家分享一下如何在优盘图 linux 上安装奥拉玛大语言模型框架。奥拉玛是一个免费开源的大语言模型运行框架, 那接下来我就一步一步带大家来实操安装。第一步我们先打开这个奥拉玛的网站,在右边有一个当 loft 这么一个按钮,我们点击一下, 那有三个操作系统,中间是 linux, 我 们点击这个 linux, 你 看它安装其实是在 linux 上面运行一行命令,但是它这个命令运行的时候,其实也是会访问 github 的, 有时候这 github 访问不了,它就会中断或者出现错误, 那为了避免这个错误,我们就到 github 上面,在 github 好 访问的时候,就把这个欧拉玛的 linux 版给它下载下来。 你看我现在这个页面就是到 github 拉玛,它的发布页面最新的是 v 零点二,零点六,到这个里边,我点击这个链接,拉玛 linux m 六十四,它点 c s t 把它下载下来,下载下来之后再在我们这个 umt linux 上边一步一步的来安装, 那现在这个下载正在进行中,你看还差十几分钟,那把这下载下来安装的好处就是你的 gitlab 如果突然访问不了,也不会出错,那现在我这个阿拉曼拎那个压缩包文件已经下载成功了,因为我是在 windows 虚拟机里下载的, 我先把它拷贝到一个 u 盘里边,再通过 u 盘拷贝到虚拟机里边。那拷贝的过程当中大家注意一点,你看我右键点击我的 u 盘拎那个虚拟机,然后点击 settings, 你在拷贝的时候把这个 u 盘插到计算机的 usb 接口上,那如果你要是发现你的 u 盘的那个防不了这个 u 盘,或者是识别不了,就到 vmr 这虚拟机里面有一个 usb control 的 这个属性, 在这调一下这个选项,选择三点二,基本上就可以识别 u 盘里面内容。现在我们点击这个奥拉玛压缩包,右键点击它,点击复制,我们点击文件夹,那在这个文件夹我们新创建一个目录,叫 b i n, 点击创建, 然后我们进入到 b n, 右键点击,点击粘贴,就把奥拉玛这个压缩包给它复制过来了,在左下角这显示正在复制, 一会,这显示复制好了这个文件就复制完成了。文件复制完成之后,我们右键点击它,点击提取到,点击选择,因为这个文件比较大一点,九 g, 所以 提取的也慢一点,那现在大家看到这个目录,就是提取之后的这个奥拉玛程序的目录, 那这个目录下有一个 b i n 目录,有一个 lab 目录,我们点击这个 b 目录,那你看这里面有一个奥拉玛这个程序,那这个程序就是奥拉玛大语言模型框架的应用程序,那现在我们就可以通过这个应用程序来启动奥拉玛这个大语言模型框架。 我们把这个路径复制一下,点开一个终端,通过 cd 命令来到这个目录下,我们可以列表看一眼, 这里边只有一个欧拉玛这个程序,那在开始启动之前,我们先来确认一下我们运行命令, ps, 空格横线 e f 竖线 right 拉玛,我们确认一下,现在没有欧拉玛这个进程在运行, 如果我们要启动欧拉玛大圆模型这个框架,我们只需要运行这个命令,点斜线欧拉玛, 因为我们运行的这个命令是在当前这个路况下,所以需要用点斜线,然后给他传一个参数,四回车, 那现在这个奥拉玛大语言模型框架就开始运行了,那我们如何来检验这个大语言模型框架已经运行成功了呢?有一种方法是通过浏览器, 通过访问网址来检验,我们打开 firefox 输这个网址,幺二七点零点零点幺,报号幺幺四三四。那回收之后,如果你看到这句话 alama is running, 那就证明奥拉玛这个大模型框架已经运行成功了。现在我们再打开一个终端,再运行一下这个命令。 ps 杠 e f 无限格拉玛,你看这时候里边有两条记录了,那第一条记录点斜线奥拉玛空格四 f, 就是刚才我们启动这个 ologama 大 语言框架的这个命令。大语言模型框架 ologama 启动起来之后,我们该如何使用里边的大语言模型呢?我们可以用上这行命令。 launch 回车之后就是这个让你选择的这些选项,那第一个就是 chat with the model, 让你和一个模型来聊天, 那第二个是 launch openclaw, 第二个就是让你来安装这个 openclaw, 第三个是安装 claw code 等等等等, 那我们就选择第一个会说到了这个界面,你就可以选择要使用的大语言模型了,那凡是后边有冒号 claw 的 这个模型都是云端模型, 那我们选择这样的模型的好处就是,第一这个模型是运行在我拉玛这个服务器上,不是运行在你本机,节省你的硬件资源。第二,它是免费的,有一定的免费额度,当然这个额度有一定的限制,但是我觉得基本上做个测试或者做一些小项目是够用的。 那假如说我们选择第一个 kimi k 二点五冒号 cloud, 选择之后回车,它就会让你到这个网址去进行一下登录,并且验证,那这个通常会自动地打开一个浏览器,比如说我这里边的 firefox 来到登录界面,那如果没有打开,你就把这个拷贝下来,打开 firefox 右键点击,把这个拷贝进去, 因为我们拷贝下来,它这个里边可能是有空格的,这个 firefox 辨别出来,你看这有一空格,这是不对的, 如果你要是直接回车,它会报错。下边这个网址是 firefox, 把上边那个网址里边的空格去掉之后的 url, 直接点击下边这个网址就可以了。那就到了这个 olababy 登录界面,那在这个里边输入你的邮箱地址,点击继续,再输入密码,点击登录。 那如果你没有奥拉玛这个账号,你可以注册一个,在最开始那个页面下边有一个 sign up, 也就是注册的这么链接,你可以注册一个,注册也比较简单的,到了这个页面,你点击 connect, 那 你这个客户端就跟这奥拉玛服务器相当于是注册上了, 就可以使用 kimi k 二点五,然后 cloud 的 这个大语言模型了。那现在我给这个大语言模型发一个信息,比如说你使用的是什么大语言模型?回车,他这个速度还是挺快的,他把他的 思考的过程也给打印出来了,他说他是 kimi, 由人工智能月知案面科技顾问公司开发大语言模型 属于 kimi k 二点五系列模型,包括核心特点都给解释出来了,现在我们可以接着跟这个 kimi 二点五 k 二点五对话,那我们还是用这上下键选择第一个 chat with a model, kimi k 二点五回车之后, 等于又进入到跟这个魔仙说话的这个界面。我再问他一个问题,你现在哪里运行?他的回答也非常的好,我是运行在云端的 ai 助手,对,我的意思就是想问他是不是在云端运行,这样就好知道他是运行在奥拉玛云端的服务器上。 二是由 astropica 公司开发和维护,运行在分布式的云计算服务器上。我很怀疑这是不是奥拉玛,就是租的 astropica 这个服务器,我具体也不太清楚。那没关系,这个我们先放在这,我们再打开一个终端,我们再运行 ps 空格横线 e f 出现 grab 奥拉玛,你看这个时候就多了一个点斜线奥拉玛空格 lunch 这个进程,那等于说有两个进程,一个是奥拉玛 serve 启动奥拉玛大圆框架这个进程,还有一个奥拉玛 lunch 就是 使用这个大圆模型的这个进程。 那我们现在来看一下,刚才我们在跟这个奥拉玛大语言云端模型通信的时候,每次都犯了一个错误, error running model flag accessed by now defined verbos。 那 我查了一下,这个错误的原因是因为我们跟这个大语言模型通信使用的是 watch 这个参数, 那这个欧拉玛还有一个 run 的 参数,我们在这运行一下,点欧拉玛 run, run 后边就得跟着这个大圆模型的名称 kimi 横向 k 二点五冒号 cloud 回车连接上了。这个时候我们再问他一句话,就说,你好, 你在云端运行吗?是租赁的哪个公司的服务器 会车?他说,你好,是的,我运行在云端的分布式服务器上,关于具体的属于运营信息不能说,最后他就没有错信息输出了。也就是如果你要是运行大约模型,使用这个 run 参数, 它就不会有那个错误。那我们刚才是使用的这个 let 参数,在这里边选的语言模型,它最后就出现了这个错误信息。那现在我们再打开一个终端运行这个命令, ps, 空格横线 e f 竖线 grab 空格拉玛。那你看,这时候欧拉玛这个进程又又多了一个,也就是这个 olama 空格 run kimi k 二点五 mark cloud 的 这个进程。那我安装这个欧拉玛大语言模型框架的目的是为了让我在另外一个 windows 虚拟机上的 open cloud 能够访问这个大语言模型。那我们现在先来看一下 这个大语言模型通过 i p d 如何访问。那现在我们在浏览器里边输入幺二七点零点零点幺, 冒号幺幺四三四,这是可以访问的欧拉玛以色列,对吧?但是如果我要在另一个机器上来访问我这个欧拉玛服务,就需要把这个幺二七点零点零点幺这个地址改成我这个机器的对外的 ip 地址。我们打开终端运行一下 i f config 这命令回车, 他说找不到,因为我还没有装那,所以我们先用命令搜索 a p t 空格 in store net 我 们先安装这个命令,很快就安装完了,现在安装好了,我们再运行 if config。 你 看这个命令就显示出了它的 ip 地址是 幺九二点幺六八点二零四点幺二九,我们把这个地址拷贝下来,在这个 firefox 浏览器里边用它来替换。幺二七点零点零点幺回车,你看他说是 unable to connect 是 连接不上的, 也就是说我在另一个虚拟机上也好,物理街上也好,那个 oppo cola 想连接这个奥拉玛服务是连接不上的,那我们可以这样操作,我们在 uwindows linux 终端里边运行这行命令, export 空格奥拉玛消压键 host 等于 零点零点零点零冒号幺幺四三四回车之后,就等于把这个奥拉玛向网络上的任何一台机器开放了连接。我们下一步就是要重启一下我们安装的这个奥拉玛向网络上的任何一台机器开放了连接。我们下一步就是要重启一下。我们就等于把这个奥拉玛向网络上的模型框架,以及 刚才运行的那几个大语言模型来让这个设置生效。我们先运行命令, ps, 空格杠 e f 竖线 grab 空格奥拉玛,让你看到有哪些奥拉玛后台进程在运行。那我们现在看没有 运行了。那所以我们可以现在在运行点 alama server 来启动这个 alama 大 延模型框架。然后我们再回到 fox 里边刷新一下这个页面。现在显示 alama is running, 就 证明我们可以通过我们这台机器的对外的 ip 地址 来访问奥拉玛这个服务了。那现在你就可以在你的 open cloud 上使用这个免费的云端大语言模型服务了。最后感谢您的关注与支持,欢迎您在评论区里留言,谢谢您的观看,我们下一个视频,再见。


欢迎阅读奥了曼本地大模型部署完全指南,这是一站式本地大模型部署教程,包含安装配置、模型管理与常见问题解决。 什么是 alma? alma 是 一个开源的本地大模型运行框架,支持 lama、 quan、 deep seek 等主流模型,异形命令即可下载。运行模型支持 cpu 和 gpu 加速推理,提供 rest api, 兼容 openai 格式。 linx 系统安装官方安装脚本,最简单,一行命令搞定,也可以直接下载二进置文件手动安装,安装完成后检查服务状态,确认 oliver 正在运行。 docker 方式安装,这是推荐的方式,最干净不污染宿主机环境,便于管理。通过 docker 容器运行 oliver 数据,通过卷持久化 gpu 加速配置 nvidia gpu 需要安装 kuda 驱动和 nvidia container toolkit apple silicon, 用户无需额外配置。 alma 会自动使用 metal 加速,多 gpu 用户可以充分利用并行推理能力。 下载模型常用命令包括 alma paul, 加上模型名称 lama quan deepseek 系列都有查看已下载模型用 alma list 命令,删除模型用 alma r m 量化级别说明,量化可以减小模型体积,加速推理。 q 四下划线 k 下划线 m 是 最流行的选择,性价比最高。 q 六下划线 k 是 六位量化,质量较好。 q 八下划线零接近原始精度,但体积较大。 f p 十六是原始精度体积最大。交互式对话使用 alma run 命令,加上模型名级,可启动对话。 常用命令包括问号查看、帮助模型切换、清除历史退出等,也可以通过参数设置、温度、上下文窗口大小等选项。 rest api 调用 aluma 提供完整的 rest api, 包括生成接口和聊天接口。 api 设计兼容 openai 格式,只需修改端点即可替换使用。 排放 sdk 使用,首先安装 aluma 包,然后通过 check 函数进行对话。流式输出也支持适合需要实时显示生成结果的场景。 自定义模型,通过 model file 配置文件,可以自定义系统提示词、参数和行为。创建好后用 alma create 命令生成自定义模型,然后用 alma run 运行。 环境变量配置主要包括模型存储路径、上下文窗口大小、最大并发模型数等。 通过编辑系统服务覆盖文件,可以持久化配置。常见问题,模型下载慢,国内用户访问海外资源速度可能很慢。解决方案包括设置代理使用镜像站,如 h f meir 点 com 或手动下载 g g u f 文件后导入。 常见问题,显存不足,如果显存不够,可以选择更小的量化模型或减小上下文窗口。也可以强制使用 cpu 模式,牺牲速度换取兼容性。常见问题, gpu 未被识别, 首先检查 nvidia 驱动是否正常,然后确认 nvidia 容器安装正确,最后通过 docker 验证 gpu 访问是否正常。工作 总结,奥莱曼让本地大模型部署变得非常简单。异形命令安装异形命令运行提供完整 rest api, 兼容 openai 格式,支持 cpu 和 gpu 跨平台运行,快去试试吧!