粉丝617获赞1895

大家好,今天带大家 windows 本地一键安装 os 下载通一千问困三点二三二 b 大 模型本地离线跑 i i 对 话全程无门槛、无收费、无 a p i 限制。首先打开浏览器,访问 os 官方网站, 找到页面上的 download for windows, 点击下载 windows 安装包,下载完成后,双击运行安装程序,一路点 install, 等待安装完成。安装结束后,桌面或任务栏会出现 olama 图标,说明服务已自动启动。 首先打开我们安装好的 olama 客户端,可以看到界面上有怒叉的新建对话模型,选择下拉菜单等选项。这里可以直接看到本地已经下载好的模型, 重点是 model location 模型存储位置,我们可以自定义修改模型的存放路径,避免占用系统盘空间。接下来我们点击设置界面的按钮,跳转到 wow 官网。 在官网中我们找到 model 模型库页面,搜索我们想要的模型,比如困三点二到三十二 b, 就 能看到官方提供的下载命令。现在我们复制官网给出的模型下载命令,打开 windows 的 命令提示符, cmd 粘贴命令并回车执行。 欧拉姆会自动开始拉取模型文件,等待下载完成即可。 模型下载完成后,我们回到 omar 桌面客户端,在模型下拉列表里找到刚下载好的模型,选中它。现在我们就可以直接在聊天窗口里和模型对话提问,测试它的回答效果了。 好啦,以上就是 windows 本地安装 omar 并部署模型的完整流程,如果觉得对你有帮助,别忘了点赞收藏,我们下期再见!

今天我们来聊一下奥利码,奥利码的话是一个开源的本地大模型运行和管理工具,能够在本地环境中部署和运行大模型。好,接下来的话我们来安装一下,我们先打开那个浏览器。 好,奥利码的官方是奥利码点 com 好, 网站,打开。好,我们点击登录的版本,那么我们选择那个 windows 的 版本下载就行了, 那么这里的话有两种方式,第一种方式的话是通过 power shell 来进行安装,第二种方式的话,我们是直接下载安装包来进行安装,这里的话我们使用安装包的方式来进行安装,我们下载的话通过迅雷来进行下载。好,我们在按钮上面点一下鼠标右键选择复制链接地址。好,我们打开那个迅雷。 好,我们点击一下新建好这里的话,我们把它放到 d 盘就可以,点击立即下载 好,我们的奥利码已经下载完成了,那么我们在上面点鼠标右键,然后我们选择那个, 然后我们选择打开文件夹。好,我们打开后,那个奥利码的安装包是已经下载到 d 盘了,那么正常情况下我们就双击来进行安装就可以了,但是的话呢, 它里面是没有选择那个安装路径的,如果我们直接安装的话,它会安装到那个 c 盘,那么它安装包是占十几个 g, 会把我们的 c 盘给装满了,如果 c 盘空间不够的话就会安装失败。这里的话我们要通过一个方法把它安装到其他盘,那么我们先打开那个命令提示符,就在这个地方输入 cmd 来打开, 打开,我们先把奥利码的安装包给它输入进来奥利码,然后按 tab 键把它那个补全,补全以后后面我们要跟上杠 d i r 等于双引号,然后我们里面加上我们的路径,这里的话我安装到那个 f 盘去。 好,那么我们直接敲回去就会安装到那个 f 盘里面了,我们来试一下。好,这里的话打开了安装包,打开安装包以后,我们点 install。 好, 我们看一下这里已经安装到那个 f 盘去了。 好,我们的那个奥利码已经安装成功了,那么这里它弹出一个窗口来,那么第一项的话是一个聊天窗口,那么第二项的话就是它可以和哪些应用进行对接,并且使用相关的这一个命令。 第三项的话是一个设置,接下来的话我们看一下那个奥利码的版本,那么这里的话我们先把这个命令提示符给它关闭掉,我们再打开另外一个,这种的话在这会加载我们的那个环境变量和奥利码, 杠杠微修好,敲回车。好,我们安装的版本是零点二,三点二,那么到这里的话,我们的奥拉玛就已经安装成功了,我们在安装的时候注意一下,就是我们要设置一下它的安装路径,那么设置完安装路径以后,它就会安装到我们指定的盘里面去,那么我这里的话是安装到 f 盘, 实际在使用的话,可以根据自己的那个磁盘的容量来选择相应的盘符。好,那么这个是奥拉玛安装的一个大概的过程。

我们在使用奥利码的过程中可能会安装很多大模型,那么当我们不再使用每个大模型的时候,我们希望把那个大模型给它删除掉,因为那个大模型的话是比较占那个磁盘空间的,那么我们这个要怎么来删除?我们来看一下,我们先打开命令提示符。 好,这里的话,我们可以先查看一下那个奥利码里面是安装了哪些大模型,命令的话是奥利码 list, 好, 这里的话我安装了五个大模型,那么我们看一下这个大模型是比较占磁盘公斤的,那么比如说 deepsafe 这些大模型,我不要的时候,我要把它删除掉,那么我们通过奥利码的命令来进行删除奥利码。 好, r m, 那 么后面就跟上我们需要删除的这个大模型的名称,就是这里内幕这里就行了,那么我们把它拷贝过来。好,我们粘贴一下,粘贴以后我们敲回车的话是删除那个单个大模型,如果我们要删除多个大模型的话,我们加一个空格,然后把其他的拷贝过来。 好,我们再粘贴一下。好,我把 deepsafe 的 这三个给它删除掉。好,空格,那么就是我们要多个删除的话,中间加个空格就行了。好,删除之前的话,我们先看一下那个大冒险所在的那一个词盘,那么我们删除以后,我们再来看一下它那个所在的空间是不是就清空掉了。好,我们点开我的电脑, 那么大模型的话,我是钻到了 f 盘。好,我们现在看一下 f 盘的那个可用空间的话是七十三点四 g, 以防万一的话,我们可以刷新一下看一下,那么是还是七十三点四 g, 好, 我们现在执行删除那个大模型的这个指令。好,敲回车。 好,这里的话提示我们这三个大模型都已经删除完成了。好,我们来看一下那个磁盘空间,好,这里的话我们刷新一下。 好,之前的话我们那个空间是七十三点四,那么我们删除完了以后是八十二点六,那么说明是已经把那个空间给释放出来了,那么这个就是在那个奥利码里面,我们来删除不需要的大模型,那么我们删除的话,他同时会清空那个磁盘上所占的那一个空间。

前面的几期视频,我们聊了奥拉玛的相关技术,并在奥拉玛中安装了大模型。今天的话,我们来看一下如何在 openclaw 里面来连接奥拉玛里面的大模型。首先的话我们打开命令提示符。 好,首先的话我们先看一下 openclaw。 好, 这里安装的是二零二六五点幺二。接下来的话,我们看一下奥拉玛 奥利码的版本是零点二四点零,我们看一下奥利码里面安装了哪些大模型, 这里我安装的是天文三八 b。 接下来的话,我们来看一下我们安装的大模型是否支持在其他工具里面来进行调用奥利码 show, 然后我们把这个大模型的名称给它拷贝过来。 好,我们粘贴一下。好,敲回车。好,这里的话我们要看一下那个 capabilities 里面有没有这个 tools, 如果有的话,我们在那个 openclaw 里面就可以直接调用了。 如果没有这个 tools 的 话,大模型是不支持在 openclaw 里面来进行调用的,那么我们使用之前的话,我们先通过奥拉玛秀,然后加上那个大模型的名称,我们看一下有没有 tools, 有 的话我们就可以在 openclaw 里面进行调用了。好,接下来的话我们给它配置 openclaw。 openclaw 好, 敲回车, 这里的话我们选择 local 这一项,这里的话我们选择 mod 这一项。好,这里的话我们选择木,然后我们来找到那个奥利码。 好,在这里。好,我们敲回车。好,这里的话我们就用本地的奥利码就可以了,我们选择最后这一项 local on 这一项。好,那么奥利码的那个本地的这一个地址的话,就是默认的这一个,我们敲回车。 好,经过一段时间的等待的话,我们已经找到那个我们安装的这一个大模型,那么我们选择那个奥乐玛下面的千万三八 b, 这里好,往下面移动,然后我们在那个呃千万三上面我们敲一下空格,选中,然后我们敲回车, 好,这里的话我们选择那个 down, 就是 我们已经设置完成了,我们退出来。好,接下来的话我们把网关给它启动起来, open close get away run, 好, 我们的网关已经启动完成了,我们通过命令行来打开 open close dashboard。 好,那 openclock 已经打开了,我们把这里关闭掉,然后我们选择一下我们的模型,这个是我们通过奥拉玛在本地安装的大模型,请问三八 b, 然后我们选择一下,然后我们来跟它对话。 好,到这里的话,我们用 openclock 连接本地的大模型就已经成功了,那么我们在使用之前的话,首先要安装那个奥拉玛,奥拉玛安装完了的话,我们要下载那个对应的大模型, 那么我们使用之前的话,首先要把那个奥利码给它启动起来,有没有启动的话,我们看一下就是那个右下角这里有没有这一个图标,那么这个是奥利码的图标, 那么启动完了的话,我们要看一下我们下载的大模型有没有那个 toos 的 功能,如果有的话,我们就可以在那个 openclaw 里面来使用,如果没有的话,我们就要换一个版本再来进行使用,那么这个就是在那个 openclaw 里面连接本地大模型的一个简单的步骤。

这里吗?现在为了进个 bios 还在重启加狂按 delete 的 键,今天主播教大家一个超级简单的方法,不用调出命令符,不用点文件, ok, 这里我们点击问卷,点击电源,再点击重起点,重启的时候我们按住 shift 这里等一下, 好,进入到这个界面,我们选择第二个,再选择第二个 uefi 键设置,点击重启,这里也再等一下, ok, 进到 bios 了。

每次想进 bios 开机,盯着屏幕猛按手,稍微慢一秒,直接错过,又得重新开关机折腾。今天分享一个方式,不用按任何快捷键输一行代码,电脑自动重启,直接进去 bios。 首先点开左下角搜索栏,输入 cmd, 选择以管理员身份运行。接着直接输入以下命令, 沙当空格斜杠 r 空格斜杠 f w 空格斜杠 t 空格零敲回车,不用多余操作,电脑立刻重启,全程不用抢按键,不用堵手速随时随地。想进 bios, 一 条命令搞定!

一行命令系统重启进 bios win 加二运行 cmd, 输入这串代码,回车一秒后重启,自动进入 bios。

hello user 停说中文,今天教你两条命令,让 app 系统中文模式启动。第一步,先装中文语言包,终端输入命令提示要不要继续的时候输入 y, 再按回车, 看到 generation complete 就 代表安装完成。第二步,配置语言继续在终端输入命令,弹出对话框,进入列表,然后找到并选中编码, 再按回车确认,回到命令窗口,如果显示 generation complete, 就 说明配置完成,最后一步重启生效,重启之后系统就会变成中文界面。

嗨,欢迎来到这期的六十秒掌握 linux 命令!今天是第一百三十三期了,咱们直接进入正题,今天的主角是 system o l, 你 想,如果不重启机器,就能直接微调 linux 系统的大脑,是不是超级酷?没错, system o l 就是 这么一根终极魔法棒!废话不多说,咱们马上开始。 简单点说吧, system 其实就是一个掌控系统核心的超级工具。你知道最让人头疼的是什么吗?就是改个底层配置,还得重启服务器。但有了它,你可以在系统运行的当下随时去查看甚至动态修改核心参数。 也就是说,不论是优化网络性能、调整内存分配,还是加强安全防御,你都能随手捏来,而且绝对不需要重启!这简直就是给了你一条直通操作系统核心的专属快车道。 那么问题来了,这些极其底层的核心参数到底藏在哪儿呢?其实啊,它们都老老实实地待在一个秘密基地里,也就是 proc slash sis slash 这个文需文件系统目录。 打个比方,你完全可以把这个目录想象成一个布满各种开关的巨型控制面板。而 sis control 呢,就是内置帮你精准拨动开关的无形之手。 既然要动开关,我们得弄清楚两种玩法。第一种呢,是临时起意,也就是用带有 w 参数的命令敲下去,立马见效。爽是爽了,但有个致命弱点,一旦机器重启哒,全白干了。所以,如果你想要以劳永逸,就得玩永久生效。这套 具体怎么搞?把你的神级配置直接写进 etc ciscataele comf 文件里,接着运行一下 ciscataele, 杠屁,让它重新加载。这样一来,哪怕 server 重启一百次,你的油画依然坚挺。 嘿,这里必须得插播一个老司机的常用妙招。如果你接手了一台新机器,想看看当前系统究竟有多少个可以把玩的配置参数?别犹豫,直接在终端敲下 c c t l 杠 a。 好家伙,这个命令会瞬间给你列出当前几百个可调优的参数清单。讲真,这绝对是你做系统审计和性能排查时最顺手的利器。 光说不练假把式,怎么来?看个最经典的实战案例,怎么把你的 linux 秒变一台路由器,也就是开启网络 ip 路由转发就三步,特别干脆。 第一步,先摸摸底,输入 s c control net 点 i p p 四,点 i p forward, 看看当前状态。第二步,如果你只是想临时开启测试一下,加上刚刚说的看由 w 参数,把它设置为一。 第三步,如果你已经把这行写进配置文件,准备永久生效,那就直接运行 s c control 杠 p 搞定。是不是非常丝滑? 不过话又说回来,能力越大,责任越大。 cisco 确实强大,但我也必须得给你提个醒洞,内核参数是有风险的,搞不好系统就崩了。就像字要里反复强调的那样,修改核心设置绝对需要充分的研究,谨慎的测试,还有循渐进的调整。 千万别盲目照抄网上的配置,动手前一定先搞懂参数到底啥意思,最好先在测试环境跑一跑好了。那么问题来了,学完这一招,你最想用 cisco 去唤醒系统哪部分的隐藏性能呢?带着这个问题去折腾吧,我们下期解析,再见!

然后要不给各位演示一下重启 i n i t 六可以 root 啊? 前面不是教过吗?然后 start down 杠 r 不 也可以吗?嗯, start down 那 是立即关机了哦,重启杠二。嗯,重启方式千千万啊。这个只看你习惯啊。 习惯下电重启你有权限的。哎,那看这人张口闭口就是下电,你知道下电意味着什么?你的缓存会被清空,缓存清空意味着你的部分业务可能要起不来,起不来就意味着你要加班,加班就意味着你要睡着, 你家里人要难受是吧?日积月累之下,家庭矛盾是不是就出来了,对吧?后面就不往下讲了。

对电脑进行相关设置时,有时需要进入主板 boss, 开机时要不停的按键盘,有时稍纵即逝,错过了进入 boss 的 机会,又要重新开关机进行操作。本期介绍一种方法,不用按快捷键,只要输入一行代码就能直接进入 boss。 点击开始,在搜索栏输入 c、 m、 d, 右击命令提示符,选择以管理身份运行。在命令提示符窗口输入, s、 h, u, t, d, o, w n 空格、斜盖二空格斜盖 f w 空格、斜盖 t 空格零回车,回车后电脑自动启动便进入 boss。 以上就是简单直接进入主板 boss 的 操作方法。

今天一次性把 cloud code 里六个最常用的原生斜杠命令讲清楚,每天都要用!第一个, in it 进新项目,第一步就敲它,自动扫描代码,生成 cloud 点 md 项目记忆,以后 ai 永远懂你项目。 第二个, clear, 聊崩了,聊跑题了,一键清空对话重新开,比关掉窗口干净十倍。第三个 compact, 常聊到报上下文之前,敲它,自动摘掉前面所有对话,省 token 还不丢关键信息。 第四个, resume, 关电脑断网,第二天接着干一键,拉回上次的对话和进度,再也不用从头讲一遍。第五个, cost, 随时查 token 用量和单词费用,谁还不是个有预算的人,写完代码顺手看一眼,最稳。 第六个, agents, 调出所有内置字代理,前端后端测试安全直接切换,一秒变身专业团队。这六个原声斜杠命令是 cloud code 里最高频的肌肉记忆,背下来效率直接翻倍!关注我,持续带你解锁更多 cloud code 实战技巧!

电脑一蓝屏就重启?别慌,三个命令半分钟修好,小白也能上手。第一步,记代码,蓝屏时别惯记用手机拍下右下角的错误代码,比如零子零零零零零零七,逼着是您的故障密码。第二步, 开 c e m d, 重启后按 win 加 x 选命令提示符,管理员别点错。第三步,跑命令,输入 s f c cno 修复系统文件,等完再输低损亡麦 可以拿 p m d s 包 help 重置组件库,最后输 c h a d s k c f 扫描硬盘块,等每条命令跑完,等它计划下次检查,输入 y 再重启。 注意事项小贴士,内存条发黑,拿橡皮擦擦金手指命令治标硬件治本也别光靠命令收藏,下次蓝屏直接照着念!

一天学一个变态的大模型知识点,今天讲的是奥拉玛大模型快速部署实战教程,那大模型的一个部署方案的话,其实有很多框架知识,那么这就介绍几种,呃,就常用的一些框架,那第一种框架就是一个奥拉玛的一个框架也,这个框架也非常的一个有名啊, 他是一个就是开元大模型的一个模型部署一个平台,他能够通过一系列的一个简单的一批交互,能够使用户能够非常方便的一个实现一个下载下载模型通过一些简单的命令 和对这些模型进行一系列的一个操作,然后呃来快速的来部署一些这些模型,并且支持多种一个操作系统,然后支持多种的一个硬件的一个加速的一个选项, 那么它对应的一个王者的话就是 h t t p s 点欧拉玛点 com, 而且这个欧拉玛呢,它还提提供了非常方便的一个交互界面和对应的一个 api, 那 么我们可以再进入这个 h t t p s 欧拉玛点 com, 以后的话,大家可以看到一个欧拉玛下载对应的一个页面, 然后你可以根据你的一个操作系统来下载对应的一个欧拉玛的这个应用。 那如果你是一个 windows 的 话,你只需要跟跟随它的一个选择前面的那个 windows 对 应的这个这个图标,然后跟随它的一个引导进行一个傻瓜式的一个操作, 然后那个下载完成之后的话,你在你对应那个 cmd 里面输入一个 alama version, 如果能显示出这个 alama 的 一个版本号的话,那说明你的一个安装已经成功了。 那如果是一个 linux 的 一个电脑的话啊, linux 的 一个操作系统的话,那么你可以通过两种方式,第一种方式是打,这是它的一个官方的一个安装方式,就打开终端运行以下命令,这个是一个官方给的一个命令来安装完成之后, 然后通过 volama version 来来看它是否安装成功。但是这种方式呢?我自己时间下来觉得下载速度非常非常的慢,在一些网络 不太好的一些环境下面,特别是一些不能翻墙的一些一些平台,那么这种下载经常下一半以后,你会断开连接,那所以我个人不是特别的一个推荐, 那么推荐的是就是用这种方式来进行一个下载。那首先的话,比如说你是在一个 auto dl 的 一个平台上,你要开启对应的一个雪速加速,那通过 auto dl 的 一个 命令,也就是这个这个 sauce, 这个这个这个这个命令,然后开启完了之后,第第一节课我们讲过,然后再进行一个 用这个命令 we get 的 这个命令来下载对应那个 alama, 它所对应那个安装包。那下载完这个安装包以后的话,你再 alama 的 呃,你在你的那个操作系统上面运行这行命令,对下载完的这个 t g z 的 这个压缩包啊, alama 压缩包啊进行一个解压,那解压完成之后的话,你不管是通过 alama version 显示版本号也好,还是通过 alama server, 那 你就可以开始进行进行一个服务操作了。 那我这儿的话已经下载完成了,就不给大家再演示下载这个过程,那我可以给大家看一下,就是啊下载完它的一个运行的一个一个一个界面,我们看 alama version, 那 看到他的 client 的 一个版本是零点一六点,零点一二点六,对吧?那我要开启这个 omar 的 话,我只需要 omar server, 好, 那我就现在就开始启动这个 omar 对 应的这个服务, 那当然它还官方还提供了一个 docker 版本的一个安装,那你可以通过在去这个 docker hub 这个网站上面去拉取对应的一个 docker 的 一个镜像,对吧? docker pool alibaba 奥拉玛这个这个方式来拉取对应的镜像,然后拉取完成之后通过 docker run, 然后通过一三一一四三四内外端口的一个挂载端口进行一个映设,然后去建立对应的一个容器,那你最终可以在一一四三四这个端口上访问 对应这个奥拉玛,那我推荐大家的话就是按用这种方法来进行一个安装和使用。 那我们现在先看一下欧拉玛的一个部署的一个实践,那么看一下欧拉玛的一个命令行的一个操作,其实欧拉玛它提供了非常丰富的一个命令行的一些 api, 那 么这里比如说欧拉 serve self 代表启动 alama 的 这个服务,那我像我刚才这个过程的话,就已经把 alama 的 这个服务给启动起来了。当然如果你呃就如果 create 的 话,就是代表可以根据一个一个 model file, 就是 alama 的 一个配置文件创建一个模型,一会我会给大家演示, 那 show 的 话是显示某个模型的一个详细信息,那 run 的 话是运行一个模型, stop 的 话是停止一个正在运行的模型 po 的 话,是从一个 模型仓库,因为奥拉玛内部它有个模型仓库,那么你你要进行一个奥拉玛模型的一个调用的话,你首先要将这个模型下载到对应的个模型仓库,你可以通过奥拉玛 po 的 个 方式的话,去拉取对应的一个,就模型仓库的镜像上面去拉取对应的一个模型。这这个有点类似于 docker 的 一个操作,那么 orama push 就是 将一个模型推送到一个模型仓库 orama list, 列出当前你所有已经下载的模型。 老妈妈 ps 就是 列出所有正在运行的模型,这个和 docker 命令非常像啊, copy 就 复制一个模型 remove, 就是 删除一个模型 help 获取命令,那么这个就不讲了,那我们现在看一下一些主要操作的一些界面吧。 那我们先看一下就是 alama 模型的一个下载与推理,那 alama 支持的模型,你可以访问这个地址啊,比如说我, 好,那我们进入这个地址以后,你可以看到目前奥拉玛收入的一系列那么多对应这个模型吧,对吧?那比如说我们现在比较关注的一些千分三系列的,我们看看有哪些模型, 千分三 vl, 千分三,千分三 in bedding, 那 我们今天可能要操作这个千分四零点六 b 吧, 那这里它就有下奥拉玛的一个模型,呃,比如说千万三零点六位 g g u f, 这个是,这个是一个就是支持很多推理框架的一个数据格式, 那它这一反就有一系列这个对应这个模型。好吧,我这就不给大家一一看了,那么你如果要从模型仓库下载模模型,你可以用奥拉玛 pro, 然后接上那个模型名称。 假如说我现在是千万三零点六 b, 它应该是有这个模型的,我把这个模型,因为这个模型比较小,下的比较快。 哎,这个模型下掉了吗? 千万三零点六 b, 或者你换一个模型也行,你先问三零点六 b q q 四 k m 这个模型,因为我前两天还还在的,那么你就可以把这个模型名称给复制下来,对吧? 它它也可能在一些模型仓库也也会做一些调整啊。那么你可以把那个对应的这个模型名称给复制在这儿,那么它就会通过 moorema port 的 一个方式来下载对应的对应的这个模型。 那我这给大家稍微运行一下吧。呃,因为我现在这个这个盘有点满了,所以我现在不能下这个模型。好吧, 大家自己可以根据这个命令去下载对应这个这个这个模型,反正这个模型这个名字呢,就从那个这个这个仓库上面去扒对应那个名字是什么,然后你就去下载下载什么,包括你自己可以点到这个模型仓库里面去。 呃,它这个地方没有写 readme, 我 们找一个有 readme 的, 一个一个一个模型啊。喏,它这里面会写一些,就是下载的一些用法。 嗯,哎,这里这里没写吗? round ten thousand with one command。 好,这里有,那就是这个,这个就是它的一个下载下载命令嘛,对吧?你可以 alama pro 加上这个模模型名字,每个模型边上都有这么个命令,然后你就可以下载对应这个对应这个模型了。好,然后你下载完成之后的话,你需要 去运行推理的时候,你就通过一个 alama run 对 应的这个模型名称,那你就可以来进行一个推理了,就相当于说我把下载这个模型调换起进行一个执行,当然的话你也可以不用 alama to pour 加模型名称这种方式进行一个下载,你直接运行 alama run 模型名称,那这种方式的话,如果你的模型在奥拉玛的本地仓库里面并不存在,它自动会去对应的奥拉玛云端仓仓库进行一个自动下载,并 且并且执行。所以的话,我因为之前录课的时候,这个版本的话是千万三零点六 b 这个模型还是存在的,那我已经下好了这个模型,当然你可以用千万三零点六 b q 四 k m latest 的 这个模型来来演示 奥拉玛的一个使用,这些都是没关系的,就是这里,这里不吃任何模型,反正我们只是主要演示一下奥拉玛交互该怎么使用好了,那我们在这个兴起一个一个 终端,那我运行这这行代码,这个代码运行的过程中大家要注意一点啊,需要在奥拉玛服务启动的一个过程中,你才能运行这个脚本,否则话相当奥拉玛服务没起,你用奥拉玛 run 的 话是 run 不 起来的。 由于我前面已经下载过了千分三零点六币,所以它并没有一个下载的过程,而是直接进行一个, 直接进行一个运行,那么你可以直接在这个地方和千分三零点六币这个模型进行对话,当然如果你在奥拉玛仓库中找不到千分三零点六币,你可以下载一个别的模型,其实也一样的。好,我们看一下 哦。当然,我这个地方有有个问题啊,因为我现在起用的是一个 cpu 的 模式,所以它推理速度会特别特别的慢,那我先退出一下,它退出怎么退呢?这样 就斜杠 b u y 斜杠 back 就 退出欧拉玛。好吧,那我这个地方我需要重新启动一下 auto dl, 那我这个地方先,因为我现在用的是那个对那个无卡模式,无卡模式运行,所以推率速度特别的慢,我要关一下。 好,那我现在重新按有卡的一个模式进行一个开机。 好,我再运行奥拉玛对那个服务,我先把这个关一下 奥拉玛 sir, 启动奥拉玛服务, 然后再进一个奥拉玛 round。 千万三零点六 b, 你 好好, 因为我现在加载了对那个 gpu, 所以 它很快能进行一个推理。 好,这个就是一个命令行模式来执行奥拉玛启动对应的奥拉玛服务。你可以通过杠 by 或 ctrl 加 d 键来结束命令行模式下对奥拉玛的一个对话,然后你可以通过奥拉玛 list 查看已经安装的模型。那我现在先结束一下,然后我先 back 退出,然后我看通过 alama list 查看我现在安装哪些模型。那我现在有一个 alama 三零点六 b, 有 一个 small 千万,这是我自定义的一个模型。好吧,这个是我刚才给大家演示的一个模型, 这是我用的所有在我本地 alama 仓库所对应的一个模型。那我可以通过 alama remove 的 一个方式来删除刚才那个千万三零点六 b 这个模型。 好,那我们来看一下,就是 alama 的 第二种部署方式,是通过一个 python 的 一个 sdk 的 一个方式,那么你首先要安装一下 pip, install 一下 alama, 然后安装完以后用 import alama, 然后 response 等于 alama, 点 generate model 等于千万三零点六 b, 那 promote 等于你是谁?那在这个过程中, 如果你千万三零点六币是在奥拉玛仓库中是不存在的,那么这个时候它会去进行一个自动下载,这一点其实和我们的一个 transformo 的 的那那种加载方式是一样的,就你本地路径下,它找不到对应的这个模型权重的时候,它就会去云端进行一个自动下载,下载到一个默认的一个模 模型路径下面,那么下一次你在执行这个代码进行一个加载的过程中,它就不会再进行一个二次下载,而是从一个指定的一个路径下面进行一个模型权重的一个提取,提取完成之后直接就可以开始进行一个推理。 呃,奥拉玛也支持一系列的一些 api 的 一些交互形式,这个我们可以先不看 啊,我们这个先,那当然的话你也可以通过 chat 的 一个模式来进行一个,只要只要交互过程中发现没这个模型,它就会自动下载,这个我一会我们再看, 那么我们看一下就是刚才讲的是 ollama 去下载一些预训练的一些模型,那么在实际过程中的话,你可能就是要去自定义一些模型。那么首先先给大家讲一下,就是 ollama 它支持的一个模型的一个格式, 它其实支持的是一个叫 g g u f 的 格式,那 g g u f 又全称叫 g p t generator unified format 的 一个格式,这个是拇拇拇 拇拇拇拇拇拇指格式,它其实是由拇拇拇点 c p p 定义的一种高效存储和交换大元模型运训练结果的一个二进制格式。 因此前面我们讲过,就是像这类的一个格式的一个模型,它的一个权重参数的话,通常是比较小的,会比一般的那种 p t h 或者 c k p t。 类似这样的一个权重格式的一个模型权重哪怕是一样参数量的情况下,数据格式会更小一些。 那 alama 也可以支持自定义模型的一个,就是采用一个 modify 自定义,就这个就类似于我们在做 docker 操作的时候,有个叫 docker file, 对 吧?那么你在每次做一个 docker 去去构建一些镜像 过程中的话,你是不是要指定一个 docker file? 那 alama 其实也一样,你要指定一个 model file, 这个 model file 是 用来定义模型 的一些文件,包括里面有一系列定义模型所预训练模型所对应的路径。比如说如果你是 lua 微调,你还有一些适配器对应一些路路径的一些一一一些位置, 包括一些 template, 也会在这个 model file 里面进行一个定义。你就相相当于说我在奥拉玛中,如果要自定义一个模型的话,你要指定一些原生的模型所在的一些位置, 包括一些适配器对应的一些位置,然后以怎样的一个啊提示词进行一个模型的一个封装,那像我这给大家演示演示了一个叫 small 千万的一个 latest 的 这么一个 自定义模型,它就是基于千万三零点六 b 这个模型做的一个提示词的一个优化封装,我给大家看一下它对应的效果, small small 千万 latest。 好, 那我现在去运行这个模型,我先给大家看一下效果, 这个模型呢,我我是在千万三零点六 b 这个基础上给了它一个 promote, 就是 这个 promote 里面核心的就是这么个东西, 这个模,这个 model file 我 要从 from 千万三零点六 b 这个模型里面做一个导入,然后我这个 case 下面是没有 adapt, 所以 的话,如果你没有 adapt 这个因为我不是一个 low 调的一个模型,我是一个原声的一个预训练模型,所以你要在这个 case 下需要把 adapt 的 这行东西给删掉,那删掉完了之后的话, 你可以指定一些 power 那 个 temperature 和一些 top p 啊一些一一反正就一些模型参数,一些一些一些策略。然后给他一个 system, 也是由 guo 炮科技开发的智能助手,专门辅导学生做课程学习,然后给一个退兑换千万三的一个兑换模板, 那么在这个给了这个东西以后,重新给它打包成一个模型,用打包的一个方式的话,其实是这样的,就是我先建一个 model file, 这个 model file 填充刚才刚才说的那些内容, 然后在其中指定千万三零点六 b g g f 模型的一个路径,就是 from 这个这个路径,那这个路径的话,其实 就是源于你刚才下载这个千万三零点六 b c f 的 这个路径,然后你可以创建这个模型 alama crit small 千万,然后杠 f, 然后将你这个配置文件所这个 model file 所指定的这个模型定义文件的一个路径进行一个指定,然后最终运行这个模型就可以来运行这个 small 千万了。那么这个 small 千万的话,它能够根据我刚才的这个提示词 来进行一个回答,他自己是酷跑科技开发的一个智能助手,专门辅导学生做课程学习,提高学习效率和成绩,对吧?那我先把这个过程给退出去,给大家看一下这个 model 是 怎么怎么样的啊? 我先,呃,这样吧,我先欧拉欧拉玛 remove, 我 先把这个 small 千万 latest 这个模型给删掉, 好,它就会 delete small channel latest。 然后我给大家看一下这个 model file 是 怎么怎么样运行的。 auto d, 我 先到对应的这个, 我存放这个,哦,就在就在这个文件夹下,我建了一个 model file 这个文件,我给大家看一下 model file 这个文件。好,这个 model file 这个文件首先我会引用一个, 你用一个一个一个一个模型,就是这个这个千分三一点七 b 的 这个这个模型。哦,我,我还是不要用这个,因为我这个这个这个路径下面这个的魔 logo 的 话,指定了一个适配器, 呃,这个模型我怕,因为我现在系统盘快满了,所以我怕这个用这个 model fare 来起会有问题,所以我们用一个小一点的模型来来测试, 那我这给大家写了一个小一点的模型,就这个 model file 好。 from 千万三零点六 b, 那 大家要注意一点啊,就是刚才其实那个 model file 是 有点问题的,你要用的其实是这个这个东西 为这里为什么直接写千分三零点六 b 啊,而不是直接去写一个模型的一个路径啊?原因在于我 from 的 这个这个这个模型啊,它必须是一个拇拇拇拇拇支持的一个模型,支持的格式的一个模型,也就是说我 from 的 这个模型啊,得要在你的一个拇 list 这个模型库里面所拥有的这个 name, 你 可以直接在这儿进行引用,你不能用那个前面我们刚刚指定的一个什么在在某一个什么 model scope 下面下载的一个非 g g u f 的 格式的一个模型,因为奥拉玛仓库里面模型默认是 g g u f 模型,所以你可以直接进行一个 直接进行一个引用。好,我这 from 千万三零点六 b 是 我奥拉玛仓库里的模型,然后设置一系列的一个 temperature 和一些什么 top p, 一 些什么 number, predict 的 一个长度,什么二零四八,然后指定了个 system, 以及 一一个绘画的一个 template。 好, 那我定义完这个模型以后,我,我怎么样进行一个,哎 sorry, 创建一个对应的一个自己的一个模型呢? 因为我这个模型的话,是相当于对原声模型做了一个绘画模板的一个设置,对吧?当然如果你自己是一个微调模型的话,你可以基于千万三的一个微调的一个结果,以及你的一个 adapter 进行一个合并,那么进行 adapter 合并的时候的话,你你可以参考这给的一个视力 adaptive lora weights, 对 吧?好,那我这里因为没有 lora 的 话,我可以直接来创建这个模型,但创建的一个命令其实都一样的,那我就 alama crate small 千万杠 f。 然后我因为我是在当前目录下指定的一个 model model file, 呃, general 是 model comps, no model fail or safe 杠 f more, 这,这里写错了 modular fail, 那 这个文件名别指定错啊,因为我这刚刚文件名写错了。好,那我现在的话就能定向到这个用这个文文件名进行一个创建嘛。那我现在创建完了以后,我给大家看一下, 那我现在是不是创建了个 small 千万 latest 的 这个这个这个模型啊?那我现在就可以通过奥拉玛 round small 千万 ladies 的 这个名称来进行一个模型的一个对话。好,就是这么的简单,那下面我们就来演示,拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇。 那么第一个的话就是我们前面讲过 alama server 可以 启动 alama server 对 应那个服务,那么当然 alama server 它启动的是一个,就是相当于我把这个服务直接展展,展示在我这个 shell 的 一个窗口里面,那么我断开 shell 以后,这个服务的话就会失控。 那么也有种方案的话,是通过 no hub 的 一个方式, no hub 再加艾特的一个方式,将 alama 在 后台进行一个启动。那么我这儿的话,为了演示方便的话,依旧使用 alama server 在 我们的一个命令行中直接进行一个启动, 你可以看到它的一个 alarm 启动的时候,它会监听的一个端口是当前本机的一四三四这个这个端口进行一个监听,所以你可以通过一四三四这个端口与 alarm 内置的一些就你下载下来的一些模型进行一个交互。 那我们前面已经讲过了,就是我们安装了一个呃,千万三零点六 b 以及千万基于千万三零点六 b 加上了一个 promote 生成了一个 small, 叫做 small 千万的一个自定义的一个模型,那么我们就用这两个模型来进行一个访问,那么它的一个第一个的一个 api 交互的一个接口叫做一个文本生成的一个接口, 它的一个端点的话用的是 pos 的 一个路由的话是杠 api, 杠 generate, 它的一个功能是向模型发送对应的一个提示词,就是用户的一个输入,并生成对应的一个文本,那么我们用这个 来访问一下,当然你这可以设置一些参数啊,那我这的话给它访问一下。那首先我们先看一下我们用哪些模型啊?呃,通过 omaha list 可以 查看我现在拥有哪些模型,那么一个是千万三零点六 b, 一个是 small, 千万 latest 这三这两个模型,那我可以通过 omaha ps 来查看我当前运行了哪些模型。那么我由于我现在没有进行一个刚起服务,没有进行一个模型的一个载入,所以的话我这不需要做任何,呃,就我,我这没有任何模型的一个当前在运行的一个记录, 那接下来我直接向这个欧拉玛,对呢千万零点零三零点六币发送对你的请求,那么欧拉玛内部的话, 他要做的一件事情就是首先我要去加载这个模型吧,那我加载这个模型到我对应的一个显存吧, 然后我进行基于这个模型进行一个回复吧。好,这时候我们再来看对应的一个欧拉玛。 ps, 用这个命令查看当前正在运行的模型,你就可以看到我千万三零点六 b 这个模型已已经起起来了,并且我在我对应的一个啊 显卡上面可以看到有千万三零点六 b 这个模型的一个显存的一个占用。 当然这里要给大家提到的一点就是这里有个 processor, 它里面显示是百分之一百 gpu, 指的是当前我这个模型正在用百分之一百就是纯 gpu 加载的一个模式,那么这样速度是最快的。 当然的话,有部分同学如果在使用过程中发现了一个问题,就是你自己是有有显卡的,但是这 processor 处理器这个地方,它显示的是百分之一百 cpu, 那 么这里可能会有一个一个原因在于什么?我给大家稍微写一下这百分之一百,有很多同学都会遇到这个问题,百分之一百 cpu, 那如果你要那,那这里可能有两个原因。第一个原因是你的你的模型显存占用过大, 就是你机器载不了这个显存,那欧拉玛会会自动将其用 cpu 加载,这是第一个原因 就是你你当前这个模型啊,比如说我,我一个十六 g 的 显卡,我现在要要去跑跑一个三十二 b 的 模型,那我加载不下怎么办?那么欧拉玛会自动将加载不了这个显存,欧拉玛会自动将其用 cpu 进行一个加载,那是第一种情况,第二种情况是安装 奥拉玛的时候用的是无卡模式,奥拉玛会自动适配 cpu, 那如果你安装的是安装时,建议在有显卡的模式下进行安装,奥拉玛会 自动适配 gpu, 也就是说你这个安装过程中建议大家不要去省这个钱,就是以有卡的一个模式进行一个启动, 那么欧莱玛在安装完成之后就会适配你的一个 g p u 显卡,那么后续你起一些小模型的时候,当你当你这个机器能载这个小模型的时候, 那它就会以百分之一百 gpu 的 一个形式进行一个加载。那如果你在无卡模式进行奥拉玛的安装的时候,奥拉玛由于适配的是 cpu, 所以 下一次你在启动奥拉玛模型的时候,它会自动在 cpu 上进行一个模型的一个启动,这里是一个小的 tricks, 很多很多同学的话都会遇到。 好,那我们言归正传,我们现在已经看到了一个,就是我去请求对应的一个千分三零点六 b 这个模型,那我现在改一下,我现在把这个模型改成一个,那我就我就这个这个请求直接改一下,那我现在把千分三零点六 b 改成我们的一个 small, 哎,叫一个 small 千万 latest。 好, 我现在换了一个模型进行一个加载,那么我们现在再来看一下它,它对那个欧拉玛 ps, 那 么它你你会神奇的发现,当之前加载的那个模型欧拉玛三, 呃,这个千万三零点六 b 这时候已经关闭了,那么现在当前正在服务的是一个 small 千万,这其实也是欧拉玛的一个优化,相当于说我在不使用这个模型的时候不进行一个加载, 我只有在使用的时候我再进行一个加载,好吧,这就是一个,呃,绘画文本生成的这么一个接口, 那我们看一下对应的一个第二个接口,是一个聊天接口,也就是一个对 chat 的 一个接口,那么它的端点的话是也就是这个路由 api, 这个路由的话是杠 api 杠 chat, 那 么它是其实支持一个多轮对话的模型,会记住上下文,当然这个多轮对话也是以传餐的一个方式进行一个传递的。 好,我们看一下,就是,呃,现在有个情况就是,呃,我首先有两轮对话,就是你好,请介绍一下你自己,然后他说我是谷谷炮科技开发的 ai 助手,能唱歌跳舞,很高兴为您服务。然后我问你是谁开发的? 注意我们现在用的这个模型是千万三零点六 b, 是 没有进行一个提示词引导的一个模型,它本身并不知道它是谷炮科技开发的,那我们看一下它的一个调用的一个情况。 好,他回复了,他说我是古炮科技开发的 ai 助手,能唱歌跳舞,那这个是不是由于我的一个历史记忆啊? 就是我在这由于阿斯斯坦的说了这句话,所以我再问的时候,那么他就能根据历史记忆来进行一个回答,那当然的话,这里可以你可以选择一个流势和和非流势进行一个对话, 通过这个 stream 参数进行一个控制。呃,我试一下这个地方能不能用流逝来进行一个回复。好,那这个就是一个流逝回复。好,以 chunk 的 一个形式就是流逝来进行一个回复,你可以通过一个流逝的一个接收的一个方式来进行一个文字流的一个推送。 那我们现在再来看一下当前的一个模型的服务状态。好,我刚才从 small 千万这个模型,现在又切回到千万三零点六 b 这个模型了吧。好, 那接下来我们看一下 orama 和 python sdk 的 一个交互,那我这给大家写了一个文件,大家可以在这节课的一个课程目录下面找到这个文件,就是 orama 与 python 交互的这么一个文文件。那我先把,呃, 我直接来执行吧。那,那首先就是一个还是一个文本生成,你你,你,如果要跟 python 交互的,首先你要 pip install 一下这个 alama 这个包,那安装完这个包之后再来执行下面一些代码。 嗯,我看一下 promote, 哎,这为什么 import alama 等于 alama 点 generate, 哎,这为什么,哦?魔斗等于 这个为什么跑不起来?好,可以了那,呃,我们看一下就是它第一个文本生成的一个 api 的 话,就是 alama 点 generate 这个方法了,你就能够实现一个文本生成,它会自动去加载我们这个 alama 三零点六 b, 这直接写对应那个模型名称就行了,那么你可以看到它生成的对应的一个结果,可以在对应的一个啊这里面 response 里面找到,你去解析对应个 response 的 这个值,就可以拿到对应的一个模型正式的一个回复了。 那么如果你是一个对话的一个模式,也就是我们刚才讲的一个命令行模式里面的一个 chat, chat 的 一个接口的话,那么你就从 from alama import chat, 然后 response 等于 chat, 然后将 model 和对应那个 message 放在里边。当然这个 chat 模式它其实是支持单轮和多轮的,那么你可以看到就是 运行之后,你通过 response 点 message, 点 content 的 方法,就可以将原来一坨东西里面去解析出对应的一个所要的一个文本,那么这个就是我们想要的一个东西,对吧? 那如果你要做一个流式的一个响应的话,那么你可以通过一个 stream 的 一个方式,就是 stream 等于 chat, model 等于 这这个东西,然后不一样一点是 stream, 你 就要指定 chat 的 这个函数,呃,这个函数方法里面的话, stream 要等于 true, 也就流逝进行一个传递,那么流逝在传递过程中,它由于是以以 文字快的一个方式逐个进行一个推送的,那前面我们也可以看到,看到在这个命令行工具里面也有演示,它是一块一块生成的,那么我是不是在一块一块推送给我的时候,我也要以一块一块的方式进行一个接收啊?所以的话, 嗯,所以,哎,是这个是这个文件吗? 哦,在这儿,那所以的话,我这写了一个 for chunk in stream, 就 相当于在这个流势里面,我去不断接收对应那个 chunk, 然后把对应那个 chunk 通过一个 message 和 content, 你 或者你,你也可以是 chunk 点 message, 点 content 也可以,那么将它这个文字形式给呃那个打印出来,然后不断追加的一个方式进行一个打印。那我们看一下效果 呦,那它这这里就是一个典型的一个流逝输出,这个就跟我们在那个网页端用 deepsea 进行一个对话时候效果是一样的。 那那接下来还有个就是要讲如何通过一个定义客户端的一个方式进行一个请求。那我们知道我们前面学过很多,就是关于一些大模型的一些调用 里面,它有一个客户端,就叫做一个 open ai 的 一个客户端,或者一个谷歌有自己的一个 客户端,然后包括火山引擎,有火山引擎的一个客户端,那么如何定义一个客户端去连接我对应的一个请求呢?那么它也提供了相应的一些 api, 那 么它的一个方,一个定义客户端的一个方式,其实就是我 from alama import client, 那我有了这个 client 以后,我要去创建一个客户端实力吧,那我创建完成这个客户端实力,我就可以不断的用客户端实力在后续代码中去调用一些接口进行一个访问吧, 相当于客户端实力就是指定对应的一个。呃,我我的一个对应的一个服务是什么?然后我根据我当前的客户端实力可以不断地去调用后续的一个模型,好吧,那么它的一个客户端就是 client, 然后指定你对应的一个, 呃, alama 的 一个服务地址 host 等于 local host, 然后一四三四是 alama 服务的一个端口。那 header 的 话,这个地方随便写什么内容,因为有有一些场景下的话, header 里面需要去传一些, 呃,一些特殊的一些信息,供服务端和客户端之间之间进行一些信,一些加密啊,或者一些一些验证,那么可以在 headers 里面去做一些文章。那我们这个 case 里面的话,其实 headers 用不是用不到,所以的话 headers 里面传什么纸都可以。 那么我我们指定这个 response 的 话,就可以用我们先前定的 client, 以通过 client 点 chat 这个方法去调用。因为我前面没有指定对应的模型,所以我要把 model 等于 small model。 呃,我这个是叫 small model 吗? model 应该是叫做 small 千,呃,我看一下我这个 model 名称叫什么?这 model 名称应该是叫做 small 千万 latest, 那我就是应该是以 small 千万,我先把这个关关一下。好,我,我应该是 small 千万 latest 的 一个方式进行一个调用吧,然后我指定对应那个 message 一个列表,那你这里可以是单轮的,也可以是多轮的。 好,那么它这里就会进行一个呃,思考,然后,好的,请问我是谁?那么这里就会有个 think 的 一个对,然后最终得出一个答案的话,呃,我是 google 科技开发的一个智能助手,那么专门为 学生辅导相应的一些作业。那这个是不是因为我们前面定义了 small 就是 千万零点六 b 一个 google 科技开发的一个 promote 嘛,包装出来一个模型嘛,那就这样就进行进行了个,进行了一个调用,那么你后续也可以连续对话过程中,你可以不断地去调用这个 client 点 chat 的 这个方法,进行一个连续的一个对话。 好,嗯,那前面讲的一些其实都是一个啊,同步的一个客户端,当然的话,我们在生产过程中,由于可能会用一些异步的方法来进行一个请求,那么同步和异步之间有一个什么区别呢?和大家稍微讲一下, 那同步服务的话,又叫主设置,主设置服务,嗯,它的一个核心理念就是说当我的一个请求过来的时候, 我一个请求过来的时候,一个 request 过来的时候, 过来的时候,那么我的一个 server 端的话,我必须处理完成当前的一个 request 以后,就处理完了这个 request 以后,我我下一个 request 才能够被我的服务端所接纳, 也就是我 request 一 结束了之后,我 request 二才能进入到我的一个服务端进行一个处理。那么这样是不是 用户量大的时候,它它这个流量就会被堵塞啊?就相当于我这个服务端,由于这个服务端要一个一个排队处理的话,那我我请求就得一个一个在后面排队啊。 request 二, request 三,那么这个就是一个同步服务, 那与之相对呢,就是一个叫做异步服务。 异步服务它的一个原理是这样的,就是当我一个 request 一 在处理的在被 server 处理的时候,这时候还没有处理完,这时候我来了个 request 二,那我在 request 二进入 server 的 一个过程中的话, server 能够先拉起 先拉起一个县城进行并行处处理, 那 request 三的来的时候,它又会新拉几个星县城进行并行处理。那么这样的一个模服务模式是不是效率会显著比同步模式一个处理完了以后,等第二个再处理效率高的多呀。 好了,那异步就在做这么一件事,那么异步的话,所有的一个方法之间的话都都得是一个非主色式的,那这个同步服务又叫主色式, 是服务,那么异步服务是一个非主色式服务,那么非主色服务服务的话,要用非主色服务的一些专有的一些写法。比如说在 python 中的一个非主色是服务的一个关键字,就是叫做 define, 然后一个 function, 那 我们同步的定义函数的方法是 define function, 以这样的一个模式,那么所有的一个过程的话都得是非主色的。因为在非主色式服务里面,方法之间的调用,如果存在一个 一个方法是主色式的,那么整一个非主色式服务的一个体系将变成一个主色式服务。所以你要写一个非主色式服务的一个接口的时候,你要保证你所有的一些函数方法全部都是以非主色式服务进行一个定义的,包括这个 client 也要以非主测试服务的一个方式进行一个定义。那么非主测试服务的 client 怎么在 alama 中怎么定义呢?那你先 from alama import 对 应那个叫 a s y n c client, 这就是一个异步客户端, 那么它是适用于一个需要并发的一个场景,好吧,然后你去定义一个异步的一个 chat 函数,那么这个 chat 函数的话,就是 就 asy and c define 和 await 进行一个搭配的话,就主必须要有这个 await 来修饰它的一个主色,主色符就是主色过程,那么才能实现 asy and define 的 一个功能,就这两个东西,它是搭配使用的,不能没有这个, 没有这个的话你可以去执行一下,代码是是执行不了的,所以必须是 asy and c define 啊 wait 的 一个方式,来实现一个异步的一个过程。那我们看一下异步客户来来调用的话,呃,哦, asy and c do wrong chat cannot call for a wrong event loop。 那我们试一下直接进行一个调用呢? await chat, 嗯,我这里这个一个模型,这个模型不对,这个模型我得用一个 small 千万 latest 的 这个模型换个模型。 好,那我是不是通过 await 的 await 这个方法的一个形式,就能调用这个异步的一个函数,然后来实现一个异步的一个客户端的一个 chat 模式的一个推理? 好,那这个是一个异步的一个流逝响应,那么我这里也改成一个 await chat 的 一个方式,进行一个异步的一个流逝响应。 当异步流逝响应的时候,他要接收的时候要 a, s, y, n, c four part in await 这个这个这个,然后再去请求一个流逝的过程。这这都一些固定的写法啊,也不用去记,反正就是到时候要用的时候直接直接 copy 过来就行了。 好了,那包括就是 alama 的 话,提供了一系列就是 python, s, d, k 和 alama 之间交互的一些其他的一些 api 接口。那么我这儿给大家总结了一下,有这些方法, 包括这里面我就不一一执行了,我们简单看一下 chat 方法, generate 方法。前面讲过了,那 alama 点 list 的 方法,可以看出所有可用的模型,那 alama 点 show 的 一个方法,可以看 模型的一个详细信息,那欧拉玛点 create 的 一个方法的话,可以从现有模型创建新的一个模型,就类似于我们刚才看的一个创建 small 千万的这么一个过程,那给予一定的一个 system 的 一个 promote, 那 包括一个欧拉玛的一个 copy 的 一个过程,可以做一个模型的一个拷贝 啊,删除模型是欧拉玛点 delete, 然后从远处仓库拉取模型,欧拉玛点 pa, 从本地 呃模型推送到远程。哈,我说 alarm 点 push, 然后生成文本嵌就 embedding 模型,那么就是 alarm 点 embedding 去加载对应的一个嵌文,比如这里当然是得是一个 embedding, 得是一个 embedding model 啊,就 your embedding model, 然后输入一个 input, 它就能返回一个文本嵌入的个结果,那么正在查看的一个模型列表就是奥拉玛点一个 ps 好 了,然后我们最后看一个就是 alama 的 一个错误处理的一个机制,那么 alama s d k 会在失败请求或响应流逝传输出出现问题时候,然后抛出对应的一个错误。那么这个我们在生产时间过程中的话,你一定要有对应的错误处理机制,因为模型不能保证百,永远百分之一百工作正常, 所以的话我们可以通通过一个 try x accept 的 一个方式来捕获这些错误。那么举个例子,我们用 alama 点 chart 这个接口来 来对话模型的时候,如果出现了一个错误的话,你可以用 alarm 的 response error 的 一个方式,来来来,它定义在这个 response error 这这个这个方法里面,那么你可以打应对一个 e 点 arrow 的 方法来打应对这个错误,并且如果发现一个是四零四的时候,那说明这个模型不存在,你要用 alama 点 po 方法来下载一些模型,那么这个其实就是在一些工程实践中的一些错误,处理的一些机制和方法。那这儿的话也就跟大家稍微提一嘴, 那我们 alama 相关的一些代码的话,就先讲到这儿,大家可以去根据我的这份文件去练练一下。 好啊,包括拇。 那么怎么样使用 web ui 呢?那首先你要去安装一下 open web ui, 但是这个 open web ui 这个包非常的大,所以建议大家在安装的过程中去加一个清华园,那就是这样能加快一个安装的一个过程。那么清华园是怎么 啊?我们教你这里直接搜索一个清华园源头。好,那么你就可以去看到那个呃清华园的一个镜像的一个地址,那我把这个地址直接复制到我对应的一个呃教程里面。 好,那你通过 alama pop pop web ui 的 一个方式来下载 alama 对 应的一个 web ui, 那 我这已经下载完了,这个这个这里面东西超多,要下下挺久的。下载完了以后,你可以通过 open web ui 啊,我这遮住了,然后 open web ui, 然后 sir serve 启动这个服务,然后指定一个对应的你希望的一个端口来进行一个访问。那我这儿的话,比如说我这儿因为用的是企业版的一个 auto auto dl, 所以 的话 啊,我是不需要去进行一个隧道访问,就可以进行一个外网的一个交互的。 哎,哦,我,我这台机器没有装那个呃欧拉玛的一个 web ui, 那 么我们这我们这就不演示了, 反正就是它,它是一个什么什么什么东西呢?给大家说说一下。就是你通过这款这款命令的话,就能启动这个 web ui, 启动 web ui 以后的话,你你要去 用你的一个名字和呃邮箱和密码去做做一个验证,那么验证完了以后的话,后续你就可以根据你的一个电子邮件和对应那个密码进行一个登录, 那么登录完了之后的话,你会进入一个工作台,那这这个工作台里面会有你曾曾经在 orama 里面下载的一些模型,你可以在这个 orama 下载这些模型里面进行一些模型的一个切换和选择。 那么你可以在这个这个地方的话,就是一个以一个对话的一个方式,就类似于 d 网页端 deepsea 对 话的一个方式,跟沃拉玛内置的一些模型进行一个交互和对话,那大致就是这么一个功能啊,但我觉得这个功能其实没有太大的用处。 好了,我们看一下欧拉玛它的一个优缺点及一个实用场景,那相信大家在用这个欧拉玛过程中的话,也发现了欧拉玛这个最大优点是什么呀? 是不是方便啊?你,你现在要下载一个新的模型,我只要短短一行代码叫欧拉玛 run 这个模型的一个名称,这个模型就能够自动下载下来并且启动。 然后我通过一些很简单的一些通用性的一些 api, 那 就比如说我这这些 api 我 并不关注这个模型它它真正真正该如何进行的调用吧? 那如果我到一个 github 上面,或者一些 hangageface 上面,那每个模型它可能调用的一些方法参数,呃,参数的一些配置可能多多少少是有些差异的吧。但是我如果我用欧拉玛来进行一个部署这个模型的话,第一我下载起来非常的方便,一个模一个一个模型名称就完事了。第二个的话, 我这个模型格式相对是比较小的,因为我是我是一个 g g u f 的 一个模型格式。第三个的话就是 我下载完了以后,我可以用欧拉玛提供的一个统一这个 a p i 的 一个范式进行一个推理吧。我不需要关注这个模型它它应该怎么样去定义,定义一些不同的一些参数的一些配置吧。那我我直接用欧拉玛提供的一个统一这个模式去调用所有这个模型吧。 所以欧拉玛的话,它非常它它的一个适用场景就是方便,它适合于一些个人用户、小型项目或需要一些快速部署来看看这个模型能力的。这这个这个场景 那么比较适合隐私保护和简单操作的一些应用。那么我直接部署一个,然后通过通过一个后台启动的一个方式将一个欧拉玛服务启动,然后我就可以直接跟欧拉玛破 破下来的一些模型就拉到我对应那个本地的模型仓库,这些模型进行一些接口上的一些一些少流量的一个交互就完事了。这就是一个奥拉玛的一个优点。那么缺点是什么呢? 那缺点在于啊,欧拉玛相相对于一些其他的一些高效推理的一些框架,比如说我们后面会讲的一些 v l l m, 还有 s g long 这样的一个推理框架的话,它在一个高并发和大规模部署方面的话,其实是表现比较差的 啊?表现,表现比较差,因为它不是一个用来做企业级部署的一个框架,企业级的话不可能用 orama 来进行一个部署的,它更多的就是用一个个人的一个验证,好吧?