AI 赋能插件开发：Ollama + 千问 3.5 本地集成 #ollama #LLM #AI开发 #前端 #前端进阶

ollama离线安装包

23

1

15

3

举报

发布时间：2026-05-02 18:31

查看AI文稿

AI文稿

好，那我们来快速的去把整个 ai 这一块的内容呢，给大家去做一个介绍，本地安装欧拉玛，然后呢安装模型是千问三点五，怎么用呢？我们来到这边直接欧拉玛 ios 安装成功之后就这个效果啊，然后呢我们可以直接欧拉玛 run 千问三点五九 b 跑起来本地部署的模型，但是我估计我同学这个模型可能跑不起来，跑不起来的话你就装一个小参数的六点六七 b 的话，我同学的电脑可能扛不住，我这个电脑呢，因为配置相对来说比较高，六十四 g 内存的，所以大家如果一般是什么十六 g 内存的话，那你就砍半啊，你可以装个千万三点五。好，装好之后呢，接下来其实就是 nong qing 那一部分的使用，但是这些使用这一块的话，因为我前面在公开课里面有详细讲过关于 nong qing 那一部分，就给大家去简单这个概括一下啊，概览一下，首先去引入这个欧拉玛的客户端模型，就是这个希腊欧拉玛，然后呢用的是千万三点五九币，用它温度的话，你可以设置的低一点，因为温度呢是保证输出的严谨性的啊。最后呢可以去测试一下，看他有没有成功啊。这个时候呢，我们可以创建一个新的项目，叫 vt ai， wait ai，然后呢在这个项目里面我们直接啊，或者说我直接把它搞一份过来把移过来啊，如果说我们在这个里面去定义的话，第一个文件包括这个依赖啊，就直接把这一堆装下来，这里我直接打开它帮我补全一下了， nonchain，欧拉玛， nongraph，看有没有区的啊，还有一个 core。好，可以了，我再把这个关上一点二点六，好保存。这个我们把它删掉了，不要了啊。在这个里面，我们可以先写一个简单的脚本，先测一下，比如说在这呢，直接建一个 test 点 js，把这部分呢，我直接导进来了，简单一点啊，直接导进来，这块 base 二幺的话，不需要好保存，我们来试一下，直接执行当前的啊，依赖安装一下。好，我们再执行 note test in just 正在换机本地模型，前文模型，这就是调用的一个过程啊，等它唤醒之后呢，可以看到这种效果，我们可以看到吧，模型响应干嘛呢？生成一个最简单的 t s 加法箭头函数，不解释，那它就生成了代码啊，那生成一个最简单，我比如说再举个例子，生成一个最简单的 t s 的排序算法，不解释，正在生成好，但这个生成的过程呢，可能稍微有点慢，我们就不等它了，等它生成完之后，我们再回头来看。那如果说我们要在这个基础上去做处理的话，大家就知道为什么我跟大家始终说 type script 是异常重要的，在当下，为什么呢？因为模型的调用，你可以用 type script 来写，写完之后，不管是把它作为 with 的插件，还是作为服务端调用的一个脚本，都可以。那比如说我把这一段代码，这一段假设，我给它复制一下之后，我们看好了，给它丢到这个里面来，一旦丢到这个里面来了，那我接下来的这个 v，这个执行的过程，这个 test connection，我是不是可以把它直接注视掉，然后呢？接下来因为这是一个 a think，那我们是不是可以等待它？就是等待这个生成，生成之后会返回它的内容，这个时候呢，我们把内容返回一下， response 点 content。好，返回这个 content 之后呢，那你既然在这个里面你都已经理解了翻译原理了，那在这一块儿你输出的这个 code 是不是就可以来自于它里面的内容？当然呢，它因为是异步的，所以你要 evade a with 它。好，这里我为了用简编一点，速度快一点，我就用 t s 来做了保存一下，让他们再来试一下。当然这个跑起来比较慢，我就把它关掉了，偏偏 dv 回车再来重新启动一下这个服务。好，你看它正在唤醒本地模型，你这个时候呢，就直接把模型是不是接到你的项目里面来了？是不是已经把模型的能力接到你的 v 插件里面来了？这个大理解同学在评论区扣个一啊。当然这是这个相对偏 demo 性质的啊，性质的我们呢，其实之所以要用那个 nonchain 的原因就是后续呢，可能要去做一些更复杂的链式链的处理应用它。

AI 前端架构师夏添

粉丝1675获赞1.1万

相关视频

08:59
方案丨 Ollama 本地部署 Deepseek丨下载慢? #deepseek #ollama #内容启发搜索 #人工智能 #ai
2698水哥澎湃
08:16
麒麟系统离线部署 DeepSeek 麒麟系统（Kylin-Desktop-V10-SP1）在无网络条件下：离线部署 DeepSeek #麒麟系统 #Deepseek #运维工程师
395通信小菜鸡
00:34
Gemma4+Ollama 全平台部署教程｜电脑手机通用，免费商用《不吃饺子》 #ollama #gemma4 #可商用大模型 #零基础学AI #gemma4下载
查看AI文稿
AI文稿
刚发布三天的谷歌街挖四家欧莱玛最新王炸组合，彻底解决大模型部署难的问题！普通人不用敲代码就能一键搞定，电脑手机都能装，既能写文案改代码算难题，还能分析长文档，拆解短视频脚本全能又好用，关键是本地离线用，还能无限免费商用！打瓜教程安装包都给你们打包好了！首先在视频右下角的分享图标里点点击复制分享链接，然后打开这个可以在正规应用商城下载的蓝色工具，打开后允许粘贴，就会弹出这个口令弹窗，如果没有就点击这里，然后输入不吃饺子。打开后找到软件资源里的这个文件，右下角保存后下载就可以啦！关注我，每天分享宝藏资源！
18扶我起来
00:33
零基础也能装！刚发布三天的Gemma4+Ollama 一键部署，免费可商用全设备通用
#ollama #gemma4 #gemma4下载 #免费AI #可商用AI
查看AI文稿
AI文稿
大模型踩过的坑，今天一次性给你填平配环境配到崩溃，敲代码完全看不懂，找资源全是坑！家人们有没有碰到过这种情况？刚发布三天的 jama 四家欧莱玛，直接把这些麻烦全解决！电脑手机全能装，本地离线随便用，永久免费还无线商用接单做副业，半毛钱版权问题都没有！教程安装包都给你们打包好了！首先视频右下角的分享图标里点击复制分享链接，然后打开这个可以在正规应用商城下载的蓝色工具，打开后允许粘贴就会弹出这个口令弹窗，如果没有就点击这里，然后输入不吃饺子。打开后找到软件资源里的这个文件，右下角保存后下载就可以啦！关注我，每天分享宝藏资源！
11《不吃饺子》
02:03
离线 AI：R1 搭载 Ollama 本地运行 SEAVIV R1 迷你 AI 工作站，搭配 Ollama 本地大模型运行工具，打造隐私安全、离线可用、高性能的个人 / 企业 AI 算力方案。
查看AI文稿
AI文稿
首先打开欧拉玛官网，下载欧拉玛格式化软件，选择对应系统，点击 download 下载并进行安装，这里我们已经提前安装好了。双击启动欧拉玛软件，可以看到很多模型，选择合适的模型后，在对话框输入任意内容，即可触发下载模型。这里我们提前安装好了千问三点五，或者访问欧拉玛官网的模型库，选择想要的模型，也可以通过在 powershell 以管理员身份运行 olama run 模型名称来实现下载本地大模型。然后可以通过查看模型文件夹来看有哪些模型可用。打开西味小龙虾软件，注意要保持欧拉玛。在后台运行中，选择 ai 配置自定义服务，新增自定义服务，填写配置信息，服务名称随意填写，这里写 local oliver base ur a r l 写 oliver 的服务地址，这里写的是默认地址，实际以自己设定的端口为准。 api type 选择 openai 兼容 apikey 不用写下滑。找到模型列表，模型 id，填写对应要使用的模型名称。接着点击未设置主模型，选择对应的模型，点击创建服务，到此就配置好了。在可用模型预览里选择刚刚配置好的本地大模型，并点击设为主模型，点击检查连接，可以看到本地大模型连接成功了。点击概览启动服务，服务启动后点击对话新对话，把网络连接断掉。我们来测试下是否使用的本地大模型。让小龙虾帮我们写一个小数点后一百位的圆周率文件放在桌面。最后我们可以看到在断网的情况下也成功在桌面写入了一个文件。
4SEAVIV希未
00:46
ollama安装教程 #Ollama #本地大模型部署 #编程避坑指南 #技术教程分享
查看AI文稿
AI文稿
奥拉玛超详细安装教程，双击奥拉玛安装包，启动安装程序，跟着安装向导继续点击安装时，可以自定义模型地下载保存路径，安装完成后，搜索你需要的奥拉玛模型，选中目标模型后发送任意对话，系统会自动开始下载该模型，模型下载完成后，就能正常使用欧拉玛进行对话交互了。
85浩哥计算机毕设代做
00:40
Chrome PageAssist插件，无缝连接本地Ollama #人工智能 #ollama
578AI.Accelerate
03:14
Ollama本地部署教程 llama3.2Vision本地部署，免费使用支持图片识别的GPT语言模型，免费使用chatgpt4.0，本地无需联网使用chatgpt#chatgpt #人工智能 #图片识别
1091大洋哥
06:14
麒麟系统离线安装Ollama后实现开机后台自启Ollama 麒麟系统离线安装ollama后，每次开机都需要手动启动，并且需要保持命令终端不能关闭；通过视频中操作方法能实现开机自动后台启动 Ollama 工具 #麒麟系统 #Deepseek #ollama
37通信小菜鸡
01:38
解决ollama无法下载，模型下载速度慢问题成功本地部署 #ollama #本地部署 #deepseek本地部署 #deepseek电脑版
1035柯基基基基基基基基基
01:12
完美解决ollama下载不了以及模型下载速度慢和无法访问网页问题！#ollama下载不了 #ollama #ollama下载 #ollama下载速度慢 #deepseekr1本地部署
355FCK爱玩游戏
03:49
【SRT翻译君】新增Ollama翻译｜离线使用版 #电脑技巧 #字幕 #字幕制作 #字幕翻译
49Edge麦客
05:43
AI教程:Ollama安装到指定盘因为Olladm的程序本身和模型都默认安装到C盘，很占用C盘空间，所以我们就需要将他们安装到C盘以外的盘符。
#ollama #gemma4 #gemma #这也能开播
查看AI文稿
AI文稿
大家好，这个视频我们就要说一下怎么去将欧拉玛安装到 c 盘以外的其他盘符 c 盘以外的这里呢？我们先下载欧拉玛的安装程序，先下载这个 downloading，欧拉玛，点一下，点一下 download for windows，在这个位置等它下载，安装好在这里如果下载安装比较慢的话，我们就复制下它的链接，鼠标右键复制下载链接，然后打开我们的迅雷找一下，将它复制到我们的迅雷里面去进行安装，这里新建它默认会将我们的下载地址会放进去，我们直接点下载就好了，如果没有的话，这个位置我们就 ctrl 加微粘贴就可以了，然后直接点下载，这样呢下载就会快很多，我们等它下载好这个地方就直接取消叉掉就可以了。好，下载好了我们就右键打开文件夹，将它 ctrl 加 x 剪接出来，放到这里面就好了，这里我们打开 cmd 命令，在这里直接直接就执行命令， e x e 斜杠，大写的 d i r 等于 f，我们安装到 f 盘就冒号，然后再一个斜杠，就这个是左斜杠，记住安装到 o l a m a 这里就是说将欧拉玛安装到我们的指定盘符 f 盘 o l a 就是欧拉玛的这个文件夹里面，直接回车好，它会弹出这个安装窗口，我们点这里安装，大家看到这里这个位置就显示它已经安装到我们 f 盘了，我们等它安装好，下一步我们就要设置模型的位置安装，除除了我们就让它安装，安装的时候我们去看一下 olama 的文件夹里面呢，我们新建一个文件夹叫做 models m o d l s 这就是我们等会儿需要安装模型的位置，我们就所有的模型都下在 oama 整个文件夹里面就好了，这个文件夹准备好，我们就等它安装吧。好了，欧拉玛安装好了，并且自动运行起来，我们这个地方选择 settings 设置，这个地方就是模型的一个设置，我们这地方点击 real 浏览，浏览到我们的 f 盘曲，此电脑 f 找到欧拉玛的文件夹 orders，点确定好，这样呢，它的模型也就会下载到嗯，我们指定的文件夹里面。这样子过后呢，我们就要开始准备给它下载模型，我们还是 java 四复制这条命令，到 c m d 窗口粘贴这辆 mini 直接回车。那么哦，这里安装过后，我们没有加载环境变量，关掉，重新打开一个 c m d 窗口，这个时候再粘贴执行好了，现在它就开始自动给我们下载模型，我们到模型文件里面去看一下有没有变化，右键属性看，通过两个属性的大小对比出这个文件，随着模型的下载进度不断地增加，然后这个文件夹不断地变大，所以就表示我们的模型也放到这个文件夹了，已经这样子呢，整个欧拉玛包括它的模型都放到了我们指定的盘符了，谢谢大家。
117何止于静
01:06
大模型装自己电脑上，完全离线也能用？ #Ollama #本地大模型 #AI #隐私安全
查看AI文稿
AI文稿
用在线 ai 要联网要交钱，聊天记录还存在别人服务器上，有没有办法把大模型装到自己电脑上？完全离线也能用。拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇。它的思路像 docker 管理容器一样，管理模型，内置模型商店 lama mister q 管，几十个模型一键下载，跑起来之后完全离线，数据不出本机。而且它还提供 api 接口，其他工具可以直接调用。但本地跑模型受限于你的硬件，没有好显卡，就只能跑小模型，效果和 gpt 四比会有明显差距。它解决的是隐私和便利问题，不是性能问题。如果你在意数据隐私，需要离线使用，或者想低成本体验各种开源模型，奥拉玛是目前最方便的选择。十二万星是 github 上最火的 ai 项目之一。
15无名之辈真的
04:00
c盘要爆了！一步步把ollama和deepseek模型移动保姆级教程 #ai #deepseek #软件 #ollama #人工智能移动大模型位置，解决C盘占用
2171大猫董
01:37
ComfyUI-Ollama 这个插件很强大，安装起来略微复杂。但这点付出绝对值得，因为在ComfyUI中使用只是Ollama 的冰山一角，有了Ollama你就具备了本地部署大模型的条件，DeepSeek、Qwen 等等优秀大模型都可以成为你的私人助手：写文章、写剧本、本地数据分析、本地图片理解，再也不用担心数据泄露～#ai #ollama #DeepSeek #ComfyUI
67遇见AI
12:07
如何在Ubuntu上安装Ollama,免费使用云端大模型本视频详细分享在Ubuntu Linux系统上部署Ollama大语言模型框架的完整思路与实操经验。Ollama作为一款免费开源的大模型运行工具，不仅支持本地部署，还自带免费云端模型服务，非常适合日常学习、测试与小型项目开发，虽然免费额度存在一定限制，但足以满足个人与入门级使用需求。视频中针对常见的GitHub访问不稳定导致安装失败问题，提供了更稳妥的离线安装方案，全程围绕文件获取、环境配置、服务启动与验证展开，同时讲解了U盘在虚拟机中的识别设置、进程管理、服务状态检测等实用技巧。此外，还对比了不同调用方式的差异，解决常见报错问题，并实现Ollama服务局域网开放，让其他设备如OpenClaw等工具可远程调用，真正打通本地环境与云端大模型的连接通道，为AI爱好者与开发者提供一套稳定、可靠、低成本的大模型运行方案。 #ollama #ubuntu
查看AI文稿
AI文稿
大家好啊，这个视频我就来跟大家分享一下如何在优盘图 linux 上安装奥拉玛大语言模型框架。奥拉玛是一个免费开源的大语言模型运行框架，那接下来我就一步一步带大家来实操安装。第一步我们先打开这个奥拉玛的网站，在右边有一个当 loft 这么一个按钮，我们点击一下，那有三个操作系统，中间是 linux，我们点击这个 linux，你看它安装其实是在 linux 上面运行一行命令，但是它这个命令运行的时候，其实也是会访问 github 的，有时候这 github 访问不了，它就会中断或者出现错误，那为了避免这个错误，我们就到 github 上面，在 github 好访问的时候，就把这个欧拉玛的 linux 版给它下载下来。你看我现在这个页面就是到 github 拉玛，它的发布页面最新的是 v 零点二，零点六，到这个里边，我点击这个链接，拉玛 linux m 六十四，它点 c s t 把它下载下来，下载下来之后再在我们这个 umt linux 上边一步一步的来安装，那现在这个下载正在进行中，你看还差十几分钟，那把这下载下来安装的好处就是你的 gitlab 如果突然访问不了，也不会出错，那现在我这个阿拉曼拎那个压缩包文件已经下载成功了，因为我是在 windows 虚拟机里下载的，我先把它拷贝到一个 u 盘里边，再通过 u 盘拷贝到虚拟机里边。那拷贝的过程当中大家注意一点，你看我右键点击我的 u 盘拎那个虚拟机，然后点击 settings，你在拷贝的时候把这个 u 盘插到计算机的 usb 接口上，那如果你要是发现你的 u 盘的那个防不了这个 u 盘，或者是识别不了，就到 vmr 这虚拟机里面有一个 usb control 的这个属性，在这调一下这个选项，选择三点二，基本上就可以识别 u 盘里面内容。现在我们点击这个奥拉玛压缩包，右键点击它，点击复制，我们点击文件夹，那在这个文件夹我们新创建一个目录，叫 b i n，点击创建，然后我们进入到 b n，右键点击，点击粘贴，就把奥拉玛这个压缩包给它复制过来了，在左下角这显示正在复制，一会，这显示复制好了这个文件就复制完成了。文件复制完成之后，我们右键点击它，点击提取到，点击选择，因为这个文件比较大一点，九 g，所以提取的也慢一点，那现在大家看到这个目录，就是提取之后的这个奥拉玛程序的目录，那这个目录下有一个 b i n 目录，有一个 lab 目录，我们点击这个 b 目录，那你看这里面有一个奥拉玛这个程序，那这个程序就是奥拉玛大语言模型框架的应用程序，那现在我们就可以通过这个应用程序来启动奥拉玛这个大语言模型框架。我们把这个路径复制一下，点开一个终端，通过 cd 命令来到这个目录下，我们可以列表看一眼，这里边只有一个欧拉玛这个程序，那在开始启动之前，我们先来确认一下我们运行命令， ps，空格横线 e f 竖线 right 拉玛，我们确认一下，现在没有欧拉玛这个进程在运行，如果我们要启动欧拉玛大圆模型这个框架，我们只需要运行这个命令，点斜线欧拉玛，因为我们运行的这个命令是在当前这个路况下，所以需要用点斜线，然后给他传一个参数，四回车，那现在这个奥拉玛大语言模型框架就开始运行了，那我们如何来检验这个大语言模型框架已经运行成功了呢？有一种方法是通过浏览器，通过访问网址来检验，我们打开 firefox 输这个网址，幺二七点零点零点幺，报号幺幺四三四。那回收之后，如果你看到这句话 alama is running，那就证明奥拉玛这个大模型框架已经运行成功了。现在我们再打开一个终端，再运行一下这个命令。 ps 杠 e f 无限格拉玛，你看这时候里边有两条记录了，那第一条记录点斜线奥拉玛空格四 f，就是刚才我们启动这个 ologama 大语言框架的这个命令。大语言模型框架 ologama 启动起来之后，我们该如何使用里边的大语言模型呢？我们可以用上这行命令。 launch 回车之后就是这个让你选择的这些选项，那第一个就是 chat with the model，让你和一个模型来聊天，那第二个是 launch openclaw，第二个就是让你来安装这个 openclaw，第三个是安装 claw code 等等等等，那我们就选择第一个会说到了这个界面，你就可以选择要使用的大语言模型了，那凡是后边有冒号 claw 的这个模型都是云端模型，那我们选择这样的模型的好处就是，第一这个模型是运行在我拉玛这个服务器上，不是运行在你本机，节省你的硬件资源。第二，它是免费的，有一定的免费额度，当然这个额度有一定的限制，但是我觉得基本上做个测试或者做一些小项目是够用的。那假如说我们选择第一个 kimi k 二点五冒号 cloud，选择之后回车，它就会让你到这个网址去进行一下登录，并且验证，那这个通常会自动地打开一个浏览器，比如说我这里边的 firefox 来到登录界面，那如果没有打开，你就把这个拷贝下来，打开 firefox 右键点击，把这个拷贝进去，因为我们拷贝下来，它这个里边可能是有空格的，这个 firefox 辨别出来，你看这有一空格，这是不对的，如果你要是直接回车，它会报错。下边这个网址是 firefox，把上边那个网址里边的空格去掉之后的 url，直接点击下边这个网址就可以了。那就到了这个 olababy 登录界面，那在这个里边输入你的邮箱地址，点击继续，再输入密码，点击登录。那如果你没有奥拉玛这个账号，你可以注册一个，在最开始那个页面下边有一个 sign up，也就是注册的这么链接，你可以注册一个，注册也比较简单的，到了这个页面，你点击 connect，那你这个客户端就跟这奥拉玛服务器相当于是注册上了，就可以使用 kimi k 二点五，然后 cloud 的这个大语言模型了。那现在我给这个大语言模型发一个信息，比如说你使用的是什么大语言模型？回车，他这个速度还是挺快的，他把他的思考的过程也给打印出来了，他说他是 kimi，由人工智能月知案面科技顾问公司开发大语言模型属于 kimi k 二点五系列模型，包括核心特点都给解释出来了，现在我们可以接着跟这个 kimi 二点五 k 二点五对话，那我们还是用这上下键选择第一个 chat with a model， kimi k 二点五回车之后，等于又进入到跟这个魔仙说话的这个界面。我再问他一个问题，你现在哪里运行？他的回答也非常的好，我是运行在云端的 ai 助手，对，我的意思就是想问他是不是在云端运行，这样就好知道他是运行在奥拉玛云端的服务器上。二是由 astropica 公司开发和维护，运行在分布式的云计算服务器上。我很怀疑这是不是奥拉玛，就是租的 astropica 这个服务器，我具体也不太清楚。那没关系，这个我们先放在这，我们再打开一个终端，我们再运行 ps 空格横线 e f 出现 grab 奥拉玛，你看这个时候就多了一个点斜线奥拉玛空格 lunch 这个进程，那等于说有两个进程，一个是奥拉玛 serve 启动奥拉玛大圆框架这个进程，还有一个奥拉玛 lunch 就是使用这个大圆模型的这个进程。那我们现在来看一下，刚才我们在跟这个奥拉玛大语言云端模型通信的时候，每次都犯了一个错误， error running model flag accessed by now defined verbos。那我查了一下，这个错误的原因是因为我们跟这个大语言模型通信使用的是 watch 这个参数，那这个欧拉玛还有一个 run 的参数，我们在这运行一下，点欧拉玛 run， run 后边就得跟着这个大圆模型的名称 kimi 横向 k 二点五冒号 cloud 回车连接上了。这个时候我们再问他一句话，就说，你好，你在云端运行吗？是租赁的哪个公司的服务器会车？他说，你好，是的，我运行在云端的分布式服务器上，关于具体的属于运营信息不能说，最后他就没有错信息输出了。也就是如果你要是运行大约模型，使用这个 run 参数，它就不会有那个错误。那我们刚才是使用的这个 let 参数，在这里边选的语言模型，它最后就出现了这个错误信息。那现在我们再打开一个终端运行这个命令， ps，空格横线 e f 竖线 grab 空格拉玛。那你看，这时候欧拉玛这个进程又又多了一个，也就是这个 olama 空格 run kimi k 二点五 mark cloud 的这个进程。那我安装这个欧拉玛大语言模型框架的目的是为了让我在另外一个 windows 虚拟机上的 open cloud 能够访问这个大语言模型。那我们现在先来看一下这个大语言模型通过 i p d 如何访问。那现在我们在浏览器里边输入幺二七点零点零点幺，冒号幺幺四三四，这是可以访问的欧拉玛以色列，对吧？但是如果我要在另一个机器上来访问我这个欧拉玛服务，就需要把这个幺二七点零点零点幺这个地址改成我这个机器的对外的 ip 地址。我们打开终端运行一下 i f config 这命令回车，他说找不到，因为我还没有装那，所以我们先用命令搜索 a p t 空格 in store net 我们先安装这个命令，很快就安装完了，现在安装好了，我们再运行 if config。你看这个命令就显示出了它的 ip 地址是幺九二点幺六八点二零四点幺二九，我们把这个地址拷贝下来，在这个 firefox 浏览器里边用它来替换。幺二七点零点零点幺回车，你看他说是 unable to connect 是连接不上的，也就是说我在另一个虚拟机上也好，物理街上也好，那个 oppo cola 想连接这个奥拉玛服务是连接不上的，那我们可以这样操作，我们在 uwindows linux 终端里边运行这行命令， export 空格奥拉玛消压键 host 等于零点零点零点零冒号幺幺四三四回车之后，就等于把这个奥拉玛向网络上的任何一台机器开放了连接。我们下一步就是要重启一下我们安装的这个奥拉玛向网络上的任何一台机器开放了连接。我们下一步就是要重启一下。我们就等于把这个奥拉玛向网络上的模型框架，以及刚才运行的那几个大语言模型来让这个设置生效。我们先运行命令， ps，空格杠 e f 竖线 grab 空格奥拉玛，让你看到有哪些奥拉玛后台进程在运行。那我们现在看没有运行了。那所以我们可以现在在运行点 alama server 来启动这个 alama 大延模型框架。然后我们再回到 fox 里边刷新一下这个页面。现在显示 alama is running，就证明我们可以通过我们这台机器的对外的 ip 地址来访问奥拉玛这个服务了。那现在你就可以在你的 open cloud 上使用这个免费的云端大语言模型服务了。最后感谢您的关注与支持，欢迎您在评论区里留言，谢谢您的观看，我们下一个视频，再见。
14Windows一点通
54:42
Ollama部署全流程：安装+调用+ 定义模型一次讲透 #大模型 #ollama #模型部署 #人工智能 #ai
查看AI文稿
AI文稿
一天学一个变态的大模型知识点，今天讲的是奥拉玛大模型快速部署实战教程，那大模型的一个部署方案的话，其实有很多框架知识，那么这就介绍几种，呃，就常用的一些框架，那第一种框架就是一个奥拉玛的一个框架也，这个框架也非常的一个有名啊，他是一个就是开元大模型的一个模型部署一个平台，他能够通过一系列的一个简单的一批交互，能够使用户能够非常方便的一个实现一个下载下载模型通过一些简单的命令和对这些模型进行一系列的一个操作，然后呃来快速的来部署一些这些模型，并且支持多种一个操作系统，然后支持多种的一个硬件的一个加速的一个选项，那么它对应的一个王者的话就是 h t t p s 点欧拉玛点 com，而且这个欧拉玛呢，它还提提供了非常方便的一个交互界面和对应的一个 api，那么我们可以再进入这个 h t t p s 欧拉玛点 com，以后的话，大家可以看到一个欧拉玛下载对应的一个页面，然后你可以根据你的一个操作系统来下载对应的一个欧拉玛的这个应用。那如果你是一个 windows 的话，你只需要跟跟随它的一个选择前面的那个 windows 对应的这个这个图标，然后跟随它的一个引导进行一个傻瓜式的一个操作，然后那个下载完成之后的话，你在你对应那个 cmd 里面输入一个 alama version，如果能显示出这个 alama 的一个版本号的话，那说明你的一个安装已经成功了。那如果是一个 linux 的一个电脑的话啊， linux 的一个操作系统的话，那么你可以通过两种方式，第一种方式是打，这是它的一个官方的一个安装方式，就打开终端运行以下命令，这个是一个官方给的一个命令来安装完成之后，然后通过 volama version 来来看它是否安装成功。但是这种方式呢？我自己时间下来觉得下载速度非常非常的慢，在一些网络不太好的一些环境下面，特别是一些不能翻墙的一些一些平台，那么这种下载经常下一半以后，你会断开连接，那所以我个人不是特别的一个推荐，那么推荐的是就是用这种方式来进行一个下载。那首先的话，比如说你是在一个 auto dl 的一个平台上，你要开启对应的一个雪速加速，那通过 auto dl 的一个命令，也就是这个这个 sauce，这个这个这个这个命令，然后开启完了之后，第第一节课我们讲过，然后再进行一个用这个命令 we get 的这个命令来下载对应那个 alama，它所对应那个安装包。那下载完这个安装包以后的话，你再 alama 的呃，你在你的那个操作系统上面运行这行命令，对下载完的这个 t g z 的这个压缩包啊， alama 压缩包啊进行一个解压，那解压完成之后的话，你不管是通过 alama version 显示版本号也好，还是通过 alama server，那你就可以开始进行进行一个服务操作了。那我这儿的话已经下载完成了，就不给大家再演示下载这个过程，那我可以给大家看一下，就是啊下载完它的一个运行的一个一个一个界面，我们看 alama version，那看到他的 client 的一个版本是零点一六点，零点一二点六，对吧？那我要开启这个 omar 的话，我只需要 omar server，好，那我就现在就开始启动这个 omar 对应的这个服务，那当然它还官方还提供了一个 docker 版本的一个安装，那你可以通过在去这个 docker hub 这个网站上面去拉取对应的一个 docker 的一个镜像，对吧？ docker pool alibaba 奥拉玛这个这个方式来拉取对应的镜像，然后拉取完成之后通过 docker run，然后通过一三一一四三四内外端口的一个挂载端口进行一个映设，然后去建立对应的一个容器，那你最终可以在一一四三四这个端口上访问对应这个奥拉玛，那我推荐大家的话就是按用这种方法来进行一个安装和使用。那我们现在先看一下欧拉玛的一个部署的一个实践，那么看一下欧拉玛的一个命令行的一个操作，其实欧拉玛它提供了非常丰富的一个命令行的一些 api，那么这里比如说欧拉 serve self 代表启动 alama 的这个服务，那我像我刚才这个过程的话，就已经把 alama 的这个服务给启动起来了。当然如果你呃就如果 create 的话，就是代表可以根据一个一个 model file，就是 alama 的一个配置文件创建一个模型，一会我会给大家演示，那 show 的话是显示某个模型的一个详细信息，那 run 的话是运行一个模型， stop 的话是停止一个正在运行的模型 po 的话，是从一个模型仓库，因为奥拉玛内部它有个模型仓库，那么你你要进行一个奥拉玛模型的一个调用的话，你首先要将这个模型下载到对应的个模型仓库，你可以通过奥拉玛 po 的个方式的话，去拉取对应的一个，就模型仓库的镜像上面去拉取对应的一个模型。这这个有点类似于 docker 的一个操作，那么 orama push 就是将一个模型推送到一个模型仓库 orama list，列出当前你所有已经下载的模型。老妈妈 ps 就是列出所有正在运行的模型，这个和 docker 命令非常像啊， copy 就复制一个模型 remove，就是删除一个模型 help 获取命令，那么这个就不讲了，那我们现在看一下一些主要操作的一些界面吧。那我们先看一下就是 alama 模型的一个下载与推理，那 alama 支持的模型，你可以访问这个地址啊，比如说我，好，那我们进入这个地址以后，你可以看到目前奥拉玛收入的一系列那么多对应这个模型吧，对吧？那比如说我们现在比较关注的一些千分三系列的，我们看看有哪些模型，千分三 vl，千分三，千分三 in bedding，那我们今天可能要操作这个千分四零点六 b 吧，那这里它就有下奥拉玛的一个模型，呃，比如说千万三零点六位 g g u f，这个是，这个是一个就是支持很多推理框架的一个数据格式，那它这一反就有一系列这个对应这个模型。好吧，我这就不给大家一一看了，那么你如果要从模型仓库下载模模型，你可以用奥拉玛 pro，然后接上那个模型名称。假如说我现在是千万三零点六 b，它应该是有这个模型的，我把这个模型，因为这个模型比较小，下的比较快。哎，这个模型下掉了吗？千万三零点六 b，或者你换一个模型也行，你先问三零点六 b q q 四 k m 这个模型，因为我前两天还还在的，那么你就可以把这个模型名称给复制下来，对吧？它它也可能在一些模型仓库也也会做一些调整啊。那么你可以把那个对应的这个模型名称给复制在这儿，那么它就会通过 moorema port 的一个方式来下载对应的对应的这个模型。那我这给大家稍微运行一下吧。呃，因为我现在这个这个盘有点满了，所以我现在不能下这个模型。好吧，大家自己可以根据这个命令去下载对应这个这个这个模型，反正这个模型这个名字呢，就从那个这个这个仓库上面去扒对应那个名字是什么，然后你就去下载下载什么，包括你自己可以点到这个模型仓库里面去。呃，它这个地方没有写 readme，我们找一个有 readme 的，一个一个一个模型啊。喏，它这里面会写一些，就是下载的一些用法。嗯，哎，这里这里没写吗？ round ten thousand with one command。好，这里有，那就是这个，这个就是它的一个下载下载命令嘛，对吧？你可以 alama pro 加上这个模模型名字，每个模型边上都有这么个命令，然后你就可以下载对应这个对应这个模型了。好，然后你下载完成之后的话，你需要去运行推理的时候，你就通过一个 alama run 对应的这个模型名称，那你就可以来进行一个推理了，就相当于说我把下载这个模型调换起进行一个执行，当然的话你也可以不用 alama to pour 加模型名称这种方式进行一个下载，你直接运行 alama run 模型名称，那这种方式的话，如果你的模型在奥拉玛的本地仓库里面并不存在，它自动会去对应的奥拉玛云端仓仓库进行一个自动下载，并且并且执行。所以的话，我因为之前录课的时候，这个版本的话是千万三零点六 b 这个模型还是存在的，那我已经下好了这个模型，当然你可以用千万三零点六 b q 四 k m latest 的这个模型来来演示奥拉玛的一个使用，这些都是没关系的，就是这里，这里不吃任何模型，反正我们只是主要演示一下奥拉玛交互该怎么使用好了，那我们在这个兴起一个一个终端，那我运行这这行代码，这个代码运行的过程中大家要注意一点啊，需要在奥拉玛服务启动的一个过程中，你才能运行这个脚本，否则话相当奥拉玛服务没起，你用奥拉玛 run 的话是 run 不起来的。由于我前面已经下载过了千分三零点六币，所以它并没有一个下载的过程，而是直接进行一个，直接进行一个运行，那么你可以直接在这个地方和千分三零点六币这个模型进行对话，当然如果你在奥拉玛仓库中找不到千分三零点六币，你可以下载一个别的模型，其实也一样的。好，我们看一下哦。当然，我这个地方有有个问题啊，因为我现在起用的是一个 cpu 的模式，所以它推理速度会特别特别的慢，那我先退出一下，它退出怎么退呢？这样就斜杠 b u y 斜杠 back 就退出欧拉玛。好吧，那我这个地方我需要重新启动一下 auto dl，那我这个地方先，因为我现在用的是那个对那个无卡模式，无卡模式运行，所以推率速度特别的慢，我要关一下。好，那我现在重新按有卡的一个模式进行一个开机。好，我再运行奥拉玛对那个服务，我先把这个关一下奥拉玛 sir，启动奥拉玛服务，然后再进一个奥拉玛 round。千万三零点六 b，你好好，因为我现在加载了对那个 gpu，所以它很快能进行一个推理。好，这个就是一个命令行模式来执行奥拉玛启动对应的奥拉玛服务。你可以通过杠 by 或 ctrl 加 d 键来结束命令行模式下对奥拉玛的一个对话，然后你可以通过奥拉玛 list 查看已经安装的模型。那我现在先结束一下，然后我先 back 退出，然后我看通过 alama list 查看我现在安装哪些模型。那我现在有一个 alama 三零点六 b，有一个 small 千万，这是我自定义的一个模型。好吧，这个是我刚才给大家演示的一个模型，这是我用的所有在我本地 alama 仓库所对应的一个模型。那我可以通过 alama remove 的一个方式来删除刚才那个千万三零点六 b 这个模型。好，那我们来看一下，就是 alama 的第二种部署方式，是通过一个 python 的一个 sdk 的一个方式，那么你首先要安装一下 pip， install 一下 alama，然后安装完以后用 import alama，然后 response 等于 alama，点 generate model 等于千万三零点六 b，那 promote 等于你是谁？那在这个过程中，如果你千万三零点六币是在奥拉玛仓库中是不存在的，那么这个时候它会去进行一个自动下载，这一点其实和我们的一个 transformo 的的那那种加载方式是一样的，就你本地路径下，它找不到对应的这个模型权重的时候，它就会去云端进行一个自动下载，下载到一个默认的一个模模型路径下面，那么下一次你在执行这个代码进行一个加载的过程中，它就不会再进行一个二次下载，而是从一个指定的一个路径下面进行一个模型权重的一个提取，提取完成之后直接就可以开始进行一个推理。呃，奥拉玛也支持一系列的一些 api 的一些交互形式，这个我们可以先不看啊，我们这个先，那当然的话你也可以通过 chat 的一个模式来进行一个，只要只要交互过程中发现没这个模型，它就会自动下载，这个我一会我们再看，那么我们看一下就是刚才讲的是 ollama 去下载一些预训练的一些模型，那么在实际过程中的话，你可能就是要去自定义一些模型。那么首先先给大家讲一下，就是 ollama 它支持的一个模型的一个格式，它其实支持的是一个叫 g g u f 的格式，那 g g u f 又全称叫 g p t generator unified format 的一个格式，这个是拇拇拇拇拇拇拇拇拇指格式，它其实是由拇拇拇点 c p p 定义的一种高效存储和交换大元模型运训练结果的一个二进制格式。因此前面我们讲过，就是像这类的一个格式的一个模型，它的一个权重参数的话，通常是比较小的，会比一般的那种 p t h 或者 c k p t。类似这样的一个权重格式的一个模型权重哪怕是一样参数量的情况下，数据格式会更小一些。那 alama 也可以支持自定义模型的一个，就是采用一个 modify 自定义，就这个就类似于我们在做 docker 操作的时候，有个叫 docker file，对吧？那么你在每次做一个 docker 去去构建一些镜像过程中的话，你是不是要指定一个 docker file？那 alama 其实也一样，你要指定一个 model file，这个 model file 是用来定义模型的一些文件，包括里面有一系列定义模型所预训练模型所对应的路径。比如说如果你是 lua 微调，你还有一些适配器对应一些路路径的一些一一一些位置，包括一些 template，也会在这个 model file 里面进行一个定义。你就相相当于说我在奥拉玛中，如果要自定义一个模型的话，你要指定一些原生的模型所在的一些位置，包括一些适配器对应的一些位置，然后以怎样的一个啊提示词进行一个模型的一个封装，那像我这给大家演示演示了一个叫 small 千万的一个 latest 的这么一个自定义模型，它就是基于千万三零点六 b 这个模型做的一个提示词的一个优化封装，我给大家看一下它对应的效果， small small 千万 latest。好，那我现在去运行这个模型，我先给大家看一下效果，这个模型呢，我我是在千万三零点六 b 这个基础上给了它一个 promote，就是这个 promote 里面核心的就是这么个东西，这个模，这个 model file 我要从 from 千万三零点六 b 这个模型里面做一个导入，然后我这个 case 下面是没有 adapt，所以的话，如果你没有 adapt 这个因为我不是一个 low 调的一个模型，我是一个原声的一个预训练模型，所以你要在这个 case 下需要把 adapt 的这行东西给删掉，那删掉完了之后的话，你可以指定一些 power 那个 temperature 和一些 top p 啊一些一一反正就一些模型参数，一些一些一些策略。然后给他一个 system，也是由 guo 炮科技开发的智能助手，专门辅导学生做课程学习，然后给一个退兑换千万三的一个兑换模板，那么在这个给了这个东西以后，重新给它打包成一个模型，用打包的一个方式的话，其实是这样的，就是我先建一个 model file，这个 model file 填充刚才刚才说的那些内容，然后在其中指定千万三零点六 b g g f 模型的一个路径，就是 from 这个这个路径，那这个路径的话，其实就是源于你刚才下载这个千万三零点六 b c f 的这个路径，然后你可以创建这个模型 alama crit small 千万，然后杠 f，然后将你这个配置文件所这个 model file 所指定的这个模型定义文件的一个路径进行一个指定，然后最终运行这个模型就可以来运行这个 small 千万了。那么这个 small 千万的话，它能够根据我刚才的这个提示词来进行一个回答，他自己是酷跑科技开发的一个智能助手，专门辅导学生做课程学习，提高学习效率和成绩，对吧？那我先把这个过程给退出去，给大家看一下这个 model 是怎么怎么样的啊？我先，呃，这样吧，我先欧拉欧拉玛 remove，我先把这个 small 千万 latest 这个模型给删掉，好，它就会 delete small channel latest。然后我给大家看一下这个 model file 是怎么怎么样运行的。 auto d，我先到对应的这个，我存放这个，哦，就在就在这个文件夹下，我建了一个 model file 这个文件，我给大家看一下 model file 这个文件。好，这个 model file 这个文件首先我会引用一个，你用一个一个一个一个模型，就是这个这个千分三一点七 b 的这个这个模型。哦，我，我还是不要用这个，因为我这个这个这个路径下面这个的魔 logo 的话，指定了一个适配器，呃，这个模型我怕，因为我现在系统盘快满了，所以我怕这个用这个 model fare 来起会有问题，所以我们用一个小一点的模型来来测试，那我这给大家写了一个小一点的模型，就这个 model file 好。 from 千万三零点六 b，那大家要注意一点啊，就是刚才其实那个 model file 是有点问题的，你要用的其实是这个这个东西为这里为什么直接写千分三零点六 b 啊，而不是直接去写一个模型的一个路径啊？原因在于我 from 的这个这个这个模型啊，它必须是一个拇拇拇拇拇支持的一个模型，支持的格式的一个模型，也就是说我 from 的这个模型啊，得要在你的一个拇 list 这个模型库里面所拥有的这个 name，你可以直接在这儿进行引用，你不能用那个前面我们刚刚指定的一个什么在在某一个什么 model scope 下面下载的一个非 g g u f 的格式的一个模型，因为奥拉玛仓库里面模型默认是 g g u f 模型，所以你可以直接进行一个直接进行一个引用。好，我这 from 千万三零点六 b 是我奥拉玛仓库里的模型，然后设置一系列的一个 temperature 和一些什么 top p，一些什么 number， predict 的一个长度，什么二零四八，然后指定了个 system，以及一一个绘画的一个 template。好，那我定义完这个模型以后，我，我怎么样进行一个，哎 sorry，创建一个对应的一个自己的一个模型呢？因为我这个模型的话，是相当于对原声模型做了一个绘画模板的一个设置，对吧？当然如果你自己是一个微调模型的话，你可以基于千万三的一个微调的一个结果，以及你的一个 adapter 进行一个合并，那么进行 adapter 合并的时候的话，你你可以参考这给的一个视力 adaptive lora weights，对吧？好，那我这里因为没有 lora 的话，我可以直接来创建这个模型，但创建的一个命令其实都一样的，那我就 alama crate small 千万杠 f。然后我因为我是在当前目录下指定的一个 model model file，呃， general 是 model comps， no model fail or safe 杠 f more，这，这里写错了 modular fail，那这个文件名别指定错啊，因为我这刚刚文件名写错了。好，那我现在的话就能定向到这个用这个文文件名进行一个创建嘛。那我现在创建完了以后，我给大家看一下，那我现在是不是创建了个 small 千万 latest 的这个这个这个模型啊？那我现在就可以通过奥拉玛 round small 千万 ladies 的这个名称来进行一个模型的一个对话。好，就是这么的简单，那下面我们就来演示，拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇。那么第一个的话就是我们前面讲过 alama server 可以启动 alama server 对应那个服务，那么当然 alama server 它启动的是一个，就是相当于我把这个服务直接展展，展示在我这个 shell 的一个窗口里面，那么我断开 shell 以后，这个服务的话就会失控。那么也有种方案的话，是通过 no hub 的一个方式， no hub 再加艾特的一个方式，将 alama 在后台进行一个启动。那么我这儿的话，为了演示方便的话，依旧使用 alama server 在我们的一个命令行中直接进行一个启动，你可以看到它的一个 alarm 启动的时候，它会监听的一个端口是当前本机的一四三四这个这个端口进行一个监听，所以你可以通过一四三四这个端口与 alarm 内置的一些就你下载下来的一些模型进行一个交互。那我们前面已经讲过了，就是我们安装了一个呃，千万三零点六 b 以及千万基于千万三零点六 b 加上了一个 promote 生成了一个 small，叫做 small 千万的一个自定义的一个模型，那么我们就用这两个模型来进行一个访问，那么它的一个第一个的一个 api 交互的一个接口叫做一个文本生成的一个接口，它的一个端点的话用的是 pos 的一个路由的话是杠 api，杠 generate，它的一个功能是向模型发送对应的一个提示词，就是用户的一个输入，并生成对应的一个文本，那么我们用这个来访问一下，当然你这可以设置一些参数啊，那我这的话给它访问一下。那首先我们先看一下我们用哪些模型啊？呃，通过 omaha list 可以查看我现在拥有哪些模型，那么一个是千万三零点六 b，一个是 small，千万 latest 这三这两个模型，那我可以通过 omaha ps 来查看我当前运行了哪些模型。那么我由于我现在没有进行一个刚起服务，没有进行一个模型的一个载入，所以的话我这不需要做任何，呃，就我，我这没有任何模型的一个当前在运行的一个记录，那接下来我直接向这个欧拉玛，对呢千万零点零三零点六币发送对你的请求，那么欧拉玛内部的话，他要做的一件事情就是首先我要去加载这个模型吧，那我加载这个模型到我对应的一个显存吧，然后我进行基于这个模型进行一个回复吧。好，这时候我们再来看对应的一个欧拉玛。 ps，用这个命令查看当前正在运行的模型，你就可以看到我千万三零点六 b 这个模型已已经起起来了，并且我在我对应的一个啊显卡上面可以看到有千万三零点六 b 这个模型的一个显存的一个占用。当然这里要给大家提到的一点就是这里有个 processor，它里面显示是百分之一百 gpu，指的是当前我这个模型正在用百分之一百就是纯 gpu 加载的一个模式，那么这样速度是最快的。当然的话，有部分同学如果在使用过程中发现了一个问题，就是你自己是有有显卡的，但是这 processor 处理器这个地方，它显示的是百分之一百 cpu，那么这里可能会有一个一个原因在于什么？我给大家稍微写一下这百分之一百，有很多同学都会遇到这个问题，百分之一百 cpu，那如果你要那，那这里可能有两个原因。第一个原因是你的你的模型显存占用过大，就是你机器载不了这个显存，那欧拉玛会会自动将其用 cpu 加载，这是第一个原因就是你你当前这个模型啊，比如说我，我一个十六 g 的显卡，我现在要要去跑跑一个三十二 b 的模型，那我加载不下怎么办？那么欧拉玛会自动将加载不了这个显存，欧拉玛会自动将其用 cpu 进行一个加载，那是第一种情况，第二种情况是安装奥拉玛的时候用的是无卡模式，奥拉玛会自动适配 cpu，那如果你安装的是安装时，建议在有显卡的模式下进行安装，奥拉玛会自动适配 gpu，也就是说你这个安装过程中建议大家不要去省这个钱，就是以有卡的一个模式进行一个启动，那么欧莱玛在安装完成之后就会适配你的一个 g p u 显卡，那么后续你起一些小模型的时候，当你当你这个机器能载这个小模型的时候，那它就会以百分之一百 gpu 的一个形式进行一个加载。那如果你在无卡模式进行奥拉玛的安装的时候，奥拉玛由于适配的是 cpu，所以下一次你在启动奥拉玛模型的时候，它会自动在 cpu 上进行一个模型的一个启动，这里是一个小的 tricks，很多很多同学的话都会遇到。好，那我们言归正传，我们现在已经看到了一个，就是我去请求对应的一个千分三零点六 b 这个模型，那我现在改一下，我现在把这个模型改成一个，那我就我就这个这个请求直接改一下，那我现在把千分三零点六 b 改成我们的一个 small，哎，叫一个 small 千万 latest。好，我现在换了一个模型进行一个加载，那么我们现在再来看一下它，它对那个欧拉玛 ps，那么它你你会神奇的发现，当之前加载的那个模型欧拉玛三，呃，这个千万三零点六 b 这时候已经关闭了，那么现在当前正在服务的是一个 small 千万，这其实也是欧拉玛的一个优化，相当于说我在不使用这个模型的时候不进行一个加载，我只有在使用的时候我再进行一个加载，好吧，这就是一个，呃，绘画文本生成的这么一个接口，那我们看一下对应的一个第二个接口，是一个聊天接口，也就是一个对 chat 的一个接口，那么它的端点的话是也就是这个路由 api，这个路由的话是杠 api 杠 chat，那么它是其实支持一个多轮对话的模型，会记住上下文，当然这个多轮对话也是以传餐的一个方式进行一个传递的。好，我们看一下，就是，呃，现在有个情况就是，呃，我首先有两轮对话，就是你好，请介绍一下你自己，然后他说我是谷谷炮科技开发的 ai 助手，能唱歌跳舞，很高兴为您服务。然后我问你是谁开发的？注意我们现在用的这个模型是千万三零点六 b，是没有进行一个提示词引导的一个模型，它本身并不知道它是谷炮科技开发的，那我们看一下它的一个调用的一个情况。好，他回复了，他说我是古炮科技开发的 ai 助手，能唱歌跳舞，那这个是不是由于我的一个历史记忆啊？就是我在这由于阿斯斯坦的说了这句话，所以我再问的时候，那么他就能根据历史记忆来进行一个回答，那当然的话，这里可以你可以选择一个流势和和非流势进行一个对话，通过这个 stream 参数进行一个控制。呃，我试一下这个地方能不能用流逝来进行一个回复。好，那这个就是一个流逝回复。好，以 chunk 的一个形式就是流逝来进行一个回复，你可以通过一个流逝的一个接收的一个方式来进行一个文字流的一个推送。那我们现在再来看一下当前的一个模型的服务状态。好，我刚才从 small 千万这个模型，现在又切回到千万三零点六 b 这个模型了吧。好，那接下来我们看一下 orama 和 python sdk 的一个交互，那我这给大家写了一个文件，大家可以在这节课的一个课程目录下面找到这个文件，就是 orama 与 python 交互的这么一个文文件。那我先把，呃，我直接来执行吧。那，那首先就是一个还是一个文本生成，你你，你，如果要跟 python 交互的，首先你要 pip install 一下这个 alama 这个包，那安装完这个包之后再来执行下面一些代码。嗯，我看一下 promote，哎，这为什么 import alama 等于 alama 点 generate，哎，这为什么，哦？魔斗等于这个为什么跑不起来？好，可以了那，呃，我们看一下就是它第一个文本生成的一个 api 的话，就是 alama 点 generate 这个方法了，你就能够实现一个文本生成，它会自动去加载我们这个 alama 三零点六 b，这直接写对应那个模型名称就行了，那么你可以看到它生成的对应的一个结果，可以在对应的一个啊这里面 response 里面找到，你去解析对应个 response 的这个值，就可以拿到对应的一个模型正式的一个回复了。那么如果你是一个对话的一个模式，也就是我们刚才讲的一个命令行模式里面的一个 chat， chat 的一个接口的话，那么你就从 from alama import chat，然后 response 等于 chat，然后将 model 和对应那个 message 放在里边。当然这个 chat 模式它其实是支持单轮和多轮的，那么你可以看到就是运行之后，你通过 response 点 message，点 content 的方法，就可以将原来一坨东西里面去解析出对应的一个所要的一个文本，那么这个就是我们想要的一个东西，对吧？那如果你要做一个流式的一个响应的话，那么你可以通过一个 stream 的一个方式，就是 stream 等于 chat， model 等于这这个东西，然后不一样一点是 stream，你就要指定 chat 的这个函数，呃，这个函数方法里面的话， stream 要等于 true，也就流逝进行一个传递，那么流逝在传递过程中，它由于是以以文字快的一个方式逐个进行一个推送的，那前面我们也可以看到，看到在这个命令行工具里面也有演示，它是一块一块生成的，那么我是不是在一块一块推送给我的时候，我也要以一块一块的方式进行一个接收啊？所以的话，嗯，所以，哎，是这个是这个文件吗？哦，在这儿，那所以的话，我这写了一个 for chunk in stream，就相当于在这个流势里面，我去不断接收对应那个 chunk，然后把对应那个 chunk 通过一个 message 和 content，你或者你，你也可以是 chunk 点 message，点 content 也可以，那么将它这个文字形式给呃那个打印出来，然后不断追加的一个方式进行一个打印。那我们看一下效果呦，那它这这里就是一个典型的一个流逝输出，这个就跟我们在那个网页端用 deepsea 进行一个对话时候效果是一样的。那那接下来还有个就是要讲如何通过一个定义客户端的一个方式进行一个请求。那我们知道我们前面学过很多，就是关于一些大模型的一些调用里面，它有一个客户端，就叫做一个 open ai 的一个客户端，或者一个谷歌有自己的一个客户端，然后包括火山引擎，有火山引擎的一个客户端，那么如何定义一个客户端去连接我对应的一个请求呢？那么它也提供了相应的一些 api，那么它的一个方，一个定义客户端的一个方式，其实就是我 from alama import client，那我有了这个 client 以后，我要去创建一个客户端实力吧，那我创建完成这个客户端实力，我就可以不断的用客户端实力在后续代码中去调用一些接口进行一个访问吧，相当于客户端实力就是指定对应的一个。呃，我我的一个对应的一个服务是什么？然后我根据我当前的客户端实力可以不断地去调用后续的一个模型，好吧，那么它的一个客户端就是 client，然后指定你对应的一个，呃， alama 的一个服务地址 host 等于 local host，然后一四三四是 alama 服务的一个端口。那 header 的话，这个地方随便写什么内容，因为有有一些场景下的话， header 里面需要去传一些，呃，一些特殊的一些信息，供服务端和客户端之间之间进行一些信，一些加密啊，或者一些一些验证，那么可以在 headers 里面去做一些文章。那我们这个 case 里面的话，其实 headers 用不是用不到，所以的话 headers 里面传什么纸都可以。那么我我们指定这个 response 的话，就可以用我们先前定的 client，以通过 client 点 chat 这个方法去调用。因为我前面没有指定对应的模型，所以我要把 model 等于 small model。呃，我这个是叫 small model 吗？ model 应该是叫做 small 千，呃，我看一下我这个 model 名称叫什么？这 model 名称应该是叫做 small 千万 latest，那我就是应该是以 small 千万，我先把这个关关一下。好，我，我应该是 small 千万 latest 的一个方式进行一个调用吧，然后我指定对应那个 message 一个列表，那你这里可以是单轮的，也可以是多轮的。好，那么它这里就会进行一个呃，思考，然后，好的，请问我是谁？那么这里就会有个 think 的一个对，然后最终得出一个答案的话，呃，我是 google 科技开发的一个智能助手，那么专门为学生辅导相应的一些作业。那这个是不是因为我们前面定义了 small 就是千万零点六 b 一个 google 科技开发的一个 promote 嘛，包装出来一个模型嘛，那就这样就进行进行了个，进行了一个调用，那么你后续也可以连续对话过程中，你可以不断地去调用这个 client 点 chat 的这个方法，进行一个连续的一个对话。好，嗯，那前面讲的一些其实都是一个啊，同步的一个客户端，当然的话，我们在生产过程中，由于可能会用一些异步的方法来进行一个请求，那么同步和异步之间有一个什么区别呢？和大家稍微讲一下，那同步服务的话，又叫主设置，主设置服务，嗯，它的一个核心理念就是说当我的一个请求过来的时候，我一个请求过来的时候，一个 request 过来的时候，过来的时候，那么我的一个 server 端的话，我必须处理完成当前的一个 request 以后，就处理完了这个 request 以后，我我下一个 request 才能够被我的服务端所接纳，也就是我 request 一结束了之后，我 request 二才能进入到我的一个服务端进行一个处理。那么这样是不是用户量大的时候，它它这个流量就会被堵塞啊？就相当于我这个服务端，由于这个服务端要一个一个排队处理的话，那我我请求就得一个一个在后面排队啊。 request 二， request 三，那么这个就是一个同步服务，那与之相对呢，就是一个叫做异步服务。异步服务它的一个原理是这样的，就是当我一个 request 一在处理的在被 server 处理的时候，这时候还没有处理完，这时候我来了个 request 二，那我在 request 二进入 server 的一个过程中的话， server 能够先拉起先拉起一个县城进行并行处处理，那 request 三的来的时候，它又会新拉几个星县城进行并行处理。那么这样的一个模服务模式是不是效率会显著比同步模式一个处理完了以后，等第二个再处理效率高的多呀。好了，那异步就在做这么一件事，那么异步的话，所有的一个方法之间的话都都得是一个非主色式的，那这个同步服务又叫主色式，是服务，那么异步服务是一个非主色式服务，那么非主色服务服务的话，要用非主色服务的一些专有的一些写法。比如说在 python 中的一个非主色是服务的一个关键字，就是叫做 define，然后一个 function，那我们同步的定义函数的方法是 define function，以这样的一个模式，那么所有的一个过程的话都得是非主色的。因为在非主色式服务里面，方法之间的调用，如果存在一个一个方法是主色式的，那么整一个非主色式服务的一个体系将变成一个主色式服务。所以你要写一个非主色式服务的一个接口的时候，你要保证你所有的一些函数方法全部都是以非主色式服务进行一个定义的，包括这个 client 也要以非主测试服务的一个方式进行一个定义。那么非主测试服务的 client 怎么在 alama 中怎么定义呢？那你先 from alama import 对应那个叫 a s y n c client，这就是一个异步客户端，那么它是适用于一个需要并发的一个场景，好吧，然后你去定义一个异步的一个 chat 函数，那么这个 chat 函数的话，就是就 asy and c define 和 await 进行一个搭配的话，就主必须要有这个 await 来修饰它的一个主色，主色符就是主色过程，那么才能实现 asy and define 的一个功能，就这两个东西，它是搭配使用的，不能没有这个，没有这个的话你可以去执行一下，代码是是执行不了的，所以必须是 asy and c define 啊 wait 的一个方式，来实现一个异步的一个过程。那我们看一下异步客户来来调用的话，呃，哦， asy and c do wrong chat cannot call for a wrong event loop。那我们试一下直接进行一个调用呢？ await chat，嗯，我这里这个一个模型，这个模型不对，这个模型我得用一个 small 千万 latest 的这个模型换个模型。好，那我是不是通过 await 的 await 这个方法的一个形式，就能调用这个异步的一个函数，然后来实现一个异步的一个客户端的一个 chat 模式的一个推理？好，那这个是一个异步的一个流逝响应，那么我这里也改成一个 await chat 的一个方式，进行一个异步的一个流逝响应。当异步流逝响应的时候，他要接收的时候要 a， s， y， n， c four part in await 这个这个这个，然后再去请求一个流逝的过程。这这都一些固定的写法啊，也不用去记，反正就是到时候要用的时候直接直接 copy 过来就行了。好了，那包括就是 alama 的话，提供了一系列就是 python， s， d， k 和 alama 之间交互的一些其他的一些 api 接口。那么我这儿给大家总结了一下，有这些方法，包括这里面我就不一一执行了，我们简单看一下 chat 方法， generate 方法。前面讲过了，那 alama 点 list 的方法，可以看出所有可用的模型，那 alama 点 show 的一个方法，可以看模型的一个详细信息，那欧拉玛点 create 的一个方法的话，可以从现有模型创建新的一个模型，就类似于我们刚才看的一个创建 small 千万的这么一个过程，那给予一定的一个 system 的一个 promote，那包括一个欧拉玛的一个 copy 的一个过程，可以做一个模型的一个拷贝啊，删除模型是欧拉玛点 delete，然后从远处仓库拉取模型，欧拉玛点 pa，从本地呃模型推送到远程。哈，我说 alarm 点 push，然后生成文本嵌就 embedding 模型，那么就是 alarm 点 embedding 去加载对应的一个嵌文，比如这里当然是得是一个 embedding，得是一个 embedding model 啊，就 your embedding model，然后输入一个 input，它就能返回一个文本嵌入的个结果，那么正在查看的一个模型列表就是奥拉玛点一个 ps 好了，然后我们最后看一个就是 alama 的一个错误处理的一个机制，那么 alama s d k 会在失败请求或响应流逝传输出出现问题时候，然后抛出对应的一个错误。那么这个我们在生产时间过程中的话，你一定要有对应的错误处理机制，因为模型不能保证百，永远百分之一百工作正常，所以的话我们可以通通过一个 try x accept 的一个方式来捕获这些错误。那么举个例子，我们用 alama 点 chart 这个接口来来对话模型的时候，如果出现了一个错误的话，你可以用 alarm 的 response error 的一个方式，来来来，它定义在这个 response error 这这个这个方法里面，那么你可以打应对一个 e 点 arrow 的方法来打应对这个错误，并且如果发现一个是四零四的时候，那说明这个模型不存在，你要用 alama 点 po 方法来下载一些模型，那么这个其实就是在一些工程实践中的一些错误，处理的一些机制和方法。那这儿的话也就跟大家稍微提一嘴，那我们 alama 相关的一些代码的话，就先讲到这儿，大家可以去根据我的这份文件去练练一下。好啊，包括拇。那么怎么样使用 web ui 呢？那首先你要去安装一下 open web ui，但是这个 open web ui 这个包非常的大，所以建议大家在安装的过程中去加一个清华园，那就是这样能加快一个安装的一个过程。那么清华园是怎么啊？我们教你这里直接搜索一个清华园源头。好，那么你就可以去看到那个呃清华园的一个镜像的一个地址，那我把这个地址直接复制到我对应的一个呃教程里面。好，那你通过 alama pop pop web ui 的一个方式来下载 alama 对应的一个 web ui，那我这已经下载完了，这个这个这里面东西超多，要下下挺久的。下载完了以后，你可以通过 open web ui 啊，我这遮住了，然后 open web ui，然后 sir serve 启动这个服务，然后指定一个对应的你希望的一个端口来进行一个访问。那我这儿的话，比如说我这儿因为用的是企业版的一个 auto auto dl，所以的话啊，我是不需要去进行一个隧道访问，就可以进行一个外网的一个交互的。哎，哦，我，我这台机器没有装那个呃欧拉玛的一个 web ui，那么我们这我们这就不演示了，反正就是它，它是一个什么什么什么东西呢？给大家说说一下。就是你通过这款这款命令的话，就能启动这个 web ui，启动 web ui 以后的话，你你要去用你的一个名字和呃邮箱和密码去做做一个验证，那么验证完了以后的话，后续你就可以根据你的一个电子邮件和对应那个密码进行一个登录，那么登录完了之后的话，你会进入一个工作台，那这这个工作台里面会有你曾曾经在 orama 里面下载的一些模型，你可以在这个 orama 下载这些模型里面进行一些模型的一个切换和选择。那么你可以在这个这个地方的话，就是一个以一个对话的一个方式，就类似于 d 网页端 deepsea 对话的一个方式，跟沃拉玛内置的一些模型进行一个交互和对话，那大致就是这么一个功能啊，但我觉得这个功能其实没有太大的用处。好了，我们看一下欧拉玛它的一个优缺点及一个实用场景，那相信大家在用这个欧拉玛过程中的话，也发现了欧拉玛这个最大优点是什么呀？是不是方便啊？你，你现在要下载一个新的模型，我只要短短一行代码叫欧拉玛 run 这个模型的一个名称，这个模型就能够自动下载下来并且启动。然后我通过一些很简单的一些通用性的一些 api，那就比如说我这这些 api 我并不关注这个模型它它真正真正该如何进行的调用吧？那如果我到一个 github 上面，或者一些 hangageface 上面，那每个模型它可能调用的一些方法参数，呃，参数的一些配置可能多多少少是有些差异的吧。但是我如果我用欧拉玛来进行一个部署这个模型的话，第一我下载起来非常的方便，一个模一个一个模型名称就完事了。第二个的话，我这个模型格式相对是比较小的，因为我是我是一个 g g u f 的一个模型格式。第三个的话就是我下载完了以后，我可以用欧拉玛提供的一个统一这个 a p i 的一个范式进行一个推理吧。我不需要关注这个模型它它应该怎么样去定义，定义一些不同的一些参数的一些配置吧。那我我直接用欧拉玛提供的一个统一这个模式去调用所有这个模型吧。所以欧拉玛的话，它非常它它的一个适用场景就是方便，它适合于一些个人用户、小型项目或需要一些快速部署来看看这个模型能力的。这这个这个场景那么比较适合隐私保护和简单操作的一些应用。那么我直接部署一个，然后通过通过一个后台启动的一个方式将一个欧拉玛服务启动，然后我就可以直接跟欧拉玛破破下来的一些模型就拉到我对应那个本地的模型仓库，这些模型进行一些接口上的一些一些少流量的一个交互就完事了。这就是一个奥拉玛的一个优点。那么缺点是什么呢？那缺点在于啊，欧拉玛相相对于一些其他的一些高效推理的一些框架，比如说我们后面会讲的一些 v l l m，还有 s g long 这样的一个推理框架的话，它在一个高并发和大规模部署方面的话，其实是表现比较差的啊？表现，表现比较差，因为它不是一个用来做企业级部署的一个框架，企业级的话不可能用 orama 来进行一个部署的，它更多的就是用一个个人的一个验证，好吧？
29AI大模型
02:11
Hermes EP06：本地部署AI模型你还在花钱调用AI API吗？教你把大模型装到自己电脑上，零成本、完全离线、数据不出本机。分三步：装Ollama、选模型、接Hermes。 #HermesAgent #AI智能体 #Ollama #本地模型 #离线AI #AI工具 #效率工具
查看AI文稿
AI文稿
你还在花钱调用 ai api 吗？今天教你一个省钱又安全的方案，把大模型装到自己电脑上，零成本，完全离线，数据不出本机，我是怎么做的？分三步，第一步，装奥利码 aluma，是目前最方便的本地模型运行工具，去官网下载安装好了，打开终端，输入 aluma surf，本地推理服务就跑起来了，就这么简单。第二步，选模型，中文用 crm 二点五，阿里的开源模型，中文理解能力强，英文用 luma 三点二， mate 出的清亮高效，下载命令就一行。模型存在本地不用每次都下七 b 的模型，大概四 g 显存就能跑。电脑配置低的话，选三 b 的版本也够用。第三步，接 hermes，打开配置文件，把模型提供者改成 open a 兼容模式，地址指向本地一万一千四百三十四端口 model 填你下载的模型名字， api、 key 随便填，反正不走网络，保存重启搞定。现在你可以在本地跟 ai 对话了，写代码、写文档，翻译、总结日常任务完全没问题。几个实用建议，内存只有八 g 的话，用三 b 模型，加上上下文长度限制，防止爆内存，有独立显卡更好，奥尔曼会自动用 gpu，速度能快五到十倍。什么场景适合本地部署？出差断网、公司内网数据敏感，不能外传这三种情况，本地模型就是刚需。当然也要说实话，本地模型比不上 g、 p、 t 四级别的云端模型，复杂的逻辑推理多，不规划，还是云端更强，但日常办公代码辅助本地完全够用，而且免费。关注加收藏，下期教你在生产环境怎么部署得更稳！
4Vaynes
02:52
谷歌Gemma 4本地部署｜三步零成本跑AI模型🚀 谷歌最新开源模型 Gemma 4 来了！
🛠️ 三步搞定部署：
1️⃣ 安装 Ollama（Mac/Windows 一行命令）
2️⃣ ollama run gemma4:26b（自动下载）
3️⃣ 开始聊天，看到回复就成功了#Gemma4 #谷歌AI #本地部署 #Ollama #开源模型 #AI教程 #零成本 #大模型 #保姆级教程 #人工智能
查看AI文稿
AI文稿
谷歌最新开源模型 gemma 四，用 app 七二点零协议开源商用模改都没问题，今天教你三步，把它装进自己电脑里，从此跑模型不花一分钱。 gemma 四有四个版本， e two b 二十三亿，参数四 g b 内存就能跑，只缺图片和音频输入，手机都能带动。 e 四 b 四十五亿，参数六 g b 内存，适合日常聊天。二十六 b 是混合专家架构，总参数二百五十二亿，但每次只激活三十八亿。十八 g b 内存性价比最高。三十一 b 满血版三百零七亿，参数全激活，跑分最猛数学推理八十九点二，编程能力八十百三、一句话总结四 g b 跑一 two b 六 g b 跑一四 b 十八 g b 跑二十六 b 二十 g b 以上跑三十一 b 第一步，安装欧拉玛 mac 用户去官网下载或者用 homebrew 安装， windows 用户打开 powershell 一行命令搞定。欧拉玛是目前跑本地模型最简单的工具，模型下载推理引擎 api 服务全包了。第二步，拉取模型，打开终端，输入欧拉玛瑙，加上你选的模型版本，比如 gemma 四、二十六 b，欧拉玛会自动下载并启动对话。第三步，开始聊天，下载完成直接进入对话界面问一句，看到回答就成功了。三步搞定几个加速技巧 mac 用户欧拉玛最新版会自动使用苹果 m l x 框架，推理速度翻倍。 n d d 用户欧拉玛零点一九，支持 nv f p 四格式用更少显存跑模型 r t x 四十合系以上自动生效。最后附上常用命令，欧拉玛 list 查看已下载模型 olama ps，查看运行状态 olama stop 释放内存总结一下， gemma 四是目前最值得本地部署的开源模型之一，阿帕奇二点零协议 olama 三部安装，根据内存选版本就行。赶紧试试吧，免费的 ai 不用白不用。
344猫哥软件生意

热门推荐

热门分类