提速20%！本地大模型的正确打开方式 ollama、lm studio和其他任何相似的工具其背后都是llama cpp。所以我们为什么不直接运行llama cpp呢？通过剥离额外的抽象层，我们可以立马获得20%的提速！#普通人学ai #零基础学ai #实用ai工具 #本地部署大模型 #ai工具使用

本地大模型cuda加速在哪开启

499

73

549

75

举报

发布时间：2026-05-29 10:24

查看AI文稿

粉丝3478获赞1.9万

相关视频

08:21
llama.cpp本地部署 llama.cpp本地部署&集成Qwen3.6大模型-效率起飞 #comfyui #ComfyUI教程 #llama #qwen
查看AI文稿
AI文稿
大伙好啊，今个呢，我们聊一下如何在本地哈部署这个拉玛 c p p，那么它的作用是什么呢？各位，先说一下啊，它能让我们在本地哈运行啊这个语言类推理的大模型。那么为什么要在本地部署呢？有几个情况哈？第一个呢，就是最近哈，呃，这个网上都说这个豆瓣要收费了啊，对吧？呃，收费之后呢，有一些功能，可能我们正常用的挺好，再用可能就要付费了，对吧？然后再有一个是什么呢？就是我们如果在做项目的时候啊，比如说有一些东西涉密了，不方便在网上传，对吧？这个时候我们就需要在本地，是吧？构建自己的这个资源库，对吧？各位，那么这个时候我们就需要在本地有一个可以类似于像豆包啊，这个 deepsea 啊这种的服务类大模型，对吧？所以呢，今天我们聊一下如何在本地哈部署这个拉玛 c p p，它呢实际的作用就是可以让我们在本地哈运行啊这个语言推理类的这个大模型，大家看啊，现在我已经部署好了，非常简单哈。那么再有一个情况是什么呢？各位，我们有一个自己的这么一个批量管理软件，是吧？目前有一个环节就是题词词的来源目前很严重的依赖于我们外部的这个呃， ai 工具，对吧？现在呢，我们如果在本地已经构建了一个可以用来进行语言推理，生成对应任务的这么一个大模型之后呢，各位大家看啊，我们就可以把这个东西直接集成到这个平台当中，是吧？提着此这一块，我们就最后一个环节就已经集成到这个行当中了，这个就是后续啊，就是大概是四点一之后是吧？呃，继续优化的一个功能，大家先知道这么个事就行了啊，再有一个是什么呢？目前千万三点六是吧？这个三十五币出来了，然后呢，号称是一个能干活的大模型，对吧？各位，那么我们把它在本地运行来之后呢？第一可以构建自己的私有资源库是吧？更安全，第二呢效率更高，对吧？各位，那么话说回来啊，怎么去部署这个拉玛 c p 啊，它其实就是一个能让我们运行这个语言推理类模型的这么一个工具啊。不大，我们首先来到这个 github 哈，这个网址，好吧，这个网址哈，然后来到这里之后，各位，简单的一种方式哈，我们找到右侧这个 release，好吧，找到这个 release，然后往下翻哈，这里边有对应的版本，那我是 windows 系统，我们往下翻啊，这里边有一个 windows，好吧，在这里哈，各位，呃，我是酷达十二的，所以呢，我就找这个酷达十二哈，找这个酷大十二，大家根据自己的情况啊，显卡情况去选择好吗？有很多这个类型，大家根据自己的情况选择就行了，那么我选择酷大十二，然后把它下载到本地之后，大家看好，我把它下载到本地之后进行解压，解压完了之后大家看进入到这个文件夹当中，这个就是项目下载之后的效果，好吧，不大哈，大概是看一下啊，五百多兆，好吧，不大哈，然后呢，别着急启动，各位，我们启动的时候呢，可能要需要设置一下参数，怎么去办呢？大家看，进入到这个 lama 啊，解压之后的这个文件夹，然后注意新建一个文件，比如说我叫 start 啊，我已经有这个 start 了，那我就 start new，新建一个文件，然后大家注意把这个后缀名啊，各位，把后缀名啊改成点 byte，好吧，有些同学这个小那个小伙伴的电脑可能这个看不到后缀名，是吧？这个很简单，我们打开这个文件夹之后，这上面有一个查看，大家点击查看，点击显示后边有一个文件扩展名，就是文件后缀名，你把它点上之后就能看见了啊，也能修改了。那我们新建这么一个 bug 启动文件之后呢？大家看啊，我把我之前这个打开，大家看在里边输入这么一句话啊，比如说这个是拉马，搜索这个拉马的这个文件啊，调用谁呢？大家看啊，这里边有一个这个，好吧，拉玛告诉搜索点 e s e，实际上就是调用它哈，然后后边杠杠 host 四个零好吗？它指的是开放远程调用，因为我们后期啊，各位，后期要把它集成到这个批量管理软件当中，我们需要通过这个软件远程去调用啊，这个拉玛 c p p 好吗？各位，所以这个位置我们给它开放远程调用，后边 pos 端口八零八零，大家看啊，就这个端口，根据自己情况设置就行，好吧，自己设置一个端口啊，然后后边杠杠 models 杠 d i r，它指的是我们的大模型存放的文件夹地址好吗？比如说我存在 cf ui 的这个 l l m 目录当中了，那我就找到哈这个 cf ui 找一下啊，找到 comui，然后找到它的这个 models，找到 l l m，把这个上面地址复制一下，粘到这里边就行，好吗？这样呢，我们这个启动文件就配置完成了，很简单，对吧？各位？然后呢，大家看啊，翻回头来，来到这个启动项，好吧，来到这个 lama 的这个解压文件夹目录，找到我们刚才设置的这个 star 的启动文件，好吧，里边的内容刚才展示过了啊，开放远程端口，设置模型存放的目录，然后前面是调用的这个 lama server，然后双击一下打开，双击完之后啊，这个老板就启动了，他默认的啊，启动端口啊，是刚才我们配置的那个八零八零，对吧？然后呢，我也，我之前已经启动过了，翻回头来，我们在网址上输入，幺二七点零点零啊，多了一个点啊，幺七点零点零点一，然后冒号，英文的冒号八零八零，大家看，这样呢，我们就把这个网页打开了，大家看，其实他就是个小豆包哈，他的这个能力跟你选的大模型有关，那么我选的是千问三点六啊，目前号称能干活的大模型，好吧，一会说这个事啊，然后呢，我们点第一次，我们可以点击加载一下这个模型，然后输入你好，是吧，他就进行推理了，然后给我们这个答案，这个模型确实能干活啊，各位，大家看啊，这个是我之前用这个千分三点六，然后拉拉本地部署的这个呃软件哈，然后呢，生成了一个贪吃蛇的这么一个小游戏，里边大概七百多行代码，我就告诉给我生成一个网页版贪吃蛇啊，大家看，双击完之后，这个游戏还挺好玩的啊，效果还不错的啊，好吗？好了，不解释啊，就是挺好玩的哈，然后千万三点六的模型在哪里下呢？大家看，我这里有一个网址，这是国内的网址哈，大家看，根据大家的显存实际情况去下载对应版本就行了。那我是二十四 g 显存，所以呢，我下的是这个 q 四 k m 的二十二 g，好吧，大家尽量啊，下载这个模型小于大家的这个显卡的显存，因为什么呢啊，就算大点也没事啊，比如说你十六 g 显卡，然后你下个十八 g 的模型，实际上也没事，它会把一半啊，它会把一部分资源放在内存当中啊，但是各位用这种模型啊，大家看啊，这有一个 token 的输出速度好吗？就是它运行，你可以把它理解为运行的效率啊，有一半资源在显存啊，在内存当中，这样会拖慢你的运行效率，但是它也能运行，就算你没有这个显存，纯靠 cpu，它也能运行，就是奇慢啊。各位，这种模型大家注意啊，还是注意下效率的，所以我们把这个模型都加载到显存当中，这样的运行效率是最高的啊，大家做这么个事就行了啊，尽可能的选择这个模型小于你的真实显存占用，是吧，这个千分三点六，三十五 b a，三 b 指的是三十五 b 的参数，但是真啊，一次使用的时候只激活三 b，对吧，但是你也需要把这三十五 b 参数加载到显存当中啊，然后一次用里边的三 b，对吧，这样的效果是最快的。好吧，各位大家说这么个事就行了啊，然后呢，其实呢，大家不止可以下载这个千问三点六号，也可以下载其他的推理大模型，放到对应的目录当中，是吧？在这里大家看啊，在这个位置我们是可以选模型的，我之前还有千问三点五号。好吧，各位大家知道这句话啊，知道这么个事就行了，那么部署完，启动完之后，就可以跟它进行对话，然后完成任务了哈，然后呢，这个不是重点啊，因为我们刚才开放了 api 的远程调用，对吧？大家看啊，就是以后怎么把它集成到这个软件当中呢？大家可以看一下啊，现在我模型是加载的，我给大家演示一下啊，这里边我写了两个 api 啊，第一个是卸载模型，是吧？就是我可以通过远程调用去控制这个软件加载或者卸载模型，大家看好好 success，然后我们看一下显纯一下就下来了，这样呢，我们就完成了模型的卸载，对吧？然后下边这个是加载模型，大家看是吧？加载成功之后，显示一下就上来了，对吧？证明这个远程调用是可以的，那么我们就可以通过远程调用的形式啊，把内容发送给这个软件，然后得到结果之后，是吧？然后我们把结果配合的使用到对应的软件当中去，是吧？就完成了调用。好吧，这个只是一个初探啊，各位，这个只是个初探，大家学会安装，学会下载模型，然后把它启动起来就行。好吧，后续我们会有深入的这个使用教程啊。然后呢，视频当中说的一些使用细节，包括网址啊，包括这个启动文件怎么配置啊？大家可以来到主页哈，找到对应的视频，在视频下方大家可以查看一下。
81绘世玩家
02:48
cuda无法正确启动加速原因大概在这里环境变量虽然全网都有教程，但是亲身尝试了之后才发现很多的教程都是不完善的
#cuda #英伟达 #nvidia #ai大模型 #电脑知识
查看AI文稿
AI文稿
经常玩 i i 软件的，玩那种什么本地部署那些大型软件好，本地模型的人应该能注意到，因为它显卡那个库大加速嘛，有的软件它好像能识别到库大配置加速，有的好像不能。这个肯定跟软件有关系啊，或者有的软件它不识别太新版本的库大。但是呢，还有一个细节可能大多数人都忽略，就是说你的配置可能是不正确的，虽说网上很多那些教程都有啊，怎么配置库大加速，但是我也是测试过，我电脑我才现现一些可能没人讲的那些细节，我今天找到了，就说这就导致我有的软件能启动库大加速，有的不能。我先说答案，也就是环境变量那里，当时我是照了网上那种一步配置，但是没想到还有漏网之余没配置到。上面的用户变量是不用管的。主要这几条啊，这两条一定是要有啊，这个对应你的库大版本号，还有一个是这个系统变量，系统变量就这八条，缺一不可。 coden 的环境变量和库达的环境变量都要有，而且要指向版本号。对的，然后就主要是后面这里八条缺一不可。不确认很难正常跑动起来。哎，我是怎么发现呢？嗯，我是靠一个工具发现的。嗯，我查查扩大环境测试工具，如果你扩大配置正常的话，它 gpu 显存是利用率很高的。然后呢，测试过程那也控制在二十秒内啊，给你们测试一下呀。我已经跑起来了，正确结果就是这样子，十二秒，这样子十一秒，十秒左右就说明你库大配置正确，就是这个工具作者我忘记哪里弄的了，这里去找就可以了，就这样。
28高老庄话事人
07:51
Intel显卡跑大模型比NVIDIA还香？零成本搞定✅ 云服务器太贵？Intel显卡也能流畅跑大模型！🚀 CPU+GPU+NPU三位一体加速，9款模型已验证，开放API接口。点击观看完整教程，获取一键安装脚本！#AI工具 #技术分享 #开发者 #技术教程 #程序员
粉丝动态：Intel显卡跑大模型教程来了！🔥 零成本高性能，速看→
#开源项目 #Inter #本地部署 #云服务器太贵 #大模型
查看AI文稿
AI文稿
大家好，我是大叔，只说真话，只做实在事，只给干货。大家好，你是不是也遇到过这样的情况，手上只有英特尔显卡，想跑大模型却被告知必须用 nvidia。但我想告诉你一个真相，英特尔显卡不仅能跑，还能跑得流畅，甚至在某些场景下表现比 nvidia 显卡还要好。别急，今天这个教程就是为你准备的。我先告诉你结论，你的 intel core ultra 处理器加上 openvno 就能实现高性能本地 ai 推理，不需要购买昂贵的 nvidia 显卡。这次教程含盖三个核心亮点， c p u g p u n p u 三位一体加速，以验证九款以上模型支持开放 api 接口调用。咱们直接看内容，你是不是遇到这样的问题，手上只有英特级成显卡或 arc 独显，没有 nvidia gpu 响本地部署大模型，但不知道用什么工具能正常运行，需要开放 api 接口给其他应用调用，但不想花几万块买显卡，想体验 openclock 龙虾助手 hermes zion 的爱马仕智能体，担心硬套显卡性能不够，跑不动大模型，使用云服务 a p i 费用高昂，每月几百上千的成本难以承受。如果有以上任何一个问题，请继续往下看，今天这个教程就是为你准备的。解决方案是什么呢？ open vino 后端辣妈到 c p p 加上 open vino 等于完美组合，让 intel cpu、 gpu、 npu 都能流畅运行大模型支持 api 接口开放，轻松集成到你的应用中。它有四个核心优势， one、 intel gpu 加速集成显卡和 arc 独显都能用，无需 nvidia 2 npu 低功耗 core ultra 系列专属 ai 加速器，省电高效。三、 rest api 开放标准接口如下，应用直接调用四、零额外成本，利用现有硬件，无需购买昂贵显卡。还有一个重要特点，同一份 g g f 模型文件， cpu、 gpu、 npu 无缝切换，无需转换格式，它是如何实现的？第一，智能图转换，将 g g m l 计算图自动翻译为 open vivo 格式，识别输入输出权重和缓存。第二，翻译后极速运行，首次运行会翻译模型并缓存，后续推理速度提升三到五倍。第三，算指融合优化，自动合并相邻计算步骤，减少内存访问效率更高。第四，硬件专属优化，针对 cpu、 gpu、 npu 不同特性，自动选择最佳执行策略。第五，多种量化精度，支持 q 四、 q 五、 q 六、 q 八等格式，平衡速度与质量显存。第六，设备无缝切换，同一份 g g 二 f 模型文件， cpu、 gpu、 npu 一键切换，无需转换。简单来说， openwin 就像一个智能翻译官，把你的大模型翻译成 intel 硬件能听懂的语言，然后针对你的 cpu、 gpu 或 npu 进行深度优化，让推理速度大幅提升。安装方式有三种可选，根据你的需求选择最适合的方式。第一种，一键脚本，推荐，最简单自动下载翻译配置支持 windows、 mac os、 linux，如如果有需要，评论区留言获取脚本。第二种，多客容器很干净，无需配置环境隔离运行不污染系统，适合服务器部署。第三种，手动翻译，很灵活，完全自定义，适合开发者调试。下面详细介绍步骤，手动翻译只需五到十分钟，接下来我们详细讲解手动翻译的三个步骤。第一步，克隆仓库执行命令， gitcon，后面跟着开源代码，仓库地址，由于平台限制，完整链接无法显示，需要完整地址请在评论区留言，然后进入 lama 到 cpp 目录。第二步，编辑 openvino 版本。如果是 linux 系统，先执行 source 命令，加载 openvino 环境变量，然后执行 cmake 命令，指定构建目录和 nintia 生成器，开启 openvino，支持，最后执行 cmake build 命令，进行并行编译。如果是 windows 系统，在 exo，在 native tools command prompt 中执行同样的 cmake 命令，注意路径分幅，使用反斜杠。如果是 macos 系统，先用 blue 安装 openvino，然后执行 cmake 命令进行编译。第三步，下载测试模型，创建 model os 目录，从 huggingface 下载测试模型文件到 models 目录，由于平台限制，完整地址无法显示，需要下载地址请在评论区留言，翻译完成，现在可以开始使用了。为什么选择 docker？无需配置环境，一键启动，隔离运行，不污染系统，特别适合服务器部署和快速体验。步骤一，构建 docker 镜像清亮 call 命令，指定 target 为 light，标签为 lama puma collin light 使用 open veneno 点 docker file 发来文件。 server veneno dpi 版本，开放接口执行 docker 命令，指定 target 为 server，标签为 luma pen veneno server。 gpu 容器运行，执行 docker run 命令，挂在 models 目录，映射 gpu 设备设置环境变量接 gml。 open veneno device 为 gpu 起拥有状态执行运行 luma pen veneno light 镜像指定上下文长度一千零二十四模型路径 n p u 容器运行，执行 doker run 命令，挂在 models 目录，映设 excel 设备设计环境变量 g g m l ompenvenor 的 device 为 n p u 运行 lompenvenor colonlight 镜像，指定上下文长度五百一十二。模型路径 server api 模式，开放接口，启动 rest api 服务，执行 docker run 命令。映设端口八零八零挂在 models 目录，运行 low open veno colon server 镜像测试 api 调用，执行 call 命令，向本地服务发送 post 请求，由于平台限制，完整地址无法显示，需要完整命令，请在频讯区留言。设置 content type 为 application json，发送包含用户消息的 json 数据。高清儿注意事项，需要预先下载模型到 models 目录。 gpu 或 npu 需要印刷设备文件。 server 模式仅支持单绘画多种运行方式。 gpu 加速模式推荐，日常使用性能最佳，响应最快。设置环境变量 ggml openvio device 为 gpu dot npu 低功耗模式，适合笔记本，省电、高效、续航更长，需限制上下文长度为五百亿二十二。 server api 模式，开放接口 rest api 服务如下，应用直接调用 gpu 加速模式推荐设置环境变量 g g m l open vein device 为 gpu 设置环境变量 g g m l open vein state for execution 为一。运行对话模式，执行 l m c l 命令。指定模型路径上下文长度一千零二十四。 serve api 模式，开放接口，启动 rest api 服务，执行 llama server 命令。指定模型路径端口八零八零上下文长度一千零二十四。测试 api 调用执行客肉命令，向本地服务发送 pos 请求，由于平台限制，完整地址无法显示，需要完整命令，请在评论区留言。简化配置技巧，将环境变量写入八十二 c 或系统环境变量，避免每次手动设置遇到问题，如何解决？第一个问题， gpu 无状态执行失败现象是推理报错或崩溃。解决方法是设置环境变量 g g m l open window stay for ex execution 为一。第二个问题， n p u 内存溢出现象是上下文太大导致失败。解决方法是限制上下文长度为五百一十二或更小。第三个问题，首次运行慢，原因是模型变异需要时间，这是正常的，后续运行会非常快。第四个问题，多 g p u 选择方法是使用 g p u 点零或 g p u 点一指定设备铁技巧技巧查看详细日制级别三、执行 l m c l e 命令，加上 l v 三参数起用性能分析设置环境变量 g g m l open veno profiling 为一导出计算图用于调试设置环境变量 g g m l open veno dumbed up siggraph 为一。核心要点总结，你现在可以医用 intel 显卡流畅运行大模型，无需 nvidia two 开放 api 接口如下，应用直接调用三零额外成本利用现有硬件。四、部署 openclhermes agent 等智能体。五、 cpu gpu npu 灵活切换，按需选择推荐场景日常对话用 gpu 模式，低功耗用 npu 模式，大批量用 cpu 模式。关键命令 ggml opengeno device 等于 gpu 到 ggml opengeno stateful execution 等于一、上下文长度控制用 c 参数我准备了 windows、 mac、 linux 三个平台的一键安装脚本，有需要的在评论区留言获取一键脚本。如果这个教程对你有帮助，欢迎点赞收藏评论，分享你的使用体验。我是大叔大，专注研究 ai acent 与大模型应用，感谢观看，咱们下期再见。
66大书大
05:05
Claudecode如何接入本地大模型 claude接入本地千问/gemma本地大模型，保姆级教程。
#claude #本地大模型 #ai #大模型
查看AI文稿
AI文稿
现在有很多朋友问我就是 cologold 怎么样接入本地的大模型？今天给大家说一下本地大模型是怎么接入的？然后有两种的方式，第一种方式是通过 cc switch，这个之前的视频也给大家说过 cc switch 怎么使用的。然后第二种方式就是我们通过欧莱玛装了本地大模型之后，直接呃对接我们的，通过 setting jason 的文件直接对接我们的 cologold 的文件。先说第一种方式，通过 cc switch 来对接本地大模型，我这边的 cc switch，因为我之前是通过对接了三种方式，第一个是我是用了 deep seek 的 deep seek，然后第二个就是用了字节的火山方舟 coding plan，然后第三呃那个 cloud official 我没用，因为我没买它官方的 a p i。然后第四个就是本机的 alama 模型，我也安装了这三种方式都跑通了。先一一给大家说一下，呃，先说怎么样对接本地大模型吗？然后本地大模型其实非常简单，就是大家在这边添加一个新的供应商，然后新的供应商之后，这里面的填写方式像我这样填就可以了，就比如呃我们的供应商名称随便填一个欧拉玛，然后这边呃上面的标志也可以随便选一个，因为我这边随便选一个，他就是欧拉玛。然后呃官网的链接，因为我们欧拉玛是本地的模型，这边是填空的，什么都不用填，这个 api k 的话也不用不需要随便填，大家只要填欧拉玛就行了，你随便设置一个就行了。然后另外就这边比较关键，这边就是需要填写一个本地的端口，然后这个端口是什么意思呢？也给大家说一下。它这个 http 就是指的是本地服务，然后 local house 就是我们自己的电脑嘛，它始终指向我们本地的 ip，一二七点零点零点零点零一嘛，然后这个一一一四三四，它就相当于我们本地的端口号嘛，就是我们奥拉玛呃，本地运营大，本地大模型的工具，它是默认这个端口的，所以就是当我们安装奥拉玛之后，会提供一个 api 服务来监听这个端口，所以我们这边要设置呃，在 cc switch 里面要设置这个东西，就它的是请求地址，这个就是像这样原声的填就可以了，认证自盾也是这个。然后另外这个这边模型的话，就是我们本地安装的模型，你要看一下我们本地安装了哪些模型，比如我这边就是运行了奥拉玛里斯，这边可以看一下，比如运行这个，他这边就我我之前安装了四个模型啊，就是千问三点五九 b 的千问斯，呃，伽马寺那个 e 四 b，然后还有干妈四三十一 b 以及干妈四 e two b。因为我的只有一个独立显卡，就是八 g 的显存，所以我只能一般是用切分三点五和 e two b 的。然后这边的设置就是直接把你需要设置的模型，比如复制两过来就行了，然后底下这个东西就会自动生效，保存好之后就行了，然后我这边就会在使用中给大家看一下效果。我这边就刚问他们，我是他什么大模型，他其实就是干妈四 deep 呃，谷歌 deep money 的，然后我们可以切换模型的，就是我刚这边安装了是千万三三点五九币和干妈四 e two b 嘛，然后这边就可以选择嘛，你可以选择不同的模型，我这边就可以切换到切切换三点五九 b 这边之所以能切换是因为我这边只设置了这两个模型，你看只设置这个，当然我这个也可以设置一四那个一一一 four b 都可以，这是本地大棚型的设置，这是呃，我觉得通过 c c c v 是最方便的，我们也可以切换到 deepsea，我这边切换到 deepsea，然后就可以很方便的从本地切换到云端了。我就说你好，它这边是因为呃切换模型之后需要重启一下 cloud，我们重启一下就行。比如我这边重启一下，它就会呃启用我们的 dips pro，很方便的一键切换。然后这个前面就是我之前装的 cloud mail 那个插件，就它每次启动它都会查取呃最近五十次的通话内容，就是回忆一下我们之前的那个记忆，这个我就记个记忆插件，非常好用，它是自动自动启动的，然后它上面有你的新增功能啊，还是重构啊，还是改变，它都会给你标出来你之前做了什么样的东西。我觉得这个非常好用，然后比如它当前它就会告诉呃 vr obv observation 在这个端口就相当于在这个端口，这就跟我们刚刚那个呃奥奥拉玛端口不一样了。然后给大家说一下，就是呃关其他的大模型厂商他们的 apis 怎么对接的，其实也很简单，就是我们的 a，我拿 deepsea 举个例子，这边顺便说一下，比如 deepsea 这边，他的 u i 只需要填 u i l 啊，就是我们的 u i l 就是 open i 或者 osrogic，因为 cloud code osrogic 吗？我们只需要复制这个链接，把它填到这就行。然后 apikey 就是我们自己设置的，这边主模型的话就是 v s pro flash 三点二、三点三点二都可以，因为马，因为那个三点二后面不是要七月二十号要弃用了吗？就是之前的 chat 和 reason，一个是 syncing，一个 on syncing 的模式，在里面 ipikey 只要设置一下就行了。然后还有一种方式就是通过线上的，这个我觉得是同样的道理啊，大家就是相当于之前的那个接收文档，就是它这边也会写好的，就是主要就是这个，呃，这个 anastropic base u i l 给它填好就行了。然后这个这个 token 也是随便填的。然后这个模型就是我们刚设置的那些模型，其实是一个道理，这边就不细说了。
168马斯洛AI智能体
02:46
vllm,企业级大模型本地化部署，比ollama更快，支持多卡多并发，就是部署过程复杂，一定要看文档。
#ai #vllm #大模型 #本地部署
201小闲修AI
05:03
告别付费 API ！Ollama本地模型+OpenClaw 零基础本地部署 Ollama 教程！Windows/Mac/Linux 全平台，5 分钟安装、一键拉取 Qwen/Llama3/DeepSeek 等模型，附 OpenClaw 对接配置，本地 API 永久免费、数据安全，多 Agent 开发必备！#OpenClaw #AI #Agent #Ollama #Hermes
查看AI文稿
AI文稿
你的 openclaw 和 hermes 还在花钱调用大模型的 a p i 吗？今天我教你用零成本本地部署奥拉玛，在你的电脑上直接跑大模型，还能无缝对接 openclaw 和 hermes，实现免费玩 ai 智能题工具。首先介绍一下欧拉玛，什么是欧拉玛呢？欧拉玛是目前最简单的本地模型工具，在 windows、 mac 和 linux 上都支持，几分钟就能装好，八 g 内存就能跑。当然了，还是建议最少要安装十六 g 内存，这样体验起来更加流畅。如果有英伟达的显卡，还能够使用 g p u 加速。了解完了欧拉玛是什么之后，我们来看一下欧拉玛如何安装。首先我们要访问欧拉玛的官网欧拉玛点 com，它的首页是一个羊驼抱着一个龙虾，下面的英文是 power open claw with ollama，中文的意思就是使用 ollama 为龙虾赋能，从这一点我们就能看出它是全面的拥抱和支持 open claw 了。这也是为什么今天我要在 open claw 的专栏里专门做一期 ollama 视频的原因。废话不多说了，首先要下载欧拉玛，点击右上角的 download，这里我们可以看到它有 mac os、 linux， windows 的下载方式自动已经给我们定位到了 windows，点击这个黑色的 download for windows 按钮，就会弹出下载框，点击另存为保存，有点大，两个 g，这个网速非常感人，所以我建议大家用迅雷来下载。我们已经下载完了欧拉玛的这个安装包，下面我们就开始安装欧拉玛的安装有一个问题，就是它没有让你选择需要安装的文件夹这个选项，它默认是安装到我们的 c 盘 user 底下的，如果你想安装到指定的文件夹，那你需要换一种方式，我们先把这个安装过程停止。我们找到拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇拇斜杠 d i r 等于这里写上我们的安装地址，也就是记盘的欧拉玛文件夹。打回车就跳出来安装界面，我们点击安装，大家可以看这里已经安装到记盘的欧拉玛这个文件夹下面。进了这个界面，就代表着欧拉玛已经成功安装并且启动了。安装好了欧拉玛，我们再来看如何下载模型。在欧拉玛的网站上点击这个 models，就可以进入模型列表，这里都是可以使用欧拉玛直接下载使用的模型。我们来找一下谷歌的 jam 四，这个是最近小模型中比较好的，可以通过这一句欧拉玛 ram 四来进行下载。输入奥拉玛 ram 捷摩斯回车运行。安装完了，我们来跟他说一句话试试。我们在这里输入一个，你好打个回车。好的，扎马四已经回复了我们，虽然有点慢，但那是我电脑性能的问题。大家可以看到现在已经成功地让大模型在我们的电脑上运行起来了。再下一步我们就来看如何把欧拉玛接入到 open cloud 中。 ctrl d，我们来退出欧拉玛，然后输入 openclaw config，进入 openclaw 的设置，这个我们直接选择本地运行，这个我们选择第二个 model，打回车进入，然后我们要在这里找欧拉玛，这个就是欧拉玛提示我们欧拉玛不可用。我们来重新编辑一下 openclaw 的配置文件。 openclaw 的 jason，这个就是 openclaw 的配置文件。我们来找一下 allow 这一项，这里就是扩展的 allow 这一项，我们要在这里添加上 alama。我们来运行 openclaw config 来设置 openclaw 的大模型。选择默认的本地模式，这个我们选择第二项 model，就是设置模型，这个是选择模型的提供商，我们来找一下 alama，这个是询问我们选择云服务还是本地模式。我们选择最后一个本地模式，这个是欧拉玛默认的 b、 c、 l。回车，这个是有哪些可用的模型？只有一个，我们按空格选中回车确认提示，我们已经把模型信息写入了配置文件，我们退出。我们回到 open 可乐，这里是我们问了 openclaw 一句你使用的什么模型，他们回，他回答，我使用的是谷歌的伽马四。我们这次的 olamata 下载安装以及安装模型，以及如何在 openclaw 中使用 olamata 模型。到这里就结束了，关注，我每次都给大家带来一个 ai 的新知识，感谢大家的观看，再见。
210波哥的AI课
04:41
本地大模型提速三倍方法Qwen3.6模型跑出200t/s生成 4090单显卡，本地大模型提速三倍Qwen3.6模型跑出200t/s生成 #本地大模型提速 #本地大模型配置 #MTP配置
查看AI文稿
AI文稿
本地大模型可以零成本的让我们去运行我们的 ai 项目，实现真正的拓客自由。但是卷过本地大模型的都发现了，本地大模型它的生成速度非常非常的慢，那么有没有一种方法能够让本地大模型的速度提升上去呢？我最近也看了一个研究报告，说是能够在四零九零单显卡的硬件条件下，将千万三点六三十五倍跑出两百托克每秒的一个速度。那么它是如何实现的呢？我们先看一下整体技术的实现方式。给本地大王星成倍量的提速，主要是依赖于一个叫 m t p 的技术。 mtp 中文的意思就是投机解码，投机解码，我们听到投机两个字就可以理解，它不是一种正常的解码方式，而是带有预测性的、随机性的解码技术。我们先看一下运行效果，然后再学习下如何配置好。我们连接上四零九零主机，呃，我们可以看到 l m 四六六，它已经出现了这种投机解码的介绍，已经有这样的小功能了。但是投机解码有两种方式，一种方式是传统投机，也就是先预制小模型，调用大模型。另一种方法是自投机，像我们现在常用的谷歌 gmail 四二十六 b a 四 b 和千万三点六三十 b a 三 b 这种已经量化后的模型就只适合于字头机，但传统投机的话就比较简单，就像视频这个位置，我们在第三个按钮找到 lms 这个目录，然后点开对应的模型。如果说你是比较大的一些模型，尤其是千万二十六 b，没有这个 a 四 b 的话啊，你在这个地方再选一个千万三点六对应版本的小模型就可以了，这个草稿模型一般选一点五的或者是零点八那种小模型，这样就配置完成了。另一个能提速的地方就是这个彩样和一个温度啊，温度默认是零点六，你可以把它拉到零点九，零点八都可以的啊，这个温度指的不是你 cpu 显卡的温度，而是一个类似于模糊参数的一个地方哈，那一默认零点六，零点八也是可以的，零点八的话可能这个模型的输出效果不会那么好啊。另一个就是这个彩样，彩样我们可以把可以按照我屏幕上的这种配置方法啊，把这个重复惩罚和存在惩罚都进行勾选。嗯，当然最小最小彩样我也建议调试一下，就比如说零点一三，如果说你发现这个模型开始胡言乱语了，就可以把这个最小彩样给关掉啊，一般模型零点一三是没有问题的。另一种方式是自投机解码，自投机解码也就是我们现在正在看到的一个运行效果。嗯，一般带这种杠三 b 杠四 b 这种量化后的模型就适合自投机解码，千万不要配置那种传统投机解码，传统投机解码反而会降低它的速度。我们还是拿一个复杂的工作流进行测试，让它发一篇带有图文，而且图片转化为 w e b p 的格式的。呃，瑜伽站看一下它的一个工作效果。好，我们刚才在刷新网站的过程中，它已经把这个工作流完整的走完了，这个速度还是可以接受的啊，绝对是可以接受的。好，为了看一下它的完整的工作流啊，看一看它的一个生成速度，非常直观的全程不快进，我们看一看他的一个工作效率啊，这个速度还是很给力的啊。好，我们下面再检查一下他的工作质量，这是很多绅士们比较关注的一个环节，我们可以看到刷新之后已经有一篇新的文章了啊，新的文章，我们点开看一下啊，整体翻译效果也不错，然后整个文章的一个呃，图文排序都非常的棒啊，我们看一看这个工作流已经帮我们做了多少的内容啊，点开看一看啊，非常完整，这个网站做的质量其实还是很高的，而且是完全零成本的搭建出来的，但是这种字头机的解码方式，目前在 l m studio 里面还没有可适化的配置方案呃，需要我们通过 s g long 或者是 v l m 进行代码配置。呃，具体的配置方法我也做了文案教程啊，大家也可以直接将文末的这种提示词复制给你的智能体，比如说 openclaw 或者是 harmis，让它自动地帮你配置好本地大模型的自投机解码，你学会了吗？
350酋长师兄
03:15
可能是史上最简单本地部署大模型和小龙虾的方案永久免费无限量，电脑小白也能装，一行命令都不要。
#免费AI #LMStudio #OpenClaw #Qwen36 #workbuddy
查看AI文稿
AI文稿
永久免费无限量，电脑小白也能装一行命令都不要！哈喽啊，我是王玉，今天给大家带来可能是史上最简单的本地大模型加本地龙虾的部署方案，可以永久告别偷啃叫力，享受免费无限量的 ai 能力，一次安装终身使用，不依赖云端 a p i，不再有掏坑的焦虑，月度限额的烦恼，所有的数据都保存在你本地的电脑上，聊天记录代码片段都不会上传云端，超级安全，还支持多渠道，微信、 qq、飞书都可以随时随地的用，性能也很强。这次我会集成最新的千万三点六三十五 b，这个模型性能堪比主流的付费 ai 产品，完全免费运行在你的显卡上，而且安装过程不需要你懂代码，不需要命令行，不需要你安装什么 wsl 那些东西，只需要安装两个图形化的软件，点一点鼠标就能搞定，而且有什么新模型、新插件，新的 skill 都可以装，都可以更新，你需要准备什么？硬件方面推荐十六 gb 以上显存的显卡，当然你没有这么好的显卡也没关系，你下载一个小一点的模型也行。软件的话，第一步，安装这个 lm studio，不会安装的话，可以参考我之前做的本地安装 jma 四的那期视频。第二步，安装这个 workbody，这个 workbody 现在是可以接入本地模型的，所以我们直接安装它就可以直接使用这个龙虾的能力了。 ok，来具体看一下怎么配置这个 lm studio。第一步，首先是你把这个模型下载好，然后加载到这个 lm studio 里面，可以看到这个著名的洗车问题三十五 b 的这个 moe 模型是没问题的， ok，然后看一下本地 server 的配置，点这个图标，进到 local server 的配置页面，我们看到这里有一行字就是代表我们的 server 已经起起来了，这个地址就是我们的 api server 地址，我们把这个地址 copy 一下，然后到配置 workbody 的页面，我们点这个图标，然后进到设置页面，点这个模型，然后进到编辑模型页面，我们提供商选这个 custom 接口地址，粘贴我们刚刚复制的地址，最后加上一个 v e 这个 apikey，如果你配了的话就填你配的 apikey，如果你没配，那你就随便填一个模型名称的话就随便填，也可以高级配置。我们这个模型是支持工具调用，也支持图片输入，还支持推理的，所以这三个都可以勾上上下文大小，根据你加载模型的上下文大小填就可以，然后来看一下实际的使用效果。其实本期视频的这个 ppt 风格的网页就是我让这个千万三点六三十五 b 加 word 八 d 来做的，可以看到这边我让他做一个介绍本地安装小龙虾的短视频，他帮我写好了短视频文案，包括一个 ppt 风格的网页，有六页的 ppt，内置了一些动画效果，包括右边的原点导航，还有图片点击放大的效果，包括需要哪些截图，他也给我列出来了。永久免费无限量电脑小白也能装一行迷你都不要，是不是非常的 nice， nice！觉得有用的话记得点赞关注，拜拜。
53wycode_cn
01:11
本地大模型，效果实测 #本地大模型 #claudecode #gemma4 #ai新星计划日更、视频日记、intj
查看AI文稿
AI文稿
折腾了好几天的本地大模型，给大家汇报下我的成果。我有两台电脑，一台 mac mini，盖中盖内存十六 g，一台 windows 大老黑四零七零太显卡显存十二 g。这俩电脑能跑到最新模型只有 jam 四 e 四 b 和纤维三点五九 b。最火的纤维三点六是不用想了，我实在下来纤维三点五九 b 的效果要比 g 玛四 e 四 b 的效果要好，所以用纤维三点五九 b 来给大家做演示。左边是 mac mini 十六 g，右边是四零七零 t，问他们一个相同的问题，看到 mini 的内存直接拉满，四零七零 t 的利用率也直接百分之百，温度从四十度也飙到了六十度。右边很快给了回复，可以看到它的响应， t p s 是六十五。右边看完了左边这还在思考，思考了两分多钟，响应的 t p s 是十二。可以看到四零七零 t 是拉爆 mac mini 的，但 n 卡的耗电量和噪音都很大。我也把这个九 b 的模型接到了克拉扣子里，但没法调工具，基本也不可用。拿 mac mini 来说，如果想要 a g 的模型，最少也得四十八 g 内存，模型选二十七 b 或三十五 b，带 m l x 加速的，这样才能跑得像那么回事。但这样的硬件至少得两万起步。总体来说，搞本地模型费钱费时间，参数少的效果有限，参数大的硬件预算很难顶。短期内我是不会再碰本地模型了。我正在搞页答图，后面会分享更多折腾故事，下个视频见。
174阿图AI
29:42
本地部署模型有无GPU加速的区别？CUDA护城河的作用理解。 1. 本地部署模型有无GPU加速的区别？通过3个本地部署的不同参数量大小的模型进行比较给你答案。
2. CUDA护城河的作用理解。怎么使用CUDA来使用GPU进行矩阵计算。
3. APPLE的M系列芯片的GPU加速怎么使用？
4. 四种GPU加速策略详解：单卡运行，模型并行，数据并行，优化批次并行
带你打通LLM和Agent开发的“最后一公里”！
#编程 #计算机 #必考考点 #打卡学习 #在线学习
41荒野芯智观察
01:42
看完就不会去花冤枉钱了。#老嗷嗷高 #大模型本地部署 #AI
查看AI文稿
AI文稿
今天跟大家聊一下关于本地跑大模型这件事情啊，其实我觉得在现在目前这个阶段，本地跑大模型它的实际的用途并不是很高，非必要的情况下，我觉得还是接外部的 api 就比较好啊。我是通过了真金白银来得出的这个结论，因为我前段时间我的苹果 m 四十六 g 五幺二那个都已经给我用满了，然后呢？我就想一次性换个好一点的吧，我就换一个内存大一点的。现在跑大模型不是要大内存吗？我直接买了那个一百二十八 g m 三 max 芯片的这个 mac pro，然后结果发现用它来跑杰玛这些呃大模型的时候，其实它对话的速度还是很快，但是如果你把它接入到可拉扣的或者这种呃 a 阵盘里面，他那个速度是你难以想象的那种慢啊。他手头跟加载要超超，不过差不多四分钟。我问他一个你好，他回答我要花四分钟，这什么概念？那后面会稍微快一点，然后整个机子呢？就非常的烫啊，非常的烫，你要知道可以，这可是 m 三 max 的芯片，一百二十八 g 的大内存，然后有四百 g 的这种内存贷款，他还是很卡，然后这台机器本身的价格要两万多块钱，那你想如果我买一个普通一点的，对吧？我把这个多出来的，比如说我买一台一万多块钱的 macbook，然后我去把这个钱你去充 gpt，你去充呃， deepsea，你充 cloud，你能够充几年？你能够充好几年哦。
267老嗷嗷高
01:27
不同模型本地部署性能实测#大模型#本地部署 #服务器#工作站#显卡
查看AI文稿
AI文稿
最近很多用户买了这个 ai 服务器，拿回去做大模型，然后具体的用哪个大模型会比较好？针对这个问题我们开发了一整个这个套件，主要功能是什么呢？比如说在这里我可以去用不同的部署框架， vlmsd 浪还有等等的，把不同的模型部署上去，放在不同的显卡上。比如说这里我装了四个模型，分别在四张普通的显卡，有纤维三点六的杠、二十七 b 以及纤维三点六、三十五 b 以及不同的精度，我们可以同时测试多个模型的推理能力。那这个是我们前端我同一个问题问四个模型，结合最近一个客户真实需求，因为他是做金融量化的，他要挑选一个对金融比较敏感的模型，那我们会用这样的方式，可以测试几十个甚至上百个模型，最后挑出一个比较不错的。可以看到我这里就随便截了一个今天的这种上涨指数里面是金融方面的，那我就问他，根据这个上涨指数分析最近一周应该怎么样判断？比如说第一个模型他一直在思考，可能卡住了，但是第二个、三个、第四个模型已经出来了，他也给了总体的建议，比如说本周看核心四幺五七能否突破等等等等。以及这个是本周关键在于四幺五七的得失好，但是一号模型他还在思考，那我们可以通过这样的方式去多问一些不同的问题。针对你的专业，因为有的是要做金融的，有的是要做工厂的，去设计或者说其他的方面的，这样你可以判断市面上所有的模型，哪个更适合你？再来做本地部署，这样就事半功倍了。
18算力未来
01:24
简介：基于千问8B蒸馏模型的FPCA-MP离线视觉检测系统实测。纯本地部署，无需联网，RTX 3080Ti GPU加速，单图推理约3-4秒。#工业视觉检测 #AI大模型本地部署 #智能制造 #外观缺陷检测 #千问大模型
查看AI文稿
AI文稿
今天给大家介绍的是视觉大魔性，本地部署是千万的视觉大魔性，八八十亿参数的，现在检测的是高精度的一个点胶机喷嘴，嘿，看大家看看这个检测结果，等级，权限区域以及描述以及建议。这样的模型我想到的是可以用在人工复检，没有经验的，嗯，操作员工可以直接用这个模型去做一些，嗯，分析判断，辅助分析判断，嗯，这是用用来检测一个二维码的一个外观缺陷。这样的一个模型大家有没有想过可以应用在什么样的一些场景？欢迎在评论区交流探讨。
181测控刘工
04:22
Token无限，本地大模型部署指南，详解对比四种部署模型工具的使用！分享最佳大模型部署工具搭配 #token #人工智能 #中国ai崛起 #ai#国产ai
69陈俗允忍明高
01:07
英伟达最新开源多模态大模型，本地部署，消费级显卡轻松跑
查看AI文稿
AI文稿
老黄开源了三零 b 总餐激活，只用三 b 全模态推理，二十五 gb 就能跑。大家好，我是 ai 学习的老张，模型叫 numtre 三 nano omni。三零 b 四月二十八号发布 m e 架构视频音频图片文本全知，上下文两百五十六 k，视频任务吞吐比 qv 三 omni 高九倍，靠的是 evs 高效视频采药睁开原协议可商用昂斯拉斯当天出了 g g u f 斯比特，只要二十五 gb 内存，本地跑行 smart 六六最省事，生产级走 v l l m 零点二零点零，注意 cuda 十三点二输出乱码，用十二点九或者十三点零定位是 agent 系统的感知层，专做眼睛和耳朵 g u i agent 屏幕监控会议转写聚焦感知，比全能模型更准。缺点，只支持英文欧勒玛多模态，暂不支持中文业务。再等等，做 agent 的这个感知底座，值得认真研究一下。
266Ai 学习的老章
15:31
本地运行AI大模型~LM Studio 让你拥有免费API和Token~
好用斋官网： https://haoyongzhai.com
#本地大模型 #ai #lmstudio #api #token
28好用斋
01:18
本地Ai大模型部署，选对硬件成本少一半我手上这台是给做文旅的粉丝定制的本地AI部署方案 #openclaw #本地大模型 #macstudio #Ai应用 #英伟达
656郑工说AI+
02:50
无限制,免破甲,本地部署大语言模型,只需一步操作。#本地部署 #ollama #大语言模型 #破甲 #qwen
查看AI文稿
AI文稿
还在研究本地大语言模型怎么破甲破件吗？其实那些方法都没什么用，今天给大家直接介绍一个无限制的本地大语言模型，这个是欧拉玛的官网里面的啊，这是其中的一个作者，我们直接去拉取它这个模型就可以了，注意它的尾缀啊， on sensor 的这种啊。好，那么如果你在这里面去搜索的话，他可能还有很多个这种昂森手的，包括那个加码的，或者说是千万的，我个人推荐用千万的，千万对中文的知识要更好一点，然后它里面有很多版本，二币、四币、九币，这个四币和九币哪怕你是没有显卡的，在内存里面跑的也是可以很快速的。那具体怎么操作呢？比方说我想，因为我这里面我的这个里面已经拉取了，我拉取了一个四 b 的一个九 b 的纤维三点五，还有一个加码的一四 b，呃，感觉都还还蛮好用的啊，我，我给大家演示一下。比方说我想拉取这个里面的这个二 b，然后点到这个二 b 的模型里面去，它这个里面针对欧拉玛的拉取，它会有已经给你写好了命令提示。行啊，直接选中复制，然后 windows 加 r 键，打开 cmd command 命令行窗口，然后直接复制粘贴进去，就来到这里了，看到没有回车好，它这个时候就开始拉取了呢，这是我的网速，这个时候它就开始拉取，呃，这个取决于你的网速，而而且这个是不需要魔法的啊。当拉取完了之后，啊，我这个把这个停掉啊，我这我这把它停掉，停掉。拉取完了之后，我们来到我们的欧拉玛里面，你就会多一个，刷新一下就会多一个，当然我这个就不拉取了，包括四币啊，九币啊，在在我这台电脑上，我这个是一个六 g 显存的四零五零啊，哪怕你是核显的，没有显存的也可以，跑速度也还可以，你可以跟他任何交流啊，包括角色扮演呢，或者提问呢，任何特殊问题等等等等等等，大家都懂的，不会有拒绝回答的情况。这个这个奥拉玛的客户端程序也是在这里下载啊，客户端的程序也是在这里下载，下载完了之后，安装好了之后，你的属呃，那个系统右下角托盘上就会多多一个这个羊驼的图标啊，然后打开这个 open 就可以打开它这个窗口啊，大概就是这样，具体的那个过程里面的聊天内容啊什么什么的，呃，我就不去演示了，他的四 b 和九 b 作为简单的轻度聊天或者角色扮演等等等等之类的，或者仿写扩写一些小短文什么的都是没问题的啊，千万三点五的九 b 榜三说的啊，就这个好。
65东辰视觉
08:33
安卓手机跑AI本地大模型MNN~免费提供API和Token 好用斋官网： https://haoyongzhai.com
#安卓 #手机 #ai #本地大模型 #MNN
查看AI文稿
AI文稿
大家好，我是航站，今天呢继续给大家介绍 ai 相关的内容啊，上期呢给大家介绍了一下 l m 四丢丢，它是用你的电脑呢来运行本地大模型，对外提供 api 接口。可能有些同学说呢，我就根本没有电脑啊，我只有手机，也想体验一下本地大模型，是否可以呢？答案呢必然是可以的。今天呢就给大家介绍一款安卓手机上使用的开源软件啊，它的名字呢叫做 m n n，是阿里旗下的一款开源免费的软件啊，他呢就能在你的手机上运行本地大模型。有一些经常更新手机的同学呢，就比较适合这一类的大模型了，如果你比较着急看效果，可以直接跳转到后方啊，看一下具体的演示效果。接下来呢我们就开始今天具体的内容。首先呢我们来看一下文章啊，在好用在的官网左侧，这里呢在视频上线之后，这里呢就会是最新的视频啊，然后你就可以直接点击配套资源下载，然后选择一个喜欢的网盘分享进行下载就可以了啊。如果你比较着急呢，也可以直接点击网盘分享，这里面呢直接输入五五三，这里呢就有安卓手机运行本地大模型 mnn，同样啊，有两个网盘分享，任选其一，我们这里点击一个，然后继续向下，里面呢一个官网地址，一个是 a p k 的安装文件。我们把两个内容都下载到本地，然后给大家打开官网地址看一下，这里呢就是 m n 的官网啊，可以看到这是 git hub 的官网啊，这是阿里巴巴旗下的啊，名字呢就叫 m n n，一会呢给大家看一下，官网这里呢是 a p k，具体下载的地址也可以看到啊，同样呢是在 m n n 目录下，不过呢这个藏的比较深啊，所以说我直接给大家放出了这个链接啊，下方呢就是好用，在官网大家爱去取用。这里呢就是 m n n 的 git hub，官网右侧这里写了啊，它是一个高性能的设备端的大语言模型，同时呢也是一个边缘的 ai，这里呢有十五点二 k star 啊，然后下头呢就是 release，不过这个 release 里面呢没有编辑好的 apk 文件啊，所以说对于我们绝大多数人来说啊，第二个链接呢更重要，这里呢是已经编辑好的 apk 的文件，下方呢有中文版本，不过这些呢大家随便看一看就可以了，我们主要呢需要的是这个登录的，点击之后呢就可以下载好具体的 apk 文件了，刚才我给大家分享的呢，这个就是下载好的 apk 文件，当然啊这个不是最新版本，你安装好之后呢，它就会要求你在线升级，然后呢我们就可以得到最新的版本了，接下来呢我就给大家简单的演示一下这个软件如何来使用，安装好之后呢，他就是这样子啊，然后我们双击打开，可以看到，打开之后啊，首先呢就提示你有新版本下载，点一下下载，接下来呢就根据你的手机具体的情况啊，这里是否要求继续安装啊，我们呢就点击继续安装，然后呢点击继续安装，点击完成，现在呢就是最新版本了啊，然后我们点击打开，首先呢里面我已经下载好了两个模型啊，如果你在里面没有任何模型的话，直接到模型市场，这个里面呢就是所有能够下载的模型，根据你设备的能力啊来下载对应的模型。比如说我这台设备呢是一个小龙八家的，我这里呢跑千万三点五二 b 没有问题，是最适合的一个模型。千万三点五四 b 呢也能跑，但是手机发热呢就会比较严重，同时速度啊也会比二 b 呢慢不少。比如说我这里跑千万三点五二 b 啊，是能跑到十五 toky 每秒，跑四 b 我记得好像是只能跑到六 toky 每秒啊，相对来说啊，二 b 的可用性呢就非常的高。四 b 呢只是说能用，最重要的呢它的发热啊也比较高，所以说对于我这台手机小龙八加啊也就只能用千万三点五二 b 了。不过有一说一啊，效果呢还是不错的，你需要哪一个模型，点击后面的下载就可以了，然后他就可以直接进行下载了，比如说我们点击这一下零点八 b 这个模型，我们直接点击下载这里呢就可以看到啊，正常的就开始下载了，稍微等一下呢，这个下载完毕就可以了。好的，现在呢就已经下载完毕了啊，然后呢我就给大家演示一下他具体的使用的效果。接下来呢我们就直接可以点击我的模型，然后选择一个模型直接进行对话就可以了。比如说我们就用这个千万三点五二 b 啊，我们直接双击，现在呢他就加载这个模型啊，稍微等一下速度还是比较快的，然后呢我们就可以跟他对话了啊，比如说呢，这里我们就输入一下你是谁，然后呢发送一下，可以看到反应速度呢，还是非常快的，这个整体的答复的速度呢，我觉得也是比较满意的啊。然后上方这里呢是提示词的速度啊，我们真正输出的这个速度呢，是下面这个 delete 的速度，可以看到啊，这里呢就是十五点五六 tocs 每秒，一般人的阅读速度据说是十三 tocs 每秒，这个呢已经超过了一般人的阅读速度，所以说可用性呢，是完全没有任何问题的啊。而且很多人啊，觉得二 b 的智商呢不太够。实际上各种尺寸的模型呢，其实都有它的用途的，只是看是否适合你的需求。比如说我让这个二 b 的模型呢，做过一首契言的诗，做出来的效果呢，还是非常不错的啊。这里呢我就给大家看一下它做出来的效果啊，比如说呢，这里啊，我让他做一首七言绝句的诗，他先做出来了一首，但是呢完全不押韵啊，我就说了一下那个诗押韵的不好。接下来呢，他做的第二首，我认为呢就已经非常好了啊，大家可以读一下这首诗，我觉得这首诗的效果啊，已经远超一般人能做诗的水平了，做的非常有意境，同时押韵呢也做的非常好啊。大家看一下，这只是一个二 b 模型的效果，我个人呢觉得非常满意了，所以说大家也不要太小看这些小尺寸的模型啊，二 b 的尺寸在很多情况下呢，其实已经足够用了，而且尺寸越小，回答就会速度越快，我之后呢是准备用零点八 b 或者是二 b 这种模型啊，作为控制家电的模型，我觉得呢是绰绰有余的，而且回答的效果呢也是非常的好啊，大家也可以按照自己的需求呢考虑一下这种小模型呢是否够用啊，这个呢就是你跟这些本地模型啊进行对话的结果，而且这个软件同时还可以向外提供 api，也就是说可以供其他的软件啊来进行调用。不过这个功能呢就不是那么稳定了啊，我先给大家说一下它有这个功能，但是相对来说第一个啊不太稳定，第二个呢我感觉略微积累一点啊，我给大家演示一下这个功能啊，我们首先打开对应的模型，然后呢要点击一下右上角这里，然后选择 a p i 设置，这个里面呢默认的端口呢是八零八零默认的，我记得是本地返回啊，也就是这个幺二七点，零点零点一，你要直接给它改成监听所有零点零点零点零点零，这样的话呢，它就可以让所有的设备呢来进行访问了啊。再接下来呢，打开下面这个 c o r s，最后这里呢就可以给你这个 api key 啊设置一个密码，当然你不设置密码也是可以的，如果你希望更安全一点呢，你也可以打开，然后设置一个你自己需要的密码，这样就可以了。接下来呢点击完成，这样的话呢，你这个大模型的 api 设置部分就已经完成了，再接下来呢我们就需要退出这个模型啊，然后呢在主界面上点击右上角这里的三个小点，然后选择设置，然后选择这一个开启 api 网络服务，把这个开启开，这样的话呢，所有的设置就已经完成了。但是为什么我说这个可用性不强呢？我们返回一下啊，如果你想让其他的程序来调用这个 a p i，使用免费的 top 呢，你必须在手机端啊，直接每次都要点击这个大模型点进去，在绘画的状态下，其他的程序呢才能够来调用这个大模型的 a p i 啊，而且呢不能熄屏啊，一旦熄屏了以后，这个后台休眠了，它就无法连上了嘛，你还要把这个程序呢，直接设置成后台不许休眠，整体的功耗呢应该是大一些。另外一点呢，可能是它本身不稳定啊，当然呢，也可能是我这个手机配置不够，毕竟小龙八加也是几年前的设备了吧。我这里呢开启二 b 模型也会经常的，假使如果开启四 b 模型的 a p i，那么是完全不可调用的状态啊，我连这个模型的这个对话状态都进不来，在我开启二 b 之后大概率是能进来的，但是偶尔呢也是无法进入啊，这一点呢，我不太清楚是这个软件的原因还是我手机配置的原因。所以说呢，大家可以量力而行啊，一旦你开启之后，其他的程序呢，就可以正常调用了啊，直接调用你这个手机的 ip 地址，再加上冒号八零八零的端口号，如果你设置密码就是刚才那个密码啊，不设置密码的话就无所谓了，现在很多程序呢，都可以看到里面具体的模型了，比如说你就可以选那个千万三点五二 p，然后直接进行访问就可以了。后续这些呢，我就不给大家演示了，因为每个程序调用的方法呢，又不太一样啊，至于它具体能够产生什么用途呢，要看大家具体脑洞开放到什么程度了啊，大家如果有什么好用有趣的用法，也别忘了在评论区给大家分享一下啊。好的，这就是本期视频的全部内容，如果你觉得这期视频对你有帮助的话，欢迎点赞、评论、转发，一键三连！当然也不要忘了关注我们，下次见！
17好用斋
02:49
本地跑大模型！不花1分钱Token，超简单教程#ollama
查看AI文稿
AI文稿
大家好，最近大家都应该刷到那条新闻了吧，深圳一个程序员用了某个在线工具，才三天就花掉一万二，全是掏坑费用，真的太吓人了。很多朋友跟我说，现在都有掏坑焦虑了，不敢随便用，不敢随便问，生怕一个不小心就扣费，其实真的没有必要，今天我就教大家一个完全免费，不靠 talkin，不联网也能用的方法。本地部署大模型用到的工具就叫欧拉玛，它就是专门让你在自己的电脑上快速跑大模型的，像什么 deepsea、千问这些主流大模型全都能本地跑。接下来我就一步步带大家操作，跟着我做，你也能轻松把大冒险装在自己的电脑上。首先我们打开欧拉玛的官网，这个时候我们会看到右上角有一个下载按钮，来我们点击一下，在当前页面我们就可以选择适合我们操作系统的版本，那么我的是 windows，我就选 windows，然后继续点击下载按钮，这个时候呢就已经开始下载了，因为这个文件比较大，它需要的时间可能会长一些，然后我们就找到我们下载完的这个文件，双击双击之后就会开始安装，然后我们进行下一步啊，等他完安装完成以后呢，他就会自动启动，那么这个时候呢，就出现了这么一个界面，就说明已经安装成功了。我们来看一下这个界面，这里呢给大家说一个小技巧，如果在安装过程当中遇到什么问题，我们可以把问题发送给抖包，让抖包来协助解决。那么接下来呢，我们就来验证一下欧莱玛是否运行成功，当我们看到这个反馈界面的时候，就说明已经成功了，那么这里呢，我也会把一些常用的指令分享给大家，赶快去下载试试吧！
73一品Ai说

热门推荐

热门分类