Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; ClaudeBot/1.0; +claudebot@anthropic.com)
精选
推荐
搜索
探索
直播
放映厅
短剧
小游戏
搜索
您是不是在找:
g沙盒rcv2怎么变成rcv1
atkrs6+dk设置
电信买的token怎么使用
image2功能亚马逊
obs不会封机械码吗
rep怎么点不了自定义
手拿玩偶豆包AI玩法指令
Claude怎么接什么模型写作
豆包写的清理磁盘脚本有用吗
codex goal怎么开kac
遇见AI
1月前
ClaudeCode +Llama.cpp本地部署 不是Ollama不可以,是Llama.cpp更有性价比。比Ollama推理更快的本地大模型部署方案,完美打通ClaudeCode,解放生产力~#Claude #Llama #本地部署 #AI编程
00:00 / 04:13
连播
清屏
智能
倍速
点赞
279
绘世玩家
2周前
llama.cpp本地部署 llama.cpp本地部署&集成Qwen3.6大模型-效率起飞 #comfyui #ComfyUI教程 #llama #qwen
00:00 / 08:21
连播
清屏
智能
倍速
点赞
70
智橙码域(Orange3dev)
2年前
LLama.cpp Windows部署大模型 #llama2 #大模型 #openai #大模型部署 #llama
00:00 / 02:25
连播
清屏
智能
倍速
点赞
96
AI踩坑指南
1月前
提速20%!本地大模型的正确打开方式 ollama、lm studio和其他任何相似的工具其背后都是llama cpp。所以我们为什么不直接运行llama cpp呢?通过剥离额外的抽象层,我们可以立马获得20%的提速! #普通人学ai #零基础学ai #实用ai工具 #本地部署大模型 #ai工具使用
00:00 / 02:35
连播
清屏
智能
倍速
点赞
496
Y.Ai
1周前
llama.cpp合并了MTP功能,无痛加速两倍! #mtp #openclaw #ai #本地部署 #hermesagent
00:00 / 02:59
连播
清屏
智能
倍速
点赞
267
大曼哒
2月前
本地部署智能体:Qwen3.5 + Claude Code 本视频将演示如何使用 Llama.cpp 和 Claude Code 在本地安装 Qwen3.5 4B 模型 #claude #ai编程 #千问qwen #ai #智能体
00:00 / 06:07
连播
清屏
智能
倍速
点赞
437
Ai 学习的老章
5天前
Qwen3.6 上了MTP,本地推理速度起飞
00:00 / 01:13
连播
清屏
智能
倍速
点赞
88
机智罗_LX
1周前
AMD显卡专用ComfyUI整合包,AI整合包一键安装 AMD显卡专用的ComfyUI整合包: ✅已安装ComfyUI-Manager ✅已安装Triton ✅已安装Sage-attention(配套通用参数) ✅已安装llama_cpp ✅已安装小白工具箱 ✅内置24个专用基础工作流 #comfyui整合包 #AMD #AMD显卡 #AMD显卡整合包
00:00 / 09:03
连播
清屏
智能
倍速
点赞
76
小柯玩AI
3周前
M2 24G Mac跑本地大模型!实测一周踩坑全记录🔥 #本地部署大模型 #openclaw #hermesagent #token 实测M2 24G Mac运行本地大模型的坑与降级方案!从Ollama的CPU满载、内存爆满,到llama.cpp优化后的13 tokens/sec,最终用多模型架构搞定算力焦虑。看完帮你少走弯路,评论区聊聊你的AI工具!👇
00:00 / 01:00
连播
清屏
智能
倍速
点赞
15
疯狂码农
2周前
双显卡llama.cpp本地运行gemma4-26B模型 英伟达 RTX 4060 8GB + RTX 4070 12 GB显卡本地部署gemma4-26b跑openclaw #gemma4 #llama.cpp #本地大模型部署 #openclaw本地模型
00:00 / 01:22
连播
清屏
智能
倍速
点赞
55
智慧工具坊
1月前
8G显存也能起飞?llama.cpp+qwen模型深度调优 为什么显存没占满,速度却掉到了脚脖子? 为什么 CPU 线程拉满,性能反而缩水 50%? 本期视频带你实测 RTX 3050 8G 在运行 Qwen 3.5 9B 时的性能极限。 通过《三体》3 万字压力测试,深度拆解上下文长度、KV Cache 量化、Batch Size 以及 CPU 线程对推理速度的真实影响。 【核心调优结论】 8G 显存黄金平衡点:32k 上下文--ctx-size 64k 极限模式:必开缓存量化 --cache-type-k/v q4_0 预处理加速:调大吞吐量 --batch-size 远比增加 CPU 线程有效。#模型调优 #本地部署ai 【我的配置】显卡: 3050 8G | 内存: 32G DDR4 | CPU: i3-12100
00:00 / 06:03
连播
清屏
智能
倍速
点赞
111
不夜
4周前
本地4种软件部署qwen3.6-27b性能测试 ollama,llama.cpp,LMstudio,vLLM本地部署测试#ollama#llamacpp#lmstudio#AI#vLLM
00:00 / 10:27
连播
清屏
智能
倍速
点赞
164
胡泊Hubo
2年前
Llama 3 本地部署教程来了!而且是中文版 #chatgpt应用领域 #人工智能 #llama3 #gpt #科技改变生活
00:00 / 02:38
连播
清屏
智能
倍速
点赞
3682
搬砖最勤快
1月前
5060TI16G 测试Llama和TurboQuant 测试Llama-cpp原版框架vsLlama-cpp-TurboQuant框架 同参数跑千问Qwen3.6-35b-a3b-Q4km速度对比 小显存卡确实太吃力了 结果还蛮奇特的 有点意外 评论区哥们@喵 #Qwen36 #TurboQuant #35ba3b #本地部署 #本地部署大模型
00:00 / 02:48
连播
清屏
智能
倍速
点赞
131
AI与天问
2年前
无需部署,在groq上免费使用Llama3,感觉快如闪电,太炸裂了!#人工智能 #llama3 #大语言模型 #AI聊天 #科技与狠活
00:00 / 01:22
连播
清屏
智能
倍速
点赞
237
遇见AI
5天前
MTP-多词元预测技术 想不想知道怎么让模型推理速度无损提升2-5倍?这个视频中或许有你想要的答案——Multi-token Prediction。一起来认识一下吧~#我要上热们 #抖加小助手 #MTP #词元 #llama
00:00 / 03:03
连播
清屏
智能
倍速
点赞
2
莫失莫忘
3周前
5月4日 (1)(1) llama.cpp windows11 下源码编译#下源码编译 #llama#本地部署ai #Qwen #ai应用
00:00 / 03:26
连播
清屏
智能
倍速
点赞
16
波哥的AI课
2周前
告别付费 API !Ollama本地模型+OpenClaw 零基础本地部署 Ollama 教程!Windows/Mac/Linux 全平台,5 分钟安装、一键拉取 Qwen/Llama3/DeepSeek 等模型,附 OpenClaw 对接配置,本地 API 永久免费、数据安全,多 Agent 开发必备!#OpenClaw #AI #Agent #Ollama #Hermes
00:00 / 05:02
连播
清屏
智能
倍速
点赞
157
程序员老张(AI教学)
2年前
Llama3中文微调版,配套Open-UI打造个人知识库 ,体验最强人工智能,匹配GPT4.0!#人工智能 #chatgpt应用领域 #llama3 #科技 #知识库
00:00 / 07:11
连播
清屏
智能
倍速
点赞
1830
布卷AI
2年前
一个可以创建自己的AI知识库助理的开源项目#ai知识库 #chatgpt #llama2 #ai教程 #ai工具
00:00 / 01:06
连播
清屏
智能
倍速
点赞
1970
Knowly
2周前
5090D的24G显卡,实测qwen3.6:27b,推理能力和生成速度都非常的不错,适合各企业低成本试点部署大模型 #AI知识助手 #本地部署大模型模型 #ollama #llamacpp
00:00 / 03:11
连播
清屏
智能
倍速
点赞
78
AI大陈哥
2年前
Raspberry Pi-5上运行Llama-3等模型指南 Raspberry Pi-5上已经可以使用Llama-3模型,只需要安装ollama就可以一键启用对话,非常简单。大模型在端侧的应用将会越来越多,适用端侧的模型也会越来越多。#大模型 #人工智能 #Llama #树莓派 #程序员
00:00 / 00:47
连播
清屏
智能
倍速
点赞
3306
小工蚁
2年前
llama.cpp大神实现投机采样,让大模型推理性能直接翻番
00:00 / 07:10
连播
清屏
智能
倍速
点赞
432
博弈
6天前
4张2080ti,每卡22G,使用opencode+omo插件进行程序编写,使用llama.cpp同时运行,unsloth量化版的MTP-Qwen3.6-27B-UD-Q4_K_XL.gguf和MTP-Qwen3.6-35B-A3B-UD-Q4_K_M.gguf,每2卡可独立推理一款大模型,主模型使用27B进行任务编排,子任务使用35B进行程序编写,每个模型上下文均可达256K,MTP都设置为2,27B模型速度为20-40词元/s,35B速度为70-110词元/s,速度、智商拉满,此为2080ti4卡最佳搭配运行方案,运行命令CUDA_VISIBLE_DEVICES=0,1 ~/llama.cpp/build/bin/llama-server --port 8001 --host 0.0.0.0 --n-gpu-layers -1 --parallel 1 --ctx-size 256000 --flash-attn on --batch-size 4096 --ubatch-size 1024 --cont-batching --mlock --no-mmap --split-mode layer --cache-type-k q4_0 --cache-type-v q4_0 --temp 0.6 --top-p 1.0 --top-k 20 --jinja -m /home/boyiu/models/GGUF/MTP-Qwen3.6-27B-UD-Q4_K_XL.gguf --spec-type draft-mtp --spec-draft-n-max 2 --reasoning off --kv-unified,等待Qwen3.7的小模型开源后进行实测#大模型 #2080ti #AI
00:00 / 00:27
连播
清屏
智能
倍速
点赞
22
哈瑞
2年前
在本地运行llama3中文版大模型AI对话,确实是太强了 llama3中文版大模型结合lobechat,体验超级棒 #llama3 #lobechat #本地大模型 #AI对话 #AI教程
00:00 / 02:53
连播
清屏
智能
倍速
点赞
2482
王耀鐭
2月前
本地部署Qwen3.5: vllm VS llama.cpp #大模型部署 #大模型 #学习日常
00:00 / 07:32
连播
清屏
智能
倍速
点赞
38
Ai.den
1年前
4070Ti运行Ktransformers从尝试到放弃,等我有了4090再试吧!#ai #deepseek #490
00:00 / 00:36
连播
清屏
智能
倍速
点赞
300
期海寻珍
2周前
本地部署大模型,mac studio,llama.cpp huggingface 设置电脑配置,查找大模型,mac studio m2 ultra 192G内存, llama.cpp运行大模型文件,查看占用统一内存大小 #本地部署大模型 #AI #本地运行大模型 #mac studio #llama.cpp #huggingface
00:00 / 04:38
连播
清屏
智能
倍速
点赞
3
莫失莫忘
4周前
4月27日(1) #opencode #qwen #AI应用 #大模型 #ai龙虾 #claudecode
00:00 / 02:01
连播
清屏
智能
倍速
点赞
20
爱马仕
1周前
没A100也能跑LLaMA?llama.cpp用CPU+量化让4G显存笔记本跑70B模型,4bit量化精度损失不到2%。#AI工具 #llama #大模型 #量化 #本地部署
00:00 / 01:03
连播
清屏
智能
倍速
点赞
52
AIGC 蛮子
6天前
低成本玩转前沿AI的时代 谁还花大钱买算力?使用MTP技术史上最快的本地推理,低成本玩转前沿AI的时代已到,llamacpp重大更新!!#本地模型 #ai #小龙虾
00:00 / 08:55
连播
清屏
智能
倍速
点赞
1
大洋哥
1年前
Ollama本地部署教程 llama3.2Vision本地部署,免费使用支持图片识别的GPT语言模型,免费使用chatgpt4.0,本地无需联网使用chatgpt#chatgpt #人工智能 #图片识别
00:00 / 03:14
连播
清屏
智能
倍速
点赞
1092
阿尔狄西亚
1月前
llamacpp的 ngl 和 ncmoe 参数要好好利用
00:00 / 03:00
连播
清屏
智能
倍速
点赞
9
不夜
1月前
ollama,llama.cpp,LMstudio性能对比 ollama,llama.cpp,LMstudio性能对比,结果让我选择放弃ollama #ollama #llamacpp #lmstudio #AI #人工智能
00:00 / 08:19
连播
清屏
智能
倍速
点赞
219
沙滩上的拖鞋
6天前
给大家看一下加上 MTP 后 27B 的编程效果,我个人感觉个原版比是没有什么差别的,运行速度提升 1.3 倍,真正让普通显卡也能使用高质量得本地模型,而且全部在 win 下跑通,不需要折腾 wsl 和 Ubuntu,游戏办公大模型全都要全都不耽误。#大模型应用 #大模型 #本地大模型 #llamacpp
00:00 / 00:49
连播
清屏
智能
倍速
点赞
17
绘世玩家
1周前
llama.cpp应用小案例&comfyui官方支持gemma4-提示词生成|图片&视频反推|音频解析~~~#comfyui #comfyui工作流 #ComfyUI教程 #llama
00:00 / 04:41
连播
清屏
智能
倍速
点赞
5
晓阳笔记
1年前
超好用的浏览器AI插件:Sider #AI #Sider #干货分享 #浏览器插件 #古雨浩
00:00 / 00:32
连播
清屏
智能
倍速
点赞
108
AI研究所
6天前
AI 圈今天 5 个大消息: Qwen 3.7 即将发布,Reddit 本周热度第一 4B 小模型 Agent,手机都能跑编程助手 OpenHuman 冲上 GitHub Trending #1 llama.cpp 已合入 MTP,多令牌预测提速 CloakBrowser 爆火,超级个体爬虫神器来了 本期关键词:本地 AI、Agent、隐私、提速、超级个体。 #AI #人工智能 #AI资讯 #Qwen
00:00 / 00:46
连播
清屏
智能
倍速
点赞
26
龙丽坤
1年前
免费GPU部署DeepSeek 671B动态量化模型全攻略 #deepseek #gpu #deepseek部署 #cuda #llamacpp 在这期视频中,我将介绍如何在免费GPU上部署动态量化的DeepSeek 671B模型,以显著提高推理效率并减少内存占用。
00:00 / 08:11
连播
清屏
智能
倍速
点赞
471
周公子
1周前
llama.cpp深度解析:纯C++实现的高效LLM推理框架 今天给大家带来llama.cpp深度解析,纯C++实现的高效LLM推理框架,无需GPU即可本地运行大模型。#AI #LLM #教程 #技术
00:00 / 03:03
连播
清屏
智能
倍速
点赞
0
厉害猫 AI 研习社
2年前
Dify篇:手把手教你打造一个本地安全可靠的知识库 Ollama + llama3 + Dify无限量使用,完全开源 轻轻松松就可以打造属于自己的知识库问答系统 用来做企业级智能客服助手真的是太完美了! 快去跟老板说,帮他省100个! @DOU+上热门 #程序员 #ollama #ai工具#开源大模型#ai学习
00:00 / 04:02
连播
清屏
智能
倍速
点赞
1046
火星时代AI创作学院
2周前
60秒学会部署本地AI 别再把你的私密文档喂给联网 AI 了,也别再为每月20刀的订阅费买单了!今天教你把Llama 3、DeepSeek 这些顶级大模型,直接“搬”进你自己的电脑。不花一分钱,断网也能用,关键是——绝对隐私。 #AI教程 #AIGC #AI本地化 #AI干货 #AI技巧
00:00 / 01:11
连播
清屏
智能
倍速
点赞
21
cpolar
1年前
Windows电脑本地部署AI大模型结合内网穿透异地远程使用 今天给大家来讲讲这个 Llama3.1智能AI大模型如何在本地Windows系统电脑进行部署,然后使用LobeChat可视化UI界面在浏览器中进行交互。结合cpolar内网穿透还能随时随地远程访问你在本地局域网中部署的大模型或者其他服务。 #AI大模型 #llama3 #内网穿透 #cpolar
00:00 / 16:56
连播
清屏
智能
倍速
点赞
56
赋范课堂
1年前
使用llama.cpp做GPU+CPU混合推理QWQ-32B 性能比肩DeepSeekR1!?使用llama.cpp实现GPU+CPU混合推理QWQ-32B(附源码)#QWQ32B #DeepSeek #大模型 #人工智能
00:00 / 08:38
连播
清屏
智能
倍速
点赞
88
晓辉博士
1年前
AI的记忆有多长?前沿模型为何都在PK上下文长度 最近OpenAI的GPT 4.1和Llama4 Scout都是主打长上下文,突破了以往很多模型128k或200k的限制,来到100万,甚至1000万的上下文窗口。今天来系统聊聊什么是大模型的上下文?为什么突破增加上下文窗口那么难?以及接下来还有哪些新的可能性。#AI #上下文 #GPT4.1 #Llama4 #模型上下文
00:00 / 10:07
连播
清屏
智能
倍速
点赞
2326
好好学AI
1年前
如何用ollama部署Llama3和qwen2大语言模型 #AI #LLM #大语言模型私有化部署
00:00 / 13:22
连播
清屏
智能
倍速
点赞
34
AI加速度
2年前
MetaGPT+LLama3实现自动编程,安装、原理分析及总结 #人工智能 #编程
00:00 / 04:05
连播
清屏
智能
倍速
点赞
628
老段AI
2月前
【反应飞快】让openclaw速度快的要起飞了 openclawoy 用llama.cpp平台部署的本地大模型,速度快的起飞,基本秒出 #openclaw
00:00 / 02:56
连播
清屏
智能
倍速
点赞
130
天工开帧
1月前
实操演示,如何在本地有限的硬件上跑尽可能强的模型。 llama.cpp 配置参数解释: --no-mmap 只影响模型加载速度,小模型不用加,大模型加更稳,不卡死。 -ngl 层数,调低可以让你跑更大模型,但影响速度。27B的IQ4模型本机测试31层最优解。 -ot 指定层数可以将FFN 超大模块,强制放回 CPU 跑,避免KV 缓存放不下,长上下文直接崩,让显存刚好压在 15.5GB 安全线 * 'chcp 65001':设置 UTF-8 编码(适合表情符号/特殊字符)。无特殊用途。 * 上下文大小('-c'):66,000。 大概比64k多一点,预留给小龙虾窗口。 * GPU 层数('-ngl'):29 层。我的16G显卡最快其实可以开到31层,但会占满显存,导致我玩不了游戏了,这里自己权衡。当然不同模型层数不一样,自己查资料一点点试。 * 将特定层卸载给CPU(“-ot”):使用正则表达式强制特定块(27-30)到CPU。这是针对16GB显存卡(RTX 5060 Ti 16G)的高度优化,以防止内存不足(OOM)。 * 线('-t'):5. 这里大概逻辑是CPU核心数减1,还是留给自己打游戏。 * 闪光注意('--flash-attn'):启用。 * 缓存 RAM('--cache-ram'):32768(32GB)。 这里不要学我,我是内存多到没地方用,实际4G足够了。 * 内存映射(“--no-mmap”):禁用(强制加载到内存)。
00:00 / 02:02
连播
清屏
智能
倍速
点赞
506
AIMint
6天前
固态U盘跑Claude Code和26B大模型启动过程 在固态U盘里安装Linux系统,并安装claude code,llama配合gemma-4-26b模型,笔记本带intel gpu显卡,成功写出软件,有个前端显示问题,也由claude成功修改!全程没手动写代码,现已上线,且我已经提交相关平台供免费使用。本视频录屏显示相关软件启动过程。 横屏观看字太小,建议放大全屏横屏观看!感谢🙏 #claude #编程大模型 #gemma #llama #linux
00:00 / 01:09
连播
清屏
智能
倍速
点赞
6
AIGC 蛮子
1月前
实现Token自由,本地llama cpp搭建快速本地模型 【openclaw 保姆级基础教程】实现openclaw Token自由,本地llama cpp搭建快速本地模型#龙虾 #智能体 #模型 #qwen3 #llamacpp
00:00 / 06:58
连播
清屏
智能
倍速
点赞
44
油管AI工程日志
1周前
【Data Professor】Python调用Llama2 大模型完整教程#Llama2#本地部署大模型#离线AI#Python
00:00 / 04:50
连播
清屏
智能
倍速
点赞
0
智驭导师授AI
1年前
端侧部署llama.cpp+人机视觉对话应用:第1集
00:00 / 05:52
连播
清屏
智能
倍速
点赞
7
kate人不错
1月前
llama.cpp 文本生成提速15.1%(x86) SkyPilot团队做了个反直觉实验 👇 同样是用AI优化 llama.cpp CPU推理: - 只看代码的AI:死磕AVX2、循环展开,提升≈0 - 先读论文+扒竞品仓库的AI:读FlashAttention,研究ik_llama.cpp、llamafile、CUDA/Metal后端,然后动手 结果直接五连优化: ✅ Softmax融合:3次内存遍历→1次 ✅ RMS Norm融合:省一次内存pass ✅ 自适应并行化:prompt/生成动态切换 ✅ 补上CPU缺失的RMS Norm+乘法融合 ✅ Flash Attention KQ计算三步压成一步 战绩:x86提速15.1%,ARM提速5%,缓存更稳。 成本:3小时+4台云VM+$30。 30多次尝试里失败20多次,但恰恰说明——当最优解不在代码里,而在论文和竞品实现里时,先研究再动手才是王炸。 有benchmark的开源项目?建议立刻试试。 #AI编程 #llamacpp #开源优化 #FlashAttention
00:00 / 03:05
连播
清屏
智能
倍速
点赞
19
博弈
3月前
通过6张2080ti显卡使用llama.cpp运行MiniMax-M2.1-UD-IQ3_XXS.gguf量化版大模型,使用opencode,并安装skill两款插件superpowers和ui-ux-pro-max,目前MiniMax-M2.1对工具的调用还有欠缺,希望年前用上更新的大模型MiniMax-M2.2,对做T程序进行界面更新,新增个股可T记录优先独立显示,新增个股信息详细显示,可快速根据价格和持仓数量,以及可T数量进行判断,优化实时数据的显示,高亮可T个股持续显示,进一步提供操作效率,减少工作量,财经资讯系统同步更新中,后续将会整合到主程序,进行实时显示#大模型 #量化 #量化交易
00:00 / 00:32
连播
清屏
智能
倍速
点赞
551
天工开帧
1月前
llama.cpp才是本地 OpenClaw 的终极形态 本地运行 256K 上下文真的会“崩”吗? 我们对 Qwen3.5、Gemma-4、Qwopus 等多款模型进行了全维度测速。 工具优势:深度解析 llama.cpp 相比 Ollama 在显存层级控制和 Flash Attention 开启上的核心优势。 OpenClaw 进阶:如何通过中间件将本地 API 映射为标准的 OpenAI 接口,实现跨设备无缝握手。#openclaw #gemma4 #本地大模型 #养虾人
00:00 / 02:41
连播
清屏
智能
倍速
点赞
836
博弈
5月前
通过6张2080ti22G版本,使用llama.cpp运行GLM-4.5-Air-Derestricted,128K上下文占用显存120G左右,大模型去除限制,智商已达最高,使用vscode插件roo code对通过newapi进行对接大模型的api调用,可达30token/s以上,当上下文占用50%时,速度降为10token/s左右,跑满128K,在8token/s左右,对做T程序进行了长达5个月的模拟,程序版本更新为V0.01.041,新增利润统计显示功能,已实现稳定盈利,月2-3%收益,年化20%-30%收益,3年可翻倍本金,最大回撤资金不超过5%,下一步将对接qmt实时显示数据,自动化做T,实现桌面版程序,预计6个月后开启实盘挑战#大模型 #2080ti #做T
00:00 / 00:38
连播
清屏
智能
倍速
点赞
1281
苦苦菜(Coding)
1月前
手机本地跑大模型 llama.cpp 部署 Qwen2.5 VibeCoding 第 11 期干货! ✅ 手机本地部署 llama.cpp+Qwen2.5-1.5B ✅ 体验本地大模型文本整理 ✅ Coze 工作流完成发票识别,业务全打通 下期教你 Windows 搭建 iOS 环境,移植 Flutter APP! 关注看更多 AI 编程实战~ #AI编程 #vibecoding #氛围编程 #程序员vlog #AI技巧
00:00 / 28:23
连播
清屏
智能
倍速
点赞
63
电池先生
6天前
llama.cpp Qwen3.6-27B MTP rtx3090 about the size of kv cache , maxium speed token generation is 60 kv cahce data type.
00:00 / 02:00
连播
清屏
智能
倍速
点赞
4
智橙码域(Orange3dev)
2年前
LLama.cpp编译部署大模型 #llama2 #大模型 #大模型部署 #openai #llama @DOU+小助手
00:00 / 02:18
连播
清屏
智能
倍速
点赞
24
kate人不错
1年前
bitnet.cpp 推理,速度超越 llama.cpp,内存最高降低 16 倍 #LLM #人工智能 #AI
00:00 / 08:31
连播
清屏
智能
倍速
点赞
43
AI大模型学习
7月前
挑战14分钟搞定用LlamaFactory微调你的AI大模型 #人工智能 #大模型 #AI大模型 #微调 #LlamaFactory
00:00 / 14:35
连播
清屏
智能
倍速
点赞
197
小工蚁
2年前
腾讯开源LlaMA Pro增强LLM性能新方法,打造行业模型 #小工蚁
00:00 / 06:19
连播
清屏
智能
倍速
点赞
201
博弈
3月前
使用6张2080ti显卡,每卡22G显存,使用llama.cpp运行MiniMax-M2.5-UD-IQ3_XXS.gguf量化版大模型,大模型为87G大小,130K上下文占用每卡约19G显存,通过vscode远程ssh代码服务器上的opencode进行程序编写时,使用命令CUDA_VISIBLE_DEVICES=0,1,2,3,4,5 CUDA_SCALE_LAUNCH_QUEUES=8x ~/llama.cpp/build/bin/llama-server --port 8000 --host 0.0.0.0 --n-gpu-layers -1 --parallel 1 --ctx-size 130000 --flash-attn on --batch-size 2048 --ubatch-size 512 --cont-batching --no-mmap --mlock --split-mode layer --cache-type-k q8_0 --cache-type-v q8_0 --temp 1.0 --top-p 0.95 --top-k 40 --jinja --chat-template-file /home/boyiu/models/GGUF/MiniMax-M2.5-GGUF/UD-IQ3_XXS/chat_template.jinja -m /home/boyiu/models/GGUF/MiniMax-M2.5-GGUF/UD-IQ3_XXS/MiniMax-M2.5-UD-IQ3_XXS.gguf,最大化发挥显卡性能,大模型智商最高,极致压榨显卡性能,在0上下文的情况下,首句话速度可达43token/s,首次上下文占用约为13K,首句回复速度为27token/s,当上下文占用为20K时,速度降为22token/s,当上下文占用50%左右时,速度降为11token/s,速度比minimax2.1略有提升,可增加更多上下文,但会牺牲token速度,财经资讯分析程序已建立基础功能,可实时获取最新资讯,并进行api调用分析,从获取最新资讯,到分析结果不到3分钟,完全适用现有策略,后面将增加新闻源获取途径,增加个股独立新闻分析功能#大模型 #量化
00:00 / 00:29
连播
清屏
智能
倍速
点赞
627
简介:
您在查找“
llama cpp mtp怎么用
”短视频信息吗?
帮您找到更多更精彩的短视频内容!
最新发布时间:2026-05-22 07:24
最新推荐:
风少队剑会对战过程
原神富人和博士的合同内容是什么
三角洲旅游换把枪怎么画
德贵的房子装修好了吗
秦始皇的房子是什么样子的
21天重养自己在哪里看
熊王角斗士水滴轮
箱根七曲怎么过
美双嫂子得了什么病
地平线6巨汉刷cr怎么结算
相关推荐:
蛇分为蝮蛇和什么
sakuya进行曲都有谁跳了
云南干热河谷在哪里
抹茶乳酪砖
黑龙团武器变换石头怎么用
蓝伴语音实名解绑教程
洛克王国咕咕帽怎么跳舞
军人可以购买吃的吗
豆包能写obs自动吸附模型吗
老公爱买黄金老婆爱笑哪个作者
热门推荐:
speedai怎么调格式
嘉立创eda教程paf
codex怎么制作动态表格
用过obs三角洲锁机器码要多久
obs滤镜会封号吗
520微信转账安宥真咋弄
一加ace5pro要不要更新金标
s2精灵盒子怎么提示
雪饼猴心跳测试在哪看
大疆pocket4手绳系法