Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; ClaudeBot/1.0; +claudebot@anthropic.com)
精选
推荐
搜索
探索
直播
放映厅
短剧
小游戏
搜索
您是不是在找:
雨天老师对hush影响
rc滤波怎么设置
程序员丙怎么打
飞牛hermes如何进行会话
塔菲是什么ip
c语言程序设计水仙花数正确答案
三角洲AI唤醒词是什么?
仓颉语言用哪个ai搜
松延动力小布米怎么编程
running工作流发布教程
遇见AI
1月前
ClaudeCode +Llama.cpp本地部署 不是Ollama不可以,是Llama.cpp更有性价比。比Ollama推理更快的本地大模型部署方案,完美打通ClaudeCode,解放生产力~#Claude #Llama #本地部署 #AI编程
00:00 / 04:13
连播
清屏
智能
倍速
点赞
252
绘世玩家
6天前
llama.cpp本地部署 llama.cpp本地部署&集成Qwen3.6大模型-效率起飞 #comfyui #ComfyUI教程 #llama #qwen
00:00 / 08:21
连播
清屏
智能
倍速
点赞
24
titan909
5天前
实战利用MTP补丁免费大幅提升Qwen3.6-27B运行速度 #mtp补丁
00:00 / 04:04
连播
清屏
智能
倍速
点赞
168
大曼哒
1月前
本地部署智能体:Qwen3.5 + Claude Code 本视频将演示如何使用 Llama.cpp 和 Claude Code 在本地安装 Qwen3.5 4B 模型 #claude #ai编程 #千问qwen #ai #智能体
00:00 / 06:07
连播
清屏
智能
倍速
点赞
421
AI踩坑指南
1月前
提速20%!本地大模型的正确打开方式 ollama、lm studio和其他任何相似的工具其背后都是llama cpp。所以我们为什么不直接运行llama cpp呢?通过剥离额外的抽象层,我们可以立马获得20%的提速! #普通人学ai #零基础学ai #实用ai工具 #本地部署大模型 #ai工具使用
00:00 / 02:35
连播
清屏
智能
倍速
点赞
471
莫失莫忘
1周前
5月4日 (1)(1) llama.cpp windows11 下源码编译#下源码编译 #llama#本地部署ai #Qwen #ai应用
00:00 / 03:26
连播
清屏
智能
倍速
点赞
9
王耀鐭
1月前
本地部署Qwen3.5: vllm VS llama.cpp #大模型部署 #大模型 #学习日常
00:00 / 07:32
连播
清屏
智能
倍速
点赞
37
老段AI
1月前
【反应飞快】让openclaw速度快的要起飞了 openclawoy 用llama.cpp平台部署的本地大模型,速度快的起飞,基本秒出 #openclaw
00:00 / 02:56
连播
清屏
智能
倍速
点赞
123
东岳游隼SC
3天前
终于跑通了,ollma,llama,anythingLLM,copaw,compyUI,lm studio,mtp量化模型,双显卡调用,qwen 3.6,啊啊啊啊啊,啊啊啊啊,终于入门了😭,太特么难了。#本地大模型部署 #ai
00:00 / 00:51
连播
清屏
智能
倍速
点赞
11
titan909
3天前
保持上下文窗口的同时利用mtp提升Qwen3.6模型运行速度 #MTP加速模型运行 #TurboQuant #加速Qwen27B
00:00 / 03:17
连播
清屏
智能
倍速
点赞
21
AI陪你学
2周前
自动启动llamacpp的webui #AI #ai编程
00:00 / 01:28
连播
清屏
智能
倍速
点赞
10
智慧工具坊
1月前
8G显存也能起飞?llama.cpp+qwen模型深度调优 为什么显存没占满,速度却掉到了脚脖子? 为什么 CPU 线程拉满,性能反而缩水 50%? 本期视频带你实测 RTX 3050 8G 在运行 Qwen 3.5 9B 时的性能极限。 通过《三体》3 万字压力测试,深度拆解上下文长度、KV Cache 量化、Batch Size 以及 CPU 线程对推理速度的真实影响。 【核心调优结论】 8G 显存黄金平衡点:32k 上下文--ctx-size 64k 极限模式:必开缓存量化 --cache-type-k/v q4_0 预处理加速:调大吞吐量 --batch-size 远比增加 CPU 线程有效。#模型调优 #本地部署ai 【我的配置】显卡: 3050 8G | 内存: 32G DDR4 | CPU: i3-12100
00:00 / 06:03
连播
清屏
智能
倍速
点赞
94
天工开帧
1月前
实操演示,如何在本地有限的硬件上跑尽可能强的模型。 llama.cpp 配置参数解释: --no-mmap 只影响模型加载速度,小模型不用加,大模型加更稳,不卡死。 -ngl 层数,调低可以让你跑更大模型,但影响速度。27B的IQ4模型本机测试31层最优解。 -ot 指定层数可以将FFN 超大模块,强制放回 CPU 跑,避免KV 缓存放不下,长上下文直接崩,让显存刚好压在 15.5GB 安全线 * 'chcp 65001':设置 UTF-8 编码(适合表情符号/特殊字符)。无特殊用途。 * 上下文大小('-c'):66,000。 大概比64k多一点,预留给小龙虾窗口。 * GPU 层数('-ngl'):29 层。我的16G显卡最快其实可以开到31层,但会占满显存,导致我玩不了游戏了,这里自己权衡。当然不同模型层数不一样,自己查资料一点点试。 * 将特定层卸载给CPU(“-ot”):使用正则表达式强制特定块(27-30)到CPU。这是针对16GB显存卡(RTX 5060 Ti 16G)的高度优化,以防止内存不足(OOM)。 * 线('-t'):5. 这里大概逻辑是CPU核心数减1,还是留给自己打游戏。 * 闪光注意('--flash-attn'):启用。 * 缓存 RAM('--cache-ram'):32768(32GB)。 这里不要学我,我是内存多到没地方用,实际4G足够了。 * 内存映射(“--no-mmap”):禁用(强制加载到内存)。
00:00 / 02:02
连播
清屏
智能
倍速
点赞
457
叶侠
5天前
本地openclaw用来分析股票效果怎样 openclaw+本地llama.cpp+qwen3.6_35b_a3b大模型,自动部署github上的开源股票分析项目,没有买token,只能用本地大模型分析,效果还不错,token自由+分析自由+财务自由
00:00 / 01:46
连播
清屏
智能
倍速
点赞
0
不夜
1周前
本地部署模型接入工具CherryStudio 本地部署模型接入工具CherryStudio#CherryStudio #llamacpp#lmstudio#AI#vLLM
00:00 / 04:35
连播
清屏
智能
倍速
点赞
1
不夜
2周前
本地4种软件部署qwen3.6-27b性能测试 ollama,llama.cpp,LMstudio,vLLM本地部署测试#ollama#llamacpp#lmstudio#AI#vLLM
00:00 / 10:27
连播
清屏
智能
倍速
点赞
147
AIGC 蛮子
3周前
实现Token自由,本地llama cpp搭建快速本地模型 【openclaw 保姆级基础教程】实现openclaw Token自由,本地llama cpp搭建快速本地模型#龙虾 #智能体 #模型 #qwen3 #llamacpp
00:00 / 06:58
连播
清屏
智能
倍速
点赞
43
找我呀AI知识助手
5天前
5090D的24G显卡,实测qwen3.6:27b,推理能力和生成速度都非常的不错,适合各企业低成本试点部署大模型 #AI知识助手 #本地部署大模型模型 #ollama #llamacpp
00:00 / 03:11
连播
清屏
智能
倍速
点赞
72
AIGC 蛮子
3周前
Qwen3.6开源重磅来袭! Qwen3.6开源重磅来袭!ComfyUI llama.cpp插件轻松上手教程#comfyui #qwen #开源模型
00:00 / 07:38
连播
清屏
智能
倍速
点赞
5
搬砖最勤快
2周前
5060TI16G 测试Llama和TurboQuant 测试Llama-cpp原版框架vsLlama-cpp-TurboQuant框架 同参数跑千问Qwen3.6-35b-a3b-Q4km速度对比 小显存卡确实太吃力了 结果还蛮奇特的 有点意外 评论区哥们@喵 #Qwen36 #TurboQuant #35ba3b #本地部署 #本地部署大模型
00:00 / 02:48
连播
清屏
智能
倍速
点赞
122
宁波贺道华数码礼品商行
7月前
switch破解版相册里的dbi插件mtp传输程序提示缺少必要的密钥怎么办?ns1破解版dbi安装游戏的时候提示/switch/prod.keys文件中缺少必需的密钥,部分程序功能不可用。重启进入Hekate并使用Lockpick_RCM.bin Payload从Sysnand转储密钥。大气层系统里的有效载荷是什么意思有什么用?dbi插件为什么每次打开都提醒缺少密钥?mtp安装游戏怎么不提醒缺少必要的密钥?#宁波switch维修 #宁波任天堂破解 #宁波switch专卖店 #宁波任天堂游戏机破解 #宁波switch破解游戏安装
00:00 / 03:41
连播
清屏
智能
倍速
点赞
656
阿尔狄西亚
3周前
llamacpp的 ngl 和 ncmoe 参数要好好利用
00:00 / 03:00
连播
清屏
智能
倍速
点赞
8
不夜
2周前
ollama,llama.cpp,LMstudio性能对比 ollama,llama.cpp,LMstudio性能对比,结果让我选择放弃ollama #ollama #llamacpp #lmstudio #AI #人工智能
00:00 / 08:19
连播
清屏
智能
倍速
点赞
211
AI探趣星船长
2周前
本地大模型也能 AI 编程!逼近 #GEMINI 3 效果 #干货分享,#邪修 玩法! 不用付费 token,古董显卡跑本地#AI编程开源大模型#千问 ! #程序员 速码! Opencode + llama.cpp + Qwen3.6 + 2080TI 配置改完直接起飞!电脑都干冒烟了
00:00 / 01:03
连播
清屏
智能
倍速
点赞
327
莫失莫忘
2周前
4月27日(1) #opencode #qwen #AI应用 #大模型 #ai龙虾 #claudecode
00:00 / 02:01
连播
清屏
智能
倍速
点赞
17
期海寻珍
3天前
本地运行大模型,mac studio,llama.cpp huggingface 设置电脑配置,查找大模型,mac studio m2 ultra 192G内存, llama.cpp运行大模型文件,查看占用统一内存大小 #AI #本地运行大模型 #mac studio #llama.cpp #huggingface
00:00 / 04:38
连播
清屏
智能
倍速
点赞
3
一把老骨头
5天前
LLaMA再测Qwen 27B大模型 确实比Ollama速度快,部署要略麻烦!#把钱花在刀刃上 #LLaMA #Qwen #大模型
00:00 / 00:33
连播
清屏
智能
倍速
点赞
17
小柯同学
1周前
M2 24G Mac跑本地大模型!实测一周踩坑全记录🔥 #本地部署大模型 #openclaw #hermesagent #token 实测M2 24G Mac运行本地大模型的坑与降级方案!从Ollama的CPU满载、内存爆满,到llama.cpp优化后的13 tokens/sec,最终用多模型架构搞定算力焦虑。看完帮你少走弯路,评论区聊聊你的AI工具!👇
00:00 / 01:00
连播
清屏
智能
倍速
点赞
13
疯狂码农
4天前
双显卡llama.cpp本地运行gemma4-26B模型 英伟达 RTX 4060 8GB + RTX 4070 12 GB显卡本地部署gemma4-26b跑openclaw #gemma4 #llama.cpp #本地大模型部署 #openclaw本地模型
00:00 / 01:22
连播
清屏
智能
倍速
点赞
42
酋长师兄
4天前
Google深夜放毒:MTP投机解码本地大模型提速三倍教程 Google深夜放毒,教你用MTP投机解码技术让你的Gemma 4 /Qwen3.6 27B 本地大模型提速三倍 #本地大模型加速 #MTP #投机解码 #投机解码教程 #本地大模型MTP
00:00 / 02:57
连播
清屏
智能
倍速
点赞
25
酋长师兄
1周前
本地大模型提速三倍方法Qwen3.6模型跑出200t/s生成 4090单显卡,本地大模型提速三倍Qwen3.6模型跑出200t/s生成 #本地大模型提速 #本地大模型配置 #MTP配置
00:00 / 04:40
连播
清屏
智能
倍速
点赞
317
映见
3天前
#抖音记录生活点滴 #llama.cpp 学了个新知识,用源码编译适配本地电脑的llama.cpp,部署本地模型。性能提高了好多 #本地大模型 #gemma-4 #llama.cpp
00:00 / 00:21
连播
清屏
智能
倍速
点赞
1
离久
4天前
我用llama以不合理的GPU配比搞除了一个发癫的8B大模型 #llama.cpp #chroot #Ubuntu #ZeroTermux #tsu
00:00 / 01:18
连播
清屏
智能
倍速
点赞
3
不夜
2周前
vLLM本地部署性能测试 ollama,llama.cpp,LMstudio性能对比,结果让我选择放弃ollama#ollama #llamacpp#lmstudio#AI#人工智能
00:00 / 05:50
连播
清屏
智能
倍速
点赞
30
董小姐
2年前
Switch 破解版如何通过电脑安装游戏? 用type-c数据线将 switch与电脑链接。 2、进入相册,运行DBl插件。 3、选择“运行 MTP传输”。 4、电脑端打开 switch 盘符。 5、打开 MicrosSD install盘符。 6.将所有的游戏文件复制到此。 7进度条跑完后退出即可。 #switch安装游戏 #任天堂switch #手机置换回收 #switch破解
00:00 / 02:04
连播
清屏
智能
倍速
点赞
589
大小寒学AI
1年前
4-5(5):gguf模型文件转换 GGUF | Ollama | llama.cpp #langchain
00:00 / 21:49
连播
清屏
智能
倍速
点赞
27
先锋Ai
3周前
Qwen3 10秒超快提示词反推节点安装教程 #ai教程技巧 #ai教程每日学 #AI教程免费学习 #标记我的宝藏好书 #让困难的事情变简单 Qwen3 VL Llama-cpp和Llama轮子安装,10秒超快提示词反推节点教程,让节点发推不在成为累赘。
00:00 / 02:58
连播
清屏
智能
倍速
点赞
3
IT塔台
3周前
Ollama和llama.cp 到底啥关系?性能差一倍! #Ollama#llamacpp #本地大模型 #AI大模型
00:00 / 05:11
连播
清屏
智能
倍速
点赞
445
游戏机质检站
3周前
switch下载游戏 Switch如何下载游戏。一分钟教会大家 关键内容 相册找到DBI 运行MTP程序 游戏安装包要么安装补丁➕本体➕dlc 要么只安装整合包 #switch#switch双系统#switch下载游戏
00:00 / 01:07
连播
清屏
智能
倍速
点赞
49
🍁
3周前
#大模型 #大模型部署 #端侧大模型 端侧手机本地部署大模型 手机型号:VivoX100 技术栈: 使用 Vue3 + Ionic + Capacitor 作为前端, Android原生 + Kotlin + JNI 作为后端,推理引擎为 llama.cpp。 测试模型: gpt-oss-120b-Q4_K_M.gguf 大约60G,总参数:116.8B(约 117B) 激活参数(每 token):5.13B 初步测试基本达到预期,只是纯CPU推理吞吐压力大,不过,我已经在做了GPU介入,或许能够提高推理速度。
00:00 / 01:34
连播
清屏
智能
倍速
点赞
22
博弈
3月前
通过6张2080ti显卡使用llama.cpp运行MiniMax-M2.1-UD-IQ3_XXS.gguf量化版大模型,使用opencode,并安装skill两款插件superpowers和ui-ux-pro-max,目前MiniMax-M2.1对工具的调用还有欠缺,希望年前用上更新的大模型MiniMax-M2.2,对做T程序进行界面更新,新增个股可T记录优先独立显示,新增个股信息详细显示,可快速根据价格和持仓数量,以及可T数量进行判断,优化实时数据的显示,高亮可T个股持续显示,进一步提供操作效率,减少工作量,财经资讯系统同步更新中,后续将会整合到主程序,进行实时显示#大模型 #量化 #量化交易
00:00 / 00:32
连播
清屏
智能
倍速
点赞
551
赋范课堂
1年前
使用llama.cpp做GPU+CPU混合推理QWQ-32B 性能比肩DeepSeekR1!?使用llama.cpp实现GPU+CPU混合推理QWQ-32B(附源码)#QWQ32B #DeepSeek #大模型 #人工智能
00:00 / 08:38
连播
清屏
智能
倍速
点赞
89
小宇玩AI
3周前
Ollama 其实是 llama.cpp 的壳子 你家里跑的 Ollama,其实是改名换姓的 llama.cpp 壳子——慢 80%、不归属、把蒸馏模型当旗舰卖、还偷偷走云。 开源精神就一条:能用、可验证、别装孙子。Ollama 这四件事全占反。 视频里给你四个替代品,今天就能换。 #Ollama #llamacpp #本地AI #开源 #小宇玩AI
00:00 / 02:59
连播
清屏
智能
倍速
点赞
1725
粤虎大队
1年前
实测长城H5的通过性#今年国庆就要这样玩 #哈弗h5 #硬派越野 #粤虎大队
00:00 / 02:26
连播
清屏
智能
倍速
点赞
4907
渐缓的苏军
2月前
#俄罗斯后朋克 #sudno #phonk #汽水音乐
00:00 / 02:19
连播
清屏
智能
倍速
点赞
562
AIGCLINK
1年前
Deepseek为开源领域贡献 价值不亚于llama Deepseek为开源领域贡献 价值不亚于llama:强化学习准备数据集、MOE+MLA+MTP创新训练架构、算力调配优化等,初步实现AGI实现第二增长曲线#deepseekv3 #deepseekr1 #deepseekr1zero #llama #agi
00:00 / 01:09:59
连播
清屏
智能
倍速
点赞
34
光影紐扣
3周前
ComfyUI LLM External 是一个为 ComfyUI 提供本地大语言模型(LLM)和视觉多模态模型集成的自定义节点包。它支持通过 Ollama、llama.cpp、LM Studio 等兼容 OpenAI API 的后端,在 ComfyUI 工作流中直接调用 LLM 进行文本生成、图像反推、任务规划等操作。 https://github.com/fan200617120-ui/comfyui_llama_external 链接:https://pan.baidu.com/s/1OTsi50VMkwVc_znh5uMpLQ 提取码:6688 #comfyui #提示词 #comfyui工作流 #ai #ai本地部署
00:00 / 01:53
连播
清屏
智能
倍速
点赞
2
王鹏LLM
5天前
gemma 4 mtp#AI
00:00 / 01:18
连播
清屏
智能
倍速
点赞
4
苦苦菜(Coding)
1月前
手机本地跑大模型 llama.cpp 部署 Qwen2.5 VibeCoding 第 11 期干货! ✅ 手机本地部署 llama.cpp+Qwen2.5-1.5B ✅ 体验本地大模型文本整理 ✅ Coze 工作流完成发票识别,业务全打通 下期教你 Windows 搭建 iOS 环境,移植 Flutter APP! 关注看更多 AI 编程实战~ #AI编程 #vibecoding #氛围编程 #程序员vlog #AI技巧
00:00 / 28:23
连播
清屏
智能
倍速
点赞
60
kate人不错
1月前
llama.cpp 文本生成提速15.1%(x86) SkyPilot团队做了个反直觉实验 👇 同样是用AI优化 llama.cpp CPU推理: - 只看代码的AI:死磕AVX2、循环展开,提升≈0 - 先读论文+扒竞品仓库的AI:读FlashAttention,研究ik_llama.cpp、llamafile、CUDA/Metal后端,然后动手 结果直接五连优化: ✅ Softmax融合:3次内存遍历→1次 ✅ RMS Norm融合:省一次内存pass ✅ 自适应并行化:prompt/生成动态切换 ✅ 补上CPU缺失的RMS Norm+乘法融合 ✅ Flash Attention KQ计算三步压成一步 战绩:x86提速15.1%,ARM提速5%,缓存更稳。 成本:3小时+4台云VM+$30。 30多次尝试里失败20多次,但恰恰说明——当最优解不在代码里,而在论文和竞品实现里时,先研究再动手才是王炸。 有benchmark的开源项目?建议立刻试试。 #AI编程 #llamacpp #开源优化 #FlashAttention
00:00 / 03:05
连播
清屏
智能
倍速
点赞
19
天工开帧
1月前
llama.cpp才是本地 OpenClaw 的终极形态 本地运行 256K 上下文真的会“崩”吗? 我们对 Qwen3.5、Gemma-4、Qwopus 等多款模型进行了全维度测速。 工具优势:深度解析 llama.cpp 相比 Ollama 在显存层级控制和 Flash Attention 开启上的核心优势。 OpenClaw 进阶:如何通过中间件将本地 API 映射为标准的 OpenAI 接口,实现跨设备无缝握手。#openclaw #gemma4 #本地大模型 #养虾人
00:00 / 02:41
连播
清屏
智能
倍速
点赞
780
小红AI
3月前
openclaw使用LLAMA.CPP模型 #openclaw #llama #minimax
00:00 / 01:27
连播
清屏
智能
倍速
点赞
26
博弈
5月前
通过6张2080ti22G版本,使用llama.cpp运行GLM-4.5-Air-Derestricted,128K上下文占用显存120G左右,大模型去除限制,智商已达最高,使用vscode插件roo code对通过newapi进行对接大模型的api调用,可达30token/s以上,当上下文占用50%时,速度降为10token/s左右,跑满128K,在8token/s左右,对做T程序进行了长达5个月的模拟,程序版本更新为V0.01.041,新增利润统计显示功能,已实现稳定盈利,月2-3%收益,年化20%-30%收益,3年可翻倍本金,最大回撤资金不超过5%,下一步将对接qmt实时显示数据,自动化做T,实现桌面版程序,预计6个月后开启实盘挑战#大模型 #2080ti #做T
00:00 / 00:38
连播
清屏
智能
倍速
点赞
1283
塞尔达的小屋
2周前
保姆级教程,一分钟学会给switch安装免费游戏#switch #switch双系统 #switch大气层 #我要上热门 #万能的抖音
00:00 / 02:08
连播
清屏
智能
倍速
点赞
2434
GPT研究室
1月前
没GPU也能跑大模型 还在以为跑大模型一定要烧云 API、买大显卡? Llama.cpp 就是在干一件很猛的事:把大模型往普通电脑、本地设备和边缘侧拉下来。 它凭什么火? 用 GGUF 这种更适合本地部署的格式来装模型。 用量化把模型压小,内存占用直接降下来。 还能直接开本地 OpenAI 兼容接口,很多应用几乎就能无缝接上。 说白了, 这套东西真正打中的不是“炫技”,而是三件事:省钱、隐私、控制权。 你是更愿意一直租别人的 AI,还是把模型真正跑在自己手里? #AI部署 #AI本地部署 #AI大模型 #AI学习 #大模型部署
00:00 / 06:15
连播
清屏
智能
倍速
点赞
32
深火小号2024
1月前
llama.cpp一键优化35B 256K 40t/s 硬件配置CPU:i5-12400F内存:32GB显卡:RTX 4060Ti 16GB 模型与设置模型:Qwen3.5-35B-A3B Q4_K_M上下文:256K推理速度:稳定 40 token/s工具:llama.cpp + LlamaOptGUI 一键测速优化参数 方案本地部署大模型对接 OpenClaw,永久免费养虾,离线可用、无 Token 消耗、隐私安全 工具https://wwauw.lanzouu.com/i3ujt3lp45hg 密码:epri#openclaw #本地大模型 #llama
00:00 / 08:01
连播
清屏
智能
倍速
点赞
11
大庄Allen
2周前
从 0 到 1 部署本地大模型,打造 AI 知识库。#ai #本地部署大模型 #obsidian
00:00 / 02:08
连播
清屏
智能
倍速
点赞
7
博弈
2月前
使用6张2080ti显卡,每卡22G显存,使用llama.cpp运行MiniMax-M2.5-UD-IQ3_XXS.gguf量化版大模型,大模型为87G大小,130K上下文占用每卡约19G显存,通过vscode远程ssh代码服务器上的opencode进行程序编写时,使用命令CUDA_VISIBLE_DEVICES=0,1,2,3,4,5 CUDA_SCALE_LAUNCH_QUEUES=8x ~/llama.cpp/build/bin/llama-server --port 8000 --host 0.0.0.0 --n-gpu-layers -1 --parallel 1 --ctx-size 130000 --flash-attn on --batch-size 2048 --ubatch-size 512 --cont-batching --no-mmap --mlock --split-mode layer --cache-type-k q8_0 --cache-type-v q8_0 --temp 1.0 --top-p 0.95 --top-k 40 --jinja --chat-template-file /home/boyiu/models/GGUF/MiniMax-M2.5-GGUF/UD-IQ3_XXS/chat_template.jinja -m /home/boyiu/models/GGUF/MiniMax-M2.5-GGUF/UD-IQ3_XXS/MiniMax-M2.5-UD-IQ3_XXS.gguf,最大化发挥显卡性能,大模型智商最高,极致压榨显卡性能,在0上下文的情况下,首句话速度可达43token/s,首次上下文占用约为13K,首句回复速度为27token/s,当上下文占用为20K时,速度降为22token/s,当上下文占用50%左右时,速度降为11token/s,速度比minimax2.1略有提升,可增加更多上下文,但会牺牲token速度,财经资讯分析程序已建立基础功能,可实时获取最新资讯,并进行api调用分析,从获取最新资讯,到分析结果不到3分钟,完全适用现有策略,后面将增加新闻源获取途径,增加个股独立新闻分析功能#大模型 #量化
00:00 / 00:29
连播
清屏
智能
倍速
点赞
627
杨九五
2年前
llama3 fine-tuning| 使用llama.cpp 量化Llama3模型|GPT4All
00:00 / 16:34
连播
清屏
智能
倍速
点赞
7
唐国梁Tommy
1年前
案例实战-14-基于llama.cpp量化模型部署 #llama #大模型课程 #深度学习人工智能 #aigc
00:00 / 13:52
连播
清屏
智能
倍速
点赞
8
数萌AI服务器
3天前
企业级AI Agent私有化部署最低成本方案 minimax 2.7 230b + 8卡v100 32G gpu + llamacpp + hermes
00:00 / 12:41
连播
清屏
智能
倍速
点赞
13
天津剑儒PLC编程培训(每月开新班)
4周前
西门子MTP新功能介绍。#剑儒 #plc培训 #plc编程
00:00 / 00:33
连播
清屏
智能
倍速
点赞
73
小北AI开源
3周前
为什么你应该放弃Ollama,Ollama是如何失去信任的 #Ollama #背离开源 #平替Ollama #llamacpp#ollama与llamacpp
00:00 / 04:16
连播
清屏
智能
倍速
点赞
2697
博弈
4月前
通过6张2080ti的22G显卡,使用llama.cpp运行GLM-4.5-Air-Derestricted-Q6_K.gguf量化版,上下文可达130K,充分占使用了显存,通过pytdx获取通达信的多服务器IP进行股票现价获取,通过IP轮询,加上之前的6组获取途径,现价获取的途径已经多达30+,充分保证了数据的及时稳定性,使用大模型写了中转api程序,可以随时添加数据源,可以实时监测数据源稳定性#2080ti #大模型 #量化
00:00 / 00:32
连播
清屏
智能
倍速
点赞
76
简介:
您在查找“
llama.cpp开启mtp教程
”短视频信息吗?
帮您找到更多更精彩的短视频内容!
最新发布时间:2026-05-10 07:14
最新推荐:
可以看韩剧的抖音号
谁会不厌其烦的安慰无知的少年张陆让
浪姐三公推迟会改录播吗
林俊杰周杰伦联动意义
血量和百分比的区别洛克王国
台球孟婉瑜是谁的孩子
新的命令花中如何棱镜求最大化
三角洲差600点券怎么充划算
洛克王国世界圣骑士时装可以单套买吗
怎么让豆包皮小厨师
相关推荐:
宝藏藏哪了跟跑
鲸落jk教程
#烘焙工具奇葩命名
蒙童胜境五月五还有活动吗
什么行为是对猫咪好
可以躺着玩的电脑
庇护所刷新炫彩有人进世界会消失吗
张杰现身谢娜演唱会 mv
2026可灵ai教程书
洋哥大婚新娘是谁
热门推荐:
苹果怎么设置壁纸上有谁的苹果
片段一怎么解锁
wood怎样输入简谱
严成玹微信ai怎么设定
华为puraxmax主题高级感
苹果健康的焦虑风险怎么设置
豆包13.2.0版本有收费吗
勾的表情包怎么p
tws日本kcon
codex桌面版需要挂梯吗