llama.cpp上下文在哪 - 抖音

您是不是在找：

遇见AI1月前

ClaudeCode +Llama.cpp本地部署不是Ollama不可以，是Llama.cpp更有性价比。比Ollama推理更快的本地大模型部署方案，完美打通ClaudeCode，解放生产力～#Claude #Llama #本地部署 #AI编程

00:00 / 04:13

连播

清屏

智能

倍速

点赞236

智橙码域（Orange3dev）1年前

LLama.cpp Windows部署大模型 #llama2 #大模型 #openai #大模型部署 #llama

00:00 / 02:25

连播

清屏

智能

倍速

点赞92

王耀鐭1月前

本地部署Qwen3.5: vllm VS llama.cpp #大模型部署 #大模型 #学习日常

00:00 / 07:32

连播

清屏

智能

倍速

点赞36

AI踩坑指南1月前

提速20%！本地大模型的正确打开方式 ollama、lm studio和其他任何相似的工具其背后都是llama cpp。所以我们为什么不直接运行llama cpp呢？通过剥离额外的抽象层，我们可以立马获得20%的提速！ #普通人学ai #零基础学ai #实用ai工具 #本地部署大模型 #ai工具使用

00:00 / 02:35

连播

清屏

智能

倍速

点赞452

小红AI3月前

openclaw使用LLAMA.CPP模型 #openclaw #llama #minimax

00:00 / 01:27

连播

清屏

智能

倍速

点赞26

深火小号20241月前

llama.cpp一键优化35B 256K 40t/s 硬件配置CPU：i5-12400F内存：32GB显卡：RTX 4060Ti 16GB 模型与设置模型：Qwen3.5-35B-A3B Q4_K_M上下文：256K推理速度：稳定 40 token/s工具：llama.cpp + LlamaOptGUI 一键测速优化参数方案本地部署大模型对接 OpenClaw，永久免费养虾，离线可用、无 Token 消耗、隐私安全工具https://wwauw.lanzouu.com/i3ujt3lp45hg 密码:epri#openclaw #本地大模型 #llama

00:00 / 08:01

连播

清屏

智能

倍速

点赞11

小工蚁2年前

llama.cpp大神实现投机采样，让大模型推理性能直接翻番

00:00 / 07:10

连播

清屏

智能

倍速

点赞432

搬砖最勤快2周前

5060TI16G 测试Llama和TurboQuant 测试Llama-cpp原版框架vsLlama-cpp-TurboQuant框架同参数跑千问Qwen3.6-35b-a3b-Q4km速度对比小显存卡确实太吃力了结果还蛮奇特的有点意外评论区哥们@喵 #Qwen36 #TurboQuant #35ba3b #本地部署 #本地部署大模型

00:00 / 02:48

连播

清屏

智能

倍速

点赞119

Ai 学习的老章1月前

单4090 本地实测 Claude 蒸馏版 Qwen3.5 我这次实测的是 Qwen3.5 27B 的一个高质量优化版本，用 llama.cpp 在 24GB 显存的 4090 上直接跑。结论先说：第一，显存压力比我预想的小很多。单卡就能启动，而且 64K 上下文可以稳定开。这个上下文长度，比 GLM 4.7 Flash 高出不少，对个人使用已经很够了。第二，速度确实不错，平均大概 46 token 每秒，日常对话、文档总结、代码理解，响应都很快。第三，效果属于中等偏上。核心任务能完成，尤其是阅读理解、SVG 代码生成这类任务，表现已经挺优秀了。缺点是并发能力相对一般，我后面调了一些更高性能参数，提升不算特别明显。

00:00 / 01:06

连播

清屏

智能

倍速

点赞33

艾克ai分享2年前

100万token上下文长度的 Llama3 来了！ #人工智能 #AIGC #科技 #大模型 #干货分享

00:00 / 00:35

连播

清屏

智能

倍速

点赞805

AI大陈哥2年前

Raspberry Pi-5上运行Llama-3等模型指南 Raspberry Pi-5上已经可以使用Llama-3模型，只需要安装ollama就可以一键启用对话，非常简单。大模型在端侧的应用将会越来越多，适用端侧的模型也会越来越多。#大模型 #人工智能 #Llama #树莓派 #程序员

00:00 / 00:47

连播

清屏

智能

倍速

点赞3308

Igor Udot 吴一格10月前

什么是大模型操作系统！你了解嘛？ Andrej Karpathy这周做了精彩的讲解，很清晰地描述了现代的LLM几个关键点。我打算把这些内容拍成视频，用中文分享给大家！ #ai #操作系统 #知识分享 #万万没想到 #新闻

00:00 / 01:08

连播

清屏

智能

倍速

点赞139

小天fotos3月前

发现一个企业部署GLM4.7 Flash 生成速度的优化方案 TL;DR 视频中测试 4090 48g x2 unsloth q8 用ik_llama.cpp的测试分支 128k上下文可以到37t/s 优化前是22t 这个模型非常好用等到这些优化到可用了，我出详细测评 #claudecode #aiagent #企业AI #本地部署 #glm47

00:00 / 04:44

连播

清屏

智能

倍速

点赞243

博弈4月前

通过6张2080ti的22G显卡，使用llama.cpp运行GLM-4.5-Air-Derestricted-Q6_K.gguf量化版，上下文可达130K，充分占使用了显存，通过pytdx获取通达信的多服务器IP进行股票现价获取，通过IP轮询，加上之前的6组获取途径，现价获取的途径已经多达30+，充分保证了数据的及时稳定性，使用大模型写了中转api程序，可以随时添加数据源，可以实时监测数据源稳定性#2080ti #大模型 #量化

00:00 / 00:32

连播

清屏

智能

倍速

点赞76

大曼哒1月前

本地部署智能体：Qwen3.5 + Claude Code 本视频将演示如何使用 Llama.cpp 和 Claude Code 在本地安装 Qwen3.5 4B 模型 #claude #ai编程 #千问qwen #ai #智能体

00:00 / 06:07

连播

清屏

智能

倍速

点赞412

智慧工具坊1月前

8G显存也能起飞？llama.cpp+qwen模型深度调优为什么显存没占满，速度却掉到了脚脖子？为什么 CPU 线程拉满，性能反而缩水 50%？本期视频带你实测 RTX 3050 8G 在运行 Qwen 3.5 9B 时的性能极限。通过《三体》3 万字压力测试，深度拆解上下文长度、KV Cache 量化、Batch Size 以及 CPU 线程对推理速度的真实影响。【核心调优结论】 8G 显存黄金平衡点：32k 上下文--ctx-size 64k 极限模式：必开缓存量化 --cache-type-k/v q4_0 预处理加速：调大吞吐量 --batch-size 远比增加 CPU 线程有效。#模型调优 #本地部署ai 【我的配置】显卡: 3050 8G | 内存: 32G DDR4 | CPU: i3-12100

00:00 / 06:03

连播

清屏

智能

倍速

点赞83

大庄Allen1周前

从 0 到 1 部署本地大模型，打造 AI 知识库。#ai #本地部署大模型 #obsidian

00:00 / 02:08

连播

清屏

智能

倍速

点赞6

☀️孙阳_Sunny1年前

永劫无间提示failed to load il2cpp怎么解决 #永劫无间 #永劫无间下载方法 #电脑知识

00:00 / 03:32

连播

清屏

智能

倍速

点赞812

博弈7月前

在6张2080ti显卡上安装llama.cpp对glm4.5 air量化版106B-A12B-q4_k_m.gguf进行推理，量化模型69g大小，每张卡不到100w功耗，整机不到800w功耗，上下文128K，显存占用不到17G，显卡温度不超过40度，每秒31tokens，每小时耗电不到6毛，一天10小时不停不到5元电费，无限量tokens，glm4.5 air智商远超32B现有模型，代码能力超强，视频最后附安装步骤，截图发给AI即可按教程安装#大模型

00:00 / 00:32

连播

清屏

智能

倍速

点赞58

老段AI1月前

【反应飞快】让openclaw速度快的要起飞了 openclawoy 用llama.cpp平台部署的本地大模型，速度快的起飞，基本秒出 #openclaw

00:00 / 02:56

连播

清屏

智能

倍速

点赞124

晓辉博士1年前

把AI训练成第二个你你有没有想过，用你自己的经历和记忆训练一个能完全代表你的AI？最近Llama4的发布号称有1000万的上下文长度，让我再次想起了前一阵子看到的，陶芳波博士的项目Second Me。短短时间，这个开源项目就在Github上收获了几千个Star，也足以看出这个愿景的吸引力。非常期待这个项目接下来的进展。#AI #SecondMe #陶芳波 #MindVerse #心识宇宙

00:00 / 05:47

连播

清屏

智能

倍速

点赞1811

AIGC 蛮子3周前

Qwen3.6开源重磅来袭！ Qwen3.6开源重磅来袭！ComfyUI llama.cpp插件轻松上手教程#comfyui #qwen #开源模型

00:00 / 07:38

连播

清屏

智能

倍速

点赞5

不夜1周前

本地4种软件部署qwen3.6-27b性能测试 ollama,llama.cpp,LMstudio,vLLM本地部署测试#ollama#llamacpp#lmstudio#AI#vLLM

00:00 / 10:27

连播

清屏

智能

倍速

点赞141

苦苦菜（Coding）4周前

手机本地跑大模型 llama.cpp 部署 Qwen2.5 VibeCoding 第 11 期干货！ ✅ 手机本地部署 llama.cpp+Qwen2.5-1.5B ✅ 体验本地大模型文本整理 ✅ Coze 工作流完成发票识别，业务全打通下期教你 Windows 搭建 iOS 环境，移植 Flutter APP！关注看更多 AI 编程实战～ #AI编程 #vibecoding #氛围编程 #程序员vlog #AI技巧

00:00 / 28:23

连播

清屏

智能

倍速

点赞59

kate人不错1年前

bitnet.cpp 推理，速度超越 llama.cpp，内存最高降低 16 倍 #LLM #人工智能 #AI

00:00 / 08:31

连播

清屏

智能

倍速

点赞41

晓辉博士1年前

AI的记忆有多长？前沿模型为何都在PK上下文长度最近OpenAI的GPT 4.1和Llama4 Scout都是主打长上下文，突破了以往很多模型128k或200k的限制，来到100万，甚至1000万的上下文窗口。今天来系统聊聊什么是大模型的上下文？为什么突破增加上下文窗口那么难？以及接下来还有哪些新的可能性。#AI #上下文 #GPT4.1 #Llama4 #模型上下文

00:00 / 10:07

连播

清屏

智能

倍速

点赞2325

AI探趣星船长1周前

我感觉，他醒了 #ChatGPT #image2 上线，那种"差点什么" 的感觉终于消失了！这一幕和我之前 #AI编程遇到 #Claude Opus 4.6 何其相似 #设计师也遭遇一样的冲击了

00:00 / 01:48

连播

清屏

智能

倍速

点赞3

炸鱼🐟10月前

🇲🇾 为什么我现在才发现？！无意间发现的省钱攻略！相信好多人都没发现！通常counter都不会跟你说可以这样扣呵呵呵呵呵！影片只供参考啊！每间restaurant的折扣优惠不一样！有些店是第二次折扣优惠就少了一点！～你们可以去“ dine out"那边玩玩研究看看！

00:00 / 01:32

连播

清屏

智能

倍速

点赞5012

kate人不错3周前

llama.cpp 文本生成提速15.1%（x86） SkyPilot团队做了个反直觉实验 👇 同样是用AI优化 llama.cpp CPU推理： - 只看代码的AI：死磕AVX2、循环展开，提升≈0 - 先读论文+扒竞品仓库的AI：读FlashAttention，研究ik_llama.cpp、llamafile、CUDA/Metal后端，然后动手结果直接五连优化： ✅ Softmax融合：3次内存遍历→1次 ✅ RMS Norm融合：省一次内存pass ✅ 自适应并行化：prompt/生成动态切换 ✅ 补上CPU缺失的RMS Norm+乘法融合 ✅ Flash Attention KQ计算三步压成一步战绩：x86提速15.1%，ARM提速5%，缓存更稳。成本：3小时+4台云VM+$30。 30多次尝试里失败20多次，但恰恰说明——当最优解不在代码里，而在论文和竞品实现里时，先研究再动手才是王炸。有benchmark的开源项目？建议立刻试试。 #AI编程 #llamacpp #开源优化 #FlashAttention

00:00 / 03:05

连播

清屏

智能

倍速

点赞19

AI探趣星船长2周前

本地大模型也能 AI 编程！逼近 #GEMINI 3 效果 #干货分享，#邪修玩法！不用付费 token，古董显卡跑本地#AI编程开源大模型#千问！ #程序员速码！ Opencode + llama.cpp + Qwen3.6 + 2080TI 配置改完直接起飞！电脑都干冒烟了

00:00 / 01:03

连播

清屏

智能

倍速

点赞318

博弈4月前

使用6张2080ti显卡，每张22G显存，总显存132G，对量化模型MiniMax-M2.1.q2_k.gguf使用llama.cpp进行推理，上下文设置为130K，占用显存每卡约20G，总占用量不足120G，在0上下文的情况下，首句话速度可达37token/s，使用roo code进行编写代码，首次上下文占用约为10K，首句回复速度为24token/s，当上下文占用为20K时，速度降为18token/s，当上下文占用50%左右时，速度降为11token/s，MiniMax-M2.1量化版q2_k已为目前6卡2080ti可以跑的智商最高，速度最快模型#大模型 #ai

00:00 / 00:30

连播

清屏

智能

倍速

点赞601

出生布莱恩-格里芬1月前

Prima.cpp是开源的LLM分布式推理框架，专为家用设备集群优化。仓库地址：https://gitee.com/magicor/prima.cpp。论文详见ICLR 2026会议：https://iclr.cc/virtual/2026/poster/10008093。让普通家庭也能跑起70B大模型，挺有意思的突破。注意：此项目仅作技术导向，处于实验阶段，如需体验可参考项目详情 #AI #LLM #分布式 #家居化 #大模型算力

00:00 / 00:49

连播

清屏

智能

倍速

点赞21

天工开帧1月前

llama.cpp才是本地 OpenClaw 的终极形态本地运行 256K 上下文真的会“崩”吗？我们对 Qwen3.5、Gemma-4、Qwopus 等多款模型进行了全维度测速。工具优势：深度解析 llama.cpp 相比 Ollama 在显存层级控制和 Flash Attention 开启上的核心优势。 OpenClaw 进阶：如何通过中间件将本地 API 映射为标准的 OpenAI 接口，实现跨设备无缝握手。#openclaw #gemma4 #本地大模型 #养虾人

00:00 / 02:41

连播

清屏

智能

倍速

点赞753

AIGC 蛮子3周前

实现Token自由，本地llama cpp搭建快速本地模型【openclaw 保姆级基础教程】实现openclaw Token自由，本地llama cpp搭建快速本地模型#龙虾 #智能体 #模型 #qwen3 #llamacpp

00:00 / 06:58

连播

清屏

智能

倍速

点赞41

博弈2月前

使用6张2080ti显卡，每卡22G显存，使用llama.cpp运行MiniMax-M2.5-UD-IQ3_XXS.gguf量化版大模型，大模型为87G大小，130K上下文占用每卡约19G显存，通过vscode远程ssh代码服务器上的opencode进行程序编写时，使用命令CUDA_VISIBLE_DEVICES=0,1,2,3,4,5 CUDA_SCALE_LAUNCH_QUEUES=8x ~/llama.cpp/build/bin/llama-server --port 8000 --host 0.0.0.0 --n-gpu-layers -1 --parallel 1 --ctx-size 130000 --flash-attn on --batch-size 2048 --ubatch-size 512 --cont-batching --no-mmap --mlock --split-mode layer --cache-type-k q8_0 --cache-type-v q8_0 --temp 1.0 --top-p 0.95 --top-k 40 --jinja --chat-template-file /home/boyiu/models/GGUF/MiniMax-M2.5-GGUF/UD-IQ3_XXS/chat_template.jinja -m /home/boyiu/models/GGUF/MiniMax-M2.5-GGUF/UD-IQ3_XXS/MiniMax-M2.5-UD-IQ3_XXS.gguf，最大化发挥显卡性能，大模型智商最高，极致压榨显卡性能，在0上下文的情况下，首句话速度可达43token/s，首次上下文占用约为13K，首句回复速度为27token/s，当上下文占用为20K时，速度降为22token/s，当上下文占用50%左右时，速度降为11token/s，速度比minimax2.1略有提升，可增加更多上下文，但会牺牲token速度，财经资讯分析程序已建立基础功能，可实时获取最新资讯，并进行api调用分析，从获取最新资讯，到分析结果不到3分钟，完全适用现有策略，后面将增加新闻源获取途径，增加个股独立新闻分析功能#大模型 #量化

00:00 / 00:29

连播

清屏

智能

倍速

点赞627

香橙派深圳市迅龙软件有限公司数码配件专卖店11月前

用OrangePi Zero 2W打造人工智能球它在 Orange pi zero 2W上运行，使用 whisper.cpp 进行 text-2-speach 操作，使用 llama.cpp 进行 llm 操作，并运行 Gemma 3 1b。

00:00 / 01:18

连播

清屏

智能

倍速

点赞5

天工开帧3周前

实操演示，如何在本地有限的硬件上跑尽可能强的模型。 llama.cpp 配置参数解释： --no-mmap 只影响模型加载速度，小模型不用加，大模型加更稳，不卡死。 -ngl 层数，调低可以让你跑更大模型，但影响速度。27B的IQ4模型本机测试31层最优解。 -ot 指定层数可以将FFN 超大模块，强制放回 CPU 跑，避免KV 缓存放不下，长上下文直接崩，让显存刚好压在 15.5GB 安全线 * 'chcp 65001'：设置 UTF-8 编码（适合表情符号/特殊字符）。无特殊用途。 * 上下文大小（'-c'）：66,000。大概比64k多一点，预留给小龙虾窗口。 * GPU 层数（'-ngl'）：29 层。我的16G显卡最快其实可以开到31层，但会占满显存，导致我玩不了游戏了，这里自己权衡。当然不同模型层数不一样，自己查资料一点点试。 * 将特定层卸载给CPU（“-ot”）：使用正则表达式强制特定块（27-30）到CPU。这是针对16GB显存卡（RTX 5060 Ti 16G）的高度优化，以防止内存不足（OOM）。 * 线（'-t'）：5. 这里大概逻辑是CPU核心数减1，还是留给自己打游戏。 * 闪光注意（'--flash-attn'）：启用。 * 缓存 RAM（'--cache-ram'）：32768（32GB）。这里不要学我，我是内存多到没地方用，实际4G足够了。 * 内存映射（“--no-mmap”）：禁用（强制加载到内存）。

00:00 / 02:02

连播

清屏

智能

倍速

点赞424

小宇玩AI3周前

Ollama 其实是 llama.cpp 的壳子你家里跑的 Ollama，其实是改名换姓的 llama.cpp 壳子——慢 80%、不归属、把蒸馏模型当旗舰卖、还偷偷走云。开源精神就一条：能用、可验证、别装孙子。Ollama 这四件事全占反。视频里给你四个替代品，今天就能换。 #Ollama #llamacpp #本地AI #开源 #小宇玩AI

00:00 / 02:59

连播

清屏

智能

倍速

点赞1643

小工蚁1月前

Docker支持Mac vLLM推理引擎 #小工蚁 #开源软件 #大模型推理

00:00 / 03:59

连播

清屏

智能

倍速

点赞28

GPT研究室1月前

没GPU也能跑大模型还在以为跑大模型一定要烧云 API、买大显卡？ Llama.cpp 就是在干一件很猛的事：把大模型往普通电脑、本地设备和边缘侧拉下来。它凭什么火？用 GGUF 这种更适合本地部署的格式来装模型。用量化把模型压小，内存占用直接降下来。还能直接开本地 OpenAI 兼容接口，很多应用几乎就能无缝接上。说白了，这套东西真正打中的不是“炫技”，而是三件事：省钱、隐私、控制权。你是更愿意一直租别人的 AI，还是把模型真正跑在自己手里？ #AI部署 #AI本地部署 #AI大模型 #AI学习 #大模型部署

00:00 / 06:15

连播

清屏

智能

倍速

点赞32

不夜2周前

ollama,llama.cpp,LMstudio性能对比 ollama,llama.cpp,LMstudio性能对比，结果让我选择放弃ollama #ollama #llamacpp #lmstudio #AI #人工智能

00:00 / 08:19

连播

清屏

智能

倍速

点赞210

光影紐扣2周前

ComfyUI LLM External 是一个为 ComfyUI 提供本地大语言模型（LLM）和视觉多模态模型集成的自定义节点包。它支持通过 Ollama、llama.cpp、LM Studio 等兼容 OpenAI API 的后端，在 ComfyUI 工作流中直接调用 LLM 进行文本生成、图像反推、任务规划等操作。 https://github.com/fan200617120-ui/comfyui_llama_external 链接:https://pan.baidu.com/s/1OTsi50VMkwVc_znh5uMpLQ 提取码:6688 #comfyui #提示词 #comfyui工作流 #ai #ai本地部署

00:00 / 01:53

连播

清屏

智能

倍速

点赞2

龙丽坤1年前

免费GPU部署DeepSeek 671B动态量化模型全攻略 #deepseek #gpu #deepseek部署 #cuda #llamacpp 在这期视频中，我将介绍如何在免费GPU上部署动态量化的DeepSeek 671B模型，以显著提高推理效率并减少内存占用。

00:00 / 08:11

连播

清屏

智能

倍速

点赞472

莫失莫忘1周前

4月27日(1) #opencode #qwen #AI应用 #大模型 #ai龙虾 #claudecode

00:00 / 02:01

连播

清屏

智能

倍速

点赞16

Mr.Chen2周前

qwen3.6 35B配置hermes大脑就是玩，这么新的大模型怎么能不体验一下呢 #hermes爱马仕 #hermes #qwen #openclaw

00:00 / 02:08

连播

清屏

智能

倍速

点赞39

先锋Ai2周前

Qwen3 10秒超快提示词反推节点安装教程 #ai教程技巧 #ai教程每日学 #AI教程免费学习 #标记我的宝藏好书 #让困难的事情变简单 Qwen3 VL Llama-cpp和Llama轮子安装，10秒超快提示词反推节点教程，让节点发推不在成为累赘。

00:00 / 02:58

连播

清屏

智能

倍速

点赞2

博弈5月前

通过6张2080ti22G版本，使用llama.cpp运行GLM-4.5-Air-Derestricted，128K上下文占用显存120G左右，大模型去除限制，智商已达最高，使用vscode插件roo code对通过newapi进行对接大模型的api调用，可达30token/s以上，当上下文占用50%时，速度降为10token/s左右，跑满128K，在8token/s左右，对做T程序进行了长达5个月的模拟，程序版本更新为V0.01.041，新增利润统计显示功能，已实现稳定盈利，月2-3%收益，年化20%-30%收益，3年可翻倍本金，最大回撤资金不超过5%，下一步将对接qmt实时显示数据，自动化做T，实现桌面版程序，预计6个月后开启实盘挑战#大模型 #2080ti #做T

00:00 / 00:38

连播

清屏

智能

倍速

点赞1284

子非鱼5天前

不用敲代码！llama.cpp极简部署。让你的 Qwen3.6 35B 提速 30% #大模型本地部署 #国产大模型 #llamacpp

00:00 / 14:42

连播

清屏

智能

倍速

点赞39

AI玩我4天前

Vllm玩不了qwen3.5系列有些主板不支持NVlink 买卡的时候多注意。Vllm玩不了qwen3.5系列，llama-cpp可以的#qwen35 #2080ti双卡 #openclaw版本选择 #日常记录

00:00 / 05:37

连播

清屏

智能

倍速

点赞1

智驭导师授AI11月前

端侧部署llama.cpp+人机视觉对话应用：第3集

00:00 / 08:49

连播

清屏

智能

倍速

点赞4

阿尔狄西亚2周前

llamacpp的 ngl 和 ncmoe 参数要好好利用

00:00 / 03:00

连播

清屏

智能

倍速

点赞8

Ai 学习的老章3周前

Ollama 0.20，Mac 本地推理速度翻倍 MLX 是苹果专门给自家芯片做的机器学习框架。CPU 和 GPU 共享一块内存，数据不用来回拷，天然就快。之前 Ollama 用的是 llama.cpp，现在换了 MLX，等于直接装了涡轮增压。效果有多猛？官方数据，基于 M5 芯片跑 Qwen3.5 35B 模型。预填充速度提升 57%，生成速度提升 93%，几乎翻倍。跑 Coding Agent 的时候，代码嗖嗖往外吐，那个感觉，爽。而且这次量化格式用的是英伟达的 NVFP4。你可能会问，Mac 上跟英伟达有啥关系？关系大了。NVFP4 是英伟达的 4 位浮点量化方案，精度损失极小。什么概念呢？跑 AIME 数学测试，NVFP4 甚至比 8 位精度的分还高。用它量化，本地跑的结果跟云端几乎一样。以前本地和云端之间总有一条质量鸿沟，现在这条沟被填平了。除了引擎换血，缓存机制也升级了。跨会话复用缓存、智能检查点、更聪明的淘汰策略。跑 Claude Code、OpenCode 这类 AI 编程工具的时候，整体响应明显快了一截。我的看法：对 Mac 用户来说，这次更新必装。M4 以上芯片加 64G 内存的配置，本地跑大模型的体验已经逼近可用了。如果你之前觉得本地推理慢，现在该刷新认知了。

00:00 / 01:50

连播

清屏

智能

倍速

点赞11

智橙码域（Orange3dev）1年前

LLama.cpp编译部署大模型 #llama2 #大模型 #大模型部署 #openai #llama @DOU+小助手

00:00 / 02:18

连播

清屏

智能

倍速

点赞24

🍁3周前

#大模型 #大模型部署 #端侧大模型端侧手机本地部署大模型手机型号:VivoX100 技术栈: 使用 Vue3 + Ionic + Capacitor 作为前端， Android原生 + Kotlin + JNI 作为后端，推理引擎为 llama.cpp。测试模型: gpt-oss-120b-Q4_K_M.gguf 大约60G，总参数：116.8B（约 117B）激活参数（每 token）：5.13B 初步测试基本达到预期，只是纯CPU推理吞吐压力大，不过，我已经在做了GPU介入，或许能够提高推理速度。

00:00 / 01:34

连播

清屏

智能

倍速

点赞22

龙哥紫貂智能1年前

上交大发布LLM推理框架，提速29倍手机流畅运行470亿模型手机有3个瓶颈：内存小，外存到内存传输速度慢，NPU算力有限

00:00 / 01:08

连播

清屏

智能

倍速

点赞286

kate人不错6月前

Qwen3‑VL 在本地怎么选更稳 llama.cpp 新 Web UI 真的香本期你将收获： - 如何快速上手 llama.cpp 新 Web UI（安装、启动、功能全览） - Qwen3‑VL 32B/A3B 与 Gemini 2.5、Claude Sonnet 4 的多场景实测对比 - GGUF vs MLX 的真实差异：OCR/边界框/长图/反光/复杂版式等 - JSON 模式、PDF 当图像、HTML/JS 内联、URL 参数输入等“提高生产力”的新功能 - 何时选 Unsloth/GGML 的 GGUF 版本，避免 LM Studio 版本问题 - 4B‑Thinking 与 Omni‑3B 的“思考力/语音理解”实测与适用场景 - 我的结论： - 本地优先选 GGUF（GGML/Unsloth），llama.cpp 新 Web UI 体验非常好 - 32B 在多数场景下更稳更准，A3B 速度快但有场景差异 - MLX 量化存在精度/边界框问题，社区正在修复时间戳 00:00 开场 & 上期更正 02:24 llama.cpp 新 Web UI 上手 03:31 Qwen3‑VL‑32B 亮点与基准 04:20 多模型实测对比 09:01 GGUF vs MLX 实测 17:04 4B‑Thinking/Omni‑3B 实测

00:00 / 18:56

连播

清屏

智能

倍速

点赞42

智驭导师授AI11月前

端侧部署llama.cpp+人机视觉对话应用：第1集

00:00 / 05:52

连播

清屏

智能

倍速

点赞7

莫失莫忘3周前

4月10日 #AI #gemma4 #llama本地部署

00:00 / 03:26

连播

清屏

智能

倍速

点赞74

玩客笔记2周前

零云端 API 打造离线多模态全家桶 2026 本地 AI 末日堡垒：llama.cpp + ComfyUI + OpenWebUI，零云端 API 打造离线多模态全家桶 #Ai #Ai全家桶 #Ai本地大模型 #人工智能 #Ai应用

00:00 / 00:31

连播

清屏

智能

倍速

点赞0

Ruby_Axxx1月前

手搓本地agent测试测试模型为qwen3.5-9b-q8_0量化版本，采用llama.cpp编译运行，测试过程的任务执行速度和工具调用能力在小参数模型里是一绝的#qwen #ai #agent #openclaw

00:00 / 01:40

连播

清屏

智能

倍速

点赞2

IT塔台2周前

Ollama和llama.cp 到底啥关系?性能差一倍! #Ollama#llamacpp #本地大模型 #AI大模型

00:00 / 05:11

连播

清屏

智能

倍速

点赞430

猿AI1周前

教你免费使用Claude Code #Claude #免费 #开源 #AI工具 #VSCode

00:00 / 00:48

连播

清屏

智能

倍速

点赞463

博弈2月前

通过6张2080ti显卡使用llama.cpp运行MiniMax-M2.1-UD-IQ3_XXS.gguf量化版大模型，使用opencode，并安装skill两款插件superpowers和ui-ux-pro-max，目前MiniMax-M2.1对工具的调用还有欠缺，希望年前用上更新的大模型MiniMax-M2.2，对做T程序进行界面更新，新增个股可T记录优先独立显示，新增个股信息详细显示，可快速根据价格和持仓数量，以及可T数量进行判断，优化实时数据的显示，高亮可T个股持续显示，进一步提供操作效率，减少工作量，财经资讯系统同步更新中，后续将会整合到主程序，进行实时显示#大模型 #量化 #量化交易

00:00 / 00:32

连播

清屏

智能

倍速

点赞552

简介:

您在查找“llama.cpp上下文在哪”短视频信息吗？帮您找到更多更精彩的短视频内容！最新发布时间：2026-05-05 07:06

最新推荐:

相关推荐:

热门推荐: