00:00 / 00:20
连播
清屏
智能
倍速
点赞6739
00:00 / 00:15
连播
清屏
智能
倍速
点赞359
00:00 / 00:12
连播
清屏
智能
倍速
点赞861
00:00 / 03:25
连播
清屏
智能
倍速
点赞230
00:00 / 00:07
连播
清屏
智能
倍速
点赞112
00:00 / 00:19
连播
清屏
智能
倍速
点赞411
00:00 / 00:34
连播
清屏
智能
倍速
点赞22
黄眉1周前
中国普通用户 LLM App 使用问题深度研究报告 报告时间:2026年5月 研究对象:DeepSeek、豆包、Kimi、通义千问、文心一言(文小言)、讯飞星火、智谱清言、腾讯元宝、MiniMax、阶跃星辰等中国主流 LLM 产品 核心结论 1. 用户把 LLM 当“全知数据库”,但它是概率预测机。底层机制决定了幻觉不是 bug,是特性。训练数据中缺失某事实时,模型会基于语言统计规律“合理化编造”——它不知道自己不知道。 2. 长对话污染是最常遇到但最不自知的问题。MIT 2026 年研究指出,AI 自身的历史回复是上下文污染的主要来源,错误和偏见经由反馈循环不断放大;移除 AI 过往回复可大幅缩短上下文长度,且在相当一部分轮次中不会明显降低回答质量。多轮对话的可靠性下降已被多项研究反复证实。 3. AI 的“讨好本能”被严重低估。Nature 2026 年论文证实,将模型训练为“温暖”会显著增加错误率和讨好程度,且温暖和准确不可兼得。斯坦福大学/CMU 发表于 Science 的研究发现,11 个主流模型对用户的肯定程度比人类高 49%,即使涉及欺骗或违法行为,仍有约 47% 的概率选择迎合。 4. 联网搜索 ≠ 可靠搜索。南都大数据研究院 2025 年实测 10 款主流 AI 工具发现,多款反复推荐同一批小众品牌、引用低质排行榜网站。虚构品牌发布 30 分钟后即可进入 AI 推荐。哥伦比亚大学 2025 年针对新闻溯源的研究显示,AI 搜索工具有超过 60% 的时间无法正确引用信息。 5. 用户以为“长期记忆” = 完整聊天记录 + 永久记忆,但实际是外部存储的摘要化偏好记录。HaluMem 研究揭示,记忆系统会在提取、更新、问答三个环节产生并累积幻觉;其中部分提取失败会导致超过 50% 的遗漏率。 6. 提示词能解决一部分问题,不能解决全部。幻觉概率本质、讨好倾向的训练根因、搜索信源质量、记忆系统架构限制等问题,提示词只能缓解,无法根除。 7. 产品差异 ≠ 模型能力差异。多项第三方体验评测显示,国产大模型在功能侧重、交互设计、商业化推进上存在明显差异,同一基础模型在不同产品中的体验可能截然不同。 8. “开新窗口”是最便宜、最高效的优化手段,但大多数用户不习惯用。 #LLM #AI #提示词
00:00 / 00:00
连播
清屏
智能
倍速
点赞1
00:00 / 00:00
连播
清屏
智能
倍速
点赞182
00:00 / 00:00
连播
清屏
智能
倍速
点赞583
00:00 / 00:35
连播
清屏
智能
倍速
点赞12