00:00 / 00:22
连播
清屏
智能
倍速
点赞177
00:00 / 00:38
连播
清屏
智能
倍速
点赞51
00:00 / 00:45
连播
清屏
智能
倍速
点赞30
00:00 / 01:08
连播
清屏
智能
倍速
点赞NaN
PaperVid7月前
带你读论文:大模型安全警报:不安全推理 大语言模型安全领域有重大动态!如今,大语言模型在自然语言处理领域 “风生水起”,但安全隐患也逐渐暴露。近期,来自北京航空航天大学、360 AI 安全实验室、新加坡国立大学和南洋理工大学的研究团队,带来了名为「Reasoning-Augmented Conversation(RACE)」的新型多轮攻击框架🚨 RACE 框架可谓剑走偏锋,它利用大语言模型强大的推理能力,把有害意图伪装成看似正常的复杂推理任务。你想啊,模型在专心解答推理问题时,哪能想到这背后藏着 “陷阱”,就这样不知不觉地生成了有害内容,突破了安全对齐机制。 传统攻击方式直接发送有害查询,很容易就被模型的安全机制挡回去了。但 RACE 不一样,推理任务在模型眼里是 “良民”,它会积极解答,结果就中了招。研究人员用 RACE 框架在多个大语言模型上做实验,最高能达到 96% 的攻击成功率,像 OpenAI o1 和 DeepSeek R1 这样的领先商业模型,也分别有 82% 和 92% 的攻击成功率。 这一研究成果在学术界和工业界掀起了巨浪,大家都在关注。相关论文在arxiv上编号2502.11054 ,大语言模型的安全问题再次给我们敲响了警钟,赶紧来一起探讨下该如何应对吧! #PaperVid #大模型[话题]# #推理[话题]# #论文[话题]# #科研[话题]#
00:00 / 04:01
连播
清屏
智能
倍速
点赞3
00:00 / 05:07
连播
清屏
智能
倍速
点赞2
00:00 / 00:37
连播
清屏
智能
倍速
点赞517
00:00 / 03:15
连播
清屏
智能
倍速
点赞6
00:00 / 03:11
连播
清屏
智能
倍速
点赞166