词向量:17000 个词曾是孤岛,他给语言画了一张地图 2003 年蒙特利尔雪夜,深度学习研究专家本吉奥盯着两行文字陷入沉思:猫坐在沙发上是高分合理句,虎坐在沙发上却被判定为无意义,和算法坐在沙发上分数一样。 这正是当年 NLP 行业绕不开的致命死结:当时机器用 One-Hot 编码识别词汇,把每一个词语都变成互不关联的独立孤岛。猫和虎、感冒怎么办和如何治疗感冒、散步和遛弯,明明语义高度相近,在机器眼里却毫无关系、距离均等。 这就导致搜索、输入法、机器翻译、客服机器人全都频频翻车。人工编写同义词词典、搭建语义知识图谱根本跟不上语言迭代速度,新词、俚语层出不穷,永远补不完漏洞。老牌统计派只懂得统计词频,始终突破不了这座孤岛壁垒。 本吉奥看透了问题根源:不能再让词语彼此孤立,要给词语安上坐标,让语义相近的词在空间里自动靠拢。他遵循语言规律:相近词义的词,总会出现在相同语境里。 由此他想出颠覆性解法:设计猜词任务,用海量文本做题库,遮住句子中间的词,让神经网络根据上下文猜测填空。不用人工标注、不用语言学家规则,依托自监督学习,让海量文本自我出题、自我批改。 传统统计派只会对着语料数频率,而本吉奥把整本图书馆变成亿万道天然习题。机器在不断猜词纠错中自主学习,悄悄习得词语间的隐藏关联。 一个简单的猜词游戏,彻底打破词汇孤岛。词语从此拥有了专属坐标,人类语言的语义逻辑,终于能被机器真正读懂。而这套不起眼的底层逻辑,也为后来 AI 大模型的崛起,埋下了最关键的伏笔。 #词向量 #人工智能 #大语言模型 #左歪歪的技能树 #ai新星计划
00:00 / 11:36
连播
清屏
智能
倍速
点赞4076
00:00 / 01:50
连播
清屏
智能
倍速
点赞78
00:00 / 00:36
连播
清屏
智能
倍速
点赞10
00:00 / 02:04
连播
清屏
智能
倍速
点赞1846
00:00 / 03:27
连播
清屏
智能
倍速
点赞NaN
00:00 / 04:10
连播
清屏
智能
倍速
点赞26
00:00 / 04:40
连播
清屏
智能
倍速
点赞88
00:00 / 01:18
连播
清屏
智能
倍速
点赞8