00:00 / 03:26
连播
清屏
智能
倍速
点赞3567
00:00 / 00:19
连播
清屏
智能
倍速
点赞NaN
00:00 / 01:06
连播
清屏
智能
倍速
点赞207
00:00 / 00:49
连播
清屏
智能
倍速
点赞9988
00:00 / 03:21
连播
清屏
智能
倍速
点赞1283
00:00 / 08:19
连播
清屏
智能
倍速
点赞NaN
00:00 / 00:41
连播
清屏
智能
倍速
点赞696
00:00 / 00:09
连播
清屏
智能
倍速
点赞522
00:00 / 07:44
连播
清屏
智能
倍速
点赞2096
00:00 / 00:23
连播
清屏
智能
倍速
点赞NaN
词向量:17000 个词曾是孤岛,他给语言画了一张地图 2003 年蒙特利尔雪夜,深度学习研究专家本吉奥盯着两行文字陷入沉思:猫坐在沙发上是高分合理句,虎坐在沙发上却被判定为无意义,和算法坐在沙发上分数一样。 这正是当年 NLP 行业绕不开的致命死结:当时机器用 One-Hot 编码识别词汇,把每一个词语都变成互不关联的独立孤岛。猫和虎、感冒怎么办和如何治疗感冒、散步和遛弯,明明语义高度相近,在机器眼里却毫无关系、距离均等。 这就导致搜索、输入法、机器翻译、客服机器人全都频频翻车。人工编写同义词词典、搭建语义知识图谱根本跟不上语言迭代速度,新词、俚语层出不穷,永远补不完漏洞。老牌统计派只懂得统计词频,始终突破不了这座孤岛壁垒。 本吉奥看透了问题根源:不能再让词语彼此孤立,要给词语安上坐标,让语义相近的词在空间里自动靠拢。他遵循语言规律:相近词义的词,总会出现在相同语境里。 由此他想出颠覆性解法:设计猜词任务,用海量文本做题库,遮住句子中间的词,让神经网络根据上下文猜测填空。不用人工标注、不用语言学家规则,依托自监督学习,让海量文本自我出题、自我批改。 传统统计派只会对着语料数频率,而本吉奥把整本图书馆变成亿万道天然习题。机器在不断猜词纠错中自主学习,悄悄习得词语间的隐藏关联。 一个简单的猜词游戏,彻底打破词汇孤岛。词语从此拥有了专属坐标,人类语言的语义逻辑,终于能被机器真正读懂。而这套不起眼的底层逻辑,也为后来 AI 大模型的崛起,埋下了最关键的伏笔。 #词向量 #人工智能 #大语言模型 #左歪歪的技能树 #ai新星计划
00:00 / 11:36
连播
清屏
智能
倍速
点赞5557
00:00 / 02:06
连播
清屏
智能
倍速
点赞1477
00:00 / 11:47
连播
清屏
智能
倍速
点赞7704
词向量:17000 个词曾是孤岛,他给语言画了一张地图 2013年,Google总部,29岁的米科洛夫,用两把斧头,彻底踹开了本吉奥十年前没推开的门。他吃透了本吉奥被算力困住的NNLM架构,明白核心需求从不是完整语言模型,只是那个“词坐标”的副产品。 第一刀,他砍掉中间庞大的隐藏层,放弃复杂语法学习,换了个粗暴任务:给中心词猜周围邻居(Skip-gram),让模型变得极简。第二刀,砍掉耗时的17000维softmax,用“负采样”替代——不用跟整本词典PK,只找5个反例,只要正例得分更高就算赢,工作量骤减几千倍。 这套简化到极致的系统,被命名为Word2Vec。他用Google News几十亿词的语料,仅用两天半就跑完,而当年本吉奥几百万词要跑三周。奇迹发生了:“巴黎”附近全是首都,“狗”周围都是宠物,更惊人的是,“国王-男人+女人=皇后”“巴黎-法国+日本=东京”,机器竟能算出抽象语义关系。 Word2Vec彻底终结了词语孤岛时代,成为所有NLP研究的起点。但光芒之下,两颗定时炸弹已埋下:一是认不出词表外的新词、错别字和黑话,连米科洛夫自己的名字都不认识;二是砍掉隐藏层后,模型没了时间感,分不清“狗咬人”和“人咬狗”,不懂词序决定语义。 米科洛夫踹开了词坐标的大门,却留下了新的难题:机器有了完美的词地图,却没有记忆,读不懂词序里的真相。要破解这一切,机器急需一种能“记住刚刚听过什么”的能力——而这,将开启语言AI的下一个时代。 #词向量 #人工智能 #Word2Vec #左歪歪的技能树 #ai新星计划
00:00 / 15:21
连播
清屏
智能
倍速
点赞4121