粉丝3.5万获赞7.6万

十七位医生都束手无策的罕见病,最后居然被 chegbt 诊断出来了!这是发生在四岁小男孩 alice 身上的真实故事。几年前,他在一次运动后身体开始剧痛。随后的三年间,他的妈妈前后带他看了十七名医生,从儿科、骨科到各种专家,都诊断不出他的真正病因。 无奈中,妈妈试着把他的症状和检查报告输入叉 cpt, 没想到 ai 给出了准确的诊断,小男孩也总算得到了正确的治疗,现在已经恢复了健康。这个事情一出,大家都激动万分,建议每个医生的办公室都应该配备一个 ai 助手。 那 alex 的求医之路为什么这么坎坷呢?其实他患的是脊髓栓泄综合症,患者的脊柱会出现先天性的畸形,背部通常会有裂口,但 alex 身上并没有出现任何标志性的特征,从外形上根本看不出来。 这种情况极其罕见,这就导致他之前根本是看错医生。直到他的妈妈求助 check gpt, 才第一次得到关于这个疾病的诊断,然后才找到专门的神经外科医生,才最终确定了 alice 病症。这也暴露出一个问题, 这些专科医生只能在自己的领域内做出有限的诊断,除非组织多学科会诊,否则面对像 alice 这样复杂的医学难题,也只能让患者四处求医问药。 而踹 gpt 恰好弥补这个缺陷。他的知识库在广度上足够丰富,所以在考虑病情时也更加全面,至少能让患者在选择就诊科室时减少试错的成本。 其实啊,这不是缺 gpt 第一次当医生了, gpt 四刚温室的时候,就有人用他的诊断成功救下了自己的狗子, 又有人靠他的诊断及时跑到医院自救。不过有研究表明,叉 gpt 也不是完全值得信赖的,他仍然存在错误,有时还会给出前后不一致的建议。你怎么看待 ai 诊断这件事呢?


大家好,我是小江,欢迎观看大语言模型进化史第二集。同样,我们还是坚持规避繁琐的模型细节和数学公式,争取用最通俗的表达 给大家介绍整个发展迈路。上期视频我们介绍了贝特横空出世,他一举成为了自然语言处理的新范式。这里的范式就是模板的意思,你只要做自然语言处理,就不可避免的首先考虑要不要照着贝特的思路来做。 我们同时也说到,贝特本身自己所创新的内容,几乎没有都是附用的前人的结果,只是他取得了非常非常领先的实验结果。 在深度学习的领域,任何其他东西都比不上实验结果更有说服力,因此,贝特的地位是由他的实验结果所决定的。上个视频的最后,我们还说到,贝特的诞生来源于对另外一篇论文的改进, 这里不卖关子,那篇论文指的就是 openai 发布的 gbt 一 点零的论文。在具体讨论 gbt 之前, 我们先了解一下 openai 这家公司,它由马斯克和其他人共同发起。二零一五年年底,出于对 ai 技术的各种担忧,这些人共同成立了 openai 这个非盈利机构,并将在较长的时间内分期支付。 openai 的 其中一个负责人是在创业领域深耕多年的萨姆奥特曼,同时他也是 yc 创业孵化器的总裁。但是 openai 是 一个独立的创业项目, 不受其他组织影响。本质上, openai 是 一个研究实验室,只在对抗那些通过拥有超级智能系统而获得过大权力的大型企业,以及那些可能利用人工智能压迫民众的其他组织, 此外还招募到了一些重量级工程师和科学家。作为一个初创团队而言, open ai 的 阵容非常豪华,而且这群人是出于共同的理念聚在一起, 所能迸发出来的力量是无法估计的。没有人会去质疑他们能否做出一些大事,但是话又说回来,也没有人敢说他们具体能走到哪一步。通过回顾早期对萨姆奥特曼的采访,我们可以知道 open ai 有 两个核心目标, 一是创造出足够好的 ai, 足够通用的 ai, 或者我们也可以直接说就是创造出通用人工智能。 第二个目标是开源。萨姆奥特曼在接受一个采访时说过,他预计 open ai 的 技术都将会是开源的, 所有人都可以使用,而不是像谷歌那样只有少数公司才能使用。为了实现通用人工智能, open ai 选择的第一条道路是强化学习, 理由主要是两个,一是强化学习非常通用,二是强化学习已经取得了非常好的效果。它本质上是一种模型训练的思路,它会赋予模型决策,还有行为控制的能力。研究人员一般需要提前设定这些模型有什么样的基础行动能力。这部分基础行动能力被称作动作级, 训练完成之后,模型就会使用这些动作级中的动作去完成任务,它不涉及具体的模型结构和具体的模型任务。 你可以用这种方式去训练一个下围棋的模型,也可以训练一个玩电子游戏的模型,甚至训练一个模型去做家务也是完全有可能的,你只需要做好一些基础的设定,就能把强化学习应用到任何你想做的地方。 如果能找到一种方式,把这个世界上所有的任务都抽象成同一个任务,比如说把读书当做一个游戏, 把上街买菜也当做同一个游戏。这样子的话,这个 ai 只要能够在游戏上取得高分,那么意味着其他任务都不在话下。当然,这是脱离实际的不同的任务差异太大,家根没有办法统一。我认为当时 open ai 的 目标是做一个通用的机器人, 机器人首先具备和人一样的基础行动能力,然后再通过强化学习,使其具备和人一样的决策还有控制能力,从而达到通用人工智能。 这可以从他的导师团队组成看得出来。他有一个团队,专门做机械臂相关的研究,直到 gbt 的 研究走上正轨以后,才选择解散这个团队。 二零一六年四月, open ai 发布了一个强化学习的工具包,是直接针对当时限制强化学习发展的两个因素,一是没有公认的比较方式,拿一个 ai 扫地的本领去和别人做饭的本领比就一定不合理。 第二个是没有统一的环境,你给 ai 装了扫把,我给 ai 装了锅铲。就算我们比的不是扫地,不是做饭,而是跑步,但这其实也很不公平。这个工具包可以给大家提供很多标准化的能力,降低大家学习强化学习的门槛。 因为 open ai 相信这是通往人工智能的道路,所以它通过这种方式吸引更多人在这条道路上前进。这就好像在说,别一天到晚在那 数据标注、监督学习都是狗屁才艺,啥也不是,康庄大道只有强化学习。八个月以后,也就是二零一六年十二月份, open ai 又发布了一个新的工具包。这一次是一个软件平台,名字叫做 universe。 它允许 ai 能够像人一样使用计算机,通过观察屏幕像素并操作虚拟键盘和鼠标。在这个平台上,允许我们训练单个模型,完成人类可以用计算机完成的任何任务。世界上的所有任务实在是太多了, 所以我们先聚焦到那些能够用计算机完成的任务。这算是一个暂时的妥协,先完成这一个小目标,然后再拓展到所有人可以做的任务上去。只不过这个小目标也实在是太难了, 当时的计算机视觉技术根本不允许我们正确解读屏幕像素。你看到了屏幕上红的绿的像素,你作为人很快就能理解了。但是 ai 很 难搞清楚到底发生了什么。此外,选用什么样的模型结构能够处理好这些任务,也一直没有一个比较好的选择, 所以这个项目也不了了之。但是我也很难说这是垃圾项目,因为他当初发布的时候,我自己是真心觉得通用人工智能马上就要来了, 没想到这一下就将近十年过去了。时间接下来来到了二零一七年四月份, openai 的 研究人员发布了一篇研究博克,这篇博克甚至连个正经的结论都没有,只是发现了一些现象,然后分析给大家。这是一个学习生成亚马逊评论的模型, 目标是在学习了大量真实用户的评论以后,能够自己生成一段亚马逊评论博克的作者们模型在完成学习以后, 能够理解评论的正面和负面两个概念。这不是一个分类模型,所以模型不应该拥有分类的能力,他应该只能深层。 但是这个深层模型的内部一个组建所显示出来的数值正好跟评论的正面性相关,这个数值越高,最后深层的评论越正面。换句话说,你也可以把文本给他,然后通过这个组建的值判断评论是否为正面。 这位 open ai 在 文本深层模型上的加大投入埋下了伏笔。我猜此时 open ai 内部应该已经开始有人认为这种深层模型可能是通往通用人工智能的途径。 紧接的时间就到了二零一八年初, open ai 这几年的折腾一直没有搞出什么太大的火花。在研究成果上, arfa 的 下一代 arfa zero 一 套代码既能下围棋,也能下国际象棋, 还能下日本降体,且在所有领域都击败了当时最强的传统 ai, 在 某种程度上实现了几类游戏的通用能力。 此外还有计算机视觉技术的百花齐放,国内有 ai 四角落,国外有英伟达的高清造脸。你以为 open ai 是 沛县天团的配置再差也不会差于瓦钢站, 结果他只是水泊梁山罢了。在这种情况下,杜维最早发起者之一的马斯克宣布退出 open ai 董事会,与此同时,他还暂停了继续向 open ai 的 投资。这时, open ai 的 许多人已经意识到, 成为一家尖端人工智能公司的成本将会上升。后来又过了一段时间,他们便创立了一个盈利性的实体,来筹集资金去支付训练所需要的计算能力。在和马斯克决裂几个月后,二零一八年六月, openai 正式发布了 gpt 的 论文。 gbt 的 全称叫做生成式预训练模型,我们不必过分纠结于它的名字。虽然它被叫做生成式模型,但是世界各地的研究人员早就已经开发出了针对 gbt 的 各种用法, 无论是文本理解、情感分析,还是其他任何自然语言处理相关的任务, gbt 这条技术路线下的模型都能游刃有余。 同样的, word 模型虽然没有生成式的设计,但是用 word 去做文本生成也是有大批人在研究。一个最简单的想法, word 可以 做完形填空,那我们直接把那个空加到最后不就行了, 甚至还可以一次性加好几个空,只是效果上会比生成式模型差一点罢了。不过这种差也有可能只是暂时的,未来人们继续研究。也许到了二零三五年, bird 这种模式可能会重回巅峰,压 gpt 一 头。现在我们先把注意力放到 gpt 一 点零上, 也就是二零一八年六月发布的第一个版本。这个版本和我们上个视频讲解的 bird 模型很类似,实际上 bird 就是 改进了 gpt 一 点零, 这一点在他的论文中有明确指出。 gbt 一 点零也是分为预训练和微调两个阶段。预训练的任务只有一个,那就是根据前面的内容预测下一个字,这跟环形填空有一点像,但是区别是 完形填空你会知道空位,后面的内容预测则是无法知道后续内容,实现这种区别的方式,就只选用不同的模型结构,不过从代码实现上来说,区别并没有特别大。如果有一天你需要做这方面的模型训练的话, 如果你会了波尔特和 gbt 一 点零当中的任意一个,那么另一个也能很快上手,其实只用修改几行代码而已。 open ai 在 完成对 gbt 一 点零的预训练以后,同样也让他参加自然语言处理相关的比赛, 其中既有贝特后续也参加的 glue, 也有贝特未参加的一些深层类比赛。在他参加的十二项比赛当中,他破了其中九项的世界纪录,这已经是一个很好的成绩了,只是没有后续贝特的成绩震撼。此外, gpt 一 点零还展示出了一定的零样本能力。 那么什么是零样本能力呢?我们知道 gpt 是 深层模型预训练的时候是为了深沉句子,如果我们要拿来做,比如情感分析, 判断句子是正能量还是负能量,一般需要在预训练完成的模型的基础上再加入一个分类构建, 然后微调。微调的过程也是训练的过程,也会修改模型的参数,只是一般改动不大。但是 g b t 一 点零展示出来的零样本能力是 我们不需要微调过程,就用预训练完成后的模型。在我们要拿来做分析的文本后面加上一个单词 very, 然后我们去看下一个深层的单词是正能量还是负能量,从而判断原始文本是正能量还是负能量。我们甚至可以说这个 very 就是 最早的提示词工程, 用这个 very 能直接激发深层模型的情感分析能力。当然,这和现有的大模型的差距还是很大的, 但别忘了,这台二零一八年我们也会用单项和双向分别描述 gpt 和 bird。 它是单向的,只能看到前面, 同时它也只用看到前面,因为它是为了生成文本。这种任务, bird 的 这朵完形填充能够看到前后两边,其主要目标是理解整个句子,而不是为了生成单向和双向时两个模型最大的差别。单向被很多人认为是 gpt 在 理解方面的明显缺陷。对于每一个单词而言, 只关注自己前面的内容,非常容易造成理解内容的不完整和理解的偏差。这种设计思路上的差异直接衍生出了两条路线,一是 g p t 道路做文本深层模型,然后用深层模型去做下游的各种任务。第二条路就是贝特道路 做文本理解模型,然后基于理解再去做其他任务。当时大部分研究团队都在 burt 道路上发展,因为 burt 取得的结果实在是太好了,而且它的双向思路也更符合大家的认知, 或者说更符合大家对自然语言处理的理解。 burt 虽然也有不小的潜力,比如前面说的那个额外添加的单词 very, 可能确实激发了 gpt 的 理解能力。但是如果你是一个想要毕业的博士生, 或者是需要给投资人做报告的企业负责人,你会选择已经被证明能出最佳成果的 word 还是更难,但是上限更高的 g p t 呢?而且我相信当时也不会有多少人觉得 g p t 的 上限更高, 在二零一八年 bird 横空出世的时候,人们都认为 bird 的 下线和上线都有明显优势。此时如果你作为 open ai 的 负责人,你会延续这条 g p t。 的 道路,还是也转向 bird 呢?而 open ai 实际又做了什么,我们将在下一集揭晓。
