粉丝1564获赞8.0万


有个读书号出书了,而且是他两个月来的第二本。以前的人出书很谨慎,著作本身是对一位学者很高的评价,但现在好像每个人都可以出书, 抄一抄段子,栽一栽文章,然后编排一下,再配合一下市场营销,就可以割粉丝的韭菜。 而且这样的人还可以在视频里大说烂书的危害,你本身就在出烂书,有什么资格说这样的事情? 但想想也不奇怪,现在这个时代好像就是这个样子,网络大 v 蹭着自己的热度,然后就可以出书来割粉丝的韭菜。所以 我强烈建议大家,在看到一些书籍是由一些网络大 v 所住的时候,尽可能的避开他们,绝大多数都只会浪费你的时间和精力。

浙江大学 dipstick 系列专题公开课第四期 dipstick 之火,可以燎原主讲人朱朝阳 现在开始上课,各位线上的朋友,大家晚上好,欢迎来到浙江大学迪博西克系列专题线上公开课。我是医学院的朱朝阳,我今天报告的主题是迪博西克之火,可以燎原。 今天非常有高兴有这个机会能跟大家分享我对迪布斯克的一些理解。 人工智能的发展日新月异,突飞猛进,每天都在突破我们的认知,所以说的不对之处,还请大家批评指正,不慎感激。这是我报告的题纲, 分为四个主题。首先我们将一起探讨从中华的文化基因来看 diversick 的成功之道。 这是一张家喻户晓的照片,描写的是西游记中唐僧师徒四人 西天取经的故事。西游记是中国的四大名著之一,小时候我读西游记的时候,吸引我的就是孙悟空大闹天宫,然后西行路上斩妖除魔的精彩描述。 但是这样的神怪小说很多,为什么只有西游记才能成为四大名著呢?长大以后,当我再次重读西游记的时候,我突然发现西游记的主人公其实是唐僧。唐僧 法号,学藏号三藏。什么是三藏?三藏就是金藏、绿藏和论藏。通俗的讲,金藏就是佛学的一些经典著作,比如金刚金,凡是带金的,其实都可以称为金藏。 律葬就是佛教里面的律法和遗轨,论葬就是历代高僧大德的一个读书笔记。唐三藏,唐三藏就是精通这三藏的高僧大德,知识渊博,堪比一个人工智能。 玄奘西天取经的时代是唐太宗和陶高宗的时期,那时候大唐兴盛,但是唐太宗发现民 虽然信佛,但信的是小乘佛法,忌妒忌。比如到了寺庙,多求升官发财,家人平安,哪怕是生人,也是多度化几生。 这时候唐先生出现了,他发愿要为大唐求的大成佛法。所谓大成佛法,就是能普度众生之法。求佛不是为求己,而是为天下众生所求。这应该就是西游记能成为四大名著的原因之一。 欧奔, ai 是一种小成法,它发展 ai 的目的还是为了自己企业的利益,但是迪博西克走的是开源之路,是一种大成法。所以我觉得迪博西克的脱颖而出,不仅仅 是技术上的成功,更是格局上的一种成功,得明星者得天下,就是这个道理。当然,大成和小成没有对错之分,只是格局不同,成就自然也就不懂。 开放、包容和共享历来是我们中华民族的美德。 那么美国为什么需要靠对算力和增大模型参数才能发展呢?其实这个和英文的造词法密切相关。圣经中记载着这样的一个故事, 人类为了建造一座通天高塔,就叫巴别塔,以彰显自己的智慧和力量。但上帝为了阻止这一计划,那人类说不同的 语言导致沟通障碍,最终高塔未能建成。这个世界象征着人类因沟通不畅而产生的分裂和冲突。 英文就是这样的一种巴别塔魔咒。我们来看看现代英文的几个数据,目前通用词汇有十七万个,其中包含了已经和即将废弃的七万个。各个领域的专业词汇加起来有五十万个, 总的词汇已经突破一百万个。更为可怕的是,每年还会新增一两千的核心高频词,以及一到两万个的新增别的词,这是一个多么恐怖的数据。为了学 学习这些专业单词,耗费了多少人的青春岁月? 英语就是个无底洞,每年会印造成千上万个单词,比如源宇宙、区块链、切的 gpt 等等。为了学习这些单词,训练成本暴增百分之十七。 每年为了学习这些新增的词汇,就不得不采用增大模型参数来解决,对大量的单词缩写更是让 ai 工程师直接崩溃。 若英语继续按照目前的增速发展,二零五零年就需要一点七个地球的算力来维持 ai 的运转,这种人为的语言壁垒在 ai 时代已经变成 ai 发展的巨大挑战。文字的发明初衷是为了更好的交流,然而英文的造字非常的浪费存储空间, 比如牛肉就是牛的肉,但是英文还得用 cattle、 meter、 beef 三个毫不相关的单词来解决, 比如飞机就是会飞的机器,但是英文必须用 fly, marching 和 airplane 这三个毫不相关的单词来表述, 记起来可真费劲。现代英语起源于工业四百五十年左右的古英语时期,经历了中世纪英语发展到现在的现代汉语大 该一千六百年的时间,相比孩子的历史底蕴还是较为年轻。 我们反观中文,汉字起源于上古的象形文字,历经甲骨文、经文、小篆、隶书、楷书、简化字等的演变,一路传承,蕴含着中华文明的核心基因密码, 从甲骨灼烧的裂纹到手机屏幕的像素点,每一次形态革新都烙印着技术与文化的对话。 相比与英文,中文只有三千七百个常用的一个汉字,康熙字典收录的也就四万六千个词。中华字海是我们最大的一个词典, 总共收入的是八点五万个字,另外还包括五万的生僻字和古字。 另外,你有听说过专业中文吗?无论是哪个专业,我们只需要使用一套中文就能解决知识的传授。更为关键的是,汉字每年竞争几乎为零,对新增的东西,我们只需要搭搭积木就能解决知识的 牵引。比如鸡肉就是鸡的肉,鸭肉就是鸭的肉,野猪就是野生的猪,非常容易理解是吧?就像乐高积木一样的,不需要重新记,学起来实在是太轻松了。 我们再来看一组 diversick 和 chat gpd 的一个训练数据, chat gpd 的 训练语料规模是十三万一个 talking, 其中英文语料占比是百分之九十二点六,中文语料的占比仅为百分之零点一,而且来源比较单一。 我们来看看 diversic 的训练语料总规模是十四点八万亿的一个托文,其中百分之十是英文,百分之三是中文。中文语料占比明显提高, 并含有大量的古典文献。采用多层的净化技术,剔除数据的噪音, 结合结合古典语法与现代汉语的分词算法,使成语的理解准确率提升了百分之三十八。 ebasic 的中英文比是一比三点三,三 圈的 gpt 的中英文比是一比九百。通过对比迪博西克和圈的 gpt 训练语料的中英文比例,我们可以发现,提升中文的比例确实大大提高了模型的一个训练速度。 因此,我们有理由得出这样一段角色,拿孩子作为 ai 训练的基本托肯,才有可能是 ai 未来的发展方向。 难怪公硅谷工程师在研究迪博斯克的时候惊奇的发现,当用英文问迪博斯克,迪博斯克思考的时候,经常要把二期先转换成农历 迪布斯克。在训练的时候,中英文占比远远超过 chat g p t。 也许这个中间汉字独特的文化底蕴 在这场 ai 之争中起着决定性的作用。在过去,大模型界的发展路径一直被英伟达 open ai 的 为首的企业垄断着,他们霸占着算力资源禁锢的思想不断制造的只有通过超大规模和超强算力的支撑,才能训练出超强能力的 ai, ai 的能力等于算力被固化。在这样的模式下,要提升性能,就必须通过增加算参数来解决。 增加了参数就必须再增加数据来解决过滤盒的问题,增加了数据,那就必须再通过增加算力来解决。这样的一个闭怀模式造成了一种恶性 的循环。最初为了训练, alex net 只需要十的十八次 flops, 到了 gpt 四 o 训练所需的算力达到了十的二十七次 flops, 所需算力呈指数级增加。通过这样的洗脑,无论在产业界还是学术界都垄断着这样的一种认知。同时美国对算力设备进行严格的管制,用这种方式卡着技术发展的脖子。 正如哪吒二中申公豹所言,世人的偏见,下座大山会压得创创新喘不过气来。 我命由我不由天,若前方无路,我便踏出一条路。 dipsyk 通过算力优化,打破哭的标准,哭的壁垒,为非英伟达的算力芯片提供的机会。 ebasic 通过算法革新,采用思维链提升逻辑性能,实现模型的顿悟时刻。 everseek 通过架构创新,用知识整流结合 m o e 证明小规模、高质量的数据延伸,延伸低质量的大规模数据。 接下去我们来谈谈第二部分关于 diversic 网上讨论最多的两点争议。 目前争议最多的应该是知识整流技术是抄、抄袭还是创新? 什么是知识整流?知识整流是一种模型压缩和加速技术。志在降大模型,我们也叫教师模型的知识迁移到小型的模型,我们也叫学生模型, 在减少计算资源的消耗,缩短推理时间的同时,尽可能达到和接近大模型的一种性能。 知识整流的核心思想是通过拉一个较小的模型,学习较大模型的预测分布来获得类似的表现。 具体的过程主要分为两部分,首先,我们使用海量的数据来训练一个大规模的模型,也就是教师模型。教师模型训练完以 以后,可以通过教师模型提取知识,也就是高质量的数据给小模型来训练。 训练一个结构简单、参数较小的小模型,训练速度就明显加快,所需的速率算力也就明显减少。 训练完成以后,教师模型和学生模型的预测分布是相同的。那什么是预测分布?简单来说,比如对怒发冲冠平后接的一个词, 有可能是难,也有可能是借,那这两个单词出现在教师模型和学生模型的分布和概率是一样的,这样就达成了小模型和大模型的预测能力 几乎接近。那何为抄袭和朴倩?举个例子, 如果一个人学会了牛顿三定律,然后换了个名字,就说这三大定律是他发现的,反正牛顿会的,他也会了,那这种行为就是抄袭和嫖现。 那什么是创新?如果我们用牛顿定律等物理学原理实现了航天器,那这个航天器就应该是一个创新,是一种站在巨人肩膀之上的创新。我们再来举个例子,比如机床, 最早的机械式机床是通过手工方式制造的,但是通过机械式制造机床制造的零部件来 制造第二代、第三代的一些机床,这是技术的迭代,也是一种创新。我们在发明新的机床的时候,完全可以用以前的机床来生成零部件, 不需要再从头开始用手工打磨。科技的发明就是为了不断的提高生产力,不断进行技术迭代,这种迭代就是一种创新。所以迪布斯克就算其底层的架构还是全是 form, 就算用了 chat、 g、 p、 t 等数据的整流来进行模型的训练,就算混合专家模型也不是自己最早提出来的。但是迪布 tik 将这些技术进行了整合,用了巧妙的方式,用 不到 chart gpt 二十分之一的算力,就训练出了可以媲美 chat gpt 的模型,这就是一种创新,至少也是工艺上的一种创新。 第二大争议就是人工智能到底是效力革命还是资源黑洞?自从大语言模型发明以来, 从轻量级的博士开始,到最新发布的 blog, 三参数规模越来越大,训练所需的算力也越来越高。 比如 glock 三使用了十万块的 h 一百的卡进行训练,并且目前已经扩展到二十万块卡。大模型正在不断的吞噬着地球的资源。 ai 的发展初心本是要 提高我们的效率,为了全人类创造更加美好的未来,但是如果照此发展, 像古拉克赛大规模模型的批量使用,将很快会吞噬地球的资源。许多人还在担心人工智能会不会替代人工人类的工作, 其实这种担心是完全没有必要的,因为任何一次产业革命都是工种的升级,而不是替代。我们更应该考虑的是 ai 跟雷人类的资源上的消耗如何达成一种平衡。 迪博斯克仅用两千张 h 八百的卡就能实现模型的训练,因此迪博斯克的低算力发展之路才是 ai 未来正确的发展之道。 人工智能发展到现在,取得了非常瞩目的成功,但同时还有许多的问题没有解决。 接下去让我们来一起思考 ai 的发展之路该如何走。我想从道与数之间的关系来分享我的观点。 人工智能的研究归根到底是研究智能从哪里来,又将走向何方的问题,是一个哲学的命题。 人工智能发展到现在,算法越来越复杂,模型越来越多,我们看到在哈根飞日上,目前开源的模型已经达到了一百四十七 万个,而过去过,而去年的此时才二十万个雾里开花,水中望月,这种堆量不堆字的发展之路,难道是 ai 的发展方向吗?中国有句古话叫大道至简, 比如商高在公元前一千年就发明了,就发现了勾三股四弦五的勾股定律多么的简单明了。 道不足则多术。道德经有云,有道无术,术尚可求也。有术无道,止于术。道是规律、道理和本源, 而数则是指具体的方法和技巧。这句话告诉我们,在解决问题时,只有 掌握了事物发展的规律,才能更好的寻求技巧和方向。而只有真正理解和掌握了当和数,才能更好的应对各种问题,举一反三,不断取得成功。 何为道?老子在道德经第四十章中提到,道生一,一生二,二生三,三生万物, 万物复因而抱养充气以为和。孔子又在易经戏词里提到,行而上者为之道,行而下者为之气。 因此,道是一个行而上的概念,是任何事物的本源,每个人都有自己 的道,每种事物也都有自己的道,所以人工智能也有属于自己的道。 要搞明白人工智能,我们首先要悟出智能之道。智能的道具象化后产生的智能,即道生依。此时智能只是以一个抽象的整体概念而存在。 智能一声二,即阴阳,其中智为音,即心智,内心之所思所想,即人工智能的算法。 能为养,即行动。外在的表现,即人工智能带给我们的能力扩展。 比如无人机,此时的智能已经具备了阴阳的两面性,智能是阴阳的统一体,但是此时的阴阳还是各自孤立的存在,这是智能发展的第二阶段, 当智能发展到第三阶段的时候,即二声三。那什么是三呢?老子提到万物复因,而抱养充气以为和。从中我们可以看到这个三即是阴阳交互契合, 此时阳中有阴,阴中有阳,我们看到这个太极土与一生二的土有着明显的区别,阴阳通过气而融, 融合了,反应到人工智能上,就是解决了人力安全的人工智能才是最完美的人工智能,这个人力安全就是需要我们解决的三, 有了这个山,才能山生万物,为人类造福。来,我们来举几个伦理安全的例子。 我们先来看一个场景,一辆自动驾驶的汽车行驶在桥上, 前面突然穿出一个奔跑的小孩,只是自动驾驶车能精确的判断出,如果不刹车就会撞到小孩,但是如果紧急刹车,车子会侧翻,必然会对车上的乘客,也就是主人造成伤害。这时 自动驾驶该如何决策?我们再来看另一个场景,这是一个思想实验,一辆行驶的电车行驶到匝道口, 此时发现如果继续前行,就会压死在轨道上的五个人, 如果左转就会压死左边轨道上的一个人,这时候该如何决策?功利主义认为应该左转,因为这样的结局对社会的整体利益是最大的。 但是康德主义认为左边的那个人是无辜的。电车应该继续前行,此时如果有 ai 来控制这根拉杆,他又该如何选? 选择?我们再来开一个场景,一家提供外卖的服务平台,可以从以前的数据中计算出,从卖家送货到客户的手里只需要二十分钟,因此算法设定二十分钟为标准时间, 超过时间就要罚款和扣分,如果节省时间,则可以获得奖励 万美元。为了获得奖励,都选择加快了速度。经过一段时间的统计,算法会认为原来设定的二十分钟时间太长了,给平台造成了损失, 同时也给外卖额外的奖励,就把标准时间缩倒了十八分钟。这开始是环境 给 ai 的强化学习,然而事实上更像是 ai 对外卖员的一种强化学习,这种边界又该如何确定?还有很多这样的算法和偏见的案例,比如银行的信贷算法,比如求职的算法歧视, 比如网购的刷单抢流量等等。从上面的讨论我们就可以发现, 只有算法的不是人工智能,有了算法也能行动的,也还不是真正的智能。只有落地应用,给人类带来美好生活的人工智能,才是真正的人工智能。 人工智能发展到线上,算法越来越精妙,能力 越来越强,但是许多问题一直没有解决,比如机器人三守则,机器人能做到吗?我们该把人工智能当工具还是人? 当个人的隐私与公共安全冲突时,我们又该如何选择?人工智能是否会造成教育不公?面对 ai 的算法统治和偏见,我们该怎么办? 不同种族和宗教信仰的人群又如何达成伦理共识? aigc 的幻觉是不是造假? 通过 ai 换脸进行诈骗又该如何杜绝?学术成绩如何防范?造成这样的一种困境的原因,我认为目前的 a ai 还处于一升二的阶段,目前的系统是基于零一这样一种二元关系的不二代数建立起来的,只有阴阳即非阴即阳,无法实现二升三。 现实世界的系统是阴阳契合的,这个契就是价值观。三生万物的思想就是实现阴阳相合的契。 只有找到和做到这个山,才能让 ai 真正的为人类服务。中华的先祖早就在 哲学的高度为 ai 的发展指明了方向,并且一再告诫道,不足则多数,有数无道止于数,方向错了,再 多的努力都是白费。中国的 ai 要创新,不仅要从技术上突破,还要从理论上进行突破,也许我们更应该从中国几千年的文化底蕴中寻求创新的基因。 所以在我们浙江大学的通史课里,我们一再向同学们强调,不要光沉溺在复杂的算法中,要有批判精神,要算法向善。 diversick 带来的是全民普惠的技术福利,那么我们该如何使用 diversick 扩展我们的能力呢?前面陈建海老师已经仔细讲了如何在本地部署 diversick 的模型,现在我来讲一下如何使用私有的数据,也就是我们自己积累的知识来扩展 dbc 的一种能力。 利用本地知识库进行垂直领域的应用,可以通过两种方法来实现,一种方法叫解锁增强,简称 lag veg, 是一种将传统生成模型与外部知识库检索技术结合的方法,自带提升模型生成内容的准确性、相关性和事实性。 其核心思想是在生成答案或执行任务前,先从海量的数据中解锁出与当前问题最相关的 信息,在基于这些信息生成最终的结果。另一种方法叫微调,就是用知识库对原模型的参数进行部分的调整或者增加, 身边有电脑的朋友可以打开电脑来跟着下面的操作进行部署 解锁。真想的实现方法比较简单和方法一般,只要知道如何安装和使用 windows 程序,就可以轻松搞定。 一个蓝的应用包含四层模块。首先我们来开第一层,第一层是应用层,也就是用户界面,用户通过这个软件界面 输入指令和问题大模型,通过这个界面向用户说出答案。这种聊天模式的应用软件界面非常的友好,市面上可供选择的应用软件非常多,比如 china studio、 dafi、 leg、 floor、 n, a, c, l l m 等。我们再来看第二层,第二层是接口层,也叫 a p i 接口层, 软件界面输入的指令和问题,通过这个接口去调用背后装载的大模型。这种统一的接口层将不同的大模型进行分装,使用者不需要去关心背后的不同大语言模型 的具体实现细节,只需要知道这些大模型能完成的能力即可,即插即用。接口接口层也有多个产品,常用的有欧拉玛、 oban、 ai, 还有硅基流动等等。 我们再来看第三层,第三层是模型层,包括基座模型和嵌入模型,基座模型可以有很多, 比如欧拉玛支持 diversix 系列、辣妈系列、千万系列等几百种常见的大模型, 也可以将自己的模型进行量化后转化为 g g u f 格式后接入 o 拿码。 嵌入模型则是将本地的知识限量化后供大模型使用。嵌入型也有多种常见的模型,比如 b g e m 三 and bed q a 四等等。 可能大家对切入模型还不能很好的理解,这里我再稍微展开一下。因为 ai 不能直接对自然语言进行计算,所以就必须对自然语言进行数字化才能够计算, 这样的过程跟我们将图像进行数字化是一样的,切入模型就是完整完成这种文本限量化的一种工具。最后一层就是数据层,也叫知识库层,这层为 维护自己的私有化数据,数据格式支持 txt, 我的文档, pdf 电子表格,网页格式等等文件的形式。 通过这四层的架构,只要知道基本的计算机操作知识的人,就可以轻松的玩转连 reg 的本地化部署。下面我们来一步一步教大家如何在本地进行 reg 部署。 第一步,通过这个网站我们下载并安装欧拉玛,在这里我们可以选择不同的操作系统,根据你自己的操作系统 下载相应的安装软件。安装完欧拉玛以后,我们通过 这个网站下载安装 cherry studio 下载,安装完成后,我们开始下载模型。下载第一步,先下载基座模型,用这个 olamp pro 指令选择你这里需要下载的参数规模。这一步前面陈建海老师应该已经给大家教了, 我们这里需要再下载另外一个磁嵌入项量的模型,比如说 b g m a 三,也同样使用 pro 指令,然后把这个模型的名字写上去,静等系统的下载完成。 下载完成以后,我们进行 olam 接口的一个配置,首先 我们打开配置,在在 chinese 六度的界面上,这里有一个配置按钮的一个接口啊,我们打开这个配置会弹出这样子的一个窗口,这里提供了很多很多种第三方的个 api 接口,我们选择欧拉玛啊,这里有一个绿色的按钮,我们选中以后就被激活欧拉玛激活以后,他会在这里列出所有已经装载的那个模型,包括,哎,这里是一个大语言模型,还有这里是一个嵌入的一个直线量的模型, 如果这里还没有,我们可以通过第三步管理模型打开一个管理界面, 这是一个管理界面啊,在这里我们可以选择加入 diverse pick 的一些大语言模型,同时可以加入磁像量化的一些模型。 最后一步我们来管理知识库,第一步打开管理界面,第二步添加一个新的一个知识库, 在台初的界面中,我们选择量化的模型,比如说我这里选择的是一个中文化的一个词像量模型,这里可以随意输入你需要建的一个知识库名字,比如说我的知识库,最后选择保存 知识库,建立完以后,我们把自己的文件,比如说你的使用操作说明啦,比如说你的教 开啦等等,拖到这个框里面,或者直接选择这个添加文件来打开,把这些文件装载到这个界面以后,就静等,静等向量化,向量化完成以后,我们就可以进行操作了,进行使用了, 这是一个对答的一个简单的一个界面,第一步我们可以开启对话,第二步我们在这里选择模型,比如说我们选择了一个 diversic 一点五 b 的一个模型,在这里我们采用的是 olamar 的一个接口。 第三步,选择知识库。我们刚才可能建立了五到六个知识库,我们可以选择其中一个。这时候我们可以输入问题,输入问题按回车这个 操作界面,就会经过思考,把这个问题给这个问题的答案给输出。 关于 olama 的一个安全,我们还是要注意,在使用 olama 时我们也要注意。 在二零二五年三月三日,国家网络安全通报中心就通报了欧拉玛的一个安全风险,大家可以通过 ppt 上提供的网站进行查看详情。该网站提供了安全风险的隐患的一些情况, 还给出了安全加固的一些建议。当然我们也不用怕,因为任何一个软件都有可能存在风险,我们只要提高安全防范意识,定期检查即可。 接下去我们讲第二种方法,微调。微调就是在基础大模型的基础上,通过私有的专业语料的小样本数据改变模型部分或者全部的参数,以达到 已达到模型的输出能力,与专业私有的需求相吻合。常见的模型微调方法有两种模式,即罗拉和 backbone。 罗纳的核心思想是通过仅训练低质矩阵,然后将这些参数注入到原始模型中,从而实现模型的微调。这种方法显著减少了所需的训练资源,特别适合有资源有 有限的环境中使用。经过罗拉龟条后的参数会覆盖原来的基础模型的部分参数,因此模型的参数该规模不会改变,但是输出已经跟专业数据对齐了。我们来看这一张图, 这是整个基础模型的一个总体参数,一字矩阵就是这个城市的部分,我们需要训练的就是这其中的一个部分,这个部分有多大,可以由我们来沦为指定。 在训练时,蓝色部分的参数被冻结,只训练橙色部分的参数,这样这样的一个训练模式,训练速度非常的快,训练完成后,训练的 参数再融合到整个一个的基础模型的参数中。 第二种微调技术叫 backbone, backbone 就是骨架模型, backbone 微调就是通过设计一个专业的一个骨架模型,这个骨架模型可以使不同类型的深度学习网络, 比如 mlp, cnn 等,但是参数比较小。在微调训练的时候,将这个骨架模型装载在基础模型的一个输出端, 就好比在照相机前面再加一个广角镜或者滤镜。训练时基础模型的参数被冻结, 训练骨架模型,因此训练的速度也非常的快,所需的余量也不用很大。这种微调的方法非常的实用,不同的骨架模型完成不同的专业的场景任务, 推理的时候只需要切换不同的骨架模型,就好比一个专业的摄影师,通过更换不同的镜头和滤镜,就能拍摄出专业水平的照片。 下面介绍一种非常实用高效的罗拉微调方法,这是一种低代码的微调方法,我们采用的是 nama fat factory 这个框架,基本步骤如下,第一步,进行 nama factory 的安装部署, 使用 get 命令,从 get up 上面把 lama factory 这个项目科隆到本地。 第二步,我们对拿马 faker 的一些必备项进行安装。首先我们通过拍不晒 install 这个指令来升级拍不拍不晒的一个最新版本。 第二步,我们把 bites and reach 这个模块进行升级到最新的版本。第三步,执行这样的一条指令,完成 number factory 需要执行的所有的环境的 模块。在 number factory 安装完成以后,下面会产生许多的目录,我们发现这里面有五个目录是最主要的。 第一个目录叫康菲的目录,存放自定义的一个模型脚本,我们后面要介绍的一些模型的脚本都是放在这个目录下。 第二个主要的目录是存放视力的一个训练的数据样本,这个样本采用绝声格式,我们需要训练的自己的一些私人的语料,也就放在 deta 目录下。 x ample 目录存放视力的训练脚本, 我们也可以理解为这些存放的是一个大量的一些模板,我们只需要在这些模板上根据我们的需要来微调。 这里包括 trance four, 这是一个全拆微调的一些模板。 train laura 放的是 laura 微调的一些模板,还有比如说 q lara 的模板, interface 推理的模板,以及模型融合的模板等等。第四个目录是 save 的目录,我们在未调的时候,模型的输出需要有个临时存放的目录,那我们就放在这儿。 第五个目录是 models, 这里就存放合并以后的目录,就是这个 models, 就是我们存放合并以后的模型,将合并以后的模型存放到这个目录下。 第四步就是训练模板的制作,在 example 目录下,我们找到全罗拉子目录,复制南马三罗拉 s f t 点牙膜文件, 对他进行一个备份,然后重新命名,比如说命名成迪博斯克罗拉典雅姆, 再将这个文件移到 confide 的目录之下。 接下去我们修改 diversit lala 点 yamo 的模板,这里面根据自己的项目的修改相应的参数,几个及主要的参数说明如下, 比如说 model name or pass, 这里存放的是一个呃基础模型的一个本地的一个目录 啊。比如说我们这里选择的一个微调的方式就是罗拉方式啊。再比如说,哎,这里的罗拉 rank 其实就是一个低秩序的一个参数,这里就决定了我们 模型的一个微调模型的一个大小。还有这里就是从 data set 这个参数来指 指定我的一个数据集啊,有其他的参数我就不一一朗读了,有需要的可以在课后获取 ppt 或者通过邮箱来联系。 第六步,将训练的数据及拷贝到 data 目录下,并修改 data set 点音符,点交声这个文件, 在这里可以增加你的一个文件的一个缩影。比如我们使用组织学解答题这样子的一个数据集,这个数据集就是我们自己制作的一个训练数据。 最后一步,我们可以执行命令进行训练。这里的命令是 lama factory c l i, 它带有两个参数,第一个参数是 train 表, 是我进行的是一个模型的训练。第二个参数就是我们刚才修改好的一个模板文件,就是 diversic 点 yamo。 通过这个指令,我们既可以开始训练,训练完成以后,哎,这里就有最最后的训练结果显示在这,我们本例只是训练的艺人,所以说训练的误差还是比较大的。 下面介绍一个使用 dbc 可进行本地微调后实现的 ai 智能助教的功能。该软件目前我们已经在 组织胚胎学的教学中进行使用和内测,内测通过后,我们将在更多的学过中推广使用该助。智能助教可以提供 智能出题和答疑的功能,比如这是一个选择题的出题功能,用户只需要输入一段文字,或者放上一个文件模型,就可以根据这些文字输出选择题。 这个软件我们可以选图,可以选择,我们可以选择呃,那个出选择题,也可以选择出判断题,也可以选择出问等题啊。我们还可以选择推理模式和非推理模式, 也可以选择不同的参数的版本。当我们选择推力模式时,会有一个思考的过程。这个软件的用户可以是教师,也可以是学生,学生的自学过程会被 全程的记录,以提供给教师进行过程性的评价。 这是一个答疑功能,用户只需要输入问题就可以得到想要的答案。我们在这里选择答疑,然后在这里选择推理模式, 再输入问题。比如我现在有点发热咳嗽,三天三十八度该怎么办?发送这条命令以后, 这个 ai 智能助教就进行一系列的推理,最后给给出我们想需要的一些答案。 前面介绍的智能助教系统将与我们现有的虚拟仿真实验室的一些数据进行 集成,这是一届实我们中心的一体是机能智慧教学实验室,去年被评为浙江大学最美实验室称号。 主要采用集成一体式生理信号采集系统,实现了设备、软件与数据的深度融合。 该系统能够实时捕捉学生实验过程中的行为轨迹与数据变化,为教师提供了详细精准的教学评估依据。 教师锯齿能全面把握学生的实验操作与技能、数据准确技及突发情况的解决能力等,从而构建出科学严谨的一个评价体系。这种基于 大数据的评估方式,不仅确保了评价的公正性与客观性,更激发了学生的学习动力,促进实验室技能和科学数量的同步提升。 我们目前正计划将前面讲到的智能助教系统与该实验室的数据进行对接,通过 diversic 的加持进行智能化的升级。 最后,我们对人工智能的未来做个展望。中国的文化博大精深,还有许多未解之谜,比如推背土、 推背图由唐朝的李春风、袁天罡共同编著,该书通过易经八嘎的推演,能够精准的推断 出许多历史事件,比如武则天登基,唐朝延续二十一代等等。 再比如邵雍所著的梅花艺术,记载了许多通过梅花艺的推演方法来预测未来世界的实力,非常的精准和神奇。这些都是未解之谜。 总有一天,我们将会用 ai 技术来揭开推背土梅花艺术的神秘面纱。 也许人工智能正走在不断论证中医和中医的路上,中国将走出一条属于中国人的 ai 之路, 星星之火可以燎原,我们期待会有更多像迪博斯克这么优秀的模型和公司出现,造福全人类。感谢大家的聆听,敬请批评指正!


今天,我们用十五分钟的时间讲一部颠覆了时间旅行概念的科幻故事,来自于阿西莫夫永恒的终结。 这本书写于一九五五年,在银河帝国的三部曲之后,某半评分九点一。在这本著作里,阿西莫夫跨越了几万个世纪,俯瞰人的进化史。在他恢弘的构想里,宇宙、人类、生命万物在遥远的未来都会有无限种可能。 二十四世纪,一个叫马兰松的科学家横空出世,发明了时间立场,制造出了叫做立场发生器的装置,并据此发展了一整套关于永恒时空的理论基础和发展方向。 这个如同救世主角色的出现,使得全人的研究重点转移到了时空工程学。马拉松死后,历经三个世纪的发展,到了二十七世纪,人类发明了第一台可以任意穿越时空的机器,是 空户。与此同时,一个足以影响和改变人类命运的组织成立,叫做永恒时空。 永恒时空独立于一般时空,也就是现实世界的时空。不同于一般时空的流逝,在永恒时空里有无数个静止的分区,比如二十四世纪、二百四十世纪、两万四千世纪。 通俗点解释,分区是在一般时空之上的永恒时空里建立一个该地区的办事处。 最早的时候,人类以每一个物理年建造十个分区的计划稳步推进,直到三百多世纪时,发明出了大规模复制器, 可以把能量转化成物质,而且能无限复制。这次施工,分区从六七百个迅速飞涨成了几百万个,横跨二十四到几百万世纪之间。最开始建立的分区主要的作用是贸易, 且仅仅局限于运输土壤、淡水和化肥,是解决空间资源分配不均匀的加强版本。以前是南方的水比北方多,那就把南方的水往北方掉。但是分区建立之后,二十六世纪的水资源枯竭,那就从雨水分配的三十三世纪掉。 三十六世纪的爆米因为龙卷风严重欠收,就从过剩的四十六世纪获取。所以总体来说,时空分区建立之初,他是个相对单纯的年代, 没人想着改变世界这么伟大的事。直到后来,一个叫亨利威兹曼的人通过永恒时空进入到了一般时空,移去了一位国会预言车上的刹车装置, 从而避免了一场战斗的发生,人们才发现原来还可以这么玩。至此,永恒时空渐渐把他的重心从贸易转移到了现实变革行动 想象两百二十四世纪发生了一场战斗。为了避免这场战斗发生,永恒神功的专家回到了两百二十三世纪,仅需要花几分钟的时间做一点机械上的手脚。 他会导致一个年轻人错过一节本该去上的机械工程课,一生都没能进入到太阳能发电机领域。然后一个简单而完美的小设备的发明被推迟了整整十年,最终的结果是那场战斗从新的现实里消失。 当然了,再完美的现实变革也有副作用,比如现实中原有的部分生命消失,比如一万亿人的人生轨迹被改变,比如同时消失的还有太阳能发电机, 以及某些被覆盖掉的伟大的文学著作,或者举世闻名的交通工具等等,这些曾经在一般现实存在的证据,被通通放进 永恒时空的博物馆里封存。可惜的是,身处一般现实的人永远不会看到,也永远不会知晓,他们像傀儡一样被改来改去,还自以为是本该遵循的命数。 在永恒时空的设定下,二十四世纪之前的历史无法改变,所以这里蕴含了人类社会最迷人的过往。在这里,我们可以从深邃的历史中回望那段精彩纷呈的过去,探索人类拼搏过的历史。 就像在抖音精选 app 里呈现的那样,他将抖音中优质的视频内容其中在了一个 app 里。在这里,你可以充分根据你的喜好来观看你感兴趣的视频,更适合主动探索,完成深度学习。 而且里面已经帮你整理好了合集,你可以看到很多大佬关于宇宙、星空、科幻等等的内容,全程免费无广告。现在你 只需要点击左下角,就可以立即下载体验回到内容里。现实变革说起来简单,实施起来需要巨大的人力投入,这其中起到关键性作用的角色叫做时空计时。 在永恒时空里,一套关于现实变革的标准流程是这样,由观测师搜集到资料,统计师根据资料得出数据, 社会学家编写现实变革的计划,盖药计算师从无穷无尽的变革中选出对未来影响最小的时间和时间,然后报全市委员会批准,最后委派时空技师由永恒时空穿越至一般时空,完成现实变革。 由此,一个全新的现实覆盖掉了原有的现实。一个合格的施工技师需要严格的选拔标准,最重要的一条是把它从现 现实世界抽离后不会产生影响。但随之而来的一个问题,比如说,从九十五世纪抽掉了一个人,进入到了永恒时空,成为了技师。如果有一天,一场发生在九十世纪的变革导致他的父亲没能出生,那么他还会不会存在? 答案是会。因为时空技师有一个特别的 buff, 叫做立场发生器,这个装置使得时空技师永远不会受现实世界的波动和影响。 这也就意味着,时空技师必须做到完全客观和冷漠,即使变革影响到自己的家人和朋友,也必须准确无误的执行或者旁观。 当然了,全市委员会也不是吃素,在他们的规定里,如果技师来自九十五世纪,那么他将不得参与上下三个世纪的变革性。由此,人类世界在永恒时空和全市委员会的领导和组织下, 从二十八世纪到七万世纪战斗、疾病、科技的崩溃等等威胁人类生存的事件再也没有发生。 但是这样好吗?我是说,一个被掌控的、一成不变的、安逸的、没有威胁的未来,是我们需要的吗?为了进入温柔乡,从而磨灭科技树上的其他枝芽,甚至牺牲一部分人的生命,这样值得吗? 在如此恢弘的背景叙事下,个体的生命和感情就不值得尊重和表达吗?接下来,阿西莫夫通过一个时空技师的遭遇回答了这个问题。未必。