粉丝4.5万获赞32.2万

介绍一个开源的项目啊,之前也是介绍过了啊, coloso ai 啊,他今天出了一个比较重大的一篇 vlog 啊,然后他讲了一下,就是他根据啊喇喇嘛的处的这样一个架构,然后只要训练十五个小时啊,一天多一点时间啊,差不多,然后只需要数千块钱,他就可以 完成一个中文汉化的这样一个模型,而且这个模型他也已经开源出来,可以商用啊,他这个模型给大家看一下啊,他已经放出来了,他这个模型的话呢,对比了像百川 gb 啊, 十三 b 啊,百川二代啊,各种各样的这些模型啊, glm 杠六 b 啊,二代的六 b 模型啊,包括那个通一千问啊,包括呃那个上海人工智能实验室啊,他的这些模型,最后他发现他这个模型的话,性能达到五十三点零六啊,就很强劲,跟通一千问已经非常接近, 几乎碾压其他的这个七 b 的模型啊,他这个模型很厉害,但是他只花了几千块钱 啊,就做了一个微调,他就能达到这样的一个性能啊。他现在呢已经把训练的这样的一个脚本啊,包括一些原代码都已经共享出来了,这个方案其实可以非常呃用在一些行业的解决方案上面,是非常非常好的,非常非常好的啊,好,给大家看一下他为什么会达到这么 强大的功能。第一个的话呢,它主要是对呃拉玛拉玛兔的这个温磁库进行了扩展啊,因为原来是三千二百啊,三万两千的磁库,他扩展到将近七万六万九千的这样一个磁库啊, 因为之前我也是经常讲的,只有你把那个中文的词库进行扩展的话,那么他的编码能力会更细致,性能会更好,解码的时候才会更好,因为他要完全要理解这个中文的这些词汇, 他扩展到将近七万啊,这是一个第二个人,他预训练完成之后,他的这个微调,他这个微调的这个数据啊,他用了一些高质量的这样的一个数据做了一些构建啊, 他主要是分了大概六个阶段啊,对原始的数据做了一些清洗啊的一个工具包,他这个工具包的话呢,也已经放出来了,我看到他们也已经放出来,在 github 上面他也已经放出来了, 我们看看他们是怎么做的啊?首先他对呃要把一些重复的数据啊,他要把他给删除掉啊,他这个里面举了一些例子给大家看一下。嗯,这个是他他首先对这些问题进行分类啊,这个旅游问题啊,计算机类啊,文学啊,他然后不同的问题,再找一些比较好的一些答案, 他都把他知识问答的这个东西都把他给弄好,包括他这个翻译啊,包括逻辑推理啊,信息提取啊,纠错啊,他 这个东西都都能很好的把这个问题给整理完,他是做了一些重复数据的剔除,再把一些好的一些问题进行打分,分类、筛选,这样他这个数据微调的数据比较高质量,他才能激发 呃拉玛二的这样的一个中文的这种能力。而同时呢,他也克服了这个英文灾难性的遗忘的一些问题,起了关键性的作用啊,这个是同时他也用这个 呃文字进行的拼接啊,最大做到四零九六个最大长度的文字的拼接进行训练。另外一个他的训练策略,他用了一个多阶段的一个啊,训练策略的话,他主要是分三阶段啊, 豫训练,他是通过这个 mentor 他们训练完,这是第一阶段。第二阶段他主要是用中文的一些高质量的一些词中文知识进行注入阶段,这是第二阶段,他称之为微调啊。第三阶段他对相关知识进行 回放,进行泛化啊,这个他也增加了,这个阶段是比较新颖的啊,之前我也没看到过啊,我他主要是把原来的这个知识进行理解泛化啊,去缓解这个灾难性的遗忘的一些问题啊,所以他把这个训练分成了这个三个阶段。第二第三阶段是他一个比较创新的一些点,那么 他在训练的增量,训练的与数据上面,他的这个分布是比较重要的,所以他这个里面做做了一个风筒训练啊,主要是对所有的这些数据啊,要比较均衡, 要保证他这个数据啊都要有啊,所以他把同一类数据又划分成十个不同的分桶,在这个分桶里面去确保这些数据是不是重复的是最好的啊。 在这个过程当中他也做了一些评估的一个体系,尽量就是让他这个高质量的数据被评估出来的,进入这个预许微调训练的这样一个过程。可乐是 ai 的话呢,之前 我们也是介绍过啊,他主要是去构建这种低成本、高效率的这种 ai 大圆模型的训练开发啊,他做的是比较强的,目前是比微软开源的叫 d b 的去要更强一些啊, 目前的话在这个项目当中的话呢,达到了三点三万的新星,这个项目是目前是开源界作为一个底层的分布式训练的,这样一个开源的项目是非是非常非常好的啊,包括目前像上海实验室中心呃的他们出来的这些模型,基本呃也是用 closure ai 作为底层的这样一个框架进行训练。 好啊好,那今天的话呢,这个话题就是呃辣妈祝中文版本啊,用几千块钱他就可以微调出来,媲美主流的大大冒险。

我对开源大模型做了八点总结,第一,现在已经形成了国外以拉玛为代表,国内以阿里的统一千万为代表的超级开源大模型的局势。开源大模型做到了七百多亿参数的规模,那能力已经是非常强悍了,这是非常有利于 ai 创业的。第二 大模型,他到底开源什么呢?主要是开源这个模型和参数,但是训练代码和训练数据这个是一般不公开的,也就是你没有办法去重头训练。第三,开源和闭源对于开发者意味着什么呢?一般来说,开源有几个优点, 包括数据隐私、灵活、定制成本。但是这绝对不是说开源就比碧源好哈。第四,开源不等于本地哎,经常有人觉得开源那就可以本地部署,但其实现在开源这些超级大模型之后呢,你会 发现对硬件的要求很高,要根据你自己的情况来定。第五,对于大公司,他们开源的模型一般不可能是自己最好的模型,最好的模型那一定会用于自家的产品。第六,开源对厂商到底是有什么利益呢?首先是可以打击对手, 比如像拉玛开源,那对于 open ai 其实就是一种威胁,而通一千问开源对于文心一言讯飞星火等也都会带来压力。第二,免费到付费的策略。你用惯了这个厂商的开源模型,当你有更高需求的时候,可能就会购买他的付费的币源模型。第三, 开源模型一定会带动更多的云计算,那如果你既有开源模型,又有云服务,一定是可以促进你的云服务的。那另外呢,包括像对于知名度啊,行业标准啊,数据反馈、生态系统,建立开源都是会对 厂商带来很多的利益点,所以我们再来看一下第七点,就是这个开源生态,这是比较老的一张图,那 mate 的拉码发布之后,其实很快就建立了一个非常庞大的生态,那生态当中的参与者 跟喇叭之间都可能有直接或者间接的合作。第八点,非常有意思的一个例子,微软左开圆右闭圆,两头都是银麻了。一边通过 open ai 的闭圆模型去打造自家的 windows office, 还有并这个产品线,另外一边 也在去希腊像美塔的拉玛这样的开源模型去促进自己的云业务。关于开源大模型的详细分析以及更多 ai 相关的深度内容,欢迎大家到我的主页购买 ai 秘创。

拉马三的开源对算力市场意味着什么呢?首先大家一定要重视拉马三的推出,对算力市场一定有深远的影响。第一,这次推出的是两款科研模型,一款是八十亿参数的,一款是七百亿参数的,据网上的数据,八十亿参数的性能和效果已经超过了七百亿参数的拉马尔, 也就是说八十亿参数这款开源模型,它的性能非常强大,底座非常扎实,也就意味着我们可以根据八十亿参数的拉玛三的开源模型做出大量的应用出来,根据自己的数据做微调, 那么应用的落地的门槛,算力门槛以及算法门槛以及技术门槛大大降低了,降低的后果可以推出来有大量原来不敢涉及或者条件不够,不足以涉及大模型垂直应用落地的一些团队、个人以及项目组会有 条件、有能力、有技术去完成应用的落地,那么应用落地的速度会越来越快,导致推力卡的需求也会旺盛。总而言之,根据以上两个条件,可以推出两万元以内的卡,会需求激增,包括三零九零,四零九零,包括 a 幺零, 当然了,包括四十八 g 显示的像 l 四零 l 四零 s 这种性价比高的卡,高性能的、昂贵的卡,可能会有一定的回落。大家怎么看?关注我,我们一起聊聊 ai 战力。