微调开源模型具备Function Call讲解和演示 #小工蚁

开源大模型调优教程

196

13

167

27

举报

发布时间：2026-05-13 23:48

粉丝4.5万获赞33.3万

相关视频

01:32
大模型必备的四个开源工具弄明白四个工具，就可以上手去做大模型了。第一个工具Hugging Face，提供了大量预训练的模型，支持免费的下载。第二个工具Pytorch，提供了各种硬件算子库，可以很快构造自己的深度学习模型。第三个工具Deep Speed，可以帮助你快速将模型放到多台设备上进行并行化的训练或推理。第四个工具LangChain，可以帮助你搭建具有专业知识能力，同时可以执行具体任务的框架。#人工智能 #大模型 #机器人 #深度学习 #科技创新
3989AI大陈哥
31:17
如何在本地做「简单」的模型微调 Gitee AI 负责人彭博 #gitee #AI #大语言模型 #大模型 #大模型微调
48北京奥思研工智能科技有限公司
01:05
免费的东西又发布了，这是使用教程 Meta带来了8b和70b两个版本 #开源大模型 #AI #Meta
1226硬核狗聊AI
04:53
基于LLaMA-2微调中文大模型千元预算，效果媲美主流大模型 #小工蚁 #开源大模型 #colossalai
查看AI文稿
AI文稿
介绍一个开源的项目啊，之前也是介绍过了啊， coloso ai 啊，他今天出了一个比较重大的一篇 vlog 啊，然后他讲了一下，就是他根据啊喇喇嘛的处的这样一个架构，然后只要训练十五个小时啊，一天多一点时间啊，差不多，然后只需要数千块钱，他就可以完成一个中文汉化的这样一个模型，而且这个模型他也已经开源出来，可以商用啊，他这个模型给大家看一下啊，他已经放出来了，他这个模型的话呢，对比了像百川 gb 啊，十三 b 啊，百川二代啊，各种各样的这些模型啊， glm 杠六 b 啊，二代的六 b 模型啊，包括那个通一千问啊，包括呃那个上海人工智能实验室啊，他的这些模型，最后他发现他这个模型的话，性能达到五十三点零六啊，就很强劲，跟通一千问已经非常接近，几乎碾压其他的这个七 b 的模型啊，他这个模型很厉害，但是他只花了几千块钱啊，就做了一个微调，他就能达到这样的一个性能啊。他现在呢已经把训练的这样的一个脚本啊，包括一些原代码都已经共享出来了，这个方案其实可以非常呃用在一些行业的解决方案上面，是非常非常好的，非常非常好的啊，好，给大家看一下他为什么会达到这么强大的功能。第一个的话呢，它主要是对呃拉玛拉玛兔的这个温磁库进行了扩展啊，因为原来是三千二百啊，三万两千的磁库，他扩展到将近七万六万九千的这样一个磁库啊，因为之前我也是经常讲的，只有你把那个中文的词库进行扩展的话，那么他的编码能力会更细致，性能会更好，解码的时候才会更好，因为他要完全要理解这个中文的这些词汇，他扩展到将近七万啊，这是一个第二个人，他预训练完成之后，他的这个微调，他这个微调的这个数据啊，他用了一些高质量的这样的一个数据做了一些构建啊，他主要是分了大概六个阶段啊，对原始的数据做了一些清洗啊的一个工具包，他这个工具包的话呢，也已经放出来了，我看到他们也已经放出来，在 github 上面他也已经放出来了，我们看看他们是怎么做的啊？首先他对呃要把一些重复的数据啊，他要把他给删除掉啊，他这个里面举了一些例子给大家看一下。嗯，这个是他他首先对这些问题进行分类啊，这个旅游问题啊，计算机类啊，文学啊，他然后不同的问题，再找一些比较好的一些答案，他都把他知识问答的这个东西都把他给弄好，包括他这个翻译啊，包括逻辑推理啊，信息提取啊，纠错啊，他这个东西都都能很好的把这个问题给整理完，他是做了一些重复数据的剔除，再把一些好的一些问题进行打分，分类、筛选，这样他这个数据微调的数据比较高质量，他才能激发呃拉玛二的这样的一个中文的这种能力。而同时呢，他也克服了这个英文灾难性的遗忘的一些问题，起了关键性的作用啊，这个是同时他也用这个呃文字进行的拼接啊，最大做到四零九六个最大长度的文字的拼接进行训练。另外一个他的训练策略，他用了一个多阶段的一个啊，训练策略的话，他主要是分三阶段啊，豫训练，他是通过这个 mentor 他们训练完，这是第一阶段。第二阶段他主要是用中文的一些高质量的一些词中文知识进行注入阶段，这是第二阶段，他称之为微调啊。第三阶段他对相关知识进行回放，进行泛化啊，这个他也增加了，这个阶段是比较新颖的啊，之前我也没看到过啊，我他主要是把原来的这个知识进行理解泛化啊，去缓解这个灾难性的遗忘的一些问题啊，所以他把这个训练分成了这个三个阶段。第二第三阶段是他一个比较创新的一些点，那么他在训练的增量，训练的与数据上面，他的这个分布是比较重要的，所以他这个里面做做了一个风筒训练啊，主要是对所有的这些数据啊，要比较均衡，要保证他这个数据啊都要有啊，所以他把同一类数据又划分成十个不同的分桶，在这个分桶里面去确保这些数据是不是重复的是最好的啊。在这个过程当中他也做了一些评估的一个体系，尽量就是让他这个高质量的数据被评估出来的，进入这个预许微调训练的这样一个过程。可乐是 ai 的话呢，之前我们也是介绍过啊，他主要是去构建这种低成本、高效率的这种 ai 大圆模型的训练开发啊，他做的是比较强的，目前是比微软开源的叫 d b 的去要更强一些啊，目前的话在这个项目当中的话呢，达到了三点三万的新星，这个项目是目前是开源界作为一个底层的分布式训练的，这样一个开源的项目是非是非常非常好的啊，包括目前像上海实验室中心呃的他们出来的这些模型，基本呃也是用 closure ai 作为底层的这样一个框架进行训练。好啊好，那今天的话呢，这个话题就是呃辣妈祝中文版本啊，用几千块钱他就可以微调出来，媲美主流的大大冒险。
439小工蚁
00:24
面向初学者的开源大模型使用指南。 #人工智能 #科技 #干货分享 #AIGC #大模型
2859艾克ai分享
00:35
训练大模型门槛高吗？ llama-factory 零代码训练大模型。
#人工智能 #干货分享 #chatgpt #科技 #大模型
2136艾克ai分享
00:32
面向初学者的开源大模型使用指南 #创作灵感 #ai工具 #干货分享 #人工智能
407悉尼大学IT学姐
09:18
如何微调开源Yi-34B-200K成为Open LLM排名前三模型 #小工蚁
427小工蚁
01:12
羊驼3终于等来了！Meta发布最强开源大模型Llama3 Meta发布了最强开源大模型Llama3，推理能力、编码能力和提示响应能力提升巨大
首批上线的是8B和70B预训练模型+微调模型，支持8K上下文
8B击败Gemma 7B和Mistral 7B
70B打平Gemini 1.5 Pro和Claude 3 Sonnet
目前可以在HuggingChat 和Meta AI中体验
#ai #人工智能 #aigc #llama3 #meta
337产品君
04:36
一个视频让你成为AI老法师，Qwen1.5全流程最佳实践 #通义千问 #大模型部署
860通义实验室
02:25
Llama3开源噜
国内使用教程已来！！速用！
#Llama #llama模型 #人工智能 #教程来了
113momo57
02:23
开源大模型的八点总结#人工智能 #大模型 #AI创业
查看AI文稿
AI文稿
我对开源大模型做了八点总结，第一，现在已经形成了国外以拉玛为代表，国内以阿里的统一千万为代表的超级开源大模型的局势。开源大模型做到了七百多亿参数的规模，那能力已经是非常强悍了，这是非常有利于 ai 创业的。第二大模型，他到底开源什么呢？主要是开源这个模型和参数，但是训练代码和训练数据这个是一般不公开的，也就是你没有办法去重头训练。第三，开源和闭源对于开发者意味着什么呢？一般来说，开源有几个优点，包括数据隐私、灵活、定制成本。但是这绝对不是说开源就比碧源好哈。第四，开源不等于本地哎，经常有人觉得开源那就可以本地部署，但其实现在开源这些超级大模型之后呢，你会发现对硬件的要求很高，要根据你自己的情况来定。第五，对于大公司，他们开源的模型一般不可能是自己最好的模型，最好的模型那一定会用于自家的产品。第六，开源对厂商到底是有什么利益呢？首先是可以打击对手，比如像拉玛开源，那对于 open ai 其实就是一种威胁，而通一千问开源对于文心一言讯飞星火等也都会带来压力。第二，免费到付费的策略。你用惯了这个厂商的开源模型，当你有更高需求的时候，可能就会购买他的付费的币源模型。第三，开源模型一定会带动更多的云计算，那如果你既有开源模型，又有云服务，一定是可以促进你的云服务的。那另外呢，包括像对于知名度啊，行业标准啊，数据反馈、生态系统，建立开源都是会对厂商带来很多的利益点，所以我们再来看一下第七点，就是这个开源生态，这是比较老的一张图，那 mate 的拉码发布之后，其实很快就建立了一个非常庞大的生态，那生态当中的参与者跟喇叭之间都可能有直接或者间接的合作。第八点，非常有意思的一个例子，微软左开圆右闭圆，两头都是银麻了。一边通过 open ai 的闭圆模型去打造自家的 windows office，还有并这个产品线，另外一边也在去希腊像美塔的拉玛这样的开源模型去促进自己的云业务。关于开源大模型的详细分析以及更多 ai 相关的深度内容，欢迎大家到我的主页购买 ai 秘创。
778奇笑AI有啥用
00:23
手把手免费教你部署开源AI大模型，十分详细！#人工智能 #干货分享 #大模型部署 #科技改变生活
26赛博黑男AI
01:53
LLama3重磅发布开源免费可商用 LLama3重磅发布个人电脑也可用，免费，断网可用手把手教学 #llama3 #ollama #chatgpt #gemini #mistral
2364水山Ai漫谈
04:25
系列分享：教你打造一个本地的，免费的，企业级知识库问答系统这一集视频手把手教你把整个系统快速搭建起来 #AI知识库问答 #AI技术分享 #开源项目 #本地大模型 #AI问答
3235哈瑞
01:20
LLaMa3开源啦！我们能做点啥？#英伟达 #人工智能 #计算机 #服务器 #算力 @DOU+小助手
查看AI文稿
AI文稿
拉马三的开源对算力市场意味着什么呢？首先大家一定要重视拉马三的推出，对算力市场一定有深远的影响。第一，这次推出的是两款科研模型，一款是八十亿参数的，一款是七百亿参数的，据网上的数据，八十亿参数的性能和效果已经超过了七百亿参数的拉马尔，也就是说八十亿参数这款开源模型，它的性能非常强大，底座非常扎实，也就意味着我们可以根据八十亿参数的拉玛三的开源模型做出大量的应用出来，根据自己的数据做微调，那么应用的落地的门槛，算力门槛以及算法门槛以及技术门槛大大降低了，降低的后果可以推出来有大量原来不敢涉及或者条件不够，不足以涉及大模型垂直应用落地的一些团队、个人以及项目组会有条件、有能力、有技术去完成应用的落地，那么应用落地的速度会越来越快，导致推力卡的需求也会旺盛。总而言之，根据以上两个条件，可以推出两万元以内的卡，会需求激增，包括三零九零，四零九零，包括 a 幺零，当然了，包括四十八 g 显示的像 l 四零 l 四零 s 这种性价比高的卡，高性能的、昂贵的卡，可能会有一定的回落。大家怎么看？关注我，我们一起聊聊 ai 战力。
119搞算力的田老师

热门推荐

热门分类