给大家介绍 text to coco 最新的进展,目前自然语言生成 coco 的 这样一个应用场景来讲,目前在企业级里面用的还是非常多的,这个应用场景是非常难的。今天我们给大家介绍的是这个模型叫夕颜 coco, 它是在通一千问扣的 呃二的这个基础上,经过了微调和强化学习之后,它在 cq 生成的这样一个能力。夕颜 coco 它是也是阿里旗下的一家 实验室,他们这个实验室主要是专门做 type coco 的 这样一个场景,这个实验室目前出来的夕颜 coco 的 模型应该是整个 coco 的 行业里面开源的版本里面,目前是排名应该是属于第一的,开源里面排名属于第一的,应该算是说他好,我们先看一下这个模型,是他 三十二币在二零二五年四月份发布的这样一个版本,目前这个版本是能力还是在整个排行榜里面还是比较靠前的,我们一起来看一下。 首先我们先看一下它的这个能力,它这个模型你可以看到它是跟 g d 四 o 啊,包括 deep sea v 三, germany, 一 点五 pro, deep sea r e 这些模型作对比。首先我们还是看两个评测, spyder 跟 bird spyder 这个评测应该来讲我们之前也给大家介绍过,这个评测在 cico 整个一个排行榜里面相对来讲会比较简单一 一些的这样一个数据库的评测,它的总的得分,你可以看到 g p 四 o 大 概在八十多分和七十多分,那么夕颜 c 口三十二 b 的 这个模型在八十九分和八十六分,这个还是能力还是非常不错的,应该来讲已经超过了所有的目前 是 b 圆的这些模型,甚至开圆的这些大模型,因为它只是个三十二 b 的 小模型,它能够超过很多大模型,因为它这个能力是非常不错的,他们训练的也是非常不错。那么这个两个指标有些什么不一样?它里面用了一个新的一个数据格式,叫 m c 个码,这个我们给大家介绍一下,这个是用的是 ddl, ddl 就是 我们标准的 sql 的 ddl 的 这个码的 语言,它主要是通过这个 create table 这个方面的这种方式去创建的。 m c 个码呢,它这个里面还会有些描述,这个里 里面还有一些 sample 的 这样一些数据,所以这个 m sigma 是 他们这个是一个半结构化的这样一个表结构的这样一个数据,它用这个数据你可以看到相对来讲用这样的一个半结构化的这个 sigma 的 数据,它的准确率还可以再提升三个百分点,从八十六分上升到八十九分,那基本上都是这样的。 好,这是第一个我们要给大家介绍的第二个就是 a bird, a bird 这个评测集会更难一些,呃,也是 spy 的 这样的一个评测集,大家都觉得都做的差不多了。之后开元界又拿出了一个新的 bird 的 这样一个评测集,这个 bird 的 评测集跟我们 目前企业生产环境里面的这样的一个数据库差不多,这个准确率基本上大模型大概是在六十分到五十分左右,那么 g d 四 o 大 概在五十八分左右,五十八分左右,那好一点的像 g m 在 六十一分,像 d p、 c v 三这个超大规模六百八十五 b 的 模型是在六十九分,接近六十分 是这样的一个能力。那我们再来看一看夕颜,基本上三十二 b 的 模型是在六十七分,应该是得分是不低的。 好。第三个评测机,他们又搞了一个企业级的数据仓库的这样一个评测机,它主要是针对了 both、 greico 跟 myico 它做了一个对比,我们看看它最后的得分是五十三分到五十七分,说明是什么。目前在 text to sql 的 这样一个应用场景当中,目前大模型的准确率还不是很高,在一百分里面它只还是不及格的,所以它这个应用场景我们经常讲它的难度还是非常大的。当然难度是很大,但是大家目前还是不断的在研究,因为这个应用场景对企业级来讲是非常有价值的,因为我们大部分的数据 都是企业级的数据,都是放在关系型数据库里面啊。那么目前的七言的模型,它能够支持多种的数据库的方言,像 myico、 postgraduate, 像这个 lightsicle, 它其实都是可以支持的。 好,那我们再来看看它到底是怎么来用的这个模型因为是三十二 b 的 模型,所以它还是可以通过 v l m 来推理的, 那么它要 vm 的 版本是零点七点二这个版本就可以了,一般我们企业都能支持,关键是它的提示词,你尽可能要用它的提示词,这个方言就是指我们前面讲的这个 myico 还是 postgraduate 还是 oracle, 你 要把这个 提示词要把它写清楚你是哪个数据库方面的专家,因为不同的数据库它其实有不同的函数,对应的不同的函数,所以在 code 里面这个难度还是比较大。另外就是要描述你的问题, 描述你的数据库的 sigma, 那 这个 sigma 我 们前面讲尽可能要用这个 m sigma 的 这种方式去表示,那这样它的准确率还可以上升三个点,那么还要增加一些参考信息,参考信息是 evidence, 我 们的俗称商业逻辑,我们的商业逻辑要把它放在这个参考资料里面。还有一个就是 根据这个三个东西,当然你也可以给一些例子,你再让他生成这样的一个 c 口。好,这个是比较简单的,我们再给大家看一看他的目前的这样一个榜单,目前他这个榜单里面,夕颜的这个榜单里面,他的排名还是非常靠前的, 大家看一下,看他这你可以看到他目前在这个榜单里面他是排名第一的,这个榜单应该还是比较新的一个榜单, 这个榜单非常难的 word 的 这样的一个 c 口,目前夕颜 c 口,它目前是排名第一的,你可以看到人类专家目前的得分大概在七十六分,目前这个模型排名是在四十四点三七分,排名第一,当然跟人类专家比起来,这个差距还是比较大的。 说明 tech to c 的 这样一个应用,它目前准确率还不是很高,它目前还在找找一些方法,看看能不能进一步去提升它的准确率,目前的主要还是强化学习或者是微调哦,今天我们这样的一个视频就给大家介绍到这。
粉丝4.5万获赞32.8万


通过一种更简单的调整,把 circle 的 准确率呢从百分之八十提升到百分之百。这是来自于 worso 的 一篇文章,这篇文章呢是发表在二零二五年的十二月二十二号,那我们看他做了什么呢?他在做一个 text to circle 的 一个 agent, 他 叫 d 零啊,我们知道他的网站呢是叫 v 零。 文章说他们花了很长的一部分时间呢,做 text to circle, 用特定的一些工具啊,还有一些上下文工程的一些手段,整个设计完效果并不好,然 然后他们就尝试了其他种办法,然后把所有的这些该砍掉的都砍掉,最后呢就留下单一的一个公式,就是 bash, 也就是说 commands 命令。呃,里边呢,只用到 grab cat, 还有 l l s 这种基础 linux 命令。 然后呢,再去做 text to circle 的 时候,它的准确率呢就从以前的百分之八十呢变到了百分之百。这是他们做的第一版 agent 的 程序啊。第一版 agent 的 程序的时候,他们给这个 agent 呢, 会有好几十个工具,那我们能看到啊,这些工具的话,有 i t t 的 查找啊,有 scanma 的 查找啊,然后还有一些后验证,还有包括执行语句的一些方式,都是跟 circle 相关的,因为它要完成 text to circle 的 一个方法嘛,他们在设计这个过程中呢,发现越设计越脆弱,越设计越需要人工去维护,然后效果呢并不是很好。后 来呢,他们就想出了一种新的办法,说如果我把这些都砍掉呢,会怎么样呢?他们的 v 二版本呢,就非常简单了,说只用了 unix 这几个命令,然后查询文件,去 读取文件,还有 find, 还有 l、 s 这些基础的这些命令,这些命令呢主要用于去读寻 sql 语句的语域层。语域层之前我们在讲过啊,这是数据库层做 cube 非常重要的一款,因为它会把你数据层的底下的数据和上层的业务呢进行一个对齐, 也就是你可以理解成它是一个业务指标,对 sql 底层数据的一个描述信息就可以了,那它后边的所有这些描述信息呢,就成为文件型的这些信息,通过这几个命令去进行文件系统的读取和操作,让模型自己去思考我什么时候应该做哪些动作,我什么时候应该执行什么。最终测试下来的效果呢?它的速度呢?提升了三点五倍, 然后百分之三十七的更少的 top 看,然后百分之百的一个准确度,我们在这啊能看到他基本的一个测试的一个效果,就是他效果变强了。那这里面呢,最重要的跟我们启发是什么呢?第一点呢,是我们构建这些工具呢,也许 unix 早就已经解决了,我们就不要去重复造轮子了。 第二点呢,就是如果我们替模型写了很多提示词,告诉他一个推理的方向,有可能我们限制住了,限制住了模型更好的选择。 第三点呢,就是我们的语域层做的是非常好的,就我们非常有一个非常好的一个文档,也就是上下文的一个描述,让模型呢可以理解这些描述,去执行相关的命令。还有一点,最佳的 agent 是 使用那些最少工具的 agent。 接下来是构建 agent 的 一些指导,我们一定要从最简单的架构开始,就是模型加操作系统, 然后加上我们的目标,我们从这个阶段开始去构建我们的 agent。 真的, 如果你需要更复杂的东西去做的时候,我们才引入复杂的提示词,复杂的流程和描述,还有就是简单的一个架构呢,并不是全部, 最主要呢,你需要去投入时间去花在你的文档的修正和清晰的这些描述,还有很好的结构,因为这些结构和这些描述呢,是你能给到模型最佳的内容呢,完成更好的一些任务。 当然简单架构呢是远远不够的,我们需要花大量的时间去投资在文档啊,清晰的命名,还有一些更好的组织,完善的一些数据的结构上,让模型以更高效,更准确的能力完成我们的任务。如果你觉得今天内容对你有收获,给我点一个小心心。关注雷哥,关注 ai 工程化落地。





techto sql 方面的一些应用场景?因为我好久也没更新了这个领域,因为我们最近在帮有些客户在做,所以我可以给大家再更新一下最新的这个情况。好吧,现在大部分的 techto sql 的 应用大概是用十二 b 的 模型,它不是用大模型做的,因为大模型也没什么用, 因为 type cisco 它比较难的地方,它主要是有两三个点,就第一个,你的表和你的列有很多用户的问题,跟你的表和列哪些是有关系的,所以你这个地方要做一个叫裁剪,就是说你要根据你的问题能找出哪些表和哪些列跟你这个问题相关, 然后要找出哪些是关联的,哪些是主键,哪些是外界,你还是要能够,他应该要能够学到这个东西, 先要做过滤,否则你就爆掉了。因为你的那个上下文里面,你不可能把几百张表里面的所有的字段全是放到那个上下文里面去推理,这个全是问题, 这个肯定是不行的,这是要解决的。要解决第二个问题,如果你能够根据你的问题能够找到相应的表和相应的列, 那你要去找第二个问题,就是说你用什么样的生成什么样的 c 口,这个是比较重要的,因为你同样的结果,你生成出来的 c 口可能是不一样的,是 c 口里面一个比较难的一个东西,说你看上去这个 c 口是不一样的,但他得到的结果是一样的, 他不像我们这个做什么,这个跟解数学题是一样的,他这个过程可以不一样,最终的答案是一样的, 所以你很难判断这个大模型产生的 c 口到底对还是不对,所以我们这个里面要称之为叫要把这个 c 口要多样化,要让他去穷尽,要让他的你的问题要产生多个 c 口,再从多个 c 口里面去选一个最优的,这个也是比较难的这个东西, 这是解决 taxico 里面的第二个问题,那么第三个问题相对来讲是比较容易去解决的。你怎么知道他的这个答案是对的?就说有些时候你去查这口,这个是我们要用到那个模型的,叫一致性,你去执行多轮, 执行两轮或者三轮,至少执行三轮。三轮里面有两个答案是一样的,我们认为答案就是对的,他是这么做, 那是确保这个 type two sql 的 这个应用够见状,可以持续的跑,它是这么来做的,所以 type two sql 它不太容易做。有些人认为它很简单,但我们自己做过,我们就清楚这个应用是很难的。目前全球最顶尖的模型在处理最复杂的 sql 的 时候,人类专家的能力大概在七十几分, 目前最顶尖的模型大概在四十四分,跟人类专家还相差三十分,所以目前模型在这个方面还是有缺陷。嗯。

有人跟我让我讲这个 x two c 的 这个是 n l two c 的 这样一个应用场景, two c 的 应用场景是老生常谈,讲的也很多,它跟 i g 是 一样,没有一个我们称之为赢蛋的方案,就是没有一个最优方案,没有有些通用方案,但是没有最优。 据你的不同的数据库,根据你的不同的结构,根据你不同的应用领域,他稍微的都要做一些调整。你这样你这个 text to sql 的 这个应用还能上线,本质如果你用一个标准的产品的话,他基本上上不了线,是目前的这个 ai, 他 这个能力还没有达到这么智能的程度,本质上是这样, 因为是什么你自己想。我们那个数据库里面,就像我们公司的大致的一个系统的数据都一百多张表,很多字段定义也不是很科学, 人都搞不清楚,你不要说让 ai 搞,更搞不清楚,把一百多张表结构都喂给这个 ai, 那 又有什么用?你想让它能够产生比较好的结果,其实不行。包括像 type c 口里面还有一个硬是比较,它不单跟你的表结构有关,它还跟你的数据有关, 表结构里原始数据也有关系,省市区其实都有关系。比如说我要查一个上海市国区的一个用户的情况,但是你到底是用中文表示,还是到底是用英文表示,还是你这个省市区是用代码表示?每一家公司可能都不一样,所以你要让 ai 都能去,还是比较 本质上是这样。所以 sql 的 应用看上去很简单,让自然语言生成你的 sql 代码,但是你做的时候还有 sql 里面经常还会碰到的就是权限数据权限的问题,那又是一个非常难的,因为你知道的这个公司的这种数据要跟安全,要跟权限挂钩起来,又会变得无比的复杂, 每家公司的它这个权限又不太,角色也不太,那你要用一个统一的标准,统一的一个产品去做。 我简单就跟纵横家就简单聊聊 x to c 口吧。但目前如果你是单表查询,对大宽表查询,这个 tax to c 相对来讲还是比较, 它的准确率可以达到百分之九十几再用。比如说你再用一个智能题,再用到我们今天讲的这个记忆题,那它的准确率还会上升,它的准确上升就是它可以随着你的问题不断地去帮你去检查,对吧?帮你去细化,帮你去找原来类似的,或者原来成功过的问答, 他会变得更准。所以猪 c 口的这个应用,最近也有一家公司可能后面会让我们做一个 poc 的 这样的一个收费的这样一个项目里面也会遇到这种。 我之前呃也帮他搭了一个环境,在方案里面搭了一个,稍微测了一下,因为我们现在 ai 交付其实是很难的,很多都在细节, 所以我们一般接项目会比较谨慎,要跟我讲清楚你是什么样的数据,要做什么样东西,我们怎么样做验证,或者我们怎样做验收,你这个标准是什么要讲清楚,我稍微会搭一个环境,看看用什么样的模型,他到底是难点在哪里, 应该用什么样的算法,可能会比较优一点啊。一个报价这个环境搭完,我们稍微评估一下准确率基本上就出来。 否则你说这个 tax to coco, 你 可以收他一百万,你也可以收他十万,就差异就很大了。就像我们原来做那个网站或者做一个小程序是一样的, 有些公司让我们做小程序,你可能要花个一千万、五百万,怎么这么花钱?但有些小程序可能有些地方几千块钱别人都在做,几百块钱都在做,是不太一样的,都是小程序,都是 tax to coco 的 应用,但是这个东西相差还是非常大。

x to coco 遇到跨表怎么做?这种问题都比较宽泛,我讲讲大概的通用的解决方案。一种方案,你把你的多表连查变成一个 view, 把一个表变成一个大宽表,通过这种方式去构建,去简化你 tax to coco 的 这种应用。原来你要连表的,现在你放在一个相当于是一个 表里面,一个 view 里面,你把多表变成单表,这个也是一种方式啊,或者你见一个仕途,我们称之为叫大宽表,这个都是可以,但是有些时候你不可避免必须要宽表来进行处理,因为有些表的数据是经常发生变化,那么你这个时候你只能是多表连查 text to sql 多表联查其实也是可以的,目前这种能力它也是有的,只是说有些时候可能会不太准,如果你不太准,还是跟前面的那个方案是一样的,你可能还是要做一些什么强化学习啊,或者做一些微调,或者我们原来也是介绍过要做一个 我们称之为叫这个类似的 memory 记忆。你是一个智能体,你要把你的这个问题跟所原来的那个例子,就是原来的那问题和对应的 text to sql 的 跨表的那个例子能够结合起来,你再去查这个也是可以的。

笑不活了,当 ui 跟后端在谈论谁先被 ai 取代的时候,转头一看,数据库没了。 ai 编程领域, text to sql 算是最成熟的技术,用大白话就能操作数据库,技术壁垒被打破,运营要数据,产品要报表,直接输入查进三十天用户留存,结果秒出来。 技术领域,小白也可直接上手。以前写一条复杂 circle 要半小时,现在 ai 三秒出结果,零语法错误,跨库查询都不怕。不管是 my circle 还是 oracle, 一 句话,指令 i 自动适配语法,零学习成本,不用记复杂函数,不用懂表结构关联,小白也能当数据库大神。 企业直接省成本,招个实习生,用 tax to cico 顶三个资深 dba 的 活,工资还减半。更狠的是, ai 还能自动优化查询语句,比老程序员写的效率高三倍。问题来了,下个被 ai 完全取代的是前端还是后端?评论区说出你的观点。

消费积分系统私域商城开发方案一、系统架构设计一点一核心模块架构 text 用户端小程序 h 五、 商城前端积分展示会员中心 api 网关层用户认证流量控制业务服务层会员服务、积分服务、订单服务、营销服务数据存储层 mysql reddis, mongod, dbes 二、积分管理体系二点一积分获取规则八、技术实现建议八点一技术站推荐前端 ujs react 加小程序原生开发后端 spring boot note js 加 mysql 加 readis 缓存 readis 积分余额活动配置限流消息队列 rabbit and qufka 异步处理积分变动监控 prometheus 加 grafana 系统监控部署 docker 加 cobernetis 八点二性能优化方案积分余额缓存使用 readys 缓存。用户积分余额异步处理积分变动通过消息队列异步处理。分库分表,积分流水表按用户 id 分 表 读写分离,主从数据库分离 c d n 加速静态资源使用 c、 d n 分 发九、安全保障措施九点一安全策略 十、实施路线图阶段一、基础功能一至二个月用户账户系统基础积分管理简单积分商城阶段二、核心功能二至三个月储值系统会员等级体系 营销活动模块阶段三、高级功能,一至二个月数据分析平台 智能推荐系统社交裂变功能阶段四、优化扩展持续性能优化新玩法开发生态整合开发建议采用微服务架构,确保系统可扩展性。 设计灵活的积分规则引擎,建立完整的监控和告警机制,注重用户体验,简化积分使用流程, 定期进行数据分析和运营优化,这个系统可以帮助企业建立完整的私域流量变现体系,提升用户粘性和复购率,实现用户价值的最大化。