粉丝1.3万获赞18.2万

过去十几年, my secret 几乎是关系型数据库的默认选择,但这几年感觉风向开始变了,越来越多团队开始转向 post grass。 open ai 在 公开文章里提到,他们在大规模场景下使用 post grass 来支撑核心系统。 从 db engines 的 趋势图也能看到, mexico 在 缓慢下滑,而 post grass 一 路上升,再加上 mexico 开源代码更新节奏变,漫长时间无代码提交,也让不少人开始产生疑问,网上的争论也越来越多。 post grass 会成为下一个主流开源关系型数据库吗? 还是 myc 库依然更适合高病发环境?但我更关心一个现实的问题,在真实的性能面前,这两个数据库的表现到底如何?下面我们将针对各种场景压缩下用数据说话。 本次测试全部在本地刀口中异形,其中代码也托管到 gitop 上了。测试维度就是我们常见的增删改查, my secret 和 postgraph 分 别使用独立容器测试, cpu 内存等限制资源都保持一致。下面我们先看一下写录。 测试方式是向 my secret 和 postgraduate 分 别插入五十万数据,启动一万个现成并发量就是一万 数据的连接尺都设置成六十四。测试结果是,从写入延迟上看, postrescue 的 平均延迟大约是 mycq 的 四分之一, p 九九值约 mycq 的 十五分之一,最大延迟也明显更低。 也就是说,并发量在一万写入的场景下, pos 的 griselco 写入时延更短,并且时延更稳定。导致这种情况主要是两个原因,咳咳。第一,存储方式少。 ysl 的 inod 是 按照聚簇所引组织数据的数据存储在 b 加数的叶子节点中,插入时需要确定好数据页, 在大批量插入场景下,很可能会触发数据页分裂,从而产生写入延迟和抖动。 poser scale 使用堆结构,与 my scale 不 同,它的缩影与数据分离。数据会单独存储, 插入时会先把数据写入数据页,然后更新,所以不涉及底层数据重排,所以插入时通常很稳定。第二,在预制机制上,两者也有些差异。 mysqldinovdb 采用 redo log 机制,在事务提交时需要将日制刷盘。在高并发症场景下,预制刷盘策略很可能成为瓶颈,从而带来一些的写入延迟。 postscript queue 采用 right head locking 机制,简称 w a l, 插入数据时先写 w a l, 再写数据页。 postscript queue 的 w a l 采用顺序追加写入的方式,并且支持 group commit, 意味着在高病房场景下可以合并刷盘,因此大病房场景下表现会比较稳定。 接下来我们看一下查询,我主要测了查询的两种逻辑,第一种是最常见的主键查询,就是根据 id 直接获取一条用户数据。这种查询路径预期非常短,就是锁眼命中后然后返回数据。两个数据库实际测试结果差距不大, posc 需要相对平均,延迟稍微低些。 第二种是常见的分页查询,这个更接近真实业务里的列表接口,买 s q l 指标稍微好些。 linux 是 聚簇锁影结构,数据存放在主键必加数的叶子节点里,按主键排序时,本质上就是顺序扫描叶子叶,通常不需要额外排序,路径比较直接。 而 posgrid 数据库存放在堆表中,所影保存的是位置指证。在排序分页场景下,通常需要通过锁影定位再访问堆提取数据,因此路径相对会长现。 针对查询 mysqld 和 posgrid 的 表现应该是各有优势,差别不大,相当于打了个平手。接下来我们看下更新 测试。例子是批量根据主键 id 更新每条数据的 email 字段的值是随机生成的。 这个例子的关键点在于, email 也是唯一锁影之段,意味着数据库的每次更新不但会改数据,还要维护唯一锁影,也就是做锁影的冲突检查。这种 case 在 大批量场景下对数据库是较大的考验。 结果挺有意思,两者的吞吐几乎一样,都是四千八百 qps, 但延迟有些差距。 mysq 的 p 九九延迟较大,而 poscsq 的 延迟更小,意味着稳定性更好。造成以上的原因与写入类似,在于两者写入处理方式不一样。 当高并发更新锁影时, postgraceq 使用 w a l 插入数据时,先写 w a l, 再写此番数据页。 postgraceq 顺序追加写入的方式在高并发场景下可以优势更明显,所以 postgraceq 的 延迟上理论上也较好。 最后看删除测试场景是并发根据 id 删除某条数据。从测试结果看,两个数据库吞吐相差不大,但 postcode 规格的延迟明显更低, p 九九延迟也更低。 造成这种差异的原因与上面提到的类似, my sql 在 大批量删除的情况下,很可能会触发数据页合并,从而产生写入延迟 posgrid 的 缩影和数据分离,从而不涉及数据页合并。延迟上会低写。总结下, posgrid 和 mycel 从性能上对比, posgrid 在 写入、更新、删除会有些优势。查询上两者性能相当。 曾经 mc 可一直是开源关系型数据库的第一把交易,稳稳地坐在这位置上,而 postgrad 感觉一直在追赶。但在如今的 ai 场景下, postgrad 的 优势越来越明显,一些大模型公司也在主要使用它。看起来,这场数据库的江湖还远未尘埃落定。 未来谁领先?我们坐好小板凳继续吃瓜。最后感谢你的观看,我们下期见!

反正我一直觉得是什么就是说,呃,首先说我们在飞速上面待了很多年的话,就是沉淀了大量的数据文档,包括所有东西,因为这个龙虾来最大的问题是其实是你不要他动你的最核心的数据库就好了,但是你的数据库备份,你让他去分析数据,读街头做数据报表干嘛的?他有一个 有了自己的私立化主机,让他去运作就跑就好了,对吧?反正是我设的底,我跟他们设的底下就是说服务器保证不崩,不影响线上用户的体验,对吧?剩下小 bug 我 倒允许,然后的话,剩下的不要动,我们公司银银行账户,对吧?银行账户不要动,对吧?剩下的我觉得在阶阶段的话,就是 在某一个区域里边或某个小组里边做极致的这种体验和探索,因为必须要让大家去体验到一个真正的更高 level 的 一个 ai 到底是达到什么样的水平,对吧?这样的话就是它里边一定会费。当然有很多同事在问,很多这一段网友在问费涛,他干嘛一定会花钱的,一定会花,但是我想说的是, 我们很多企业老板,对吧?自己请别人吃一顿饭能花两万,对吧?给员工买一个这么贵付费的软件,然后的话,然后恨不得要员工买盗版软件,对吧?我觉得这这一块就是就是大家总要观念去变一变, 至少我们因为特别是 ai 出来之后的话,他的工具还是挺贵的。工具啊,他的还挺贵的,我们反正内部有一个小的约定,干嘛?只要你想去测试,包括国内的,国外的你要去买啊?干嘛?有的还挺贵,然后有的可能就是一个月几百美金,一二百美金。我说 对,一部分小团队,我就说你们就可以,我们给你们报销百分之九十,但你自己要出百分之十,原因是你要自己真用,对吧?你要,但是你用完之后的话,我要求他在一个月到两个月之内,你要拿出来这些东西的,要跟我们大家分享一次 啊。这是我们在决定其他人要不要更多的用,我觉得他更多是你需要把这东西你研究完之后,你必须要输出完一次,对吧?费曼学习法吗?否则的话我给你花了三百美金,对吧?也不知道到底有没有起到作用,这时候他又会去思考我到底用在公司或者工作中哪个环节,我说这是一个很好的一个方式。

今天呢就是来录制一期这个教程啊,就是比如说呀,你安装 flash, 他不是安装那个 flag 中心吗?他你要是关闭他自启动的话,他在后台我看了一下任务管理器,他其实还会在启动的时候占用你的这个, 呃,这个可以可以看一下,他可能会无视,可能会给你弹广告啊,我就可以看到 flash hyper, 这个就是 flash 中心这玩意,然后我们我开始教你啊,然后我们问加二,然后输入 s 一二 w i c e s 啊, v v i c e s, 点 m s c, 就是这串命令啊,然后点恩特,然后就会打开这个服务窗口啊,然后我们拖到中间啊,往下拉,往下拉这玩意,哎呦,我 往下拉,拉到一个叫什么 flash hyper sweet, 还有这个 flash 三条 svc, 然后我们就是点属性, 然后他他启动类型是自动,他代表就是你,你这个就是他会自己启动,可以看到中心辅助服务,确保使用最新版的凡来是 player, 这个就是后台,他会占用你贷款可能,然后我们的启动类型改成手动 点应用点,确定上面下面那个也是,我就这局不养了。 ok, 然后这这边这边就行,这边就那个,那那那就没事了,这边已经 禁禁用了。 ok, 然后我们再打开任务管理器的,你就会发现这里边的那个 flash 里面那玩意没了啊,这就代表你已经弄成功了。 ok, 行,这期视频就到这里了,下期再见。

一家来自中国的 ai 公司揭月星辰在开源 step 三点五 flash 模型后,进一步开源了该模型的与训练群众中、训练群众及配套的 step 撞训练框架。 这一举动在当前开源趋于保守的环境下显得尤为彻底。在如今 ai 巨头林立的时代,揭月星辰选择了一条非常聚焦且硬核的路径,专注于研发高性能、高效率的 ai 大 模型。 如果说智能体是能自己思考、规划、执行复杂任务的 ai 程序,那么 step 三点五 flash 就是 专为这种高级任务打造的大脑。它采用一种叫稀疏 i o e 的 聪明架构,就像一个庞大的专家智库,每次只调用最相关的几位专家来工作,这让它又快又省,推理速度极快,同时资源消耗大幅降低。 这意味着构建能实时交互处理复杂流程的 ai 助手门槛被前所未有的降低了。以往的开源好比餐厅公开了他的一道招牌菜,而今月星辰这次不仅公开了菜,还把厨房食谱乃至核心的原料配方全部开放了。他们开源的最终模型相当于即开即用的智能体大脑, 他们开源的训练权重相当于模型训练过程中的半成品,允许开发者进行深度定制。他们开源的训练框架相当于连用来训练模型的整套烹饪工具和方法手册也一并奉上。 任何开发者小团队现在都能基于这个世界级的基座,用自己行业的数据,低成本的训练出专属的、强大的行业 ai。 他直接抹平了巨头与创业者之间那赌油算力和数据,助其的高强。在顶尖开源智能体平台 opencloud 上,他的调用量已飙升至全球第二,在 hackinface 社区,下载量超过三十万次,这是全球开发者最真实的认可。这件事的重要性到底是什么?简单说, 借月星辰,中国彻底开源正在做三件事,第一,制定标准,将自己的模型架构和训练范式快速植入全球 ai 开发者的工作流中,成为智能体开发的事实标准之一。第二,构建联盟,吸引全球开发者成为其生态的共建者和推广者,形成滚雪求是的网络效应。 第三,抢占未来,在 ai 竞争的下半场智能体生态之战中,通过绝对的开放和友好,占据了最具影响力的制高点。 阶月星辰 step 三点五, flash 的 彻底开源,是中国 ai 力量从技术输出迈向生态输出和规则影响的关键一步,相信在未来全球 ai 创新的土壤里,将深深烙下中国技术的基因。

美国对中国三大运营商动手了,直接呢让你在美国呢,是接不到国内打来的电话的。那路透社最新的消息啊,美国联颁通信委员会 fcc 本周呢,发出了一个警告,可能呢,要禁止中国移动,中国电信,中国联通接入美国网络。 那怎么回事呢?简单来说呢,就是 fcc 要求三家公司呢,在一个叫做反骚扰电话数据库的地方呢,重新认证,如果说是通不过,他们就名正言顺地把这三家公司呢移除。 那一旦移除,所有的美国电信运营商呢,就必须要切断和国内三大运营商的直接通话连接, 那影响有多大呢?就如果说你在美国,你的家人朋友从国内用三家运营商的服务给你打电话,那可能呢,就是直接打不通。 fcc 的 期限呢,只有两周哈,理由呢就是国家安全威胁, 那意思就是你得证明你自己无害才行。那这次呢,其实我觉得美国这边的做法呢,多少还是有一点那种道理的哈,说实话,现在咱们国内那种骚扰电话真的是多如牛毛, 特别是驻贷的哈,天天呢冒充银行的打电话,不胜其烦。那还有其他的一些诈骗电话,还有推销电话哈,现在打电话过来呢,就基本上就是没有好事, 要是真的有这种暂停通话功能啊,还有这种筛选功能,就是要那个打电话对方能够证明自己是好的那种的,我其实都挺支持的。

这是我项目当中的代码,虽然不影响正常的业务访问,但是仍然存在两个问题,第一个就是这些变量的命名不规范,这里使用的是拼音简写, 之所以这样来做,那么是为了做一个反面的教材,让大家看一下什么样的代码是好的,什么样的代码就比较差。 那么另外一个需要优化的地方就是这个查询数据库的时候,那么这里没有使用上多现成,那么查询的速度它就是一个 c 口,一个 c 口的去查, 那么后续在优化的时候,那么这里我们就可以来做这两个优化,第一个是把它的变量名给正规化, 第二个就是把这个查询那么使用多县城,那么他查询的速度压力就转移到数据库那里,那么到时候我们再去优化数据库的这种性能,那么最终达到的一个效果就是他这个查询的响应速度比较快,而且这个代码也比较符合规范。

同学们好,我是你们的数据老师,今天我们要深入学习数据库建模的核心知识,这些内容将帮助你们在实际工作中构建高效可靠的数据库系统。首先让我们认识一下数据表先生, 它能帮我们直观理解数据结构。数据表。同学们好呀,我是数据表,我的身体里能装很多信息呢!在真实项目中,数据表的设计直接影响着系统性能和维护成本。比如电商系统需要处理用户、 商品、订单等复杂关系,良好的数据库建模能让系统运行更流畅。大家注意到数据表先生方形的身体了吗?每个格子代表一个数据字段,比如用户表就有姓名、 年龄、联系方式这些基础字段。数据表。没错,我的第一行是字段名,下面都是具体数据,像小格子一样整整齐齐。在实际开发中,我们经常看到一些常见错误, 比如把所有用户信息都塞在一个大表里,导致查询效率低下,或者字段类型设置不当。比如用字母串存储日期,给后续计算带来麻烦。现在我们来看看表之间的关系。 当一个表的字段指向另一个表的主键时,就形成了关联数据表。就像我订单表里的用户 id 指向用户表里的 id, 这样就能找到下单的用户啦。这种关联让数据不再孤立。 比如我们要查小明的所有订单,通过用户 id 就 能把两个表的数据连起来。在实际应用中,多表关联查询非常常见,但要注意避免过度关联导致性能问题。记住, 合理的表关系设计是高效查询的基础数据表。对呀对呀,关系理顺了,找数据就像走直线一样快。我见过一个案例,某公司把产品、库存、销售数据都混在一个表里,结果每次统计都要扫描全表。 后来重新设计成三个关联表,查询速度提升了二十倍。同学们,数据库建模还需要考虑数据完整性约束,比如设置主键,保证记录唯一性,外界确保关联正确。非空约束,避免数据缺失。在实际项目中, 这些约束能有效防止脏数据产生数据表。对对对,我就遇到过,因为没有设置外界约束,导致订单关联到不存在的用户,系统直接崩溃了。最后提醒大家, 数据库建模要遵循三范式原则,但也不要过度规范化。有时候为了提高查询性能,可以适当融于一些字段,比如在订单表中直接存储用户姓名,避免每次都要关联查询用户表。 同学们,你们在设计数据表时遇到过关系混乱的问题吗?可以在课后讨论区告诉我哦。下节课我们将通过实际案例演示如何优化一个存在问题的数据库设计。