粉丝10获赞43

大家好,我是重庆邮电大学的雷大江老师,今天呢我带大家学习弗林克牛皮一体分布式呢实时处理引擎。 学完本章的内容之后呢,你将能够呢掌握了如下一些的知识点,首先呢是掌握了弗林克的核心技术,集齐了架构,其实呢是掌握弗林克的时间以及窗口机制。最后呢是弗林克的容错机制。 接下来呢,我们对弗林克的原理进行价格呢进行介绍。首先呢对弗林克呢进行简单的介绍,弗林克呢是一种呢分布式高性能的呢牛处理了引擎, 他不光能够的提供了高吞吐量以及高并发的了有处理的计算,他还提供的一这个的官司予以的实施计算, 他还能够来提供的批量数据处理,也就是了批处理的计算。那福宁可呢,与市面上的其他处理引擎,比如说是 buck, 他最大的区别呢,他是呢可以同时 支持了牛批一体了计算,并且了弗林克他是一种的有状态的牛处理了计算方式斯巴克了并非是一种的纯粹的牛计算呢引擎,他是用的批处理了来磨 你了牛计算,而弗林克呢,完全相反,他是一种呢纯粹的牛计算引擎他是拘留的方式呢来模拟呢批处理计算。我们呢需要给大家提一提的是,弗林克他是一种呢就是 真正的实时级别的呢,由处理计算以前他可以达到了好秒机的响应,而十八克呢,只是一种呢准时时的,一般的难以达到好秒机的响应。 接下来呢给大家介绍了弗林克中的最重要的了四种的机制,弗林克中的有四种的最重要的关键机制, 这关键机制呢在后面呢我们也会来进行详细的介绍,这里呢我们主要介绍他的基本概念以及呢主要用途。首先呢,弗林克中 最重要的一个呢机子呢是状态机制,弗林克呢是一种有状态的流计算引擎,那么状态的作用呢,主要是呢,我们弗林克是一种流计算,他需要了存储节点的中间计算结果, 另外呢,状态的保存还有利于了弗林克的进行容错恢复,那与状态呢有密切关系的是弗林克的呢切割破印的也就是了检查点的机制, 切割破音的呢,他能够去把弗林克的状态进行的存储,相当于是做一次的快照,方便的弗林克呢进行容错恢复。另外呢,因为弗林克呢他是一种 牛计算引擎,他的数据呢是不间断的产生的,是没有界限的,因此呢,我们需要有一种机制呢,能够对数据呢进行切分,我们会采用的时间作为呢切分点。 另外呢,弗林克进行容错性的恢复,他也需要了知道从哪个时间点来进行恢复,所以说呢,时间也是了弗林克中一种很重要的机制。 最后呢是窗口, window 在辅令壳中呢,他需要呢使用的窗口呢对数据进行切分,也方便呢对数据进行 聚合计算。接下来呢我们看一看呢,弗林克的核心概念,弗林克与其他 由计算引擎最大的区别呢就是呢能够进行的状态管理, 那状态的作用呢,我们刚才也给大家呢提提过这个概念,就是说我们踏回了存储,那么节点的呢,中间计算结果以及了一些了配置, 那这些状态呢,他是呢存储在弗林克的内部,存储在弗林克内部的好处呢是他部署运维了更加简单。第二个呢,他可以带来了性能上的一个极大的提升。 接下来我们看一看呢,弗林克的运行时的整体架构。弗林克的运行时架构呢,从下至上可以分为了三层,在最下层呢 是弗林克的一些了配置方式,弗林克呢可以采用的单机的方式安装,也可以采用的集群的方式安装,另外呢也可以采用云的方式部署。那么在大多数情况下呢,弗林克呢都是采用的集群的方式呢进行配置和安装的。 呃,其中的他支持了两种集群模式,一种呢是是单的漏,这种方式呢是采用的弗林克自身提供的资源调度管理器。另外一种方式呢是基于压的方式呢进行的配置安装 亚呢提供了专用的资源管理器。在中间层次呢是弗林克的呢计算引擎,这个计算引擎呢,他同时呢能够支持牛处理和批处理。 他可以结束了上层的 api 提交给他的了作业,那么这个作业呢是 run time。 这个引擎上面呢可以分为了两个模块,一个模块呢是 data stream api, 一个是 data set api。 弗林克呢将 data sit 和 data stream 也就是了批数据级以及了油数据级了,是分分开处理了, 但是呢,他们都是公用。下面的了计算引擎 基于了两种类型的 api 了,弗林克呢又提供了更多的上层的抽象的 api, 那么 api 呢,越抽象,他的表达能力呢越弱,但是呢,他对数据的 处理能力抽象性也越强,在针对于了上层 table api 和 circle 踏实了,主要是针对了关系运算了, 那针对关系关系数据的查询,弗林克呢,提供了统一的了接口,那给予了牛数据 api, 同时呢, 他提供了复杂事件处理了 api, 复杂事件呢,指的呢,就是说对不能够用时间去表示了事件的开始 次序以及了结束这样的事件呢进行处理的呢 api 接口,另外呢,针对于了数据以及 api 呢,他提供了积极学习了 api 以及了图计算的 api。 接下来呢,我们看一看弗林克中的 data stream 的概念,弗林克勒用 data stream 来表示程序中的流数据, 用户呢,可以认为他们呢是含有的元素是不可以修改的,并且呢其中的呢数量是无限的,大家可以呢,从这个图图中呢发现我们对对他是什么呢?可以使用一些算子, 例如呢 k 拜这样的呢算子对他进行处理,进行处理转换之后呢,他会转换成另外一种呢 数据流,也称为了 k 的 stream, 那么基于 k s jim 呢,我们进一步的可以使用的窗口算子,这主要是呢, 弗林克程序设计中对数据流的一些的处理方式,在后面呢,我们讲弗林克的程序结构以及了编程模式的时候呢,会具体的给大家介绍。 接下来呢,我们说一说弗林克中的核心概念,对它设置,弗林克呢系统的可以对数据级进行的转换,通常的转换的方式有了,比如说过滤, 映射,连接以及分组这些呢,转换操作与数据流的转换操作呢部分是相同的,但是有很多操作呢也不一样,这个大家需要呢在学习数据流以及呢数据及 api 的时候呢进行 的区分,还有呢我们的数据集可以从本地文件以及了本地的集合中呢进行创建,那最后呢结果 可以通过接受其呢返回,接受其呢可以把最后处理的结果呢输出到分布式文件系统以及呢其他的一些呢由处理了组建,比如 fling 卡,副卡。 下面呢我们介绍弗林克的程序的结构。弗林克中的程序呢主要由三个部分,硕士, transformation 以及 sink 组成。 那硕士呢,它主要是用于了从文件以及了本地集合中呢 读取数据。川师傅微型呢对读取到的数据或者是数据流或者是呢数据级进行的转换, sink 呢是复制了结果的最终输出,他可以输出到 hdfs 或者是卡夫卡这样的一切呢,呃输出中单中 在各个部分之间扭转的数据呢称为牛。事实上呢,我们一个标准的弗林克程序,他可以分为了 五个部分,那么第一个部分呢是创建环境,那么这里呢没有给出,在后面呢,我们介绍具体的程序结构的时候呢会给大家来讲解。再就是三个部分,对他说是传说每 以及 date, sink, 那未来呢是卡弗林克的程序呢能够运行,我们最后呢还需要调用一个执行语句。 这里呢介绍的是弗林克的数据员,弗林克呢针对的数据主要有了批处理和刘处理两种呢模式,那批处理呢,他支持的文件有 hd fs, local face system 以及 mapper r 这样的文件系统。它支持的格式呢,也是各种各样的,像 tax 类型的 csv 以及 avo, 还有了哈多坡 input for maths。 另外他支持了从 jtbc 以及 hbax 中呢,直接去读取了数据。再者呢,弗林克也可以从集合 中的读取数据。弗林克的牛处理数据员呢,也包含文件,但文件呢,可以是本地的文件以及呢分布式系统中的文件。还有呢,他支持了 so kids trim, 另外呢,支持从卡副卡中的直接读取数据。弗林可乐不光支持了一些已经定义好的了,呃,就是数据员, 他也支持了你自己定自己资深定义的一些数据员,比如说说是方可信克拉克这个接口的呢实现。


啊,真正做到一套 api 啊,一套存储体系啊,一套放马路,那我们将这套新的里面我们叫做流逝速腾啊,也就叫 streamy house, 这里大家能看到这是一个非常经典的主流的实时一线一体化的收藏的架构, 那这里面呃大家绝大部分的迷糊场景都会使弗林肯家卡夫卡去做实时数据流的处理啊,比如说我们的实时数仓,我们先看一下在刚才这个新的价格中,我们的结构是不是更简单了,因为我们引入了一个叫傣南美可 table 的这个一个概念啊, 弗林克的动态表,那弗林克的 c 扣呢?其实是可以呃流失的,也可以批示的去读写这个短暂的一个推广,也就是说呃,我们 将速速仓的分层数据全部放到弗林克,等他们给退步之中,也就是实现了实时树仓,实时树仓的处理和离线树仓是天然的一体化,因为 api 是一套,都是弗林克 c 口,所有的数据也是一套啊,这样的话实现的是实时离线一体化的这个效果。 同时还有一个新的亮点,比如说我们可以让仔仔那个 table 中的数据实时的被分析到啊,所以可以看到啊,这个价格是真正的做到了一体化啊,真正做到一套 api 啊,一套存储体系啊,一套方法论。 那我们将这套新的里面我们叫做流逝收藏啊,有一句叫 stream white house 啊,大家可能听说过 stream bb 啊,在这里面还是有一些的不同, 那通过我们这个 streamy house 的这个呃呃价格,我们可以看到我们其实是有呃起到我们 我们可以有三个优势出现,那第一个优势就是说我们实现了全链路数据的实时流动啊,这点我要强调一下,我们这个架构是可以在中态上实现数据的完整,真正的实时流,而不是明明白使流动是完全的实时流,秒级和好秒级的流动。 那第二点是说我们所有流动中的数据都可以被分析到啊,这里没有任何的数据盲点,任何数据只要他在流动,他在变化,我们都可以实时的去宽锐去分析到。 这两个因素决定了数据从他的产生开始,我们就可以实时的开始进行处理,而且他在任何环节中我们都可以进行实时的分析,两个实时同时做到。第三点,我们可以做到实时离线分析的一体化啊,这也是我们弗林克 c 扣,呃,弗林克很大的一个特点,因为我们可以 一套 api 完成所有的数据分析,用户不需要用两套 api, 不需要用两套 c 口啊,这个整个对开发者来说是非常简洁的,对运尾者来说整个架构也是非常紧急。 那刘诗书汤也是弗林克社区未来新的一年中社区的一个重点的方向,我们也是希望弗林克从啊 string processing 啊走向 stringy house, 去覆盖更大的场景,去帮助开发者解决更多的问题。

大家好,我是元一,来自中国工商银行大数据平台团队。 我们团队从二零一零年开始引入海度的技术,以提升面对海量数据时的处理能力。二零一七年开始研究并引入弗林克相关技术以提升数据处理时效。 目前,我们团队支持了工商银行内近三百个总分行应用大数据分析挖掘的需求,通过技术创新不断促进技术向业务赋能。 在工行大数据平台中,弗林克引擎支撑了实时数据、 etl 实时计算和计算结果导出三方面的技术场景。相比于金融行业早期 使用的基于文件交换、批量数据处理的方式,基于弗林克的实施计算处理能力,将数据处理时效从 t 加一提升到了秒级,甚至可以支撑交易、反欺诈这类适中干预类业务, 使数据能够更快的在多个业务系统之间进行流动、汇聚以及反馈。而在业务场景方面,工行基于弗林克实现了诸如实时营销大屏、运为监控大屏以及基于多路数据汇集后的实时营销类模型, 比如 vip 客户到店提醒客户挽留入账营销等场景。同时部分模型也会与 nlp 自然语言处理平台对接,在某些特定事件发生后的短时间内快速的触达到用户,从而在当前激烈的市场化竞争的大背景下把握住机遇。 本次 flingfold asian 给大家分享的题目是工商银行实时大数据平台建设历程及展望。 我会围绕时效、易用、可靠、降本增效这四个方面来展开全面介绍工商银行近二十年来大数据体系的建设历程,以及近几年在生化、数字化转型过程中,面对业务册持续提高数据时效性方面的要求, 工商银行大数据团队以阿帕吉 fling 为核心,建立了一套实时大数据平台,形成从业务系统数据实时产生、采集、计算、入库,最终实时的将数据返回给业务系统, 形成业务册端到端实时数据闭环。本次分享将围绕这套端到端实时数据处理链路,介绍多个金融行业可参考的实践案例, 如年终损于预测、反欺诈事件是营销等,并着重介绍 fink 引擎在这条实时数据处理列录中所起到的关键作用。同时也会和大家聊一聊工商银行在大数据平台安全加固、研发效率提升、降本增效等方面所开展的一系列工作。 希望通过和大家的交流,进一步推进 flink 在金融行业的落地、实践、实时及未来。我在 flink forward asian 等你!

在 party frank 中,瘤与瘤之间的连接和联合可以通过不同的操作来实现。以下是一些常见的方法,一、瘤的连接 connect, 瘤的连接用于将两个瘤连接在一起,但他们的记录仍然是相互独立的。 连接的两个流可以有不同的数据类型,连接操作是通过 connect 方法完成的。二、流的联合,入念流的联合用于将两个或多个流合并成一个流,被联合的流的数据类型必须相同。联合操作是通过入念方法完成的。 这样,通过连接和联合操作可以在风 ink 中实现流与流之间的数据处理和转换。连接操作主要用于两个流的交互式处理,而联合操作用于将多个流合并成一个流进行统一处理。


加的是 link 的,其案例是 link 此时计算的结案。今天主要是讲电商 pass 全渠道的实时数据主排的一个实践啊,是据水潭。 那巨水潭这家公司的话呢,它主要是以二千一四年成立的,它主要是以电商 sas 的 erp 切入这个市场,那它对接了像京东、天猫等三三百多个线上的 up, 它主要是帮助这个商家做订单管理、仓储供应链管理和分销管理。 那么目前的话呢,这个巨水潭在这个行业当中,特别是在呃双十一的这个全网的订单的话呢,他已经达到了八点五二亿的订单,那么全国每发出五到六个包裹当中呢, 又有一个是来自聚水潭系统的,对他的这个市场份额应该还是占比还是蛮高的。在国内的话呢,就还有一家公司是网店管家 啊,跟他也是类似的,嗯,呃这样的一个系统啊。原来的话呢,这个还有一家公司是被金蝶收购了啊,叫管理啊,也有类似的系统。那么拥有的话呢,其实也有类似的。但是目前巨水潭因为他跟那个仓储 wms 呃做了一些关联,所以的话呢,他在这个市场份上应该是领先。嗯, 那么我们看一下,呃做一个呃电商的这个数据中台的这样的一个公司,他们在这个呃实时数仓库上面,他们的建设和发展,他们的需求什么的。 那么去水潭的那个数据仓的这个发展的话呢,他也经过了几个阶段啊,刚开始的话呢,他们是用 cout server 啊,那么我估计他们原来呃跑的话呢,也是基于 windows 上面在跑,基于 secure server 上面跑,呃还是早期的,那么后面的话呢,他是基于那个 pg 的这个多数据, 有一些 e r p 卡不卡到那个呃 pre 呃这个呃这个这个呃 post progress c 口呃的这种方式去。 按这种方式的话呢,他发现这个能力还是不行啊。那么到了第三阶段的话呢,他跑在阿里云上面了,要是用那个阿里云是是计算的弗林克的版本。 那么到呃第四阶段的话呢,它也用了阿里云里面的 horograss, 我之前也是介绍过的,它是一个实时的数据长 horograss, 它也是兼容那个呃呃 post graceco 的这个协议的啊,跟我原来讲的那个 doris 是有点像,像我之前介绍的 kick house 也是完全可以替代 horograss 的。 他就经历了这个四个阶段。那么他的整个一个实时数据仓库的架构的话呢,他是做这样来的。呃通过关系型的数据 ids 啊 c c q server, 然后的话呢,他自研了一个数据同步的这样的一个中间键,然后呢扔到卡夫卡的消息对类里面,然后再经过阿里云 实时的计算,然后再经过卡福卡,然后入库到他的那个数据库里面去啊。然后的话呢,他的那个实时 实的这个计算的话呢,它是通过 flink 的话呢,再到那个 progress 里面去,然后做一些大数据它的一个分析啊,它通过这种架构,我看上去的话,它整个架构还偏繁琐,偏繁琐,还是相对来讲还是不是 带的加固还是比较。那么它主要还是依赖于阿里云为主,因为它本来阿里是投资加工,那么数据它的那个数据中台的话呢,它的整个这个产品体系,他们主要是被客户会非常多,所以他会分角色啊,因为他是个傻子的平台,那么他的数据量也是比较大。然后呢,他有各种各样的应用场景。 那么场景一的话呢,它主要是应用在那个在线交易的实时多维分析上面,他是一个呃呃,就是在特别是在双十一这种大促的时候,他是需要做一些那个统计啊,那么他这个解释是计算报表啊。那么第二个场景的话呢,我前面也是讲了,他们主要是 那个仓库啊,他的那个仓库的话啊,也要实时的追踪他的那个产能的情况啊,所以的话呢,这个是他的第二个应用场景啊,也要利用到那个实时计算啊,实时的做这个动态的,这个仓库的标配物物的调配, 所以它的整个一个呃,实时的那个数据中,中台的话呢,它主要是做那个实时场景的分析和实时分控的监控啊, 实施的那个分控监控的话,他主要是有些价格的紧啊,是不是那价格卖的太低了啊,或者价格了,库存实施的监控啊,是不是那个爆仓了啊,或者是这个物流处理的实施的监控啊,他是不是对订单、库存发货积压了,他应该是怎么进行 分派货啊,主要是做这部分的。那么在这个上的话呢,就是利用了这个实时的这个数据仓库,它是据阿里营的另一个呃实时数据仓库 orgas 来构建的,这样呃你这个销售售后商品,然后发货 这样的一个主机,那目前的话呢,他也对接了将近三百个平,当然他最主要新平台还是主要是天猫猫为主。物流平台的话呢,他对接了一百多家啊,什么顺丰、申通 等等。好。那么他在那个他也做一些全渠道的多场景的实时分析啊,他有一张图,嗯,他主要是面向的是运营管理、售后服务、 直播、电商、仓库主管,那主要是做给他们这些人做一些实时的驾驶的仓啊,实时的做监控。然后呢,另外一个呢,做一些大促活动的一些大屏,实时的播报案,这个在双十一里面各种活里面是经常。 那么第三部分呢,他主要是讲了实际上的实践和优化。他们目前主要看到的最大的难题的话呢,就是他有非常多的这个数据流啊,因为他有订单发货对吧,他有各种各样的状态,然后呢,订单的这个那个发货的话呢,他有 有可能会有大的延迟坑,甚至有些是超过一个月的。所以的话呢,他这个状态管理的会非常多,非常大。但是呢,他要高高实效的这个体验。所以的话呢,他用这个三个难题是通过宁可这个实时计算来解决的。嗯, 它主要是三流合一。三流合一的话呢,主要是订单流,那个订单明细流和操作的日志流。三流包括这个商品的分摊,分摊的均匀,包括这个组合的这个拆分 是它这个实时数据仓库,业务仓,然后它在多数是表里面关联的话,它主要还是用用了这个呃 union all 加上 the kibi 的这样的一个办法。 这个难度的话呢,主要是关联的周期订单流到此表到这个操作,他可能要超过一个月。他会的状态外的状 态要。那他们在用 blink 过程当中的话呢,就是发现如果是这个数据量特别大,达到 t b 级的话,它的性能会显著下,这个是他们这个效率的。另外的话呢,他原来用的版本的话,状态丢失的这种浮现灵活性。 后面的话呢,它主要是基于它的这个状态管理,是基于一个 status a a backend 的这样的一个 key value 的这样一个数据库去管理。其实它本质上就是用了一个 rock rocket db 的这样的一个方式去管理,不认可这个是实际算当中的一个状态。 而通过这种方式去 啊,他对实际上的未来的展望的话呢,他还是一样啊, up 的架构都差不多,息流一起实施分控能力的完善。这个也是帮助商家减少 这个吃啊,特别是价格啊,对吧,超卖啊啊,包括这个纯的这个吊锅啊。 编后端哦。呃,这个就是积水坛他们这个电商 pass 平台,他们实时计算的一些实践和案例。

嗯,目前马讯认定的这个拉伯利里面到底支持哪些算子或者哪些这个人工智能的算法?这个是比较重要的啊,这个我们可以往重点来讲一讲啊, 目前的话呢,它主要是支持的是哪些呢?就是第一个呢,就是线性回归,就是回归算法啊,这个我们是清楚的,是线性的,就是你把它你合成,把你所有的点你合成一条直线,叫线性回归。嗯, 可以做各种各样的预测啊,这个也是比较多的啊。啊,第二种的话呢,他这个叫做分类啊,分类的话呢,他也有四种。我看了一下啊,第一种的话就是 logic 回归,就是逻辑回归,我回头会讲,其实就是个二分类预测啊。还有一个是贝耶斯的这个分类,贝耶斯分类的话呢,他主要是做那个 多分类的这样的一个预测。比如说啊,那个逻辑回归的话呢,他主要是做就是,呃呃呃,比如说,呃, 银河一啊,只说是猫还是狗,要不就是猫,要不就是狗,就是两个分类里面选择一种啊,它是属于这种。那么贝耶斯的那个分类的话呢,它可能这个分类的总数会非常多,几十种、几百种,甚至上上千种都可以,只是说,嗯, 你是属于,呃,你可以看到这个树叶,树叶里面你可以看到,哎,这个大概是属于什么样的树种?他等于是这样,那么因为植物有非常多种,那你可以通过这个贝叶丝的这种方式,你可以去做这些分类啊,这是这是第二种分类的,呃,人工智能的模型。那么第三种的话呢,就是 svc, 就是线性的这种,呃,史量的这种分类的方法啊,他等于是这样。还有一个呢,就是 knn, 呃这种算法就是就是 k 个 dk 个元素相邻近的这样的一个分类的方法啊,这个都是一些比较经典的这样的一些分类方法啊。 那么呃第三类的话呢?他主要是聚类,呃聚类的话呢?他一般是呃他支持的是 k m 四的这样一个聚类方法,他等于是这样,这个的话呢,就是你可以给一堆的数据,然后的话你只要告诉他你给个一个值,就说我要聚类五十个,那么他自动的会帮你去 把这个五十个类给去出来,他等于是这样啊,通过这种方式来做的。嗯,好的啊,这个是人工智能的这个三个最主要的这样的一个算法,一个是回归,对吧?一个是分类,一个是聚类,这个三个啊,所以的话呢,就是我们可以看到这个布林克目前支持马性 learning 的这些算法相对来讲还是比较少还是比较少的啊? 还是相相相对来讲目前还是比较少的啊,当然他也能够支持一些评估的方法,那么评估方法目前的话呢,他只支持这个,呃这个二二分类的这个评估啊,这个是一个评估啊,他主要是算你这 这个模型,模型你训练完了之后你要去评估一下,就是他的这个准确度百分比。是这样啊,目前他只支持二分类这个评估的 这个还是比较弱的啊。还有一个呢,他也支持一些,就是呃特征工程,特征工程回头我会讲一下,详细会讲一下。他会支持五类到六类的这种特征工程啊,我会详细会讲啊。好的,那么我们先来讲一下这个现金回归啊。现金回归我们应该是怎么来做啊? 那么现金回归的话呢?他主要是做一个一个一个一个响应量,然后有多个变量,然后跟这个最终的一个预测值的这样的一个相互,那个一个限性的一个回归的这个关系的预测和分析。他等于是这样,那么他也有输入值,输入值的话呢,他可以输入多个值啊, 就是你有多个输入值啊,然后,呃,也要输入一些 liber 啊,就是预测的这个 liber liber 的话呢,就是零和一啊,他主要是啊,然后还有一个是,那是权重,就是你这个样本的权重啊,这个是一个 double 型啊,然后预测值的话呢,他主要是预测你这个你,你输入的这个值到底是零还是是一,他等于是这样啊,比如说我输入一些 一张图片,是猫的图片还是狗的图片,我把这个模型训练完了之后,然后他进来一张图,那么我去判断他是猫还是狗,他只做这样一件事情。好的,嗯,那么当然我这个比喻不是太恰当啊,他这他他他深度学习是不能做的啊,他主要是做一些,呃,线性回归啊。 嗯,这个是他的一些参数,他的一些参数。好吧,我们来看一下啊。嗯,我们来看一下,谢谢。违规。嗯啊,这个是 是他的一些,就是前面讲的一个 model 的这个 parameters 就是参数参数,这个是通过这个可以设置,可以设置 啊,这个是他的一个商铺的例子,非常简单啊,这个前面是一些训练的一些数据啊, input table, 对,然后他是就创建了一个线性回归的这样的一个 stage, 他等于是这样啊,然后的话呢,他把这个 input 输入到这个 stag 里面去,就是线性回归这样的一个操作里面去,然后他就返回了一个 model, 线性回归的这个 model 他就训练完了,训练完这个 model 之后的话呢,他才他可以把其他的数据 输入进去,然后再进行预测,等于是这样的啊,这个是一个非常简简单的一个例子,极其简单,好吧?嗯,好,那么我们再来看第二个, 第二种,第二种算法的话就是逻辑回归,逻辑回归,逻辑回归。我们看一眼,看看怎么开发的啊? 啊?逻辑回归的话呢,他他有分离线的逻辑回归和在线的逻辑回归。前面讲过的离线逻辑回归主要是大批量的训练, 他这个数据是要有边界的,对吧?你不能是无穷的数据,那么肮烂的逻辑回归的这个的话呢,就是你可以就是说你可以实施的把数据 无穷无尽的为给这个模型,让他不断的去训练,然后的话他也可以模型不断的去迭代,然后不断的可以做实时的在线的做预测。那么这样的话呢,你的数据会比较准,因为你用户的数据行为刚产生,你就把它去训练完, 然后训练完的话,你这个模型又数据又多了,你的预测会更精准,是这样,这种模型是这样。好了,这也也是一样 输入,对吧? futures 是一个 victor 是一个尺量, liber 零合一也是一样的权重,对吧?然后预测值啊,预测值的话呢,因为它是一个逻辑回归,所以的话呢,它会测你这个分类的,比如说百分比啊,可能性也是这样啊, 这个都是参数,我们看他是怎么用啊?这前面也是一样, input, 这个是一个训练 input table, 对吧?逻辑回归的这样的一个 stage, 或者叫 ai go operator, 对吧?然后这个是设置的一个权重啊,他权重到底是哪个字段?他这边是然后把它数据输入进去进行训练, 训练完了之后预测,然后把这个预测的这个推波把它打印出来,它也是一个很简单的,这个是 online 的啊, online training 就是目前逻辑回归是支持在线的这个样的一个 个训练,这个我前面讲了啊,批留一体,对吧?这个就比较重要了啊,那么他这个的话呢? input 里面他有个不太一样的一个词,我之前是看到过,他就有一个 model 的,呃, inversion 就是 model 的,这个就是你这个模型的版本,嗯, 就有这样一个模型的版本,因为你无穷无尽的数据不断的在训练,他这个模型会不断的叠单啊,这个是一个加瓦的一个这个,那他有两类训练的数据,吹零一,吹零二,对吧?预测的数据,这个啊,那么他就 我们可以看一下,对吧?他就 every list 预测模型,把它收录进去, training 变成麒麟 k, 然后这个是 sauce 预测,预测腿部,他这把这个纸全弄好,弄好了之后的话呢?然后他就初始画这个腿,然后他也是一样,昂拉你的这个 logic 的这样的一个操作,把这个初始画的这样的一个 table 进去, 然后他再把吹令这些值进行训练,训练完了之后,然后他就是预测也是一样答应,那这个这个这个模型就比前面那个有点不一样啊,有点不一样, 这个这个例子也体现了这个 link 这个 p 流一体的这个优势啊。好,最后的话呢,我们再来讲一下这个马新伦的那个特征工程,特征工程,特征工程是什么呢?就是我们要呃,因为我们呃把这个数据喂给模型之前,我们要把 把这个数据进行转换,或者叫特征化,这个就叫特征的转特征工程啊,他主要目前的话,他主要他基本上呃特征工程他支持六类啊啊,这种叫, 这个叫这种模式啊,这个叫 bank size, bank size 的话呢,就是把, 就是就是桶的缩影,就是把一些连续值啊,然后把它变成缩,呃,把它分分成几个桶,然后变成缩影。比如说我们有个叫价格段啊啊,就是说,呃,我们零到无穷大, 对吧?比如说我们从零到一百块钱,一百块钱到两百块钱,两百块钱到五百块钱,五百块钱到一千块钱,一千块钱到两千块钱,就是他不断的去封筒,然后把这个数据在哪个桶里面,然后用哪个桶的这个锁引值来表示他等于是这样,呃,这个是第一个,呃,第二种的话就是 mix size 的,这个就是最大值,最小值啊,然后进行这个就是在这个值里面,然后进行规规划啊啊,这个比一般是用在这个这个数字形上面用的会比较多啊。 还有一个呢就是,呃第三个叫文 hot income 啊, incode 啊,这个是属于这个就是自负型会比较多啊,然后的话呢,他有很多的呃单一的值,然后通过零一,零一,他有一个二进制的项量去表示你到底是白色、红色还是到底是什么值 啊?他就是通过把这个字复制啊,通过那个文化音抠的,然后把它转化,他等于是这样啊,叫乐编码啊。 那么还有一种呢,就是这个,这个呃就是呃,就是他第四种的话,就是称之为是标准差, 标准差把这个数据归一,按照标准差的这种方式,然后进行负一到一它进行处理啊, 啊?这个死死 dreaming dexter, 这个是主要是那个字符串的那个缩影啊,他等于是这样,这个的话呢,用在那个呃文本上面会比较多的啊,比如说你有一句句子啊,他用中文,中文的话呢,他就是这个字,他就代表有一个编码,有一个有一个 map 啊,这个是说这个中文字是代表一个什么数字,那个中文字代表一个什么样的数字,然后把所有这一句话都把它变成数字啊,他是等于是这样,然后呢再提供一个麦, 那么通过这个麦可以查到这个数字代表哪个本质啊?这个主要把字复形转化成一个适量的,这种方式做的会比较多。嗯,还有一种方式的话,它叫 victor 的这种就是把很多列的数据啊,把它 转换成一个单列的这个数据,那么他是通过什么来转的呢?他就是把这个,呃,他就是通过这个,就是把多列数据变成一列的这个项链啊,因为我们清楚就是推波里面可能有好多列的数据啊,那么你怎么把一列数据变成单列的这个项链呢,就是通过这个来处理的啊,这些的话呢,这些特征工程的这六个 方式的话呢,主要是在我们在预处理这些,呃,我们要把这些数据要喂给那个模型的时候,我们要进行把这些数据特征化,那等于是这样 要做一些预处理啊,那么这个就叫特征工程啊,他目前支持这六种。好啊,那么基本上这个 flink machine learning 的这个 library 就介绍到这啊,也是比较简单,不是很难啊。嗯。

我下面对你的技术这一块做一个简单的考察吧,我看你在技术这一块的简历上写了很多,比如说熟悉假网,熟悉 rask, 熟悉 gmg, uc, 呃,一部编程,熟练 nike, myceokafukarez, ymqx, uh, spring spring boat, gpa, 买别的 s, spring security, 古板的 flink, spring cloud 这些,那我就为了这些技术做一个简单的交流了。你对于 spring bottle 里面的那个自动装配这个机制是怎么理解的?呃。自动装配的话, 呃。他在沙特的话,他里面有一个配置文件,他会配一个类的路径,嗯,就是,嗯,然后这个类的路径就是自卫自动装配那个类,然后,嗯,他那个 surpro 他会扫,然后这个,呃文件,然后应该是通过反射,他是把这个类装载起来,然后,嗯,这个类再把就是我们那个 内内包里面一些用到的病,然后通过这个类去装载到所谓的上下名里,嗯,然后这样的方便的话就是很方便的管理, 就是依赖,然后包括就是我们直接紧致依赖,然后就不用他一个自动配置,就是约定大于配置的话,这样的话就很方便我们的程序要去进行开发。对,嗯嗯 嗯。你对斯顿靠的理解呢? sure 靠的话, sure 靠的话,我的理解是他一个是一个,是因为我分故事吗?就是我们的单亲应用压力承受不住,就是需要分故事来这种多个服务来协调。这个, 呃,回答压力。另一个的话就是我们的一个组织啊,比如夜幕体量大以后那个组织什么的,嗯,可以通过就是靠这种微服务的方式来,呃,很好的实现,就是每个开发团队之间的协作这样的划分隔离这个样子。嗯嗯。没有了吗? 就说一下 frecobe servecom 本身的话,他是带杯的一个,主要是刚开始像我们之间这个项目就是因为一七年的时候,那个时候,呃选择就是基本都是没 没有其他的太好的选择,就是多用的 spart 的耐飞那个,那那一套东西就是路啊,优瑞卡之类的,然后的话他的话主要是一个 app 的一个一个协议吧,然后性能的话可能不如我们那个一个呃 rpc 的直接这个呃调用。 呃,然后的话主要是上面是网关,然后内部的网关下来,然后就是我们的客户端负载均衡啊。嗯,网网关是服务端负载均衡,然后下来我们服务之间调用,可能就是呃需要用到客户端,呃负载均衡这些。嗯嗯。 robe 啊,这些,对,嗯。 你刚说 rpc 的性能这一块,你们之前用的是 gipc 是吗?对对对, ok。 呃。 gipc 它采用什么呢?序列化协议啊? g rpc 它用的是 pro pro 八 per 的一个序列化协议,它有什么样的特点?嗯,它的特点的话主要就是一个的话,比如它是二定制的一个协议嘛?嗯。然后呃序列 话就是呃比较快的二技师,他是通过呃代码生成的一个方式,嗯,就是不是通过反射来实现,这个就是序列化,就是当序列化,对,这样的话就是性能比较优一点。嗯。 他的压缩算法用了什么样的?这个具体的一个实现呢?就是他的整个压缩方法是怎么实现的?嗯,压缩方法的话, 这块我看了一下,他是通过那个 poler 八份里面文件后面那个,但是具体这块其实不太清楚。 ok, 你对年体里面的 rix 模型是怎么样理解的?呃, rix 模型的话它分为多种嘛?然后就是就是多线人模型或者组成多线人模型,然后它主要分为两块嘛?嗯,一个是我们的一个,呃,接收的一个谢层,然后 我们现在是 pose 县城嘛,然后还有一个就是我们 io 世界的一个 red white, 嗯,对一个世界的一个处理就是 io 县城,嗯嗯。然后的话他 那个呃主的话也可以多个现成池,嗯,然后来处理这种认证啊,然后登录啊这种的。对,呃。就这些,然后的话他把这个如果做完这些,他会把这个这个 china 然后绑定到我们的 io 县城去做一些 red y 的事件处理。你说的那个主员或者他可以有多个现成词是什么意思?你不用多个现成,他的意义是什么 意义的话,就是他那个,呃。有一些就是请求进来以后他有一些授权啊,呃。登录啊这些他可能就呃一个主线台主。 boss 的话多个的话他会那个进行多,优先的话他的呃量并发量会高一点吧。 boss 主要是用来干嘛的? 他可以多个吗? nike 支持多个吗?抱歉,能支持多个,那他主要职责是干嘛的?主要职责是链接请求的一个接收吧就是。嗯,那他多个线能怎么去针对这个连接去进行处理呢?是是大概说我 来了一个连接的一个线人处理吗?哦,不是不是不是,是,是这样的。嗯,就是他在那是单个。呃。一般我们都用单个,嗯,然后的话他把那些就是链接之前邮过来,然后会有一个 oslog, 然后有个现成池,然后的话这个现在是做完这些认证的,然后的话再把这个链接绑定到那个 iotello read red red rediscosta 的集群,你知道吗?知道。 嗯。瑞士咖色集群里面它是基于哈西槽的方式来实现这个分片嘛,对不对?它里面为什么使用哈西斯漏的?为什么不使用这种一次性哈西算法呢? 这个这块还没了解过,县城池有什么好处啊?他有哪些关键参数?呃。县城池的话就是一个因为县城的创建销毁他, 呃。加瓦里面现成的是对应那个操作性的,现成的话,呃。他不是。呃,绿色现成的话,就是他的成本还是挺高的,所以需要用现成尺来。呃,服用我们那个创业的现成,然后的话参数的话主要就是 我们,呃指定那个 cosra 的那个,呃数量,然后还有就是最大的现成数量,嗯,然后还有就是我们那个临时现场就是存活的时间的长短,嗯,呃。还有就是我们这个,因为我们那个现场如果处理过来有一个主色对列吗?主色对列的一个大小,嗯。然后还有他比如说我们这个处理不过来,然后他怎么去拒绝这个 拒绝策略?嗯。那个吉利克里面提供了一个叫 new case 的 suripo, 它有什么样的特性啊?嗯, upadsuripo 的话,它的话就是进来一个县城就会处理,然后的话它那个最大的那个组成对联值的话是那个就是引太多人的 max, 所以就是 一般是不推荐用他,因为他那个不可控吗?因为他就是会耗尽我们的内存,对,你说进来一个任务就会有个限制去处理是吗?不是,就是他,他那个对列就是是是无限大的。 uk 对列是无限 大的吗?我记得是他,是他设计的,是银台的 mxy 六。 ok, 那个我再问一下,就是买鞋口里面他的事物隔离级别是有有哪些 买塞口的师傅,格力级别的话四种吧,就是独立提交,独立提交可重复读,然后。呃差题换了,嗯,然后他的末日级别的话就是可重复读, 然后因因为他又我们一般用英能 db 嘛,然后他用可纯厚度的话就避免了换毒啊,然后就是脏毒啊这种各种的一种异常情况,所以我们一般都用可纯厚土啊,是怎么去解决换毒的?就你刚说的那个默认的隔离级别 换读的话,他是通过 mvcc 各版本并发控制嘛?呃,然后的话他每他比如我们一个一个那个什么 slad 的话,如果加上 frd 他会通过这个锁锁定一个范围,然后我们在另一个事务区。呃,踏入什么会运行? 我会进行堵塞。哎,你刚刚说是 mvcc, 那如果你加负阿不带的话是属于 lbcc, 就是你的属于那个锁的级别了,这个那就没有依托于 mvcc 这个其实是不是。嗯, ok, 没关系。那我再问一下关于那个网络模型里面吗?然后另一个是里面。呃那个一破模型他是一个什么样的工作原理? 呃。一炮的话他主要是有三个指令嘛,一炮的话他是一个数据结构,然后我们通过一炮克瑞特,然后去创建一个呃一炮,然后的话我们这个就是通过呃一炮瑞特我们应用成,然后通过 用户态,通过一波位的一直龙行调用,然后他可以同时接听就是我们所有的套接字,嗯,呃,所有的 md, 然后说有,有这个时间的话,他会把这个 ld 的一个呃 io 世界来返回给我们用户。对,嗯嗯。然后的话他还有就是两种的触发模式嘛,毕业触发、水平复发,然后 我们 gdk 里面的话默认使用的水平触发,嗯,呃水平触发的话就是不管这个,比如这个世界没有那个完成嘛?嗯,然后他还会就下次继续通知,毕业出发的话就是他通知一次,下次就是你需要你自己去 呃接听这个就是未完成的一个呃套节字里面的一个世界,所以就是呃这个时间难度比较大一点。对,嗯。