00:00 / 00:41
连播
清屏
智能
倍速
点赞60
00:00 / 08:29
连播
清屏
智能
倍速
点赞126
00:00 / 00:43
连播
清屏
智能
倍速
点赞NaN
00:00 / 00:41
连播
清屏
智能
倍速
点赞7153
00:00 / 01:41
连播
清屏
智能
倍速
点赞NaN
00:00 / 00:58
连播
清屏
智能
倍速
点赞1719
00:00 / 00:56
连播
清屏
智能
倍速
点赞11
00:00 / 08:27
连播
清屏
智能
倍速
点赞16
00:00 / 01:39
连播
清屏
智能
倍速
点赞53
大数据系列-05:ETL工具 一、ETL工具 “ETL工具是一种专门化的工具,它的任务是从多个源数据库中抽取(Extract)数据,并对数据进行清洗转换(Transform),然后将数据加载(Load)到数据仓库中。” 二、ETL的实现方式,常用的有三种: ETL工具:SSIS、Kettle、DataStage、Informatica等 SQL方式:SQL语言编码实现 ETL工具和SQL相结合 三、全量抽取 将数据表的“全部记录”从源数据库中“全部抽取”出来,全部复制到目标数据库目标表中。 实现形式: 1. 将目标表的所有数据,全部删除。 2. 将源表“全部记录”,全部复制到目标表。 四、增量抽取 1.增量抽取,只抽取之前“上次抽取”以来要抽取的表中“修改的数据”。 2.在使用ETL工具时,增量抽取较全量抽取应用更广。 3.如何捕获变化的数据是增量抽取的关键。 4.对捕获方法一般有如下要求: 准确性,能将系统中的变化数据按一定的频率准确地捕获到; 性能,不能对业务系统造成太大的压力,影响现有业务。 五、增量抽取方式的推荐选择 1.优先 CDC(SQL Server 、Oracle、MySQL等数据库支持) 2.无 CDC 时,使用 时间列 或 触发器(取决于业务容忍度) 3.小数据量表,可考虑“全表比对”或“快照差分” 六、数据清洗、转换 一般情况下,数据仓库分为ODS、DW、DM等三部分。 通常的做法是从ODS层到DW层,做数据清新、数据转换,将脏数据和不完整数据过滤掉。
00:00 / 26:24
连播
清屏
智能
倍速
点赞10