00:00 / 01:56
连播
清屏
智能
倍速
点赞13
00:00 / 03:12
连播
清屏
智能
倍速
点赞24
今天咱们把 ETL 全流程讲明白。企业做数据分析,数据从哪来 企业做数据分析时 ETL 是什么 数据从哪来 怎么处理 怎么存这一套流程 简单说是什么 把数据从各种地方弄过来 处理干净 再存到目标库里供后续分析使用 ETL 第一步是什么 数据提取 数据提取要做什么 确定数据来源 数据主要有哪三个来源 数据库 API 接口 文件 从数据库提取数据常用什么 常用 SQL 查询提取数据 用什么连接数据库 用数据库驱动 比如 Java 用什么 JDBC 从 API 接口获取数据怎么做 发 HTTP 请求 RESTful API 一般用什么请求 GET 请求 很多 API 需要什么 认证 返回的数据通常是什么格式 JSON 或 XML 格式 数据如何解析 工具会解析 从文件提取数据涉及哪些文件类型 常见的 CSV JSON XML 等文本文件 不同类型文件如何处理 有不同的解析方法 ETL 第二步是什么 数据转换 数据转换为什么关键 要把数据处理干净 数据转换包括哪些操作 数据映射 过滤 数据类型转换 数据清理 数据映射要做什么 定义源数据和目标数据的对应关系 确保什么一致 字段名和数据类型一致 过滤的目的是什么 删除无用数据 减少数据量 数据类型转换要保证什么 保证源和目标数据类型兼容 数据清理包括哪些内容 删除重复记录 处理缺失值 标准化格式等 目的是什么 确保数据质量 ETL 最后一步是什么 数据加载 数据加载前要做什么 准备目标系统 确定存储位置 存数据库要做什么 建表并配置连接 数据加载策略主要有哪两种 全量加载 增量加载 全量加载适合什么情况 第一次加载或源数据大改 有什么优缺点 优点是数据完整一致 缺点是速度慢 占资源 增量加载怎么做 只导入新增或修改的数据 适用于什么场景 平时更新数据常用 有什么优点 效率高 资源消耗少 ETL 全流程是怎样的 从数据库 API 文件提取数据 通过映射 过滤 类型转换 清理处理数据 再用全量或增量策略加载到目标系统 ETL 流程扎实有什么意义 数据是否准确可用 做数据分析搞清楚 ETL 流程有什么作用 才能真正用数据说话 #ETL #数据提取 #数据转换 #数据映射 #数据清理@DOU+小助手
00:00 / 02:00
连播
清屏
智能
倍速
点赞14
00:00 / 06:53
连播
清屏
智能
倍速
点赞2
数据驱动的时代,每天产生海量数据,你知道这些数据是怎么被处理 数据驱动时代每天产生海量数据这些数据是怎么被处理和分析的要点 今天聊的两个核心技术 OLTP 和 OLAP 别看名字只差俩字母作用却天差地别搞懂它们才算真正入门数据处理的要点 OLTP 全称联机事务处理它负责日常业务操作像网购下单超市扫码结账客服记录用户信息等实时操作背后都是 OLTP 在运行的要点 它的核心目标是快速处理事务保证数据准确所以用关系型数据库数据存储规范且尽量不重复这样多人同时操作时响应快数据也不会乱的要点 它处理的是当前数据单条事务数据量不大主要保证日常业务顺畅运转的要点 OLAP 联机分析处理用于数据分析专门从历史数据里找规律做决策比如老板问过去半年哪个地区销量最好不同产品在各季度的增长趋势等多维度分析就得靠 OLAP 的要点 它存储大量历史数据用多维模型提前把数据汇总好所以无论从时间地区产品哪个角度查询都能快速出结果辅助决策的要点 OLAP 细分有哪三种 第一种 MOLAP 多维 OLAP 会在数据存入时按既定维度和指标提前算好汇总数据查询速度快但维度和指标需提前定死不够灵活存储成本高适合广告主看投放报表这类维度固定的场景的要点 第二种 ROLAP 关系型 OLAP 不提前计算查询时实时计算灵活性强适合数据分析师做探索性分析但数据量大或查询复杂时可能较慢的要点 第三种 HOLAP 混合 OLAP 结合了前两种查汇总数据用 MOLAP 保证速度查明细数据用 ROLAP 保证灵活兼顾性能满足分析需求还能节省存储空间的要点 OLTP 负责现在处理日常业务操作保证高并发快响应数据准的要点 OLAP 负责过去分析历史数据支持多维度查询辅助决策的要点 企业里 OLTP 是业务发动机 OLAP 是决策导航仪选对技术数据才能变成生产力的要点 下次聊数据处理把这俩说出来绝对专业的引导 OLTP OLAP 联机事务处理 联机分析处理 #MOLAP #ROLAP #数据处理 #数据分析 #关系型数据库 @DOU+小助手
00:00 / 02:12
连播
清屏
智能
倍速
点赞6
00:00 / 03:00
连播
清屏
智能
倍速
点赞21
00:00 / 01:03
连播
清屏
智能
倍速
点赞178