数据驱动的时代,每天产生海量数据,你知道这些数据是怎么被处理 数据驱动时代每天产生海量数据这些数据是怎么被处理和分析的要点 今天聊的两个核心技术 OLTP 和 OLAP 别看名字只差俩字母作用却天差地别搞懂它们才算真正入门数据处理的要点 OLTP 全称联机事务处理它负责日常业务操作像网购下单超市扫码结账客服记录用户信息等实时操作背后都是 OLTP 在运行的要点 它的核心目标是快速处理事务保证数据准确所以用关系型数据库数据存储规范且尽量不重复这样多人同时操作时响应快数据也不会乱的要点 它处理的是当前数据单条事务数据量不大主要保证日常业务顺畅运转的要点 OLAP 联机分析处理用于数据分析专门从历史数据里找规律做决策比如老板问过去半年哪个地区销量最好不同产品在各季度的增长趋势等多维度分析就得靠 OLAP 的要点 它存储大量历史数据用多维模型提前把数据汇总好所以无论从时间地区产品哪个角度查询都能快速出结果辅助决策的要点 OLAP 细分有哪三种 第一种 MOLAP 多维 OLAP 会在数据存入时按既定维度和指标提前算好汇总数据查询速度快但维度和指标需提前定死不够灵活存储成本高适合广告主看投放报表这类维度固定的场景的要点 第二种 ROLAP 关系型 OLAP 不提前计算查询时实时计算灵活性强适合数据分析师做探索性分析但数据量大或查询复杂时可能较慢的要点 第三种 HOLAP 混合 OLAP 结合了前两种查汇总数据用 MOLAP 保证速度查明细数据用 ROLAP 保证灵活兼顾性能满足分析需求还能节省存储空间的要点 OLTP 负责现在处理日常业务操作保证高并发快响应数据准的要点 OLAP 负责过去分析历史数据支持多维度查询辅助决策的要点 企业里 OLTP 是业务发动机 OLAP 是决策导航仪选对技术数据才能变成生产力的要点 下次聊数据处理把这俩说出来绝对专业的引导 OLTP OLAP 联机事务处理 联机分析处理 #MOLAP #ROLAP #数据处理 #数据分析 #关系型数据库 @DOU+小助手
00:00 / 02:12
连播
清屏
智能
倍速
点赞4
咱们做数据的,是不是都遇过这些问题:数据仓库查结构化数据快, 做数据的遇过数据仓库存不了非结构化数据数据湖找数据费劲质量没保证的问题 湖仓一体把两者优点结合起来的情况 啥是湖仓一体 数据湖和数据仓库整合为一个统一平台的要点 原始数据先放数据湖不管是结构化半结构化还是非结构化数据像用户日志订单表等全接收同时在湖里做初步模式定义和质量控制的情况 需要分析的核心数据再提到数据仓库做深度清洗整合供业务人员使用既存得全又用得顺的要点 湖仓一体具体怎么做 分哪四步 第一步数据摄取所有原始数据先放入数据湖的要点 第二步数据处理在湖里做基础清洗格式转换的要点 第三步数据整合把核心数据提到数据仓库做关联汇总整出统一访问接口的要点 第四步数据消费业务同事从数仓查数数据科学家从湖里拿原始数据各取所需的要点 湖仓一体架构能火的核心有哪五个特点 事务支持多条数据管道同时读写数据一致性有保障的要点 数据治理模型灵活可变能管理数据权限和质量方便审计的要点 BI 直接用不用导来导去分析快延时低的要点 存算分离用开放格式能应对大量数据和多人查询的要点 开放性啥活儿都能干不挑场景的要点 对企业来说湖仓一体有哪些好处 数据管理任务减少不用来回导数据的要点 治理更规范安全权限统一管理的要点 成本降低一个平台顶俩用的要点 举电商例子每天用户购物记录浏览点击数据和社交媒体评论全进数据湖湖里清洗后把销售库存数据提到数仓的情况 业务同事从数仓看销售趋势预测库存数据科学家从湖里扒原始行为数据做模型训练的要点 数据湖管全数据仓库管精两者配合让业务决策更准的要点 怎么方便找数据用数据 建数据资产目录数据情况一目了然的要点 把数据封装成 API 接口查询灵活的要点 做这些工具很重要 FineDataLink 功能全做数仓建设可以了解的要点 湖仓一体让数据存得下管得好用得上做数据的真得了解下的引导 #湖仓一体 #数据仓库 #数据湖 #数据整合 #FineDataLink @DOU+小助手
00:00 / 02:22
连播
清屏
智能
倍速
点赞2
今天咱们把 ETL 全流程讲明白。企业做数据分析,数据从哪来 企业做数据分析时 ETL 是什么 数据从哪来 怎么处理 怎么存这一套流程 简单说是什么 把数据从各种地方弄过来 处理干净 再存到目标库里供后续分析使用 ETL 第一步是什么 数据提取 数据提取要做什么 确定数据来源 数据主要有哪三个来源 数据库 API 接口 文件 从数据库提取数据常用什么 常用 SQL 查询提取数据 用什么连接数据库 用数据库驱动 比如 Java 用什么 JDBC 从 API 接口获取数据怎么做 发 HTTP 请求 RESTful API 一般用什么请求 GET 请求 很多 API 需要什么 认证 返回的数据通常是什么格式 JSON 或 XML 格式 数据如何解析 工具会解析 从文件提取数据涉及哪些文件类型 常见的 CSV JSON XML 等文本文件 不同类型文件如何处理 有不同的解析方法 ETL 第二步是什么 数据转换 数据转换为什么关键 要把数据处理干净 数据转换包括哪些操作 数据映射 过滤 数据类型转换 数据清理 数据映射要做什么 定义源数据和目标数据的对应关系 确保什么一致 字段名和数据类型一致 过滤的目的是什么 删除无用数据 减少数据量 数据类型转换要保证什么 保证源和目标数据类型兼容 数据清理包括哪些内容 删除重复记录 处理缺失值 标准化格式等 目的是什么 确保数据质量 ETL 最后一步是什么 数据加载 数据加载前要做什么 准备目标系统 确定存储位置 存数据库要做什么 建表并配置连接 数据加载策略主要有哪两种 全量加载 增量加载 全量加载适合什么情况 第一次加载或源数据大改 有什么优缺点 优点是数据完整一致 缺点是速度慢 占资源 增量加载怎么做 只导入新增或修改的数据 适用于什么场景 平时更新数据常用 有什么优点 效率高 资源消耗少 ETL 全流程是怎样的 从数据库 API 文件提取数据 通过映射 过滤 类型转换 清理处理数据 再用全量或增量策略加载到目标系统 ETL 流程扎实有什么意义 数据是否准确可用 做数据分析搞清楚 ETL 流程有什么作用 才能真正用数据说话 #ETL #数据提取 #数据转换 #数据映射 #数据清理@DOU+小助手
00:00 / 02:00
连播
清屏
智能
倍速
点赞8
00:00 / 09:42
连播
清屏
智能
倍速
点赞5
00:00 / 01:17
连播
清屏
智能
倍速
点赞0
00:00 / 36:00
连播
清屏
智能
倍速
点赞1498
@k4天前
公众号图文素材采集神器!壹伴助手 做公众号图文排版,是不是经常感觉素材不够用?看到别人文章里的样式超好看,想用却不会做?看到好的图片,要保存到本地再上传,流程繁琐?今天推荐的壹伴助手,就是你的万能素材管家,强大的采集功能让你轻松构建个人专属素材库,公众号编辑从未如此便捷! 🎯 采集样式,一秒收藏 壹伴助手的采集样式功能简直是“样式搬运工”!当你在浏览任意一篇微信公众号文章时,如果看到特别喜欢的样式、标题或者分割线,只需在文章页面右侧的工具箱里,点击【采集样式】,圈出你想要的区域,一键收藏。这个样式就会被自动上传到壹伴编辑器左侧样式栏的【我的收藏】中,下次你在自己公众号编辑时,可以直接点击套用,瞬间拥有同款高级感。它让你把全网的好样式都变成自己的,公众号排版风格想换就换。 📄 采集图文,无损转载 有时候看到一篇优质文章,想转载到自己账号,但复制粘贴后格式全乱了,图片也要一张张重新上传,简直崩溃!用壹伴助手的采集图文功能,这个问题就迎刃而解了。在浏览器打开任意微信文章,通过右侧的壹伴图文工具箱,点击【采集图文】,选择要保存的公众号,文章就会被原封不动地上传到你的草稿箱里,包括所有的样式、格式、配图都完美保留,省去了所有繁琐的操作。这对于需要做内容聚合或转载的公众号编辑来说,是真正的效率神器。 📱 手机传图,无缝衔接 灵感来了,图片却在手机里怎么办?壹伴助手的手机传图功能提供了两种超方便的解决方案。你可以在电脑端编辑框右侧的工具箱里扫描二维码,直接从手机相册选择图片插入编辑页面;或者,更简单的是,直接用手机微信打开【壹伴助手】公众号,把图片发过去,图片就会自动上传到对应公众号的图片素材库。整个过程行云流水,打通了手机和电脑的壁垒,让你的公众号图文排版素材获取更加灵活高效。 #壹伴助手 #素材采集 #公众号排版工具 #内容管理 #运营神器
00:00 / 01:16
连播
清屏
智能
倍速
点赞0
00:00 / 04:45
连播
清屏
智能
倍速
点赞5
00:00 / 01:43:40
连播
清屏
智能
倍速
点赞130
00:00 / 13:39
连播
清屏
智能
倍速
点赞4
00:00 / 23:51
连播
清屏
智能
倍速
点赞1