Python | 轻松拿捏数据清洗。使用openpyxl和标准库glob，非常轻松地实现了一个批量预处理excel文件的小功能。#python #数据分析 #数据处理 #编程 #每天学习一点点

如何对数据进行数据清洗和预处理

332

7

182

36

举报

发布时间：2026-02-10 00:56

粉丝1.8万获赞35.9万

相关视频

02:39
打工人的救星！过年加班我就这样做Excel 你只要像对实习生一样对AI说👇
就能帮你：数据清洗、表格合并、自动计算，全部搞定。
#使用教程 #干货分享 #过年不加班 #Excel #ChatExcel
查看AI文稿
AI文稿
本期视频演示 chat excel 的核心功能， ai 数据处理，只需要通过自然语言即可对话操作 excel 表格。整个流程分为三步，第一步，打开 chat excel 官网，右上角点击进入工作台，再进入 chat excel pro 功能。第二步，上传表格点击右上角上传界面，上传需要处理的文件，支持上传多种格式的文件。注意， chat excel pro 和 chat excel max 都可以同时上传多个文件和多 sheet 表格，其中 max 版本支持处理三个以上的 excel 文件。第三步，输入指令在下方的输入框中直接用日常说话的方式描述需求。我们通过三个常见的场景来演示。场景一，数据清洗在这份世界大学排行榜中存在空白缺失的数据，我们可以输入删除所有空白单元格的行，处理好的文件下载给我。同样，我们还可以继续输入指令，让 chat excel 删除重复行，将某行某列的空格替换为特定的数，或者把日期列统一改成一定的格式。场景二，表格操作在这份图书编号与销售订单中，我们需要将图书名称根据图书编号填充进表格。可以输入按照图书编号对应表中的图书编号对销售订单明细进行填充，把图书名称和单价两个字段补全，并保存为可下载的表格。在这份学生成绩表中，我们需要按照不同班级拆分表格，可以输入把不同班级的学生成绩拆分成不同的表。在处理其他类型的多表或多 sheet 时，可以输入将 sheet 一和 sheet 二按名字列合并，或者把当前表格按部门列拆分为 doc sheet。场景三，数据计算在这张学生成绩单中，我们要根据学生总成绩分等级，可以输入计算各学生总成绩，并根据全年级学生总成绩进行等级划分。填充等级列等级划分标准如下，涉及计算时，指令需明确字短。例如，计算每个部门的销售总额，在最后一列添加利率，用利润除以销售额。第四步，查找与下载 ai 解析指令后，会在左侧实时展示结果，确认无误后点击下载即可保存新表格，同时不要忘记输入指令词，处理好的表格下载给我。如果发现 ai 处理结果不准确，首先可以直接输入生成结果，有误重新生成，让系统重新计算。如果多次生成仍不准确，通常是因为提示词模糊。写提示词时，请把 ai 当做一个数据分析实习生给出具体步骤，指定明确的列名和操作方式，指令越清晰，处理越准确。
276ChatExcel
09:49
stata数据查找合并清洗你是否在Stata数据分析中遇到过数据杂乱、格式不统一或合并失败的困扰？本视频将手把手带你掌握Stata数据管理的核心技能，从数据查找、数据导入、数据合并到数据清洗，轻松搞定复杂数据预处理！
实证分析看我其他视频，有详细讲解，需要免费资料代码的滴滴
#stata #数据查找 #数据导入 #数据清洗 #数据合并
178Lily读博生活
04:15
SPSS入门教程——数据清洗基础 SPSS入门教程——数据清洗基础#SPSS #SPSS入门教程 #SPSS操作 #SPSS数据清晰
19七七论文辅导
22:32
清洗技巧：预处理、提取分离与校验（上） #数据分析教程 #数据可视化 #涨薪计划#每日学习打卡
103甜雨
02:18
数据分析第三弹：数据分析流程之数据清洗#数据分析 #干货分享 #答疑解惑 #问卷调查 #如何做好数据分析
66老徐～
05:20
EXCEL表格中，怎么对有“异常”的数据进行数据清洗 #excel技巧 #office办公技巧 #0基础学电脑 #wps #vlookup函数使用方法 #函数
27电脑软件哥
02:07
今天聊聊数据清洗。常说用数据说话，前提是数据得靠谱。要是报表报表数据不对与财务数据对不上怎么办数据没洗干净对后续分析有何影响数据清洗要解决哪六件核心事标准化问题如何解决同一字段多种写法会导致什么错误处理缺失值和异常值的要点有哪些核心字段与非核心字段缺失如何处理字段混乱结构不规范怎么处理规整字段分拆结构的思路是什么多系统数据打通主键不统一如何解决建主数据编码体系和 ID 映射表的作用是什么数据重复冗余如何处理多维去重的规则有哪些口径不一致字段含义模糊怎样解决 #数据清洗 #数据标准化 #数据缺失 #数据去重 @DOU+小助手
1佩哥聊IT数据报表
00:59
03数据有缺失？SPSS数据清洗之缺失值处理 #SPSS #数据分析 #科研 #统计 #学术
查看AI文稿
AI文稿
这里介绍用 s p s s 对缺失值进行处理，发现有缺失值后，需要对缺失值进行处理。样本数量较少时，可以直接对缺失值进行修改。样本数量较大时，可以对缺失值进行替换。这里我们用替换法进行演示。对失利数据的年龄变量中的缺失值，用该变量的平均值进行替换。点击转换替换缺失值，在弹出的替换缺失值对话框中，将年龄选入新变量框中。方法，选择序列平均值，点击确定视力数据。新增一列变量趋势值已填充为平均值，感谢收看！
28小羊同学
04:16
Claude Cowork实战AI自动解析302份播客今天实战体验用Claude cowork模式，帮我自动解析302份播客，交付给我的 3 大产出，效果很不错，震惊到了，视频中含提示词和详细流程，交付内容包括：
✅ 结构化数据清洗：输出了一份格式精美的 Excel，包含每一集的 Takeaways 和提及工具的频率统计。
✅ 前端可视化开发：生成了一个交互式的 HTML 仪表盘，直观展示“热门增长框架排行榜”。
✅ 策略咨询与输出：站在“全球分析师”视角，基于历史数据，产出了一份PPT《2026 北美市场双驱动策略手册》。
#ai #知识分享 #claude
查看AI文稿
AI文稿
今天和大家分享一下我怎么用 connor co work 的模式去把啊 linux podcast 三百多份的主字稿，然后来进行这样的一个数据分析，然后最终生成 ppt 的一个模式。啊 linux podcast 的话，它其实这个啊视频播课里面有三，目前产生了三百多份的一个访谈，嗯，它主要是讲了一些访谈了很多创始人，包括它的一些产品增长的一些策略，它其实有把它的一个所有的 transcript 就全部展示在这个公开的这个网站上面，然后大家都可以下载他的这个播客的主次稿，目前一共有三百零二份，所以我把这个下载下来之后，然后放到了我本地的一个啊文件夹，然后这个是我的一些啊，嗯，提示词，就是我会告诉可能我的里面我这边有三百零二份他的一个主次稿，然后他主要是针对全球的一些增长的一些访谈，然后请他帮我这个主次稿做三个的一个交付物。对，首先第一个就是我想让他给我做一个数据分析的这样的一个电子表格，去拆解每一集里面他的一个标题和他的一个框架模型，以及他使用到的一些工具，并且告诉我每集最精华的一个三个要点。然后第二个的话我想让他去做，嗯，他比如说这个 shift 里面去拆解他提到的一些增长框架。第三个就是记录他们在访谈里面提到的一些工具。对，然后任务二就是想让他去生成一个 html 的一个数据仪表盘。然后第三个就是我想让他去针对就是他访问到的这些内容获得的一些经验之后，如果我要去体验做北美市场的一些增长与破局的一个经验策略手册，并且让他帮我形成 ppt 的一个大纲，如何要去做同样的一个破局，如何做新课的一个渗透，看它能不能从啊现有的三百多份的一个啊分析那个访谈当中提炼做一份这样的一个 ppt。最重要有一些需要注意的就是因为它可能进度执行，执行就可能会断掉，所以它有哦创建一个进度的一个跟踪文档，然后断点的一个续传，然后批量的一个更新，这就是整个的一个提示词，然后提示完之后他就会按照一个个的内容去帮我执行，我大概看可能执行了啊几分钟吧，他最后就把这个电子 excel 的一个表格和 h t m 的一个，还有包括 ppt 都已经全部做好了。然后这里我们看一下它的一个结果，首先的话是这一个呃分的呃电子表格，其实它这里其实各个维度我看了一下，其实生成都很不错，包括它电子表格，它还有帮我们自动的一些换行，还有三个的 takeaway，但最后它生成的都是英文的，待会也会让它帮我再生成一份中文的。然后另外一个是 pdf，因为他这里生成都是英文的嘛，所以我又让他执行了一个任务，就是说啊，目前这个，嗯，这个 ppt 都是英文，帮我翻译一下，再复制生成一个中文的这个表格和这个 ppt，然后最后这就是他整个就直接在我本地操作，帮我生成的所有的这些图片和和这个文件。对我的 ppt 我们来看一下，其实，嗯，也很不错，这都不知道为什么会有一些损坏，但应该不影响。比如说它北美，北美市场的这个双驱动的一个策略的实战，但这个是英文版的，它会包括一些啊 summary 和一些目前遇到的一个问题和它的一些增长的一些框架。然后其实我觉得的话，就是后续如果说大家啊有了一些分析，对吧？你有了很多一些啊竞品的一些文件，或者一些分析的话，还是可以让他帮你直接生成这样的一份 ppt 的。其实生产出来的话，我觉得整个的一个效果，还有你这个排版什么之类的都是很不错的，可能到时候自己再去修改一些这样的一个框架，修改一些文字就看起来都很不错。然后我们看一下它最后生成的中文的，中文的话，我觉得这个 ppt 的这个是 pdf 版的，中文的话也还不错，就是大概也是这个样子。对这内容的话我觉得可能还需要进一步的有一些宽泛。嗯，对。但是整个操作下来的话，就是他可能把这三百多份的这个文件，然后很快的就读完了，可能在几分钟内就完成了整个的这样的一个啊啊解读和 ppt 的生成，我觉得这个效率是非常 ok 的。就如果后面的话，大家比如说有一些什么啊，这种竞品分析啊，或者很多的内容，如果让他帮你产产出这样的一份啊分析报告，或者说一份 ppt 的话是完全很 ok 的，大家也可以把它利用到自己的一个成绩。对，今天的话就是针对啊通俗 work 的一个方式来给大家进行一个分享。嗯，今天的分享就到这了，那我们下次再见，拜拜。
31艾理Emily
16:44
DeepSeek本地RAG知识库(18):数据结构化清洗本期视频主要给大家介绍RAG的数据清洗和数据结构化，使用三步结构化方法，以菜谱实例讲解数据结构化的详细过程，准确率提升60%，到达95%，提升效果显著，更多往期视频内容可以到主页列表下查看(程序员寒山:CxyHanShan)，欢迎大家留言关注讨论。 #Deepseek #Dify #数据结构化 #RAG #准确率
1614程序员寒山
01:10
AI帮助数据清洗 #人工智能 #自我提升 #企业效率提升
1光头强Ai
35:18
清洗技巧：预处理、提取分离与校验（下） #数据分析 #数据分析教程 #数据可视化 #每日学习打卡 #数据分析培训
11甜雨
01:46
2.数据清洗（2） PB 数据清洗必用招数（2）
这几招就够了
#PB #PowerBI #数据可视化 #教程
查看AI文稿
AI文稿
今天我们来盘一盘数据清洗剩下的大招。第九步是提取它奎瑞，可以按照长度等提取字体。如图，只提取第一列城市名称。第十步，行列转制，这是行列的互相转化，但是要注意，月份是标题，不在数据区，需要先降到数据区再进行行列转制，最后再提升为标题。第十一步，逆透视列，一键将二维表变为一维表。第十二步，透视列一键把一维表还原为二维表。第十三步，添加列，一、添加重复列。我们复制一列程序。二、添加所引列可以从零或者从一开始进行，所以。三、添加条件列。例如，根据一月份的数据是否大于三百，输出不同结果。四、添加自定义列，例如，生成一列一月和二月的总和。五、添加市列中的列。例如，从城市列中提取区号，只需要输入前两行，下面会自动显示。第十四步，追加查询也将纵向合并，把不同来源但结构相似的数据集合到一起。例如，在原表格中加入乌鲁木齐和兰州的数据。第十五步，合并查询也叫横向合并。例如，在原表中插入其他表中对应的电话区号信息。大家赶紧跟着这些步骤操练起来，数据清洗分分钟变得 easy！
30知屿NovaSage
06:29
Day13.8-实际操作Scrapy的一个简单例子 Day13.8-实际操作Scrapy的一个简单例子-处理每个item的核心方法#python爬虫 #scrapy
查看AI文稿
AI文稿
处理每个 item 的核心方法？我不知道写了这个后还要不要写啊。这些可能是要写先输入一下啊，这都是自动补全，这也太智能了。数据清洗 if not 哇塞，这个直接补全，如果没有获取到名言或者是作者的话，跳过无效数据。这个引号要放到这里啊，这里也是自动补全的。 raise drop item 缺少必要自断，避免重复插入相同数据。如果存在可以选择更新或跳过，不存在它就插入数据不太对意外的表达式部分。哦，引号没对啊，这些搞不懂的我就不搞了。 except。
20十书万路
01:23
06SPSS数据清洗之数值数据分组编码在数据清洗中，可能会遇到需要将数值变量进行分组（即转换为分类变量）的情况，可以根据要求对数据的不同范围进行赋值，达到将数值变量转换为分类变量的目的。
#SPSS #数据分析 #科研 #统计 #学术
查看AI文稿
AI文稿
这里介绍将数值数据分组后重新编码。以市力数据中的收入为例，将收入数据分为两组，零到幺零零零零为一组，编码为一。幺零零零零到二零零零零为一组，编码为二。点击转换，重新编码为不同变量，在弹出的重新编码为不同变量。对话框中将输入变量，选入数字变量，输出变量。在输出变量名称中输入重新编码后的变量名。点击旧值和新值进行编码，在旧值的范围中输入零和幺零零零零零。在新值中输入编码后的执意点击添加，将从编码规则添加到旧新框中。同理，将幺零零零零到二零零零零编码为二。点击继续点击变化量，将原变量编码为新变量，点击确定。视力数据中新增一列分组后重新编码的变量数据，感谢收看！
20小羊同学
02:38
2026数据清洗工具怎么选？10款主流工具盘点 2024年超80%企业面临数据质量难题，2026年破局需选对工具。文章盘点10款主流数据清洗工具，其中国内头部厂商帆软的FineDataLink作为一站式企业级首选，覆盖数据采集、清洗全生命周期，支持多数据源和预定义规则，操作便捷，还有成功案例佐证效果。其他如Informatica适合大型跨国企业，Talend适合中小微企业等各有特点。企业数据清洗核心痛点为多源数据难整合、问题隐蔽、处理慢易出错。判断工具价值可从清洗时间、数据准确率、效率提升、成本节省等维度量化ROI。2026年数据清洗工具核心趋势是一站式、智能化、低代码，企业选型需明确自身业务需求。#帆软 #数据清洗 #FineBI #FineDataLink
查看AI文稿
AI文稿
二零二四年相关研究显示，百分之八十以上企业面临数据质量难题，多元数据格式混乱，手工清洗低效，易出错，常导致决策失误，资源浪费。二零二六年想破局，选对工具是关键。今天就盘点十款主流数据清洗工具。第一名是翻软的 find data link。作为国内 b i 市场连续多年的头部厂商，翻软这款工具是一站式企业级首选，覆盖数据采集、清洗全生命周期，支持两百家数据源，内置一千两百家预定义清洗规则，拖拽就能搭流程，业务人员也能快速上手，还能实时监控数据质量。有个年营收五十亿的零售企业，用它清洗一千两百万条客户数据，剔除十八万条重复记录，营销响应率从百分之十五涨到百分之四十，单季度省了百分之二十营销成本。 informata 是全球企业级数据管理平台，原数据整合能力强，适合大型跨国企业。它冷的是开源工具，自定义灵活，中小微企业用着成本低。阿里云 dataworks 是云原生平台，有 ai 辅助清洗，适配云生态企业。腾讯云的工具，深度对接微信、 qq 等自家产品。腾讯深太企业首选华为 cloud data integration，全站国产化，适配政企国企做自主可控项目。备看斯麦特的工具，能和自家 b i 无缝联动，洗完数据直接做报表。奥微的工具界面简单， s q l 基础弱的传统企业好上手。明源云是地产专用工具，有行业预定义、规则范围的工具，和 o a 深度整合，适合处理办公类数据。很多老板问企业数据清洗的核心痛点是什么？其实就是三点，多元数据格式杂、难整合、重复值、缺失值。这些问题隐蔽难发现，传统手工或 s、 q l 处理慢，还容易错，最后导致数据没法用，甚至误导决策，白白浪费数据资产。还有人问，怎么判断数据清洗工具值不值得买？核心？看四个维度，清洗时间省了多少，数据准确率提了多少，比如营销响应率、生产效率有没有提升，还有人工成本，错误决策的浪费少了多少。把这些量化就知道 r o i 够不够高。总结一下，二零二六年数据清洗工具的核心趋势是一站式智能化、低代码 finddatalink 靠全链路能力和落地效果成了首选。企业选型，别盲目跟风，先明确自身业务需求，选适配的工具，才能真正把数据变成驱动增长的资产。
0帆软聊数据
09:42
python 办公自动化数据清洗重复值处理 #python #办公自动化 #数据清洗 #重复值处理 #excel #电子表格
查看AI文稿
AI文稿
好，我们和大家说数据清洗的第二部分啊，处理重复值。前面呢，第一部分是处理缺失值啊，那么重复值也就是我一不小心删除这个有了比较，一不小心有了这个重复值了，比如说这个身份证号码重复了，或者一不小心输入了多个一样的信息，那这个时候呢，我们就要把这个重复值查看并且处理，那主要有两个函数，一个是呃 duplicate，还一个是 job duplicate 啥意思呢？第一个叫啊查看这个啊，这个是查看重复行，那么第二个呢是删除重复行，好，这个是查复查看重复行在这啊，也就是说都是对长进行操作的，所以我发现有两行是重复的，我就把它给处理掉啊，就给它给处理掉。好，那么接下来，呃，我们还是回到 id 上面来，那么来看一下，我们在这呢就添加了一个什么，添加了一个新的，添加了一个新的这个 date date frame，然后在这个 date frame 里面大家可以看到啊，其实它是有重复项的。我们然后呢，我就先查看这个重复项啊，你会发发现这边是有一个重复项的啊，你看这个李四和王五在这边是不是也是一模一样的？李四和王五啊，包括他的，呃，年龄、性别以及他的分数啊，在这边是不是都是一模一样的？那这个呢就是有问题的啊，有问题怎么办？我们首先查看，你会发现第一行非不重复，第二行不重复，第三行不重复，第四行不重复，第五行不在这个之后的，到第五行就开始确确就表示开始重复了，因为我们是通过这个这里啊，通过这个 w k 的这个函数呢，去查看是否有重复，如果这一行和前面不重复，就返回 face。好，然后呢，在这边的话啊，我们就开始删除重复项，删除重复项呢，就是 d f 点 drop w k k，然后呢，如果说发现重复，我保留第一次出现的，第二次出现了，我就给它删掉。好，我们还是一样创建一个新的叫零零九四。零零九四啊，然后呢， r m 啊， d u p 吧，点 p y，名字随便起啊。好，那么我要实现这功能，首先是引入，我要实现什么功能呢？处理，呃，数据重复项， date from 对象中的重复项。好，接下来我们就可以呢啊，第一步，引入单词模块， b，别名 p d。好，接下来第二个，创建一个一个字典，然后包含姓名，年龄，性别和分数，四个字段啊，然后呢？呃，每个字段有六个值，后两个值，好吧，就六个值啊。好， d f。好， ok 啊，回车自动生成的啊，这是 ai 自动生成的，不然呢，我就得准备素材了啊，我就得准备素材了。好， ok，这个就好了。好了之后再下一步我们就可以使用 pandas 的 data frame 的这个函数，直接将字典转化为我们的这个 data frame 的对象。好，再输出一下 print 我们刚刚生成的这个对象。好，但会发现在这边也是一样，对吧？李四和王五，也就是李四和王五这边有一个李四和王五啊，他们的数字是一模一样的，看到没有？数字一模一样的，这个时候就会出现，他的每一个子弹的数字都是一样的，这个时候我们就出现重复值，那么我们首先查看这个 df 对象中的重复行，那么直接在这直接使用 dmp 的这个函数去找它的重复行输出，那么看到 force 说明这一行是不成立的，说明这行是不成立的。看到确就说明第四行和第五行它是重复的，和前面重复的它是成立的，也就是说他能找到重复行啊。当然有些同学说，老师，呃，就在就是我修改其中一个呢，你看一下，现在就是这个王五，李四，王五，这个王五这边他的这个和这边的王五，他这个年龄啊，以及他这个分数，还有他的性别是一模一样，名字也一模一样，这个是重复的，那如果说我把他其中个只改了之后，他会重复吗？我们来改一下啊，就是把这个这个一个王五啊，我把他这个分数我给他改一下，我给他改成一百，好不好？改成一百，好，我们再来练习一下，好，你会发现这个时候王五他就第二个出现的王五他就不重复了，因为他这一行里面有一个值他是不同的了。看到没有，这个王五和这个王五他其他的相同，就是这个分数，这边是九十五，这边是一百啊，这个也就是说这个时候他是要求呃和前面的列完全相，前面的列每一个值都相等，我才返回求二，如果说有一个值不等，他就返回 force 啊，所以说这边的话他要返回却的这个条件是挺苛刻的，就是要求和前面的裂必须一致，所有的子弹都一致才会返回却，也就是说这个造六必须和前面的造六所有的值是相同的啊，这个李四必须和前面这个李四的这个值完成相同，然后这个王五必须和前面这个王五完成相同，他才会返回。错啊，也就是说这两行就是完完全全重复值，那如果是重复值，我们是不是得把它处理掉啊？处理掉怎么用？咱们刚才在笔记这看到了，用哪一个呀？在笔记这边我们看到了用 job duplicated，然后呢在这里啊做了两件事，第一件事呢是第一个参数呢，就是说我如果发现重复值，我保留第一次出现这个值，然后呢这边有个 in place 说我是否直接在当前的这个对象里面修改，默认是不在当前修改的啊，它会返回一个修改之后的值。好，那接下来我们要干嘛呢？删除重复行，并且呢保留第一次出现的行，好， ok，好，我们删除重复行。这边有一个参数叫什么？叫地步，目前来说他就只有一个参数，就只有一个参数，就说我保留第一次出现的值，那么第二次出现的相同的行，我就给它删掉。然后呢在这边咱们是不是还有一个值啊？叫这个 in place， in place 默认是确，就表示直接在当前的 d f 上面进行修改，但是我现在呢啊，不希望啊，他在这个当前 d f 上面修改，所以说这边是 false 啊，这边是 false，我就希不希望他在当前的这个啊 d f 上面进行修改，我把它复制给 d f 零，好吧，然后我们最后输出这个 d f 零，看一下是不是把我们的第五行、第六行这一个两个重复的李四王五给删掉了，任性一下，对吧？现在呢就只剩一下啊，原有的这个六个这四个了，然后呢，重复的这两个被我删掉了，对吧？第这个缩减号为四和五的这两行是被我删掉了啊。这个就是啊，我们删除重复值的办法啊，删除重复值的办法啊，那么我们最后呢，就可以把这个给它保存下来了啊，怎么办呢？就 d f 零点 c。呃，这个 to excel 好，然后保在哪呢？直接保在这啊， d u p 点叉 l x 认识一下吧。好，这就搞完了，搞完之后我们看一下啊，这边的结果是不是删除掉了这个，那么它就只剩下唯一的四行了啊？好嘞。
20原玉老师
09:11
Ep3. 检索之结构化数据清洗 RAG实战Ep3：告别Excel思维，拥抱Dataframe
在搭建企业级RAG系统的过程中，我发现了一个最大的误区：“有表”≠“有数据”。
真实的业务场景中，绝大多数Excel都是“中看不中用”的——多头管理、格式混乱、中英文混杂. 如果直接开始检索，系统地基就是烂的。
本期视频，我们不聊虚的，直接演示如何对企业现有的Excel进行“刮骨疗毒”：
为什么你的表格实际上并不是结构化数据?
清洗数据的核心：拉平、原子化与去噪。
做好这一步，不仅是为了RAG系统长出脑子，更是为了让你的企业数据真正具备“可计算性”。 #rag #AI应用 #企业管理 #数据清洗 #多维表格
查看AI文稿
AI文稿
拥抱 ai 人生，享受机械飞升！大家好，我是 sky。今天开始，我们将要进入 r a g 系统的核心环节 retrieval 解锁。因为解锁是核心环节，而且它的内容会非常丰富，所以我们会花几个视频把这一部分说完。首先，我们先来看看什么样的数据是企业拥有，而且 r a g 系统要去进行解锁的。大体来看，我们会分为两类数据，分别是结构化数据跟非结构化数据。这两类数据也有很多的差别，首先，结构化数据往往是以信息的形式存在的，而非结构化新数据往往是知识。其次，它们存储的地方也不一样，结构化数据通常存在一个类似于表格的文件当中，有些公司可能会采用 excel，当然有 excel 并不代表就有结构化数据。很多时候 excel 表当中存在的数据其实是不可用的，甚至是打双引号的垃圾。而在我们的 r a g 系统当中，特别重要的一个点就是 garbage in， garbage out，你给他垃圾，他就会给你生成垃圾。所以后续我们会提到 excel 表的清洗特别重要。呃，有些公司跑得更快一点，他们可能已经开始在用多维表格，或者说一些结构化数据库，而非结构化数据往往是存储在一些文件说明文档，当然也有专门的一些数据库可以用来存储。第三，他们的区别往往表现在企业现在到底有没有很多企业其实都有结构化的数据，它现在已经以文件的形式存在企业的整个系统。但是很多非结构化数据其实目前还存在，可能一部分高管的脑子当中，最后也是二者的核心区别就是表现形式，结构化数据往往表现出字断对直的一个 pair。比如我们今天还是一家卖车的公司，我们可能车会存在品牌是保，那么系列可能是七系，然后具体的型号可能是七三零价格。所以我们会发现，结构化数据通常遵循着自断对直这样的一个对应关系。而非结构化数据它就比较丰富了，比如它可以是一些文本，宝马特别适合开奔驰，特别适合坐特斯拉，是三电系统非常好的一款电车，或者说它可能是一些临时的企业的知识，比如下个月开始，宝马一律打九折。所以大家会看到结构化数据跟非结构化数据，其实它们的区别还是一目了然的。而我们本篇视频内容的核心是帮助大家去深沉和清洗结构化的数据。首先来消除大家一个最重要的误区，有 excel 不等于有结构化数据。通常情况下，在一个企业内部， excel 表现出来三大问题。第一大问题，他们可能来自于不同的人和不同的部门。举例来说，我这个文件夹里面的三个 excel 表就来自于不同的部门，而他们说的是相同的事情，那我到底应该听谁的？第二个问题， excel 表格会存在着版本管理的问题。现在假设这三张表格不是来自于三个部门了，而是来自于一个部门，甚至同一个人，这个人在不同时期，他对表格的命名方式都是不一样。那么回头看的时候，应该用哪张表作为我最新的表格呢？很多时候我们就会混乱，这两个问题统一表现出来的叫做企业缺乏关于某一项信息，或者说某一个表格的唯一真源。第三，假设这个唯一真元是存在的，比如这个报价表二零二六零幺二四就是我们的唯一真元，它的内部也会存在很大的问题。我们会发现，正如我们企业当中很多 excel 表，这个 excel 表有非常多的问题。第一个问题，大量的使用了合并居中。从视觉的角度来说，可能这样的合并居中让人感觉很舒服，但是在用起来它会给我们造成阻碍。举一个例子，如果这里的宝马并没有合并居中，我们是可以通过统计 a 列所有的宝马数量，得知我们企业库中有多少辆宝马，比如现在是十辆，但是因为我把它合并居中了，导致我在统计的时候宝马就出现过一次。同样的，这个二零二六一月报价表也是一样，我的系统可能去到每一个表，它的第一行都是表头，就去到你这个表的时候，前两行变成了一个标题，而这个标题实际上应该写在文件，甚至是这个 sheet 的位，不应该写在表格内部。所以第一大问题，合并造成了我们很多时候系统在读取表格的时候出现读不清的情况。第二大问题，格式的不统一。比如我们看价格，这两列两个部门，一个部门用价格，另外部门用价格，括号 one，结果大象禁停，甚至不存在可比性。即使我们在同一个部门都用价格的情况下，不同人填写的标准不一样，有些写了整个的数字，有些带了个单位 one 啊，甚至简写了个 w，甚至有些人可能会在前面加上一个人民币的符号，或者美元的符号，当然他们是出于好心，但这导致了这个数据实际上是不可用的。比如我现在如果想按照地列对它进行排序，对不起，这是做不到的。那我们再看这个入库日期，日期也是一个格式的重灾区。这四种写法可能都没问题，但是放在一起都是问题。所以我们需要有一个统一的格式，甚至是统一的数据类型，比如价格，它就应该是个数字，这样我们就不存在在前面写我的货币标记，在后面写一个汉字这样的一个写法。第三个问题体现在应该原子化的信息没有原子化，比如这里的颜色大家会看到，哎，我们可能有很多种写法，事实上是把本来可以原子化的信息变成了一个文本性的描述，是一个非常大的障碍，切记要减少文本性的描述。我们大可以把它抽出来叫做外观颜色和内饰颜色，这样我们就可以在具体的里面去写对应的颜色就好了。红白，甚至一个更好的做法是，我们应该把这样的一个东西变成单选项，我不是让你去填红，因为可能还是有会有人会填红色，对吧？大红等等这些我是把它变成一个选择题，你只能在我的红橙黄绿青蓝紫黑白这些东西当中做选择，而不是由你自由的去做填写。四个问题，在表针同样意义的不同表的时候，可能它会出现列不同，比如在这里我们是有颜色列跟里程列的，但是去到了这张表格，我们就有了一个叫做维修次数列和里程列，这张表丢了颜色列，这张表丢了维修次数列。可能在我们现实生活当中，这是我在给两个客户进行报价，所以我做了两个不同的表格。但是我希望把它放给 r e g 系统的时候，如果 r e g 系统只读其中一个，它就缺失信息了，如果两个都读，它就混乱了，所以这也是我们的唯一真元表。也许解决的问题就是唯一真元表的列应该足够多，使得这些所有信息都在我的唯一真元表当中。而我给不同客户的不同的展示，可能只是我的一个试图，或者我从当中截取了一些列的信息给它做展示。所以大家看到这四个问题，造成了今天 excel 表格实际上是不能立刻拿来用的。这也是我说的，有 excel 表不等于有结构化数据，这个 excel 表就是营养辣枪头，中看不中用，这样的数据是要进行清洗的。那么我们需要怎么做呢？事实上，企业的 r a g 系统需要的结构化数据并不是以 excel 的形式存在的，而是以 data frame 的形式存在的。一个 data frame，它最重要有三个板块，第一是表头字段，比如品牌。第二我们要去规定这个字段的类型，比如它是一个单选也好，它是数字也好，不是让人乱填的。很多时候我们是要严格规定它可以填的内容，甚至是要求它只可以选择的。第三就是值，这是对应我的这个字段，你可以去填的值。好，那我们最终清洗出来的 data frame 就是一个非常好的 data frame。大家请看这里，我对刚才的 excel 做了数据清洗。首先，我们去除了所有的单元格合并，这在我们的 data frame 当中是不允许的。任何一个单元格理论上都应该被填满，它应该是一个正正方方的表格形式，有行有列，每一个单元格都被填满。第二，我们对它们的数据的类型和填写的内容进行了要求。比如在品牌这里，它其实是一个单选项，它只能选择而不能填写。理论上，这里的选项是由更高级的管理者去进行补充的。正常情况下，表格的填写人只进行填写，这里的系列年份都是这样，它都是单选。所以呢，我们就避免了大家会因为填写而填写错误。而在价格这里，我们明确规定了它是一个数字啊，它是个 number 啊，是个数字，所以它只能填数字。日期这里明确规定了它的 field type 是一个 date，对吧？是一个日期格式。外观颜色、内饰颜色，我们都对它进行原子化，有还是以一个文本的形式，甚至是复杂文本的形式存在，那包括我们这里包含了几乎的所有列，这样就构成了我们的一个唯一真元。数据如果要改，我们就改这个唯一真元，我们只认这个唯一真元，所有我们给出去的文件应该基于这个唯一真元，它可以是这个唯一真元的一部分。列没有关系，但是不要再做更多信息的修改，如果信息确认要修改，就改在这个唯一真元的文件上，这样我们也规避了多版本的问题。好的，所以接下来你在企业当中应该做两件事。第一件事是把你现在已经有的 excel 表格拿出来，通过 python 去清洗成一个可用的 data frame。如果目前这样的表格还没有，从第一天你就应该创建一个 data frame，确定好你的表头和每一个字段的类型，然后让大家开始填写，这样我们就有了一份非常可用的 data frame。一个结构化数据给到我们的二 a g 系统。举个例子来说，以后 ig 系统就可以轻而易举的找到。我想要找一辆二零二一年的宝马，它的里程数在五万公里以内，因为我们把这些数据都进行结构化了，所以这个系统可以非常轻而易举的找到。但如果我们还在刚刚的 excel 里面，它就会涉及到非常多更复杂的内容理解，而不是简单的去做一些数学题就搞定了。一旦我们形成了自己内部的 data frame，我们就构成了一个非常坚实的结构化数据的基础。即使我们不引入更多的非结构化数据，它也是一个非常可用的情况了。我就可以基于用户的问题到这个表格当中去找到他想要的答案，然后一起喂给 l l m，给到客户一个相对来说比较满意的结果。那么怎么样能够给到一个更好的结果呢？下一节我们将要去说数据的粗筛和精筛，帮助大家在结构化数据的基础上更好地找到用户想要的数据。我们下次再见。
10Sky在做大事件

热门推荐

热门分类