粉丝54获赞50

哈喽,大家好啊,然后接下来我呢给大家去讲一个天气数据采集以及可视化的一个实现。呃,那么在之前的话呢,我们先打开一个网站啊,这个呢是我们今天要去进行一个呃数据采集的一个网站,好吧? 呃,然后我们采集的呢是这个二三四五里面的天气王里面的一个呃各个城市的一个历史天气啊。然后呢 我们是打算把二零年到呃二一年所有的一个数据全部存下来,好吧。呃那么下面的话呢,我们就来开始去第一个步骤分析我们的一个数据啊,那我们先右键点这个检查, ok, 呃,来了这个 natual 以后呢,其实我发现通过我们之前那个分析呢,我们就可以发现它是一个呃动态的一个页面, 对吧?当我们点击上一页的时候呢,他会呃网页链接不会变化,然后的话呢会重新加载一些数据,对吧?那加载数据的话呢,我们总共有两个啊,第一个呢你可以发现没有任何的内容,那主要数据呢就存在我们第二个数据里面,那所以的话呢我们就可以直接去针对这个网页链接进行一个请求。 嗯我们可以来做一下啊,首先的话呢我们先把这个 input 模块给他去进行一个导入,那么呃网易链接的话呢,也给他复制下来啊。 啊?这个网易链接我为了美观的话呢,我可以把里面的一些字段给他,呃稍微的替换一下,好吧。嗯首先是关于这个城市的一个音符啊, ok 啊,还有我们城市的一个类型啊,包括呢像后面那些字段呢,我都需要去呃进行一些替换,好吧。 啊?这是我们那个日期啊年份,然后后面这个呢?啊其实可以发现啊,后续如果我要去采集这个二零年或或者这个二一年的一个月份的话呢,我就可以对他进行一个循环,对不对 啊?我们先使用 request 呢啊?点一个 get, 那你直接可以这里面是 get 吧。啊没错啊,是 get。 那么我们先把 usl 的话呢给他传进来,传进来以后的话呢,我们可以直接来一个 response, 好吧,来先看一下。呃像这种天气网站的话呢,一般不会有这些类似的一些反爬的啊,所以一般 一般情况下我们能够直接看到这个瑞士方是两百,然后呢我们点一个节省取出来里面的一个值啊,那么取出来以后的话呢,我们取到这个 data 这个键,好吧。然后呢取到他以后的话呢,我们就可以看 看到当前的一个。呃类似于是一半的网页内容。那针对网页内容的话呢,我们怎么去解析呢?哎?前面导入模块对吧?我们一般用的多的话呢,我是一个 poss。 呃然后我们使用这个 poss 模块的话呢,可以对他进行一个 嗯数据解析啊,点一个 status, 然后的话呢?嗯传进来,对吧?返回一个小写的 stack, 那么接下来的话呢,我们使用 status 去取他的一个数据内容就可以了。那首先的话呢,我们先取一层,一层取啊,先取 table, 然后呢取 tr, 好吧? 嗯拿到所有的 tr 以后的话呢,我们这里是 tr 啊 trs, 好吧,然后下面的话呢,我们就来针对这个 tr 呢进行一个循环啊? tr 印一个 trs。

好吧,然后使用 tr 的话呢,点一个三三手进行一个二次提取,那么二次提取的话呢?呃这里面我们来看一下啊, 首先我们选择 tr 里面的 td 对不对?下面的话呢都是 td 的一个标签。呃,取到 td 标签里面的一个文本内容,我们点一个 get 到啊,来看一下我们得到的一个数据内容,好吧,这里面就是 tds 啊,然后来打印看一看 tds 啊,然后右肩运行啊,大家看一下我们的一个效果啊,基本上是没什么问题的,只不过前面有一个空的数据。 空的数据呢?原因是我们第一行他是一个表头啊,他是一个 th 标签,所以的话呢,我们这里面得来一个呃取值。好吧,通过这样的方式呢,我们就可以取到呃当前的一个信息了。呃那由于呢 的话呢,我的一个目的呢是要去,我要知道这是哪个城市的,对不对?所以的话呢我们这里面最好在当前的一个表格里列表里面啊,去追加一个,追加一个城市,比如说我是一个北京, 对不对?这样后续的话呢我还是需要去。呃把所有的一个数据全部采取下来的,包括北上广深啊,我们或许会对这些数据进行一些分析。呃那么接下来的话呢,我们就去保存数据,好吧,保存数据呢?那该有的表头得有啊,位置一个 oppo 可以吧?其实我可以,我们其实可以去写代码把。呃就把这里面的一个所有内容呢都进行一个呃循环啊,我们先先拿到所有的一个年份吧,好吧,先循环这个日期,呃日期的话呢,我们是来一个啊,不对,月份啊,月份 month。 呃我们月份的话呢一般是一个一个月到一十二个月,对不对?来个一十三啊?不可能还有一十四个月吧,哈哈。啊?不可能有一十三个月吧,对不对?所以这里面来一个这玩意啊,然后把后面的一个东西呢给他改掉,呃把这个给他改成一个, 然后呢还有一个年份,年份的话呢我们来一个万一啊来一个音一个软件,从我们的二零二零年一直到我们的一个二零二一年,对不对啊?然后呢同样进行一个便利, 好吧。呃那么在便利以后的话呢像这个呃年份呢我们也可以改一下啊,改成我们那个 y e r。 好吧。呃然后这个基本上我们就可以去做完了。呃但是呢我的一个想法呢其实是想把北上广深的都给它取出来,那么在这个地方 话呢我们可以一次性去取,朋友们可以一次性取啊。呃比如说现在我们取到的一个内容呢是这个北京,对不对?那接下来呢如果我要去看这个其他城市呢?哎比如说我要去看我们来找一下,好吧。 啊?看一下这个上海啊四十天天气,呃然后点这个历史天气啊,点完这个历史天气以后的话呢我们就来分析这个数据,主要是看他的那个 id 有没有什么呃一个变化,好吧,主要是看他们的一个变化啊, 我们来看一下。呃当前深圳的话呢他主要是改的这个玩意,对不对?主要是改的应该是这个啊,然后这个类型是没有任何的一个变化的啊,可以看到二,没错。呃,所以的话呢,我们这里来一个。呃, cicity 啊,一个类似的。好吧,我希望呢能够为我进行一个循环,对不对?这个是上海,上海我们给它放到第二个,然后呢?这个是我们那个北京啊,北上,然后呢?是广州,对吧? 啊?来一个广州,我不知道是多少啊?然后来一个广州,广州点四天天气,然后点历时天气啊,就可以看到当前广州的一个信息。然后的话呢,我们去快速的分析一下啊,这个操作比较重复啊,我就不给你们多讲了。

教你用十行代码编写爬虫爬取唐诗上代码,那今天呢,我们就使用 res 模块来进行爬取,然后使用 s pass 模块进行解析,复制一下这里的唐诗三百首的网址, 然后我们使用 requests 点儿 get 发送一个 get 请求,传递这里的 u i r 表示像这个网址发送一个 get 请求,他就会得到一个响应,我们叫做 response, 我们输出一下这里的 response, 点儿 tst, 运行完成以后,我们发现他是一个 htm, 那也就对应着我们页面的 htm 好,那么此时我们可以使用 spass, 使用 btree 点 htm, 将我们爬取的 htm 内容传进进来,接下来我们就可以对他进行解析了,复制一个变量叫做 htm, 然后我们就可以编写 htm, 点 s pass 回到页面,我们来单击右键点击检查,这里有个箭头,选中他,选中以后呢,我们就可以对页面中的某个元素进行定位了,我们定位到这个静夜思股市名字这里, 然后看到这一行就是他的 htm 代码,然后我们可以这样单击右键选择 copy s pass, 回到我们的页面,将刚才考虑的内容粘贴到这里,接下来我们给他定一个变量,叫做抬头,也就是古诗的名字, 然后我们再来获取这里的作者占地,箭头选中作者李白,看一下这就是他所在的位置,同样的流程, copy 同理,我们再来获取这个股市名称,现在呢我们就获取到了这些元素,那么我们想要的是它的内容,所以呢,在获取的时候 需要这样,在每一个圆侧面加上 tst。 现在我们分别输出这三个内容,依次得到了唐诗的名字、作者以及唐诗的内容,但是小伙伴们需要注意,他们都是列表,那么我们在取值的时候就可以根据列表的下标进行取值了,小伙伴们你学会了吗?

哈喽,大家好,今天给大家介绍如何使用 pool 奥特妹子去做一个简单的爬虫,爬虫其实指的就是批量去网上获取一些数据,那么今天就以这个招聘网站作为例子,去抓取一些我想要的数据。 好的,首先还是新建流,给他起个名字, 好,稍等让他加载出来。好的,那么他出来以后我们第一件事情就是让他打开一个嗯,浏览器,我们来找一下浏览器自动化 启动新的这个浏览器实力,那么要告诉他一个网址,网址的话我们可以把这个复制过来, 这边会出现个知识点,我们直接把这样复杂的网址输进来,他会报错的, 我们可以。呃,对,他没有点保存就已经报错了,他说值无效,那么无效的原因其实是因为他这里面出现了百分号,那么如果有关注过这款软件或者看过我其他几个视频的观众可能就知道,因为这个百分号在帕瓦奥特曼特里面指的就是变量, 就被他框起来的,是会作为变量来运算的,那么这么密密麻麻的百分号,那当然他这个网址就是会爆错的。 然后我们要做的一个动作就是把这个百分号替换成两个百分号,就把一个百分号替换成两个百分号,这样就没有问题了,全部替换, 然后再把这个数据粘回来保存,那么这样子他就可以启动这个 h 浏览器,然后会直接打开这个网址, 好看到没有问题。那么接下来我们要做的事情就是外本数据提取,在这里面选择从网页中提取数据, 那么我们要做的一件事情是在这个窗口打开的状态下,去点击我们要提取数据的网页,好,它会自动跳出来一个新的窗口, 那么这个新的窗口我们先把它放在一边,接下来我们要去右击我们想要的数据,比如说这个只为名是我想要的,然后右击它,哎,这个网址好像有点卡住啊, 现在可以了。然后呢,你可以点击就右键,以后他会出来这么几个选项,我们需要点击提取元素值, 那我需要他的文本刚才没点到好,行政专员,你会发现他就已经出现在这个窗口里面了。那么接下来,比如说我想知道他是什么时候发布的,然后这个岗位的月薪是多少, 然后他大概有一些什么样的要求,以及这个企业的名字。这个邮件又点不到,好, 看看能不能点到。这个好像把鼠标放过来,他这个民营公司什么的就被遮住了,哎,问题不大,就先这样,然后这个申请 请职位,我看能不能提取一下。这好像提取不到,那么就先这样子吧,然后看一下这个福利待遇啊,看看能不能提取出来,哎,也可以。好, 那么这样子我们就提取了这第一行的这个岗位的一些信息啊,那么我们要做接下来一件事情,让他批量的把这个页面上所有的信息都提取出来,那其实我们只需要去右键下一个岗位, 哎,再来一次,好的,这样你就会发现他所有的信息其实都被他读取到了。 好的,接下来我们要做的一件事情是把它拉到底,因为可以看到 它其实有好几页嘛,比如说,呃,我想要把后面几页都抓取到,我们可以点击这个就是下页的这个按钮去右键它, 他好像也是有点问题,他不让我点,然后可以点到了,然后呢,这边有一个将元素设置为页导航,我们来点一下, 好,再回来看,就可以看到这边有蓝色的虚线把它框住了。 那么这款软件我们的 rpa 就会把这个页面上的信息读取好以后,自动点击这个下一页的按钮,然后去读取下一页的信息了。好,这些操作都已经设置完成以后去点完成。 然后呢,他会问你要获取几页信息啊?那打个比方说,我们就获取前三个吧,不然可能会稍微时间有点久啊。 然后他会问你数据要存储成什么形式,那他默认是存储成变量的,那其实我希望他直接,嗯,生成一张 excel 表格就可以了。那么在这里选择 excel 电子表格,好填保存,接下来我们可以直接来测试, 稍等片刻。 好,可以看到 excel 已经跳出来了,那么可以看到他已经获取了三页的数据啊,还挺多的, 那么这样子就能比较方便的。呃,去做一些筛选啊什么的看看,比如说工资最高的 八到十二万一年,我还有一个月呢。八到十二万一个月,那我马上报名好吗?啊,在成都啊,那我不去了,那看起来这个工资都不是很高。 好的,那么这是一个爬虫的简单教程啊,如果大家平时会需要去一些网站上抓取数据的话,这还是挺有用的。 当然他不像拍摄那些软件支持的爬虫那么的。呃,完善以及有更多灵活的操作,他可能就相对基础一点,当然如果咱们没有编成基础的话,那他 其实还是挺管用的。好,如果有兴趣的话可以尝试一下,就这么两个步骤就可以完成了。好,那么这就是这期视频的所有内容了,感谢你的观看,拜拜。