粉丝95.3万获赞629.7万

是不是只要这一个就可以了?这样的话就可以打开我们的一个浏览器,然后,然后我们可以运行看一下效果。 对,是不是自动打开了?打开的话,哎,这是有个验证码,没有关系,这个验证码啊,我今天就不教给大家了,因为太多东西的话,很多零基础同学吸收不了。这句话就给大家讲一个最简单的,我们手中弄一下就行了,所以说我们这里的话可以导入一个畅模块,对吧?畅模块如果说大家会 滑块验证码的识别的话啊,你可以直接干嘛呢?给大家演演示看一下。对,虽然说他这里是有一个滑块,但是这一个滑块的话是可以取到内容的, 是可以直接取到他这个图片的,取到他这个图片的话,对吧?他这个滑块的一个图片是不是然后的话他这一个整个的一个图片看到没有?整个图片缺口是在哪里?这个这样的话可以通过一个打 马平台,或者说用我们实力女模拟人的行为去滑动都是可以的。但是的话今天就不给大家过多讲了,如果说还给大家讲滑块验证的话,可能会啊麻烦一些,会很很多很多东西,很多东西一下接受不了,好吧,这里就教大家一个简单的就自己手动滑就行了,那我们这里他们点一个十个例子,对吧? supple 的话我给他干嘛呢?延迟一个三秒钟让我们去滑,是不是?滑完之后的话我们需要干嘛呢?滑完之后的话,我们是需要获取他所有的一个,呃,视频内容,对不对?获取他所有的一个视频内容的话,他的一个视频呢?我可以直接在我们这个呃伊拉曼扯元素面板里面去获取他数据内容。 对,但是这里面的话只有一部分啊,只有部分,只有当我们一直往下滑,把他的一个数据内容看到没有,我往下滑的话,他的数据内容才会给我们加载出来,更多的一个视频内容才会给我们加载出来。所以呢,所以 说我们先获取他这些啊,播放的一个育儿地址就是我们的一个什么呢?对吧?这个视频的一个详细地址之前我要需要给他把这些内容给吗?全部滑出来,全部给他滑滑出来。所以说我们这里可以直接给他定一个滑块的一个,这个的话是一个 直接给他复制过来我们的一个贝壳代码就好了。这个的话就是页面直行滑动的一个操作,滑动的操作让我们可以直接调用这个函数, 那我们直接复制这个定义好的函数,然后我们在下面的话调用一下,是吧?在这下面调用一下,然后的话我直接给 运行看一下效果好不好,然后先等等,等一会会,然后我让他把这个划了,对,然后的话他就开始会给我们自动往下滑,让数据加载出来,看见没有?自动往下滑,自动往 看到没有,是吧?所以说让他划完之后的话,我们再干嘛呢?再取里面的一个那种,哎,这个的话我就给他可以先擦掉了,对吧?我们看这里取内容的话,我们就可以通过什么长发式或者说 css 语法都是可以的, 都是可以的。那我们首先的话,哎,我们要取什么呢?我们首先给他一第一次提取,提取所有的一个 l i 标签,对,提取所有 l i 标签的话,给大家一个简单方法,你直接干嘛?可以扣 bug, 我们是 like copy 我们的一个是来找这干嘛呢?就可以得到我们 css 的预防,我们 ctrl 加 f, 哎,这个的话就是我们 css 的预防,对不对?如果说你是一个长 pass 的话,那这右键然后 copy 我们的一个长 pass, 对,然后的话这里也可以直接定位到这个地方,哎,所以说很方便啊,很方便,对吧?对于一些这种 csi 语法和长发属语法不太会的话,可以直接用这个方法,对吧?我们直接口比一个十来个数, 然后选择这里,然后这么长的话,前面这一段其实我们都是可以不要的,前面这一段可以不要的,对吧?就留他这个就行了,然后给他复制过来,定位到是这个,然后的话我要获取什么?获取下面的一个 l i, 这边获取下面那个 l。 啊,这个第一次提取的话就是获取所有的一个 l, 那么我们就是啊,在这个下面写我们的一个 ls, 等于我们的一个放着啊,加网点,我们的一个,嗯, 放的,放的一辆奔驰八四 s 四,啊,不是这个,是这个一个一辆奔驰 s, 这个 s 的话是匹配多个,如果没有 s 的话,他就是匹配一个,哎,这里是什么?克拉斯,为什么把我们这个 css 象征线十辆车,对吧?把这个复制过来, 这样子的话我就可以获取多个的一个 l i, 然后呢再付我们的一个 l i, 英国我们 ls 这个,然后 l i 的话可以点上我们的一个什么呢?哎,这里的话就是用的啊,放着一辆门车,把我们四 s 四一个四辆车,对吧?这个是有个 s 是匹配多个, 这有 s 是匹配多个,然后这没有 s 的话就匹配一个,所以说那我要匹配里面的什么呢?我要匹配里面的。看一下 a 标签吧,群里面 a 标签什么呢? a 标签里面的一个和 f f 属性就 ok 了,所以说这里的话就写一个 这个吗?哎,标签,然后点上我们的一个盖子, get 我们这个 attr, 对吧?这个是获取他的一个属性内容,给大家看一下。获取属性内容翻译一下,对吧?获取属性,我们获取什么属性? 获取他里面的核 f 属性,是不是核核 f 属性。那我这里的话就用一个什么呢啊? a i ul 吧,给他接受一下对不对?那我们这里给他同样的,我们给他扑刃一下,扑刃扯一下, 好吧,普通车打印一下,那我们可以看下效果对不对?看下效果的话先。哎,我们自己手动滑一下啊,手动滑一下比较 low, 对吧?但是的话也不影响,如果说之后的话 也给大家讲解了一个,对吧?他的一个验证码的图片是可以直接获取到的,他验证码图片可以获直接获取到,到时候可以自己去实现一个验证码识别,对不对? 或者说对接打码平台都是可以的,因为他图片能获取到的话啊,用打码平台的话就非常简单,一下就够了。对, 所以说给大家不必要讲太多的那些东西啊,这里都已经划完了,划完的话那我们看一下,哎,他是不是开始打印我们那个呢?哎,我们点击停一下,停一下, 是不是已经开始获取了我们所有的一个什么?所有的我们的一个视频播放页的一个详情阅读地址,对不对?那这里只要获得详情育儿地址,那是不是非常简单了?那事情就变得非常有意思了哦,是不是?那我们接下来干嘛呢?接下来的话,哎,这里下面我们就可以给他干嘛, 嘿嘿,我们给他给他注射掉,注射掉之后的话,哎,那我们这里的话就可以集体来一个缩进啊,集体来一个大缩进,缩进的话这个我我就不要了,这个我就给他取消掉了,然后这个这一块内容的话,我们就给他放到最前面去,这样放到最前面去 啊,这个放到最前面去的话,是那这个 ur 的话,就给他改成我们 ls 的一个 ur, 对不对?那我们再接下来的话就给他运行一下啊,运行一下给他看一下效果, 嗯,然后我们手动滑一下这个音字吗?那自己慢慢滑啊,慢慢滑就滑的这一块时间可能比较久,为什么?大家?我之前有跟大家说过,就是你能用这块石头去爬的话,就千万别用森林扭,为什么呢?因为森林扭速度还相对而言是稍微慢一些, 对吧?稍微的话还是慢了很多啊,慢了一些,对,但是的话啊,只要白。你不是有句话用白猫黑猫,能抓到老鼠的都是好猫,对吧?所以说过程不重要,主要的是什么?你只要能爬就可以了,来我们这里数据获取完了,来开始了, 对不对?然后就可以开始爬取我们的一个内容来,我们可以看一下我们这个视频内容有没有保存出来, 对不对?这样子我们就可以批量把这个阿普组的一个视频,啊呸,这个博主的视频,哎,都给他获取下来了,哎,这个是没有问题吧?是不是啊?内容的话 还是比较简单的,难度不大啊?难度不大,非常适合各位零基础的用。哎,这里的话出现一个报错了,这个报错也是情理之中啊,情有可原,为什么会出现这种报错呢?对吧?他其实是一个什么呢?给大家看一下, 这报错的话就是我们打开我们的新建一个文件名,然后我输一个问号,对不对?他告诉我们什么?我们的文件名字不能包含下列任意字符,就是不能含有这些字符的,所以说他有个什么,他有个问号, 所以说有个特殊字符我需要给他去掉,所以说我这里的话也不给大家多写了。这个东西给大家讲过很多遍,用我们正则表达是给他替换就行了,这些话直接给前面给他定一个函数吧。 对,就是把我们这些符号的话,哎,给他替换成我们下划线,包含我们这些符号的话都给他替换成下划线,然后我们这里的话定了函数,那我们这里就要调用一下,调用一下把这个开头给他传进去, 给我们返回一个六抬头。 对,然后把这个六开头的话就放到这里,那我们记得运行,看一下效果,好吧。 嗯,让他滑一下啊,这个就可以甭管他了,放这里 是不是等他还完之后的话就可以开始运行我们的一个效果了,对吧?难度不大啊难度不大,还是比较简单的,不用,是不用大家去说解说 gs 解密,如果说大家觉得,哎,我不想搞这个森林柳,对吧?那你可能就要去学习什么啊? gs 的一个解密对不对啊?他还没还完吗? 他还没还完啊,等他还完吧。慢还是有点慢啊。已经还完了,让他慢慢爬,爬取的速度还是 ok 的爬取的速度还是 ok 的,对不对? 所以的话到时候你呃你可以用多线程可以用多线程,后面这一块的话可以用一个多线程,对吧?后面这一块用森林里的话你可以把用快手,这一块可以用个多线程吧,也是 ok 的,是不是 你也可以用两个两个代码,一个代码是关,你可以把这两块代码给他分开,一个代码是专门用来获取 ul 地址的,一个代码是专门用来多线程爬取的,哎,都是可以,这样子速度会快一点, 好吧。啊,现在的话如果说没有有其他一些不懂的地方的话,对吧?都是可以加到我们视频上方的一个学习交流群,进群找我们的一个管理员进行一个解答,或者说在视频下方评论留言也可以,哎,有什么问题的话也可以留言评论,到时的话 有不懂的话我们也会给大家进行一个解答的,好不好?那我们本节课的内容的话就讲到这里啊,对吧?给大家看一下我们演示的一个效果, 现在已经爬了啊,六六十多个了,对吧?他一共是两百多个,按时间的话我们是可以等的话是可以爬完的,所以说但是的话 啊,是可以爬完的,所以说大家就不在这里给大家等了,如果说想听的话,对吧?然后我们今天晚上的话也有一个直播课,会给大家再讲解一遍这个东西啊。 在我们的腾讯课堂上面,我们晚上的话八点钟会有一个直播公开课,是到时候会给大家直播讲解这种东西,如果说想听的话也可以来这里听啊。好吧,那我们就下次再见,拜拜。

这就不用打印他有多少个元素了,我们可以给你看一下我们想要的肯定是什么,是不是这一个可不可以,这一个可不可以。那我们可以把这个复制一下,看一下他是个什么东西。这些的话都是我们的一个 ul 的一个编码,在我们网站上面,比如说我们在百度上搜一个什么呢? 搜一个呃 ur 编码。 ur 编码对吧?他可以在线解码的,我们可以解码看一下。我们把这个东西哎 给他复制过来,给他复制过来,然后进行一个解码。解码之后你会发现,哎,这个东西是我们想要的吧。那我们前面这个加一个 htpp 啊。那么可以看一下我们前面应该是需要干嘛呢? 需要加上一个 htpp 的对不对?那这一段不是我们想要的。那加个 htpp 来回测 就是一样。是不是能播放,说明什么?说明这个东西是我们想要的。一个 ul 地址。那后面这个是吗?后面这个我也不太确定,如果说大家想实验的话,我们可以也在这里试验一下对不对,可能说跟他的一个分辨率也有关系啊,对吧,但是我们不太清楚。不太清楚我们可以复制一下。 对,感觉还是非常像的,非常像的。那我们通过这个什么啊?哎,那一个呢?进行一个解码,先给他进行一个解码,进行一个解码解码。这个也是这样子,那我们把前面这段复制一下,然后前面还是一样的。这一块的话是需要给他加一个 htv 的 那边,然后复制两回车。哎,还是可以。那说明这几个月啊,都是可以。那我直接取第一个吧,感觉好像没什么特别大的区别啊,不知道是不是应该可能大概啊是他的一个分辨率的一个问题。哎,这个好像感觉上面就模糊一些,那说明什么呢? 第一个视频的话是质量会高清一些。那我直接是所以什么所以取一吗?对不对?这是第零个元素,这是第一个元素对不对?那就是一个 h 对面对他。那接下来的话 接下来的干嘛呢?就需要通过我们刚刚是通过什么网页的一个 ur 编码的一个解码对不对?那我们现在是需要干嘛?通过我们的一个代码进行一个解码怎么解啊?瑞 cost 瑞 cos 点上我们的一个尤里 utis 对吧?再点上我们那个有 这个对啊,咱把这个传传进去的话就可以进行一个啊解码了。然后的话我们这里给个 v 丢一个 ul 好不好? vdourul 接受一下,然后我们打印一下这个 ul 本子打印一下 打一下,打完之后的话他给我们返回的这个是这个内容,但是我们前面按正常这一块是什么? 这一块是我们的一个 htpp 对不对?所以说我们需要把这个内容给他替换掉。 replex 啊,把这个内容给他替换成什么呢?替换成我们的这一个视频,我看一下 htpp 啊,冒号对,给他替换成这个样子,大家就可以 来再运行看一下就 ok 了。对,这个的话就是我们的一个播放地址,我们点击一下无聊的知识啊,这个确实还是 ok 的,没问题对吧? 啊,这样子就获得了我们的一个啊,网页的一个播放地址。那我们接下来干嘛呢?接下来就要对他进行一个保存了吗?对吧?接下来就保存这个视频吗?保存什么呢?直接用微收粉可以不?可以是不是?那我们直接微收混一下 vsopple 对吧。然后我们这里的话给他一个 v 六是吧,一个文件夹啊,再加上哎,他的一个开头名字呢?对面他开头名字我是不是没有货? 我去,那我等下我还要给他啊。 n 点一个 np 四,点 np 四对吧,然后 model 等于一个 wb, 然后我们的 s, 我们那个 f f 点一个 rat 对吧? rat 的话就是写入我的那种。现在我们缺了什么?缺了一个视频标题,一个是我们写入的一个那种视频标题的话,我们前面的话应该还是可以在我们那个王源的吗?里面可以看得到的。 王源的吗?里面应该是有的。那我们直接看一下他的一个哎,就在这个地方吧。那我直接把这个复制过来吧, 再给他复制过来,复制过来的话直接就是我们那个胎头,等于我们阿姨点一个放到对吧,然后中间这一块是我想要的吧。那我直接把他复制过来, 点心问对吧,想要的内容给他扣起来,用一个点心问给他匹配,然后从哪里匹配呢?从我们瑞斯棒斯,瑞斯棒斯点一个太克斯里面匹配,然后给他 取出来。好,这样子就有我们的一个标题了,然后的话还有我们的一个写入一个内容对不对?那我们微丢康政策 是不是等于我们尔瑞快速点上我们的一个该车 url, 等于我们这个 v 六 ur 把嗨的是给他也传入一个嗨的是吧,然后点我们的一个 con 对吧,获取他的一个二定制数据,然后把这个东西给他传进去 啊,这样子的话应该就能保存了。但是如果说我这里是写了个文件夹,但是我这里是并没有创建的话,对啊,他就是会报错的,肯定是会报错的,报错的时候我们没有这个文件夹对不对?所以说呢,我们要给他创建一个。如果说大家想自动创建的话,教大家一种方法,用一个 os 模块, mpos, 我们的一个 os, 然后的话一个费用内 等于我们这个 v 九对吧,然后的话判断一下 a f not, 点我们的一个 pass 啊 pass, 点一个字,把我们这个 feel 内给他传进去。是判断。如果说没有这个文件夹的话,那我们就干嘛进行一个创建 os, 点 maccir 对比,把这个费用量给他传进去,这样子的话就可以自动创建美甲。他们直接把这个 v 六改成这个费用量就行了。然后我们这个运行看一下效果。这个的话我们呃还打还是打印一下这个标题吧,这个标题我也给他同时打印一下来运行,看一下效果 对不对。这里话就是哎,这里是不是给我们重新新建了一个文件夹,并且的话他是有一个干嘛呢?有一个 np 四的一个地址对不对?那我们可以看一下,看一下这个内容有没有哎,微留是不是,是不是啊,点击播放一下我的知识对不对,是不是有了。这样子的话,就把我们的一个视频给他下载出来了啊,一个视频。 那我们接下来是要干嘛呢?我们接下来肯定是不满足一个,我们要干嘛?我要把这一个啊不足的视频全不。呸,这不是啊,不足啊。这抖音的一个博主。好吧,这个视频博主所有的一个视频内容 给他获取下来,看一下他一共视频内容多少个?他一共的话是有两百八十三个视频对不对?所以说这些内容我都要获取他的。那我怎么获取呢?我们可以看一下。我只要干嘛呢?获取他每一个视频的详情页余额地址,我就可以获取他的一个播放地址对不对?那我只要干嘛呢?我只要获取什么呢?哎,爬上去 爬起多个视频。 对这个的话就是要获取获取啊,所有的一个视频详情页 ul 地址。哎,就可以干嘛就可以爬 去多个了。哎,爬去多个视频没有是不是?那做获取所有的怎么弄呢?哎。如果说你用直接用累快死的话,他是需要有一个洁面,比如说我们直接检查一下吧,来我们刷新一下。 对呗,其实他是一个懒加载啊。懒加载什么意思啊?就是我们下滑的话他才会有数据加载,那么直接选择这个让他下滑,下滑的话他这里是不是有相应的一个数据,那种加载出来,然后的话,他里面的话也有我们的一个对不对?一个 id 吗?这个的话就是我们的一个视频的一个界哦,这个吧,应该是这个是我们这个视频的一个播放地址的一个 id 对不对?那所以的话,如果说我直接这样子取可不可以?可以,但是呢,他是有一个对吧?还是一样老规矩,他是有一个参数加密的。如果说你直接会 gs 紧密的话,那你就是这样子去做。但是的话,我相信很多同学都不会 gs 紧密啊,对吧?不会 gs 紧 没怎么办呢。那我们只能干嘛呢啊?只能用大家最简单的一个方法,手拎扭。对,用手拎扭教大家怎么去爬啊。手拎扭。然后的话,我们这里哎,来写一下。 用舍利钮去爬。那我们先把这些呃给他注视一下。好吧,现在这些我是暂时是用不到了。那舍利钮的话,首先我们导入一个模块。重来的风我们舍利钮。 哈哈哈。啊,打错了打错了。那我们顺利扭上一下。一下蒙了人对吧。放入顺利扭。哎。音炮扯我们的一个 哦。我没有装啊,这个电脑上没有装这个模块。那没事,那我们直接安装一下吧。我们现在就安装一下。听不懂对吧?应该是没有安装这个模块。 好吧,直接安装一下啊。他之前是没有装这个模块对不对?没有装这个模块的话,他连一个快捷的一个智能提示都没有是不是?那我们只能说给他安装一下。安装一下就好了。这里是已经安装成功了对不对?我们稍微等一下他,让他的这个数据给我们加载一下对不对? 好,这已经加载完了。 ampard 我们这个外部加。把这位从这对吧。这里你安装之后的话,他需要导入一些东西的啊,需要把加载出来的。 那么接下来的话哎,用我们首先导致的模块。然后呢?创建一个呃,谷歌浏览器的一个对象。我也不知道啊。点我们的一个对吧, 一个谷歌浏览器,然后用一个粘网 给他接受一下。这个的话啊,里面是可以携带什么参数呢?里面是可以加这个 pass, 然后这个 pass 的话是我们的一个什么 驱动了一个路径啊,一个驱动路径,如果说我们这一个对吧,谷歌驱动在我们这个文件呃,代码一个同步路的话,我们就可以不用写啊,如果说你要指定的话,那你可以加上这个对吧,加上这个等于我们的一个啊,谷歌的一个路径是不是,然后的话我们加我。点我们的一个 get, get 的话,就是请求我们的一个 ul 地址 对吧,然后我们直接用这个。哎呦,这么多啊,这么多,这么长, 我看一下有没有。他这个能不能,他这个不能简简简写吗?他 ul 地址这么长哦,这后面都是这么后面的话应该是不用的,应该只要前面这个就可以了。对,那只要前面这个就可以了。我说 ul 地址怎么这么长,是不是只要这个就可以了。

教你几行代码爬取抖店订单数据,今天来教大家爬取一下抖店中的订单数据,我们要把这些数据爬取下来,然后存储到 asil 中。好,首先来分析一下,单击右键点击检查,找到网络,复制一个订单号,在这里搜索一下, 刷新结果发现他在设置类似的这里,所以我们来找到设置类似的。在这个请求中,我们看到这里有配漏的参数,这些参数有一些是需要我们携带的,比如说页码,每页显示条数,以及这里的开始时间,结束时间,排序方式等等。那此外呢,我们看一下访问结果, 在 respons 这里返回的就是一个阶层格的数据,然后对于这些数据,我们需要结合着页面进行分析,了解一下这里的字段都是什么意思,比如说这是订单号,这是订单状态,五代表着已完成,然后这里是胚 time, 四代表着抖音支付。 看一下代码实线,在这里面排局之前,我们可以设置一下开始时间和结束时间,这里的时间呢需要转化为时间戳,所以呢,这里我们调用了一个函数,将我们的字幕串时间转化为时间戳, 我们来获取页码,接着来便利数据,将所有的数据便利完成以后进行保存。 see you to excel 是保存数据, see you 为妹子呢是保存图片,好来运行看看效果。 运行完成以后,我们看到这里多了一个订单图片,然后还有一个 excel, 这个 excel 呢是我们要存储的数据,小伙伴你学会了吗?

这个视频三十秒教会大家如何用 d p t 和 panson 去爬取呃网页上一些需要的资料。首先我们先打开 d p t, 然后我们在下方输入呃一个蹦,要,我们要给他一个指令,我要用 panson 盘取哪里的地址,比如说这个 double 五零的一个地图,把 ppt 先复制下来,到这里我们要盘取该网址中呃排名前二百五十条电影数据。 拔完之后,我们要保存在哪里,我们保存在哪里?我们去我们的访达里面,比如说保存在下载里面,我们把它作为一个路径保存在保存在这个路径,向新进一个,向新进一个 excel 秒秒钟起, 那它已经生成好了。我们直接点击右上角的高配距盘子的 a, d, l, e 中去粘贴好,我们按 f u 形象, 我们可以看到它是已经生成好了。我们打开该路底下豆瓣 top 二五零 noise 然后我们可以看到这已经是发取好了。

ok 啊,哈喽,大家好啊,欢迎啊,来到一个 python 的一个代码小课堂,然后今天啊给大家讲一下,因为最近啊出了非常多的呃电视剧,然后呢很多电视剧啊都要那个会员, 但是很多小伙伴他就会觉得,哎呀,这个会员太贵了,我舍不得充,怎么办呢?啊,没关系啊,在这里给大家解决一下, 这里呢是一个拍摄的一个代码,首先你们要去装这个拍摄的环境,然后呢装一个相应的模块,这些东西呢?好吧,有笑声。然后呢我们现在拿到这个代码之后呢,右键运行之后 会得到一个这样的一个 gui 的一个界面,然后这里啊啊先找到我们这个友情的链接,比如说我想看这个腾讯视频里面的电视,你直接点进去啊,然后 呢呀,比如说这个三级啊,他应该是要这个会员的,对,他应该是要这个会员的,比如说我看这个,我看这个第十三集,那么你们可以看到特别他有一个十三的一个啊,有个 vip 的一个 logo, 我要做的事情非常简单啊,就是把这个地址给他复制下来,然后呢在这里放进去点一下播放,他会自动打开一个页面,然后同学就是这样一个效果,买门票就同城随地随玩闪增远,同城旅行,包括这个画质也是杠杠的啊 喂,您好,请问是有什么新闻线索要提供吗?啊?对不对?然后这是一个腾讯,那么顺便演示一个爱奇艺的吧?啊,一样的啊,包括 b 站啊,实测都是可以爬到的。然后呢我直接 在这里呢看一个最近很火的一个狂飙,各位狂飙啊,那么这里啊,比如说我要看第第三集或者说第四集,那么这个时候呢,一样的老规矩啊,你把这个地址给他复制下来,然后呢放到这里面点一下播放, 点一下播放,然后他会自动的会去进行一个加载,加载好之后呢,一样的啊,点一下播放, 然后呢这个加载速度取决于人家的这个伏 g, 还有你自身的一个网速啊 啊,这个画质还是非常不错的啊。所以呢,同学们,如果说你们想要这个代码啊,大家懂的都懂啊。

嗨,小伙伴们大家好,今天我还是给大家带来拍森的爬虫案例,今天的爬虫案例还是爬视频,但是今天的视频和以往爬的视频是不一样的,今天爬取的视频是属于 m 三幺八格车的视频。 那么什么是 m 三幺八格车的视频呢?我们先了解一下这个 m 三幺八,其实他就是一个留媒体的视频协议, 是苹果公司针对 iphone、 ipad、 i touch 这些设备开发的基于一个 http 协议的流媒体解决方案。这个方案技术是怎么用的呢? 就是他会把很多的视频文件,把它切割成一小段一小段的小视频文件,最后储存在一个叫做 m 三一八格式的 的文件里面,这个文件是支持音视频编辑码的,说白了就是我们常说的流媒体视频。现在有很多的网站都是用的这种流媒体的视频,比如说腾讯视频啦,爱奇艺视频啦, 他们用的就是流媒体的视频。那么什么是流媒体呢?我给大家找了个视频作为例子, 我们每打开一个视频的时候,就会看到这里有一个进度条,进度条的实线和虚线之间会有一个空间,这个空间就叫做缓冲空间,也就是说只有开始到这个空间区间的距离 的视频才能流畅播放,没在这个区间的就需要通过缓冲等待才可以播放。我们找一个流媒体视频播放一下, 在接收的包里边会不断的产生新的包数据,这些包数据就是切割出来的一小段视频。我们看一下这个网址,我们看到网址里边包含了一个点 ts 的字符,这其实就是经过切割出来的 ts 小视频, 这些一小段一小段的小视频全部就包裹在一个 m 三幺八文件下,我们找一下这个 m 三幺八文件,我们可以看到里边他会有很多的 ts 文件,每一个 ts 里边就包裹着一个 一小段的视频,这所有的 ts 就组成了一个完整的视频,而且每个 ts 是可以直接播放的。我们把这个网址拿出来,浏览器会给我们自动下载下来,然后我们打开下载下来的视频,可以看到是可以 正常播放的,但是这个视频非常的短,只有五秒钟,也就是说这整个完整的视频是由很多的 ts 组成的。 好 m 三幺八大概介绍完了,我们就看一下今天的目标网站,我们通过搜索栏搜索我们需要的关键字,我们还是搜索手机网页,就会跳转到给我们搜索到的页面,里面显示的就是关于手机相关的视频。 然后我们重新请求一遍,发现请求的主页里边并没有需要的网页数据,我们直接定位到叉 hr 看看,叉 hr 里边是有数据的,其实我们需要的数据就包括在这里边,我们可以看到它里面有一个 html 的建制, 对,后边跟着的只是一大串好似 html 网页数据,我们要的数据就在这个 html 里边,这样我们就可以提取到每一个视频的真正链接了。 请求这个链接给我们返回的数据里边就会有一个 m 三幺八的文件链接, 我们通过 parts 慢把它打开,我们在这里边也搜索一下 m 三幺八,可以直接就搜索到这里边就是 m 三幺八的地址链接, 我们只用拿到这个 m 三幺八的地址链接,最后通过 m 三幺八链接把里边的视频合成我们需要的 mp 四文件,这就是今天这个整体的分析。那么下边就是代码了,我们还是 使用讲解代码的方式给大家说。先导入几个需要的模块,导入 httpx 请求模块、车牌 sgs 模块,是解析转换复杂的阶层数据,是一个非常好用且强大的模块。 然后就是 part style 模块,用来解析 html 网页数据。 r e 这个模块用来匹配一些复杂的数据。 jason 模块负责处理 jason 数据, frocket 是处理异常数据的 f f mpg 这个模块就是把 m 三幺八的文件直接转成 mp 四。我们先把目标网址拿过来,给他一个请求头。第一个方法定义的就是一个获取网址列表,因为有时页面是不止一页的,所以 可以说我们直接建立一个 url 列表,如果需要爬取多页数据,就可以在这里改数字就行了。下边就是一个请求数据的方法,请求方法里边定义了一个 baseurl sur l 的功能,就是可以自动拼接不完整的网址,并请求获取响应的数据。 数据请求到以后,然后我们会把这个数据全部通过这个 xps js 这个模块给转换成 json 数据,以方便我们的提取。 我会提取到比如视频的名字,视频的地址, up 主的名字,视频的播放量,还有视频发布的时间等等数据。然后下边一步我们就需要提取 m 三幺八地址链接了, 我们需要通过提取到的视频的 url 再次请求这个 url 地址,就能获取到每个视频的网页数据,然后把这些数据通过政策 把我们需要的东西给匹配出来,匹配出来以后还要继续用 chairparts g s, 先把我们需要的数据转成杰森格尺, 然后我们再从这里边提取出来需要的数据,就是提取出来真正的 m 三幺八的链接地址。有了 m 三幺八的地址后,最后就可以下载了,我们下载的话就用到了 f fmpg 这个模块了,通过这个模块 我们把 m 三幺八合成中 mp 四文件,最后保存在一个叫做微丢的一个文件夹里边。嗯,这就是 整体的代码。好,现在我给大家演示一下。好,我执行一下程序,假如我想找关于手机方面的视频,可以看到程序就在下载关于手机方面的视频, 我们看一下这些下载好的视频,可以看到都是可以正常播放的,而且播放的都是高画质的视频。 好了,今天的案例就到这里,因为同样是下载视频的案例,不同的之处是之前的案例是直接提取出 mp 四链接地址, 不需要转换,直接就可以下载,但是今天这个是需要转换的,需要把 m 三幺八转换成 m 四才能正常下载的。嗯,就是这样。好,谢谢大家观看,再见。

学会这些代码,一键下载所有音乐安排,准备一个空白文件,然后新建一个文本重命名,将后缀名改为 py, 右键编辑输入这些代码, 输入完成后,点击运行,输入抖音热门音乐,选择获取页数开始下载, 下载完成后就可以直接播放了。

大家好,我是猴哥,这个视频我们通过拍摄快速的爬取会计师政策发布相关的这个文件。啊,我们看一下他这里一共是有啊,三十三页,一会呢,我们爬取前五页。好,我们可以点击这个标题,看一下里面是什么内容。 好,点击进来看一下,他有这个正文,下面呢会有附件,看一下,这里有这个 pdf 的链接,点击一下。 好,我们再来切换第二页,点击。好,看一下,也是同样的布局。好,有正文,还有这个附件。好,那现在呢,我们想通过 pattern 爬取前五页的内容, 保存到我们的本地文件夹内。好,我们,呃通过 pattern 先把 哎他每一个标题的相关正文哎给他啊,保存到这个 word 文档中。然后呢再把下面的这个 pdf 进行一个下载。好,我们来看一下 下面呢,我们来通过 python 进行这个自动的批量爬取,我们爬去前五页。好,现在呢,我来运行这段代码 看一下,在左侧呢,生成了一个文件夹,双击打开看一下,已经下载了这么多, 我们稍微等待一下, 好,看一下,一共耗时二十三秒。好,全部下载完毕。好,我们现在呢来看一下,这里面一共是有六十个文件夹。 好,我们双击第一个看一下,看一下他的正文的内容。 好,看一下,这个是它的正文,然后呢,它有附件,它的附件比较多,看一下,一共是有啊,十一个。哎, pdf 文件。 好,十一个,他是这个诸多快师审计准则。好,我们关掉,来看一下这里,他把这十一个呃 pdf 附件都下载了下来, 我们打开一个看一下。 好,我们再来换一个 看一下,这是两个 pdf 附件, 这个是正文,好。