粉丝8358获赞2.9万


在我们写爬虫的时候,如果遇到了登录,那怎么办呢啊?基本上呢就是三种情况啊,第一种情况呢就是这个网站呢,特别的简单啊,那他没有什么验证码啊,什么都没有,就只需要一个用户密码就完事了,那这种呢,你就直接拿手快速的发个请求就完事了,对吧?所以非常的简单。那第二种情况呢,就是他可能会带有一些呃, 较简单的那种啊,验证码啊,比如说一些数字啊,还有字母啊,一些组合,对吧?那这种情况呢,我们可以选择自己写一个啊,识别的逻辑对不对啊?或者使用一些第三方库直接把它识别出来啊,也是可以的,对吧?啊?然后呢再配合着咱们的 request 发送好这个请求。 第三种情况呢就比较难受了,就是他可能会带有一些非常复杂的验证码,比方说点选呐啊,比方说拖拽呀,比方说还有转圈圈,对吧?那像这种验证码的话呢,我们最好是能够找到一些能够直接破解或者干掉这些验证码的这种第三方平台,然后呢你可能需要,对吧?哎,花那么一内内,对啊,非常的便宜啊,就花那么一内内,然后呢就可以解决掉这些个 验证码的问题啊,进而呢你可以完成这个登录,那还有呢,如果说碰到了更加复杂的,你甚至说找不到这种,呃第三方的情况,对吧?那怎么办?哎,我们可以选择用手工的方式来完成这个登录,就是你手工啊,去登,登完了之后呢,把他的哭 k 或者偷看把他弄下来,对吧?哎,也是一样的啊, 最终呢你要记住啊,做爬虫的啊,你的目的是什么?是拿到这个数据啊?手段、过程、方法都不重要,重要的是最终那个那个结果啊,结果只要正确就 ok。

人生苦短,我用 pass。 各位小伙伴大家好,今天我们来分享一期爬虫的案例,爬取的目标就是支付的热榜。首先我们打开支付热榜的页面,这个热榜呢,一共有五十条数据, 我们就把这五十条数据把它拔下来。首先打开开发者模式,选择网络 x h r, 我们再次点击这个热门按钮, 那我们看这条请求,他的预览数据里面,这个 data 下面有零到四十九,五十条数据,就对应这五十条热网的榜单, 那我们来打开一条热网看一下, 那这个 text 就是热榜的标题,所以呢,我们就根据这样的一个逻辑来开发排充代码, 首先导入需要用到的库 request, 向页面发送请求,呃, pnt 用来保存 csv 文件。 首先定义一个请求的地址,那这个地址呢?从 hiders request ur, 我看这个地址,把它直接拷贝下来,放到这个地方就可以了。下面是请球头,请球头的话, 我们直接从 hiders request, hider, 从 accept, accept, including, 一直到下面 所有的请求到参数都复制下来,组成一个字典的格式啊,放到这里就可以了, 就无脑拷贝就好了,因为有一些参数可能不需要,有一些参数需要,那这样的话我们把全部参数都拿过来,这样肯定是没问题的。 那下面是发送请求,有快速点 get, 像这个 u l 发送请求,那同时带着刚才这个请求头 states code 看一下响应码,那因为这个数据它是 返回的数据,它是一个 jason 格式,我们看这个竖状的结构,那这个就是 jason 啊, jason 格式,所以就直接用 r 点 jason 来接收这个数据,那下面定义了一些空列,空列表用来存放数据, 负极点是 data, 嗯, data 下面有五十条数据 啊,所以这个中框儿 data, 这个是附接点,然后下面是一个 for 循环来循环处理啊,每一条数据, 这个 outerness 的啊,是排名,我这里定义了一个初始值第一名,那每次循环的时候 outer 加一,这样就实现了从一到五十的排名。那热网,热网标题, 我们来看他这个树状结构 data 下面的每一条数据,从 target 开始, target 下面有 text area, 在下面有个 text, 那这个 text 就是热榜的标题, 那所以就是这样定义这个树状结构, target 下面的 title area 下面的 text, 拿到这个 title 之后,我们再把它 open 到 title list 这个空列表里,每次循环 open 了一遍, 那其他的字段也是同样的道理,那这里就不再坠述了啊。分别爬取了日榜标题,日榜描述 链接 u l 热榜的热度值,还有这个问题的回答数,要把所有的列表都填充好数据 之后,再把它组成一个 data frame 格式的数据,这个前面是表头,后面是每个 list 数据,那组成这个 data frame, 最后进行一个 to set v, 保存到 set v 文件, 那这里需要说明的一点是,要加上这个引口令参数,那他默认的引口令是保存之后有可能会产生乱码,加上这个 utf 八 c 就不会产生乱码了,那我们来执行一下这个代码。 好,八局结束,我们来看一下这个数据, 那 part 取完成之后就是这样, 从一到五十,一共五十条数据。热榜排名,热榜标题,热榜的链接,每一条热榜队的一个问题的链接,热榜的热度值,热榜目前的回答数, 用把它描述文字, 好,这就是今天的分享,谢谢大家。