【Python爬虫教程】本期内容：处理post请求＋处理很多参数的get请求 #Python爬虫 #爬虫教学 #计算机 #编程 #Python

如何用qpython爬虫

8

2

5

1

举报

发布时间：2026-01-30 08:31

查看AI文稿

AI文稿

欢迎大家收看二零二六年全新制作的 python 系统教程。在做这套课程之前，我就曾放空大脑，以一个零基础初学者的角度去重新解析它，花了有一个月的时间研究了全网几乎所有的课程，有几百上千万播放的，有几十几百播放的，但给我的感觉就是泥龙混杂，滥竽充数。所以我在想，有没有这样一套课程，既能让零基础小白轻松听懂，又能在课后有足够的练习题材呢？所以我综合了拍粉教程的所有知识点，用更具有趣味性的课堂表述，加上知识和实操相结合的实际案例，历时三个月，终于完成了这样一套课程，让你体会到什么是每一秒都在疯狂的输出知识点。我们这套课程会从基础篇、进阶篇、技能实战篇三大方面带大家快速入门。基础篇会从软件安装、变量预算、浮循环、字母串元组这几个方面来讲解，用最易懂的方式带你快速掌握 python 的基础知识，以及基础的程序编写。 python 进阶篇呢，我会详细讲解各种进阶知识，从面向对象编程、异常处理、正则表达式等知识点开始，帮助你提升编程开发效率，让你在以后的应用中更加得心应手。我还会提供整套课程相对应的思维导图，让大家不用为来不及记笔记而烦恼。技能体系篇会手把手教大家练习项目，如爬取图片、视频办公自动化、数据分析、机器学习等，从而更好的应对大数据时代的挑战，让我们所学的知识进行变现，流进我们的口袋。最后呢，会给大家一个小福利，课程视频中的所有素材有搭建开发环境资料包，拍粉从零到一的学习计划表，几十上百记素材，书籍、课件等等，只要你能想到的，我这里几乎都有。相信我，这套拍粉系统课程将会是全网最齐全最易懂的小白专用课，评论留言打卡学习即可全部打包带走，让更多想要学习拍粉的小伙伴看到这个视频。接下来让我们正式开启这套系统课的学习吧！本期为大家带来的是处理 post 请求加处理很多参数的 get 请求。好，那接下来咱们来说一下 request 这个模块如何发送 post 的请求啊。那首先我们打开浏览器，在浏览器的地址栏里面，我们把矛头对准百度翻译那翻译点，百度点 com，然后进来之后，你接下来的操作必须和我一模一样，否则你很难说是能找到他我们所想要的那个 u l。首先你要摁一下 f 十二啊，把这个呃档调到这个 network 这个档，并且把这个下面的筛选调整到叉 h r 啊叉 hr，一切都是为了监测这里面一会要发生的这个网络请求。然后接下来我们点击这个位置啊，点击这个位置，然后接下来一定要记着，你要把你的输入法啊，把你的输入法切换到什么呢？切换到这个，呃，这个这个英文状态一定要切换到英文状态，中文状态的话，搜那个那个搜狗输入法也好啊，或者说你默认的那个输入法会影响他的这个网络请求啊。那在这个地方，我们假设输入到哎输入 dog，一输入 dog，你会发现这个右边就开始发送请求了，对吧？那这个请求是什么呢？各位啊，是什么呢？来，我在这块 dog，来你一，你一输入 dog，你会发现这个地方，看看这个东西没有，哎，这，这东西都是动态加载进来的，对吧？你就说我每次每次输入一个字母，它都会发送一个网络请求，对吧？那我们看一下它的网络请求是哪一个？主要指的是这个 s u g，注意啊，是 s u g，其他的目前已各位的这个实力来说还爬不了，我们只能爬 s u g 来点下它。点到这个 s u g 之后，我们来观察一下吧，首先它的 url 是在这呢， l t d b s 翻译点百度点 com，然后 s u g，对吧？这是我们要请求的 url，然后注意看了它的请求方式是什么方式是 pose 的，看到了吧，跟之前不一样了，现在是 post 了。然后接下来啊，往下再去看啊，这里边的什么？呃，这个，这个 request header 我们不用管，我们往下拉，拉到底下看到这没有？这块有个叫 kw 等于 dog 啊，注意， kw 等于 dog，咱们在哪输入 dog 是不是在这输入 dog 了，对吧？也就是说此时的参数并没有说放在这个 url 身上。咱们刚才看的那个搜狗那个不是在这块写了一个什么问号 query 等于什么什么玩意了吗？对吧？那个参数是直接拼到 url 上的，但是 pos 的请求一般情况下很少说在这个，呃， ul 上去去去写一些参数，但是有些网站它确实会写啊，但是你不用管它 post 的请求，它的参数往往都在底下的，叫 formdate 里面啊，往往都在 formdate 里面，那这里面它的参数名叫 kw，对吧？就跟咱们刚才说的那个 query 的猜那个那个那个参数名叫 query，对吧？搜狗那个那个那个 query，那么再往后 dog 是我们输入的这个值，咱们后面那个刚才输入的是周杰伦，对吧？所以都是有有有这个相似性可言的。那接下来咱们就尝试着去发送一个这个请求，看看能不能打，能拿到我们想要的这个内容，对吧？看看这个内容都是什么？ dog？ dog， dog， dog dog，对不对？跟刚才那个在这个地方看到的是一样的，咦？又不出来了？到又不出来了，反正就是刚才这个地方是能看到这些数据的，对吧？那接下来咱们就尝试着去发送一个网络请求啊，注意是 post 了，那么到这边来，首先第一个事，把那个包给他导进来，对吧？导进来，导进来之后准备好的 url，注意 post 请求的 url，你就把这个地方的 url 全盘的考进来，你甭管他后边写了些什么玩意，懂吗？这个后面有可能会有问号，会带参数，你甭管，全都给它复制过来啊。 pos 的，你就这么复制，没毛病的，来弄过来。 u l 准备好准备好了之后，接下来就可以发送我的这个请求了，但是发送请求之前，各位请看这个地方是不是还要一个像字典一样的这个东西啊，对不对？这个函数得有啊，所以我们要准备好我们要发送的数据，那数据是什么？是不是这玩意？然后后面刚才写的是不是 dog 这玩意，对吧？那可不可以给他换成用户输入啊，对吧？可以的，那 input 怼在这来，请输入一个单词，可以吧？然后接下来收到这个单词，对吧？扔给这 kw 组装到 date 里面去之后就可以发送了。那 response 等于来 request 点 post 的请求，看懂了吗？各位，咱刚才之前说的那个那个 get 请求是不是点 get 就可以了，对不对？那此时我们发送的是 post 的请求，所以 post 把 u r 给它怼进去，怼进去之后光有 u r l 是不够的，它那个地方还要数据，对吧？所以接下来注意 post 的请求方式， data 等于 data，数据要这么传。注意啊，数据要这么传，你这个可以换名字的啊，呵呵呵呵，懂吗？总之人家那个地方叫 date，你不能换啊，你不能换，你这个地方爱叫什么叫什么，这是你的自由啊。然后接下来我们就可以打印一下 response，点 text 来，右键走你那输入个单词吧， apple 来 apple 对应的这些个文字，但是此时你发现这个字什么杠 u 杠 u 的，是不是不太舒服，各位，对吧？不舒服怎么办呢？注意，此时服务器返回给你的这些个数据，它叫什么呢？它叫 jason。来各位，这个地方啊，福气。返回给我们的数据是这个样子的大括号，然后里面什么谁冒号谁，谁冒号谁。那这种数据格式我们统一管，他叫 jason 啊，叫 jason。那 jason 数据的话想要进行解析，我们可以有两种方式解析。第一种方式，你可以导入 jason 模块，哎，你可以导入劫色模块，拿劫色模块呢？去处理一下这个，呃，这个，这个字符串嘛，对吧？把它处理一下。还有一种方式啊，更简单，更简变，可以 response 点 jason，那直接 response 点 jason，来右键，哎，走啊，还是 apple 走，看到了吧。哎，此时我们就拿到我们想要的数据了，并且此时 response 点 jason，注意它返回的是个什么？是个字典，哎，而之前我们写的这个点 text 的，拿到的是什么？是自复串，懂吗？是不一样的啊，是不一样的，这地方我们写个 jason，拿到的是字典。字典有好处的。好处是什么呢？我可以往里面一层层的拿数据，比方说，我想要 date，看着 oppo 我就想要 date，前面这个 i 我不想要，你看这 date 就出来了，知道吧，这就是字典啊，字典。所以我们可以通过 jason 啊，来能直接拿到 jason 数据来。此时拿到的直接是 jason 数据啊，而刚才的那个 print response 点 text 的，它拿到的是什么？是文本，就是字串儿啊，文本字母串，你想把字母串变成接收，可能还需要再去转啊，或者怎么样，对吧？但是人家 request 模块直接提供了，你点接收就拿到接收数据了，对吧？这样就很方便啊。 ok，那这是咱们聊的说如何用咱那个 requests 啊去发送一个 post 的请求。这个并不复杂啊，并不复杂，主要就是这个百度翻译啊，各位，这个百度翻译很头疼，你很有可能说是，呃，在这个抓包工具里面，你找不着这个 s u g 啊，我再给你说一遍，怎么找这 s u g，那清空在这个地方啊，一定记住，这是百度翻译啊，一定是它的域名不能后面跟杠啊。然后在这个地方我可以点一下，点一下之后呢输入东西，那输入东西之前一定记得把你的输入法调整成英文状态的输入法啊，不能是有有有有，这个这个输入法出现的就直接就是美式键盘那种啊，那我输入一个，比如说 abc，你看这个时候 s u g 就出来了，知道吧？啊，所以这个地方一定要小心啊，很容易出不来东西的。 ok，那这是咱们聊的关于 request 发送 pos 的请求啊，但是这地方注意我的参数是不是放在这里啊，各位对不对？哎，我的参数是放在内存里面的啊，是内存里面。而之前我们聊的那个 get 请求参数是放在哪呢？各位，参数是不是直接挂在这个 u l 的屁股上了，对吧？直接挂在 u l 的屁股上了啊，这是，呃， get 方式跟 pose 的两种方式啊。 ok，那这一节咱们就说到这，谢谢各位。好，那接下来咱们来看一下 requests 的另外的一个问题啊，就说当它的 get 请求太多的时候，怎么来进行处理啊？咱们先去找到咱的目标，哎，打开这个网站，我们找到的是豆瓣这个网站啊，豆瓣，豆瓣里面呢？我们找到电影哎，电影，电影里边有一个排行榜来，这地方有个排行榜，打开，打开之后呢，这地方有这个喜剧啊，动作呀，爱情啊什么的，这玩意对吧？啊，我们选一个爱情，爱情吧，好，打开打开之后我们能看到这个爱情相关的数据，对吧？爱情相关的电影霸王别姬啊，阿甘正传呐，美丽人生啊，对吧？这些数据，然后接下来注意了，我想爬取这里边的内容哎，我想爬取这里面内容，那么各位请看啊，第一件事，我们先去看一眼页面原代码，来，在这里我们搜一下这个霸王别姬，哎，你会发现没有，对吧？哎，很奇怪哎，你页面上明明有霸王别姬的，但是你页面原代码里面没有，为什么这样呢？还记得之前我们讲的这个网页的加载的过程，对吧？他是这样的一种形式，就是这是你的网站啊，这是你的浏览器，这是人家的那个服务器，你第一次请求过去之后，人家返给你的什么？是不是只是一个页面结构，一个壳子？数据的话是通过第二次发送请求拿到的数据，然后再展示出来，对不对？所以我们现在此时能够通过这个 url，通过这个 url 能直接拿到他是第几次请求？是不是第一次请求啊？你直接能拿到的只有一堆无用的 html 结构，对吧？只有一堆不用的 html 结构，那真实的数据是通过第二次请求才发生的，那第二次请求在这是看不到的，对吧？想看到后面的请求，我们打开 f 十二 a f 十二，然后在 network 里面去看，并且把这个呃档啊，调到这个筛选档，调到这个叉 hr 这一项啊。这个地方我们一般只看数据的时候都看，都要他这个档，然后刷新一下页面，走你啊，剩下的事就是等等看，这，这里面出了三个链接来，先点开，第一个点开，那你发现里面，哎，张国荣霸王别姬是不出来了，但是这只有一个霸王别姬很明显是不够的，对吧？咱后面还有阿根正传呢，美丽人生啊，福尔摩斯这些玩意。那往下走看他吧，他也不是他，就这么点玩意，你肯定是没数据，那往下再走，哎，第三个，第三个，你发现这数据是不多了，来，打开一个，哎，这是霸王别姬，再打开一个啊，阿根廷传，哎，对上了，对不对？那再往下走来，第三个是这个，叫美丽人生啊，在这呢，所以你会发现数据是通过这个 u l 来加载进来的，那么这个 u l 长什么样？点 hyder 啊？ hyder 里面。这告诉你了啊，这个 hyder 呢？是长这个样子的啊，是长这个样子的。注意这个 url，它的问号是一个分水岭，问号之前就是一个普通的 url，然后问号之后是一大堆的参数，还记着咱刚才聊的那个这个，这个搜狗里面有个 query，等于周杰伦，记着吧。对，它都是出现在问号后面的，所以问号后面才是你真实的参数信息啊，才是参数信息，然后往下走，请求方式是 get 啊，是 get，然后这地方两百， ok，那不用看了，往下走，对吧？这些东西暂时先都不用管啊暂时先都不用管，出现反爬的时候再来看它，然后往下走。这个地方刚才咱们发送的 post 请求叫什么？叫 formdate，此时这个请求叫什么？叫 get 了？ get 请求写的什么？叫 query， stream， parameters，看到了吧，是不一样的啊，看这儿，看这儿，哎，这地方是 post post，它叫什么？叫 form data，而这边咱这个叫什么？是 get 请求对吧？ get 请求叫什么？叫 query， stream， parameters，所以不一样的哦，不一样的好了，即使啊，甭管它一不一样吧。此时你看到这个 get 请求，是不是这个 u l 很长啊，对吧？参数很多，那什么问题呢？如果你的参数非常多，各位想象一下啊，如果这个参数有十几二十个，对吧？这个 u l 会写的很长，然后调整参数的时候就很痛苦，对吧？那怎么办呢？看好我们把，注意啊，只是 get 请求啊， get 请求里面问号前面的部分，把它弄出来，这个是 ul，后面问号后面是参数啊，是参数。来，咱们把前面的这个东西复制扔到咱们代码里面来，模块还没倒呢，是吧？没关系，先把这个 ul 准备好，然后导入我们的那个模块 request，对吧？然后接下来就可以发送请求了，注意 request 点 get u l 发送这个请求没问题，但是这个 u l 是不是不完整啊？后面还有问号，一大堆参数呢，各位对吧？那这个参数怎么办呢？到这边来看好，我们参数在这里面都有体现，注意啊，你可以一个一个对一下。 type 十三看着啊， type 等于十三，然后 int 等于一百。什么什么？呃，九十来看底下 int 一百，冒号九十啊，刚才那那段乱码是冒号的意思是吧？然后 action，什么 start 零 limit 二十来 start 零 limit 二十，是这些玩意吗？对不对？所以把这些玩意复制，那复制复制他的好处是啥呢？是到了咱们这边他好处理，知道吧？直接很好处理的，往里一粘，把他引起来，引起来引起来引起来引起来。这玩意引起来这玩意引起来，引起来。这地方引上啊这地方引上来。逗号逗号逗号逗号来。这个时候是不是就变成四点了，各位是吧？哎，所有的参数都都挪过来了，有了之后数据有了，发送请求的时候把数据带上不就完了吗？那在发送 get 啊，这个 post 的请求的时候，咱们叫 date，记得吧。那不行了，这不能叫 date 了，这个地方应该叫 paramus，等于对它啊，也是，你这叫啥都行，你叫，呵呵，没问题，这个地方拿过来就是，呵呵，这地方叫什么你就叫什么，反正总之是把它传过来，对吧？那得到一个响应，我们看一眼这个响应有没有问题？来， print response，点 text 是吧？右键走，你看，啥也没有，哎，啥也没有，这个啥也没有，啥意思呢？各位，依然是它的反爬的问题，它默认也是会检测你当前的这个呃，设备的信息，所以我们还要准备一个 headers，等于这地方在哪粘来着，是不是在这啊，各位，把这个 user agent 来弄过来复制啊，把这 u a 弄过来，往底下一粘呀，先写个引号啊，这样好处理来，这样，这加一个引号，这加个引号是不就完了，对吧？哎， hiders 等于 hiders，对不对？咱依然还要处理一个小小的反爬，是吧？处理一个啊，小小的反爬，好了，接下来我们再跑来，你给我出来看，数据就出来了啊，数据就出来了。所以此时，哎，我们可以通过啊 get 方式来发送请求，哪怕说你参数很多没关系，对吧？哎，也可以正常的处理，但是此时你一定要清楚，只要是 get 请求，你这个参数甭管是这么写的，还是在后面问号写进去的，它都会拼到 url 里面去，这一点你要你要记住，来 response 点这个地方 request，点 url 来，当它发送请求之后，我们看一眼它的 url 到底是什么，来，右键走啊，咱刚才不是在这看它那个 hide 了吗？对吧？还能看这个 url 看见没有，看见没有，它的 url 依然会把这些参数给你拼进去，懂了吧？所以 get 请求参数在哪啊？各位是不是永远都会在这个这个这个 u i l 身上啊，对吧？哪怕你是这么传的，最终也得变成这个样子，哎，那这是咱们呃，关于 get 请求啊，他发送的这个请求的方式啊，当然依然是有这样的一个现象啊，就是他返回的是什么？是接受数据，那接受数据的话，我是不是也可以这个地方接送，怼起来是不也可以啊？走你嘣啊，数据就出来了，对吧？哎，所以我们说这个 request 这么块啊，它是真的非常的好用，所以如果你用 ul open 那种方式来处理 u a 啊，对吧，传递数据啊，对不对？都没有它这么方便简洁啊。好了，那至此，咱们关于 requests 的一个啊，完全入门的这么一个需求，咱们算是 ok 了。其实我们用这个这个 request 啊，用的比较多的，基本上就是怎么发送请求啊，甭管是 get 还是 post，怎么发送请求？咱得知道，发送 get 请求的时候用的是 pmask，发送 pos 的时候呢是 data，哎，然后呢？处理处理反法，基本上都是 headers 啊， headers，然后还有就是我们返回的数据，可以通过 response 点 text 拿到纯文本啊，字母串儿，还有一种方式点 jason 拿到 jason 的数据，对吧？所以就是这样的这些东西啊，基本上咱们的呃，就是把这些掌握了，咱们算是一个小小的入门了啊，小小的入门了？好，那关于这个 request 的入门，咱们大概就暂时说这么多，往后随着咱们学，咱们一点点的再去学一些一些其他的内容啊，包括咱们返回，呃，一个视频，返回一个图片，对吧？咱们来处理啊，其实道理都一样啊，道理都一样， ok，那这一节咱们就说到这，谢谢各位。

Py小周睡不醒丶

粉丝701获赞812

相关视频

02:31
【Python爬虫】手把手教你用python爬取各种VIP小说，源码可分享，小白也能轻松上手！！！#python #python爬虫 #python教学 #计算机 #编程
查看AI文稿
AI文稿
今天带来的是拍帧爬取付费小说，今天给大家带来一个新的拍帧爬帧程序，就是用爬帧技术来采集这个小说内容。好吧，那首先呢，我们先来确认一下啊，这个说明如果你想运行代码，需要先有拍帧的环境才行，那接下来我们来看下这个代码啊，首先第一个，我们先找到目标来，这是网址， ok，打开滤镜啊，你先看一下这个小说内容来。好，那么可以看到啊，这是一本小说，它的一个章节目录，对吧？然后里面的话呢，比如说文字内容，第一张这个青铜官是吧？ ok，好，那接下来的话呢，我们来通过代码的方式来进行采集。好吧，来看一下，点击运行走看结果开始解析。正在下载第一张，灵堂，第二张啊，赘婿是吧？妻子文灵昭， ok，你看他就开始下载了是不是？那我们来看一下，我们这里边看一下目录吧，确认下目录，目录的话呢？嗯， no，对了吧，是不是应该对的啊？第十张不负向上少年头，呃，在哪？在这？好，那可以看到他是可以一个个的下载的，一张一张下，反正这边的话呢，我就先不下了，这个等一会停一下啊，我们这里先手动中指啊，要不然他会一直下完为止的。 ok，这里我们就不等那么久了，先来看一下，比如说刚刚下的第四十九张，对吧？好，我们来看下这个文字内容在哪呢？在当前目录下会生成一个，他就见到第一先吧，是吧？是的，所以的话我们来看一下，打开文件，这是第一张内容啊，灵堂对吧？一个青铜官， ok，没错啊，好，我们再确认下其他几张内容，比如说第十张，匍匐向上少年头，喏，就这个吧。好，我们来看下第十张，这里直接搜啊，第十，哎，那个十三，第十张，好，再来，对吧？第十张不负向上少年头，喏，那可以看到这个是和浏览器里一样的，对吧？是一样的吧。嗯，所以我们可以通过代码的方式来批量的下载小说，只要你想它就可以一直下，直到下完为止。好吧，我这里是手动中指的，所以就没下了。嗯， ok，行，那这里是我们通过 python 技术来采集小说的这样一个案例，如果你有需要这个代码或者需要 python 环境的话呢，你们可以一键删掉后在评论区留言啊，我会发给大家，那么这个就给大家讲到这，谢谢大家，那我们下期见。厉害。
44大东学长
03:57
【Python爬虫】用Python实现听各大VIP付费音乐，让你轻松实现听歌自由，超实用的爬虫教程！#python #编程 #计算机 #爬虫 #音乐
查看AI文稿
AI文稿
用拍摄实现免费听 vip 音乐，好，我们先来到网易云界面搜索一个林俊杰，然后可以看到他的歌曲大部分都是要 vip 的，只能试听也不能下载，我们来试听一下，这些都是要 vip 的，那如果我们想免费的去听这些要钱的音乐怎么办呢？我们就来我们的破解代码运行，然后这是一个弹窗的音乐破解软件，这里选择我们的音乐搜索通道，我们就选择网易云，然后输入歌曲名或歌手，然后搜索一下，好，这里出现了就是他在网易云上面所有的歌曲名单，然后我们找到我们刚刚听的一首，他说点击下载，好，这也告诉我们保存地址在 d 盘的网易云文件夹下面，我们来找一下，这里有一个网易云，然后里面就有一首，他说听一下到底有没有下载成功，那我们再来下载几首其他的，那下载一个交换雨声，好，这就出现了一个交换雨声，我们下载一个浪漫雪夜，好也下载成功，再下载一个别的新地球，好，都下载成功，我们来听一下，可以看到这样的话我们就能免费的把这个歌曲给下载到本地。那我们来看一下我们代码是怎么实现的，其实我们这份代码主要是设置了一个弹窗的界面，然后里面有一些空间的布局，然后还有鼠标的点击事件。比如说我们刚刚看见的像这个搜索按钮和这个下载按钮，然后还有网易云这些按钮，这些都属于鼠标点击事件，就是你点击之后它会做出相应的反应，然后我们这里就是一些空间的布局，再往下面的话，这个函数主要就是用来下载歌曲的地址给它获取一下，然后指定一个下载路径保存到本地的哪个位置。
32何十二时
03:42
第1集：【Python爬虫教程】认识什么是爬虫？ #Python #编程 #大数据
查看AI文稿
AI文稿
拍等六十天，从零到精通第一集爬虫原理嗨，你知道什么是爬虫吗？爬虫其实就是通过程序模拟人类打开网页浏览页面，再将感兴趣的数据提取保存的行为。例如我们打开华为官网，浏览时只关注产品及对应价格，找到目标产品后就会记录下它的名称和售价。那爬虫程序如何复刻这一操作呢？人类获取网页内容时，会通过浏览器向目标网站服务器发起 s t t p 请求，服务器接收请求后会把网页原始内容响应给浏览器，浏览器再将这些原始内容渲染成直观美观的页面，这就是人类浏览网页的完整过程。而爬虫程序则是通过代码形式向服务器发送 s k t p 请求，服务器同样会把网页原始内容返回给爬虫，但由于爬虫没有浏览器的渲染功能，最终得到的就是网页未经美化的原始代码。我们可以在浏览器中查看这份原始代码，右键点击页面选择检查，弹出的窗口中显示的就是整个网页的原始内容。点击窗口中的箭头图标，将鼠标移动到网页任意元素上，会发现原始代码中对应的位置会同步高亮。仔细观察会发现每个网页元素都被一对肩括号包裹着，这就是网页标签。网页标签类型多样，不同标签有不同作用，这里我们暂不深入，只需知道标签包裹的部分就是一个网页元素即可。获取到网页原始内容后，下一步就是筛选有价值的信息。原始代码中包含大量标签，内容繁杂，就像人类浏览时会过滤无用信息一样，爬虫也需要精准定位目标。比如我们发现华为官网的产品名称和价格都被 def 标签包裹，且这些 def 标签会通过 class 属性标注特定名称。抓取到筛选后的目标元素后，爬虫程序只需完成最后一步，将提取的内容保存到数据库中。到这里，爬虫抓取网页数据的完整流程就结束了。相信大家已经对爬虫的工作原理有了初步了解，现在我们来聊聊爬虫的红线。都说爬虫有风险，很多人因此望而却步，但其实只要注意以下几点，就能避免踩坑。第一，严禁抓取政府机关、国防等相关单位的信息，原因无需多言，若有相关想法，不妨在评论区留言，之后在家静候警察叔叔即可。作为热心市民的我还能领到五十万奖励呢！第二，不得涉及公民个人信息、商业机密等。如今多数网站需实名制，个人信息已录入，侵犯他人隐私，属于违法行为，切勿尝试。第三，不能对网站进行破坏。部分人会利用爬虫向抢票类等网站的服务器高频次发起请求，可能导致服务器宕机，影响正常用户使用，由此造成的损失需由行为人承担。有同学好奇能否采集某额某水果平台的 vip 视频，技术上爬虫可以实现，但我绝不建议大家尝试，感兴趣的同学可查越中华人民共和国刑法第两百八十六条破坏计算机信息系统罪以及侵犯版权相关法律法规。说到这里，我们已经掌握了爬虫抓取信息的原理，也清楚了爬虫需遵守的原则。下节课我们就来学习如何动手编写一个爬虫程序。
31猴哥教Python
00:59
【Python爬虫】VIP电影轻松免费白嫖，用Python代码带你实现免费追剧，附源码#python #python爬虫 #编程 #电影 #免费追剧
查看AI文稿
AI文稿
本期代码分享，带你用 python 实现电影自由！同学们各位在寒假有没有追剧呢？想要追剧点开来却全部都是需要会员捏？今天主播就带来一个免费追剧神器，带你轻松实现免费追剧！就是用到我们的 python 代码轻松实现。这个代码还是很简单，只需要你会简单的复制粘贴，就可以轻松的运行并实现追剧自由。看到我屏幕的代码，运行一下这个程序，在这个弹窗中选择你喜欢的平台，接着就选好一部想看的电影，就比如我选择的这部电影，就是需要会员才能正常观看的，现在只需要复制一下上面的地址，粘贴到刚刚弹窗的这个位置，点击播放后就能开始正常的视频观看了。是不是很简单，五十行不到的代码，要会复制粘贴，你就可以轻松的观看你想看的电影，电视剧电影的画质还是很好的，下方的进度条你也可以随便的拖动，轻松实现电影自由。
136六一一
02:30
【Python爬虫】2025最新最全获取小说爬虫项目，附源码 #Python #python爬虫 #Python编程 #小说 #编程
82Python程序员👩‍💻
19:23
第二节 | 0基础学习Python爬虫，保姆级详细教程，新人博主感谢关注支持，Python学习路线/工具/学习文档等【打卡学习】双手奉上
#Python #python编程 #python爬虫 #python教学 #编程
查看AI文稿
AI文稿
逼自己十天学完拍算爬虫，你会发现你真的很牛逼，纯干货，不废话，存下吧，真的很难找全了！警告，本视频耗时六个月制作，制作时长六百分钟，陪你系统的学习拍算爬虫，这应该是目前抖音最良心全面的入门到进阶的拍算爬虫教程了，哪怕你是零基础也能听懂。为了打造这套 python 课程，我系统研究了国内外大量教程，发现普遍存在内容杂乱、节奏拖沓、实践不足等问题。相信大家在之前也或多或少的看过 python 的系列视频，但是网络上学习 python 编程的资源太多了，家家都说自己的最好，这个难为坏了有选择困难症的伙伴们。这些视频总结下来就是鱼龙混杂，滥竽充数。所以我决定摒弃所有的花里胡哨，用最原始、最直观、最纯真的方式呈现出来，能让大家最直接、最快速的吸收，并且最大程度上的活学活用，带大家由浅入深地从零开始学习 python 编程。除此之外，我把学习 python 的路上所需要的学习包都准备好了，有搭建 python 开发环境的资源包，还有详细的 python 学习计划表，路线，几十上百记素材，电子书籍和教程等等，只要你能想到的素材，我这里几乎都有，我都会整理起来放在粉丝群，有需要的伙伴留言打卡学习，可一步获取。相信我，这套 python 系列教程将是最齐全、最详细，讲解清晰易懂的小白专用课。如果看到这里对你有所帮助的话，请给我一个免费的赞吧，让更多想要学习 python 的小伙伴看到这个视频。那数据怎么爬取呢？首先第一步就是要找到要爬取的目标网站去发送请求。那你比如说我就要爬百度，那我们在这咱们这个课程采用的这个浏览器啊，推荐使用谷歌浏览器，目标网站找好了就是这个百度，所以呢，我写上这个百度，百度点 com，那然后当我去点击回车的时候，实际上就是向百度的服务器去发送了一个请求，那然后我们看一下我要干什么？我把百度打开之后呢，我要去搜索，搜索什么呢？就搜索这个马士兵。好嘞，那我们第二步我找到了要爬取的目标网站，点击回车的时候就向服务器发送请求，那我现在想干什么？你要分析 url 是如何变化的，那我们现在来看，那它是怎么变化的呢？我们只是在这个框框当中输的是马士丁，但是你发现它的地址栏当中出现这么多的东西，那我们就要从这个 url 当中去提取一些有用的数据。那我现在来看什么是有用的？后面这些东西好像都不是我写的，那我可不可以把它去掉呢？我把它去掉之后再按一下回车发现可以，那这个就是我们要提取的有用的 url，那然后再看下面还会有什么？下面还会有一个分页，那我去点击一下二，对吧？点击一下二之后呢，我们再看，从这个当中咱们再找这块好像多了一个叫 p n 等于十，是不是后面的去掉看一下回车行不行？可以，那你把这个先复制下来， o t p a d。那这个我们知道 p n 等于十，这是什么？这是第二页，看第三页，你发现什么？ p n 等于二十，那 p n 等于二十是第三页，那你能猜出来 p n 等于零是第几页吗？看一下是不是刚才咱们的第一页。所以咱们要根据 url 的变化去提取有用的 url，像后面那些没有用的参数不是咱们写的，咱们不想要的，咱们就可以把它去掉，然后最后我们要去提取有用的数据。那什么叫做有用的数据？那你比如说像这个，嗯，像左边的这些就是我想要的一些数据，那右面这些关于广告的部分我就可以不要了呀，是不是？所以呢？要提取这个部分的数据，而非广告部分。那当我们第一次执行，执行了第一步、第二步、第三步，我执行了什么？我执行了找到要爬取的目标网站，然后我已经分析好 url 了，也提取了有用的 url 了。你的数据提取，如果你提取到的数据依然是一个 url 怎么办？你比如说像这个马视频老师的官方网站，他就是一个 url，所以你一点击的时候，他是不是就会进入到咱们的官网当中来？那也说如果你提取到的数据依然是一个 url 的话，那你需要继续分析 url 的变化，然后再进一步进行提取。是要不断的重复第二步和第三步的，就是不断的重复去发现 url 的变化以及提取，最后再进行数据的提取，一直到提取到什么你所要的全部数据，那我们是所有的数据都能爬取吗？当然不是，有的同学说这样的一句话叫什么呢？叫爬虫，学得好，坐牢少不了。那是因为什么？我们在爬取的时候也是要有职业道德的，我们需要去遵循肉脖字协议，那爬虫到底违不违法，取决于查一些什么样的数据，你看你排一些公共的数据是可以的，但不要去触碰一些私人的数据。那我们这个 robert 协议在哪呢？我们来给大家看一下。你比如说我在这，它一般会在域名的后面，在这的时候我们去打 h t t p，看一下京东啊， h t t p 京东点 com，后面你写上 r o b o t s 点 t x t 那等会啊，这个 r o b o t s 点 t x t，看一下写错没？那这个就是它的一个 robs 协议。那我们看一下是这个啊，第一次，第一次 low，这个就什么拒绝的你哪些你是不能访问的？是不是你？哪些 user agent 是用户，哪些用户是可以访问的？哪些用户是不可以访问的？你在这个当中你可以去进行看一下，你比如说他会拒绝谁呀？这个慧慧刚才不说有会会助手吗？他的京东是拒绝会会爬虫的，是吧？所以呢，你要去看一下哪些是可以的，哪些是不可以的，然后我们只是负责爬取一些公共数据就可以了。现在我们给大家去讲一下爬虫的一个分类，在咱们 ppt 上给大家列出了这样的四个分类，第一个叫做通用网络爬虫、聚焦网络爬虫、增量式网络爬虫以及深层网络爬虫。那实际上这四类呢？它应该归为两大类，一类叫通用爬虫，另外的一类这三个以下的这三个属于。第二类叫聚焦爬虫啊，他是找指定的网站进行一个爬取。那我们先来看一下什么叫做通用网络爬虫啊？通用网络爬虫就是下载整个互联网上的所有资源，那最直接表现的就是我们的百度、谷歌等搜索引擎，那实际上百度的数据啊，他肯定不是自己生产的，都是从别的网站上爬取过来的。那你看一下，老是打开这个百度快照，当我在这的时候去搜索马士斌啊，那然后我们会看到在这个上面出现了一些百度快照，那我们现在来看这个三 w 点马视频点 com，这个是咱们的马视频教育的一个官网，你可以打开看一下。啊，那这个是咱们的一个官网啊，上面是咱们的一个网址，三 w 点马视频点 com，那你再看一下，你再点击一下百度快照呢？当你再点击一下百度快照的时候，你发现它的这个网址是 catch 点，百度 ctrl 点 com，那你会发现他和咱们满士兵这个官网的内容几乎是相同的。为什么说是几乎是相同的？因为在这的时候告诉你说百度和网页的作者无关，不对其内容负责，他可能会有一定的。哎，不准确性，什么叫做不准确性？如果咱们这个网站进行更新的时候，他这边可能还没有进行更新，人家说百度快照仅为网络故障时的一个搜索引擎，是这样的一个作用，那所以我们说你看到这两个网站内容几乎相同，但是呢，他们的来源的网址或者说来源的服务器却不相同，那这个网站从哪来的？是咱们自己又做了一份放到百度的服务器上吗？当然不是的，那这个网站上的内容是从哪来的呢？就是咱们从咱们这个官网当中进行爬取出来的，而且他不仅爬取了这个网站的内容，而且把咱们网站当中这些超连接一点击之后的内容也进行了一个爬取，所以他是下载互联网上的所有的资源啊，不仅仅是整个一个页面。那那这个呢就是我们的一个叫做通用爬虫，那还有叫什么？老说什么这个聚焦网络爬虫，又称主题网络爬虫，他会选择性的爬取些根据需要的主题相关页面的一个网络爬虫。那你比如说，嗯，我现在想买车，那我肯定要爬取的是什么？肯定你需要去从呃，人人车呀，二手车呀，汽车之家呀，是从这些网站上去爬取内容，而这些网站是不是又具有主题性的，都是跟车息息相关的。好了，那我们再说这个就叫做主题性爬虫啊，也被称作聚焦式网络爬虫。那剩下的这两个大家在网络上啊，你自己去搜索一下，去了解一下，实际上他们都属于这个聚焦类爬虫的一个分支。嗯，讲完了网络爬虫的一个分类，那现在我们来看一下网络爬虫的一个原理。那首先来看通用网络爬虫的原理，首先呢有一个初始的 url，然后还有呢带爬取的 url，那读取 url 并解析网页的一个内容，然后如果在这个页面当中有新的 url，那看一下那是否满足停止条件呢？就它是否还可以继续点击呢？如果点可以继续点击的话，那它就是一个有效的 u i l，那咱们就要继续进行查取，那如果已经到纯属内容页面，没有可点击的了，没有有效的 u i l 了，那咱们这个数据啊，有用的数据就要把它存到数据库当中，那还是来给你举个例子，你比如说咱们说百度啊，刚才不是说了吗？它是一个超级大的爬虫，它会从互联网上去查取所有的内容。那我们现在来看一下，就比如说这个初始 url 是谁呢？三 w 点马士兵教育啊，那这个呢？三 w 点马士兵教育呢？就是一个初始的 url，那然后呢？你看初始的 url 有了，那带爬取的 url 是什么？那你看一下这个网站当中，哎，首页它是个超链接，马视频大学是超链接加我后端，哎，你看一点，它是不可以点击啊，所以呢，那也就说这个就是咱们加了点 atm，就是咱们带爬取的 url，那带爬取的 url 当中这里面还有 url 吗？啊？如果有 url 呢？咱们就继续，如果没有呢？那这些这个页面当中咱们所需要的数据就可以把它存到数据库当中，那这个是一个我们的一个通用爬虫的一个工作原理，哎，不断的去看你页面上是否有可笑的一个 url，反正有我就继续爬，没有那我就存数据。那咱们再来看一下聚焦网络爬虫的原理，那聚焦网络爬虫的原理呢？它有一个初识的 url，以及带爬取的 url，和咱们通用网络爬虫是一样的，读取 url 并解析网页内容，那然后呢，获取新的 url，这个新的 url 需要筛选一下，并不是所有的 url 都可以，那符合条件的 url，咱们把它放到待爬取的 url 当中，那等着继续去解析爬取，那如果你这个 url 不符合咱们的要求呢？那就结束好了，那我们看一下什么叫做聚焦网络爬虫，你看一下，我在这呢，给你打一个百度搜索当中，我搜索一个苹果，那你看一下，当我去搜索苹果的时候，那上面出现的这个链接就是我的一个初使的 url，那然后呢，在这个出现的百度搜索当中呢？我要看一下我要干什么？我要获取符合条件的 url，带爬取的，像这些所有的超连接都是带爬取的 url，但是呢我只说苹果了，你知道我是说的苹果手机还是吃的苹果吗？是不是这个问题，那你看一下，那还有呢？这个吃的这个苹果呢，对吧？百度的一个苹果的图片，还有一些水果的一个网站，那现在呢，这些都是一个带爬取的 url，那我就要看一下这些 url 符合不符合我的需求，我要对这个 url 进行筛选，比如说我就想买的是苹果手机，所以关于水果类的苹果，那这样的 url 就需要被我们过滤掉，筛选掉，这就是不符合我们需求的 url。我们只把关于手机的苹果手机的 url 进行读取，然后你看一下这个 a，就这个吧，之后这个里面，哎，他会有一些内容，那我们从这个这个他给咱们显示的这个内容当中，咱们要提取一些有用的数据，把它存到数据库当中，那然后也会在这个页面当中再继续去分析哪些 u i l 还是和苹果有关的。像这个进一步了解和购买，好像跟我们的要筛选的 url 不太符合，那我们就可以不进行去筛选它，它就是一个非有效的 url。好了，那这个呢，就是我们的一个叫做聚焦网络爬虫的一个原理，说白了，你要从这个待爬取的 url 当中有一个过滤筛选的过程，而不是是所有的 url 都去进行爬取的。再来给大家讲一下，为什么用 python 语言去写爬虫呢？对吧？我在讲公开课的时候，有同学问我，老师炸了，行不行啊？ p h p 行不行啊？那我们先来看一下，老师把这几种语言呢都给你进行了一个对比说，呃， p h p 是世界上最好的编程语言，有反驳的吗？但是啊，他天生不是做爬虫的材料，为什么这样去说呢？因为我们知道，就是说这个爬虫的话，他对多线虫异步的支持不是很好，而咱们的爬虫啊，他是需要多线虫的，需要异步去支持的，所以呢， p h p 他不满足这个要求。那为什么不用 java 呢？ java 不是一直号称是最牛的编程语言吗？是吧？一直是排行第一的编程语言吗？那为什么不用我们的 java 去写呢？是因为 java 语言本身很笨重，代码量特别大，你比如说简简单单的一个文件复制啊，咱们 python 可能五行代码就搞定了，但是 java 可能要十几行代码，而且他的重构的成本比较高，任何修改都会导致代码大量的一个改动。那这句话是作何解释的？还记不记得老师在最开始的时候，呃，前面讲？在前面的话的时候说过，你今天去爬取的时候，这个网页的标签可能用到的是 a 标签，但是呢，等你下次再爬取的时候，他可能是坏了，换成我们的其他的标签了，所以这样的话，一旦去修改代码，那我们 java 就非常的麻烦啊，那为什么不用 c 或习加加呢？他的运营效率自然不用说了啊，但是呢，我们说他的这个学习和开发成本要高一些。写个小爬虫程序啊，你可能要大半天的时间，但是呢，你要用 python 可能几分钟就搞定了。那这就是为什么从众多的编程员当中去选用使用 python 去编写，因为 python 呢，语法优美，代码简洁，开发效率高，支持的模块比较多。还记得吗？老师说过， python 是一个胶水的语言。胶水语言啊，它可以呢，使用 n 多不同语言写的一个库，而且相关的 htp 请求模块啊和 html 解析模块也是非常之丰富的。那这个就是咱们为什么去选择 python 去作为爬虫编写的第一语言。
10py木林森呀💕
02:09
【Python爬虫】用Python实现看各大VIP电影、电视剧、综艺，一键操作无需下载，轻松实现电影自由！#python #编程 #计算机 #爬虫 #电影
查看AI文稿
AI文稿
今天给大家带来一个用 python 爬虫来采集 vip 视频的这样一个案例，那我们先来看一下，不过讲之前先说明啊，我这个代码呢，需要在 python 环境下才能运行，接下来我们来看看它的一个程序的运行效果。嗯，首先运行我们这个代码，运行之后会出现这样一个弹窗提示的，下一步我们选择一个视频平台，你自己可以选，比如爱奇艺，腾讯视频或者优酷视频，我们这里腾讯视频为例吧，点击腾讯视频，他会在浏览器直接打开腾讯视频的官网啊，并且的话呢，我们接下来选择一个电影分类吧。好，然后选择，比如说这个，这个浪浪山小妖怪， ok，打开看一下。好，首先进来之后呢，大家可以看到啊，这里首先第一步是要求 vip 可以关闭广告，其次的话，就这个看完整视频需要开通会员，是吧？但我并不想开会员，那怎么办呢？来复制下它的网址，然后找到我们刚刚的软件，把网址粘贴到这里，接下来我们点击播放 vip 视频，点一下， ok，那么这样的话呢，他就直接会把这个视频解析，然后呢并且抓下来给你看，好吧，好，那这里我们就可以试着播放一下。点击播放，那这里你可以把口令调关掉，那这个弹幕关掉啊，喏，对，已经开始播放了，是吧？好，这里的话呢，我们选择快进一下吧，我就不等了，这个太慢了，我祖爷爷的葬场，给我弄死他俩，等我饶命啊啊，声音停了，可以看到喏，呃，他就开始播放了，对吧？这边的话呢，这还在还在，刚开始，所以我们可以通过这样一个程序，从而获取到 vip 的一个视频，好吧？行，那这是我们这个程序的一个案例效果，你自己可以把那个需要播放的视频放这里边，然后点播放就行了。 ok，非常简单。
51进击的六角龙
00:56
教你用Python实现追剧自由！！！【Python爬虫】各平台VIP电影直接白嫖，免费观看，零基础小白也能轻松运行！！！
#Python #Python爬虫 #编程 #电影 #计算机
查看AI文稿
AI文稿
今天给大家分享的是用拍摄实现追剧自由，大学生们放假在家有追剧吗？当你看中了一部剧，然而发现全都需要我们充会员，钱包却空空如也。别急，主播现在就分享一个超级简单的追剧神器，零基础小白的你，只要会复制粘贴就可以搞定，全体目光向我看齐，使用这个代码就能带你实现追剧自由。鼠标右键运行这个代码，他就会弹出这个窗口。接着选择一个你喜欢看的平台，点进去找你想看的电影，复制好上方的网址，粘贴到刚才的那个弹窗当中，点击播放视频后，就能开始正常的观看了。是不是很简单啊？视频的清晰度也是很好的，进度条也是可以随便拖动的，轻松实现追剧自由，厉害！
51晕头小狗🐶
03:00
如何使用python20行代码爬取网上电影资源，简单小白也能快速上手，电影自由#编程 #python #电影 #计算机 #爬虫
37小帅学长
02:27
【Python爬虫】用Python实现看各大VIP付费漫画，让你轻松实现漫画自由，爬虫教程！#编程 #python #爬虫 #漫画 #计算机
查看AI文稿
AI文稿
今天给大家带来一个使用 python 爬虫来抓取漫画的啊这样一个程序，那么首先的话呢，先说明一下，就是我们这个程序如果你想运行就要先安装 python 的一个环境，是吧？那接下来我们来看一下关于这个程序效果啊，首先要这样的，就是我们先选择它的一个官方网站啊，来，这个我直接可以来看下这个页面吧，打开详情叫，呃，风起云来，是这样的一个漫画，对吧？它是属于慢客栈这个网站的啊，里面选择，我记得好像是选择那个修真系列吧。对，就这个里面啊，好，我们选择这个维利啊，叫风起云来。然后的话呢，接下来任务要求是通过程序的方式来将这里面的漫画进行下载，好吧， ok，那么接下来我们来看下效果啊，点击运行来，代码也写好了，接下来我们失效点击运行看结果，好，他就开始下载了啊。第五张，第六张，第七张， ok，我们来看一下这个，当前目录下应该就会有这个对应的啊，我终止一下啊，来打开，我们来看一下里面，比如说第一张是那个，呃，什么雾蓝之巅，对吧？那这是第一张图片，把它放大一点吧，喏，大概是这样的， ok，我们来看一下浏览器里是不是一样呢？比如我们选择第一划看一下，嗯，应该是一样的啊，喏，应该是一样的。这个叫什么研磨歌啊？ ok，看一下最后一个，最后一个是在这，呃，费了好多把剑过去是吧？好，我们来看一下我们最后一张图，那对应的就这个是不是？ ok，那这是第一张了，那我们再换两个试一下，比如我们随便选一下，比如第八张飞来横祸二，是吧？大家看下这张图片，最后一张图片就是这个眼睛，对不对？然后我们找到第八张，我退一下这最后一个，喏，是一样的，对吧？所以的话呢，通过程序的方式，我们就能够批量的下载你想要看的这样一个漫画。 ok，那就不需要你自己一个个去看了，不需要打个链接了，好吧？直接下载你的，下到你电脑上就可以了。这种话呢，只要你是付费的群也可以下载，好吧？也是可以的。好的，那接着我们建这个程序效果。
127蜡笔不小心
32:49
【Python爬虫教程】本期内容：第一个爬虫程序开发＋web请求全过程解析（重点必看）#Python #Python爬虫 #计算机 #编程 #程序员
查看AI文稿
AI文稿
欢迎大家收看二零二六年全新制作的 python 系统教程。在做这套课程之前，我就曾放空大脑，以一个零基础初学者的角度去重新解析它，花了有一个月的时间研究了全网几乎所有的课程，有几百上千万播放的，有几十几百播放的，但给我的感觉就是鱼龙混杂，滥竽充数。所以我在想，有没有这样一套课程，既能让零基础小白轻松听懂，又能在课后有足够的练习题材呢？所以我综合了拍粉教程的所有知识点，用更具有趣味性的课堂表述，加上知识和实操相结合的实际案例，历时三个月，终于完成了这样一套课程，让你体会到什么是每一秒都在疯狂的输出知识点。我们这套课程会从基础篇、进阶篇、技能实战篇三大方面带大家快速入门。基础篇会从软件安装、变量预算、浮循环、字母串元组这几个方面来讲解，用最易懂的方式带你快速掌握 python 的基础知识，以及基础的程序编写。 python 进阶篇呢，我会详细讲解各种进阶知识，从面向对象编程、异常处理、正则表达式等知识点开始，帮助你提升编程开发效率，让你在以后的应用中更加得心应手。我还会提供整套课程相对应的思维导图，让大家不用为来不及记笔记而烦恼。技能体系篇会手把手教大家练习项目，如爬取图片、视频办公自动化、数据分析、机器学习等，从而更好的应对大数据时代的挑战，让我们所学的知识进行变现，流进我们的口袋。最后呢，会给大家一个小福利，课程视频中的所有素材有搭建开发环境资料包，拍粉从零到一的学习计划表，几十上百记素材，书籍课件等等，只要你能想到的，我这里几乎都有。相信我，这套拍粉系统课程将会是全网最齐全最易懂的小白专用课，评论留言打卡学习即可全部打包带走，让更多想要学习拍粉的小伙伴看到这个视频。接下来让我们正式开启这套系统课的学习吧！本期为大家带来的是第一个爬虫程序开发加 web 请求全过程解析。 ok，那接下来咱们来完成第一个爬虫程序的开发啊。在之前的学习当中，我们知道爬虫的本质呢，其实就是通过我们编辑程序来去获取到互联网上的资源，那比方说我现在就想拿百度的内容，哎，我想拿百度的资源，那怎么办呢？在不考虑写代码的情况下，我们是不是得先打开浏览器啊，对不对？然后在浏览器的地址栏就这个框框里面，然后我们输入百度的网址啊，百度点 com，然后啵敲过回车，敲完回车之后，哎，我们就能够看到浏览器呢，会把啊百度的这个网址背后所蕴涵的网页内容呈现给我们，对吧？这是浏览器的一个工作状态，那现在只不过把浏览器的这个工作过程迁移到哪呢？迁移到咱们代码里面对吧？用代码来实现这个过程。那么想象一下，在咱们代码里面是不是也得有一个东西能够模拟成浏览器的这个样子，他应该也能够去输入一个网址，然后拿到这个网址背后所呈现的这个内容吧，对吧？过程应该都是一样的啊，那在 python 里面呢，有一个模块，哎，这个模块呢，我们先把它引进来啊， from url lib 点 request import url open 啊，把这个东西引进来，那这个模块它能干什么事？我们简单翻译一下，其实就知道 url lib url 什么网址？跟网址相关的一个库 label 叫库，然后呢，这个库里面有一个模块叫 request request 翻译过来叫请求，所以这里面它们连起来就是在这个 url 这个库里面有一个叫请求的模块，这个请求的模块里面有一个函数叫 url open，哎，我们把这个 url open 给它导进来 u r l 咱们说了是网址 open，要打开，合起来一翻译，对吧？打开一个网址，那这不就是浏览器的工作状态吗？对吧？就浏览器就这玩意吗？对吧？那接下来咱们把这个模块引进了，引进来了之后，那接下来要准备什么？是不是你要爬取的那个网址得给他吧，对吧？所以准备好这个网址，网址的话，咱们就就直接百度了啊，百度点 com 啊，百度点 com，然后接下来我们就可以通过它去打开这个网址，那接下来 url open，打开这个网址吧。那么各位你要知道，我们打开一个网址是要获取到里面内容的，对吧？你看我们这个地方不也是吗？你打开这个网址目的不是想获取到这里面内容吗？所以这边也一样，你打开一个网址，他一定能够获取到一个，哎，一个内容，但是此时这个内容啊，你还看不到，哎，你看它打印出来这么个玩意儿，叫 response 啊， response，那么想从这个 response 里面我想拿到内容怎么办呢？点 read，哎，一 read 就把这里面内容啊就全读出来了。来，咱们看一眼啊，走，来，你看，我们读到了一大堆内容啊，甭管看不看得懂，反正有东西了，是吧？然后拉到最上面，你会发现一个问题，这里面他前面是个 b 开头的，那什么意思呢？此时你拿到的是个字节，哎，拿到的是字节，是字节的话，就会需要我们手动的把这个字节数变成字母串啊，对吧？因为字节嘛，这这汉字都显示不出来的，那怎么办？需要去进行一个解码，需要一个抵扣的，那抵扣的话就需要有自负极，对吧？你到底是放 utf 八呀？还是放 gb k 啊，对吧？其实在网页里面啊，这就它返回的这大堆内容里面，其实你就能找到答案，你就直接 ctrl 加 f 搜叉 set，哎，你就搜叉赛的这个词。基本上啊，现在只要是一个呃，差不多的网页，它都会告诉你叉赛的后面等于 utf 杠八，所以我解码的话，是吧，顺理成章的应该是 utf 杠八。如果这个地方是什么 g b k g b 二三幺二 g b 什么什么玩意，你这就写 g b k 就完了啊，实在实在说，你不想搜它，你就挨个试，要么是 utf 八，要么是 g g b k，你知道吧？跑不出去这俩答案去啊，国内的网站最多就这两，就这两种。这个编码啊，就这两种编码。那跑一下吧，走，你来运行运行出来看看啊。哎，往上拉，拉到最上头来，我们看到中文是不没问题了，前面也没有那个 b 了，对不对？所以此时我们得到了这一大堆东西，那这一大堆内容问题又来了，这是什么玩意啊？是吧？这是什么玩意啊？我们在浏览器里面看到的这个东西，虽然丑陋啊，百度的这个网页确实几十年都没变过，是吧？始终是这么丑，但是怎么着比你这玩意好看，对吧？为什么会这样呢？各位，这里面其实蕴涵着一个问题，就是浏览器其实帮我们默默的完成了很多的工作啊，注意看了，来，这是你的，在这画不太好，来，咱上这画啊，来，这是你的机器，这是百度的机器，对吧？那么我们在就是就是 url open，或者在浏览器地址栏里面，我们敲回车的那一刹那，他一定是去找百度浏览器，找百度服务器去了，说，百度你，我要看你的东西，那百度呢？就会返回给你这些东西，对吧？但是这过程当中传播的是什么？各位，他传播的是字符串，所以百度这面返回过来的是什么呢？是页面原代码，哎，返回过来的是叫叫页面源代码，这个页面源代码由什么组成呢？最基本的他要有 html 啊，可能呢还会有这玩意，可能呢还会有这玩意啊，但是无关紧要，反正是 html 做这个这个这个股价的，然后后面呢？爱是啥是啥，有有就有，没有无所谓。那他返回的这些玩意到了我们浏览器这头，因为百度给的嘛，那浏览器这头收到的其实是这大堆玩意是代码，那浏览器收到这些玩意之后，注意浏览器会默默的在后台自动的帮我们把这些玩意进行运行执行，然后呈现给我们网页上的一个内容，知道吧？所以我们现在拿到的这些东西是啥呢？是页面源代码，只不过浏览器这头啊，他拿到页面源代码之后，他不可能给用户说啊，你想看百度东西，好了，百度给的是这玩意，你看去吧，你看啥去？看个毛线，对不对？所以浏览器会把这些东西运行完之后，变成我们看到的这个，对吧？好看的这个样子，知道吧？所以我们在浏览器这头可以右键显示页面原代码，点开走，你看看，一点开你就发现了，哎，这后面是不是也是这玩意啊？对吧？你不用看的懂来，你就一个个对就行了。你看尖角号叹号到个 type 是 tm，对吧？然后后面跟个 style 是， ok，你看这头尖角号叹号到 type html status， ok，然后拉到最底下，最底下呢？它有一个，呃， script，然后有个 body，有个 html，对吧？这么三个词，来，咱们这头也拉到最底下走，你看着 script， body， html，对吧？所以此时此刻你现在这个地方拿到的已经是什么？是不是已经拿到这个页面原代码啊？就百度那边给你的东西，你是不是已经拿到了，对不对？所以我们在这个地方注意，我们此时拿到的是页面原代码啊，但是我们这面没办法听好啊，咱们这头是没办法说把页面原代码就这玩意，哎，给他再展示成这个，这个，这么这么炫酷的这个样子的，知道吧？那我们非要显示的话怎么办？我们可以把返回的页面原代码存到文件里面去，哎，存到文件里面去，那怎么存呢？把这个注视掉，一定把它注视掉啊，注视掉之后，我们可以在这个地方 with open，对吧？然后整个啊 my，哎，我好像摁错什么东西了，来干掉它，来查找它，在这地方，我们输入这个 my，百度点 html，好吧。哎，整这么一个文件出来，整这么一个文件出来，注意啊，结尾是 html，然后后面跟上一个模式，等于什么？等于 w，往往里面写东西，是吧？然后后面跟上它的字母集，拎，拎等于 u t f，杠八啊。然后后面跟个 s f，然后接下来 f 点 right，把什么写出去，是不是？把页面返回东西写出去，哎，写出去，把页面返回的页面代码写到这文件里面去，咱们不就有个 html 文件了吗？对吧？来，右键走好了，程序跑完了也没报错，然后这面打开，看到打开这块是不是多个文件呢？双击啊，一双击，你看这是不是刚才咱刚才从那个网页里面拿到的这个这个内容啊？把它右键 run，或者这地方看着它了没有？看着了吧？有这个浏览器的这个标识，你点它一样的点，看见没？这就是咱自己的那个文件。看第一张爬虫，买百度，点 h t m l，对吧？买百度，点 h t m l。然后你再对比一下，对比一下，你看是不是一模一样的？各位，他一模一样的啊，但是这是咱自己的啊，这是咱自己的，哎，这个是他百度的哎，这是他百度的。所以浏览器认识什么玩意？各位，浏览器认的是这玩意，浏览器只要看见这玩意了，一运行就是我们看到的这个样子的东西，知道吧？所以这里面中间有个页面代码的概念在这，你要熟悉啊，你要知道，因为咱们未来一定是从这个页面代码里面去提取内容的啊，你想象一下，你想象一下，在这里面我们能看到这这这这些个文字，新闻好，一二三，地图，对吧？他能显示成地图这俩字，那这个页面有代码，里面一定有地图这俩字，对不对？咱就考虑一下，怎么从这个这一大堆里面把地图那俩字扣出来，咱就成功了，对吧？这就是爬虫啊，这就是爬虫， ok，那这就是咱们第一个爬虫程序。然后在这个地方有必要跟各位去多说一嘴啊，看着我给他改成 https 啊， https 这个超纲啊，这属于超纲的问题，但是呢，很多小伙伴会遇见这个问题啊，我给你解释一下怎么回事，看着啊，你会发现，哎，老师，刚才你 http 的时候，这面吧啦吧啦一大堆，是吧？然后呢，你现在搞成 https 了，好了，这面发现，对吧？东西少了很多，那么这里面究竟是什么呢？各位请看啊，这个代码里面 location 点 replace，点什么？ herf replace 让你看啊， replace 咱是认识的，各位，对吧？ replace 咱是认识。 replace 什么意思？替换，把你的这个 herf 叫什么？就 u r l，把你的 u r l 里面的 https 替换成 http，然后重新发送请求，那么也就是说听好了，百度听好，这是百度的动作啊，跟我们没关系，跟 https 也没关系，百度那头默认情况下，如果你访问的是 https，它会自动的转向到 http 那头，知道吧？会自动的转向，哎，转转向到 http 那头啊，所以这地方我们如果说想看到效果的话，你还是得 http，因为这个才是它最终的一个效果，就说白了，他百度这头，反正我也没想明白他这个工程师怎么怎么想的，就是百度这头你是 http，他会转到 http，你是 http，那就默认就是 http，所以你请求他一定是能拿到页面代码的，知道吧？这么解释会清楚点啊？ ok，那这是咱们第一个爬虫程序里面所蕴涵的东西啊，可能，呃，代码很简单，但是里面蕴涵的东西会稍显复杂，是吧？你把这个好好捋一下啊，这个 url open 是什么玩意对不对？然后呢，拿到的这个 response 是什么玩意对不对？从 response 里面读到的东西为什么要解码？想清楚啊，想清楚为什么是 utf 八，不是 d b k，你也想清楚啊，把这个东西想清楚了之后，咱们后续再去了解啊，学习爬虫会，会很容易啊，会很容易。 ok，那咱们关于第一个爬虫的开发呢，就说到这啊，然后下一节我会着重的给你们讲一讲，在我们敲回车的那一刹那，到底会发生哪些事情啊？咱们会把这个事情抛开了来讲，因为把这个东西讲清楚了，后面咱们再遇见各种各样的网页网站的时候，就都很容易入手了。那经过了咱们的第一个爬虫程序啊，相信各位对爬虫有了一个初步的认识了，对吧？那接下来咱们要去讲一个特别特别重要的知识点，就 web 请求全过程的一个剖析啊，就说白了，咱们在打开浏览器之后，哎，在这个地方输入完一个网址，敲了回车之后，哎，究竟发生了哪些事情？这个你一定要记住啊，这里面会有很多的新的概念以及这个新的东西出现，那在这个地方东西地方呢？我就把它全干掉了啊，在这块给你们去推销一下来，当我们，呃进行一个网络请求的时候啊，什么叫请求啊？就是我想看你的网页内容，对吧？那这地方，注意，这是你的电脑，哎，这是对方的服务器，比方说你想访问百度的话，那么各位这就百度的服务器来百度服务器，然后呢？这地方这面标上啊，这是你的电脑。好了，此时我们会在浏览器的地址栏里面去输入百度点 com，对不对？那所以这地方呢？我会输入百度点 com，当我输入完它之后，哎，一敲回车，那么注意了你的电脑，你的浏览器就会发送一个叫请求的东西，请求到百度的服务器啊，请个百度服务器，然后百度的服务器呢会收到你的这一次请求啊。什么是再说一遍，什么是请求？就是我想看你百度里边东西了，对不对？我，我得要东西啊，我得要你百度的内容，对不对？这叫请求，所以这个地方有一个第一个词叫请求的概念啊，请求发送个请求过去之后，百度服务器能收到这一次请求收到了之后，百度这面呢很可能呢会做一些个相关的数据检测，比方说我想看周杰伦的相关内容，那这个时候你的请求里面是一定要带着周杰伦这三字的，对吧？你，你肯定是在百度的里面输入完周杰伦嘣敲回车对不对？所以你会，可你有可能会带着这三个字过来，过来之后呢？百度这面肯定说收着这三字，然后呢拿着这三个字把周杰伦相关的信息解锁出来，然后百度的服务器呢，会把你解锁出来的内容拼装成 html，所以这地方会有一个过程叫拼装，哎，叫拼装 html 拼装完了之后，他会把拼装好的 html 返回给这门，那么这个过程又有一个新词叫响应来响应。那么响应的话什么意思？就是你找我发送请求了，我得给你一个回音，给你个回信，对吧？那响应里面一定会包含什么？是包含这个 html 内容，就返回给你的电脑了，返回你的电脑之后，你的电脑这面，你的浏览器是不是收到那个 html 了，对吧？所以这个时候接下来你的浏览器去执行什么 html 这些玩意，然后呢把真正的页面上的内容给你展现出来，对吧？这是我们平时呃常见的一个网页最基本的一个过程啊，你访问的大多数网页基本上都是这样啊，都是这样的，那么这是其中的一种。所以我们在呃敲完回车之后，就是在这个浏览器地址栏里面啊，就浏览器那个框框里面，我们输入完一个网址之后，它会有这样的一些动作啊，会出现就是发送一个请求到对对方的服务器，对方的服务器呢，去组织出来一大堆的 html，然后把这大堆 html 啵儿返回给你，你浏览器这边运行 html 展示出最终的效果。但是各位，如果你不学编程，你不学爬虫，你就是单纯的一个浏浏览器的一个使用人，而使用的人而言，你看到的是不是你就输入了一个百度，然后呢，你就能看到，对吧？这个这个百度的内容对不对？但是后面其实蕴涵了一大堆你看不见的东西，知道吧？蕴涵了一大堆看不见东西啊？好，那这是我们平时见到的一个网页的一个效果，比方说，哎，我这边准备了一个网站，哎，准备了个网站，这个网站呢叫，呃，电影天堂啊，我呢一般习惯性管他叫盗版天堂，因为这个网页里面的吧都是些盗版电影，然后各位我们可以在这个地方右键是吧，就是查看这个页面源代码，那我们上节课也聊到了这个页面源代码，最终在呃这个浏览器里面一运行，是吧？就形成了这样的一个效果啊，排版什么的看都很舒服，但是这门呢，对吧？这个排版看着反正如果不了解 tm 的同学肯定是很痛苦的，对不对？然后接下来这一种网页是我们爬虫里面最好处理的一种网页啊，因为它直接就相当于把你要解锁的内容是不直接灌在 html 里面了，对吧？想想刚才我画那图，想想刚才画那图，那图里面不是你发送完请求，服务器这边是不是把你解锁的内容直接拼成那个 html 了，对吧？然后再返回给你那头，所以你的数据直接就体现在哪了？体现在这个这个 html 里面了。比方说啊，你看啊，我在这里面唐人街探案三，来在这面页面代码里面我搜一下啊，唐人街，哎，都不用敲，敲完你看这唐人街探案三，对不对？页面上的这个这个我们能看到的文字直接在源代码里面，就在 html 里面就有了，所以咱们下一章后面要讲的内容，其实就是怎么从这一大段的，对吧？这些内容里面提取到你想要的内容，哎，这是咱们下一张要聊聊聊的事啊，那这是这一种网站，还有一种网站是你想要的数据，他不会直接放在页面原代码里面，就不会直接放在这里面，知道吧？那种网站就有点有点有点意思了，那种网站是这么工作的，哎，是这么工作的，那种网站呢？哎，这还是你的这个，这个，这个，哎，我得画大点啊，这是你的机器，这是人家的服务器啊。画大点，那这是你这是人家啊，比方说啊，我就是说随便说人家吧，服务器，哎，这样写清楚一点，清楚一点好了，依然是你得输入一个网址，好吧，你得输入一个什么什么什么点 com，对不对？然后此时注意看了啊，他是这样做的，是依然要发送一个请求，哎，发送请求，然后服务器这边啊说，我先不给你数据，哎，我先给你个页面结构，哎，先给你个页面结构。所以你这一次发送的这个请求一啊，得到的响应一，里面只有页面结构，注意这结构就指的什么 html，但是注意这 html 特殊性在哪呢？他没数据，他就把这个页面的壳子给你啊，里边的内容先不给你，哎，先不给你，不给你。之后注意了，在他返回的这个这些内容里面，他会隐藏着一些脚本，这些脚本呢，到了浏览器这头，哎，到这头来，先收到啊，页面结构啊，先展示，然后是执行这个页面中引含的脚本，他会有一些代码在里面，哎，因为里面会引含那些脚本，这些脚本干嘛呢？会再一次发送一个请求，对啊，他会再一次发送请求，再去找那服务器去说，你上回那个 ul，就这个 ul 里面请求到的只能拿到结构，哎，这一次请求下一次请求我要的是数据，所以他就会产生一个新的请求来，这地方会产生一个这啊来会产生一个请求二，但是这个请求二听好了，是一个新的 ul 啊，它是个新的 ul，然后到了服务器这边收到这个请求的新的 ul 之后，它会开始干嘛？是不是组织数据了？因为跟上面那个 ul 不一样了，对吧？那接下来他组织好数据，他会把数据奔再返回去，哎，返回去，返回去时候注意第二次响应，来响应二里面他是什么呢？是只有数据他没结构知道吧？上一次是结构扔过去了，这一次呢，是只把数据扔过去了，好了，数据也扔给你了，结构你也有了，那么接下来他会干嘛呢？他会把数据和结构进行结合，然后呈现给用户啊？呈现给用户，那么肯定有小伙伴会好奇说，为啥呀？你闹了这么大一圈，最终不也得给用户看吗？对吧？为啥绕这么大一圈子？很简单，你想象一下啊，如果你的网页你是一个网，就是你，你是这面的服务器的这个管理人员，那么想象一下，如果一次性就把数据返回给用户的话，那么你的这个准备结构和准备数据的过程是不就都都放在一起了，对吧？就放在一起了，那么此时想象一下，如果你的福气压力非常大，也就说你的，你的，你的这个网站有一千万人瞬间过来，来请求来了，对吧？一千万人过来了，你的服务器是扛不住啊，扛不住怎么办？你是不是想办法哎，把这个这个数据和结构给他分开，分开为了什么呢？为了做分布式，可以吧？哎，做个分布式，分布式什么意思呢？就是这这个，这个在我们宏观上来看，这是一台服务器，但实际上可以放在两台服务器上啊，这台服务器放上海，可以吧？这个放北京，这个放上海，那么这个时候两台服务器的这个压力肯定比一台服务器压力要小很多，知道吧？要小很多。所以这个时候，哎，我们就有这样的一种页面结构就出现了啊，这样的页面结构出现了。很多网站其实用的都是这样的一种结构啊，他不仅仅说是为了分布式，他还有一些其他的考量在里面啊，所以这里面我们说，呃，一个网页还有这样的一种加载方式，那典型的啊，我给你，我给你找一个，我给你找一个，我先把这个图片留着啊，虽然丑一点。来，先放着啊，这图片给你留着来，典型的我给你找一个网站啊，他就是这样做的，比方说豆瓣啊，豆瓣里面有一个网页，来，咱把它放大啊，这有个电影，哎，电影里面有个分类，不是这个分类啊，后退，电影里面有个排行榜，排行榜，排行榜里面呢？有一个比方说，这随便选一个吧。喜剧啊，我比较喜欢看喜剧。好了，此时注意看了啊，我在这个页面里面能看到憨豆先生，对吧是吧？然后右键我们查看页面代码，哎，查看页面代码，此时我们搜一下憨豆，憨豆，你会发现没有，你会发现没有，也就是说我们现在拿到的只是一个壳子，只是一个壳子，具体的数据没有在这里面提现啊，没有在这里面提现，所以我们此时第一次请求看好啊，在我们访问到豆瓣儿的这个 u l 的时候，发访问 url 的时候，拿到的只是一个什么呢？页面上的一个壳子，这壳子里面没数据，哎，就这样一个壳子，网页里面的一个基本的一个结构，哎，先挪出来，然后数据还没有进行加载，数据是什么时候加载的？当你这个网页加载完了之后再去加载这个数据的。那么怎么能看到这样的一个现象呢？我们可以通过浏览器工具啊，摁一下你浏览器谷歌浏览器的 f 十二， f 十二， f 十二里面有个工具叫 network，各位， network？ network？什么网络 work 呢？工作就说白了，他这这个窗口里面能够看到你在输入完一个网址之后，所有的网络请求啊，所有的网络请求，然后这个地方我勾，各位啊，这个勾，呃，我建议你就直接勾着啊，这个后面会讲为啥勾这勾，当然现在你勾不勾其实无所谓，接下来注意看了啊，我把这个关掉，这个可令啊，可令掉，把所有把这个窗口清空，然后我们再去访问这个 ul 啊，注意，直接敲回车走，你看到了吗？你会看到这个网页里面是吧？各种各样的网络请求，比方说我请求这个页面的时候是这样的，一个一个一个 u l，对吧？然后呢，我访问的这个是样式，样式，这是脚本，脚本是吧？哎，无所谓了，咱们先看这个，这个里面看着，你点它，哎，你点它，这里面会包含这些请求头的一些信息，这个咱们下节后会会聊啊，这是 http 的内容，然后看这有个 response， response 咱之前聊过响应，知道吧？响应服务器返回给我们的是什么玩意？点一下，看着服务器返回给我们的是不是一大堆 html 内容啊？来，在这里面我们搜一下。憨豆先生，来，憨豆，你看这个搜索结果，零 off，零，是不是没有憨豆啊，对不对？就说你现在页面上看到的这个内容，哎，这个憨豆先生并不是页面原代码的一部分，所以这一次请求拿到的只是一个 html 的。一个什么一个框框啊？一个框框，那数据在哪呢？来，咱们往下拉，咱们往下拉，哎，这地方，呃，我看看啊，不太好找呢还。呃，不太好找，这么看不太好找，因为这里面有太多 js 啊，还有图片能看着吧，这都是图片，哎，点这，你看，这都是图片，知道吧，所以咱们找谁呢？呃，找这个工具里面，哦，旁边有个叉， hr，来点下它，它表示的是看一些数据的请求，好吧，阿扎赫斯的请求啊，你看，这就有东西了，点下它，来，咱们在这 response 让它返回的数据里面啊，看见螺纹了，你应该有点有点意思了。来，我们可以看一下这个叫憨豆，来看憨豆先生精选集。憨豆先生精选集，没错吧，对不对？来，咱们把这个东西调整到 per view， per view 叫什么？叫预览，就是把这个这个数据线的就一行，看起来就很痛苦，对吧？很痛苦，所以咱们可以点 per view，点一下，哎，打开，哎，打开看见了吧？螺纹，哎，螺纹。但是这个你很明显，这个看到的几个数据是不是只有一个？憨豆先生啊？这还有福尔摩斯呢？那就看下面呗，点上他很明显没数据，点上他来一打开啊，这个地方憨豆先生，来，再打开来，这个是，呃，被托，不是背错了，你记着美丽人生，对吧？来，咱们把这个拉一拉，看这面，美丽人生看到了吧？来，这个东西再往回收一层，来，往回收一层来，往下看。第二个这个是谁？这个是福尔摩斯二世。福尔摩斯二世，对不对？所以你会发现这里面是不是放的全是数据啊？各位，也就是说此时的这，呃，这次这一次请求拿到的全是数据，那么你想象一下，是不是我刚才画的这个这个结构第一次发送请求只返回了一个壳子，只返回了一个壳子，只返回了一个结构，然后他会执行里面的一些脚本，这个脚本呢会再一次发送一个新的请求，然后这个新的请求里面全是数据，再给你，然后浏览器把这些个内容哎整合到一起，给你一个最终的展示，就形成了这样的一个效果。还是一句话，如果你不学这玩意，不搞爬虫，不搞编程，你是永远不会发现，是吧？这这个页面结构和数据是分开进行加载的，那也是分开行下来的啊，所以我们说整个网页的一个加载的流程啊，外部请求的全过程大概就这么两种，一种情况是直接就这种情况，直接啊访问到百度的服务器，然后把就是就是相关的内容返回给你，对吧？就完事了啊，这种网页是很很好处理的啊，也很方便。然后第二种情况就是我们刚才说的他第一次拿到的就是什么，就是一堆 html，然后第二次再发送请求才拿的什么拿到的数据，然后把两次数据呢进行个整合啊，所以你不要说你只要看到了一个网页，是吧？然后呢你就你就知道啊，这个数据应该是上上页面代码里面去找去，不一定能懂吗？你的数据不一定在页面代码里面放着，他很有可能是通过其他的方式加载进来的啊，所以这地方还有一个这个浏览器的这个工具的使用，是吧？ f 十二，很多小伙伴可能是第一次打开啊，没关系，下一节我会把这个浏览器里边的这些个内容啊这个框框给你们做一个简短的介绍。哎，当我们后面那些爬虫的时候，这些个工具对我们来说都是非常非常棒的一些工具啊。 ok，那咱们这节呢就说到这，希望呢你能够从中得到很多的感悟啊。
6Py小周睡不醒丶
00:56
Python爬取各平台电影教程！！【Python爬虫】用Python实现看各大VIP电影、电视剧，让你轻松实现追剧自由，爬虫教程！！！
#Python #Python爬虫 #编程 #电影 #计算机
查看AI文稿
AI文稿
一天一个 python 知识，只实现追剧自由！各位大学生们放假在家有爱追剧的习惯吗？但是发现全都需要会员才能观看，钱包却空空如也，这冤大头是当不了一点。别担心主包，这里有一个超简单的追剧神器，只要你会复制粘贴即可。下面我就来教大家如何操作，鼠标右键运行代码，他就会弹出一个窗口，选择自己想看的平台，点进去找你想看的电影，复制上面的网址，粘贴到窗口当中，点击播放，就能正常观看视频了。永利澳门的五点平台怎么样？是不是很简单啊？画质清晰并且随意扩大进度条也不卡，简直是爱追剧保主的福音啊！
359Python程序员
00:47
一分钟教你用Python爬取各平台VIP电影资源，实现观影自由！#计算机 #python #python爬虫 #电影 #编程
查看AI文稿
AI文稿
别再充会员当冤种了，想看 vip 电影全要花钱追影，太闹心！今天给大家带来一份通过 python 实现观影自由的脚本，我们只需简单两个步骤，让你轻松实现追影自由。那下面我就教你如何操作。第一步，我会将这份代码分享给有需要的宝子，接着我们右键运行代码，他就会弹出这个窗口，我们只需在某讯视频上找到你喜欢看的电影，点进来后，我们只需复制上方这个链接，再打开我们的代码，把刚刚的链接给他粘贴进来，直接点击播放，我们来看看电影效果如何，可以看到电影都能正常播放，并且我们拖动进度条时，他也没有任何卡顿。现在你就实现了追影自由了，牛掰！
295小P的Python笔记
06:39
教你如何爬取想要的【python爬虫】保姆级教程，教你轻松掌握爬豆瓣top250的要领。理解爬虫工作原理『附源码』#python爬虫 #编程 #豆瓣高分电影 #爬虫 #代码
1822-捌玖-
29:55
30分钟爬虫干货教学！今天一条视频带你学明白APP逆向如何分析！#python #python爬虫 #js逆向 #app逆向 #程序员
94图灵python
00:32
Python爬虫实现漫画自由 #计算机 #程序员 #编程 #Python #python编程
查看AI文稿
AI文稿
今天带来的是 python 实现漫画自由，全体目光向我看齐，只需要五十行代码，轻松实现漫画自由。代码的操作非常简单，首先来到动漫页面，找到一部自己想看的动漫，接着鼠标选中上方的网址，然后粘贴回准备好的代码里，接着鼠标右键运行代码，这时漫画就会开始下载，没一会的功夫，漫画就被下载完了，咱们直接打开文件夹，随机点击一个进行观看，都是可以完整观看的，怎么样，是不是很可惜？
222码农小沈
17:15
第一集 | 0基础学习Python爬虫，保姆级详细教程，新人博主感谢关注支持，Python学习路线/工具/学习文档等【打卡学习】双手奉上
#Python #python编程 #python爬虫 #python教学 #编程
查看AI文稿
AI文稿
逼自己十天学完拍算爬虫，你会发现你真的很牛逼，纯干货，不废话，存下吧，真的很难找全了！警告，本视频耗时六个月制作，制作时长六百分钟，陪你系统的学习拍算爬虫，这应该是目前抖音最良心全面的入门到进阶的拍算爬虫教程了，哪怕你是零基础也能听懂。为了打造这套 python 课程，我系统研究了国内外大量教程，发现普遍存在内容杂乱、节奏拖沓、实践不足等问题。相信大家在之前也或多或少的看过 python 的系列视频，但是网络上学习 python 编程的资源太多了，家家都说自己的最好，这个难为坏了有选择困难症的伙伴们。这些视频总结下来就是鱼龙混杂，滥竽充数。所以我决定摒弃所有的花里胡哨，用最原始、最直观、最纯真的方式呈现出来，能让大家最直接、最快速的吸收，并且最大程度上的活学活用，带大家由浅入深地从零开始学习 python 编程。除此之外，我把学习 python 的路上所需要的学习包都准备好了，有搭建 python 开发环境的资源包，还有详细的 python 学习计划表，路线，几十上百记素材，电子书籍和教程等等，只要你能想到的素材，我这里几乎都有，我都会整理起来放在粉丝群，有需要的伙伴留言打卡学习，可一步获取。相信我，这套 python 系列教程将是最齐全、最详细，讲解清晰易懂的小白专用课。如果看到这里对你有所帮助的话，请给我一个免费的赞吧，让更多想要学习 python 的小伙伴看到这个视频。大家好，欢迎大家进入拍森爬虫的学习，今天我们来给大家讲第一站初识爬虫。在第一站当中我们将分六个方面去给大家讲解，首先说在前面的话，第二个数据的来源结作用什么是爬虫以及爬虫的分类和原理。最后我们要给大家讲，为什么要用拍森语言去编辑爬虫呢？那现在我们来看一下。第一个说在前面的话，那我们要学习这个爬虫呢，需要有一些基础，那看一下我们的课程定位，咱们这个玩转拍森爬虫，他的定位是爬虫的一个初学者，你要想学习这门课程，你需要有拍森语言的基础，还有前端的知识，但如果你要再具有一些数据库的知识，那就更好了，因为我们的数据最终要存放到数据库当中。再看一下开发环境，在本教程当中咱们采用的是 win 十的操作系统，当然你也可以使用苹果系统，那我们的拍森解释器用的是三点八，你可以去到官网上进行下载。咱们集成开发环境采用的是这个 pycharm，那也叫拍叉，那这个是开发环境。在学习本课程之前呢，你需要去安装解释器以及我们的集成环境，还有关于课程案例是怎样去学习的，老师给大家的建议是这样的，有些案例会随着时间的推移有所变化，所以大家学习的是一种思想和方式。这指的什么意思？你比如说我们在这那个爬取网站的时候，可能老师讲的时候，这段内容网站使用的是 a 标签，那可能等你在看这道这段视频的时候，那网站可能采用的是标题标签，所以你学习的是一种思想，数据的来源及作用。现在是一个数据为王的一个时代，那企业有数据的话就能够说话。那我们现在来看一下数据的来源都有哪些方面？第一个就是用户所生产的数据，那你比如说，嗯，大家都喜欢玩微信是吧？呃，自拍呀，晒个朋友圈啊，腾讯 qq 的聊天记录呀，那这些数据都有可能被获取到，被谁获取到呢？被腾讯公司获取到呀，对吧？所以呢，那这个就是一个用户所生产的数据，你的自拍照都属于你的生产数据。那比较常用的就是这个百度指数，他是最近一段时间内哪个词搜索的是最火的，或者是一个趋势的变化，你在百度指数当中都可以看到这个网址。这呢啊， in 带点，百度点 com，这就是一个百度指数。你比如说我到底是想学 python 呢？我还是想学 java 呢？他们之间有什么区别呢？或者说哪一个更好呢？我在这的时候我就可以搜一下啊，比如说 python 啊，我在这开始搜索一下 python，那你就会在这看到，哎，这是一个什么叫搜索指数？在二零二零年四月二十号的一个搜搜索指数是多少？那么呢，他现在的一个四月二十五号的一个搜索指数是多少？这是一个整体的日均值，还有个移动的日均值。那嗯，我还想做什么呢？你看一下在什么时候，在这块的时候，在二十三号的时候，拍森的一个那个资讯指数是达到了一个最高峰的，那你看一下，这是不就是进行了一个分析啊？当然我还想知道什么呢？我还想知道他和扎碗之间哪个会更好一些？我可以添加对比，对吧，然后确定你就会看到。哎，这个绿色的是 java 的一个搜索指数，它的整体日均值是多少？移动的日均值是多少？从这个当中你就会发现什么这个搜索指数什么呀？指的是大家所进行关键字的一个搜索。那我们现在看，哎，拍森的搜索的这个指数比较高，为什么？因为拍森是一个全民所使用的语言。为啥说全民所使用的语言？在拍森的基础的时候，老师给大家讲过，那我们说这个随着国家的人工智能的发展，是吧？还有国家对这个，呃，中小学以及高中的一个人工智能的教育，那么它所采用的这个语言就是拍森语言，那包括行政人员也可以使用 python 去进行一个办公自动化，所以它是一个全民的语言。那你看一下它的搜索指数是高一些的。那你再看一下这个啊，这个是关于 java 的一个啊，资讯指数，那这个呢？你看一下它们之间的对比。哎，那这个就是数据的一个变化，有数据当然就有说服力了。好了，那我们再看还有什么呢？除了用户产生的数据，还有政府所统计的数据，你比如说现在中国有多少人口呢？这个数据是怎么来的呢？是吧？是不是先从村开始统计啊？村长开始去开始，哎，你们家多少人呢？对不对？然后村里统计完去报到镇上，镇上再去报到市里，再报到省里，省里再去报到国家统计局，所以你看一下有一个网站叫什么叫中国政府网啊？那这个是 government gov，中国政府网，中华人民共和国中央人民政府。然后在这个当中有一个叫什么数据，你可以看到，那现在的中国的总人口是多少？在二零零九年年末的时候是达到了十四亿，是吧？那我们的一个 gdp 是多少？你可以在这看一下，他有统计周期，你是从什么时候开始进行统计的？还有我们的一个粮食的产量，是吧？那这个就是我们的政府的一个数据，那还有什么呢？还有我们的一个数据管理公司，那数据管理公司的数据可以进行什么？卖给其他人？你比如说在这有一个非常有名的就是这个聚合数据啊，这个聚合数据他是 api 数据接口，你呢？在这的时候免费数据的一个调用，当然有的是免费的，这个是免费数据，还有一些数据是收费的，你比如说你想做一个实名的身份证的实名验证，那你呢？需要调用他的接口，调一次呢是零点二零元两毛钱，是吧？现在是一个疫情期间，你可以去做一个人脸口罩识别，这样系统你调他一次是一分钱。是啊，那这个就是我们的一个聚合数据，是数据管理公司的。那还有什么？还有就是咱们自己抓起的数据。嗯，我最近想买一个二手车，那我就想看一下哪一个二手车？或者说是我就想买个新车也好，二手车也好，我应该爬什么网站的数据呢？我想看一下这个车多少钱呢？你是不是可以爬一些关于汽车的网站，人人车了、二手车了，是不是可以进行爬取数据，自己做数据分析啊？那这些都是数据的一个来源，那我们收集了这些数据做什么用呢？你看第一个就是什么数据分析，那第一个就是数据分析，因为我们说你这个实际上我们拍摄当中还有另外的一个模块，是不叫做数据分析啊？它可以为我们提供一些有力的证据啊，有力的证据数据，那还有什么呢？智能产品区练习数据。那你比如说现在为什么叫智能产品区练习数据？那你看一下，就是你拿出一张小狗的照片，或者拿出一个小猫的照片，是不是？那我们一眼就能够分出来？为什么呀？因为我们从小到大看过了上千张，上万张，甚至上亿张猫和狗的照片，我们做了大量的练习，所以我们眼睛一眼就能够把它识别出来。那机器也是一样的呀，我想做一个图片，一个识别的机器人，那你是不是也需要让他有很多的图，很多的数据图片去练习，他才能够像人一样去识别呢？那我们看还有什么麦呀？数据的作用，还有麦，你比如说那个黑市，大家都知道吧？就是我做了一个系统啊，然后呢？我需要有大量的用户注册，我上哪找那么多大量的用户去啊？对不对？这个时候你就可以从黑市上去买一些身份证，然后进行一些注册，但这个不太可取啊。好了，那这个是数据的一个作用，那刚才在说数据分析的时候，老师再补一句啊，我不知道大家喜欢不喜欢玩抖音，你有没有发现这样一件事情，那个抖音你一刷起来就停不下来，而且呢越刷越上瘾，刷到的都是你喜欢的数据，都是你喜欢的视频，这是什么情况？这是因为他会根据你的浏览的数据和你浏览的习惯，然后给你推送你一些喜欢的内容，这就是数据分析的一个应用。那什么叫做爬虫呢？实际上就是使用编程语言所编写的一个用于爬取 web 或 app 数据的这样的一个应用程序。那我们现在来看一下百度百科对网络爬虫的一个解释，是这样的，网络爬虫又被称作网页蜘蛛啊，是一种按照一定的规则自动的抓取万网信息的程序或者是脚本，他还有一些不常用的名字叫做蚂蚁等等。好了，如果大家感兴趣的话，可以去这个百度百科把这个他的产生背景什么的，大家可以去看一看。那我们现在说，呃，爬虫就是一个应用程序，对吧？他的功能就是从网上下载各种各样的一个资源。那爬虫的应用领域有哪些呢？你比如说在这的时候，我们去给大家去搜索一下咱们的这个杨老师所在的一个公司马士兵，那我们会观察在这个搜索结果上，你看到的这些所有的百度快照啊，都是从百度的服务器上去下载下来的，那它什么意思呢？是这样的，在百度的后台有一个非常庞大的应用程序啊，在百度的后台有这样一个非常庞大的应用程序，这个应用程序做什么呢？它就是负责从这个我们的这个 internet 上、互联网上去爬取数据，哎，把这些爬取到的数据都存到自己的服务器上啊，那我们说这些爬取的数据都存到百度自己的服务器上，所以当你去点击百度快照的时候，那这个数据是向百度的服务器去发送请求的。那你看一下，这个是马视频老师的官方网站，我们去点一下百度快照，当你去点这个百度快照的时候，你会发现它写的是 catch， catch 百度 content 点 com，所以你下面所有看到的这些内容都是来源于我们百度的服务器，而百度后台这样程序就在不断地去抓起这样的数据。那这是第一个是超级爬虫，特别大的爬虫，那就是我们的这个搜索引擎，那除了这个还有什么呢？还有一个，呃，有这一个这样的网站叫做伯乐在线，你看一下伯乐在线这个网站啊，你比如说在这的时候，中美贸易谈判，你把它打开之后，你发现它写的是 f x 幺六八财经网，再看这个下面没写。再看华为，它什么呢？是我们这个二十一世纪经济报道，什么意思？那也就说用当前最流行的一句话说，就是本我不产，我不生产数据，我只是数据的搬运工。说明在这个伯乐在线啊，他的后台也有应用程序，他会从其他网站上去爬取一些数据，然后显示到他自己的网站上，然后他会给你写上我这篇文章的一个出处。那这个是我们的一个伯乐在线，他的后台也是这样的一个爬虫程序。还有吗？还有，嗯，有一个叫会会购物助手，大家都知道吗？长的是这个模样，什么用的呢？这个会会购物助手，他会自动对全网电商的同款商品进行一个比价，哎，帮你花最少的钱买到最合适的新产品，那下面会告诉你这款软件怎么用呢？慧慧助手是网易出品的浏览器比价的工具，你在网购的浏览商品的时候，他会对比同款商品，提供历史最低价，帮你轻松抄底。聪明，网购不吃亏，你看一下这个就是他的一个图像。那那除了这个，你比如说还有什么呀？还有咱们自己啊，自己去爬取一些数据，就像老师在上个视频当中说的，嗯，我想看看什么买一个什么样的车，他保值呢？是不是你就可以从一些二手，二手瓜子，二手车啊，人车啊去爬取一些数据，然后进行一个数据分析，你就可以知道。哎，我花相同的钱买个什么样的车，在 n 年之后他还能进行保值，那除了这些还有吗？你比如说你这个抢票软件，每到什么时候，每到这个十月一，或者说春运的时候，大家是不是都坐在那眼吧瞅着那个票啊？明明瞅着是挺好，但是你一点就没了，速度怎么那么快？除了人多之外还有什么？还有一些抢票软件，那抢票软件的那个速度肯定比你这个人尾的速度要快呀，所以说像这些抢票软件的后台也都是爬虫程序的一个应用。那这节课我们就给大家讲到这。
40py木林森呀💕
02:41
【Python爬虫】教你用python爬取各大VIP漫画资源，轻松实现看漫画自由，附源码！#python #编程 #代码 #漫画 #计算机
查看AI文稿
AI文稿
拍分爬虫各大 vip 漫画，今天给大家带来一个使用 python 爬虫来抓取漫画的啊这样一个程序。那么首先的话呢，先说明一下啊，就是我们这个程序如果你想运行需要先安装 python 的一个环境是吧？啊，如果没安装的话是用不了的。好吧，需要安装包的话呢，可以加下来后在评论区留言，那我会发给大家。那接下来我们来看一下关于这个程序效果啊，首先要这样的，就是我们先选择它的一个官方网站啊，来这个我直接可以来看下这个页面吧，打开详情叫，呃，风起云来，是这样的一个漫画对吧？他是属于慢客栈这个网站的啊，里面选择我记得好像是选择那个修真系列吧。对，就这个里面啊，好，我们选择这个维利啊，叫风起云来，然后的话呢，接下来任务要求是通过程序的方式来将这里面的漫画进行下载，好吧， ok，那么接下来我们来看看效果啊，点击运行来，代码也写好了，接下来我们失效点击运行看结果好，他就开始下载了啊。第五张，第六张，第七张。 ok，我们来看一下这个当前目录下应该就会有这个对应的啊。 no，已经开始出现了好吧，行，我们先在这停一会看一下啊，我终止一下，来打开文件看一下里面，比如说第一张是那个，呃，什么雾蓝之巅对吧，那这是第一张图片，把它放大一点吧。 no，大概是这样的，比如我们选择第一画看一下，嗯，应该是一样的啊，喏，应该是一样的，这个叫什么？研墨哥啊， ok，看一下最后一个，最后一个是在这，呃，费了好多把剑过去，是吧？好，我们来看下我们最后一张图，喏，对应的就是这个，是不是？ ok，那这是第一张了，那我们再换两个试一下，比如我们随便选一下，比如第八张飞来横祸二，是吧？大家看下这张图片，最后一张图片就是这个眼睛，对不对？然后我们找到第八张，我退一下，这最后一个，喏，是一样的，对吧？所以的话呢，通过程序的方式，我们就能够批量的下载你想要看到的一个漫画。 ok，那就不需要你自己一个个去看了，不需要打个链接了。好吧？直接下载你的下载你电脑上就可以了，这种话呢，只要你是付费的去也可以下载。好吧，也是可以的。好的，那接着我们建这个程序效果，如果有需要这个代码或者需要拍摄环境的话呢，可以一键删掉或者在评论区留言。
21Python白白
04:30
python爬虫学习 #python #python爬虫 #python编程 #python教学 #看见音乐计划
3744九月词
03:14
用Python爬虫代码，实现全网电影免费看 #python #编程 #计算机 #免费追剧 #电影
查看AI文稿
AI文稿
同学们大家好，今天给大家带来一个用 python 爬虫来采集 vip 视频的这样一个案例。好吧，那我们先来看一下，不过讲之前先说明啊，我这个代码呢，需要在 python 环境下才能运行，如果你没有 python 环境，那是运行不了的。好吧，那需要 python 环境，需要安装包之类的，可以一键三连后在评论区留言，然后我会发给大家或者私信找我领取，好吧，行，接下来我们来看看它的一个程序的运行效果。嗯，首先运行我们这个代码，运行之后会出现这样一个弹窗提示的吧，就是，呃， vip 追踪神器是吧？好，下一步我们选择一个视频平台，你自己可以选，比如爱奇艺，腾讯视频或者优酷视频，我们这里腾讯视频为例吧，点击腾讯视频，他会在浏览器直接打开腾讯视频的官网啊，并且的话呢，我们接下来选择一个电影分类吧。好，然后选择，比如说这个，这个浪浪山小妖怪， ok，打开看一下。好，首先进来之后呢，大家可以看到啊，这里首先第一步是要求 vip 可以关闭广告，其次的话就这个看完整视频需要开通会员是吧？但我并不想开会员，那怎么办呢？来复制下它的网址，然后找到我们刚刚的软件，把网址粘贴到这里，接下来我们点击播放 vip 视频，点一下。 ok，那么这样的话呢，他就直接会把这个视频解析，然后呢并且抓起来给你看，好吧，好，那这个我们就可以试着播放一下，点击的话啊，这里你可以把左键关掉，那这个弹幕关掉啊，这已经开始播放了是吧？这面估计广告还没放完好，这个也开始了啊，这样子快一些。好，这里的话呢，我们选择快进一下吧，我就不等了，这个太慢了，快进一下我祖爷爷的帐篷，给我弄死他俩，等我饶命。啊。啊。声音停了，可以看到喏。呃，他就开始播放了，对吧？这边的话呢，这还在还在，刚开始。所以我们可以通过这样一个程序来进行破解，从而获取到 vip 的一个视频。好吧，行，那这是我们这个程序的一个案例效果，你自己可以把那个需要播放的视频放这里边，然后点播放就行了。 ok，非常简单。好，那如果有需要这个代码或者需要这个拍摄环境安装包的，那可以一键删掉后在评论区留言。那我会发给大家。好吧，或者私信找我领取也行。行，那么就给它讲到这里，谢谢大家，我们下节课再见，拜拜。 nice。
24咪咕

热门推荐

热门分类