粉丝1004获赞2.0万

今天先给大家看几张图,这是我们旗下两家公司在理应和脸书上的粉丝数据,理应这边我们两个公司的账号分别做到了三万、两万粉丝, 脸书一家一万三,另一家五千五。肯定有朋友觉得这点数量不算多,但是照搬国内自媒体的那套玩法去做,理应做脸书,别说涨粉了,账号直接被限流,被封号。 那我用我们深耕海外社媒十几年的经验,带大家把核心问题聊透,讲讲理应和脸书的涨粉逻辑、运营导法到底差异在哪里?商业运营要避开哪些致命的坑?还有怎么靠这两个平台精准拿下海外客户,你们懂的。老张从来只讲干货。 首先大家要搞懂这两个平台的核心逻辑,他们的涨粉逻辑可是天差地别。想要做好海外社媒的运营,第一步就得找准平台定位,底层逻辑错了,再努力都是白费。 理应说白了就是线上的商务会议,使用的客户都是带着职场目的来的,找人脉、学干货、谈合作、寻商机,氛围非常专业偏商务。而脸书就像是线上家庭客厅,用户过来放松休闲,社交娱乐,看趣味内容,主打轻松随性。 正是这两个核心差异,决定了两个平台的涨粉玩法完全不一样。理应的涨粉三大核心,第一,价值输出为王, 严格遵守七二幺法则,百分之七十的行业干货分享,百分之二十的品牌故事输出,只剩下百分之十用来做产品硬广。记住在理念要先立足专家人设,再做销售转化。那第二个是精准穿层渗透, 加入对口的行业群主,用专业解答代替硬广轰炸,每周花五到十分钟用来互动,效果比盲目群发私信强十倍。第三,权威背书裂变多,和行业 k o l 互动, 发布行业白皮书、深度调研报告,积极参加热门活动的讨论,慢慢打造出行业意见领袖的 k o l 形象,粉丝自然又精准。那脸书的涨粉三大核心是什么?第一,内容要做娱乐化、互动化,用好玩有趣的内容吸引用户主动点赞、转发传播。 第二个,视觉冲击优先,海外用户刷内容的节奏快,短视频、高清美图、动态图文才是王道,三分钟抓住眼球, 不然客户就会滑走,流量就白费了。那第三个,做好社群的沉淀转化,把公共主页的粉丝引流到私密群组,搭建深度连接,把普通用户慢慢变成意向客户。其次是平台运行的禁区,千万别乱碰 那两大平台的合规红线,我把它讲清楚了,做海外设为合规式底线,踩到了红线,轻则限流,重则直接封号。大家一定要记牢, 先看领英的商业红线,这些事绝对不能做。第一,严禁频繁群发广告,私信平台管控极严,每周陌生私信不要超过五条。 那第二个,杜绝夸大宣传,伪造数据,领英对诚信要求极高,造假必备处罚。第三个是拒绝过度营销,产品硬广内容超过百分之三十就会被算法打压。那合规的正确做法是完善企业主页,优化员工个人账号资料,持续输出高质量合规内容, 控制营销占比,配合理应广告,按职位、按行业、公司规模等等,精准的定向的投向客户,那再看看脸书的商业红线,违规轻则下架,还会罚款或者封号。 第一,禁止发布误导性内容,比如百分之百干嘛,零风险什么这类夸大的话术是不允许的。那第二个,受限类屏幕不能随意推广电子烟医疗,你必须要去申请进入白名单才行。第三个,不要过度收集客户用户信息,避免侵犯隐私违规。 脸书的合规的正确做法是,主页里面埋入关键词,绑定 instagram 账号联动,用精准的广告投放加社区沉淀的模式, 先圈住精准的粉丝,再一步步转化。那最后我讲一下这两个平台精准获客的打法。理应获客有四步法,第一步,精准定位客户,用高级搜索功能,按职位、行业、公司规模锁定采购经理、 ceo 等等,这些决策者 瞄准你的行业。第二步呢,就是价值前置,要发送定制化的消息,附上行业痛点分析报告,别一上来就甩产品链接,很容易引起客户反感。第三步,内容培育信任,每周推送一到两条行业干货, 持续输出专业价值,慢慢建立与客户的信任感。那第四步,就是线下闭环转化,线上建立信任以后,及时对接线下洽谈,完成获客的闭环。 那脸书的获客四步法是什么?首先第一步,兴趣定向投放,按照客户兴趣行为习惯,地域投放,广告中精准触达目标人群。第二步,视觉引流,用十五秒左右短频快的产品视频,直接核心卖点,引导用户跳转你的官网和商城。 那第三步,社群深度转化,把广告引过来的客户拉入私密群组,一、对于专业解答,提高转化率。我讲到这大家应该明白了吧,这两个平台从来不是靠追求粉丝数量取胜的,对于咱们做外贸的人来说,这两个平台都是拓客的利器,我个人更偏爱,理应 它是妥妥的 b to b 首选平台。做 b to c 的 朋友就着力发力练书,抓准平台的底层逻辑,避开运营深坑,少走弯路,高效的去拿到订单。好,今天的干货我就分享到这,关注老张,后续我会持续的拆解领英练书的实操技巧,我们一起拿下更多海外订单。

大家好,我是黄律师。今天我们聊一个在平台获取数据和数据使用的法律问题。我们先从一个案例开始,有两家公司称为 a 公司和 b 公司, a 公司啊,是一个解锁引擎的软件, b 公司运营了一个社区服务类的软件, a 公司为了用户的使用简变,并且为了提高自身的竞争力,把 b 公司的海量的用户评价 搬运到了 a 公司的软件内,这样用户可以通过 a 公司直接看到本来应该在 b 公司上的评价,同时 b 公司的网页页面上显示这些用户评价是属于可以爬取的数据。 那么 a 公司就认为既然是可以爬取的数据,同时又减变了用户的来回跳转的时间,那么对大家来说是一个双赢。但是 b 公司就不这么认为啦, 原本用户跳转到 b 公司软件才能看到的信息,现在是只要在 a 公司的软件上就已经能看到了。 b 公司认为 a 公司构成了不正当竞争,就向法院起诉了 a 公司,要求 a 公司停止不正当竞争的行为,同时要求 a 公司赔偿损失。 后来法院判决认定 a 公司构成了不正当竞争。法院写了几点判决理由,这些判决理由也成为了后面的通用规则。第一个是即使有爬虫协议,也不代表爬取数据的行为一定是合法的, 这是什么意思呢?爬虫协议,它是一个在网站根目录下的一个类似于行为准则的东西, 是一个技术类的协议。在这个行为规则当中,明确了哪些用户可以爬取数据,用户可以爬取怎样的数据,那想法院的判决理由解的也是很清楚的, 虽然 b 公司的爬虫协议上明确了是可以进行爬取,但是爬虫协议只是一个最低限度的技术和底线,不是说只要有了爬虫协议的允许,你爬取数据的行为一定是合法的。 第二个是法院认定 a 公司的行为构成了实质性替代。什么叫实质性替代呢?就是 a 公司获取了原本 b 公司业务的商业机会, 用户原本是可以去到 b 公司的软件的页面上获取 b 公司的评论。交易机会原本是属于 b 公司的, 但是 a 公司把 b 公司的评论搬运到了 a 公司的页面上,用户可以在 a 公司的软件上完成原本 b 公司以工的服务,这个就是法院认定的实质性替代。 这条也是判断平台获取数据是否构成正当竞争的一个重要理由。还有一个规则是用户的授权不代表平台的授权, 这是什么意思呢?假设有一个用户他在 b 公司上写了评论,这个用户向 b 公司授予了展示他评论的权利, 同时他可能向 a 公司授予了通过 a 公司去到其他界面访问的一个权利,或者是去 看 a 公司数据的权利。但是这个属于用户的个人授权,他等同于平台的授权,平台之间的授权需要 b 公司向 a 公司进行授权, 才能达到 a 公司合理使用数据的一个目的。那么作为个人或者是平台怎么样去合理抓取和使用数据?首先获取数据的渠道合法。 现在通用的获取数据的合法渠道有官方 api 平台数据授权,也可以去网页上看是否有爬虫协议。 第二个是如果我们个人使用数据,一定是要在合理的限度范围内去使用。第三点我们要使用公共数据或者是使用他人的数据,一定要注明平台和来源, 也可以把原始数据的链接给贴上去,避免侵权风险。以上就是今天跟大家分享的内容,希望能够帮助到大家,感谢关注,我是黄律师。

pason 爬虫教程第一章一点一爬虫介绍学 python, 我 只看糯米哦! 哈喽大家好呀,我是糯米!大家还在手动复制网上的数据,逐一下载素材,熬到半夜赶工吗?其实有个小工具能帮你摆脱这种重复又耗时的麻烦,它就是爬虫。很多人听到爬虫都觉得它高深莫测,不敢轻易尝试。 今天我就用大白话给大家讲清楚什么是爬虫,以及它能帮我们做什么。划重点,爬虫只是个工具,本身没有好坏之分,关键看你怎么使用它。 先通俗的讲一讲什么是爬虫,它其实一点都不高深,既不是什么黑客工具, 也不是难学的高科技,就相当于一个自动化的信息搬运工,我们平时手动翻网页,复制文字,收集数据 费时又费力。而爬虫能帮我们自动完成这些机械操作,按照我们设定的规则,抓取全网公开的信息,再整理成我们需要的格式,比如表格、文档,省去大量重复劳动。 再说说爬虫能帮我们做什么,不管是职场赋能、提升工作效率,还是个人日常使用,他都能派上大用场,真正做到解放双手,省时省力,让我们把时间花在共有价值的事情上。职场上,他的赋能和提效效果尤为明显。 做电商的,不用手动一个个查询竞品的价格、销量评价,爬虫能自动抓取全网竞品数据,快速整理出价格趋势、好评关键词,帮你精准选品,合理定价,省去大量无效耗时。 做运营的,不用熬夜搜集全网爆款文案、标题、话题、标签,爬虫能批量抓取,分类汇总,帮你快速拆解爆款逻辑,轻松搞定内容创作和账号运营,提升工作产出。还有普通职场白领, 要是领导让你做行业报告,需要收集大量行业数据、政策信息,不用一个个网页复制粘贴, 爬虫能自动抓取、汇总、整理,帮你快速搭建报告框架,让你把精力放在核心的分析和总结上,高效完成工作,获得认可。就连做自媒体的找小题、找素材、找热点,爬虫也能帮上忙,批量抓取相关内容,帮你摆脱题焦虑。 除此之外,对个人来说,爬虫也十分实用。喜欢的图片、视频、音乐,不用手动逐一下载保存,爬虫能按照你的需求,批量抓取各类公开的图片、短视频、背景音乐, 不管是用来整理素材、日常收藏还是剪辑创作,都能省去大量手动操作的麻烦,满足个人多样化的使用需求。最后再强调一遍,爬虫只是一个工具,它的作用取决于使用它的人, 它能帮我们节省时间,提高效率,赋能工作。但如果用它去抓取未公开的隐私或违规信息,那就是使用者的问题,和工具本身无关。 总结一下,爬虫就是帮我们解放双手,高效收集公开信息的工具。不管是电商运营从业者,还是普通职场人,学会使用它,都能让工作更轻松,效率直接翻倍。

自动化程序收集数据,也就是咱们常说的爬虫,到底哪些能做,哪些不能做?最近看了国家数据局的一些官方解读,发现很多做小项目、搞创业的朋友都误以为公开数据可以随便爬。 比如上海的王某开发了一款爬虫程序,他破解得物 app 的 防护措施,从平台上抓取数据去售卖,短短两年时间,获利六十余万元,但是最终也构成犯罪,判了有期徒刑三年,罚款八万元。 其实,用自动化程序收集公开数据本身是被支持的,毕竟这也是数据获取的重要方式,但是要守住四条红线, 第一,不非法入侵他人的网络,未公开的数据别乱爬。不破解账号权限,不违反平台规则,比如平台设定的用户协议、 robo 协议都不能违反,更不能触碰涉密内部网络。第二,不干扰网络服务的正常运行, 爬数据要控制好采集频率,控制好流量,别因为自己的采集导致平台服务器卡顿、荡机。 第三,不破坏原有的防护措施,伪造访问标,使用代理 ip, 破解平台反扒机制,规避防护屏障,这些操作都是违法的。 第四,不损害个人和组织的合法权益,不侵犯他人的知识产权、商业秘密,不泄露个人隐私,更不能用爬来的数据去代替原平台的产品和服务。 王某的案例刚好踩了两条红线,一是破解了平台的反爬机制,二是损害平台的合法权益,构成了不正当竞争。 那么爬来的数据如何能合法合规的使用?第一,要看基础使用权, 不可以持有,也可以内部使用,比如用来做自身业务分析,训练模型,或者整理成自己的资料,这些都可以,毕竟咱也付出了劳动,而且也不会影响原有数据方的使用。 第二,想变现,想对外提供,有个前提,必须在原有基础上要进行创新性开发,形成新的数据产品,而且不能替代原平台的产品和服务,否则还是违规公开。爬数据要记住十二个字, 不入侵、不干扰、不破解、不侵权。希望以上经验能给大家带来一些启示,谢谢大家!

关于网络爬虫的这个问题,今天呢,宋丽是想结合我们团队的办案经验,用一个视频给大家讲清楚网络爬虫的这些问题。首先第一个想跟大家明确的是网络爬虫技术,它本身是一个中立性的技术, 根据网络数据安全管理条例第十八条的规定,是可以使用自动化工具访问和获取网络数据的,但是不得非法侵入他人网络或 干扰网络服务的正常运行。也就是说你在遵守上述两条禁止性规定的前提之下,正常的去使用网络爬虫,比如说遵守路由器协议,那么 你使用网络爬虫这个行为本身不会涉嫌任何的违法行为。但是为什么有一些使用网络爬虫或者提供网络爬虫工具的这些人会涉嫌刑事案件呢?首先第一点是这个网络爬虫的这个 程序或者工具是不是突破了这个网站设置的安全防护措施,比如说有一些网站设置的非常严密的安全防护措施,你还使用一些代码去暴力的破解这些安全防护措施,然后去抓取数据,这样行为呢,很容易就涉嫌非法获取计算机信息系统数据罪。 在这里呢,有一点是很多人容易搞错的一个误区,就是关于这个验证码,因为验证码它本身是一个身份验证,它跟网站的安全防护措施它是有本质区别的,所以不能单纯指意说我 突破了这个验证码的这个防护,就一定会构成相应的刑事犯罪。第二点就是网络爬虫他抓取的这些数据 到底是属于公开数据,还是说是被设置了安全防护措施的一些私密数据,比如说法律的实践研究,它里面涉及到很多案例的解析,那么这个时候你就需要去从公开的网络上去下载这些公开的一些案例,这样的学术研究他当然不会有什么问题,但是在我们遇到他的案件里面 有很多网络,他从他去抓取的数据往往是一些公民的个人信息,比如他的一些行程信息 等等等等,这种信息呢都属于公民的个人信息,属于非公开的,你在使用爬虫去抓取这些信息的情况下,是非常容易构成侵犯公民个人信息罪的。第三一点呢,网络爬虫呢,他本质上呢其实就是模拟人去浏览网页,只是他把这个行为进行了一个自动化的设置, 其实说白了,你找一百个人同时去浏览这个网页,下载相关的这些信息,它的这个作用是一样的。那么在这种情况下,如果爬虫只是解析网页里面的信息,而不是去复制这些信息背后的原始的数据,这个时候获取信息跟非法获取数据 它本质上是不一样的。第四点呢,就是这个网络爬虫的工具或者程序是不是专门用于非法侵入、控制计算机信息系统的? 也就这个工具除了违法侵入和控制他人的计算机性系统,没有任何其他的功能。最后我想说网络爬虫技术,它本质上就是一个中立技术,是否涉嫌违法犯罪,取决于使用它的目的和手段到底是什么样子的。 就好比啤酒瓶,它既可以用来装啤酒,又是街头打架斗殴的趁手作案工具到底是一个商品还是作案工具,取决于使用者的目的。 但是在现在这类案件当中呢,很多办案单位确实会天然的把网络爬虫技术呢直接做有罪推定,而没有去分析背后的一些技术原理。所以如果你或者你的家人也遇到这类问题,可以在评论区跟我们进行交流。

你爬我数据,你不正当竞争,我要报警,我要告你。今天呢,我就一句话给你讲明白,公开可浏览的信息 算不算非法?爬去?还真不一定是这么回事,电商平台的商品信息啊,他面向所有的公众是开放的,不用登录,不用授权,也没有权限的,任何限制任何人都能看。 从技术上讲,用户浏览就是向服务器发送一个请求,那服务器呢?推送数据到你的设备,全程没有破坏你的技术保护措施,没有获取你用户的信息,订单结算、物流这些隐私的数据,还有一些敏感的内容, 不登录他根本看不到。法律上非常清楚,访问公开的信息他不属于爬虫,不构成破坏技术措施,更不构成不正当竞争。

兄弟们,大家都听过爬虫对吧,但就是不知道他是做什么的,今天给大家啊,一次性讲清楚, 你们看过孤株一志吧,马仔对着电脑喊着爬字幕,煮资料,爬邮件, 但这个是违法的啊。今天给大家讲讲爬虫工作上的样子,还把入门要学的具体技术讲透,想入坑的继续听啊,我讲给大家听啊。 其实爬虫就是互联网信息抓取技术,提前给他定好规则,他能自动逛网页,爬数据,爬信息,不用人手动一个一个翻,效率直接拉满, 生活里面用处贼多。做电商的,想查同行的爆款销量数据,上千上万个品手动根本看不过来,爬虫一上啊,全抓过来, 哪个月卖的好,销量多,分析起来特方便。做量化金融的,需要抓过往的数据找工作啊,爬全网招聘信息啊对吧,按薪资来排序,甚至找低价商品,纯图片视频, 爬虫都能搞定,说白了就帮咱们高校撸互联网上有用的信息。 想做爬虫,首先编程语言肯定是 python, 上手快啊,爬虫相关的工具库还多是从业者的标配。那具体要学啥?新手入门其实门槛不高, 先把 python 基础打牢,掌握基础语法,循环函数这些核心内容就行。接着学爬虫核心库啊,请求数据的 request 对 不对, 解析页面的必复速谱和 express 这几个必学啊,能搞定大部分基础爬取需求在懂点简单的页面知识,比如 html 结构, 知道咋找想要的信息位置,就能够入门练手了。不知道怎么学的,可以看看我前面发的那一条,大家不要一上来就很复杂的,先跟着练几个小案例,比如爬个商品信息,爬个资讯列表, 熟练了再慢慢进阶。这里面提一句,爬虫本身是中性技术,技术本身是不违法的,但要是乱爬违反网站规则啊,偷爬公民的隐私,那肯定是出了红线的。 咱学这个技术是为了正经做事挣钱的,可不是走电影里面的歪路子。其实爬虫岗位就是把这个技术用在商业分析、信息整合上,帮企业高效拿数据。真没有那么神秘, 我就想问问大家有没有啊?早就想学爬虫的,却不知道从哪里入手的,或者对这些技术感兴趣的啊,大家有什么问题都可以问。

爬数据被抓到底冤不冤?最近半年我手上就接了五个爬虫案,当事人都是因为爬了像某团、某多、某宝这样大平台的数据,被采取刑事强制措施了,都是指控他们非法获取数据。但这事背后有个巨大的讽刺,一边是这些大平台疯狂花钱买别人的数据做分析, 另一边却转头就把他们数据的人给举报了,这又当又立的操作,最终倒霉的却是那些可能只是做技术、做分析的小公司和个体户。那么关键问题来了,爬数据真的就一定是非法获取吗?要坐牢吗?我的观点很明确,绝大多数情况下不构成非法获取。为什么? 核心看两点,怎么爬的和有没有权限。第一,核心爬取方式,爬不等于黑。一、模拟真人浏览爬虫,如果只是模拟真人点击 看到的数据和你我手动操作看到的完全一样,这个是没有问题的。二、数据是送出来的,爬虫拿到的数据是服务器通过正常接口主动发送出来的,内容和格式都是服务器定的,爬虫根本改不了,这跟侵入完全是两码事。三、本质区别。爬虫是服务器给什么我拿什么, 黑客入侵是我想拿什么就硬拿什么,性质完全不同。第二,核心权限授与,是否公开,别越界。 四、公开数据随便看。如果数据本身就在公开网页上,谁都可以看,那爬取还需要什么额外授权不需要。五、登录账号守规矩。如果需要登录账号才能看,那爬取的数据范围 绝不能超过这个账号本身能看到的权限。六、验证码不是防盗门自动识别验证码不等于非法入侵系统,验证码本身就不是用来保护计算机系统的。 七、代理 ip 不 等于黑客工具用代理 ip 换地址,这是非常普遍的技术手段,它本身不具备入侵、控制或破坏计算机系统的能力, 不能因此定罪。当然,不是所有爬取都绝对安全,真正的风险点在哪?首先是接口来源,你爬数据的接口是公开的还是非公开的?如果是非公开借口,你怎么拿到的,这个要特别注意。第二是行为影响,爬取过程有没有把人家服务器搞瘫痪、搞卡顿了, 如果造成实质破坏,那性质就变了,可能涉及其他问题。所以总结一句话,单纯使用爬虫技术获取公开或授权范围内的数据,不构成非法获取数据罪。 最后,我想说,互联网经济是未来长期的重要支柱,除了巨头大厂,还有千千万万的中小企业技术员、分析师在努力生存、创新,别让他们干了最累的活,分析了最有价值的数据,最后却因为巨头们的双标游戏,成了被随手埋掉的牺牲品。给技术一点空间,给创新一点宽容。

如果你的项目里有爬虫,一定要回答这三个问题,超级重要。这三个问题,答错一道赔八位数不是梦,答错两道呢,可能真的人都要进去了,这不是忽悠你,是真的我们团队做了十几个爬虫案子,积累出来的血泪教训。 第一个问题,你爬的数据,别人能不能直接看?如果说你爬的数据是需要登录才能拿到,需要破解才能进去的,这种题你不用往下看了,直接去找律师吧。 为什么呢?因为只要你的动作里带有破解或者绕过两个字啊,性质就完全不一样了。这个不叫技术牛,这是刑法里的非法获取计算机信息系统数据罪, 你不是行,你真的是太行了。最高检去年就发了一个这样的典型案例,某个公司的技术人员破解了某个电商平台的加密算法,还伪造请求,拿到了用户昵称啊,笔记。这些数据,最后三个人全部被判刑。 如果你爬的是公开可见的数据,那可以继续往下看。第二个问题,你拿这些数据是干嘛的?这是这三个问题里面很容易被误解的一个,你得区分清楚,你到底是想做一个替代品,还是想做一个新的东西。 第一种情况,你做了个替代品,那啥叫替代品呢?就是用户本来在 a 平台可以看到的东西,在你这全部能看到,那用户就不用去 a 平台了。 今年一月的百科词条案就判了整整一千五百万, b 百科爬了 a 百科的词条内容,自己做了个百科站,用户搜什么都有。 a 百科花了十几年几个亿建立起来的词条库啊,就这样被 b 百科一键搬走了,这个在法律上就叫做实质性替代,也是最典型的要赔大钱的情况。 第二种情况,你如果做了一个新东西,确实风险会低一点。那什么叫新东西呢?就是你拿这些数据经过加工分析整合,做出来了原来没有的价值,这种情况下确实有一些机会啊, 但是这里头风险很复杂,我们也接触过做出新东西以后还被赔两百万的案例,大家拿捏不准呢,就找一个专业的律师好好评估一下。 第三个问题,你是怎么爬的?是很规矩的设个间隔,尊重人家的 robots 协议?还是几百个病发往上冲,换个 ip 硬闯? 如果是后面那种情况,那你的主观恶意就很容易被认定,判赔金额也是夸夸往上翻的。这就好像人家已经在门口贴着谢绝推销了,你还一天到晚去敲门,敲门换个马甲 拼命的往里面冲,直接把人家的服务器干宕机了。这种主观恶意是很强的,法律绝对会严惩。而且这种情况是你的爬的姿势不对,那哪怕你爬了以后,做出了一个新的产品,也一样要赔钱。 一千五百万是什么概念啊?够你在北京上海全款买一个大房子,够你安安心心重新做好几个产品,你不重视合规,合规就会反噬你。

咱们看爬虫程序采集这个数据,他违法不违法?他这个 app 呢,其实就是一个本地化的读取和上传工具,基本功能呢,他是从云端服务器下载了一个访问任务,用户呢,他在手机端安装 app, 可以 模拟他的一个手动点击行为, 浏览一些公开的页面,将浏览到的内容呢,同步一份上传到服务器上,它整个的访问的过程呢,需要去征求机主的授权,它并不是说向一个网站的服务器发送一些不合理的请求,它不属于非法跨区数据,它仅限于浏览公开的展示的 一些商品的信息。那些只有突破了特定用户身份鉴别机制,并且呢没有得到授权的访问,他才应该被视为一个危害信息系统的一个侵入性。那网站通常采取的一些反爬虫的措施,他是不是属于信息系统安全的措施范围?通常爬虫程序啊,他本 本身它都是具备技术中立性,一些公开的页面或者是 app 的 页面,如果仅仅是采取了一些 u a 的 调研, ip 的 调研这些方式实施反爬虫,那么爬虫程序对页面访问和数据的采集,它本身它不具有刑事的违法, 那应该怎么做呢?只能评判它在民事范畴是否是属于侵权的行为。我是北京望宁朱律师,打不赢的官司呢,可以打在评论区,我来帮你管。

很多人都觉得技术中立,爬虫无罪,你这个想法在法官眼里可能价值百万。不好意思,我指的是你要赔给人家的钱。我看过太多所谓的技术大牛,觉得自己代码写的六,结果呢?前脚刚刚把数据爬过来,后脚公司就把几年赚的利润全部赔光了。 在数据圈,七位数的判赔不少见,八位数也已经不是个例了。比如说某宝起诉某神的案件,就因为爬了非公开的经营数据,被判了整整三千万。爬虫不是不能用,但是需要特别的小心,这三个坑一旦踩到,赔多少钱咱们先不考虑, 搞不好连人都得进去。第一,别去碰非公开的数据。很多人觉得自己本事大,能绕过登录、破解加密协议,甚至去撞人家的后端的 a p i, 只要你的动作里带了破解或者绕过这两个字,性质呢,就很可能从采集变成侵入了。这在法律上不叫技术牛,这叫刑法的非法获取计算机信息系统数据罪,你不是行,你是太行了。 第二,不要做搬运工。你以为抓了人家的数据去做商业分析就没关系吗?如果你分析完的报告能让人家直接不用去看原平台,这就叫做实质性替代。 就像我们之前代理过的一个案例,有个 ai 洗稿平台,把某信上的推文全部爬过来,让用户可以直接在自己的平台上看,就被法院认为是构成不正当竞争。还有一个高判赔的案例, 抓了人家几万条餐饮评论,虽然像模像样的做了几张新图表,看起来是改吧了几下,但是呢,如果你把人家的原始评论也原封不动的显示出来,人家也是一告一个准, 为啥呢?人家花了几亿砸出来的口碑数据,你一分钱没花直接搬走,这叫不劳而获,占人家便宜,法律怎么可能鼓励你这种行为? 那有人问,是不是只要不体现原始的数据,跟别人做的不是一个赛道,就肯定安全了呢?其实也不一定啊, 爬虫一向都是一个充满争议和灰度的地带,有的案子呢,甚至一审二审都出现了反转。那到底有没有侵权,还得综合分析和判断,不是光看一个维度就能有一个明确的结论的。建议大家找一个律师做一下深度咨询。 第三,别把人家服务器跑崩,也别明明知道人家不乐意,还硬往人家家里面冲。有些团队为了赶进度,几百个病发,直接冲对方服务器慢一点的,那就是干扰正常经营,要是不小心弄宕机了,那可能就是形势破坏了。 还有的团队,明明知道 robots 协议写了禁止访问,还专门通过伪装 user agent 高频更换代理 ip 去强行抓取。这就好像是有人家家里门口贴着谢绝推销,你不仅翻墙进去,还戴个假发换套衣服分批次地往里面冲。 这种恶意一旦在庭审中被认定,判赔额度绝对让你肉疼,这种内耗和风险你真的承担不起。我是善律,深耕互联网法律服务六年,如果有拿不准的,欢迎向我咨询。

现在我们来尝试一下用 requests 发请求,先新建一个 python 文件。这里注意了,我们这节课讲 requests, 有 同学习惯性就把文件名写成 request 点 p y, 千万不能这样。 import request 的 时候,它会先从执行文件所在目录找模块,也就是我们前面讲的 c 点 pass, 然后一路找到模块安装路径。如果你的文件名叫 requests, 那 完蛋了,相当于你在 requests 里面自己导自己。你看吧,我们用 requests 里面的 get 来请求这个页面,这是我们讲加载流程的页面, 就报错了,说模块 requests 没有 get, 因为你就叫 requests, 你 在导你自己拍枪也提示黄色波浪线了。看到这种深色提示,你就要警惕, 任何第三方库爱上内置模块关键字都不要用来作为文件名或变量名,这里我们还是改一下,就叫 demo。 零一,这个搜索引用不用勾,勾了的话,如果其他地方引用了这个文件会一起被修改。我们这里没有引用,不用勾,可以勾上看一下,点重勾, 看到了吗?这里都被改了,撤销一下,不要勾这个 ok。 请求发出去之后,它会有一个响应来把它打印一下, 这是一个 response 对 象,状态码是两百,说明请求成功了,访问它的 status code, 也可以拿到状态码。 现在我们要拿到它的响应体,因为 content type 是 html 码,所以响应体就是页面源代码,就可以用它点一个 text, 表示用纯文本的方式去读去响应体内容源代码就拿到了, 但还有一些乱码,说明编码有问题。看到 u t f 杠八了吗?之前我们用 url label 需要这样来解码 request 不 一样,我们要在读去响应体之前,把响应对象的 in code 属性改成 u t f 杠八,再来读去, 中文就正常显示了。 ok, 我 们再复制一个 demo。 零二来看小英头,它的 content type 是 html, 但是没有指定编码方式。现在我们换一个网页来看我们第一关的内容,你注意看它的 content type, 这里就设置了编码方式,把 url 拿过来, 不设置编码方式,直接读取响应体,看到了吗?中文正常显示了, requests 会根据响应头里面的 content type 自动识别编码方式,比 url lib 方便多了,对吧?我们也可以通过 response 键 hitters 读取响应头的内容, 不用打开浏览器也能看。除此之外,如果幺二幺里有中文,它也会自动进行幺二幺编码。比如我们随便加一个参数来跑一下,没有报错,说明自动编码了,可以通过 response 点幺二幺查看。这次请求的幺二幺确实被自动编码了。现在我们来看第一关的要求, 它说获取 html 源码的制服总长度,这个长度就是开启下一关的密码,那我们就用内函数获取源码的长度 e 五四五八,那这里就写 e 五四五八提交。 ok, 再来看下一关,他说要抓取所有电影,提取每部电影的评分总人数,并完成哪家来进入靶场,先查看一下源代码, 确认数据都在源码里面,说明是静态页面,再来分析一下它是怎么分页的。你注意看 url, 当我点击下一页之后, ur 要变了,多了两个参数,配几等于二, size 等于十,也就是说分页是靠这两个参数来控制的,配几表示第几页, size 表示每一页的电影数量。那就很简单了,我们只需要用一个循环,每循环一次页码就加一它,这里一共二十五页,那我们就循环二十五次。 刚才第一页默认是没有参数的,现在我们再回到第一页,你会发现第一页也可以带参数。现在我们再来看一下这个 size 能不能改大一点,如果能改大一点,请求就可以少发几次嘛。比如我改成一百,你会发现只返回了二十五条, 说明 size 最大只能是二十五,现在就只有十页了,那循环十次就可以拿到所有电影数据了,这里我们就改成二十五,复制 u r l, 这个我们就改成零一吧, 然后再来一个 number 零二,导入 requests, 来一个 for 循环,从一开始到十结束, url 放进来,这个页面是需要变化的,对吧?所以我们用 i 来代替,然后 requests 点 get url, 拿到 response, 先把它打印一下, 这里我们导入一下 time 模块,用 time 点 snap 延迟零点五秒。对于这种多页数据排序,最好设置延迟,一方面是为了防止请求速度太快被封 ip, 另一方面也是为了保护网站服务器,高频请求会加大服务器压力,如果目标服务器比较脆弱,很容易就给人搞荡机了。前面讲法律底线的时候也说过了,高频恶意请求会有什么后果, 这个你心里应该有数,至于具体延迟多少,没有固定答案,你自己把握。一般零点五秒到三秒差不多也可以在一个范围内随机延迟。不同网站对于频率的限制也不一样, 其实我们现在还没用多进程,多现成也没上一步,代码是完全串行的,上一个请求结束才会发下一个请求,所以就算不加延迟,速度也快不到哪去。但我这里还是把延迟加上,就当给你提个醒。先来测试一下。测试阶段我们就先只爬一页 来跑一下,原码就拿到了,但我们真正要的并不是原代码,而是原代码里面的数据,所以接下来 我们要解析这个 html 源码,从里面提取需要的数据。这里需要用到一个第三方库,叫 parcel, 先把它安装一下, 注意我们现在用的是 uv 管理拍摄环境,所以要用 uv 来安装,如果你不习惯用 uv, 就 用传统方式批量 store 也是可以的。装好之后,我们导入它里面的 selector 类,这里拿到 html 源码之后,就调用它把源码传进去,这就创建了一个 selector 对 象,然后调用它的 css 方法,这里面就要传 css 选择器 来看一下它的结构。由于是静态页面,我们就可以直接看元素界面,当然就算是静态页面,这里也只能做参考,因为内容有可能被 g s 改动。找到这个评分元素,它的类名是 movie rating count, 把它复制过来。还记得类选择器吧前面加一个点,这样就选中了页面中所有类名是 movie rating count 的 节点,把它复制给 item 来打印一下。还有它的类型,可以看到类型是 selector list, 有 点像我们学的列表,对吧?列表的每一项又是一个 selector 对 象,数据就是具体的一些元素,那这里我们就用 for 循环便利它打印一下 item 以及它的类型, 这就是每一个评分元素以及对应的类型。既然 item 也是一个 selector, 我 们就可以继续调用它的 css 方法,用冒号冒号 text 选中它里面的文本节点。两个冒号这种格式的选择器在 css 里叫伪元素选择器,但 css 里其实不存在冒号,冒号 text this partial。 为了方便我们选择文本提供的来把它打印一下,也是一个 select 列表,每个列表里只有一个文本节点,只要是 css 方法返回的都是 select 列表,我们可以用它点一个 get, 获取列表里第一个节点的内容,这样我们就拿到了所有的评分数据。其实可以再简化一下,第一次查询的时候 我们就一步到位,找到这个元素之后,继续往后选中它的文本,这样直接拿到的就是所有的文本节点。只不过这个 item 现在还不是区块,它是 selector 对 象, 我们可以用这个 selector list 继续点一个 get all, 获取列表中所有节点的内容。刚刚的 get 是 获取列表中第一个节点的内容, get all 返回的列表就不是 selector list 了,而是标准的列表。 这样我们拿到的 item 就是 区块链了,可以用区块链切片,切掉最后三个区块,再转成整形。 接着我们在前面准备一个变量 count, 用来做累计,这里每拿到一个评分人数就累计给 count。 最后循环完毕,我们打印一下总评分人数为 count。 循环里面也可以打印一下 d i e。 数据抓取成功来跑一下 没问题吧?第一页跑通了,现在我们来把十页数据全部抓下来,总评分人数就拿到了,这个总评分人数就是第二关的答案,来提交一下, ok, 其实 url 里面的查询参数我们也可以换一种写法,如果参数比较多,这个 url 肯定就会写得很长很长,不好看也不好维护。我们可以这样做,把这一段参数去掉,然后来一个字典就叫 perims 等于 i, size 等于二十五, 然后给 get 加一个参数, perims 等于我们这个字典 perims。 当然这个变量名叫什么都可以,你可以叫 d i c, 我 们一般都叫 perims, 它会自动把这个字典参数用问号拼接到 url 里面去,可以来打印一下 url, 没问题吧?人数也是对的。这个波浪线提示是因为 response 可能没有定义,因为 response 是 在否循环里面定义的,如果没有进否循环, 这个 response 就是 没定义,但我们知道肯定会进负循环,所以你不管它也没关系,你看着不舒服的话,可以在前面定义一下,设置成浪就行,它就不会提示没有定义了。

你们有没有发现这个爬虫越来越难,你想要给他网站数据拿下来会越来越难。因为很多网站或者 app 啊,他为了不让你拿这个数据,这里指的是不让你用程序自动化拿这个数据,他会做一些限制。 那为什么不让我们直接用程序拿这个数据呢?那我们直接访问的话,还需要打开网站,还需要加载静态图片,比如还有视频,还有一些静态的文件。那我们直接访问接口拿到数据,他不就省流量了吗?我们用爬虫是为了给网站减轻压力。 有道理,其实不是这样,如果我们正常来学习的话,只过接口拿这个数据是没问题的,但是你要写一个程序,你需要一直在跑,你需要一直在消耗这个网站的流量,那这个性质就变了啊,这是纯纯的网络爬虫。还有一种情况就是比如秒杀,抢票, 抢东西这种,你无限的怼他接口,怼接口的这个操作本身就是一个 ddos 攻击,就是这个请求,只有你的程序可以过别人正常用户已经没法去访问了。 所以我说过很多次啊,抢东西的,怼接口的不要找我,那什么事你可以找我啊,就是合理合法的拿数据合法单不合理也不行,合理单不合法也不行。那当前这个案例呢,就是一个比较简单的 aes, 这个算法呢,用途很广,用于加密解密,像一些大肠很多都是用这个算法,但是你没法直接找到它,它会加一些混淆啊,加一些控制流啊,或者改成 gsvmp 的, 但是最终核心原理就是 aes。 所以 牌中只是搞数据啊,不是别的,像破人密码,脱人裤啊,都不可取啊。 那为什么越来越难啊?你发现学习成本越来越高了,你从最开始的只需要搞请求参数,现在需要搞 cookie 啊,现在需要搞头部啊,还需要过验证码啊,还有解 js, vmp 啊,解混淆啊一大堆。搞 app, 你 还要学 java 开发语言,还要学 c 语言,你还要去反翻译,还要学抓包, 还要护壳,还要脱壳等一系列操作,那到底为什么越来越难?因为总有人,你们总有人要搞他,你搞他他就更新,所以你想让他长时间不更新,你就不要搞,你得给他一个假象,就是我现在这个防护很安全, 我这日子没有异常,爬虫明显减少了,让他延缓这个更新的进度。比如京东的这个参数,我教大家补了半天,最后把那个环境检测夸一删,连环境都不用补了。 还有最近什么 ai 爬虫, ai 逆向,这东西好不好使不知道啊,能不能过验证码也不知道,反正可以当个参考学习用。所以最终我总结,导致爬虫逆向越来越难的原因就是你们 学的人太多了。那你们不学的话,他就不会越来越难,因为你们不学就不会搞他的网站,不会搞他的网站他就不会频繁更新,他不频繁更新那不就简单了吗?所以像这个网站的这个三签名啊,你不带他也能过, 那他为什么加了一个这个东西呢?就是为了过安全等保之类的,还有一个原因就是让领导看见你 真的在干这个事。那有没有用不知道啊,那实际你干了,那我这嗓子已经差不多了啊。那再休息几天我就开工了。还是劝各位啊,不要学这个爬钟,尤其不要跟我学 nice。

今天我们来学第三关,他要求找到上映时间最近那一部电影的评分数来进入打草。先看一眼原码 不太好看对吧?原代码被压缩过空格,换行都没了。点一下这个自动换行,可以看到是有数据的,如果内容比较多不太好看,可以复制页面上的关键字来原码里搜索,确认数据都在原码里。 ok, 把 url 复制一下,来一个六零三, 导入 requests。 预览要准备好 html 源代码,基本都是 get 请求,拿到 response, 把它打印一下, 你会发现出问题了,服务器识别到了我们是爬虫,没有返回源代码给我们。这是你第一次感受到网站在对抗,你可以来看一下我们的请求头之前获取响应头是 response, 点 hitters, 获取请求头则是 response, 点 request 点 hitters。 你注意看, user agent 默认写的是 python requests, 这就相当于直接告诉服务器我们是爬虫。对于一个正常的用户来说,通过浏览器访问 user agent 肯定不是 python。 来看一下 是这么一段内容,虽然这一段也是乱写的,但至少能让服务器知道我们是浏览器,所以我们通过代码发请求的时候,也要把自己伪装成浏览器。所以我们通过代码发请求的时候,我就写一个 chrome, 服务器是分辨不出来的, 你说你是谁你就是谁。现在我说我是 chrome。 然后给 get 加一个参数,就加 headers, 等于我们这个 headers 字典再来跑一下, user agent 就 伪装好了,源码也拿到了。注意了,我们这个网站没加 user agent, 会直接提示我们是爬虫,其他网站并不会这样提示,可能会给你提示错误,没有权限或者返回其他内容。只要是拿不到正确的数据,我们就优先考虑加 user agent。 当然也可能有一些网站比较变态,你这样写还不行,它还要较验浏览器的格式,如果不是常规浏览器格式也不会通过。所以一般情况下我们都是复制浏览器里面的浏览器 也是可以的。但你会发现中文有乱码,这里可以看到它的编码是 g b 幺八零三零。既然 request 字没有自动识别,说明响应头里面肯定没有写编码方式。来看一下, 你会发现 ctrl tab 这里只写了文档类型,并没有写编码方式,所以 request 没有识别,那我们就自己设置编码方式,等于 g b 幺八零三零。现在中文就没有乱码了原码了,到时候我们来提取数据,还是先导入 select, 把原代码传给它, 拿到 selector 对 象,再来看一下题目,它要的是上映时间,最近的评价数,那我们就要提取每部电影的上映时间和评价数来看圆满。 这里再强调一下,元素界面只能作为参考,即便是静态网页,它的结构也可能被 gs 修改过, 所以我们最好还是看它的源代码,但这个代码被压缩过,不太好看。这种情况我们可以来看开发者工具里的源代码,找到 excel 文件,默认也是压缩过的。左下角有一个美观输出的按钮,可以一键格式化代码。现在成绩结构就很清楚了,它这里面年份对应的元素 内名是 movie details, 我 们先把它找出来, select 点 css, 用内选择器选中它,接着选中它里面的文本,这就拿到了所有的年份数据, 但这里面还有多余的文字,只有前四个字母是年份数字,所以还要切片。我们可以用列表生成式便利 er 对 每一个 er 切前四个字母,再转成 int, 没问题吧?这里要注意一个问题,如果源代码没有被压缩过,我们拿到的数据可能就会有很多的空白字符。比如我们来访问第二关的页面 编码,先注视一下,直接就报错了,因为前四个字符是杠 n 和空白,转不了。整形来看一下原本的数据, 前后都有一段空白,这种情况就要先对一二去除两边的空白字符,然后再切片,这样就没问题了。 如果这个代码你不理解的话,可以去看一下拍摄基础片里面对于列表生成式以及支付串方法都有详细讲解,这里就不解释了。 ok, 我 们还是用第三关的 u、 r、 l 编码,加上也是没问题的。年份拿到了,我们再来拿屏加速, 把它的内屏复制一下,格式是一样的,这里就叫 greetings 来打印看一下。 ok, 同样用列表生成时,切掉最后三个字母, 数据就拿到了。现在有一个问题,我们这里有十部电影,每一部电影都有自己的年份和评价数,但现在我们是分开抓的两组数据,当然我们可以用 zip 拉链函数把它们揉到一起,再转成列表。 虽然简单直接,但有个隐患,如果两份数据的顺序出了问题,或者某一份数据有部分缺失,这个合并的数据 肯定就是错的。所以这种思路是有问题的,应该一部电影一部电影提取,而不是先把每个字段全部抓出来来打开元素界面,用这个箭头随便选中一个电影元素,然后鼠标在代码上滑动,注意看页面上高亮的部分。 当我鼠标停在这个元素上的时候,整条电影数据都会被选中,再往上的话就是全部电影数据了。所以这个 l i 元素在页面上就表示一条电影数据,把它折起来,可以看到一共十部电影,这里就有十个 l i, 内面都是 movie item。 再来看一下源代码 so movie item 也是十个,那我们就先找它 select, 点 c s s, 找到 movies, 这就是所有的 l i 节点,然后便利它把这两行缩进来。 这里的 movie 是 具体的一个电影节点,基于具体的电影节点来选择。一个电影节点里面肯定只有它自己的年份和评价数,所以就不要用 get 二了,用 get 得到它的 year 和 rating 来把它们打印一下,后面这些就不要了, 没问题吧。这里拿到数据之后,我们再去一下两边的空白制服年份,就截取前四个制服评价数就去掉,后三个制服 数据就拿到了,而且不会错乱。因为我们是在每一条电影数据里找自己的数据,可以在前面准备一个列表,用来存所有的数据。这里每拿到一条数据,就用字典的形式组织起来, 然后添加进去一个字典,就是一条电影数据。现在我们只抓取了年份和评价数,如果你需要其他数据,也可以提取出来,比如我再来一个电影名称,这个不是,这是图片占位用的,下面这个位位开头才是远处界面看得更清楚, 就是墓位泰托,来,把它拿到就叫泰托,这里就不用切片钻正形了,它没有多余的内容,把泰托也加进去没问题吧。最后我们把 date 打印出来, 题目的要求是提取年份,最近的电瓶加速,那我们就要用年份来排序。列表提供了一个 sort 方法, 它有一个 key 参数,这个参数决定按什么排序。我们可以用 number 表达式写一个命名函数,它会拿到每一个 item, 用 item 的 年份排序,这是 python 基础课讲过的,不清楚的话可以回看。最后打印一下 date, 它默认是顺序的,最新的年份,在最后可以给它设置第二个参数 reverse 等于 two, 现在就是倒序牌了。最新的年份二零一七寻梦环游记,这是它的评价数,也就是这一关的答案。来提交一下,这一关就完成了。

前面我们都是用 get 请求去拿 excel 源代码,这节课我们来看 post 的 请求,它是往服务器提交数据,然后服务器再返回结果来打开第四关。这是一个翻译网站,我们打开网络面板,如果这里有请求设置,可以点这个按钮清空, 我们在这里输入 cat, 就 可以拿到翻译结果。当然并不是真的翻译了,这只是模拟翻译,用来练习 post 请求的。翻译的过程中,页面发了一个请求,这是它请求的 url, 请求方式是 post, 其他先不用看。我们点到载荷,这里有一个表达数据, k w 等于 cat, 也可以看它原本的格式,这个 cat 就是我们输入的需要翻译的内容。注意,这里和 get 请求不同,参数并没有直接放到幺二 l 里。回想一下之前翻译的例子,参数是用问号拼到了幺二 l 后面,比如配置等于一,而 post 请求参数一般都在载荷里。在登录场景下,如果参数放到幺二 l 里,账号和密码就会直接暴露到屏幕上, 容易被别人看到,放到这里普通用户一般不会注意到,更安全。然后我们点开响应,格式化一下,就可以看到翻译结果。接下来我们就亲手发一个 post 请求,把 url 拿过来,新建一个六五零四, 导入 request, url 准备好,然后就可以用 request 发 post 请求了。注意, post 请求是有载荷信息的,这里是表达数据。以后我们还会看到其他类型的数据, 它的格式是 kw, 等于翻译的内容,这里我们就用字典的格式来书写, kw 等于 cat。 再给 post 传一个 data 参数等于这个 data 字典一定要注意,只有载客信息是这种表达数据,这个参数才叫 data, 其他类型的数据 参数就不是对它了,到时候我会重点强调。至于这个变量名,你可以随便起,一般我们还是习惯叫对它。当然还有一个 u a 伪装,别忘了这是最基本的反爬手段,大部分网站都会有,所以不管它有没有 u a 胶原,我们都给它加上请求。发出去之后,服务器会返回一个 response 来打印一下响应结果, 翻译结果就拿到了。有没有发现这个格式很像我们的字典?这个叫接生格式,可以来看一下响应头, ctrl type application 表示服务器返回的是接收数据,如果你不清楚什么是接收的话,可以回看接收基础片。 接收本质就是一个逗号串,逗号串本身操作起来并不方便,如果能把它转成发送里的字典就完美了。当然你可以用接收模块来进行反训练化。带 request 提供了更便捷的方法,直接用 response 点一个接收,这样它就变成了一个接收字典。可以按住 command 点进来看一下它的源码, 它其实也是把响应的文本数据用的接闪,反虚拟化的,不信我们搜一下。它是把接闪重命名了,再点进来看,这里看到了吗?也是导的接闪,只不过它做了很多兼容性处理, ok, 把它保存到变量里吧。然后来看它的类型, 就已经是字典了。字典的好处是可以很方便的读取里面的数据,比如我要读这个 data, 直接读就行了, 再读取它里面的内容就很方便。当然这里的翻译内容我们也可以用 input 来输入,更灵活。 ok, 最后我们再来用 post 请求,简单上传一个文件,它这里有一个文档翻译上传,那我就选择一个文件, 然后上传,这里就又发了一个 post 请求,这是请求的 url。 再来看载客,同样是表达数据,字段名是 file, 只是二进字数据,我们来用代码试试看,就基于它来改吧。把 url 换了, k w 换成 file, 它的值。要是一个二进字文件数据,那我们在这里新建一个 test 点, txt 内容随便写。这里就用 open 函数以 r b 模式打开这个文件,对文件操作不熟悉的同学可以回看拍摄基础片。注意了,文件上传这个字典就不是传给 it 了,而要传给 fars。 为什么是复数呢?因为它支持一次上传多个文件。先来跑一下吧, 成功了对吧?当然这个翻译结果也是模拟的,如果要上传多个文件,这里就放字段名和打开的文件,这样就可以一次上传多个文件。 不过文件上传在爬虫里并不常见,了解一下就行了。最后来看一下关卡要求,他说密码在返回的结果里就是这个 ansel 的 字,来提交一下。

哪怕大家都清楚,训练大模型没有训练语料就是没米下锅。哪怕国家确实是在鼓励 ai 发展,但是有几条红线不注意?不管你的项目潜力有多大,后果呢?要么是帽子叔叔上门,要么可能是几百万的赔偿,要么是你的项目融不到钱,项目直接没了。 这条视频越到后面,你不知道的事越多,一定要听完。第一条线,你爬的数据是公开的吗?有没有什么加密保护、身份较严、访问限制这些东西? 因为只要你的动作里有破解和绕过,那就很麻烦。法律不管你拿这些数据干什么,他只看这个动作本身。 我们接触过有一个公司的技术团队爬某个大厂的视频数据,他们就是各种绕,绕过什么身份较验,绕过访问频率的限制,他是把大厂的防抓取加密机制一层一层的给破解掉了,最后一锅端全进去了。 第二条线,你爬的姿势把人家搞崩了没有?这一条很多人忽视,很多人以为争议只是在爬来的数据怎么用,其实不是的,爬的过程本身就有可能出大事。 高频的鞭发请求,不限速的爬虫,无视访问规则的狂扫,直接把人家系统搞瘫了,那就很有可能承担民事甚至刑事的责任。 第三条线,你爬进去的东西原样吐出来了没有?这个是目前全球 ai 侵权范围内最密集的战场,有一个基本共识正在全球范围内形成,那就是输入端相对从宽,输出端严格把控。这什么意思呢? 用别人的数据训练模型,各国法院还在讨论边界还有什么合理使用转化性使用这些抗辩的空间? 但是如果你的模型用户一问,直接把原文或者原图吐出来,这就不是训练数据的问题了,这就是输出端的直接侵权。 我自己代理的全球首例 a i g c 纹身图侵权案就是这个情况。被告平台他输出的奥特曼图片跟奥特曼的原图高度相似或者直接一样,法院就不会因为是 ai 生成的就免责你的模型吐出来什么,你就要为什么东西承担责任。 最后我还要说一个更严重也可能会得罪你的情况。但是我还是要讲假设,我是说假设,我代表被扒的公司来起诉你, 赔偿多少其实是次要的,我会直接向法院提出要求你在模型里剔除我的训练语料。甚至更激进一点,直接要求销毁模型,剔除语料,大家都知道,这在现有的技术条件下是几乎不可能实现的, 唯一能够真正执行剔除的方式就是重新训练销毁模型。不要觉得完全不可能啊。我们之前有个案子要求被告删除 lara 模型,法院是支持的, 而且这个请求最有杀伤力的地方在于,别管法院支不支持这份诉状,如果被你的投资人看到了,可能对项目发展产生重大影响,你的下一轮融资还怎么谈? 所以结论很简单,爬树去做模型可以,但是你得分清楚哪里是禁区,哪里是灰色的地带。禁区一步都不要踏进去。灰色地带踏进去之前先找律师谈过。

ok, 同学们大家好,今天呢我就跟大家讲解一下这个 python 爬虫学习路线。 python 爬虫呢,一直都很火啊,为什么呢?因为重要,你无论是后端方向也好, ai 方向也好,或者说大数据,或者说数据分析,是不是都离不开一个东西啊?数据啊,获取数据容易,你打开一个网页就能获取数据,但是呢,高效的获取数据就不容易了,你想 零点几秒就获取整个网页的数据啊,这个你是做不到的,但是呢,通过爬虫就可以,爬虫的话,他用不了几零点几秒,他用几十毫秒就可以获取整个网页的数据啊。 谈到这个爬虫,大家呢肯定都听说过,但是有没有听说过这个分布式爬虫,就是说在同一时间内放大量的爬虫,有的会放几个或者说是数十个,有的是几百个或者说上千个, 有的甚至是上万啊,有的甚至是几十万个啊,几十万个一点不夸张啊,你像那些搜索运行,百度啊,谷歌那些搜索运行,它们需要大量的数据,这些数据可不是人工去处理的,而是通过爬虫,通过几十万只爬虫去给它们采集数据,然后呢放到它们的搜索引擎上,然后呢用这个 网银使用啊。 ok, 接下来呢,我们就说一下这个各个学习阶段。第一阶段爬虫基础啊,第一个呢就是 http 协议啊, 呃,要掌握的有请求方法,请求头,然后的状态码, assign cookie, h, t, d, b, s 与 s, s, l 和 t l s。 基础啊,把这些东西掌握之后呢,就可以学习爬虫了。对 啊,爬虫的学习节奏是很快的。然后呢第二个呢就是 request 库,这个库呢是一个请求库,它可以模仿这个浏览器去 请求 url 地址,然后呢获取响应,那响应获取之后呢,是不是就开始解析这个响应中的数据了啊?用到的有三个工具,一个二一正在表达是哎,这 beautiful soup, 还有这两个工具哈, 那数据解析出来之后是不是就要开始存储了?存储方式呢?有 json 存储。然后呢,也可以使用 mycircle, 也可以使用这个 mongol db 啊,然后呢,也可以使用这个 list 进行驱虫啊,做这个任务队列和缓存,然后支持一些练习项目啊。 第二节呢,就是动态页面呃,与浏览器自动化啊,就很多的网站哈,它使用 g s 啊,去动态渲染页面,也就说呢,它的数据不是固定在 html 当中啊。第一个呢就是动态渲染原理,它使用的是 阿贾克斯 f i c 一 波请求啊,还有这后面的三个啊,大家呢可以了解一下。然后呢,这个死人代码是浏览器自动化工具,就通过它呢,可以 操纵这个浏览器去完成一些操作啊,你比如说啊,打开页面定位元素啊,点击输入截图啊,还等待机制啊,无头模式啊,浏览器配置等等等等都可以。然后呢,这个 playwrite 啊,它和它啊是类似的,只不过呃,各各有各的特色啊, 浏览器 f 叉查报分析啊,你分析数据的时候你需要查报分析嘛,对吧,这是一些练习项目啊,来看下第三阶段,反拨对抗。什么是反拨对抗?通俗的来说就是 你想爬取人家公司的数据,但人家公司肯定是不想让你爬,对不对?他们呢就会采取些措施不让你去爬,但是呢,你又可以采取些措施就去爬他们的数据啊,这个过程呢,就叫做反爬对抗,这是爬虫工程师的核心竞争力, 常见的反爬手段。来看一下由何以进呢?就是检查你的请求频率啊,是不是像浏览器。然后呢,第二个呢,就是 ip 频率限制在同一时间内啊,如果说你的 ip 请求频率很高,那么他可能就会给你封掉啊。 然后呢,就是这库给操作验证需要先获取合法的库给啊,然后呢,你像这些验证码啊,我们在登录网站的时候,或者说登录 app 的 时候,就会有很多各种各样的验证码,很烦人,对吧? 这些验证码呢,就是跟那些写爬虫的人准备的,因为他们写的爬虫程序啊,去处理这些验证码是比较有困难的。 然后就是 ip 代理池,说白了就是一个池子当中有很多个 ip 地址被封了,然后呢其他的 ip 地址可以顶上,这就是 ip 代理池。 然后验证码处理啊,对,你看你设置验证码,那人家写法龙的就可以给你,呃,有办法处理,有图形验证码, ocr 识别啊,就是图像识别,然后滑块验证码,就 qq 检测加这 轨迹模拟啊,等等等等等等吧,甚至呢,他们还可以找第三方打码平台,就是找人去给他们解决这个验证码啊,把这个验证码呢给他们解决掉啊, 然后浏览器指挥文章啊,这个大家可以了解一下啊,这是练手项目第四阶段 gs 逆向,这是爬虫进阶的分水岭,你的爬虫技术好不好,薪资高不高就取决于这个阶段 啊,这个 gs 呢就是 java script, 对, 没错,就是那个前端语言啊, gs 逆向大致来说就是什么呢?就是通过编辑 gs 代码,然后呢去影响到后台服务器,然后呢获取数据啊,然后呢呃,这是常见的加密算法,大家呢可以了解一下。 然后呢这是 g s 逆向实战流程啊,然后混淆已还原常用工具啊, 呃,还有练习项目,大家呢可以好好看一下。第五阶段呢就是爬虫框架啊,呃,在攀登爬虫当中有一个框架很重要,叫做斯科培框架啊,这框架呢,你在爬虫岗位中可以经常看到这个技术,然后呢斯科培进阶,这些东西啊,大家都可以好好看一下, 这里呢还有些其他的框架,了解一下就行。然后呢第六阶段就是爬虫系统工程化。什么意思?就是将你的爬虫啊,跟这个后端服务器相结合啊,打造完整的爬虫管理平台啊,这个呢就很强了啊啊,这个系统架构呢,大家可以看一下 啊,这是核心功能,然后呢技术要点,然后呢练习项目,然后第七阶段就是 app 爬虫与逆向。什么意思呢?就是爬取软件的数据啊,这个这个呢就是 app 爬虫啊,这里呢也有逆向啊,你像这个抓包工具啊, app 逆向基础啊,还有常见场景啊啊啊,大家呢可以好好看一下,学习资源推荐。有一本书呢,我强烈推荐,那就是崔竞才崔老师写的一本书啊, python 三网络爬虫开发实战,这本书呢非常好啊,强烈建议使用。 然后呢这些是在线资源联系平台学习建议这一块呢,大家一定要好好看一下,尤其是最后一条啊,你采集数据呢,要合法合规,要遵守到的 robox 协议啊,控制请求频率,不采集个人隐私数据,不用于商业侵权啊,这个很重要。