粉丝219获赞1275

本项目将一起学习和了解进入问题中的数据异常的处理算法,下面来看一下我们的实验的要求,要求呢就是根据将心头等 进行异常值的一个检测,根据箱型图进行异常值的检测,根据统计结果进行异常值的检测分析。在这个案例当中呢,我们有一个数据集,将数据集中的样本点呢进行回归预测,已经预测的 y h 的数据呢存储在这个 train t x t 文件中,然后 v 真 y 数据的样本呢存储在 t x t 这里呢,我们要进行异常值的一个预测的, 首先我们指定数据的文件路径,然后进行文件的读取,它的分割符呢是以版型按 t 为,就是 tabo 键那个作为分割进行异常值的分期做出来的相信图可以看出这里的 v 九是原异常值,对这个 v 九呢进行一个剔除,就是完成之后呢,我们再进行一个最大最小值的规划,规划完成之后,查看训练级的数据和 测试级的数据的一个分布情况,并且绘制出所有的特征,他们上面的训练级和测试级的一个分布。得到这个之后呢,我们通过观察这个图可以发现里面的 v 五 v 九, v 十一, v 十七, v 二十二, v 二十啊这几个数据呢可能他的那个,嗯,这几个特征呢,在训练级和测试级上面呢,他的分布是不不太一样的,我们再进行一个 更加集中的一个绘制,可以看到他们呢可能是潜在的一个异常值,这个呢就是异常值的一个检测部分。本次实验呢到此结束。

好,这里我们需要介绍一个开发的工具学习这个网络爬虫呢,首先得有一个浏览器,这里我们就是基于谷歌的浏览器,但是比如其他像火符啊,像 edg 啊,埃及还有病都是可以的。下面通过百度搜索这个演示来打开这个工具。首先打开浏览器之后我们就可以,我们在这里可以打开一个 啊,在这里就可以访问到百度网站,之后我们可以点击右键,然后进入检查, 然后这里就是一个开发的工具,然后这里我们就可以点击他这个是网络翻译过来是网络历史,然后这里我们就可以看到一些各种他的一些资源,我们看他的网络请求,我们这里可以重新来刷新一下这个网址,会发现他其实发送了很多请求,这些请求就是我们向夫妻里让他给我们发送回来的。 我们来看一下,主要是有七列的信息在这里啊,第一列就是一个名称,第二列就是我们这个响应的状态码,然后如果它响应的结果是两两百,像这里它是两百的话,就代表了 我们这次响应,那是一个正常的,没有进行这个阻断啊啥的。如果我们通常遇到的摄影师就是没房的页面信息,然后还有一个请求文档的类型,这里是一个文本的形式,代表我们请求 ctml 文本,然后就是个请求员,然后就是我们接下来从夫妻下载这个文件,下载这个资源,它的大小,像第一个百度的页面,它是有一百一十九 k 啊。第六列就是一个从你发送到请求获取这个响应的总消耗总时间,像第一个百度点 com, 我们消耗了三百九十四毫秒 啊。第七个就是网络请求的可可策划的 pro, 然后我们来点击进去,当我们点击到他的一个请求之后,他会有更多的信息展示出来, 我们可以看一下。首先是最常规的部分,这里是 u i l 它的一个请求的链接,然后就代表后面这个就是请求的方法,是用 get 请求,然后以及它的响应状态码是两百 ok, 代表响应成功历史。然后就是远程服务器的地址和端口, 还有以及最后的一个判别的一个策略,再往下呢就是他的一个请求头和响应头,我们来介绍几个常见的请求头,常见的请求头第一个就是我们请求用于指定请求这个资源,他的一个网络主机和端口号, 我们可以看一下,这里升到六点百度远抗,然后就是我们的用户代,就是他的意思就是我们是用苹果浏览器进行发出的,我们在这里都是看可以看到的,看最后这个用户代理,我们可以看到这个就是我们浏览器的版本号啊,像我们这用的是谷歌幺幺五点零这个版本。 然后就是这个页面跳转处,他这个他的名字也叫防盗链,就是我们从哪一个页面进行跳转到这个三 w 链摆转 com, 然后接下来就是一个 cookie, cookie 就是一个 我们在访问这个软件之后产生的一些历史信息,都会保存在库克里。比如说我们遇到一个需要登录的网站,我们第一次登录之后,他这个登录信息就会被记录下来,就会保存到这个库克里,啊,下次我们再次进入这个网站时,他就不需要再重新进行登,因为有了这个库克的信息,他用来辨别用户进行绘画跟踪,而储存在用户本地的一个数据主要是功能是维持当前的房屋的绘画。

这里呢,我们给了一个文件的路径,就是地盘下我们创建了一个 test 点 txt 的文件,我们想要把这个路径给大家输出。那我们看一下这个运行的结果。大家可以看到啊,就是说 我们想要输出的这个地盘斜杠 t f t, 它中间这个杠 t 被我们识别成了上面所讲的一个制表符,那它中间就会啊空了这么多个格。那我们要如何才能达到我们想的目的,让它输出这个呢? 也就是说在这个反斜杠前再加一个反斜杠,进行一个转移字母,让我们的这个 print 函数呢,读这个字母串的时候就把它识别为斜杠。让我们来看一下下面这个的运行结果。 可以看到他将我们字符串中呃引号中的这个字符串内容全部完成输出,达到了我们想要的效果。

第三个呢就是我们要讲的制表符,他可以控制我们变量之间的一个间隔,我们来运行一下,看一下他加在我们变量的中间,可以看到这个 name 后面加了一个杠 t age 后面加了一个, 运行一下可以看到他能将我们的这个变量之间的间隔控制在一定的范围内, 这里总共就是八个单位,它就可以使我们这个变量之间起到一个对齐的效果。
