粉丝10.7万获赞252.4万

大家好,上一次我们讲解了如何爬取东方财富网站上面的上市公司的核心财务数据, 今天我们讲解一下如何爬取新浪财经网站上面的上市公司的三张完整的财务报表数据。那么我们现在开始 爬城的第一步,仍然是进入我们的目标网页啊,我们今天是新浪财经网点开进去, 好慢慢等他加载出来,那么这个呢,就是新浪财经的主页,我们在这个 搜索框里面啊,随便输入一支啊,股票代码啊,股票作为我们的势力, 我这里输入一下五粮液,稍微等待加载一下, 那么我们往下翻,翻到 供财务数据这里,这里面呢就有我们需要的报表啊,很明显三张报表,资产负债表,利润表,然后现金流量表,我们点开,随便点开一个负债表进去, 那么我们就可以看到这个报表数据了,然后这里呢他是没有分年度的,那么我们选中一下,选中一个完整的年度,比如说二零一八年, 那么很明显就是四猎这个一级豹,半年豹,三级豹,然后十二月就是年豹啊, 注意我们这个数据的顺序啊。那么我们再回过头来看这个网页的这个格式, 我们从前往后看,前面都应该是没什么,没什么特别,那么我们看这个,这个很明显 是五粮液的股票代码,然后再往后这里有一个二零一八,所以我们本能的看过来呢,就发现至少发现了两个参数,对吧?一个是财报的年度,一个是股票的代码,那么我们再点开利润表看一下, 利润表很明显了啊,我们也点一下二零一八,明显啊,格式都是一样的,这些字段肯定是不一样,每个报表的这个科目是不一样的,然后呢,这里也是二零一八,这里还是 股票代码,对吧?我们基本可以锁定,这里至少有两个边量,我们继续点开进入流量表,那我们也可以看 数据是不是全的啊,我们也点一下二零一八,嗯,这里同样也出来了啊,这里也是四个完整季度的,这里是 财务科目,那么这里我们还有一个最重要的变量,就是报表的类型, 他是怎么区分的呢?啊?我们这样看可能不直观,我们复制两个链接出来看一下,那我们已经复制出来了,大家看这里 啊,前面很明显是不是一样的,那么到这里就有区别了, vs d 开始 pro, 然后 vs d plafesdamt, 那么钱上面呢是现金流量表,下面是利润表,那么资产负债表,那肯定也是这个阶段了,对吧?我们就可以由此推, 我们反过来看一下,这个是资产负债表 vst 八 axxxx, 对吧?所以说我们 要爬这个网页的数据,我们要需要啊,或者说爬这个网页上的,嗯,不同的股票代码,在不同年度的,不同的这种财务报告啊,我们需要三个字段,对不对? 这个我们已经总结出来了,然后还有一个关键的问题,是呢,之前我们爬数据的时候是通过分析网页,对不对?我们要打开 f 十二, 然后呢再刷新,对吧?刷新完了呢,我们在这个内沃克这个下面的这个请求里面呢,找 那个后台啊,他请求那个数据的这样一个链接,那么这个网站呢?通过我之前的分析, 我发现呢,他的结果跟历史上或者跟天天基金网的那个处理结构是不一样的,天天基金网很明显他是通过这个叫哎操, xs 二啊,这个,这个是一个网页技术啊,他通过这个技术的方式 把数据存在服务器,然后我们通过接口的形式去获取他那么心脏财经不一样,他是直接把数据 全部展现在这个网页上面啊,而且只有这种方式,那么我们呢要爬取这个数据,只能从这个网页的 原始脚本中去截取出来,就是在哪里,就在 ams 里面,就这个,这个是 这个是新浪财经网页的所有的这个数据的源代码,大家我们看一下,这个数据就在这里,他其实都在原网页里面,所以我们要从原网页获取这个数据,那么怎么办?我们用到一个啊,非常强大的这样一个 那个截取函数吧,截取数据的函数吧,啊叫 x, 这是非常实用的,那么我们呢,既然 这个网页已经分析完了,对吧?我们给网页提供三个参数,然后呢分别去请求他,请求他之后呢,我们把这个原网页的代码下载下来 来,然后呢通过 xps 去提取我们想要的数据,然后再把它存储到数据库啊,这就完成了我们这个爬虫的工作。下面呢我们来看我们的完整脚本 这个项目,仍然我们是用 spapp 爬成,对吧?啊?第一个因 posplap 下面呢是这个是我们写的一些 自定义的程序包,这个是连接卖缩口的这样一个客户端啊,我自定义的,然后这个不用说了, cpl 启动爬程的,这个呢很关键,我们说 cplussgrpsplus 啊,这个呢干什么用的?历史上讲过他是要加载这个网页上的 j s, 我们今天还是要用到这个 spa s, 因为这个新浪财经上也是有 gs 需要加载的,如果没有加载 gs 的话,就是说我们现在是在浏览器前端才打开的,如果没有用 gs 加载的话呢,我们打开这个网页的时候,这个数据全部都是隐藏的,所以说呢,我们要通过撕不拉屎快速 啊,打开网页的时候,首先将网页的 gs 加载出来,然后这个都是啊系统的这个包的函数,这个呢皮外蒙狗啊,我们今天用到的数据库是 py 芒果 db 的这个啊,芒果 db 的数据库下面呢,我们就不用说了,这个是啊,不是很重要。 然后我们接着顺着脚腕往下讲,这个我自定义的多口函数,就是我们在用到四 plus 的时候呢,四 plus 是基于多口的,就是我们要首先安装多口,那么这个是又是一个另外一个知识,那么我今天不讲 啊,大家自己有兴趣可以去百度搜索一下,这个是多可的三种操作,启动,停止,然后这个是重启,而且启动多可呢,我们要通过这个一个,我们通过这样一个命令行的方式, 那么啊,这个是啊,我们我用的是零点四系统啊,所以呢,这个是零点四的写法,如果大家用 windows 的话,那有 windows 的写法啊,大家这个都比较简单,可以自己去百度搜索一下就很清楚了 啊,我们输入这个可慢, sofeelcostart 啊,他就启动了啊,然后传入我们的这个一个管理员的密码,啊,还有这个下面这个脚本啊,写进去这是三种操作。



在刚刚过去的六幺八年终购物节中,居然之家董事长汪林鹏携手演员景甜直播带货。是 的,居然之家全国门店销售额突破七十九亿元。然而,亮眼的数据背后,居然之家对赌压力攀升。二零一九年底,居然之家董事长汪林鹏等承诺,二零一九年至二零二一年的扣费净利润分别不低于二十点六亿元、二十四点一六亿元、二十七点一九亿元。 实际上,二零二零年居然之家扣费后净利润为十二点九八亿元,与承诺业绩相差甚远。居然之家成立于一九九九年,是一家以家具为主业,大消费为平台的大型商业连锁集团。二零 一九年底,居然之家借可武汉中商实现上市,然而上市至今,公司股价下跌,市值蒸发超过两百亿元。与此同时,居然之家还因 二零二零年未完成业绩承诺,面临对赌压力。居然之家财报显示,二零二零年,公司实现营业收入八十九点九三亿元,同 同比下降约二个百分点。净利润则同比下降百分之五十六点八一,为十三点六三亿元。六月十四号,居然之家发布公告称, 对业绩承诺事项进行调整,将业绩承诺期延后一年至二零二二年。居然之家对中国新闻周刊表示,直播已经成为公司获取前端流量的重要抓手。 未来,居然之家新零售将不断强化线上电商运营、直播营销、新媒体传播等运营矩阵和线下卖场全域渠道整合能力,让 居然之家和品牌的合作突破原有卖场合作边界。居然之家称,获取线上流量只是居然之家布局线上的目的之一,融合线上优势和线下体验的线下 电商时代已正式开启。居然之家正在运用线上流量反补线下市场,抢占线下电商新机遇,引领家居行业数字化转型。但成效如何还有待时间检验。更多精彩内容就在新浪财经客户端。


呃,大家好啊,今天那个做了一个那个抓取新浪分时的工具, 这个工具呢最主要的用途呢是抓取新浪那个实时的走势图啊,提供给 t 加零的策略使用。 齐家岭这块呢,以前呢,我一直是用东方财富的接口啊,最近爬东方财富数据的人可能是太多了,东方财富就把这块的接口给停了。 嗯,这个演示之前呢,先给大家解释解释啊,就是这块呢,为啥要自己费劲 动手写这个工具。现在呢大多数的量化平台呢,提供的呢是一分钟的 k 显数据,对于 t 加零这块呢,显然是太慢了 啊,就是挺著名的那个拍森的量化库啊,呃,十个人讲量化,九个人都会说到这个库啊,他那个他的实时数据呢? 呃,他这个实时数据中间呢没有那个均价这个数值,这这个数据 啊,均价这个数据的是挺重要的,均价这个数据就是咱们啊股票软件当中那个分时走势途中那个黄线啊, t 加零的。那 很多策略呢,都是需要这个值呢作为基础因子,我在网上呢也找了很多接口,看了不少教程啊,大多数的教程呢都是停留在抓抓 k 线的水平啊,对于这个 t 加零呢也没什么帮助, 所以呢我就自己动手写了这个工具,把新浪那个实时走势图上的所有数据全都爬下来了,方便以后再做其他策略的时候呢再用吧。 呃,我前两天在平台上呢也看到一个啊,类似于求助的一个视频吧,就是平台上的一个大号啊,他做做那个量量化教学这块,然后呢他就是遇到这个抓新浪的时速 实时数据这块啊,他就没搞定,当时呢,我是想把这块啊,不知道通过什么方式啊,把把这块分享给他,这一直也没联系上啊,今天就给他拍成视频吧,拍成视频发出来大家看一看啊,分享给大家吧。 好,咱们那个现在上代码。好啊,这只是代码部分,来,我先把这个这个小工具打开,因为爬的数据比较多吧,一块一块给大家,对,这块啊, 这是新浪的分时走势图啊,新浪网站的 啊,现在就已经获取到了。咱们先对一下盘口这块的,先看看这个尾笔啊, 实时的啊,各位啊,上面这变了,然后下面这啊同步的,他两个看 这个买二啊,买二,大家可能我估计你们的屏幕上看着会小一点,就是仔细瞅一瞅吧, 就我鼠标的位置,大家对一下,这是盘口的实时数据,然后是主笔成交的, 哎,这切到大单里面了, 我给他切回去啊, 二十八首卖出,二十四首买入,十二点六,八, 十二点六七两百啊,这比较快啊,所以大家就是我说肯定是跟不上了,大家就是用眼睛看一看这个第一笔吧,他是同步的 八五五三,这是三买入,四十一手买入啊。然后呢,再 对一下上面这块的数据啊,是那个我我觉得那个挺著名的 python 的库,可能就是爬的它上面这一块的数据,我对了一下子啊,很多地方挺像的, 看看啊,主要这两个就是这个价格和涨幅,这个他是老来回变的,这两个就能看出来他是不是同步的状态,看顶上变了,还有这个时间,时间这块 啊,这五十七,现在咱们爬到的也是五十七,现在三十, 这个开盘呢,最高什么的,这个是不总变的 成交 量,对,成交量这个也是经常变的,所以这个这些东西他都能检验你爬的东西是不是实时的 啊,大家就看一眼。行了啊, 成交量,这是成交量啊,数据比较多, 一百七十五万点,四七万首,四八万首,对镇福换首率, 试镜率,试营率,基本他有的,咱们就都能拿下来。好,现在就是最主要的啊,这个限价和均价,这个就是 t 加零的时候用的最多的了, 因为有的时候涉及到哈跟那个均价背离啊,上背离下背离,这都是 t 加零策略常用的,你得出这两个值来,你才能计算他俩这个背离率。 没有这个均价吧,你就没法计算他那个倍利率, 你就确定不了买买点和卖点 啊。给大家看一下代码啊, 还是那句话,咱们做那个量化这块呢?量化编程这块呢?呃,代码量不是太大啊,这个就是网址,这个就是直接网址 复制下来就行, 剩下的下面那块都是啊,你以后需要连那个自动化交易什么的 rent 加零嘛,你肯定是要连自动化交易的,自动化交易在 t 加零这块, 呃,是最常用的吧,就是程序化交易是最有用武之地的,这就是获取新浪的这个页面的原码, 大量的正则表达。是这个就是有点难度了啊,因为他这个源码里面的东西比较多, 需要分析的项目也比较多,所以是大量的整则表达式。这块呢,也没法给大家细讲啊,不是几分钟能讲明白的, 但是肯定是能搞定新浪这个实时数据的啊,不是搞不定的,是可以搞定,只是 是很多人用的方法不对, 这块就是这块,就是我需要的那个啊,其实我就需要一个那个均价好代码就到这。