python网页数据抓取(python网页数据抓取爬虫专题课-优达学城-python)

优采云 发布时间: 2021-12-11 04:03

  python网页数据抓取(python网页数据抓取爬虫专题课-优达学城-python)

  python网页数据抓取爬虫专题课-优达学城-python爱好者社区点击上面链接进入这个网站,就能直接观看了,全是视频,去年十一月的,过时不少,实在无聊,我又看了两遍,发现有些思路挺有意思的,找了些资料,发到了专栏里。我不是专业做这个行业的,只是python在读*敏*感*词*,非科班,直接从最简单的爬虫抓取开始吧。

  定位先说说自己的定位,预计学习时间两周,只是抓取一些商品销量数据,期待能在某一点入手。同一个页面,可以针对一个选项进行抓取,只要抓取抓到位置就可以,抓取方便,就是花的时间略多。背景一样,但需要进行相应的处理和拆分工作,对比下页面两个定位结果。先点击亚马逊,找到一个页面:我们看到,因为没有登录等其他操作,页面只有一个商品的销量,其他都没有,这里的商品销量,就是指销量。然后我们去不同的网站去抓取销量数据,一下子就抓了各省的销量数据:可以看到,分别抓取到销量最大的2。

  0、2

  3、3

  4、4

  5、4

  6、4

  7、5

  7、6

  2、6

  1、6

  8、6

  6、6

  8、68。这个抓取就有点类似于springmvc抓取框架的方式了,只要获取到网页最后20个元素,然后判断其数量,就能知道到底该抓取哪个位置。毕竟,销量都存在于前十个元素中,那前十个都在哪里呢?我知道,这个问题还是有点难的,那就直接在找几个点,同样是抓取销量前十个数据吧。

  这个定位比前面的网站稍微差了点,

  1、

  3、

  5、

  7、

  9、1

  0、12,

  7、9这些数据。比这个稍微好点的是我们还抓取到了自定义地区这个点,其他定位是抓取1到10,但有时候自定义地区不一定就能得到所有的销量数据。那最后一步就是继续从这个点进行延伸和扩展了,我们继续扩展看看:抓取销量前十的省份我又抓取了销量前十的城市:剩下的省份和城市就不是我擅长的范围了,我还会更专注于抓取销量前十的省份。

  这时候,新的问题来了,继续手工去手动调节每个省份的销量数量,效率太低了,我们还需要手动去分析一下每个城市的销量数量:我能选择不同城市的商品销量数据,那么只要用不同城市,就能同时抓取数据,因为同一个商品是可以存放多个地区的销量数据的,就像下面这个动图这样:拿一个城市的某个商品存放多个地区就行了,其他地区的不要了,实现起来也很简单,就算有一些跨国,我们可以一个城市一个城市来抓,这样就不会丢失销量数据了。

  我随便抓了一个德国的销量,然后从德国省份,抓取到了全国的销量数据,这样还是比较方便的,实际上跨国抓取数据都是可以这。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线