python网页数据抓取(python网页数据抓取爬虫专题课-优达学城-python)

优采云发布时间: 2021-12-11 04:03

　　python网页数据抓取爬虫专题课-优达学城-python爱好者社区点击上面链接进入这个网站，就能直接观看了，全是视频，去年十一月的，过时不少，实在无聊，我又看了两遍，发现有些思路挺有意思的，找了些资料，发到了专栏里。我不是专业做这个行业的，只是python在读*敏*感*词*，非科班，直接从最简单的爬虫抓取开始吧。

　　定位先说说自己的定位，预计学习时间两周，只是抓取一些商品销量数据，期待能在某一点入手。同一个页面，可以针对一个选项进行抓取，只要抓取抓到位置就可以，抓取方便，就是花的时间略多。背景一样，但需要进行相应的处理和拆分工作，对比下页面两个定位结果。先点击亚马逊，找到一个页面：我们看到，因为没有登录等其他操作，页面只有一个商品的销量，其他都没有，这里的商品销量，就是指销量。然后我们去不同的网站去抓取销量数据，一下子就抓了各省的销量数据：可以看到，分别抓取到销量最大的2。

　　0、2

　　3、3

　　4、4

　　5、4

　　6、4

　　7、5

　　7、6

　　2、6

　　1、6

　　8、6

　　6、6

　　8、68。这个抓取就有点类似于springmvc抓取框架的方式了，只要获取到网页最后20个元素，然后判断其数量，就能知道到底该抓取哪个位置。毕竟，销量都存在于前十个元素中，那前十个都在哪里呢？我知道，这个问题还是有点难的，那就直接在找几个点，同样是抓取销量前十个数据吧。

　　这个定位比前面的网站稍微差了点，

　　1、

　　3、

　　5、

　　7、

　　9、1

　　0、12，

　　7、9这些数据。比这个稍微好点的是我们还抓取到了自定义地区这个点，其他定位是抓取1到10，但有时候自定义地区不一定就能得到所有的销量数据。那最后一步就是继续从这个点进行延伸和扩展了，我们继续扩展看看：抓取销量前十的省份我又抓取了销量前十的城市：剩下的省份和城市就不是我擅长的范围了，我还会更专注于抓取销量前十的省份。

　　这时候，新的问题来了，继续手工去手动调节每个省份的销量数量，效率太低了，我们还需要手动去分析一下每个城市的销量数量：我能选择不同城市的商品销量数据，那么只要用不同城市，就能同时抓取数据，因为同一个商品是可以存放多个地区的销量数据的，就像下面这个动图这样：拿一个城市的某个商品存放多个地区就行了，其他地区的不要了，实现起来也很简单，就算有一些跨国，我们可以一个城市一个城市来抓，这样就不会丢失销量数据了。

　　我随便抓了一个德国的销量，然后从德国省份，抓取到了全国的销量数据，这样还是比较方便的，实际上跨国抓取数据都是可以这。

0

2021-12-11

python网页数据抓取

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

python网页数据抓取(python网页数据抓取爬虫专题课-优达学城-python)

0 个评论

发起人