c 抓取网页数据(从新浪微博复制url参数的方法及方法分析方法)

优采云发布时间: 2021-11-01 15:21

　　c抓取网页数据的时候可以从新浪微博复制url参数，方便后续数据挖掘时做出更精准的判断。传统的复制方法一般是某个iframe连接n个页面。新浪上的方法是，微博是提供爬虫接口的，访问时从服务器接一个url的参数，返回的是对应不同iframe对应的页面。

　　因为page=1是新浪首页

　　用类似于curl命令行的方式,提交一下page=1

　　因为微博数据主要就是传来传去的，

　　因为数据结构有变化。前两天听到个数据库优化，里面讲到hash处理对性能影响比较大。

　　返回参数也是要负责抓取时传递的，是跟前端开发有关系的，就算从新浪首页抓，也是从新浪微博抓，

　　看上去是爬虫抓取，但是只抓取首页，因为新浪有api接口，可以抓取page=1之后所有页面。首页的url也是参数变化，不仅是微博id，

　　因为他有api接口啊！api接口就是新浪的给个token你们就可以抓的这个表示你的useragent机密性抓包分析一下就可以分析出来了

　　把我按他的标准放入微博app。抓不抓取再说。

　　就是伪代码

　　我觉得有两个原因：1、因为有api接口，就是api获取文件名也会传递给抓取，而且部分字段没有公开，根据数据量来采集一下，这个是正常的。2、数据量大的应该是api接口不开放的话，如果没有api接口的话，我在传递参数的时候也是从自己网站抓取，就是保留api接口名和id。

0

2021-11-01

c 抓取网页数据

0 个评论

要回复文章请先登录或注册