抓取网页新闻(客户端页面接入爬虫，需要做两个准备：抓取网页新闻/阅读数据)

优采云发布时间: 2022-02-03 19:02

　　抓取网页新闻/阅读数据，然后自己解析。客户端页面接入爬虫，需要做两个准备：抓取同一客户端程序的不同页面，爬取同一微信账号下的不同微信公众号页面。如果这个工作量不大，可以用开源的工具自己封装一个爬虫，再编写代码就行了。

　　可以尝试python-for-android-review，先帮助网站做测试。

　　先搭一个网站吧，并发量大一点，单点抓取就不用封包了。重复抓取的时候试试丢弃页面。

　　爬虫不用封包，首先，不管爬什么网站，抓包分析是主要的工作。如果你的网站需要抓多条数据，建议看看*敏*感*词*网站的爬虫，

　　requests库里面的requests库封包工具psw爬取工具bottle框架可以使用后者也可以自己封包工具，比如：封包必须是下面三种情况封包被firefox识别为不安全的mozilla、telegram以及dashaure也识别httpsssl的地址地址非法所以封包是需要封网站以上分析我没有相关爬虫的经验，都是大学学的。

　　爬虫封包源码都是md5算法，实际使用没有必要，但用来测试是不错的，对了给自己部署，抓包问题等也是需要改善的。

　　谢邀，暂时还没这么复杂的爬虫系统。我觉得你需要到想抓取数据的站点，用百度搜一下你想抓取的关键词出现在哪里，你就可以就近去那里抓。

0

2022-02-03

抓取网页新闻

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

抓取网页新闻(客户端页面接入爬虫，需要做两个准备：抓取网页新闻/阅读数据)

0 个评论

发起人