java爬虫抓取网页数据(如何模拟请求和如何解析HTML的链接和标题？(一))

优采云发布时间: 2021-09-09 22:04

　　虽然这已经是很久以前的事了，但题目似乎已经解决了这个问题。但是看到很多答案的方法有点太重了，这里提供一个效率更高，消耗资源更少的方法。由于主题没有指定需要什么，这里的示例采用主页上所有帖子的链接和标题。

　　首先请记住浏览器环境对内存和CPU的消耗非常严重，尽量避免模拟浏览器环境的爬虫代码。请记住，对于一些前端渲染的网页，虽然我们需要的数据在HTML源代码中是看不到的，但更有可能是通过另一个请求（最有可能是JSON格式）得到纯数据。我们不仅不需要模拟浏览器，还可以节省解析HTML的消耗。

<p>接下来，我打开了北京帖子论坛的首页，发现首页的HTML源代码中确实没有文章页面显示的内容。那么，很可能 this 是通过 JS 异步加载到页面的。通过浏览器开发工具（OS X下Chrome浏览器通过command+option+i或者Win/Linux下通过F12）加载首页分析请求，很容易找到，如下图的请求：

0

2021-09-09

java爬虫抓取网页数据

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

java爬虫抓取网页数据(如何模拟请求和如何解析HTML的链接和标题？(一))

0 个评论

发起人