java爬虫抓取网页数据(如何模拟请求和如何解析HTML的链接和标题?(一))

优采云 发布时间: 2021-09-09 22:04

  java爬虫抓取网页数据(如何模拟请求和如何解析HTML的链接和标题?(一))

  虽然这已经是很久以前的事了,但题目似乎已经解决了这个问题。但是看到很多答案的方法有点太重了,这里提供一个效率更高,消耗资源更少的方法。由于主题没有指定需要什么,这里的示例采用主页上所有帖子的链接和标题。

  首先请记住浏览器环境对内存和CPU的消耗非常严重,尽量避免模拟浏览器环境的爬虫代码。请记住,对于一些前端渲染的网页,虽然我们需要的数据在HTML源代码中是看不到的,但更有可能是通过另一个请求(最有可能是JSON格式)得到纯数据。我们不仅不需要模拟浏览器,还可以节省解析HTML的消耗。

<p>接下来,我打开了北京帖子论坛的首页,发现首页的HTML源代码中确实没有文章页面显示的内容。那么,很可能 this 是通过 JS 异步加载到页面的。通过浏览器开发工具(OS X下Chrome浏览器通过command+option+i或者Win/Linux下通过F12)加载首页分析请求,很容易找到,如下图的请求:

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线