java爬虫抓取网页数据(新浪新闻爬虫:一下接下来的目标页面是爬取问题推荐页面)
优采云 发布时间: 2021-11-20 02:27java爬虫抓取网页数据(新浪新闻爬虫:一下接下来的目标页面是爬取问题推荐页面)
上一篇写了一个简单的新浪新闻爬虫,使用jsoup包在本地抓取url页面,在本地分析提取数据。jsoup的用法这里不再赘述。百度会看大图。看到网上大神们爬取了知乎,今天就用它来试试。写这篇文章的目的主要是记录一下我在爬行中遇到的一些坑以及如何解决。这也是一个加深理解的过程。
抓取的目标页面
2017-12-31_172919.png
目标是抓取问题推荐页面上的所有问题。但是后来我发现了一个问题。第一次抓取这个链接,获取问题列表,但是代码测试的时候,发现只有20条数据。. . 这显然不是我所期望的。我看了下代码,发现代码没有任何问题,那么有什么问题呢?检查了一块和调试模式。原来是页面的问题。因为我忽略了一个重要的点。页面是动态加载的,每次只加载20项。
页面加载.png
问题出在这个地方,里面其实收录了一个地址()。可以通过抓包找到(谷歌的F12确实好用,建议多看)
ajax请求头.png
请求参数.png
返回 json 结果.png
知道问题出在哪里实际上已经完成了一半。谈谈我接下来的想法: