java爬虫抓取动态网页( 如何使用Java编写知乎爬虫,小伙伴们可以对比这看下)
优采云 发布时间: 2022-02-18 20:15java爬虫抓取动态网页(
如何使用Java编写知乎爬虫,小伙伴们可以对比这看下)
从零基础开始编写Java知乎爬虫的准备工作
更新时间:2014-11-07 09:48:35 发布者:hebedic
在上一个系列中,我们从易到难介绍了如何使用python编写爬虫。小伙伴们的反应还挺多的。在这个系列中,我们来学习使用Java编写知乎爬虫,小伙伴们可以对比一下。
一开始,我们还是和以前一样。下面说说做爬虫的思路和需要准备的知识。高手请无视。
首先,我们来想一想,想一想该怎么做,列出一个简单的需求。
要求如下:
1.模拟访问知乎官网()
2.下载指定页面内容,包括:今日热、本月热、编辑推荐
3.下载指定类别的所有问答,如:投资、编程、失败科目
4.下载给定受访者的所有回复
5.如果有一个变态的功能,一键点赞就好了(这样我就可以同时喜欢 Leylen 的所有答案。我太聪明了!)
那么需要解决的技术问题简单罗列如下:
1.模拟浏览器访问网页
2.捕获关键数据并保存在本地
3.解决网页浏览中的动态加载问题
4.使用树形结构海量抓取知乎的所有内容
好吧,这就是我目前所想的。
接下来是准备工作。
1.确定爬虫语言:由于之前写过一系列爬虫教程(点这里),*敏*感*词*、尴尬事百科、山东大学的成绩点查询等都是用python写的,所以这次决定用Java来写(哎,根本没有链接,好吧)。
2.科普爬虫知识:Web爬虫,或者Web Spider,是一个很形象的名字。互联网被比作蜘蛛网,那么蜘蛛就是在网上爬行的蜘蛛。网络蜘蛛通过它们的链接地址寻找网页。具体介绍请点击这里。
3.准备爬虫环境:关于Jdk和Eclipse的安装和配置就不多说了。在这里啰嗦一句,一个好的浏览器对于爬虫来说很重要,因为首先你需要自己浏览网页,知道你需要的东西在哪里,然后你才能告诉你的爬虫去哪里,怎么走爬行。个人推荐火狐,或者谷歌浏览器,它们的右键检查元素和查看源代码都很强大。
现在让我们开始正式的爬虫之旅吧!~具体说什么,嗯,这是个问题,让我想想,别着急^_^