java爬虫抓取动态网页( 如何使用Java编写知乎爬虫，小伙伴们可以对比这看下)

优采云发布时间: 2022-02-18 20:15

　　java爬虫抓取动态网页(

如何使用Java编写知乎爬虫，小伙伴们可以对比这看下)

　　从零基础开始编写Java知乎爬虫的准备工作

　　更新时间：2014-11-07 09:48:35 发布者：hebedic

　　在上一个系列中，我们从易到难介绍了如何使用python编写爬虫。小伙伴们的反应还挺多的。在这个系列中，我们来学习使用Java编写知乎爬虫，小伙伴们可以对比一下。

　　一开始，我们还是和以前一样。下面说说做爬虫的思路和需要准备的知识。高手请无视。

　　首先，我们来想一想，想一想该怎么做，列出一个简单的需求。

　　要求如下：

　　1.模拟访问知乎官网()

　　2.下载指定页面内容，包括：今日热、本月热、编辑推荐

　　3.下载指定类别的所有问答，如：投资、编程、失败科目

　　4.下载给定受访者的所有回复

　　5.如果有一个变态的功能，一键点赞就好了（这样我就可以同时喜欢 Leylen 的所有答案。我太聪明了！）

　　那么需要解决的技术问题简单罗列如下：

　　1.模拟浏览器访问网页

　　2.捕获关键数据并保存在本地

　　3.解决网页浏览中的动态加载问题

　　4.使用树形结构海量抓取知乎的所有内容

　　好吧，这就是我目前所想的。

　　接下来是准备工作。

　　1.确定爬虫语言：由于之前写过一系列爬虫教程（点这里），*敏*感*词*、尴尬事百科、山东大学的成绩点查询等都是用python写的，所以这次决定用Java来写（哎，根本没有链接，好吧）。

　　2.科普爬虫知识：Web爬虫，或者Web Spider，是一个很形象的名字。互联网被比作蜘蛛网，那么蜘蛛就是在网上爬行的蜘蛛。网络蜘蛛通过它们的链接地址寻找网页。具体介绍请点击这里。

　　3.准备爬虫环境：关于Jdk和Eclipse的安装和配置就不多说了。在这里啰嗦一句，一个好的浏览器对于爬虫来说很重要，因为首先你需要自己浏览网页，知道你需要的东西在哪里，然后你才能告诉你的爬虫去哪里，怎么走爬行。个人推荐火狐，或者谷歌浏览器，它们的右键检查元素和查看源代码都很强大。

　　现在让我们开始正式的爬虫之旅吧！~具体说什么，嗯，这是个问题，让我想想，别着急^_^

0

2022-02-18

java爬虫抓取动态网页

0 个评论

要回复文章请先登录或注册