java爬虫抓取网页数据(百度首页做了个小测试,小伙伴们可算松了口气)
优采云 发布时间: 2021-11-14 14:12java爬虫抓取网页数据(百度首页做了个小测试,小伙伴们可算松了口气)
在上一篇文章中,我们在百度首页做了一个小测试。今天,我们有一个复杂的。我们会直接抓取知乎的编辑推荐的内容。小伙伴们也算是松了口气,终于到了正题。哈哈。
知乎是一个真正的在线问答社区,社区氛围友好、理性、严肃,连接各界精英。他们分享彼此的专业知识、经验和见解,为中国互联网提供源源不断的优质信息。
首先,花三到五分钟设计一个 Logo=。=作为程序员,我一直有一颗做艺术家的心!
好吧,这有点即兴,所以让我们先凑合一下。
接下来,我们开始为知乎做一个爬虫。
首先确定第一个目标:编辑推荐。
网页链接:
我们对最后的代码稍作修改,首先实现我们可以获取到这个页面的内容:
import java.io.*;
import java.net.*;
import java.util.regex.*;
public class Main {
static String SendGet(String url) {
// 定义一个字符串用来存储网页内容
String result = "";
// 定义一个缓冲字符输入流
BufferedReader in = null;
try {
// 将string转成url对象
URL realUrl = new URL(url);
// 初始化一个链接到那个url的连接
URLConnection connection = realUrl.openConnection();
// 开始实际的连接
connection.connect();
// 初始化 BufferedReader输入流来读取URL的响应
in = new BufferedReader(new InputStreamReader(
connection.getInputStream()));
// 用来临时存储抓取到的每一行的数据
String line;
while ((line = in.readLine()) != null) {
// 遍历抓取到的每一行并将其存储到result里面
result += line;
}
} catch (Exception e) {
System.out.println("发送GET请求出现异常!" + e);
e.printStackTrace();
}
// 使用finally来关闭输入流
finally {
try {
if (in != null) {
in.close();
}
} catch (Exception e2) {
e2.printStackTrace();
}
}
return result;
}
static String RegexString(String targetStr, String patternStr) {
// 定义一个样式模板,此中使用正则表达式,括号中是要抓的内容
// 相当于埋好了陷阱匹配的地方就会掉下去
Pattern pattern = Pattern.compile(patternStr);
// 定义一个matcher用来做匹配
Matcher matcher = pattern.matcher(targetStr);
// 如果找到了
if (matcher.find()) {
// 打印出结果
return matcher.group(1);
}
return "Nothing";
}
public static void main(String[] args) {
// 定义即将访问的链接
String url = "http://www.zhihu.com/explore/recommendations";
// 访问链接并获取页面内容
String result = SendGet(url);
// 使用正则匹配图片的src内容
//String imgSrc = RegexString(result, "src=\"(.+?)\"");
// 打印结果
System.out.println(result);
}
}
跑起来没有问题,然后就是正则匹配的问题。
首先,让我们了解此页面上的所有问题。
右键单击标题并查看元素:
啊哈,可以看到标题其实是一个a标签,是一个超链接,能和其他超链接区别开来的应该是class,也就是class选择器。
于是我们的正则语句出来了: question_link.+?href=\"(.+?)\"
调用 RegexString 函数并将参数传递给它:
<p> public static void main(String[] args) {
// 定义即将访问的链接
String url = "http://www.zhihu.com/explore/recommendations";
// 访问链接并获取页面内容
String result = SendGet(url);
// 使用正则匹配图片的src内容
String imgSrc = RegexString(result, "question_link.+?>(.+?)(.+?)(.+?)