java爬虫抓取网页数据(百度首页做了个小测试，小伙伴们可算松了口气)

优采云发布时间: 2021-11-14 14:12

　　在上一篇文章中，我们在百度首页做了一个小测试。今天，我们有一个复杂的。我们会直接抓取知乎的编辑推荐的内容。小伙伴们也算是松了口气，终于到了正题。哈哈。

　　知乎是一个真正的在线问答社区，社区氛围友好、理性、严肃，连接各界精英。他们分享彼此的专业知识、经验和见解，为中国互联网提供源源不断的优质信息。

　　首先，花三到五分钟设计一个 Logo=。=作为程序员，我一直有一颗做艺术家的心！

　　好吧，这有点即兴，所以让我们先凑合一下。

　　接下来，我们开始为知乎做一个爬虫。

　　首先确定第一个目标：编辑推荐。

　　网页链接：

　　我们对最后的代码稍作修改，首先实现我们可以获取到这个页面的内容：

　　 import java.io.*;

import java.net.*;

import java.util.regex.*;

public class Main {

static String SendGet(String url) {

// 定义一个字符串用来存储网页内容

String result = "";

// 定义一个缓冲字符输入流

BufferedReader in = null;

try {

// 将string转成url对象

URL realUrl = new URL(url);

// 初始化一个链接到那个url的连接

URLConnection connection = realUrl.openConnection();

// 开始实际的连接

connection.connect();

// 初始化 BufferedReader输入流来读取URL的响应

in = new BufferedReader(new InputStreamReader(

connection.getInputStream()));

// 用来临时存储抓取到的每一行的数据

String line;

while ((line = in.readLine()) != null) {

// 遍历抓取到的每一行并将其存储到result里面

result += line;

}

} catch (Exception e) {

System.out.println("发送GET请求出现异常！" + e);

e.printStackTrace();

}

// 使用finally来关闭输入流

finally {

try {

if (in != null) {

in.close();

}

} catch (Exception e2) {

e2.printStackTrace();

}

return result;

}

static String RegexString(String targetStr, String patternStr) {

// 定义一个样式模板，此中使用正则表达式，括号中是要抓的内容

// 相当于埋好了陷阱匹配的地方就会掉下去

Pattern pattern = Pattern.compile(patternStr);

// 定义一个matcher用来做匹配

Matcher matcher = pattern.matcher(targetStr);

// 如果找到了

if (matcher.find()) {

// 打印出结果

return matcher.group(1);

}

return "Nothing";

}

public static void main(String[] args) {

// 定义即将访问的链接

String url = "http://www.zhihu.com/explore/recommendations";

// 访问链接并获取页面内容

String result = SendGet(url);

// 使用正则匹配图片的src内容

//String imgSrc = RegexString(result, "src=\"(.+?)\"");

// 打印结果

System.out.println(result);

}

　　跑起来没有问题，然后就是正则匹配的问题。

　　首先，让我们了解此页面上的所有问题。

　　右键单击标题并查看元素：

　　啊哈，可以看到标题其实是一个a标签，是一个超链接，能和其他超链接区别开来的应该是class，也就是class选择器。

　　于是我们的正则语句出来了： question_link.+?href=\"(.+?)\"

　　调用 RegexString 函数并将参数传递给它：

<p> public static void main(String[] args) {

// 定义即将访问的链接

String url = "http://www.zhihu.com/explore/recommendations";

// 访问链接并获取页面内容

String result = SendGet(url);

// 使用正则匹配图片的src内容

String imgSrc = RegexString(result, "question_link.+?>(.+?)(.+?)(.+?)

0

2021-11-14

java爬虫抓取网页数据

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

java爬虫抓取网页数据(百度首页做了个小测试，小伙伴们可算松了口气)

0 个评论

发起人