java爬虫抓取网页数据(java开发简单的说的意思访问提取方法 )

优采云发布时间: 2021-11-14 14:13

　　java爬虫抓取网页数据(java开发简单的说的意思访问提取方法

)

　　简单的说，爬虫的意思就是根据url访问请求，然后提取返回的数据，获取对你有用的信息。然后我们可以将这些有用的信息保存到数据库或保存到文件中。如果我们手动提取一个访问，会很慢，所以我们需要编写程序来获取有用的信息，这就是爬虫的作用。

　　一、概念：

　　网络爬虫也称为网络蜘蛛。如果将 Internet 比作蜘蛛网，那么蜘蛛就是在网上爬行的蜘蛛。网络爬虫根据网页的地址，即 URL 搜索网页。举个简单的例子，我们在浏览器地址栏中输入的字符串就是URL，例如：

　　URL是Uniform Resource Locator，其一般格式如下（方括号[]是可选的）：

　　协议://主机名[:端口]/路径/[;参数][?查询]#fragment

　　URL格式由三部分组成：

　　（1)protocol：第一部分是协议，比如百度使用的是https协议；

　　（2)hostname[:port]：第二部分为主机名（端口号为可选参数）。一般网站的默认端口号为80。例如host百度的名字是这个是服务器的地址；

　　（3)path：第三部分是宿主机资源的具体地址，如目录、文件名等。

　　网络爬虫根据这个 URL 获取网页信息。

　　二、java开发简单爬虫：1.使用httpclient访问url

　　行家地址：

commons-httpclient

3.1

　　代码测试：

　　package cn.qlq.craw.httpClient;

import org.apache.commons.httpclient.HttpClient;

import org.apache.commons.httpclient.methods.PostMethod;

public class HttpClientCraw {

public static void main(String[] a) throws Exception {

HttpClient client = new HttpClient();

PostMethod postMethod = new PostMethod("http://qiaoliqiang.cn/");

// 防止中文乱码

postMethod.getParams().setContentCharset("utf-8");

// 3.设置请求参数

postMethod.setParameter("mobileCode", "13834786998");

postMethod.setParameter("userID", "");

// 4.执行请求 ,结果码

int code = client.executeMethod(postMethod);

// 5. 获取结果

String result = postMethod.getResponseBodyAsString();

System.out.println("Post请求的结果：" + result);

}

　　结果：

　　Post请求的结果：

XXXXXXXXXXX

..........

0

2021-11-14

java爬虫抓取网页数据

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

java爬虫抓取网页数据(java开发简单的说的意思访问提取方法 )

0 个评论

发起人

AI时代内容工厂

java爬虫抓取网页数据(java开发简单的说的意思访问提取方法 )

0 个评论

发起人

相关问题