java爬虫抓取网页数据(java开发简单的说的意思访问提取方法 )

优采云 发布时间: 2021-11-14 14:13

  java爬虫抓取网页数据(java开发简单的说的意思访问提取方法

)

  简单的说,爬虫的意思就是根据url访问请求,然后提取返回的数据,获取对你有用的信息。然后我们可以将这些有用的信息保存到数据库或保存到文件中。如果我们手动提取一个访问,会很慢,所以我们需要编写程序来获取有用的信息,这就是爬虫的作用。

  一、概念:

  网络爬虫也称为网络蜘蛛。如果将 Internet 比作蜘蛛网,那么蜘蛛就是在网上爬行的蜘蛛。网络爬虫根据网页的地址,即 URL 搜索网页。举个简单的例子,我们在浏览器地址栏中输入的字符串就是URL,例如:

  URL是Uniform Resource Locator,其一般格式如下(方括号[]是可选的):

  协议://主机名[:端口]/路径/[;参数][?查询]#fragment

  URL格式由三部分组成:

  (1)protocol:第一部分是协议,比如百度使用的是https协议;

  (2)hostname[:port]:第二部分为主机名(端口号为可选参数)。一般网站的默认端口号为80。例如host百度的名字是这个是服务器的地址;

  (3)path:第三部分是宿主机资源的具体地址,如目录、文件名等。

  网络爬虫根据这个 URL 获取网页信息。

  二、java开发简单爬虫:1.使用httpclient访问url

  行家地址:

  

commons-httpclient

commons-httpclient

3.1

  代码测试:

  package cn.qlq.craw.httpClient;

import org.apache.commons.httpclient.HttpClient;

import org.apache.commons.httpclient.methods.PostMethod;

public class HttpClientCraw {

public static void main(String[] a) throws Exception {

HttpClient client = new HttpClient();

PostMethod postMethod = new PostMethod("http://qiaoliqiang.cn/");

// 防止中文乱码

postMethod.getParams().setContentCharset("utf-8");

// 3.设置请求参数

postMethod.setParameter("mobileCode", "13834786998");

postMethod.setParameter("userID", "");

// 4.执行请求 ,结果码

int code = client.executeMethod(postMethod);

// 5. 获取结果

String result = postMethod.getResponseBodyAsString();

System.out.println("Post请求的结果:" + result);

}

}

  结果:

  Post请求的结果:

XXXXXXXXXXX

..........

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线