java爬虫抓取网页数据(java开发简单的说的意思访问提取方法 )
优采云 发布时间: 2021-11-14 14:13java爬虫抓取网页数据(java开发简单的说的意思访问提取方法
)
简单的说,爬虫的意思就是根据url访问请求,然后提取返回的数据,获取对你有用的信息。然后我们可以将这些有用的信息保存到数据库或保存到文件中。如果我们手动提取一个访问,会很慢,所以我们需要编写程序来获取有用的信息,这就是爬虫的作用。
一、概念:
网络爬虫也称为网络蜘蛛。如果将 Internet 比作蜘蛛网,那么蜘蛛就是在网上爬行的蜘蛛。网络爬虫根据网页的地址,即 URL 搜索网页。举个简单的例子,我们在浏览器地址栏中输入的字符串就是URL,例如:
URL是Uniform Resource Locator,其一般格式如下(方括号[]是可选的):
协议://主机名[:端口]/路径/[;参数][?查询]#fragment
URL格式由三部分组成:
(1)protocol:第一部分是协议,比如百度使用的是https协议;
(2)hostname[:port]:第二部分为主机名(端口号为可选参数)。一般网站的默认端口号为80。例如host百度的名字是这个是服务器的地址;
(3)path:第三部分是宿主机资源的具体地址,如目录、文件名等。
网络爬虫根据这个 URL 获取网页信息。
二、java开发简单爬虫:1.使用httpclient访问url
行家地址:
commons-httpclient
commons-httpclient
3.1
代码测试:
package cn.qlq.craw.httpClient;
import org.apache.commons.httpclient.HttpClient;
import org.apache.commons.httpclient.methods.PostMethod;
public class HttpClientCraw {
public static void main(String[] a) throws Exception {
HttpClient client = new HttpClient();
PostMethod postMethod = new PostMethod("http://qiaoliqiang.cn/");
// 防止中文乱码
postMethod.getParams().setContentCharset("utf-8");
// 3.设置请求参数
postMethod.setParameter("mobileCode", "13834786998");
postMethod.setParameter("userID", "");
// 4.执行请求 ,结果码
int code = client.executeMethod(postMethod);
// 5. 获取结果
String result = postMethod.getResponseBodyAsString();
System.out.println("Post请求的结果:" + result);
}
}
结果:
Post请求的结果:
XXXXXXXXXXX
..........