java爬虫抓取网页数据(一种网页数据收集日期的原因及解决办法(一))

优采云 发布时间: 2022-01-27 13:15

  java爬虫抓取网页数据(一种网页数据收集日期的原因及解决办法(一))

  列表1.网页抓取

  URLurl=newURL("");

  URLConnectionconn=url.openConnection();

  BufferedReaderreader=newBufferedReader(newInputStreamReader(conn.getInputStream()));

  字符串=空;

  while((line=reader.readLine())!=null)

  document.append(line+"\n");

  使用Java语言的好处是不需要自己去处理底层的连接操作。喜欢或精通Java网络编程的读者,不用上述方法也能实现URL类及相关操作,也是一个很好的练习。

  网页处理

  采集到的单个网页需要以两种不同的方式进行处理。一是将其作为原创数据放入网页库中进行后续处理;另一种是解析后提取URL连接,放入URL池等待对应的网页。采集。

  网页需要以一定的格式保存,以便以后可以批量处理数据。这里是一种存储数据格式,是从北大天网的存储格式简化而来的:

  网页库由多条记录组成,每条记录收录一条网页数据信息,记录存储以便添加;

  一条记录由数据头、数据和空行组成,顺序为:表头+空行+数据+空行;

  头部由几个属性组成,包括:版本号、日期、IP地址、数据长度,以属性名和属性值的方式排列,中间加一个冒号,每个属性占一行;

  数据是网页数据。

  需要注意的是,之所以加上数据采集日期,是因为很多网站的内容是动态变化的,比如一些大型门户网站的首页内容网站,也就是说如果不爬取同日 对于网页数据,很可能会出现数据过期的问题,所以需要添加日期信息来识别。

  URL的提取分为两步。第一步是识别URL,第二步是组织URL。这两个步骤主要是因为一些网站链接使用了相对路径,如果没有排序就会出错。. URL的标识主要是通过正则表达式来匹配的。该过程首先将一个字符串设置为匹配字符串模式,然后在Pattern中编译后使用Matcher类匹配对应的字符串。实现代码如下:

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线