源自Python即时网络爬虫GitHub源7,文档修改历史

优采云 发布时间: 2021-05-13 21:06

  源自Python即时网络爬虫GitHub源7,文档修改历史

  1,简介

  本文介绍了如何使用GooSeeker API接口下载Java和JavaScript中的内容提取器。这是一个示例程序。什么是内容提取器?为什么要使用这种方法?源自Python即时Web爬网程序开源项目:通过生成内容提取程序,它极大地节省了程序员的时间。有关详细信息,请参阅“内容提取器的定义”。

  2,使用Java下载内容提取器

  这是一系列示例程序之一。从当前编程语言开发的角度来看,Java提取Web内容是不合适的。除了语言不够灵活和方便之外,整个生态系统还不够活跃,可选库的增长也很慢。另外,要从JavaScript动态网页提取内容,Java也很不方便,并且需要JavaScript引擎。使用JavaScript下载内容提取器可以直接跳至第3部分的内容。

  具体实现

  评论:

  源代码如下:

   public static void main(String[] args)

{

InputStream xslt = null;

try

{

String grabUrl = "http://m.58.com/cs/qiuzu/22613961050143x.shtml"; // 抓取网址

String resultPath = "F:/temp/xslt/result.xml"; // 抓取结果文件的存放路径

// 通过GooSeeker API接口获得xslt

xslt = getGsExtractor();

// 抓取网页内容转换结果文件

convertXml(grabUrl, xslt, resultPath);

} catch (Exception e)

{

e.printStackTrace();

} finally

{

try

{

if (xslt != null)

xslt.close();

} catch (IOException e)

{

e.printStackTrace();

}

}

}

/**

* @description dom转换

*/

public static void convertXml(String grabUrl, InputStream xslt, String resultPath) throws Exception

{

// 这里的doc对象指的是jsoup里的Document对象

org.jsoup.nodes.Document doc = Jsoup.parse(new URL(grabUrl).openStream(), "UTF-8", grabUrl);

W3CDom w3cDom = new W3CDom();

// 这里的w3cDoc对象指的是w3c里的Document对象

org.w3c.dom.Document w3cDoc = w3cDom.fromJsoup(doc);

Source srcSource = new DOMSource(w3cDoc);

TransformerFactory tFactory = TransformerFactory.newInstance();

Transformer transformer = tFactory.newTransformer(new StreamSource(xslt));

transformer.transform(srcSource, new StreamResult(new FileOutputStream(resultPath)));

}

/**

* @description 获取API返回结果

*/

public static InputStream getGsExtractor()

{

// api接口

String apiUrl = "http://www.gooseeker.com/api/getextractor";

// 请求参数

Map params = new HashMap();

params.put("key", "xxx"); // Gooseeker会员中心申请的API KEY

params.put("theme", "xxx"); // 提取器名,就是用MS谋数台定义的规则名

params.put("middle", "xxx"); // 规则编号,如果相同规则名下定义了多个规则,需填写

params.put("bname", "xxx"); // 整理箱名,如果规则含有多个整理箱,需填写

String httpArg = urlparam(params);

apiUrl = apiUrl + "?" + httpArg;

InputStream is = null;

try

{

URL url = new URL(apiUrl);

HttpURLConnection urlCon = (HttpURLConnection) url.openConnection();

urlCon.setRequestMethod("GET");

is = urlCon.getInputStream();

} catch (ProtocolException e)

{

e.printStackTrace();

} catch (IOException e)

{

e.printStackTrace();

}

return is;

}

/**

* @description 请求参数

*/

public static String urlparam(Map data)

{

StringBuilder sb = new StringBuilder();

for (Map.Entry entry : data.entrySet())

{

try

{

sb.append(entry.getKey()).append("=").append(URLEncoder.encode(entry.getValue() + "", "UTF-8")).append("&");

} catch (UnsupportedEncodingException e)

{

e.printStackTrace();

}

}

return sb.toString();

}

  返回的结果如下:

  

  3,使用JavaScript下载内容提取器

  请注意,如果此示例中的JavaScript代码在网页上运行,则由于跨域问题,将无法抓取非网站网页的内容。因此,请在特权的JavaScript引擎上运行,例如浏览器扩展,自行开发的浏览器以及您自己程序中的JavaScript引擎。

  为方便实验,此示例仍在网页上运行。为了避免跨域问题,将保存并修改目标网页,并在其中插入JavaScript。如此多的手动操作仅用于实验,在正式使用时还需要考虑其他方法。

  具体实现

  评论:

  这是源代码:

  返回结果的屏幕截图如下

  

  4,前景

  您还可以使用Python获取指定网页的内容。我觉得Python的语法更加简洁。稍后我们将添加Python语言的示例。有兴趣的朋友可以加入并一起学习。

  5,相关文件

  Python即时网络抓取工具:API描述

  6,GooSeeker开源代码下载源集合

  GooSeeker开源Python网络爬虫GitHub源

  7,文档修改历史记录

  2016-06-20:V 1. 0

  如果有任何疑问,可以或

  

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线