java爬虫抓取网页数据(用到抓取网页数据的功能：抓取数据功能详解)

优采云发布时间: 2021-10-09 21:22

　　经常用到抓取网页数据的功能。它已在以前的工作中使用。今天总结了一下：

　　1、通过指定的 URL 抓取网页数据获取页面信息，然后用 DOM 对页面进行 NODE 分析，处理得到原创的 HTML 数据，这样做的好处是可以灵活处理一个某条数据高难点在于分段算法的优化。当页面HTML信息量较大时，算法不好，会影响处理效率。

　　2、htmlparser框架，对于html页面处理的数据结构，HtmlParser采用经典的Composite模式，通过RemarkNode、TextNode、TagNode、AbstractNode、Tag来描述HTML页面的元素。 Htmlparser基本可以满足垂直搜索引擎页面处理分析的需要，映射HTML标签，可以方便的获取标签中的HTMLCODE。

　　Htmlparser官方介绍：htmlparser是一个纯java的html解析库，不依赖其他java库文件，主要用于转换或提取html。可以超高速解析html，不会出错。最新版本的 htmlparser 现在是 2.0。可以毫不夸张地说，htmlparser是目前最好的html解析分析工具。

　　3、nekohtml框架，nekohtml在容错性和性能（包括htmlunit和nekohtml）方面比htmlparser有更好的口碑，nokehtml类似xml解析原理，html标签正确解析为dom 它们对应DOM树中对应的元素进行处理。

　　NekoHTML 官方介绍：NekoHTML 是一个 Java 语言的 HTML 扫描器和标签平衡器，它使程序能够解析 HTML 文档并使用标准的 XML 接口来访问其中的信息。这个解析器可以扫描 HTML 文件并“纠正”作者（人或机器）在编写 HTML 文档过程中经常犯的许多错误。

　　NekoHTML 可以添加缺失的父元素，自动关闭带有结束标签的对应元素，以及不匹配的内联元素标签。 NekoHTML 的开发使用 XercesNativeInterface (XNI)，它是 Xerces2 的基础。

0

2021-10-09

java爬虫抓取网页数据

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

java爬虫抓取网页数据(用到抓取网页数据的功能：抓取数据功能详解)

0 个评论

发起人