java爬虫抓取网页数据(用到抓取网页数据的功能:抓取数据功能详解)
优采云 发布时间: 2021-10-09 21:22java爬虫抓取网页数据(用到抓取网页数据的功能:抓取数据功能详解)
经常用到抓取网页数据的功能。它已在以前的工作中使用。今天总结了一下:
1、 通过指定的 URL 抓取网页数据获取页面信息,然后用 DOM 对页面进行 NODE 分析,处理得到原创的 HTML 数据,这样做的好处是可以灵活处理一个某条数据高 难点在于分段算法的优化。当页面HTML信息量较大时,算法不好,会影响处理效率。
2、htmlparser框架,对于html页面处理的数据结构,HtmlParser采用经典的Composite模式,通过RemarkNode、TextNode、TagNode、AbstractNode、Tag来描述HTML页面的元素。 Htmlparser基本可以满足垂直搜索引擎页面处理分析的需要,映射HTML标签,可以方便的获取标签中的HTMLCODE。
Htmlparser官方介绍:htmlparser是一个纯java的html解析库,不依赖其他java库文件,主要用于转换或提取html。可以超高速解析html,不会出错。最新版本的 htmlparser 现在是 2.0。可以毫不夸张地说,htmlparser是目前最好的html解析分析工具。
3、nekohtml框架,nekohtml在容错性和性能(包括htmlunit和nekohtml)方面比htmlparser有更好的口碑,nokehtml类似xml解析原理,html标签正确解析为dom 它们对应DOM树中对应的元素进行处理。
NekoHTML 官方介绍:NekoHTML 是一个 Java 语言的 HTML 扫描器和标签平衡器,它使程序能够解析 HTML 文档并使用标准的 XML 接口来访问其中的信息。这个解析器可以扫描 HTML 文件并“纠正”作者(人或机器)在编写 HTML 文档过程中经常犯的许多错误。
NekoHTML 可以添加缺失的父元素,自动关闭带有结束标签的对应元素,以及不匹配的内联元素标签。 NekoHTML 的开发使用 XercesNativeInterface (XNI),它是 Xerces2 的基础。