网页新闻抓取(网页抓取工具包MetaSeeker允许用户在同一个主题名下定义多个)

优采云 发布时间: 2021-12-16 16:22

  网页新闻抓取(网页抓取工具包MetaSeeker允许用户在同一个主题名下定义多个)

  网络爬虫工具包 MetaSeeker 允许用户在同一主题名称下定义多个信息结构。这有一个好处:如果目标页面结构发生变化,那么可以使用同一主题名称下的不同信息结构来抓取和存储着陆页上的信息。MetaSeeker 工具包中的网络爬虫DataScraper 可以自动找到符合目标网页结构的信息结构及其网络爬取规则。

  但是MetaSeeker客户返回的信息显示,之前版本存在一个bug:如果同一主题名下的信息结构差异较大,DataScraper无法正常运行。比如网友评论网易163新闻时,有的新闻是热点新闻,有很多网友发表评论,有的新闻没有评论。分别定义了两种信息结构,一种用于翻页抓取所有网友的评论,另一种用于识别没有网友评论的网页情况。如何抓取网友评论请参考《MetaSeeker快速指南》。网易新闻评论都是AJAX异步加载的,需要正确设置AJAX选项。在这种情况下,使用MetaStudio编辑翻页和抓取网友评论的信息结构时,需要在Clue Editor工作台上定义翻页线索,无需在其他信息结构的Clue Editor工作台上定义任何规则。因此,这两种信息结构是非常不同的。在这种情况下,出现了一个错误。如果先创建第一个信息结构,在爬取过程中无法正确翻页;如果先创建第二个信息结构,DataScraper 会在爬取过程中终止网络爬取工作流。这两种信息结构非常不同。在这种情况下,出现了一个错误。如果先创建第一个信息结构,在爬取过程中无法正确翻页;如果先创建第二个信息结构,DataScraper 会在爬取过程中终止网络爬取工作流。这两种信息结构非常不同。在这种情况下,出现了一个错误。如果先创建第一个信息结构,在爬取过程中无法正确翻页;如果先创建第二个信息结构,DataScraper 会在爬取过程中终止网络爬取工作流。

  为了解决以上问题,DataScraper已经升级到V4.11.5版本,请下载升级。

  但是,这个版本并没有完全清除这个bug。为了避免遇到这个bug,用户在创建信息结构时需要保证约定的顺序:如果多个同名的信息结构相差很大,即在Bucket Editor和MetaStudio的Clue Editor工作台上,一个一些信息结构的两个工作台中的一些是空的,所以先创建这种类型的信息结构,最后在工作台上创建一个不为空的信息结构。这样就可以避免这个bug。计划彻底解决这个bug的版本是V4.12.1。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线