网页内容抓取工具(使用语义结构描述工具MetaStudio定义了两个信息结构A和B)
优采云 发布时间: 2022-01-10 09:07网页内容抓取工具(使用语义结构描述工具MetaStudio定义了两个信息结构A和B)
Q:如果我使用语义结构描述工具MetaStudio定义了两个信息结构A和B,A和B是相关的,也就是说在定义A的Clue Editor工作台上,定义了一条线索用于提取符合信息的结构B的网页地址(URL)。例如,A用于爬取论坛的帖子列表。抓取帖子列表时,提取帖子详细内容页面的URL,将帖子详细内容页面的信息结构描述为B。据我了解,网页内容抓取软件DataScraper首先加载论坛帖子列表页面,根据信息结构A爬取帖子列表,每抓取一条帖子记录,提取帖子详情内容页面的URL,立即打开帖子详情页面。在内容页面上,使用信息结构B抓取帖子的详细内容,然后返回信息结构A对应的页面处理下一条记录。DataScraper 是这样工作的吗?
答:网络爬虫/数据提取软件工具包MetaSeeker中的网络爬虫是主题爬虫或聚焦爬虫。网络爬虫在 DataScraper 软件工具中实现。在执行信息抽取任务时,是按主题进行的,不会跨主题。也就是说,每次发起信息抽取任务时,只获取该主题的网页内容。例如只提取A的内容,不提取B的内容。A执行完成后,可能要翻很多页。可以发起提取B的网页内容。当然,可以同时运行另一个DataScraper实例来提取B的网页内容。
例如,假设信息结构A用于提取论坛列表,主要是提取论坛帖子详细内容页面的URL对应的线索,即为B提取线索。一般一个论坛的帖子很多网站。论坛列表是分页的。这时在定义A的信息结构时,需要在Clue Editor上定义一个inthread thread用于翻页。在 Bucket Editor 工作台上,定义帖子列表提取规则,并定义一个信息属性来提取和存储 B 页面的 URL。此信息属性具有线索功能。此时,MetaStudio会在Clue Editor工作台上自动生成一条线索记录。,类型为Info,命名为subject B。这样就定义了A的信息结构。下一个,使用DataScraper爬取A的网页内容,会提取并存储很多属于主题B的线索。如果主题B的信息结构也定义好了,可以使用DataScraper爬取B的网页内容。可以看出,主题A和B的网页内容爬取是两种不同的操作。
‹ 网页提取软件DataScraper如何抓取不同结构的页面?如何为网络爬虫提取的新线索定义信息提取规则 ›