网页内容抓取工具(使用语义结构描述工具MetaStudio定义了两个信息结构A和B)

优采云发布时间: 2022-01-10 09:07

　　Q：如果我使用语义结构描述工具MetaStudio定义了两个信息结构A和B，A和B是相关的，也就是说在定义A的Clue Editor工作台上，定义了一条线索用于提取符合信息的结构B的网页地址（URL）。例如，A用于爬取论坛的帖子列表。抓取帖子列表时，提取帖子详细内容页面的URL，将帖子详细内容页面的信息结构描述为B。据我了解，网页内容抓取软件DataScraper首先加载论坛帖子列表页面，根据信息结构A爬取帖子列表，每抓取一条帖子记录，提取帖子详情内容页面的URL，立即打开帖子详情页面。在内容页面上，使用信息结构B抓取帖子的详细内容，然后返回信息结构A对应的页面处理下一条记录。DataScraper 是这样工作的吗？

　　答：网络爬虫/数据提取软件工具包MetaSeeker中的网络爬虫是主题爬虫或聚焦爬虫。网络爬虫在 DataScraper 软件工具中实现。在执行信息抽取任务时，是按主题进行的，不会跨主题。也就是说，每次发起信息抽取任务时，只获取该主题的网页内容。例如只提取A的内容，不提取B的内容。A执行完成后，可能要翻很多页。可以发起提取B的网页内容。当然，可以同时运行另一个DataScraper实例来提取B的网页内容。

　　例如，假设信息结构A用于提取论坛列表，主要是提取论坛帖子详细内容页面的URL对应的线索，即为B提取线索。一般一个论坛的帖子很多网站。论坛列表是分页的。这时在定义A的信息结构时，需要在Clue Editor上定义一个inthread thread用于翻页。在 Bucket Editor 工作台上，定义帖子列表提取规则，并定义一个信息属性来提取和存储 B 页面的 URL。此信息属性具有线索功能。此时，MetaStudio会在Clue Editor工作台上自动生成一条线索记录。，类型为Info，命名为subject B。这样就定义了A的信息结构。下一个，使用DataScraper爬取A的网页内容，会提取并存储很多属于主题B的线索。如果主题B的信息结构也定义好了，可以使用DataScraper爬取B的网页内容。可以看出，主题A和B的网页内容爬取是两种不同的操作。

　　‹ 网页提取软件DataScraper如何抓取不同结构的页面？如何为网络爬虫提取的新线索定义信息提取规则 ›

0

2022-01-10

网页内容抓取工具

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

网页内容抓取工具(使用语义结构描述工具MetaStudio定义了两个信息结构A和B)

0 个评论

发起人

AI时代内容工厂

网页内容抓取工具(使用语义结构描述工具MetaStudio定义了两个信息结构A和B)

0 个评论

发起人

相关问题