网页抓取/数据抽取/信息提取软件工具包很适合做这个工作

优采云 发布时间: 2021-03-28 22:03

  网页抓取/数据抽取/信息提取软件工具包很适合做这个工作

  Web抓取/数据提取/信息提取软件工具包MetaSeeker非常适合此工作。 MetaSeeker是一个网页信息获取/提取/提取工具包。它可以根据用户的指导从网页中过滤出所需的信息,过滤出噪音信息,并将获取/提取/提取的内容存储为XML文件,然后可以集成到其他文件中网站。该工具包收录三个工具:1. MetaStudio,用于自定义目标网页内容的爬取/提取/提取规则,从而完全消除了编程和调试的麻烦,完整的图形界面,自定义新的网站抓取/提取/提取规则仅需几分钟。2. DataScraper,用于连续有效地从目标网站抓取/提取/提取内容,并过滤掉不需要的内容,将其保存为XML文件。3. SliceSearch,将抓取/提取/提取的内容存储在搜索引擎中,以提供强大的搜索功能和内容管理功能,以快速部署垂直搜索和商业推荐引擎。 MetaSeeker使用专有方法来识别网页的语义结构,这最适合于提取结构化信息对象,例如,为价格比较服务提取商品和价格。当然,提取大文本内容(例如新闻)也很容易。除了自动识别网页结构和生成提取规则*敏*感*词*和规则。使用这些扩展,用户可以任意定义特定的提取规则来处理各种复杂的页面结构。与基于正则表达式的解决方案相比,MetaSeeker工具箱是基于DOM + XPath + XSLT的数据提取解决方案,它更加灵活,适应性强,更易于自定义。 MetaSeeker工具包有两个版本:企业版和在线版。在线版本是免费的,并且具有相同的功能。但是,您不能部署自己的专用服务器。实际上,使用公共服务器更为方便。下载链接:

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线