网页数据抓取软件(楼主的书籍网站使用MetaSeeker语义描述,灵活定义信息对象)
优采云 发布时间: 2021-10-24 16:21网页数据抓取软件(楼主的书籍网站使用MetaSeeker语义描述,灵活定义信息对象)
发帖人提到的网站是典型的垂直搜索服务,区别于普通搜索。当垂直搜索抓取一个HTML网页时,它不是将所有的文本都存储在数据库中,而是使用提取技术将数据对象的每个字段单独提取,数据对象变得结构化,每个字段都与特定的语义相关联描述,就像关系数据库中的每个字段都有一个字段名称。成为结构化数据后的存储和索引方式变得更加灵活:一种方式是存储在关系型数据库中,彻底解决了搜索引擎准确率的问题,1为1,2为2,查询时不可能出现数据库检查1得到2的问题,但是关系型数据库只能存储表,并且语义结构非常复杂的内容需要非常麻烦的关系设计过程,分解成多个表;另一种方法是使用普通的索引技术,例如使用Lucene Indexes和搜索引擎,但是由于结构化数据是提取的,所以在索引时可以将其划分为字段。比如使用Lucene的时候,存储的文档是Document,里面有很多字段,直接对应。这样就保留了数据库。根据语义结构存储和检索的特点,可以获得较高的搜索性能。但是,因为结构化数据是抽取出来的,所以在索引的时候是可以划分字段的。比如使用Lucene的时候,存储的文档是Document,里面有很多字段,直接对应。这样就保留了数据库。根据语义结构存储和检索的特点,可以获得较高的搜索性能。但是,因为结构化数据是抽取出来的,所以在索引的时候是可以划分字段的。比如使用Lucene的时候,存储的文档是Document,里面有很多字段,直接对应。这样就保留了数据库。根据语义结构存储和检索的特点,可以获得较高的搜索性能。
网页抓取/数据提取/信息提取软件工具包 MetaSeeker 提供了一套完整的解决方案。以主持人的书网站为例。使用MetaSeeker中的MetaStudio工具,可以快速实现多个目标。网站页面内容建立语义结构,可自动生成提取指令文件,全图形化界面,无需编程,操作熟练可以在几分钟内定义一个指令文件。然后使用DataScraper工具定期抓取这些网站,执行提取指令,并将结果存入结构化的XML文件中。该工具还有一个 SliceSearch 管理接口,可以灵活定义信息对象的索引参数和语义索引方法,然后,提取结果交给SliceSearch,SliceSearch是一个信息对象索引和搜索引擎,使用专利技术准确搜索结果。例如,用户可以先进行一般搜索,就像使用普通搜索引擎一样,输入一段文字“概率论”,但是这个词可能会出现在书名、书的介绍,甚至读者的评论。虽然 SliceSearch 无法猜测用户想要什么,但它可以根据后端语义数据库得出一系列的可能性,并推荐给用户,以进一步细化搜索结果。输入一段文字“概率论”,但这个词可能会出现在书名、书的介绍,甚至读者的评论中。虽然 SliceSearch 无法猜测用户想要什么,但它可以根据后端语义数据库得出一系列的可能性,并推荐给用户,以进一步细化搜索结果。输入一段文字“概率论”,但这个词可能会出现在书名、书的介绍,甚至读者的评论中。虽然 SliceSearch 无法猜测用户想要什么,但它可以根据后端语义数据库得出一系列的可能性,并推荐给用户,以进一步细化搜索结果。
看完这个,你可能会问,为什么不直接提供一个类似于现有图书搜索网站的用户界面,允许用户根据字段进行查询,例如按书名、ISBN、价格、作者、出版商还有很多。当然,您可以在界面上执行此操作,但这样做是有代价的。这个搜索引擎只针对书籍搜索是固定的,也就是所谓的同构数据对象搜索。如果你要构建一个异构数据对象的综合搜索引擎,内容的结构多种多样,比如书籍、外包项目、房地产出租和销售等,你怎么知道用户想要搜索什么,给他看什么?合理的界面。当然,你可以让用户先输入一个语义类别。此时,
使用MetaSeeker提供的基于语义结构的处理方法,也可以轻松自然地解决数据对象的显示问题。在MetaSeeker后端语义库中,存储了特定语义对象的显示方法定义,简单理解为模板。语义结构关联,当用户搜索对象时,调用关联的表示模板,根据自身的语义实现表示。
MetaSeeker经历了垂直搜索、SNS、微博等多波浪潮的洗礼,发展到了V3版本,免费下载使用网络版,推动互联网向语义网络演进。SliceSearch异构信息对象搜索引擎以开放的框架提供给有需要的用户。用户可以开发自己的模块,增强自己的功能。例如,用户可以开发自己的方式来展示异构数据对象,例如,选择 XML+XSLT 解释模式,或者选择程序代码模式。