搜索引擎优化毕业论文(Deep将DeepWeb发掘技术融入主题爬行”技术地结合起来)
优采云 发布时间: 2022-02-19 01:00搜索引擎优化毕业论文(Deep将DeepWeb发掘技术融入主题爬行”技术地结合起来)
【摘要】 互联网是一个庞大的信息资源库,大量页面是由网站后台数据库动态生成的,无法通过静态链接直接获取,只能通过填表提交查询获取,而传统的网络爬虫程序不具备填写表格的能力,这些页面无法被爬取。因此,现有的搜索引擎无法搜索到这部分页面信息,使得这部分信息对用户来说是隐藏的,不可见的,这就是所谓的Deep Web。与浅页相比,Deep Web 具有更多的信息、更具体的主题、更高的信息质量和更好的信息结构。但是,要从网络上全面准确地搜索出来是非常困难的。因为查询界面在网页上是以HTML FORM标签的形式展示的,所以爬虫需要能够准确填写Web数据库的查询界面。Deep Web引起了越来越多的研究人员的关注,越来越多的相关研究成果被发表。深度网络研究的根本目的是自动获取和利用深度网络中自由分布在整个互联网上的丰富信息。本文将Deep Web挖掘与“话题爬取”技术有机结合,对Deep Web垂直搜索引擎系统的关键技术进行了深入研究,利用现有的话题爬取技术指导Deep Web挖掘,将Deep Web挖掘集成技术进入主题爬取,研究了基于Deep Web的垂直搜索引擎设计,实现了面向Deep Web的垂直搜索引擎原型系统HYSE。随着Web数据库在Web中的不断涌现,人们在Deep Web领域做了大量的研究,但大部分工作还处于探索阶段,有些方面的工作可以说是刚刚起步甚至仍然是空白。. 因此,要有效利用 Deep Web 资源,还有很多问题需要进一步研究。本文研究了Deep Web垂直搜索引擎的关键技术,但本文提出的方法和算法有待进一步完善;HYSE仍然是一个功能较弱的原型系统,与*敏*感*词*、多学科的信息检索系统相比还有一定的差距。