主题搜索引擎中网络爬虫搜索策略的研究与实现

优采云发布时间: 2021-05-14 07:27

　　[摘要]：主题网络采集器是一个自动代码程序，可从主题搜索引擎的后端获取数据。在主题搜索引擎前端查询的数据已由主题Web采集器预先在Internet上进行了爬网，并存储在本地。然后从网页提取数据并建立索引。因此，主题采集器对主题搜索引擎起着辅助作用。本文提出了一种主题优先的爬虫算法，该算法结合了链接文本相关算法和主题信息值的遗传恢复算法来指导爬虫的爬虫方向，并采用PostgreSQL数据库集群技术存储数据。根据网页结构的特点，主题优先的爬行算法通过页面之间的主题转移来预测页面的主题相关性，解决了主题爬行器通道阻塞和爬行丢失的问题。首先，根据锚文本发送相关性信息值。如果锚文本给出的信息是相关的，则直接发送相关的阈值；否则，直接发送相关阈值。如果不相关，则将其乘以遗传基因比率后再进行传播。在传输过程中，如果遇到相关网页，则链接的相关信息的值恢复为初始值。相关性信息值根据不同的主题将Internet网页划分为不同的渠道。与主题相关的所有网页都位于最大的频道中，并且频道交错且连接在一起，并且爬网程序按照频道大小的顺序来抓取它们。采集器搜寻到的网页信息数量巨大，并且单个主机无法满足该信息的存储需求。本文在资源库和链接地址库中使用postgresql数据库集群技术来扩展后端存储容量。并在每个数据库点中使用pgbouncer连接池技术来减少数据库连接的数量并节省时间。在链接地址库中，缓存技术用于减少数据库操作的数量，减少时间消耗并提高采集器的速度。最后，通过实验测试和数据分析，验证了主题优先爬行技术的有效性以及基于PostgreSQL数据库集群技术的爬行系统的可行性。

0

2021-05-14

搜索引擎主题模型优化

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

主题搜索引擎中网络爬虫搜索策略的研究与实现

0 个评论

发起人