反向爬虫技术对搜索引擎“相关搜索”进行关键词扩展
优采云 发布时间: 2021-04-29 03:04反向爬虫技术对搜索引擎“相关搜索”进行关键词扩展
[摘要]:作为网站内容的设计者和构建者,网络编辑者直接影响网站的访问次数和网站品牌的建立。但是,网络编辑人员通常仅从创作的角度考虑网站的构建,例如手稿的选择,编辑和写作,但不注意网站的推广,而且大多数人都不进行网站的内容从易于访问搜索引擎的角度进行构建。 网站的流量大约70%来自主要的搜索引擎。因此,这大大减少了网站的访问量,并且不利于网站的销售和品牌建设。 SEO是一种用于提高网站排名的研究技术。它的核心包括三个方面:关键词,内容和链接。目前,*敏*感*词*关于SEO的研究方兴未艾,特别是关于关键词的自动选择和分析方法的研究报告相对较少。如何自动选择关键词并分析其竞争强度将是本主题面临的核心问题。针对SEO在网络编辑工作中的重要作用,针对上述问题,本文主要研究SEO的自动选择和分析方法关键词,并在此基础上完成了网络编辑助手的开发。主要工作内容包括:(1)在关键词的选择中,提出了关键词扩展方法。通过对搜索引擎搜索结果页面结构的分析,发现“相关搜索”列出了关键词它是根据历史搜索量生成的,并且“相关搜索”中的关键词以图形结构排列,因此,本文使用反向采集器技术遍历搜索引擎“相关搜索”以采集满足用户需求关键词,并以百度为例实现了关键词扩展。(2)将C 4. 5决策树算法应用于历史优化数据的分类和挖掘,并分析了影响关键词竞争程度的主要因素有:使用intitle命令搜索的结果页面数,关键词在搜索结果首页的标题中出现的次数,关键词的长度]和搜索结果的数量等,并建立一个预测离子模型的竞争程度关键词,评估了模型的准确性。 (3)设计了一个基于Web爬虫和文本提取的信息采集子系统。这部分主要分为两个子模块。一个是捕获行业网站信息,主要是通过基于HTTP协议,并使用非重复和定期重访策略;第二个方法是主要使用方差作为指标来提取已爬网原创网页信息的文本,并逐步分析网页中文本节点的分布,最后完成摘录(4)利用本文的研究结果,我们设计并实现了一个面向SEO的网络编辑助手。在创建初期,系统分析了适合网络编辑者使用的主题关键词;在创建过程中,系统实时分析文本的SEO元素;此外,本文实现了一个信息采集子系统,大大提高了collecti中在线编辑的效率ng行业信息。