解决方案:seo与搜索引擎的对话(seo就是针对某一搜索引擎进行的优化)
优采云 发布时间: 2022-12-26 03:53解决方案:seo与搜索引擎的对话(seo就是针对某一搜索引擎进行的优化)
SEO 代表搜索引擎优化。 简单来说,就是当人们在 Google、Bing 和其他搜索引擎中搜索与您的业务相关的产品或服务时,改进您的网站以提高其知名度的过程。 您的网页在搜索结果中的可见度越高,您就越有可能吸引注意力并将潜在客户和现有客户吸引到您的业务中。
搜索引擎优化是如何工作的?
Google 和 Bing 等搜索引擎使用机器人程序从一个网站到另一个网站抓取网络上的页面,采集有关这些页面的信息并将它们放入索引中。 将索引想象成一个巨大的图书馆,图书管理员可以从中提取一本书(或网页)来帮助您准确找到您当时正在寻找的内容。
接下来,算法分析索引中的页面,考虑数百个排名因素或信号,以确定页面在给定查询的搜索结果中应出现的顺序。 在我们的图书馆类比中,图书管理员已经阅读了图书馆中的每一本书,并且可以准确地告诉您哪本书可以回答您的问题。
我们的 SEO 成功因素可以被认为是用户体验的代表。 这就是搜索机器人如何准确估计网站或网页可以为搜索者提供他们正在寻找的内容的方式。
与付费搜索广告不同,您不能向搜索引擎付费以在有机搜索中排名更高,这意味着 SEO 专家必须投入工作。 这是我们进来的地方。
我们的 SEO 因素周期表将因素分为六个主要类别,并根据其对 SEO 的整体重要性对每个类别进行加权。 例如,内容质量和关键字研究是内容优化的关键因素,而可抓取性和速度是网站架构的重要因素。
我们还有一个全新的利基部分,深入研究三个关键利基背后的 SEO 成功因素:本地 SEO、新闻/出版和电子商务 SEO。 了解每个细分市场的 SEO 细微差别可以帮助您在小型企业、博客和/或在线商店的搜索结果中取得成功。
搜索算法旨在显示相关的、权威的页面,并为用户提供高效的搜索体验。 在优化您的网站和内容时考虑这些因素可以帮助您的网页在搜索结果中排名更高。
为什么 SEO 对营销很重要?
SEO 是数字营销的基本组成部分,因为人们每年进行数万亿次搜索,通常出于商业目的寻找有关产品和服务的信息。 搜索通常是品牌数字流量的主要来源,也是其他营销渠道的补充。 在搜索结果中高于竞争对手的可见性和排名会对您的底线产生重大影响。
然而,在过去几年中,搜索结果不断发展,可以为用户提供更直接的答案和信息,从而更有可能将用户留在结果页面上,而不是将他们带到其他网站。
另请注意,搜索结果中的丰富结果和知识面板等功能可以提高可见度,并直接在结果中为用户提供有关您公司的更多信息。
总而言之,SEO 是整个营销生态系统的基础。 当您了解您的网站用户想要什么时,您可以在您的广告系列(付费和有机)、整个网站、社交媒体资产等中实施这些知识。
影子科技*敏*感*词*
全方位互联网+外贸服务商
10年专注营销外贸站
致力于企业出海一站式平台
Google SEO(人工优化,保证至少100+排名)
Google Ads(敢与你PK询价成本)
Youtube 推广(保证真实的订阅和观看)
LinkedIn运营(分析市场对手和潜在联系人)
Facebook推广(海外负责发布运营)
外贸网站建设(国内+国外设计师)
邮件:
地址:浙江省宁波市江北区钱江街道同济路121号308-1室
解决方案:基于hits的链接分析算法的研究与改进
大连理工大学硕士论文基于HITS的链接分析算法的研究与改进以其快速普及和快速发展为人们提供了丰富的信息资源的同时,其数据海量、复杂、强动态性和用户多态性也给Web资源的探索带来了很大的困难。 非常困难。 因此,在Web这样复杂的环境中挖掘出有价值的信息是Web数据挖掘领域的一个重要研究内容。 在传统信息检索技术已经成熟的现状下,从Web数据本身的特点出发,充分挖掘Web上庞大的超链接资源,通过超链接搜索,建立有效的Web信息检索模型,找到信息我们需要。 . 然而,基于超链接的排名算法纯粹是基于链接分析(即网页结构挖掘)来发现权威网页,没有考虑网页的具体内容,存在所谓的主题漂移问题,即也就是说,算法的结果往往包括这种互斥的网页。 链接密度高,但内容偏离查询主题。 本文通过对经典Web结构挖掘算法HITS算法的研究,发现Hrrs算法本身只考虑了网页之间的超链接而忽略了网页的内容信息,没有区分链接,导致主题漂移分析结果。 针对问题,一种基于主题相关性和网页流行度的改进算法 I. mTS:利用网页与查询主题的相关性和网页流行度来区分链接的重要性,并构建新的邻接矩阵W以此为基础,用新的迭代公司计算枢纽价值和权威价值。
本文还分析了其他一些基于HITS、ARC算法和SALSA算法的改进算法。 通过I-HITS算法与传统mTS算法、ARC算法、SALSA算法的实验对比:I-HITS算法可以找到更多相关网页,相关率提高30%-50%,从而大大提高减少主题的数量。 漂移现象提高了查询效率和质量。 本文提出了一种构建邻接矩阵的新方法,对具有相关性和流行度的链接进行加权,从更客观的角度衡量链接的重要性,为有效发现权威网页提供保障。 因此,本文具有一定的理论和关键词意义。笛笛th lanolog lanolog v 所以。 W歌中10条有价值的信息成为al'caof, ebDatamin的重要衬衣; ng. The traditional method of information browser has been matured and under the eiircum stanchouse, Wemint: huge linkagele'e Source: on the Web according to tort Then WC seare la and build the uranium information retrieval val model to iliad information Wenneed. 11”currentmethodoflocatinglayperlinkrankingalgorithm.HoweversuchmethodmayCal.1跎thetopicdrillproblemwhichistheresultsofalgoritlamal-eoftenirrelevantwiththesearelai皿gtopic,buthashiglllinkdensity.Duetotheweaknessof卸rrS.whichonlycOrlCCI'31Sthehyperlinkbetweellpagesneglectthecontentofthepages,thepaperprovidesallideaabout8.11improvedalgorithmcalledI-HITS.ItisbasedOnthetheoryoftopicrelevanceandthepopularityofthepage.neI-HITSavoidsthetopicdriftproblemanditusestherelevancebetweenthepagesandthes扰rehingtopicsSOthattheimportanceoflinkCOuldbedistinguished.Therefore.anewmatrixCOuldbeCl'ea.tl甜andthenusethenewiterativeformulatocalculatethevalueofhubn地paperalsoanalyzesotherimprovedalgorithmbasedOnH兀's.suchasARCandSALSA.BycomparingI-mTsandthetraditional}TS镐well笛AIandSALS九I-mTSisabletofindmolepages讪thhi曲relevance.necorrectt髂'ultcouldbeimprovedb),30%-50%.ConsequentlythemethodcouldlowerthetopicdrillproblemSOthatimprovingtheefficiencyquali锣ofthesearchingefforts.11圮papergivesanewmethodtocTealCadjae蛆tmalrixus从摩尔的客观角度考虑这些链接的重要性和受欢迎程度。 因此,可以找到合适的页面,使论文具有理论性和实用性。 关键字:WebDataMilling; 链接分析:命中; Rclevanee; 据本人所知,除文中特别注明和致谢外,本文不收录他人发表或撰写的研究成果,也不收录用于获得大连理工大学或大连理工大学学位或证书的材料。其他单位. 与我一起工作的同志对本研究所做的贡献,在论文中已得到明确说明,并表示感谢。
作者署名:et 期号:lan::2:! ! :! ! 作者署名:李大连:【大学硕*敏*感*词*论文大连理工大学学位论文著作权使用授权书 论文作者和指导教师充分理解《大连理工大学硕士、博士论文著作权使用规定》,同意大连理工大学保留和将论文*敏*感*词*和电子版提交国家有关部门或机构,允许论文查阅和借阅。 本人授权大连理工大学将学位论文全部或部分编入相关数据库供检索,或采用缩影打印或扫描等复制方式对学位论文进行影印保存和编撰。作者签名: 3! 随着互联网的飞速发展,越来越多的组织、团体和个人在www上发布和搜索信息。 这使得 www 成为一个重要和流行的信息发布和搜索平台。 WWW作为一个巨大的信息资源,几乎涉及了人们所能想象到的所有话题,拥有前所未有的共享信息。 众所周知,Web的大量使用及其指数级增长给人们带来了一场信息革命,人们无时无刻不在使用计算机处理日常事务。 另一方面,W歌也有它自身的问题,它极大地改变了传统的信息检索和信息处理方式。 由于缺乏统一的文档模型、搜索引擎检索精度低以及WWW上的信息爆炸,用户很容易迷失在信息的海洋中。
由于网页是信息的载体,缺乏统一定义的数据格式[11],因此在Web上寻找有用的信息、管理和组织数据是一项繁重而艰巨的任务。 通常,有效的信息检索和管理主要受信息系统所使用数据的逻辑关系的影响。 对于Web上的数据,与传统的数据库管理系统上的数据相比,有其不同的特点,主要表现在: (1) Web上的数据过于庞大。 没有人能够准确评估 Web 上数据量的大小。 事实上,Web呈指数级增长带来的数据规模问题很难处理。 即使是最强大的 Google 搜索引擎也只能覆盖一小部分 Web 文档。 Web上的海量数据在传统数据库和数据仓库的技术条件下难以发挥其管理和组织功能。 (2) Web 上的数据是分布式的。 由于Web的固有属性,数据按照一定的拓扑结构分布在不同的计算机和平台上。 f3) Web 上的数据是异构的。 除了文本文档,网络上还有大量应用于不同学科、语言、领域的图片、视频、音频等数据。 在大多数情况下,并存的异构数据很难同时用相同的技术处理。 ") Web上的数据是非结构化的,没有严格统一的数据模式,所以只要满足Web文档显示的基本要求,就可以由不同的个体发布到Web上,比如HTML格式,虽然它是由一些Raw标签组成的,但是提交的数据是先处理的,它们没有什么语义。
因此,缺乏统一定义格式的数据带来了一系列问题,如数据冗余、数据质量差以及如何找到数据之间的关系等,这是传统的数据库管理系统无法解决的。 (5) Web 上的数据是动态的。 Web 不仅发展迅速,而且其信息也在不断更新。 新闻、股票行情、公司广告和网络服务中心都在不断更新它们的页面,研究和改进基于 HITS 的链接分析算法。 链接信息和访问记录也经常更新。 (6) Web 上的数据是超链接的。 与普通文本不同,www 是超文本,人们很可能会使用邻接图来上网。 网页之间的超链接提供辅助语义关系,这些关系不在预先定义的框架内,而是收录大量不确定和隐含的语义信息。 上述特征表明Web上的数据既不是原创的,也不是传统数据库系统中严格定义的。 这使得Web 信息检索和Web 数据管理成为一项极具挑战性的任务。 在过去的几年中,许多研究和开发在该领域取得了一定的成果。 网页超链接是研究信息检索的重要方法,链接分析的引入和应用为解决这些问题提供了新的思路。 之所以使用链接分析,是因为链接结构收录了大量潜在的推荐规则,可以自动推断出权威资源。
特别地,网页的创建者隐含地偏爱网页指向的网页[2]。 通过在一系列超链接中进行挖掘判断,可以更好地了解网页的相关性和内容。 因此,如何提供一些有效的工具和方法,帮助人们高效地获取所需信息,搜索所需领域的权威网页,成为摆在研究人员面前的一个重大课题。 要达到自动识别权威网页的目的,首先需要能够合理地评估网页的价值,而计算网页价值的一种实用有效的方法是利用链接结构中收录的丰富信息万维网本身。 网络链接是网络信息之间的桥梁。 没有网络链接,浩瀚的网络信息将如一盘散沙,网络信息的管理和利用难以想象。 因此,网络链接是探索网络空间结构和网络知识挖掘的天然工具。 链接分析技术在该领域发挥着重要作用,已成功用于分析Web超链接数据以确定权威信息来源,成为当前主流互联网搜索引擎的基础。 链接分析算法可以用来提高搜索引擎的查询效果,发现www上的重要社区,分析某个网站的拓扑、信誉、分类等,实现文档的自动分类等。在归根结底,它可以帮助用户在WWW的海量信息中准确地找到自己需要的信息。 这是一个快速发展的研究领域。
HITS(Hypcrlink-InducedTopicSearch)算法[Ke是一种应用广泛的权威的基于链接分析的资源抽取算法。 本文对HITS算法和现有的一些改进算法进行了深入细致的分析,提出了一种新的改进方法来寻找更好的权威网页。 1.2 研究内容 现有的链接排序算法分为两种: 1.查询无关:是用户检索的预处理,链接分析算法计算页面的固有权限值。 当用户查询时,结果按照权威值和相关性的线性组合排序。 典型的算法是 Google14 中使用的 PageRank 算法。 2.依赖query(删除endent):是用户检索的后处理。 检索系统在响应用户查询后返回结果。 大连理工大学硕*敏*感*词*论文集. 链接分析算法以此为起点,获取一组与用户查询相关的主题。 页面,计算每个页面的权威值,据此选择少量的权威信息源。 因此,该方案也称为主题抽取。 典型的算法是mM Clever项目中提出的HITS算法。 PageRm血液算法和HITS算法是影响广泛的两种链接分析算法。 但深入研究表明它们仍然存在一些明显的缺点[w],因此很多学者在此基础上提出了一些衍生算法,包括ARC算法[9]、SALSA算法[已删等],但这些算法仅考虑网页之间的超链接却忽略了网页的内容信息,没有区分链接的重要性,导致分析结果存在主题漂移的问题。
本文分析了链接结构的特点,深入研究了网页内容与流行度之间的关系以及链接的重要性,提出了一种利用网页的相关性和流行度来衡量链接重要性的方法。页。 该方法同时考虑了传统文本和当前流行的链接分析。 实验证明,本文给出的改进方法大大减少了主题漂移现象,提高了查询效率和质量。 1.3 本文结构 本文的研究工作是围绕HITS算法展开的,属于Web数据挖掘中的Web结构挖掘。 规模、技术特点及其面临的问题和挑战。 第二章概述了Web数据挖掘技术,包括Web数据挖掘的起源和分类以及Web数据挖掘在搜索引擎中的应用。 第三章介绍了Web结构挖掘的算法,主要详细描述了HITS算法及其缺点,同时也介绍了主题漂移现象和基于HITS的几种改进算法。 本章主要从链接分析开始,然后引出肼S算法。 第四章改进了Web结构挖掘算法,从HITS算法的优缺点出发对HrrS进行了改进,提出了I-HITS算法,并给出了其系统框架和实现原理。 第五章通过实验验证了I-HITS算法的优越性,给出了实验过程和评价方法,包括数据采集过程和结果分析。
基于I-fiTS Web数据挖掘的链接分析算法的研究与改进 2.1 Web数据挖掘的起源 数据挖掘和知识获取是近十年人工智能研究的热点。 在数据挖掘发展的初期,研究人员更多地关注于对存储在数据库中的数据进行挖掘,即在这种情况下提出了从数据库中获取知识(Knowledge Discovery Database,KDD)的概念。 出去。 因此,数据挖掘是指从大型数据库的数据中提取人们感兴趣的知识,而这些知识是隐含的、事先未知的、潜在有用的信息。 例如:股票经纪人需要从积累的大量股票市场变化的历史记录中发现规律,从而预测未来趋势; 超市的管理者希望从过去几年的销售记录中分析出顾客的消费情况。 习惯和行为,以便及时改变营销策略等。Web挖掘是从数据挖掘发展而来的,因此其定义与数据挖掘类似。 然而,与传统的数据挖掘相比,Web 挖掘具有许多独特的特点。 首先,Web挖掘的对象是大量异构、分布式的Web文档。 其次,Web在逻辑上是由文档节点和超链接组成的图,因此Web挖掘得到的模式可能是关于Web内容或Web结构的。 另外,由于Web文档本身是半结构化或非结构化的,缺乏机器可理解的语义。
然而,传统数据挖掘的对象仅限于数据库中的结构化数据,利用关系表等存储结构来发现知识。 因此,一些数据挖掘技术不适用于Web挖掘。 即使有,也需要基于Web文档的预处理。 因此,将数据挖掘技术与Web相结合,Web数据挖掘自然成为解决Web挖掘问题的重要途径。 这样,利用现有的数据挖掘技术挖掘分布式、异构的Web信息资源就成为数据挖掘技术的一个挑战和未来的发展方向,基于Web的数据挖掘应运而生。 2.2 Web 数据挖掘的分类Web 数据挖掘是从万维网资源中提取信息(或知识)的过程,即提取Web 资源中收录的具有潜在应用价值的未知模式。 它反复使用各种数据挖掘算法从观测数据中确定模式或合理模型。 是应用数据挖掘技术和理论挖掘万维网资源的新兴研究领域。 目前,在该研究领域,Web挖掘可以根据不同的控制对象分为三类,如图2.1所示,即Web内容挖掘(Web content mining)、Web结构挖掘(WebSlnlcIture mining)和Web使用挖掘( W宋用法挖掘)[11-13]。 大连理工大学硕*敏*感*词*论文 图 2.1 Web 挖掘的分类 图 2. I Web 挖掘的分类 2.2.1 Web 内容挖掘 Web 内容挖掘主要包括文本挖掘和多媒体挖掘,其对象包括文本、图像、音频、视频、多媒体和其他类型的数据。
这些数据一般由非结构化数据(如文本)、半结构化数据(如HTML文档)和结构化数据(如表格)组成。 非结构化文本的Web挖掘称为文本数据挖掘或文本挖掘,是Web挖掘中的一个重要技术领域。 Web挖掘的另一个重要技术领域是Web多媒体数据挖掘。 目前对Web内容挖掘的研究主要集中在w歌曲的文本内容挖掘上。 Web内容挖掘一般从资源搜索和数据库两个不同的方面进行研究。 从资源搜索的角度看,Web内容挖掘的任务是如何从用户的角度提高信息质量,帮助用户过滤信息。 主要是非结构化文档和半结构化文档的挖掘。 非结构化文档主要指网络上的自由文本,如小说、新闻等。 Web 上的半结构化文档挖掘是指对具有附加结构(例如 HTML 和超链接)的信息进行挖掘。 模型和规则等。从数据库的角度看Web内容挖掘主要是试图构建和集成网站的数据模型,以支持复杂的查询,而不仅仅是简单的基于关键词的搜索。 这是通过查找 Web 文档的模式和建立 Web 知识库来实现的。 挖掘文本数据的文档分类和模型质量评价方法与传统的数据挖掘方法类似,分类算法主要采用朴素贝叶斯分类器。
模型的质量评价主要包括分类准确率(Classification Accuracy)、准确率(Precision)和信息估值(Information Score)。 Web 多媒体数据挖掘从多媒体数据库中提取隐藏的知识、多媒体数据关联或其他不直接存储在多媒体数据库中的模式。 多媒体数据挖掘包括图像、视频和声音的挖掘。 多媒体挖掘首先进行特征提取,然后应用传统的数据挖掘方法,进一步研究和改进基于HITS链接分析算法的信息挖掘。 网页中多媒体数据的特征提取应充分利用HTML标签。 Web内容挖掘的实现技术:Web上的内容挖掘大多基于文本信息,其功能和方法与普通的平面文本挖掘类似。 利用Web文档中某些标签所收录的附加信息,如Title和Head,可以提高Web文本挖掘的性能。 (1) 正文摘要。 文本摘要是指从文档中提取关键信息,以简洁的形式对文档内容进行概括或解释。 其目的是浓缩文本信息并给出其紧凑的描述。 这样,用户无需浏览全文即可了解文档或文档集的整体内容。 (2)文本分类。 分类是在已有数据的基础上学习一个分类函数或构建一个分类模型,通常称为分类器。
(3)文本聚类。 文本聚类根据相似性将一组文档分为几类。 方法大致可分为两类:层次凝聚法和平面分割法。 (4) 协会规则。 发现关联规则的算法通常经历以下三个步骤:连接数据和准备数据; 在给定最低支持度和最低可信度的情况下,使用数据挖掘工具提供的算法来发现关联规则; 直观地展示、理解和评估关联规则。 2.2.2 网页结构挖掘 因为有用的知识不仅收录在网页的内容中,还收录在网页的结构中。 因此,Web结构挖掘就是从站点的组织结构和页面结构中获取知识,挖掘网页的结构,找出数据链接的结构进行分类和聚类,发现页面之间的关系,从而发现页面之间的关系。改进搜索引擎。 表现。 Web结构挖掘的对象是Web本身的超链接,即挖掘Web文档的结构。 对于一组给定的 Web 文档,应该可以通过算法找到有关它们之间链接的有用信息。 文档之间的超级链接反映了文档之间的收录、引用或从属关系。 引用文件对引用文件的描述往往更加客观、笼统、准确。 Web结构挖掘的基本思想是把Web看成一个有向图,它的顶点是网页,页面之间的超链接是图的边。 然后利用图论分析Web的拓扑结构。 常见的算法有HITS(Hypertext Induced Topic Search)、PageRank、虚拟社区发现算法、相似页面发现算法、地理位置发现算法、页面分类算法等。
Web结构挖掘的算法一般可以分为两类:查询相关算法和查询无关算法。 Query-dependent algorithms 需要对每个查询进行超链接分析来赋值; 与查询无关的算法只为每个文档分配一个值,并将该值用于所有查询。 HITS 和 PageRank 分别是查询相关算法和查询无关算法的代表。 总之,Web结构挖掘是基于超链接分析对Web资源进行评价,提高搜索质量,客观上避免了人工作弊,减少了人们在搜索结果中的长期选择和试用。 从人工链接结构中获得有用的知识,因为文档之间的相互联系,www除了文档内容之外,还可以提供有用的信息。 利用这些信息,您可以对页面进行排序,找到重要的内容页面,重新组织内容结构,使内容逻辑结构更加合理。 2.2.3 Web使用挖掘Web使用记录挖掘也称为Web日志挖掘或Web访问信息挖掘。 它通过挖掘相关的Web 日志记录来发现用户访问Web 页面的模式。 通过分析日志记录中的规则,可以识别用户的喜好和满意度,发现潜在用户,增强站点的服务竞争力。 除服务器日志记录外,网络使用记录数据还包括代理服务器日志、浏览器端日志、注册信息、用户会话信息、交易信息、cookies中的信息、用户查询以及用户与站点之间所有可能的交互记录。 .
Web使用记录挖掘的方法主要有两种:(1)将Web服务器的*敏*感*词*志数据,获取用户的导航信息。 另一种方法是通过对用户点击事件的采集和分析来发现用户的导航行为。 Web 使用挖掘可以挖掘以下信息: (1) 获取竞争对手和客户信息。 Web 不仅由页面组成,还收录从一个页面指向另一页面的超链接。 当一个网页的作者建立一个指向另一个页面的指针时,可以视为作者对另一个页面的认可。 采集不同作者在另一个页面上的注释可以用来反映该页面的重要性,自然可以用于权威页面发现。
另一个重要的网页是一个或多个网页,它提供了指向权威页面的链接集合,称为Hub。 Hub 页面本身可能并不突出,或者指向它们的链接可能不多,但是 Hub 页面提供了指向基于 HITS 的链接分析算法的研究和改进主题的最突出站点的链接。 通过分析此类信息,公司可以获得有关零售商、中间商、合作伙伴和竞争对手的信息。 (2) 发现用户访问模式。 By analyzing and exploring the rules in Web log records, potential customers of e-commerce can be identified, service quality for end users can be improved, and the performance of Web server systems can be improved. The Web log record database provides rich information about Web dynamics based on URL, time, port address and Web page content. Analyzing them helps to discover potential customers, users and markets, and helps to cluster users and Users are divided into categories to realize personalized market services. (3) Anti-competitive intelligence activities. Counter-competitive intelligence is an important part of corporate competitive intelligence activities. Ignoring competitors' competitive intelligence activities and underestimating competitors' ability to collect competitive intelligence will inevitably lead to the loss of existing competitive advantages. Web site is a window for enterprises to communicate with the outside world, and it is also an important source of information for competitors to obtain competitive intelligence. In the competitive intelligence computer system, we can make full use of Web mining technology to identify competitors by analyzing visitor's P address, client domain, information access path, and statistics of access rate of sensitive information to protect sensitive information of enterprises.
2.3 Web数据挖掘在搜索引擎中的应用2.3.1 Web信息处理Web信息处理一般分为如下四个步骤:1、资源发现,即检索所需的文档;2、信息选择和预处理,即从检索到的Web网络资源中自动挑选和预先处理得到专门的信息;3、 概括化,即从单个的Web站点以及多个站点之间发现普遍的模式;4、分析,对挖掘出的模式进行确认或者解释。人们在Web上访问信息的方式非常有限,一般情况下,有特定信息需求时,人们最常用的就是分类目录和搜索引擎查找所需要的信息。 (1)关于分类目录【151 Web上有许多分类目录(Directory)站点,如Yahoo!,YellowPages。早期搜索引擎站点和分类目录站点是泾渭分明的,但今天的大型搜索引擎站点一般都同时提供检索功能和分类目录。 分类目录可以有以下特点定义: 分类目录基本是树形结构的。每个节点(叶节点除外)有数量不等的若干子节点。少数节点存在不止一个父节点,因此不构成严格的树结构。 节点命名。每个节点有一个简短的命名。 节点内容。每个节点有若干URL,除了叶节点之外。每个节点有若干子节点。 维护。分类目录的维护是人工进行的,一般由站点雇用专人分别负责各个子类, 大连理工大学硕*敏*感*词*论文还有的是由志愿人员维护,个别站点可以让用户自己定制子树。
可检索。每个节点由维护人员进行了适当的标引,基于该标引对目录进行检索, 输入关键词,目录检索系统将输出与该查询匹配的目录节点,按相关程度降序排列。 (2)关于搜索引擎技术【l】 虽然Web搜索引擎出现的时间只有短短几年,但是它对于WebIR的影响却是巨大的。从面向对象的角度分析,整个系统可以划分为五个对象,如图2.2所示: 图2.2搜索引擎Fig.2.2 SeraehEngine采集器器(Spider):采用广度优先或者深度优先的策略对w曲进行遍历并下载文档。系统中维护一个超链队列(或者堆栈),其中收录一些起始URL。采集器器从这些URL 出发,下载相应的页面,并从中抽取出新的超链加入到队列(或者堆栈)中。上述过程不断重复直到队列(或者堆栈)为空。 索引器(Indexer):将文档表示为一种便于检索的方式并存储在索引数据库中。 搜索引擎普遍借鉴了传统信息检索中的索引模型,包括:倒排文档、矢量空间模型、概率模型等。 页面库/知识库(KnowledgeBase):对采集器器下载的文档进行分析以用于索引, 文档分析技术一般包括:分词、过滤和转换等。 搜索器(Searcher):从索引中找出与用户查询请求相关的文档。
将相关度大于阀值的所有文档按照相关度递减的顺序排列,并返回给用户。 基于HITS的链接分析算法的研究与改进用户代理(UseAgent):为用户提供可视化的查询输入和结果输出界面。 2.3.2超链接与hb上的搜索算法无论是分类目录还是搜索引擎,它们的搜索算法都要处理页面与页面之间的超链接。超链接到底怎样发挥作用昵?作为超链接本身,例如指向某一个页面B的一个超链接可能收录在页面A中,这个超链接对于基于关键字的信息检索来讲可能没有什么直接的作用,然而页面作者正是通过超链接给浏览者提供了除了页面内容之外的很重要的一些信息,起码从页面作者自己的角度来讲,他们认为链接指出去的是对浏览者有用的信息。例如,一些链接是指导着浏览者回到站点的主页,通过重新选择入口点,对于浏览的路径进行重新定位;另外一些链接是指导浏览者转到对当前的页面内容进行评论的页面上去,这种类型的链接就有可能是和当前链接讨论同一个主题,而且是质量非常好的页面。 在搜索引擎中,只要用户提交了自己的查询,就可以得到数以万计的返回结果,传统观点认为,衡量搜索引擎的两个重要指标是查准率与查全率。但是,经过深入研究可以发现,要求一个搜索引擎同时做到查全与查准是不科学的,也是不必要的。
片面追求查全率,只会带给用户大量的质量水平不等的信息资源,浪费用户的时间和精力。用户实际上需要的是高质量的信息来源,得到他想要的去解决他面临的问题。所以,我们应该努力压缩返回给用户结果的数量,把相关资源中最有代表性的和最重要的一部分介绍给用户,这就足以满足用户的需求了。在搜索引擎技术中,相关度是个重要的概念,它描述了一个检索结果和检索请求之间的相关程度。相关度可以按照不同的规则进行计算,计算结果用一个可以比较的数值来表示,数值越高则相关度越高,这个结果就应该被搜索引擎排在一个比较靠前的位置,以便用户可以容易的发现它。 怎样才能够判断出相关度的高低呢?最为可行的办法就是充分利用Web页面比纯文本更加丰富的超链接结构信息。正是超链接把数以亿计的网页组织成一个知识网络。 用户通过这些超链接浏览网络,凭借超链接的指向以及他们从未谋过面的人的指引,从而幸运地找到了有价值的信息。鉴于超链接所具有的独特的表达信息的方式,Web信息检索在基于关键词的传统信息检索技术不会有根本性进展的前提下,充分地发掘链接信息,利用它们来精炼与查询相关的文档是十分有意义的,所以优化的链接分析算法是搜索引擎和Web信息检索系统提高其效率的关键和核心。
基于链接分析的页面质量评价技术使得搜索引擎能够将质量更好的页面排在结果的较前位置,大幅度地提高了检索结果的相关度,同时也可以有效地避免Web上的欺骗问题(spanmaing,即由于大多数搜索引擎的相关度评价是采用了经验规则来对于网页大连理工大学硕*敏*感*词*论文进行排序,而经验规则大多数又是和基于关键字的检索算法相关联的。一些人就是利用搜索引擎的相关度评价策略,在自己的页面中使用不正当的手段,提高检索时的排名, 这类现象被称为spamming),从而使用户感觉检索效果提高。事实上,Web中还蕴含了丰富的结构信息。页面之间的超链接反映了页面间的引用关系,一个页面被其它站点引用的次数基本上反映了该页面的受欢迎程度(重要性)。超链接中的锚文本(anchortext) 对链接到的页面也起到了概括作用,这种概括在一定程度上比链接到的页面作者所作的概括(页面的标题、关键字、摘要)要更为客观、准确。因此,近年来出现了一些基于超链接的相关度排序算法,作为基于内容方法的补充,例如,Stanford大学研究的PageRank算法,1998年成功应用该技术的搜索引擎Coogte,GODgle的检索效果确实出众并迅速取得了成功,成为我们身边几乎所有人的日常搜索引擎,用它查找指定题目的文献效果尤其好。
从1999年开始,链接分析技术得到了几乎所有Web上著名搜索引擎的采用,包括国内的百度(Baidu)、北大天网(WebGather)1171。然而没有任何一个搜索引擎完全公开它们的链接分析算法,链接分析算法一时间成为搜索引擎技术的一个研究热点,人们希望能够找到从理论上可行,从实际中又很有应用价值的算法。 文本检索会议(TextRetrievalConference,n通C)是目前国际上信息检索领域一年一度的学术交流与系统评测活动。它为参加者提供标准的数据集合、测试数据和标准答案,所有的参加者以共同的方式向会议提交自己的系统运行结果并接受评测。在标准测试方法出现以前,信息检索方法之间很难进行有意义的横向比较。匝C通过提供标准的数据集和测试集,并规定统一的运行方式,使公正的评测成为可能。通过十年间的研究与探索,一些优秀的算法表现出了很高的性能,逐渐被学术届广泛接受。对工业界和政府来说,由于TREC任务很接近实际问题,所以TREC中应用的检索技术对它们有重要的实用价值。在TRECWebwack子任务中,一个很重要的目标就是验证:基于链接分析的Web检索算法是否比单纯基于内容的检索算法的效果要好一些。
我们的研究小组虽未参加n匝C的子任务,但是在国家自然科学基金项目(60503003)--Web图流算法及Web社区发*敏*感*词*项目,使得我们对于Web 检索从理论、算法和应用三个角度有了很深入的了解,特别是对于链接分析算法进行了深入细致的研究。 2.4 Web的宏观介绍怎样通过搜索引擎找到有用的页面/站点呢?什么样的检索算法对于查询Web上的信息是最好的呢?这些问题现在已经逐渐变成了Web信息检索的核心问题,Web宏观性质的研究,如Web的直径、入度分布、出度分布、宏观结构等揭示出Web的发展符基于HITS的链接分析算法的研究与改进合生态学(ecology)和社会学(sociology)的规律,它们虽然对检索没有直接作用,但帮助人们认识了解Web。在这一方面,Broderll8】作了卓有成效的工作:他们实验抓取的页面数为200,000,000个页面,15亿个超链接,实验的规模比Kumar【19】做的相似研究的规模大5倍。他们的实验都给出了Web图中的出度和入度都符合幂指数的分布规律: 一个页面节点的入度是f的概率是正比于J,其中(d>1),并证明这个幂指数的分布规律是Web的一个基本属性。
在A/bert,Jeong和Barabasi[20]的研究中发现:从一个页面到任何其他的页面不需要链接成百上千次,他们在实验中发现这个链接的数量是小于20次的,称这个现象为“小世界”现象。整个Web并不是像我们所预想的那样是个连接紧密的球体,它的连通性很大程度上受到全局结构的限制。所以链接分析的研究就尤为重要。 2.4.1链接分析的必要性网络链接分析是探索网络空问结构和进行网络知识挖掘的必要工具。网络链接是网络信息之间联系的桥梁,如果没有网络链接的存在,浩如烟海的网络信息就会像一盘散沙,网络信息的管理和利用是难以想像的。因此,网络链接是探索网络空间结构和进行网络知识挖掘的天然工具。AndreiBroder,HanWoo Park,GeorgeA.Barnett和Mike Thelwall等人的研究,尽管研究范围和研究内容各不相同,但毫无例外地都将分析网络链接作为出发点。 信息检索效率包括查全率和查准率两个方面。对于一个特定的检索系统,影响检索效率的因素主要是系统对特定信息的覆盖率和对信息相关性判定的准确率。众所周知, 国际互联网是一个开放的体系,它是由众多的网络系统遵循共同的协议而形成的。
在这个巨大的系统中,不仅信息数量巨大,而且每个系统中信息的组织方式迥异,并且信息也是处在不断变化之中,这就为信息的搜集和更新带来了极大的障碍。显然,像传统数据库检索系统那样,依靠手工方式组织信息绝对是不可行的,必须依靠自动化的信息搜集组织方式。1995年2月,第一个以网络链接为机制,用于搜集网络信息的robot开始运作,这项技术成为目前几乎所有搜索引擎的核心。阻碍网络信息资源检索和利用的另一个问题是查准率。目前网上的信息检索系统,存储的多为未经规范化处理的原创信息, 即使有个别的系统在信息筛选过程中有专家介入,但其规范化程度依然很低。并且,网上信息的发布未经过任何部门审核,信息质量参差不齐,这为用户准确地锁定所需要的信息带来了障碍。同样,网络链接研究也为提高网络信息检索系统的查准率提供了方法。 网络链接在一定程度上体现了网络信息之间的引证关系,从而反映其价值。 大连理工大学硕*敏*感*词*论文2.4.2 Web的宏观性质我们把Web看作一个图,在忽略了页面的内容以及和内容有关的一些东西,我们只考虑页面之间的超链接,为了和图论里的术语一致起来。我们把页面作为顶点,把超链接作为边。
文本用到图论中的一个经典的概念: 定义:有向图G(v,E)是一个Web图,射入一个结点的边数称为该结点的入度, 由一个结点射出的边数称为该结点的出度,结点的出度与入度之和为该结点的度数。 Web鲍宏观*敏*感*词*图2.3 Web的连通性*敏*感*词*Fig.2.3 ConnectivJtyoftheWeb 在链接分析算法中,我们把www看成是一个超图。在Broder[2z]的实验中揭示了一个非常有趣的Web的宏观*敏*感*词*:如果把Web图中的超链接看作无向边的话,90% 的页面是在同一个连通分支中。在这个无向的连通分支中,如果考虑超链接的方向,这个Web子图可以划分为四个部分:第一部分为核心页面组SCC,其中的页面是强连通的,即任意两个页面之间是可达的,它是整个Web的核心:第二部分烈中的页面是所有可以通过有向边指向SCC的页面的集合,第三部分OUT收录所有从SCC中以有向边指出的页面的集合;第四部分为TENDRILS,它收录的页面既不能通过有向边指向基于HITS的链接分析算法的研究与改进SCC,也不能从SCC通过有向边到达,最令人吃惊的一个事实是这四个集合的规模基本上是差不多的。Broder给出了整个Web的宏观*敏*感*词*【2”,如图2.3所示。
对于链接分析算法而言,我们关心的是www中的SCC、IN和OUT三部分的结构。从上图和SCC、IN和OUT的定义可以看出wWW的页面之间是连通的。这就更进一步证明了事前分析的链接分析算法是合理的,因为我们的事前链接分析算法就是假设Web图中的页面是连通的,随机跳跃是不会因为没有链接而终止的。对于事后的链接分析算法,我们关心的也是www中链接稠密的这三个子部分。到底Web上的超链接分布是一种怎样的形态呢? 2.4.4 Web的超链接分布图2.4 Web页面入度分布图Fig.2.4 ln-degee distributionoftheWeb Pareto【2l】在经济学模型中就提出了齐夫定律和幂指数规则,Yule[z2]将它用到语言学的词汇统计中也发现了类似的统计规律,Zipii23悛现了社会学模型中也符合这个规律; Martindaleand Konopka[24]发现核苷酸序列也符合这个规律。HerbertSimon[2s]第一个严格定义和区分幂指数分布的一个人,与幂指数分布规律紧密相关的核心问题是:如何定义一个正数d,使得数值i出现的概率与肼4(其中d>1)成正比。
Faloutsos[26】通过Intemet 在物理结构上的拓扑互连的连接度中发现了齐夫定律。 一定程度上讲,Web更像一个复杂的有机体,如果局部的结构和整体结构基本上类似的话,我们就可以把从局部得到的结论推广到整体结构上去。在本文中我们最关心的是Web上的超链接的分布情况,以及如何利用超链接来提高Web检索的效率。 大连理工大学硕*敏*感*词*论文在Broder进行的实验中,给出了入度、出度的分布。它们的分布图如图2.4和图2.5 所示。从图2.4和图2.5中我们可以看出无论是入度还是出度都符合幂指数分布,在入度分布中指数d--2.1,在出度分布中指数d--2.72. 图2.5 Web页面出度分布图Fig.2.5 Om.-degree dislxibufionoftheWeb 幂指数分布已经被应用到Web的方方面面,其中有两方面的工作我们十分感兴趣, 一个就是幂指数分布可以用来描述Web上用户的行为特点,第二个和我们有直接关系的就是Web图的出度和入度分布,它既是一个宏观的特性,也是一个微观的特性。宏观上的特性是指我们可以通过这种分布来了解和预测整个的形态;我们这里谈到的微观特性是相对于整个Web而言的,例如某一个特定的站点的超链接的分布相对于整个Web 而言是很小的一部分,它反映的是Web的局部的特性和形态。
将整个Web的页面都采集完全是不现实也是不可能的,所以构建一个在形态和特性上能够反映Web的真实状况的数据集合,一直以来都是困扰Web信息检索领域的一个问题。在2.3节中我们已经提到过TREC评测给出了统一的评测平台和实验数据集合, 但本文之所以在TREC数据集之外选用了另外的数据集,是因为根据这几年的WebTrack 的评测结果【2”,超链接分析算法在TREC数据集上一直未能生效,而原因很可能是TREC 数据集所选择的gov域下的网页质量普遍较高,其中的超链接结构及其锚文本内容可能并不反映实际网络中网页的情况,因此我采用了OoogleAPI自己爬取网页集合,该数据集中corn域下的网页相对较多,同页之间的质量相差较大。 基于HITS的链接分析算法的研究与改进3相关HITs算法及问题分析3.1 搜索引擎的发展历史1990年以前,没有任何人能搜索互联网。 所有搜索引擎的祖先,是1990年由Mon缸'e.al的McGillUniversity学生AlanEmtage、 PeterDeutsch、BillWhedan发明的Archie。Archie是第一个自动索引互联网上匿名FTP网站文件的程序,但它还不是真正的搜索引擎。
由于Archie深受欢迎,Nevada SystemComputingServices大学于1993年开发了一个搜索工具Veronica。Jughead是后来另一个Gopher搜索工具。 由于专门用于检索信息的Robot程序象蜘蛛(spider)一样在网络间爬来爬去,因此, 搜索引擎的Robot程序被称为spid盯程序。世界上第一个Spider程序出现了。 1993年10月MartijnKoster创建了ALIWEB,它相当于Archie的H.rrP版本。 ALIWEB不使用网络搜寻Robot,如果网站主管们希望自己的网页被ALIWEB收录,需要自己提交每一个网页的简介索引信息,类似于后来大家熟知的Yahoo。 1993年底,一些基于此原理的搜索引擎开始纷纷涌现。 1993年2月,6个Stanford大学生的想法是分析字词关系,以对互联网上的大量信息作更有效的检索。这就是Excite。 1994年1月,第一个既可搜索又可浏览的分类目录EINet Galaxy上线。 1994年4月,Stanford大学两名博士生,美籍华人Jen_yYang(杨致远)和David Filo 共同创办了Yahoo。
1994年初,Washington大学BrianPinkerton开始了他的小项目WebCrawler。 WcbCrawler是互联网上第一个支持搜索文件全部文字的全文搜索引擎。 CarnegieMellon University的MichaelMauldin创建了Lyoos。1994年7月20日, 数据量为54000的Lycos正式发布。除了相关性排序外,Lycos还提供了前级匹配和字符相近限制,Lycos第一个在搜索结果中使用了网页自动摘要。 Infose圯k是另一个重要的搜索引擎,虽然公司声称1994年1月已创立,但直到年底它的搜索引擎才与公众见面。 1995年,一种新的搜索引擎形式出现了——元搜索引擎(AMctaSearchEngine Roundup)。 DEC的AltaVista是一个迟到者,1995年12月才登场亮相。但是,大量的创新功能使它迅速到达当时搜索引擎的顶峰。Altavism最突出的优势是它的速度。而Altavista 大连理工大学硕*敏*感*词*论文的另一些新功能,则永远改变了搜索引擎的定义。AltaVista是第一个支持自然语言搜索的搜索引擎,AltaVista是第一个实现高级搜索语法的搜索引擎。
1996年5月20日,lnktomi公司成立,强大的Hot.Bot出现在世人面前。声称每天能抓取索引l千万页以上,所以有远超过其它搜索引擎的新内容。HotBot也大量运用cookie储存用户的个人搜索喜好设置。 Northemlight公司于1995年9月成立于马萨诸塞州剑桥,1997年8月,Northemlight 搜索引擎正式现身。它曾是拥有最大数据库的搜索引擎之一,它没有StopWords,它有出色的CurrentNews、7100多出版物组成的Special Collection、良好的高级搜索语法, 第一个支持对搜索结果进行简单的自动分类。 1998年,Google问世。Google在Pagerank、动态摘要、网页快照、DailyRefresh、 多文档格式支持、地图股票词典寻人等集成搜索、多语言支持、用户界面等功能上的革新,象Altavista一样,再一次永远改变了搜索引擎的定义。在2000年中以前,Goc gle 虽然以搜索准确性备受赞誉,但因为数据库不如其它搜索引擎大,缺乏高级搜索语法, 所以使用价值不是很高。直到2000年中数据库升级后,又借被Yahoo选作搜索引擎的东风,才一飞冲天。
Fast公司创立于1997年,发布了自己的搜索引擎Alln幢wcb。Fast的网页搜索可利用ODP自动分类,支持Flash和pdf搜索,支持多语言搜索,还提供新闻搜索、图像搜索、视频、MP3、和FTP搜索,拥有极其强大的高级搜索功能。 Teoma起源于1998年Rutgers大学的一个项目。它有两个出彩的功能:支持类似自动分类的Refine:同时提供专业链接目录的Resourc懿。 Wisenut由韩裔YeogirlYun创立。它也有两个出彩的功能:收录类似自动分类和相关检索词的WiseGuide;预览搜索结果的Sneak-a-Peek。 G-igablast由前Infoseek工程师MattWells创立,它也提供网页快照,一个特色功能是即时索引网页,你的网页刚提交它就能搜索。 Openfind创立于1998年1月,曾经是最好的中文搜索引擎。 北大天网是国家。九五”重点科技攻关项目“中文编码和分布式中英文信息发现” 的研究成果,由北大计算机系网络与分布式系统研究室开发,于1997年10月29日正式在CER玎上提供服务。 BaJdu2000年1月,超链分析专利发明人、前Infoseek资深工程师李彦宏与好友徐勇在北京中关村创立了百度(Baidu)公司。
Baidu搜索引擎的特色包括:网页快照、网页预览/预览全部网页、相关搜索词、锗别字纠正提示、新闻搜索、Flash搜索、信息快递搜索。 基于tilTS的链接分析算法的研究与改进3.2…TS算法原理网页间的超链接一方面引导网页浏览的过程,另一方面也反映了网页创建者的一种判断,即有理由认为:如果网页A存在一条超链接指向网页B,那么网页A的作者是认为网页B收录了有价值的信息。由于链接被创建的过程本身就收录了人的判断,充分而有效地利用这些信息将从很大程度上有助于提高搜索引擎检索结果的质量这个问题的解决。 1998年两个开创性的链接分析算法产生了,它们是Brin、Page提出的PageRauk算法【4】和Kleinberg提出的HITS算法【3】。这两个算法改变了人们思考互联网的方式,开始了链接分析排序算法研究的里程。PageRank算法通过分析链接结构计算网页的重要性f25】,根据Web*敏*感*词*给网页排序。PageRank作为Google的一个核心组件,很快就被认可并且加以研究,到目前为止Google一直占据着主导搜索引擎的地位。 Hubs Authorities 图3.1中心网页和权威网页图示Fig.3.1 Hubsandauthorities HITS算法提出了中心性网页(hub)和权威性网页(authority)的概念,在这个框架的基础上,每一个网页都与hub值和authority值关联着。
在这个算法中,被很多超链接指向的网页称作权威性网页,指向很多超链接的网页称作中心性网页,hub网页就好像推荐中心,authority网页就好像是资源中心,它们的说明如图3.1。 3.2.1 PageRank算法PageRank算法是最早并且成功地将链接分析技术应用到商业搜索引擎中的算法。 它的基本出发点是:试图为搜索引擎所涵盖的所有网页赋予一个量化的价值度,每个网页被量化的价值通过一种递归的方式来定义,由所有链向它的网页的价值程度所决定。 显然,一个被很多高价值网页所指向的网页也应该具有很高的价值。这种规则可以用一种随机网上冲浪(surfer)的模型来描述。具体来说,如果假设冲浪者跟随链接进行了大连理工大学硕*敏*感*词*论文若干步的浏览后转向一个随机的起点网页又重新跟随链接浏览,那么一个网页的价值程度值就由该网页被这个随机冲浪者所访问的频率所决定。 这个过程也可以理解成一个Markovian过程,每个网页是一个状态,从一个网页跟