搜索引擎不足及改进建议崔明王振妪振

优采云 发布时间: 2021-05-20 23:15

  搜索引擎不足及改进建议崔明王振妪振

  目前的研究成果21缺乏搜索引擎和改进建议崔明王振宇[摘要]搜索引擎已普及作为一种重要的信息手段,对搜索引擎技术的研究也很重要。增加。如何有效地弥补现有技术的不足并更合理地满足用户的需求变得越来越重要。本文从信息及时性的角度提出了改进现有“超链分析”技术的必要性,并结合现有的过度优化网站行为和结果输出模式提出了一种改进策略。 [关键词]搜索引擎Goog lee Page RAN k 网站优化摘要:这些内容都是由或者以者代表的进行同步或提示。人们可能会疯狂地疯狂尝试。如果有芬芳的芬迪·芬奇,安第斯山脉气象部将向所有人或其他人推荐使用这种方法,并由yan dtome进行了分组换取,并由yan dtome进行了替换。 相互间的功能效果,这是chpar peers gest est est est est est ce ssssssssssssssss,s ,,,,,,,,,,,,,,,特设的人工热喷涂技术,因此我是DV的专家.Thisrears pal s s s s s s eth eth eth eth eth eth eth eth eth e lov e ffés ar ing e ng ing ign atio anna关键字:通过e Page s e og e le ge e ge e ge e ge e eng e e e ge ig e ge itaing in eo zip ita现代人们的生活离不开信息,信息的来源是无与伦比的。不再局限于传统报纸,电视,广播和其他渠道。

  更多人选择从Internet获得他们感兴趣的信息。 CNNIC第十七次《中国互联网发展统计报告》提供的数据:截至2005年12月31日,国内互联网用户总数为1。1.1亿人:在网民经常使用的网络服务和功能的调查中,搜索引擎是65. 7%,排名第二。根据以上数据,不难确定搜索引擎服务在信息社会中的重要地位。自1990年以来,Timberners-Lee正式开始运行基于HT DIP协议的万维网,并且Internet页面的数量正在以迅猛的速度增长。根据搜索引擎ASKJE eves的说法,高级产品经理AntonioGu li和爱荷华大学Aile sio Signon或ini教授在20岁时进行了一项研究。2005年5月进行的一项联合研究表明,主流搜索引擎已经可以索引全球互联网的85% “可见页面”,即超过1.15亿页的文档。尽管它不能覆盖整个Internet,但是从这些索引页反馈的结果数量已经非常大。人们无法浏览结果。对于搜索引擎,收录页数不再是关键。首先是将最有价值的信息输出到匹配结果页面的方法。

  该领域的研究贯穿了从网页获取到索引编制的整个搜索引擎工作过程。在这里,我们主要对结果的改进提出一些建设性的建议。 1.分析和改进搜索引擎原理。当前,每个搜索引擎都有自己的复杂技术,可让机器人对网页进行爬网,网页内容分析,为文档建立索引等,但是其中,搜索引擎的设计理念是对搜索结果进行排名。面对成千上万的点击结果,用户无法单击和浏览每个页面。他所关心的是前十几条记录。然后,最能满足用户需求的结果是否可以排在最前面,直接影响到用户对搜索引擎的满意程度。目前,gogle和ba edu这两个主要的搜索引擎都使用类似于超链接分析的排序技术。在这里,我们使用gogle的Page R nk专利。了解有关超链接分析技术的更多信息。 1. 1超链接分析技术的原理Page R nk是Google用于确定页面相关性或重要性的技术。它用于计算Internet上每个页面的PR值。衡量网页的重要性,并最终影响网页在结果中的排名。引用Go ogle纸的原创文本,PageRank的值定义如下:“我们假定页面A具有T1 ... Tn,并且这些页面指向它(即,T1 ... Tn指向页面A。 )。)。

  参数d是设置在0到1之间的阻尼系数。我们通常将d设置为0。8.5。另外,将C(T n)定义为网页T n上的出站链接的数量。然后,通过以下公式获得页面A的PageRank值:PR(A)=(1-d)+ d [PR(T 1)/ C(T 1)+。 。 。 + PR(Tn)/ C(Tn)]万方数据22图书馆学研究2006。7从以上公式可以看出三点:(1)链接到A的网页越多,A的PR值越高。即,A的PR值与指向A的网页数成正比。 (2)链接到A的网页具有比源网页更高的PR值,A的PR值也更高。即,A的PR值与指向A自己的网页的网页的PR值成正比。式中,网页Tn的PR值越高,A的PR值越高; (3)链接指向A的链接数越多,A的PR值越低。也就是说,A的PR值与A的网页的链接数成反比。公式,即到网页的链接数T n越多,A的PR值越低。“从许多高质量页面连接的页面仍然是高质量页面”的设计思想与网站的发展规律,也摆脱了人为因素对结果的干扰。

  任何页面的重要性取决于Internet上其他页面的“投票”。如果您想改善go lee的搜索结果中的排名状态,则只能更多地关注自己的Web内容的构建,以期望成为具有较高R值的PA网站收录可以改善其PR值。即使许多网页彼此链接,这些页面的原创PR值也很低,最终PR值也很小。从1998年Page Rank算法的发明开始,Google的排序算法一直基于Page Rank,并且没有太大的改进,只是在2003年11月的“ Florid aUP date”和“ AustinUP”中,我们看到了很多日期”(2004年初)网站的排名突然下降,某些主要关键字排名甚至可能消失。这两个相对较大的更新在行业中统称为“ san d bo x”现象。尽管Goo gle没有解释是否启用了新的排序算法,但Go og lee在2001年拥有的Hi ll TOP算法专利逐渐浮现在所有人面前。 H ll TOP算法指出:当使用“页面级别”来查找“权威”网页时,您不应该仅仅依靠PR值的大小来确定,而应该专注于其与查询主题On的相关性;也就是说,不仅需要考虑网页的页面级别,还需要考虑网页的页面主题内容是否与查询主题相对应。

  如果网页仅触及查询的主题,即使页面排名很高,也对用户毫无意义。结果,就网页而言,具有相同主题的相关文档的链接对搜索者而言更有价值。在原创页面链接算法中,指向网页的外部链接页面的页面级别越高,传递给该网页的链接页面的页面级别值越高。如果页面仅出现在内容关键词中,但是主题内容与关键词完全不同,则由于存在的页面PR值较大,因此页面也将获得相对较高的排名。希尔普托算法与同一主题的相关文档的链接对于搜索者描述和弥补Page R nk算法的缺陷将更有价值。目前,Page Rank算法与Hi ll Top算法的排序技术相结合是确定网页排名的重要手段。 1. 2算法缺陷和改进建议。以前对go lee算法的改进的重点是使网页相关性的评估更加准确。网络信息资源的另一个主要特征是及时性对网页很重要。没有考虑到影响。我们假设在相同的网站中,相同主题A在2005年的报告页面是B,2006年的报告页面是C,n是链接到B的页面数,C(T n)是网络页面Tn是出站链接数,m是链接到C的页面数,K(Sm)是网页Sm的出站链接数,d是阻尼系数0 0,即通过上述公式的推导,PR(B)> PR(C),就可以得到有关话题A的报告。的将被安排在C页的前面。

  为了证明推断的正确性,我们在go og lee中进行了以下两个统计(请参阅表1,图1):使用站点限制搜索在go og lee si te中输入搜索公式: :} :.“木制春节运输”分别统计了结果中2005年和2006年春节运输主题页面上的春节运输主题的排序。从表1中可以看出,2005年春运专页的排名明显高于2006年春运专页的排名。 og lee,并对前30个结果的分布情况进行统计。从图1可以看出,在前30个结果中,2005年的春节交通信息页面占47%,而2006年的春节交通信息页面占7%,明显少于页面数往年。万方数据RESARC ARC SERIES CIE N C E 23表1 2005年和2006年春节运输专页结果=尴尬≤2006年春节运输专项站点:搜狐。 com春节运输站:至米。 com春节运输现场:罪过com。关于“春节运输” \“篮冰”:2005春节运输专题页面\ ∑ 1水1121 87+解释,结果没有找到所以的2005春节运输主题页结果,此信息是20 04春节运输主题页图1开始搜索“春节运输”后的前30条记录的统计信息以上两个示例充分证明了我们推论的正确性。

  同时,它还表明,在结果排序中,go ogle对于那些历史悠久的旧网页是有益的,而相对较新的页面由于其简短而无法显示在结果的最前面年龄。那么,这些相对较新的页面和相对较旧的页面中的哪一个对用户更有价值?同样来自《中国互联网发展的第十六次统计报告》的调查:用户在互联网上查询信息时遇到的最大问题是信息太旧且更新速度慢到27。5%的比率位居第二。由此我们知道,用户非常重视信息的及时性。每天面对大量新信息的出现,过时页面的价值越来越低。但是,当前搜索引擎的排名算法尚不能根据页面的有效性对结果进行合理的排序。这也将成为用户对搜索引擎不满意的一个方面。如何结合信息的及时性更符合用户的需求。排序结果已经存在必须考虑下一个算法更新。 2过度优化网站行为的约束。目前,搜索引擎营销是网络营销的一个分支,受到越来越多的关注。搜索引擎营销侧重于研究如何使用搜索引擎搜索规则来提高目标网站对搜索引擎中的位置进行排序的关键是使用搜索引擎优化(SE EO:SE ARCHITE ENGINE opt imilis tyion)技术。合理使用S EO技术将使您的网站设计更加标准化,更易于被搜索引擎收录搜索,但是现在网站的许多企业都依赖网站促进搜索引擎优化,但不要注意自己内容的构建,这种行为严重干扰了搜索引擎排名的公平性,属于网站作弊行为。

  尽管其中许多网站已从以前的搜索引擎技术更新中删除,但仍有一些作弊方法没有及时被阻止。在这里,让我们专注于常见的作弊方法。 2. I.网页重定向使用刷新标记(MetaRefr esh),CGI程序,Java,Java Scr ipt或其他技术,当用户进入页面时,快速自动跳转到另一个网页,重定向使该用户访问的网页与搜索引擎结果页面不同。由于许多博客站点和留言板都支持ht mil语言,因此请在消息信息中插入类似于的代码。可以将其重定向到用户不想访问的页面。我们在“ go lee”中搜索“ MMS”,然后在第8页上插入“ << t pp - equ iv =“ Refre sh”” content =“ 5:URL = ht tp://,Ic,I = :l =。美泉Shumushui /“>”这样的重定向代码,单击初始链接后,页面将自动跳转到。冰:} =冰。 Shushushu / 网站,从而欺骗用户。

  2。 2错误使用Me ta堆积关键字Me ta标签是嵌入在网页中的特殊html标签。目前,大多数搜索引擎机器人都通过自动查找Me ta的值来对网页进行分类。这是判断网页内容的基础。 Meta标记的类型很多,但是最重要的是de cri cri tition(网站描述)标记和ke y rds(网站 关键词)标记,如果这些关键字是热门的词汇大量堆积在描述标签和关键标签字段中,这会干扰搜索引擎结果的准确性。 2. 3不可见的文本/链接万方数据24.图书馆科学研究2 0 6. 7为了提高关键词的出现频率,有意将一段与背景颜色相同且收录密集关键字的文本部分放置在页面上。网页。访客看不到它,但是搜索引擎直接读取网页的http源代码,因此收录可以看到它。类似的方法还包括超小文本,隐藏文本层和其他方式。 2. 4.将垃圾邮件链接添加到“链接工厂”(也称为“质量链接机制”)是指由大量交叉链接的网页组成的网络系统。网站加入“链接工厂”后,一方面,它可以从系统中的所有网页获取链接,同时,它需要“专用”自己的链接以进行交换。

  这样,可以提高链接分数,从而达到干扰链接分数的目的。 2. 5.偷偷浏览网页是在成功注册并获得较好排名之后,将网页替换为与内容无关的另一网页的行为。各种作弊行为会干扰用户使用搜索引擎的权利并获得公平的结果,并严重影响搜索引擎的质量和声誉。大型搜索引擎制造商也讨厌它们。一旦发现作弊网站,排名将降低。然后取消收录的资格。面对各种作弊方法,搜索引擎制造商还应及时观察互联网的变化,并在萌芽阶段尽快消除这些行为。 3结果输出的优化基于著名搜索引擎营销公司iProspect在2004年4月发布的“按时进行的安全搜索”报告。以下三组数据值得我们关注:22. 6%的搜索引擎用户仅浏览返回的前几个结果,另外18. 6%的用户在了解首页后停止搜索(该部分总计41.2% );超过25%。只有8%的用户在浏览了前两页的结果后才完成搜索活动; 14. 7%的用户(总计81.7%)能够耐心地浏览前三页。以上信息告诉我们,超过4/5的用户只关心搜索引擎结果的前三页。

  每个搜索的结果命中数范围可以从数千到数十万。我们如何将用户最感兴趣的结果放在最前面?除了确定排序的算法外,我们还应该考虑改进输出结果的布局,并尝试在前几页中放入更多的结果信息。现在一种更成熟的方法是合并重复信息的链接,即页面信息的重复链接将不会在结果页面中一个接一个地显示,并且将使用外部链接来显示这些重复的链接地址。分别地。实际上,Internet上的许多信息都是重复的。用户只需要阅读一次这些重复信息。如果打开多个链接以查看相同的信息,则不会将其乘以用户获取信息的值。浪费了更多时间。这种优化已在go gle推出的学术搜索引擎(http://scholar.go /)中实现。它将同一文档的不同链接地址放在一个结果消息中,以便用户可以在前三页中看到更多页面链接,从而提高了工作效率。 4结束语在许多Internet信息服务满意度调查中,我们很高兴看到搜索引擎的满意度一直是第一位的,但是我们每天都面临着成千上万个新网页的出现: Web生产技术和用户的不断发展对信息准确性的更高要求避免了我们对搜索引擎优化工作的厌倦。只有跟随Internet的发展并不断改进搜索引擎技术,用户才能更加满意。本文主要演示了在页面排名算法的下一次更新中改进网页及时性的必要性;揭示了常用的作弊技术网站,并提到了重复信息结果输出的一些改进。还有更多具体方面...

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线