Google和其它查寻引擎的搜寻引擎应运而生(1)_国内_光明网
优采云 发布时间: 2021-08-11 01:08
Google和其它查寻引擎的搜寻引擎应运而生(1)_国内_光明网
由于这些还在网站people眼皮子底下滚动,搜索引擎相继遇到了滥用和排名操纵等诸多问题。为了给用户提供更好的结果,搜索引擎必须进行调整,让他们的搜索结果显示最合适的结果,而不是用一些*敏*感*词*的互联网用户生成的关键字填充无用的网页。于是,新型的搜索引擎应运而生。 [编辑] 当代搜索引擎 Google 是由两位在斯坦福大学学习的博士生 Larry Page 和 Sergey Brin 创立的。他们为网页评估带来了一个新的概念,称为“PageRank”(PageRank),这是谷歌搜索引擎算法的一个重要开端[2]。网页的层级高度依赖引入链接,引入一个网页的每一个链接都相当于为网页的价值投票的理论被用来建立一个逻辑系统。导入的链接越多,页面的“价值”就越大。每个导入链接的值直接基于链接来自的页面级别,反之基于页面的传出链接。在页面层面的帮助下,谷歌在服务相关的结果上被证明是相当出色的。谷歌已经成为最受欢迎和最成功的搜索引擎。由于页面级别衡量的是站外因素,谷歌认为它会比页面内因素更难操纵。不过网站members 已经为 Inktomi 搜索引擎开发了链接操作工具和计划。
事实证明,这些方法同样适用于 Google 的算法。许多站点专注于交换、购买和销售大量链接。由于网站员寻求获取链接只是为了影响谷歌向网站发送更多流量,而不管它对网站访问者是否有用,这种行为增加了,原创算法在页面层面的可信度逐渐被破坏。这时候,是谷歌等搜索引擎仔细考察各种异地因素的时候了。开发更智能的算法还有其他原因。互联网已经膨胀到一大群非技术人员。他们往往无法使用高级提问技巧来获取信息;并且他们必须处理比开发初期更大的数据和更复杂的索引。搜索引擎必须开发预测、语义、语言和启发式算法。目前,谷歌工具栏上仍然显示了缩小版的页面级别,但页面级别只是谷歌在涉及网页评级时考虑的100多个因素之一。今天,大多数搜索引擎对他们如何评价他们的算法保密。搜索引擎可能会使用数百个因素来对目录进行排名;每个因素本身和因素的比例可能会不断变化。当代搜索引擎优化的大多数想法——有效的和无效的——这些主要基于基于内部信息的观察和猜测。一些优化器必须执行受控实验才能获得不同优化方法的结果。尽管如此,以下是搜索引擎开发算法时的一些考虑因素。这份 Google 专利列表 [3] 可以让读者猜测他们将走哪条路:自域名注册以来,网站的年龄是多少?年龄 新内容添加的常规链接的年龄、所连接站点的声誉及其相关性。一般内部因素。负面的内部因素(例如,过多的关键字元标记)。显然,它们已经过优化,会对网站造成危害。 ) 内容的唯一性用在内容的相关词上(搜索引擎相关的词被视为与网页的主要内容如何相关)谷歌页面级别(仅在谷歌的算法中使用)*敏*感*词*的文本。
例如,如果链接被“赞助商链接”包围,则该链接可能会被忽略。使用“rel=nofollow”建议搜索引擎忽略该链接。站点上文件结构的深度。从其他来源采集的网格表,例如监控用户在搜索结果将用户引导到某个页面后按浏览器返回的频率 来自以下来源的按钮:Google AdWords/AdSense、Google Toolbar 等程序采集的网格表第三方数据共享协议采集的网格数据(如监控站点流量的统计程序提供商)删除导入链接率使用子域、子网中关键字的使用、内容质量等,以及作为这些活动的负面分数以及主文档的链接文件语义的增加或变化率。托管服务提供商 IP 和该 IP 下的其他站点数量/质量其他链接农场/链接附属成员和链接站点(他们是否共享 IP?他们在“联系我们”页面上是否有共同的邮政地址?)技术细节就像使用301 Target删除页面,显示404服务器标题而不是不存在页面的200服务器标题,并正确使用? robots.txt 托管服务提供商的正常运行时间是否针对不同类型的用户显示不同的内容(称为“伪装”)未更正、导出的无效链接、不安全或非法内容、HTML 代码质量以及错误数量,观察到的实际点击通过率搜索引擎从他们的搜索结果中获取搜索结果的人是最常见的人 手动获取搜索结果的人 [编辑] 搜索引擎分类 搜索引擎根据其工作方式可以分为三种主要类型,即全文搜索引擎、垂直搜索引擎和元搜索引擎(元搜索引擎)。
全文搜索引擎。全文搜索引擎是名副其实的搜索引擎。国外的代表有Google、Fast/AllTheWeb、AltaVista、Inktomi、Teoma、WiseNut等,国内著名的有百度。它们都是通过从互联网上提取各种网站信息(主要是网页文本)来检索匹配用户查询条件的相关记录,然后按照一定的顺序将结果返回给用户而建立的。因此,它们是真正的搜索引擎。垂直搜索引擎。垂直搜索引擎是针对某个行业的专业搜索引擎。它是搜索引擎的细分和扩展。它在网页库中集成了某种类型的专业信息,并通过定向子字段提取所需的数据。处理后,以某种形式返回给用户。垂直搜索是一般搜索引擎提出的一种新型搜索引擎服务模式,具有信息量大、查询不准确、深度不够等特点,针对特定领域、特定人群或特定需求,具有一定的价值。信息及相关服务。例如著名的百度图片搜索、互联网统计网[4]等,都是用于某个领域的垂直搜索引擎。元搜索引擎。当元搜索引擎接受用户的查询请求时,它会同时在多个其他引擎上进行搜索,并将结果返回给用户。著名的元搜索引擎包括InfoSpace、Dogpile、Vivisimo等(元搜索引擎列表)。在中文元搜索引擎中,有一个叫星星的搜索引擎。
在排列搜索结果方面,有的直接按照源引擎排列搜索结果,比如Dogpile,也有的按照自己的规则重新排列组合结果,比如Vivisimo。 [编辑] 搜索引擎与搜索引擎优化者(SEOers)的关系 搜索引擎刚出现时,一群人对如何操作搜索引擎上的排名感兴趣。在早期的搜索引擎中,想要获得第一名的排名,只需要整理网页代码并提交网址索引即可获得第一名。就这么简单!随着越来越多的人使用搜索行为,它的价值也被提供了。因此,搜索引擎和搜索引擎优化者(SEOers)之间存在着对立关系。搜索引擎试图防止他们的排名受到人为影响,而 SEOers 则试图影响它。最近在 2005 年举行的 AirWeb 年会旨在讨论如何减少这种敌对关系,以及如何将一些过于激进的优化行为造成的损害降至最低。一些搜索引擎优化器(SEOer)的方法更激进,通常它们会产生自动化站点,或者使用某些行为技术,最终导致网站降权。这种方法一般称为黑帽SEO(BlackHatSEO)。目前市场上大部分优化公司都销售长期、低风险的优化策略服务,也称为WhiteHatSEO(WhiteHatSEO)。而且,大多数使用高风险策略(黑帽SEO(BlackHatSEO))的优化公司大多采用“纯内容网站、商业线索网站、普通会员网站”,而不是让客户去冒险。 .
这是一个使用激进优化技术(黑帽 SEO (BlackHatSEO))的优化公司允许其客户被禁止的案例。 《*敏*感*词*时报》描述了一家使用高风险技术但没有将这些风险告知客户的公司[5]。*敏*感*词*被起诉。一些特殊的搜索引擎为特定的赞助商或 VIP 提供帮助或优先权,称为付费目录。所有主要的搜索引擎都提供信息/指南来协助网站优化:Google[6]?雅虎?[7]MSN[8]。谷歌提供站点地图程序[9]?帮助网站员了解如果谷歌在检索网站时遇到任何问题该怎么办,并提供有关谷歌流量与您的网站之间关系的宝贵而丰富的信息。雅虎的 SiteExplorer[10]?旨在提供一种免费的方式来提交您的 URL。此方法允许您决定对 Yahoo 建立索引的页数和深度。雅虎大使计划[11]?和 Google 的广告专家 [12]?提供专家级认证。 [编辑] 从搜索引擎开始,新站点不需要“提交”到搜索引擎来注册列表。来自在日本建立的另一个站点的简单链接将允许搜索引擎访问新站点并开始“抓取”该站点的内容。从这样一个已建立的网站获取链接并让所有主要搜索引擎开始访问新网站并将其编入索引可能需要数天甚至数周的时间。
一旦搜索引擎找到一个新站点,它通常会访问并开始索引该站点,直到所有标准超链接都被链接页面索引为止。蜘蛛机器人可能找不到只能通过 Flash 或 JavaScript 访问的链接。当搜索引擎蜘蛛爬虫爬过一个网站时,会取决于相当多的不同因素,网站的许多页面可能不会被索引,除非它们的页面级别、链接或流量增加到一定程度。从站点的根到页面的距离,以及其他权重考虑因素,也可能是决定页面是否被检索到的因素。 Cho 等人。 (Cho et al. 1998)?[13]? 描述了判断哪些页面会被访问,哪些会被搜索引擎索引的标准。网站员可以通过域根目录中的robots.txt file 指示蜘蛛机器人不要索引某些文件或目录。标准的实现要求是搜索引擎在访问该域时引用该文件,尽管搜索引擎的蜘蛛机器人在访问某个网站的网页时会保留该文件。某些站点缓存复制,更新速度不如网站员。网站开发人员可能会使用此功能阻止某些页面,例如购物车或其他动态,特定用户内容出现在搜索引擎结果中,以及防止机器人进入无限循环等机器人陷阱。对于一些付费搜索引擎(如雅虎),支付象征性的提交费用可能会节省一些时间,尽管雅虎的付费提交程序并不能保证提交者/公司是我收录在他们的搜索结果中。
中文搜狐、新浪问等需要支付一定的费用,但可以免费提供非商业性的网站。当然,搜索引擎不保证收录对应网站。 [编辑] 白帽方法 搜索引擎优化的白帽方法涉及遵循搜索引擎可接受和不可接受的准则。他们的建议一般是为用户而不是搜索引擎创建内容,让这些内容容易被蜘蛛机器人索引,而不是试图在搜索引擎系统上耍花招。 网站员在设计或建设网站时,经常会犯致命的错误和疏忽“毒化”网站,从而排名不会很好。白帽优化器尝试查找和纠正错误,例如不可读的菜单、无效链接、方向的临时更改或糟糕的指导结构。由于搜索引擎以文本为中心,许多有助于网页亲和力的相同方法也便于搜索引擎优化。这些方法包括优化图形内容,包括 ALT 属性,以及添加文本描述。在设计页面时,即使是 Flash *敏*感*词*也可以收录替代内容——这最初用于访问者无法阅读 Flash 的环境——以帮助优化它。以下是搜索引擎认为合适的一些方法: 在每个页面上使用简短、独特且相关的标题。编辑网页以使用与页面主题相关的特定术语替换晦涩的词。这有助于网站吸引的受众在搜索引擎上进行搜索并正确定向到该网站。向本站添加大量原创 内容。使用大小合理、准确的标准描述,不要过度使用关键字、感叹号或不相关的标题术语。
确保所有页面都可以通过普通链接访问,而不仅仅是通过 Java?、JavaScript 或 Macromedia Flash 应用程序。这可以通过使用专门列出网站所有内容的网页 (网站Map) 以自然的方式开发链接来实现:Google 不会花时间在这个有点混乱的指南上。给网站员写邮件,告诉他你刚刚发布了一个好文章,并请求一个链接。这种方法很可能得到搜索引擎的认可。参加其他网站在线群(翻译:网圈?指站群同主题的联盟)-只要其他网站是独立的,共享相同的主题,具有可比性。 [编辑] 黑帽法主条目:Spam Index and Spamdexing 是指利用欺骗技术和滥用搜索算法来推广以业务为主的不相关网页。许多搜索引擎管理员认为,任何形式的旨在提高网站 页面排名的搜索引擎优化都是垃圾邮件索引。但是,随着时间的推移,行业舆论已经发展出什么是什么是不可接受的方法来提升某个网站的搜索引擎排名和流量结果。由于搜索引擎以高度自动化的方式运行,网站员通常可以使用一些搜索引擎无法识别的手段和方法来提升排名。除非搜索引擎员工访问网站并注意到异常活动,或者排名算法的微小变化导致网站失去过去获得的高排名,否则这些方法通常不会被注意到。
有些公司有时会聘请优化顾问来评估竞争对手的网站,并向搜索引擎报告“*敏*感*词*”的优化方法。当这些不良垃圾索引被发现时,搜索引擎可能会对被发现使用*敏*感*词*优化方法的人采取行动。 2006 年 2 月,Google 删除了 BMW 德国站和理光德国站,因为他们使用了这些方法[14]。伪装只是意味着网站站长使用两个不同的页面来达到最佳效果。一个版本仅用于搜索引擎,另一个版本用于其他。搜索引擎说这种做法是不规则的。如果找到,网站 将永远从搜索引擎列表中删除 [15]。带有关键字填充的隐藏文本是欺骗搜索引擎的另一种方式。通常是指将关键字的颜色设置为与网页的背景颜色一致,或者通过css的隐藏属性(hidden feature)来达到优化效果。一旦这种做法被谷歌发现,遇到的将是网站从谷歌数据库中删除[16]。 [编辑] 搜索引擎优化与营销 当本文文章552 的搜索引擎优化者之间的区别,戴什么颜色的帽子,这些行业写照其实是为一些在行业中做出了一些巨大成就的工作者而写的 没有多少墨有相当多的优化从业者只是认为搜索引擎是网站的另一个访问者,并试图使网站与那些页面的真实访问者一样友好。
他们的工作重点不是将许多术语集中在搜索引擎排名上,而是帮助网站所有者实现网站的业务目标。这可能是将基本搜索结果定向到某些页面,甚至在搜索引擎中使用付费广告。至于其他页面,创建高质量的页面来吸引参与和说服,并澄清技术问题。这些方法允许搜索引擎继续抓取和检索这些站点。另*敏*感*词*,将 RSS 提要、视频搜索、本地结果、地图以及更多必须提供的功能包括在内。
[编辑] 法律*敏*感*词* 2002 年,搜索引擎运营商 SearchKing 在俄克拉荷马州*敏*感*词*对搜索引擎 Google 提起诉讼。 SearchKing 的要求是,Google 防止垃圾邮件索引的措施构成不公平的商业行为。这可以想象为垃圾邮件营销人员起诉反垃圾邮件电子邮件程序,就像在许多情况下针对地图和其他 DNS 黑洞表 (DNSBL) 一样。 2003 年 1 月,*敏*感*词*发布了谷歌支持该诉讼的判决摘要 [17]。 [编辑] 高质量的网站 通常排名很好。对于很多有兴趣最大化网站附加值的网站成员,可以阅读搜索引擎和W3C发布的编码指南。如果遵循准则,站点更新频繁,有用,原创内容,并建立几个有用且有意义的导入链接,那么获得相当数量的基础搜索流量并不难。当一个站点有有用的内容时,其他站点成员自然会链接到该站点,从而增加其页面级别和访问者流量。当访问者发现有用的网站 时,他们倾向于通过电子邮件或即时消息链接将其介绍给其他访问者。总而言之,提高网站 质量的搜索引擎优化实施可能比直接找到操纵搜索排名的短期实施更长寿。顶级搜索引擎优化者追求的目标与搜索引擎追求的目标相同。它们是: 相关的、对用户有用的内容。 [编辑] 看到 Google *敏*感*词*垃圾邮件索引了吗? (Spamdexing) 谷歌顾问搜索引擎优化竞赛搜索引擎营销雅虎搜索营销