百度的搜索引擎优化怎么做(李彦宏在百度AI开发者大会上泼给AI的最后愣了)

优采云发布时间: 2022-01-22 10:11

　　2019年7月3日，当李彦宏在百度AI开发者大会上展示AI自动泊车时，一名黑衣人突然冲上讲台，从容不迫地把一整瓶矿泉水倒在李彦宏的头上。洗礼过后，李彦宏一开始很乖巧的低下头，愣了几秒后才躲了起来，吐出一句英文“What's your problem?”，让人意识到这不是大会的安排。 .

　　事发后，百度公关在微博回应称，“有人给AI泼冷水”，但不影响百度前行的决心。

　　这冷水到底是泼在AI还是百度身上？我们知道，自从谷歌退出后，百度原本占据了中国互联网第一大搜索引擎的位置，但因竞价排名而引发的血友病酒吧接二连三被卖掉，莆田医院、卫泽西事件等等。，这让人们信任百度。降到冰点。有评论说，百度应该被钉在历史的耻辱柱上。

　　对于此次泼水事件，在谷歌图片上搜索“李彦宏泼水”，结果正常。百度图片搜索，一滴水都没有，相关搜索是“李彦宏好帅”。同样是搜索引擎，谷歌是如何处理排名的？

　　二十年前，斯坦福有两名学生正在攻读博*敏*感*词*。研究。他们需要经常在互联网上搜索信息，但他们都觉得现在的信息搜索方式太糟糕了，所以他们想改进它。研究了这么久，两人觉得学术论文的评价体系还是挺不错的。评估一篇论文的质量就是看有多少其他学术论文引用了它。引用可以看成是一个超链接，两人设计了一个算法来统计超链接被点击的次数。最后这个算法变成了PageRank，Google的排名算法，这两个人就是Larry Page和Sergey Brin。

　　当您进行 Google 搜索或任何搜索引擎时，您输入关键字，例如今天的天气，搜索结果会返回当地天气预报，而无需打开另一个链接即可查看。当你点击搜索时，谷歌到底做了什么？

　　搜索引擎一般具有三个基本功能：

　　爬取：利用爬虫不断进入互联网上的各种连接，获取更新的内容。内容可以是网页、图片、视频、PDF等。谷歌bot（Googlebot）会从一些网页开始，其中有一些新的网页，谷歌爬虫会不断寻找新的网址。索引：组织和存储爬取的信息。谷歌将优质、有价值的信息存储在一个名为 Caffeine 的数据库中。一旦网页被编入索引，它可能会出现在相关的搜索结果中。排序：将数据库中的信息按相关性从高到低排序。

　　什么是相关性，Google 如何确定相关性？

　　为了确定相关性，谷歌使用了一种排名算法，一种以有意义的方式获取和排名信息的方法。排序算法自拉里佩奇以来已经更新了很多次，谷歌几乎每天都在更新算法。虽然谷歌从不透露其算法的细节，但谷歌发布了谷歌的质量指南和搜索质量评估指南，它们准确地告诉我们谷歌想要什么。

　　那么谷歌想要什么？作为搜索引擎，谷歌只想做一件事：为用户提供最有用的问题答案。

　　可能有人认为这很简单，只要页面收录搜索关键字就可以了。这当然是一种方法，但是想象一下如果有人搜索“笑话”，结果会返回一个这样的网页：

　　欢迎来到『十万个好笑的笑话』！我们有世界上最好笑的笑话，哈哈哈真是笑死了。。。

笑话笑话笑话笑话笑话笑话。。。。

　　这个页面上有很多“笑话”，但这不是用户想要看到的。

　　从用户满意度来看，其实并没有明确的指标，用户搜索的关键词出现了多少次，是否出现在标题中，或者你的内容有多长。这些可能都起作用，但主要关注点应该放在用户体验上。Google 可能有成百上千的排名动机，但最重要的三个是：内容质量、传入链接和 RankBrain。

　　那么什么是入站链接？还记得拉里佩奇从学术论文中学到了什么吗？

　　与学术论文中的引用类似，网页有一种称为反向链接或入站链接的链接，它们是来自其他网页的网站链接，这些链接指向您。

　　如果一个网站真的很好而且很重要，并且越来越多的外部网站将提供指向该网站的链接，那么外部链接的数量就会很高。如果一个高质量的网站推荐了网站，则说明该推荐是高质量的。Google PageRank的主要思想是计算每个网站的反向链接的数量和质量，并根据这个指标对网站的重要性进行排名。

　　RankBrain 是谷歌核心算法的机器学习部分。机器学习是一种计算机程序，它通过不断地从训练数据和新的观察中学习来提高预测能力。正是因为不断学习，排序算法才会越来越好。例如，如果 RankBrain 发现一个页面当前排名较低，但它提供了更好的结果，它将提高该页面的排名。

　　根据 Google 前 CSQ（搜索质量主管）Udi Manber 的说法：

　　“排名本身是受点击率影响的，如果我们发现某个搜索，80%的人点击#2，只有10%的人点击#1，一段时间后我们发现#2是每个人都想要的，所以我们把它放在第一位。”

　　IMEIC实验室的页面排名从第四上升到第一。谷歌如何处理医院的排名？莆田医院会不会有问题？

　　医院，搜索者亲自访问的地方，我们可以将其视为本地化搜索。

　　对于这种类型的搜索，谷歌有三个主要的排序标准：

　　相关距离名声

　　相关性

　　相关性是指本地业务服务是否符合搜索者的要求。确保本业务服务填写的信息完整、准确。

　　距离

　　Google 使用您的地理信息来提供您的本地搜索结果，这些结果对商家与搜索者的接近程度很敏感。

　　名声

　　谷歌会奖励现实中的知名企业。除了线下口碑，谷歌还关注线上的口碑，比如：点击、评论、引用。例如，类似于大众点评网的“好评店名单”。谷歌还会参考yelp等，从大量同类资源中获取一致信息，对本地商家进行排序。如果 Google 发现商店的名称、地址和电话号码在许多相互证实的引文中都被提及，则 Google 倾向于信任这些数据，从而使商店具有更高的可信度。

　　因此，当用户使用谷歌搜索医院时，距离用户最近且信誉最好的医院将被排在第一位。

　　那么，如果商店只是想向 Google 支付*敏*感*词*怎么办？

　　Google 有一个专门的部分，称为付费广告

　　传统的谷歌广告关键词（AdWords）是谷歌向商家提供的广告服务。为了提高其店铺链接的点击率，商家会竞价与其产品相关的关键词。这些广告最常出现在搜索结果页面的顶部或底部，并且每个广告都有一个彩色的 [Ad] 标签来表明它是一个广告。这样一来，用户在点击之前，心中就会有一个尺度。

　　例如，当您搜索连衣裙时，前三个结果都是带有 [Ad] 标签的广告。有趣的是，如果你在 Google 上搜索 AdWords，弹出的第一个结果是 Google Ads 自己的页面，也标有 [Ad] 标签。

　　“广告是根据对用户的相关性和有用性进行排名的，你可以对它们出价，但还有其他因素。”

　　让我们依次从广告商的角度来考虑。如果你是一个广告商，你做了一个网站并且你想增加浏览量，你如何让它尽可能地排在列表的顶部？

　　第一个问题是，Google 可以抓取你的网站吗？

　　只需在搜索引擎中输入：“site:”，在搜索结果中限制网页的域名，看是否出现在结果中。例如搜索知乎，有990,000条相关结果。这不是你的全部网站。如果您注册免费的 Google Search Console，您可以提交网站站点地图以查看有多少页面被编入索引，并且您可以更改设置以使用 robots.txt 以防止 Google 抓取您的一些隐私的页数。

　　简述其他搜索命令。

　　filetype：限制文件类型，如filetype:pdf，只搜索PDF文件

　　intitle：限制网站的标题

　　inurl：限制网站的地址

　　intext：限制文本

　　有时，您的网站可能找不到，为什么？有几个原因：

　　你可能已经注意到我说了几次robot.txt，那么它是什么？

　　机器人.TXT

　　Robots.txt 是一个文本文件，它指示爬虫如何爬取网站。它是机器人排除协议的一部分，这是一组管理机器人应如何抓取网站、索引内容并将其提供给用户的网络标准。在实践中，这个文件指定了哪些用户代理（user agent）可以（允许）哪些部分不能（不允许）爬取。

　　如下图所示，就是一个完整的模板：

　　User-agent: [user-agent name]

Disallow: [URL string not to be crawled]

　　例如，这是知乎的 robots.txt 的一部分

　　常用命令如下：

　　可以看出，知乎仍然是一视同仁的，它不允许谷歌和谷歌图片、百度新闻爬虫爬取登录页面、修改密码页面、搜索页面等。那么谷歌和百度的爬虫也会这样做吗？

　　通常当一个网页到达，但还没有开始爬取时，搜索引擎爬虫会首先检查是否有robots.txt文件。如果有，爬虫就会读取，因为上面有指导爬虫如何爬取页面的信息。如果在 robots.txt 文件中不存在 disallow 命令或不存在该文件，则会继续爬取。

　　刚才也提到了网站架构和sitemap，那么爬虫为什么需要网站架构呢？

　　就像爬虫需要从其他网站中发现您的网站一样，它也需要您的网站上的链接路径将其一一引导到内部页面。如果您希望爬虫发现您的某个页面，但您忘记将其链接到任何页面，则不会发现它。有些网站犯了这个致命的错误，把导航放在搜索引擎找不到的地方，阻止他们的网站出现在搜索结果中。

　　网站站点地图与名称一样，是您的网站上的地址列表，爬虫可以跟踪这些地址以发现和索引您的网站。确保 Google 找到您最重要的网站的最简单方法是按照 Google 的标准创建一个文件并将其提交到 Google Search Console。导航也是一个不可或缺的重要功能，可以确保爬虫一路找到你的网页。

　　第二个问题是，Google 能否成功索引您的网页？

　　当您确定您的网站已被抓取时，第二步是确保它已被编入索引。仅仅因为您的网站被发现并被抓取并不意味着它将被存储在搜索引擎的数据库中。爬虫找到网页后，搜索引擎会对网页进行渲染，然后对网页内容进行分析，所有信息都会存储在索引中。

　　未编入索引的一些常见原因：

　　如果您发现您的页面之前可以被索引，但没有出现在搜索结果中，您可以使用 Google 的 URL Inspection 工具检查索引状态，或者使用 Fetch as Google 中的“请求索引”功能提交索引请求.

　　如果你的网页可以被抓取和索引，最重要的问题是如何提高排名。这个问题是一门专业知识，叫做搜索引擎优化。有许多描述这种方法的好书。

　　例如：

　　SEO 101 每个傻瓜都可以学习的SEO艺术

　　总之，如果谷歌还不能进入中国大陆，我希望百度可以取其糟粕的精华，或者其他一些搜索引擎来扛起中国互联网引擎的大旗。

0

2022-01-22

百度的搜索引擎优化怎么做

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

百度的搜索引擎优化怎么做(李彦宏在百度AI开发者大会上泼给AI的最后愣了)

0 个评论

发起人