网站内容抓取(如何在web主机上强制重定向的做法中使用以下代码)
优采云 发布时间: 2021-10-22 17:13网站内容抓取(如何在web主机上强制重定向的做法中使用以下代码)
正确的方法是:其中一个重定向到另一个而不是两个。如果同时加载两个,那么站点的版本安全就会有问题。如果您在浏览器中输入网站的网址,请分别测试和测试。
如果两个 URL 都加载了,则会显示两个版本的内容,重复的 URL 可能会导致重复的内容。
为确保您不再遇到此问题,您需要根据站点的平台执行以下操作之一:
在HTACCESS中创建完整的重定向模式(在Apache/CPanel服务器上);
使用 WordPress 中的重定向插件强制重定向。
4、如何在Apache/Cpanel服务器的htaccess中创建重定向
您可以在 Apache/CPanel 服务器的 .htaccess 中执行服务器级全局重定向。Inmotionhosting 有一个很好的教程,教你如何在你的虚拟主机上强制重定向。
如果强制所有网络流量使用HTTPS,则需要使用以下代码。
确保将此代码添加到具有类似前缀(RewriteEngineOn、RewriteCond 等)的代码之上。
重写引擎开启
RewriteCond%{HTTPS}!on
RewriteCond%{REQUEST_URI}!^/[0-9]+\..+\.cpaneldcv$
RewriteCond%{REQUEST_URI}!^/\.well-known/pki-validation/[A-F0-9]{32}\.txt(?:\Comodo\DCV)?$
RewriteRule(.*)%{HTTP_HOST}%{REQUEST_URI}[L,R=301]
如果只想重定向到特定域,则需要在 htaccess 文件中使用以下代码行:
RewriteCond%{REQUEST_URI}!^/[0-9]+\..+\.cpaneldcv$
RewriteCond%{REQUEST_URI}!^/\.well-known/pki-validation/[A-F0-9]{32}\.txt(?:\Comodo\DCV)?$
重写引擎开启
RewriteCond%{HTTP_HOST}^example\.com[NC]
RewriteCond%{SERVER_PORT}80
重写规则^(.*)$$1[R=301,L]
注意:如果您不确定对服务器进行正确的更改,请确保您的服务器公司或 IT 人员执行这些维修。
5、如果你运行的是WordPress网站,请使用插件
解决这些重定向问题的简单方法是使用插件,尤其是在运行 WordPress网站 时。
许多插件可以强制重定向,但这里有一些插件可以使这个过程尽可能简单:CMHTTPSPro、WPForceSSL、EasyHTTPSRedirection。
关于插件的注意事项:如果您使用了过多的插件,请不要添加。
您可能需要调查您的服务器是否可以使用上述类似的重定向规则(例如,如果您使用的是基于 NGINX 的服务器)。
这里需要声明:插件的权重会对网站的速度产生负面影响,所以不要总以为新的插件会对你有帮助。
6、所有网站链接都应该从
即使执行了上述重定向,也应执行此步骤。
如果您使用绝对 URL 而不是相对 URL,则应该这样做。因为前者总是显示你正在使用的超文本传输协议,如果你使用的是后者,那么你就不需要多注意这个了。
为什么在使用绝对 URL 时需要更改实时链接?因为 Google 会抓取所有这些链接,所以这可能会导致重复的内容。
这似乎是在浪费时间,但事实并非如此。您需要确保 Google 可以准确捕获您的 网站。
7、确保从到的转换,没有404页面
404页面的突然增加可能会让你的网站无法操作,尤其是有页面链接的时候。
另外,由于显示的404页面过多,谷歌没有找到应该抓取的页面,会造成抓取预算的浪费。
Google 负责人 John Mueller 指出,爬取预算并不重要,除非是针对大型网站。
John Mueller 在 Twitter 上表示,他认为爬行预算优化被高估了。对于大多数网站,它没有任何作用,只能帮助*敏*感*词*的网站。
“IMO 的抓取预算被高估了。实际上,大多数网站 不需要担心。如果您正在抓取网页或运行具有数十亿个 URL 的 网站,这非常重要,但是对于普通的网站来说并不是很重要。”
SEOPowerSuite相关负责人YauhenKhutarniuk的文章文章也对这一点进行了阐述:
”按道理来说,你应该注意抓取预算,因为你希望谷歌在你的网站上发现尽可能多的重要页面。你也希望它在你的网站上快速找到新的内容,您的抓取预算越大(管理越聪明),这将发生得越快。”
优化你的抓取预算非常重要,因为在网站上快速找到新内容是一项重要的任务,你需要在网站上发现尽可能多的优先页面。
8、如何修复可能出现的 404 页面
首先,将 404 从旧 URL 重定向到新的现有 URL。
一个更简单的方法是,如果你有WordPress网站,使用ScreamingFrog抓取网站,使用WordPress重定向插件进行301重定向规则批量上传。
9、网址结构不要太复杂
在准备技术 SEO 时,URL 的结构是一个重要的考虑因素。
这些东西你也一定要注意,比如随机生成索引的动态参数、不易理解的URL,以及其他在技术SEO实施中可能会出现问题的因素。
这些都是重要的因素,因为它们可能会导致索引问题,从而损害 网站 的性能。
10、 更人性化的网址
创建 URL 时,您可以考虑相关内容,然后自动创建 URL。然而,这可能并不合理。
原因是自动生成的 URL 可以遵循几种不同的格式,没有一种是非常用户友好的。
例如:
(1)/content/date/time/keyword
(2)/Content/Date/Time/Number string
(3)/内容/类别/日期/时间/
(4)/content/category/date/time/parameter/
正确传达 URL 背后的内容是关键。由于可访问性,它在今天变得更加重要。
URL 的可读性越高越好:如果有人在搜索结果中看到您的 URL,他们可能更愿意点击它,因为他们会确切地看到 URL 与他们搜索的内容的相关性。简而言之,URL 需要匹配用户的搜索意图。
许多现有的 网站 使用过时或混乱的 URL 结构,导致用户参与度低。如果您有一个对用户更友好的 URL,您的 网站 可能会有更高的用户参与度。
11、 重复的 URL
在构建任何链接之前需要考虑的一个 SEO 技术问题是:内容重复。
说到内容重复,主要有以下几个原因:
(1)在网站的各个部分显着重复的内容。
(2) 从其他 网站 抓取内容。
(3) 重复的 URL,其中只存在一个内容。
因为当多个 URL 代表一个内容时,它确实会混淆搜索引擎。搜索引擎很少同时显示相同的内容,重复的 URL 会削弱其搜索能力。
12、避免使用动态参数
尽管动态参数本身不是 SEO 问题,但如果您无法管理它们的创建并使其在使用中保持一致,它们将来可能会成为潜在威胁。
JesScholz在搜索引擎杂志文章上发表了一篇文章,内容涉及动态参数和URL处理的基础知识以及它如何影响SEO。
Scholz 解释说,参数用于以下目的:跟踪、重新排序、过滤、识别、分页、搜索、翻译。
当您发现问题是由 URL 的动态参数引起时,通常将其归因于 URL 的基本管理不善。
在跟踪的情况下,创建搜索引擎抓取的链接时可以使用不同的动态参数。在重新排序的情况下,使用这些不同的动态参数对列表和项目组进行重新排序,然后创建可索引的重复页面,然后被搜索引擎抓取。
如果动态参数没有保持在可管理的水平,可能会在不经意间导致过多重复的内容。
如果不仔细管理一部分内容的创建,这些动态URL的创建实际上会随着时间的推移而积累,这会稀释内容的质量,削弱搜索引擎的执行能力。
还会造成关键词“同类相食”,相互影响,在足够大的范围内严重影响你的竞争力。
13、 短网址比长网址好
长期 SEO 实践的结果是,较短的 URL 优于较长的 URL。
Google 的 John Mueller 说:“当我们有两个内容相同的 URL 时,我们需要选择其中一个显示在搜索结果中,我们会选择较短的一个,这就是规范化。当然,长度不是主要的影响因素,但是如果我们有两个网址,一个很简洁,另一个有很长的附加参数,当它们显示相同的内容时,我们更喜欢选择短的。有很多例子,比如不同的因素在起作用,但在所有其他条件相同的情况下——你有一个较短的和一个较长的,我们也会选择较短的。”
还有证据表明,谷歌优先考虑短网址而不是较长的网址。
如果您的 网站 收录很长的 URL,您可以将它们优化为更短、更简洁的 URL,以更好地反映 文章 的主题和用户意图。
热门标签