内容采集(您是否正在寻找一种方法来防止垃圾评论(组图))

优采云 发布时间: 2021-12-31 19:15

  内容采集(您是否正在寻找一种方法来防止垃圾评论(组图))

  您是否正在寻找一种方法来防止垃圾评论发送者和诈骗者使用内容抓取工具采集您的 WordPress 博客内容?

  作为网站的拥有者,我看到有人在未经许可的情况下采集你的内容,并从中获利,在谷歌等搜索引擎上排名高于你,这非常令人沮丧。

  在本教程中,我们将介绍什么是博客内容采集,如何减少和防止内容采集,甚至如何使用内容抓取来为自己谋利。

  

  什么是博客内容抓取?

  博客内容采集 抓取指的是从许多来源获得并在另一个站点上重新发布的内容。通常这是通过您博客的 RSS 提要自动完成的。

  内容抓取现在非常容易。任何人都可以启动 WordPress网站,放置免费或商业主题,并安装一些插件,这些插件可以采集 所选博客的内容。

  为什么内容爬虫采集我的内容?

  我们的一些用户问我们为什么要采集我的内容?答案很简单,因为你很棒。事实是,这些内容爬虫别有用心。以下是有人会采集您的内容的几个原因:

  这些只是有人会采集您的内容的几个原因。

  如何捕捉内容爬虫?

  捕获内容爬虫是一项乏味的任务,可能需要花费大量时间。您可以通过多种方式捕获内容抓取工具。

  使用您的文章标题在 Google 上搜索

  是的,听起来很痛苦。这种方法可能不值得,特别是如果您正在撰写一个非常受欢迎的主题。

  引用

  如果你在文章中添加内部链接,如果你网站采集你的内容,你会注意到引用。这种方法几乎可以告诉您他们正在抓取您的内容。

  如果您使用 Akismet,其中许多参考资料将出现在垃圾邮件评论文件夹中。同样,这仅在 文章 中有内部链接时才有效。

  Ahrefs

  如果您可以使用 Ahrefs 等 SEO 工具,您就可以监控您的反向链接并留意被盗内容。

  如何处理内容爬虫

  人们在处理内容时使用的方法很少采集工具:什么都不做,删除方法,或者使用它们。

  让我们来看看每一个。

  无所事事的方式

  这是迄今为止您可以采用的最简单的方法。通常最热门的博主都会推荐这个,因为对抗爬虫需要很多时间。

  现在很明显,如果是像Smashing Magazine、CSS-Tricks、Problogger等知名博客,那他们就不用担心了。他们是 Google 眼中的权威网站。

  但是,我们知道一些好的网站被标记为采集工具,因为谷歌认为他们的采集工具是原创内容。因此,在我们看来,这种方法并不总是最好的。

  采取措施

  这与“什么都不做”的方法完全相反。在这种方法中,您只需要联系爬虫并要求他们删除内容即可。

  如果他们拒绝这样做或根本不响应您的请求,那么您可以向他们的主机提交 DMCA(数字千年版权法案)。

  根据我们的经验,大多数爬虫 网站 没有可用的联系表。如果他们这样做了,那就好好利用它。如果他们没有联系表格,那么您需要进行 Whois 查询。

  

  您可以查看管理联系人的联系信息。通常管理和技术联系人是相同的。

  它还会显示域注册商。大多数知名的网络托管公司和域名注册商都有 DMCA 表格或电子邮件。你可以看到这个特定的人使用 HostGator 是因为他们的域名服务器。 HostGator 有一份 DMCA 投诉表。

  如果名称服务器相似,则必须通过反向IP查找和IP搜索进行更深入的挖掘。

  您也可以使用第三方服务进行删除。

  Jeff Starr 在他的 文章 中建议你应该屏蔽坏人的 IP。访问您的日志以获取其 IP 地址,然后在根 .htaccess 文件中使用以下内容来阻止它:

  Deny from 123.456.789

  您还可以通过执行以下操作将它们重定向到虚拟提要:

  RewriteCond %{REMOTE_ADDR} 123\.456\.789\.

RewriteRule .* http://dummyfeed.com/feed [R,L]

  正如杰夫所建议的,您可以在这里获得真正的创造力。将它们发送到收录 Lorem Ipsum 的非常大的文本提要。您可以向他们发送令人作呕的坏事的图片。您也可以将它们直接发送回它们自己的服务器,从而导致无限循环并使其 网站 崩溃。

  我们采用的最后一种方法是使用它们。

  如何使用内容爬虫

  我们就是这样处理内容爬虫的,效果非常好。它有助于我们的 SEO 并帮助我们赚取额外收入。

  大多数抓取工具使用您的 RSS 提要来采集 您的内容。因此,您可以执行以下操作:

  查看我们的指南,了解如何在 WordPress 中控制您的 RSS Feed 页脚以获取更多提示和想法。

  如何减少和防止WordPress博客爬行

  考虑到如果您使用我们广泛的内部链接方法,添加附属链接、RSS 横幅等,您可能会在很大程度上减少内容抓取。如果您遵循 Jeff Starr 重定向内容爬虫的建议,它也会阻止这些爬虫。除了我们上面分享的内容,您还可以使用其他一些技巧。

  完整和摘要 RSS 提要

  博客社区一直在争论是否有完整的 RSS 提要或摘要 RSS 提要。我们不会详细讨论这场辩论,但拥有仅摘要 RSS 提要的优势之一是您可以防止内容抓取。

  您可以通过转到 WordPress 管理后台并转到设置»阅读来更改设置。然后更改提要中每个 文章 的设置,包括全文或摘要。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线