网页flash文本抓取器(网站可以通过哪些方式阻止网页抓取工具?您如何确定机器人)

优采云 发布时间: 2022-02-24 14:17

  网页flash文本抓取器(网站可以通过哪些方式阻止网页抓取工具?您如何确定机器人)

  这个问题已经有了最佳答案,请点击这里访问。

  网站如何阻止网络爬虫?您如何判断机器人是否正在访问您的服务器?

  简单的机器人无法从 Flash、图像或声音中获取文本。

  不幸的是,您的问题类似于人们问您如何阻止垃圾邮件。没有固定的答案,也不会阻止持久的人类/机器人。

  但是,这里有一些方法可以做到:

  使用 robots.txt 检查用户代理(尽管这可能是欺骗的)(适当的机器人会 - 希望尊重这一点)以检测过于一致地访问许多页面的 IP 地址(每“x”秒)。手动或在系统中创建标记以检查谁在您的站点上并阻止刮板采取的某些路线。不要在 网站 上使用标准模板,创建通用 CSS 类 - 不要在代码中添加 HTML 注释。

  您可以使用 robots.txt 阻止注意到它的机器人(但仍允许通过 google 等从其他已知实例访问),但不会阻止忽略它的机器人。您可能可以从 Web 服务器日志中获取用户代理,或者您可以更新代码以将其记录在某处。然后,如果您想阻止特定用户代理访问您的 网站,只需返回空白/默认屏幕和/或特定服务器代码。

  诸如“不良行为”之类的东西可能会有所帮助:

  来自他们的 网站:

  Bad Behavior 旨在集成到基于 PHP 的 网站 中,并在垃圾邮件机器人有机会向您的 网站 发送垃圾邮件甚至爬取您的页面以获取电子邮件地址和表单填写之前尽早运行以丢弃垃圾邮件机器人。

  不良行为不仅可以防止对您网站造成实际损害,还可以防止许多电子邮件地址采集器,减少电子邮件垃圾邮件,并使用许多有助于提高网站安全性的自动网站破解工具。

  爬虫在某种程度上依赖于从页面加载到页面加载的标记一致性。如果您想让他们的生活变得困难,您可以提供一项可根据要求更改标签的服务。

  我认为没有一种方法可以完全按照您的意愿行事,因为在 网站crawlers/crawlers 中,您可以在请求页面时编辑所有标头,例如 User-Agent 并且您将无法确定是否有一个来自 Mozilla Firefox 的用户仍然是一个刮板/抓取器...

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线