网站内容抓取(网站所有者许可的提取数据被认为是恶意的。。)

优采云 发布时间: 2021-12-16 15:02

  网站内容抓取(网站所有者许可的提取数据被认为是恶意的。。)

  在未经网站所有者许可的情况下提取数据时,通过网站进行抓取被认为是恶意的。两个最常见的用例是价格抓取和内容盗窃。

  价格爬行

  在价格抓取中,*敏*感*词*分子通常使用僵尸网络开始抓取机器人以检查竞争业务数据库。目标是获取定价信息,削弱竞争对手并促进销售。

  攻击经常发生在产品易于比较且价格在购买决策中起着重要作用的行业。价格爬取的受害者可能包括旅行社、售票员和在线电子产品供应商。

  

  网站 爬虫攻击类型及防护方法

  例如,以相对一致的价格销售同类产品的智能手机电子经销商往往成为目标。为了保持竞争力,他们有动力提供尽可能最优惠的价格,因为客户通常会选择成本最低的产品。为了获得优势,供应商可以使用机器人不断抓取竞争对手的网站,并立即相应地更新价格。

  对于肇事者来说,成功的价格爬行可能会导致他们的报价在比较中突出显示网站 - 客户将其用于研究和购买。同时,被*敏*感*词*的网站经常遭受客户和收入的损失。

  内容抓取

  内容抓取包括从给定站点的*敏*感*词*内容窃取。典型的目标包括在线产品目录和 网站 依靠数字内容来推动业务。对于这些公司来说,内容抓取攻击可能是毁灭性的。

  例如,在线本地企业目录投入大量时间、金钱和精力来构建其数据库内容。刮取可能会导致其全部被释放、用于垃圾邮件活动或转售给竞争对手。这些事件中的任何一个都可能影响公司的底线及其日常运营。

  以下是Craigslist提交的投诉的摘录,其中详细介绍了其在内容抓取方面的经验。它强调了这种方法的破坏性:

  “[内容抓取服务] 每天都会向 craigslist 发送大量数字机器人,以复制和下载数百万 craigslist 用户广告的全文。[该服务] 然后通过它所谓的“数据馈送”不分青红皂白地传播这些盗用的列表“-对于任何想要将它们用于任何目的的公司。其中一些‘客户’每月为这些内容支付高达 20,000 美元的费用……”

  根据索赔,捕获的数据用于垃圾邮件和电子邮件欺诈,以及其他活动:

  “[被告]然后从数据库中检索craigslist用户的联系信息,每天向从craigslist服务器获得的地址发送数千封电子邮件......[邮件]在垃圾邮件正文中收录误导性主题的行和内容是设计的吸引 craigslist 用户从使用 craigslist 服务切换到使用 [Defender's] 服务......”

  网络爬虫保护

  恶意爬虫变得越来越复杂,导致一些常见的安全措施失效。例如,无头浏览器机器人可以伪装*敏*感*词*类,因为它们在大多数缓解解决方案的雷达下飞行。

  该过程涉及因素的交叉验证,包括:

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线