抓取网页数据(网站运营应该怎样抓取用户的注意力》工具和机器人网络抓取)

优采云发布时间: 2021-09-19 03:18

　　Web爬行是使用机器人从网站网页中提取内容和数据的过程

　　与仅复制屏幕上显示的像素的屏幕抓取不同，网络抓取提取底层HTML代码并使用它提取存储在数据库中的数据。然后，抓取工具可以将整个网站内容复制到其他地方

　　网络爬网用于依赖数据采集的各种数字服务。合法用例包括：

　　搜索引擎机器人抓取网站，分析其内容，然后对其进行排名

　　比价网站部署机器人，自动获取联盟卖家网站的价格和产品说明@

　　使用爬网工具从论坛和社交媒体中提取数据（例如，用于情感分析）

　　网络抓取也被用于非法目的，包括降低价格和窃取受版权保护的内容。被scraper攻击的在线实体可能遭受严重的经济损失，特别是如果它是一家强烈依赖竞争性定价模型或内容分发交易的企业。推荐阅读：网站operation如何吸引用户注意力

　　夹持工具和机器人

　　网络捕获工具是用于过滤数据库和提取信息的软件（即机器人）。使用了多种类型的机器人，其中许多可完全定制：

　　由于所有捕获机器人都有相同的目的——访问站点数据——因此很难区分合法机器人和恶意机器人

　　也就是说，有几个关键区别有助于区分两者

　　合法的机器人被确定为他们的目标组织。例如，Google机器人在其HTTP头中将自己标识为属于Google。相反，恶意机器人通过创建假的HTTP用户代理来模拟合法流量

　　合法的机器人遵循网站robots.txt文件，该文件列出了机器人可以访问的页面和无法访问的页面。另一方面，恶意爬网工具将在不考虑网站操作员许可的情况下爬网网站

　　运行网络爬虫机器人所需的资源如此巨大，以至于合法的爬虫机器人运营商在服务器上投入巨资来处理大量提取的数据

　　缺乏这种预算的罪犯经常使用僵尸网络——地理上分散的计算机，感染同一个恶意软件，并从一个中心位置控制它。个人僵尸网络计算机所有者不知道他们的参与。受感染系统的综合能力使罪犯能够捕获许多不同的病毒网站. 推荐阅读：网站描述百度没有捕获它的原因

　　恶意网页抓取示例

　　在未经网站owner许可提取数据时，网络爬网被认为是恶意的。两个最常见的用例是价格捕获和内容盗窃

　　抢夺价格

　　在价格捕获中，*敏*感*词*分子通常使用僵尸网络启动捕获机器人来检查竞争对手的商业数据库。目标是获取定价信息，削弱竞争对手，促进销售

　　攻击通常发生在产品易于比较且价格在购买决策中起重要作用的行业。价格爬行的受害者可能包括旅行社、售票员和在线电子产品供应商

　　例如，以相对一致的价格销售类似产品的智能手机电子贸易商往往成为目标。为了保持竞争力，他们有动机提供尽可能最好的价格，因为客户通常选择成本最低的产品。为了获得优势，供应商可以使用机器人不断捕获竞争对手的网站，并立即相应地更新其价格

　　对于肇事者，成功获取价格可能会导致他们的报价在对比网站中突出显示-客户将其用于研究和购买。同时，被捕获的网站经常遭受客户和收入损失

　　内容捕获

　　内容抓取包括对给定站点的*敏*感*词*内容盗窃。典型的目标包括在线产品目录和依靠数字内容推动的业务网站. 对于这些企业来说，内容抓取攻击可能是毁灭性的

　　例如，在线本地企业目录在构建其数据库内容方面投入了大量的时间、金钱和精力。刮削可能会导致它完全被释放到野外进行垃圾邮件活动或转售给竞争对手。任何这些事件都可能影响企业的底线及其日常运营

　　以下摘自Craigslist提交的投诉，详细介绍了其在内容捕获方面的经验。它强调了这种做法的破坏性：

　　“[内容捕获服务]每天向Craigslist发送大量数字机器人，复制和下载数百万Craigslist用户的广告全文。[该服务]然后通过其所谓的“数据源”不分青红皂白地向这些被盗的列表提供信息“--给任何想将其用于任何目的的公司。其中一些“客户”每月为这些内容支付高达20000美元的费用。。。"

　　根据该索赔，捕获的数据用于垃圾邮件和电子邮件欺诈以及其他活动：

　　“[被告]然后从数据库中获取Craigslist用户的联系信息，并每天向Craigslist服务器获取的地址发送数千封电子邮件。。。[message]在垃圾邮件正文中收录误导性的主题行和内容，以诱使Craigslist用户从Craigslist服务切换到[defender's]服务……”

　　网络爬网保护

　　恶意爬虫程序变得越来越复杂，这使得一些常见的安全措施变得无效。例如，无头浏览器机器人可以伪装*敏*感*词*类，因为它们在大多数缓解方案的雷达下飞行

　　为了对抗恶意机器人操作员的进步，Imperva使用了复杂的流量分析。它确保进入网站的所有流量，无论是人类还是机器人，都是完全合法的

　　该过程涉及因素的交叉验证，包括：

　　HTML指纹–过滤过程从对HTML标题的细粒度检查开始。这些可以提供关于访问者是人类还是机器人、恶意还是安全的线索。将标题签名与收录1000多万个已知变体的不断更新的数据库进行比较

　　IP声誉–我们从针对客户的所有攻击中采集IP数据。从用于攻击的IP地址进行访问是可疑的，更可能受到进一步审查

　　行为分析——跟踪访客与网站的互动方式可以揭示异常行为模式，如可疑的攻击性请求率和不合逻辑的浏览模式。这有助于识别伪装成成年访客的机器人

　　增量挑战-我们使用一系列挑战，包括cookie支持和JavaScript执行，来过滤机器人并最小化误报。作为最后手段，验证代码挑战可以消除试图伪装成*敏*感*词*的机器人。建议阅读：网站异常抓取的原因是什么

0

2021-09-19

抓取网页数据

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

抓取网页数据(网站运营应该怎样抓取用户的注意力》工具和机器人网络抓取)

0 个评论

发起人

AI时代内容工厂

抓取网页数据(网站运营应该怎样抓取用户的注意力》工具和机器人网络抓取)

0 个评论

发起人

相关问题