网络爬虫如何采集Surface Web, Deep Web, Dark Web?
优采云 发布时间: 2022-05-12 07:46网络爬虫如何采集Surface Web, Deep Web, Dark Web?
报 名
4-5月计算机相关会议汇总
4月21-22日,北京
全国高校微信小程序系列课程教学研讨会
4月20—22日,杭州
首届人工智能教育高峰论坛通知
5月12-13日,上海
第八届高等学校计算机类课程教学论坛——新工科背景下的课程建设与创新
5月19-20日,成都
第二届大数据教育高峰论坛通知——数字经济时代背景下的产业变革与人才培养创新
5月25-27日,西安
全国高校互联网程序开发、计算机导论、智能科学与技术系列课程高级研修班
会议详细通知下载地址(扫描二维码也可以下载)
首先介绍一下三种典型的Web,即Surface Web、Deep Web、Dark Web。
表面网络(Surface Web)指存储在Web服务器、由超链接连接起来的网页,这些网页通常是静态网页或直接存储于Web服务器的图片、文件等资源。
深网(Deep Web)是指那些存储在Web站点的数据库系统、文件里面的数据,这些信息通常需要通过动态网页才能访问到。Invisible Web, Hidden Web 是Deep Web的别称。
暗网(Dark Web)包含那些故意隐藏的信息和网站,并且无法通过我们每天使用的浏览器访问,通常只能通过特殊的软件和特定的URL进入。
这三种Web上都有丰富的信息,网络爬虫都能采集这些Web上的信息吗?
显然,Surface Web中存在着基于URL链接所构成的“蜘蛛网”,它们可以作为爬虫的路线,大量的开源爬虫也就是针对Surface Web的爬行。
Deep Web并不存在“蜘蛛网”,在Deep Web上进行信息采集实际上是通过Web页面去执行数据库查询。目前针对Deep Web的开源爬虫几乎没有,这是因为Deep Web需要具体领域的本体知识库作为采集的知识。比如要通过图书查询页面将后台数据库中的所有图书提取出来,没有关于出版社、作者或ISBN号的构成原则等知识是无法获取的。
(这两种Web的爬虫在《互联网大数据处理技术与应用》一书中有详述)
大部分的Dark Web网站使用匿名的Tor技术或使用类似的软件如I2P等来访问,因此现有普通爬虫肯定是不可行性的。但是可以通过一种称为OnionScan的工具可以来实现暗网爬虫,通过它,暗网爬虫可以扫描暗网中的隐藏服务,并收集一些潜在的泄漏数据。
值得一提的是,Tor最初是美国政府的一个项目,Tor通过多台电脑迂回发送聊天信息、电子邮件等,像洋葱包裹其核心那样掩饰互联网用户的活动,信息传输在每一步都被加密,无从得知用户所处位置和信息传输目的地。正是由于其匿名性,面向Surface Web、Deep Web的普通爬虫可以利用Tor来获取代理IP列表,对抗基于IP地址识别的反爬虫技术,这比在网上搜索免费代理要健壮得多。具体方法是,使用tor在本机搭建一个出口端口,让需要更换ip的爬虫程序指向的该端口,可使用的ip池子总数很大。但Tor网络,在国内是不能访问的。