网络爬虫如何采集Surface Web, Deep Web, Dark Web?

优采云发布时间: 2022-05-12 07:46

　　报名

　　4-5月计算机相关会议汇总

　　4月21-22日，北京

　　全国高校微信小程序系列课程教学研讨会

　　4月20—22日，杭州

　　首届人工智能教育高峰论坛通知

　　5月12-13日，上海

　　第八届高等学校计算机类课程教学论坛——新工科背景下的课程建设与创新

　　5月19-20日，成都

　　第二届大数据教育高峰论坛通知——数字经济时代背景下的产业变革与人才培养创新

　　5月25-27日，西安

　　全国高校互联网程序开发、计算机导论、智能科学与技术系列课程高级研修班

　　会议详细通知下载地址（扫描二维码也可以下载）

　　首先介绍一下三种典型的Web，即Surface Web、Deep Web、Dark Web。

　　表面网络（Surface Web）指存储在Web服务器、由超链接连接起来的网页，这些网页通常是静态网页或直接存储于Web服务器的图片、文件等资源。

　　深网（Deep Web）是指那些存储在Web站点的数据库系统、文件里面的数据，这些信息通常需要通过动态网页才能访问到。Invisible Web, Hidden Web 是Deep Web的别称。

　　暗网（Dark Web）包含那些故意隐藏的信息和网站，并且无法通过我们每天使用的浏览器访问，通常只能通过特殊的软件和特定的URL进入。

　　这三种Web上都有丰富的信息，网络爬虫都能采集这些Web上的信息吗?

　　显然，Surface Web中存在着基于URL链接所构成的“蜘蛛网”，它们可以作为爬虫的路线，大量的开源爬虫也就是针对Surface Web的爬行。

　　Deep Web并不存在“蜘蛛网”，在Deep Web上进行信息采集实际上是通过Web页面去执行数据库查询。目前针对Deep Web的开源爬虫几乎没有，这是因为Deep Web需要具体领域的本体知识库作为采集的知识。比如要通过图书查询页面将后台数据库中的所有图书提取出来，没有关于出版社、作者或ISBN号的构成原则等知识是无法获取的。

　　（这两种Web的爬虫在《互联网大数据处理技术与应用》一书中有详述）

　　大部分的Dark Web网站使用匿名的Tor技术或使用类似的软件如I2P等来访问，因此现有普通爬虫肯定是不可行性的。但是可以通过一种称为OnionScan的工具可以来实现暗网爬虫，通过它，暗网爬虫可以扫描暗网中的隐藏服务，并收集一些潜在的泄漏数据。

　　值得一提的是，Tor最初是美国政府的一个项目，Tor通过多台电脑迂回发送聊天信息、电子邮件等，像洋葱包裹其核心那样掩饰互联网用户的活动，信息传输在每一步都被加密，无从得知用户所处位置和信息传输目的地。正是由于其匿名性，面向Surface Web、Deep Web的普通爬虫可以利用Tor来获取代理IP列表，对抗基于IP地址识别的反爬虫技术，这比在网上搜索免费代理要健壮得多。具体方法是，使用tor在本机搭建一个出口端口，让需要更换ip的爬虫程序指向的该端口，可使用的ip池子总数很大。但Tor网络，在国内是不能访问的。

0

2022-05-12

采集网站内容

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

网络爬虫如何采集Surface Web, Deep Web, Dark Web?

0 个评论

发起人

AI时代内容工厂

网络爬虫如何采集Surface Web, Deep Web, Dark Web?

0 个评论

发起人

相关问题