采集网站内容(,研究如何全面收集暗网资源、分析其网络组织结构)

优采云 发布时间: 2021-09-03 23:16

  采集网站内容(,研究如何全面收集暗网资源、分析其网络组织结构)

  [摘要]:暗网是互联网上一个难以通过公共渠道访问和检索的网络空间。在保护用户隐私的同时,暗网也成为*敏*感*词*支、*敏*感*词*、*敏*感*词*交易等违法*敏*感*词*活动的温床。因此,研究如何综合采集暗网资源,分析其网络组织结构,并根据危害程度对内容进行分类,对于保护网络空间安全具有现实紧迫性和重要应用价值。暗网域名不公开发布,存在时间短或变化频繁,动态性强,暗网与明网之间几乎没有联系,很难找到暗网的域名地址;暗网不同于明网 sigma 的各种特性限制了标准技术的适用性,增加了暗网空间结构和内容分布研究的难度。基于以上问题,本文分析研究了域名采集、Tor、I2P和ZeroNet三种匿名网络的网络结构和内容的危害。主要贡献包括:(1))针对暗网域名难找问题,基于Tor匿名网络搜索明网关键词采集域名,提出一种基于暗网域名的方法Tor2web软件项目查找更多搜索关键词基于现有方法,新搜索到了16个关键词;从现有的 Tor 和 I2P 匿名网络的域名采集方法出发,根据 ZeroNet 的工作原理和运行机制,提出了 ZeroNet 匿名网络的域名地址采集方法有四种,共有 19,651 个唯一的 ZeroNet域名已被采集。 (2)针对如何有效分析暗网结构的问题,提出了一种基于网站间的复杂超链接结构。网络图法,通过对暗网复杂网络结构的分析,发现暗网具有网络结构松散、孤立节点过多的特点,其基于超链接结构的复杂网络具有无标度、小世界的特点,但不具备分层模块的特点;网络攻击方法根据节点的无标度特征来评估节点的重要性,并选择点度中心性指标作为网站importance排序的依据。(3)针对如何定义网站content为针对违法性问题,提出了一种基于网站危害程度的网站分级方法,主要思想是根据*敏*感*词*分论中的相关法律规定,对违法网站的危害程度进行标注,根据非法网站、网站importance、网站影响力、网页流行度的危害程度进行分析。非法网站分为严重危害、危害和影响、危害三个级别,然后根据是否有链接指向非法网站,将其他网站分为两个级别,潜在危害和无害;现阶段,根据暗网域名的发布和采集方式以及暗网用户的行为习惯,利用采集的域名数量提升PageRank算法,提升网站homepage的链接热度。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线