js 抓取网页内容(基于网页分析的钓鱼网站过滤技术进行验证。)

优采云发布时间: 2021-11-08 01:12

　　0 简介随着电子邮件的广泛使用，随之而来的垃圾邮件问题也越来越严重。它不仅消耗网络资源，占用网络带宽，浪费用户宝贵的时间和上网费用，还诱使用户泄露个人信息，从而对网络安全和财务安全构成严重威胁。网络钓鱼电子邮件是典型的垃圾邮件类型。他们通过伪装的电子邮件引导收件人连接到特制的网页，从而达到窃取用户信息的目的。网络钓鱼邮件的泛滥将导致大量用户暴露甚至遭受损失。财产损失。鉴于大量垃圾邮件，尤其是钓鱼邮件，在互联网上泛滥成灾，危害极大，*敏*感*词*科研人员进行了相应的研究，提出了多项垃圾邮件过滤技术，取得了丰硕的成果。本文提出了一种优化的网络爬行分析技术，可以从网页中提取一些更深层次的特征，并在此基础上完成了基于网络爬行分析和统计压缩模型的垃圾邮件过滤系统的设计和实现。最后，通过仿真实验验证了五个新特征的有效性。1 基于网页爬取分析的垃圾邮件过滤技术1. 1 传统网页过滤技术的缺陷传统网页过滤技术主要有视觉类似钓鱼网站过滤技术，基于网页爬取分析的Phishing 网站过滤技术和基于网络拓扑的网络钓鱼网站过滤技术，其中基于网络爬行分析的网络钓鱼网站过滤技术是当前研究的主流。基于视觉相似度的网络钓鱼网站过滤技术主要是通过分析原创网页与仿冒网页的相似度来过滤网络钓鱼网站。

　　一些研究使用基于 Web HTML 的相似性分析。但是，由于网页 HTML 的灵活性，HTML 结构有很大不同，但显示效果几乎相同。此时，该方法将无效。基于网络拓扑的过滤方法的基本原理是：网络钓鱼网站的拓扑结构比较正常网站会简单很多。但是这种爬取网站中所有网页的方法需要太多的网络带宽和系统资源。另外，目前很多正常的网站拓扑也很简单，导致这种过滤方式可能会失效。基于网络爬行分析的网络钓鱼网站过滤技术是目前研究最多的网络钓鱼网站过滤技术。这项技术抓取网页，然后分析网页内容并提取一些特征，例如网页。表单特征、网页中的JS脚本特征、网页中的链接特征、网页中的logo图像特征等，最后使用分类器进行分类过滤。这种网页方法的分析仅限于当前网页，表单的分析也仅限于登录表单中是否有action属性以及表单中是否有不良action属性的分析。这种形态分析方法的TPR虽然是90%，但是FPR也达到了10%，效果还是不理想。1.2 本文首次提取的网页特征是垃圾邮件检测系统极其关键的环节。该系统对抓取的网页特征进行了更深入的分类。

　　被抓取网页的静态特征是通过直接分析被抓取网页的内容得到的，而被抓取网页的动态特征则需要通过填写表单、提交表单等一些操作来分析。21个特征，分类说明如下： 1) 网页网址特征：网页网址中的点数与域名的组合即为IP名称；原创网址中的特殊符号、网址中敏感词的数量、顶级域名等错位。2)抓取网页的静态特征：网页中表单数量、不良登录表单动作、个人隐私信息量、网站标题、网站标志图片、未匹配链接，糟糕的脚本，仿公司名称，搜索表单功能。3) 抓取网页动态特征：提交登录表单，登录后的网页内容。4) 第三方工具搜索结果特征：网站域名年龄、网页搜索引擎结果、网站公司名称搜索结果、网站搜索结果。其中，提交登录表单、登录后网页内容、个人信息填写表单、不良搜索表单属性、站点搜索结果五个特征是本文首次提出的，分别描述为如下： 1.2.1 提交登录表单是基于窃取用户隐私信息的目的。钓鱼登录表单网站根本不检查表单的输入。即使不填写表单，也可以直接输入表单的action字段对应的网页地址。并且正常合法的网站都会有账号

0

2021-11-08

js 抓取网页内容

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

js 抓取网页内容(基于网页分析的钓鱼网站过滤技术进行验证。)

0 个评论

发起人

AI时代内容工厂

js 抓取网页内容(基于网页分析的钓鱼网站过滤技术进行验证。)

0 个评论

发起人

相关问题