htmlunit抓取动态网页(目录1.聚焦爬虫的发展在互联网金融领域应用)

优采云 发布时间: 2022-01-21 18:18

  htmlunit抓取动态网页(目录1.聚焦爬虫的发展在互联网金融领域应用)

  导读

  马云说,大数据时代已经到来。现在有太多的互联网公司在做大数据,每个公司都有不止一个数据源。占很大比例的数据源之一是网络爬虫。但是,不同的公司有不同的业务背景,需要不同类型的数据。与用于搜索网站的通用爬虫不同,专注爬虫开始被越来越多的提及。

  内容

  1. 关注爬虫原理

  2. 专注于爬虫的开发

  3. 爬虫在互联网金融领域的应用

  4. 结论

  1.专注于爬虫的原理

  1.1概念

  聚焦爬虫,又称主题爬虫(或专业爬虫),是一种“针对特定主题”的网络爬虫。它与我们通常所说的爬虫(万能爬虫)的区别在于,聚焦爬虫在实现网络爬虫时需要进行主题筛选。它试图确保只抓取与主题相关的网页。

  1.2 关注爬虫的分类

  焦点爬虫主要分为两类。一种是浅焦点爬虫。所谓浅焦点爬虫,就是爬虫程序抓取特定网站的所有信息。它的工作方式和一般的爬虫几乎一样,唯一不同的是*敏*感*词*URL的选择决定了爬取内容的一致性,核心是*敏*感*词*URL的选择。另一种是深度聚焦爬虫。深度聚焦爬虫是指在大量不同内容的网页中,通过主题相关性算法,选择具有相似主题的URL和内容进行爬取。它的核心是如何判断抓取到的 URL 和页面内容是否与主题相关。

  关系如下:

  

  从图中可以看出,浅焦点爬虫可以看成是一种仅限于单一主题网站的通用爬虫,所以我们通常所说的焦点爬虫大多是指深度焦点爬虫。

  1.2.1 浅焦点爬虫

  浅焦点爬虫从一个或几个初始网页的URL开始,(例如分类信息网)获取初始网页上的URL,在抓取网页的过程中,不断地从原创网页中提取新的URL当前页面并将它们放入队列中,直到系统满意为止。某些停止条件。

  其工作流程如下:

  

  可以看出,浅焦点爬虫的基本原理和一般爬虫是一样的。使用主题网站可以保证爬取内容的主题一致。

  1.2.2 深度关注爬行动物

  Deep Focus Crawler 的主要特点是主题一致性。然而,在浩瀚的互联网大数据海洋中,要保证抓取到的数据的一致性并不是一件简单的事情。对于不同的数据需求,所需的策略和方法没有统一的答案。这里不谈具体的解决方案,只讨论常见的解决方案。

  一、对于页面内容

  这个解决方案是先爬取页面,不考虑页面的主题。对页面进行简单去噪后,使用主题提取策略提取处理后的页面内容的主题,最后对比设置的主题,如果主题一致,或者在一定的阈值内,则保存页面进行进一步的数据清洗。如果主题偏差超过阈值,则页面被简单地丢弃。

  这种方法的优点是链接页面被完全覆盖,不会有数据遗漏。但缺点也很致命,那就是全覆盖页面,其中很大一部分是与主题无关的废弃页面,大大减慢了爬虫爬取数据的速度。到了后期,爬取数据的速度将是无法接受的。

  二、对于 URL

  上面介绍的浅焦点爬虫的核心是选择合适的*敏*感*词*URL。这些*敏*感*词* URL 主要是主题 网站 的入口 URL。

  网上的网站一般都有固定的主题,同一个网站中相同主题的页面的URL有一定的规律可循。由此,自然而然地产生了通过URL来预测页面主题的想法。另外,页面中的大部分超链接都有锚文本,锚文本基本上可以看作是对目标页面的概括描述。结合对URL的分析和对锚文本的分析,目标页面的话题预测准确率相当可观。

  但是,这个预测并不能完全保证丢弃的 URL 都是与主题无关的,因此会有一些遗漏。同时,这种方法不能保证预测的页面都与主题相关,所以需要从预测的URL页面中提取页面内容主题,然后对比设置主题做出选择。

  通过以上分析,得到了一个通用的解决方案。就是先通过URL解析,丢弃一些URL。下载页面后,提取页面内容的主题,并与预设的主题进行对比选择。最后进行数据清洗。

  1.3 架构

  深度聚焦爬虫的一般结构如下:

  

  六大组件【控制中心】【下载模块】【提取模块】【清理模块】【复制模块】【资源模块】

  控制模块:控制模块由程序进出、下载调度策略、提取调度策略、清理调度策略和URL重调度策略组成。

  下载模块:根据控制中心发送的URL、IP、COOKIE等下载资源下载页面,并将下载结果返回给控制中心。

  提取模块:接受控制中心下发的页面源代码和提取指标,根据提取指标提取源代码,并将提取结果返回给控制中心。

  清洗模块分为文本清洗和URL清洗。文本清洗根据预设的主题和相应的主题相关性算法决定是丢弃文本还是将文本保存到库中。URL清洗就是根据URL分析结果来预测当前URL链接的页面是否与主题相关。如果相关,则将 URL 返回控制中心,否则丢弃 URL。

  URL去重模块:针对部分主题突出的页面被多个页面链接,导致该页面大量重复下载,造成资源浪费和数据质量低下的情况,调用去重模块丢弃重复的 URL 并将非重复的 URL 返回到已下载资源模块的 URL 队列。

  资源模块:保存下载所需的所有资源,包括代理IP、COOKIE、URL等信息。

  2. 专注于爬虫的开发

  大数据时代,对数据的多样性和针对性的要求越来越高。那么爬虫的架构更加灵活多变。比较常见的开源爬虫框架有Crawler4j、WebMagic、WebCollector、scrapy等。另一方面,对于爬虫的爬取,被爬取的网站也制定了相应的反爬措施。常见的反爬虫方法如下:

  一、限制对经常访问 网站 的 IP 的访问。这是最常见的释放爬虫的方式。具体实施方式为,单位时间内对同一IP的请求次数达到网站设计的阈值,限制该IP访问。面对这种情况,可以制定合适的IP访问策略。

  二、使用js和ajax技术的动态页面。此类网页的源代码中不收录所需的数据,并且该数据包存在于二次请求的返回文档中。对于这样的页面,可以分析请求过程,提取二次请求的URL,得到想要的数据。

  三、其他情况:随着互联网的不断发展,各种反爬虫手段层出不穷。这就需要人们根据实际情况来解决问题。比如使用模拟浏览器(htmlunit、selenium)技术等等。

  总之,没有不可变的互联网,也没有不可变的爬虫。只有拥抱变化,爬虫才能爬得更远。

  3.爬虫在互联网金融领域的应用

  聚焦爬虫作为数据的主要来源之一,说一下聚焦爬虫的应用场景,以我任职的普惠金融信息服务(上海)*敏*感*词*(以下简称普惠)为例例子。

  3.1、网络借贷行业的数据驱动策略

  数据驱动就是获取来贷款客户的指定数据,并根据这些数据和相应的一套算法策略为客户定义一个标签。贷款部门根据客户的标签决定是否向客户贷款以及贷款多少。这种定义标签的方式可以有效防止大部分欺诈性贷款的发生,从而规避风险。

  

  那么,网贷平台如何利用大数据来判断客户的信用呢?大致可以分为两个方面:

  1、查看此人的购物习惯、客户提供的计费信息等。此方法认为,如果一个人经常在网上购物,有详细的银行对账单,并且有正常的通话记录,那么这个人就是一个正常人,具有一定的财务能力。换句话说,这样的人能够偿还贷款。与发达国家完善的征信体系相比,这种评价方法在我国是可行的,并且在一定时期内是有效的。

  2、另一方面,我们认为绝大多数骗子在完成贷款之前不会成为骗子。骗子在贷款之前都是骗子。那么在骗子的行骗生涯中,或多或少都会在网上留下痕迹。比如专门揭露骗子老赖的网站有很多,在一些社交网站上也有很多骗子被针对性曝光。对于这些暴露的数据,平台的大数据中心使用聚焦爬虫进行爬取,然后将爬取的数据保存到黑名单中。

  从以上两点可以看出,无论是抓取交易票据等信息,还是抓取暴露的骗子等数据,都离不开聚焦爬虫的应用。

  然而,随着互联网的不断发展变化,数据风控人员发现,通过传统方式控制风险越来越难。传统方法爬取的数据,基本上都是属于一个人的点数据,是片面的点数据。什么是点数据?如果把每个人都看成一个整体的数据,那么最形象的结构就是人脉数据网络。每个人都是网络中的一个节点,即每个人的数据都是点状数据。由于个人隐私的原因,我们不能也无法获取一个人的全方位数据,只能截取其中的一个或几个。

  使用这些数据来判断一个人的信用等级有两个缺点。一是数据不完整会导致判断不准确。这个缺点是无法避免的。我们只能获取尽可能多的数据,制定更优化的算法模型;其次,随着互联网的发展,点状数据存在更多造假的可能性。例如,如果电子商务的交易记录被故意伪造,很容易产生一批完全符合高信用等级的交易记录。因此,点数据在未来风控体系中的占比会逐渐降低。

  对应点数据的不足,爬虫社区有人提出了建立网络数据的可能性。其基本思路是以爬虫为重点,对各大社交网络网站进行爬取,基于这些数据建立人的关系网络,在关系网络的结构中,将补充各个维度的数据添加到每个人中。理想的数据集是每个来平台贷款的人都存在于平台大数据中心的人际关系网络中。我们知道与他们关系密切的人的标签(肖像)。

  比如张三来贷款,大数据中心不仅需要知道张三的信用评价,还需要知道与张三关系密切的几个人的信用评价。这有什么用?假设张三的贷款场景如下:张三通过大数据中心的传统信用评价方式获得了良好的信用评价。但我们通过关系网发现,与张三关系密切的人中有不少在信用评价中被评为低信用,甚至被列入黑名单。这时候,我们不得不怀疑张三的数据是否是精心编造的。根据事物就像群体,人是组合在一起的道理,我们认为这种怀疑是必要的。

  张三人物关系网络图:

  

  从上图可以看出,张三良好的信用评价并不可靠,贷款会给张三带来很大的风险。显然,传统的风控手段无法避免这种风险,而且这种风险会随着欺诈者对贷款公司信用评估方式的越来越了解而增加。试想,在未来,由于欺诈贷方对公司的风险控制有一个大致的了解,他们在某一方面已经形成了良好的记录。如果大数据中心爬取了这些数据,误判了信用评级,贷款公司所承担的风险将急剧扩大。

  鉴于未来这种风险,人脉数据网络提供了解决的可能。如果没有完善可靠的官方征信系统,个人关系数据网络将是未来无抵押贷款公司风控的主流方式。然而,构建人物关系数据网络并不是一朝一夕的事情。

  4.结束语

  每一个社交网站都有海量数据,与海量数据成正比的是社交网站的反爬虫策略。这对爬虫提出了更高更严格的要求,也细化了不同爬虫之间的差异。然而,不变性并不是互联网的主题。依靠互联网生存的企业必须学会拥抱变化,甚至预测变化,这样才能在未来乘风破浪,越走越远。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线