一个企业信贷客户往往要查询七八户企业?

优采云 发布时间: 2021-03-23 02:13

  一个企业信贷客户往往要查询七八户企业?

  一、简介:

  信用操作的过程是信息采集和验证的过程。对于企业客户而言,最权威的信息渠道是商业注册信息,各种第三方查询工具(天眼茶,七心宝,各种API等)也由此而来。

  常见的问题是,我们不仅要检查借款人,还要检查其法人股东(不断追查),下属公司,担保公司,主要上下游交易对手等。这样,调查客户通常涉及询问约七或八家企业。如何高效自动地完成查询?查询时如何以标准化方式(而不是随意复制和粘贴)存储和组织各种信息?这是本文试图解决的问题。

  ================================================ ======================

  注意:这只是我的信用工作和学习经验,请勿转载或将其用于采集其他人的信息,恶意采集其他人的信息将承担刑事责任。

  ================================================ ======================

  二、信用理论基础:

  对于企业信用客户,应检查哪些关联公司?请参阅以下内容:

  H霍华德:银行信贷的“渗透原理”是什么?怎么理解?

  H霍华德:如何理解“商业银行集团客户信贷业务风险管理指南”中的“集团客户”?你能举个例子吗?

  三、 网站分析

  ([一)让我们先来看一下手动查询过程

  打开国家企业信用信息公开系统的主页

  

  2、输入关键词查询,然后会弹出验证码(著名的geetest)

  

  拖动滑块

  

  查看50个查询结果

  

  单击第一个,您可以看到基本信息,单击不同的列,您可以看到更多信息

  

  点击右上角的信息打印以再次弹出验证码

  

  滑动滑块以打印报告

  

  信息非常详细

  

  ([二)技术要点

  1、第一步,进入首页,并返回两个参数gt,挑战

  

  gt是固定的,挑战会改变

  

  通过两个参数,您可以获取验证码

  

  bg,fullbg表示有无间隙的背景图像地址,slice表示丢失的块图像的地址

  

  下面是背景图片

  

  当然,图片已被模糊处理,需要重新构图

  

  用鼠标拖动验证码的过程实际上是向网站提交了一串参数,然后网站验证这些参数以确定询问者是人还是机器人。

  

  在提交的参数gt,质询,用户响应,通过时间和一个不知道如何出现的参数中,我们搜索并发现它们出现在js文件中(文件版本将不断更新)。

  

  打开js文件:

  

  格式

  

  找到用户响应的来源,通过时间,a:

  var p = {

  gt:a.config.gt

  挑战:a.config。挑战,

  用户响应:ca.ra(l,a.config.challenge),

  通过时间:Q.t(“ endTime”,a.id).getTime()-Q.t(“ startTime”,a.id),

  imgload:Q.t(“ imgload”,a.id)

  a:encodeURIComponent(n)

  };

  要计算用户响应,您需要大约ca,因此请继续查看:

  ca.ra = function(a,b){

  for(var c = b.slice(3 2),d = [],e = 0; e

  var f = c.charCodeAt(e);

  d [e] = f> 57? f-87:f-48

  }

  c = 36 * d [0] + d [1];

  var g = Math.round(a)+ c;

  b = b.slice(0,3 2);

  var h,i = [[],[],[],[],[]],

  j = {},

  k = 0;

  e = 0;

  for(var l = b.length; e

  j [h] || (j [h] = 1,i [k] .push(h),k ++,k = 5 == k?0:k);

  对于(var m,n = g,

  o = 4,

  p =“”,

  q = [1,2,5,10,50]; n> 0;)n-q [o]> = 0? (m = parseInt(Math.random()* i [o] .length,1 0),p + = i [o] [m],n-= q [o])):(i.splice(o, 1),q.splice(o,1),o-= 1);

  返回p

  };

  依次类推,找到所需的内容,最后找到参数的计算方法。

  最后,发现计算参数需要一堆数据,即通过拖动滑块形成的鼠标轨迹。不同的人拖动以形成不同的轨迹,并且计算出的参数值也不同。服务器确定参数值是否合法,然后可以通过验证码吗?

  以恒定的速度移动,拖动得太快并一次拖动到位将被视为机器人,并且将被禁止。

  

  对于此验证码系统,您可以查看官方介绍

  产品功能-验证代码,用于安全性演进,体验优化和灯光管理

  

  Geetest是基于行为验证安全技术的新一代验证码,它可以颠覆传统的字符验证码。

  什么是基于行为的?考虑“不可能的任务5”中访问控制的黑技术

  

  简而言之:必须将其拖到适当的位置,且不要过分精确。

  两种思维方式,一种是傻瓜式方式,大量采集的人类阻力形成了一个轨迹库,可以直接调用它;另一种方法是找到人类阻力定律并使用函数进行仿真。

  查看采集中的鼠标轨迹:

  {-18,-18,0}; {0,0,0}; {2,0,273}; {3,0,288}; {4,0,295}; {5,0,304}; {6,0,343} ; {7,0,352}; {8,0,367}; {9,0,383}; {10,0,399}; {11,0,408}; {12,0,423}; {13,0,439}; {14,0,456}; { 15,0,479}; {16,0,488}; {17,0,505}; {18,0,528}; {19,-1,536}; {20,-1,543}; {21,-2,552}; {22,-2,575} ; {23,-2,584}; {25,-2,600}; {26,-2,615}; {27,-2,631}; {28,-2,655}; {29,-2,663}; {30,-2,672}; {31,-2,695}; {32,-2,711}; {33,-2,735}; {34,-2,752}; {35,-2,767}; {36,-2,775}; {37,-2,792}; { 38,-2,817}; {39,-2,839}; {40,-2,895}; {41,-2,911}; {42,-2,919}; {43,-2,952}; {44,-2,976}; {45 ,-2,999}; {46,-2,1039}; {47,-2,1055}; {48,-2,1072}; {49,-2,1113}; {50,-2,1135}; {51,-2,1160}; {52,-2,1192}; {53,-2,1239}; {53,-2,1376};

  第一个点{-18,-18,0}表示鼠标的起始位置(在滑块的左侧),然后鼠标移动到滑块{0,0, 0},然后向右拖动{3,0,288},最后移至{53,-2,1376}以完成操作。

  跟踪节点[53,-2,1376],53代表水平运动的位置,正数代表向右运动,负数代表向左运动; -2代表鼠标的上下偏移量(通常为零,如握手,有正负号); 1376表示经过的时间。

  人类拖动的一般规律:首先,将鼠标移至滑块,将其从慢速缓慢拖到快速,然后在末尾缓慢调整直到对齐。因此,匀速运动必须被判断为机器人。

  找到模式后,您可以使用一些函数来模拟这种“慢-快-慢”节奏,例如tanh或常用神经网络的S形函数。

  

  当然,该函数还需要增加随机数。一般来说,不需要追求100%的通过率,当达到80%时可以使用。

  毕竟,它涉及业务,因此可以这样写,然后就是代码。

  输入验证码后,我们得到了关键参数geetest_validate,然后再次提交查询

  

  您可以在网页的源代码中看到基本信息

  

  查询结果很多,我们需要获取每个查询的详细页面网址

  

  使用此URL无需任何参数即可再次查询,只需直接获取

  

  获取基本信息

  

  在其中,找到并打印相应的URL

  

  再次验证代码后,我得到了关键参数geetest_validate,然后再次提交查询

  

  获取详细报告的所有信息

  

  这时,下一步是编写正则表达式以标准化形式保存网页数据。编写信用*敏*感*词*和审查报告时,可以直接引用数据,也可以自动生成*敏*感*词*,而无需复制和粘贴。

  四、自动查询工具

  使用python来实现,有两个想法,一个是selenium + phantomjs,优点是快速上手,缺点是难以实现工业级使用,另一个是读取js文件并自己编写计算函数。使用的库,PIL,请求,lxml。

  看效果:

  

  主要信息可用,有点混乱,尚未排序。

  关于信息排序,正则表达式,Txt,Word,Excel,数据分析,业务图表,自动尽职*敏*感*词*生成之间的自由转换等外观技能(形式主义),下一次让我再介绍一下。

  该工具可以使用多长时间?一旦js文件版本更新(或切换了验证码系统),该工具也需要更新,否则将挂起。当然,这仅供个人使用以提高工作效率。一次查询十个以上是可以接受的,并且*敏*感*词*采集信息肯定会遇到各种禁止。

  验证码系统和信用风险控制(尤其是反欺诈)相似,因为它们都是分类问题。验证码区分人与机器,而风险控制则区分好客户和坏客户。必须让良好的顾客感觉到这不是麻烦,但也可以防止不良顾客进入。风险控制太严格,好客户经常会因错误而受到伤害。这是一个矛盾。我们*敏*感*词*融,我们必须谈论大数据,机器学习,数据挖掘以及各种用于风险控​​制的黑技术。看起来技术可以解决所有问题。但是,就像武器专家Q为007精心制作的古怪武器装备无法代替007来自动完成任务一样。工具可以帮助007找到对手。这部电影总是以007与敌人头部之间的近战而告终。无论风险控制系统多么强大,人们的作用都是不可分割的。一劳永逸地没有“工具”。风险控制是人与人之间的游戏。

  五、信息分析

  查询到此信息后,如何对其进行分析?有时我走得太远,忘记了为什么要开始,而我总是想获取更多信息(属于各种技术陷阱)。实际上,获取信息只是最简单的步骤。如何通过各种真假信息挖掘企业的信誉和经营状况?名称,地址,注册资本和法定代表人的法律含义是什么?各种变化的潜在意图是什么?如何找到企业的实际控制人?如何判断实际控制人的想法?这是真正的问题。

  …有关文章的更多信息,请转到信用风险控制注释-知乎列

  …更多答案,请参阅H-Howard

  H霍华德:在银行从事风险管理是什么样的经历?

  H霍华德:为什么当前的毛利率由于库存积压而增加?

  H霍华德:国内汽车金融的现状和前景如何?

  H霍华德:在贷款审批过程中,是否有任何措施可以在不更改审批条件的情况下确定客户的资格而不提供任何信息?

  H霍华德:那是什么*敏*感*词*?

  H霍华德:非金融背景下的风险控制应学习哪些专业知识?

  H霍华德:如何进行财务报表分析?

  H霍华德:整个信用流程如何完成?是否可以实现更高的自动化程度?

  我最近写了一本小书,欢迎购买

  

  从Jianshu App发送的图片

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线