网页手机号抓取程序(鲲鹏Web数据抓取-专业网站数据采集服务提供者(图) )

优采云 发布时间: 2022-01-14 06:10

  网页手机号抓取程序(鲲鹏Web数据抓取-专业网站数据采集服务提供者(图)

)

  鲲鹏网络数据采集-专业网络数据采集服务商

  很多网站为了防止用户的隐私信息(电话、手机、邮箱)被爬虫抓取,对这些信息进行了特殊处理并输出。比如使用JS输出,使用Ajax动态加载,以图片的形式展示。

  其中最常见的是使用JS输出,实现成本最低,爬取也最好。

  例如这个页面:

  

  其电话号码部分由JS输出,JS代码如下:

  更BT的是函数名“escramble_751()”还在变化。

  但是,使用强大的字符串匹配工具“正则表达式”可以很容易地提取出来:

  

# code by Python

phone_re = re.compile("a='([ \+\-\d]+?)'.*?b='([ \+\-\d]+?)'.*?a\+='([ \+\-\d]+?)'.*?b\+='([ \+\-\d]+?)'.*?c='([ \+\-\d]+?)'", re.DOTALL)

match = phone_re.search(html)

if match:

a, b, c, d, e = match.groups()

telephone = a + c + e + b + d

else:

telephone = None

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线