网页手机号抓取程序(鲲鹏Web数据抓取-专业网站数据采集服务提供者(图) )
优采云 发布时间: 2022-01-14 06:10网页手机号抓取程序(鲲鹏Web数据抓取-专业网站数据采集服务提供者(图)
)
鲲鹏网络数据采集-专业网络数据采集服务商
很多网站为了防止用户的隐私信息(电话、手机、邮箱)被爬虫抓取,对这些信息进行了特殊处理并输出。比如使用JS输出,使用Ajax动态加载,以图片的形式展示。
其中最常见的是使用JS输出,实现成本最低,爬取也最好。
例如这个页面:
其电话号码部分由JS输出,JS代码如下:
更BT的是函数名“escramble_751()”还在变化。
但是,使用强大的字符串匹配工具“正则表达式”可以很容易地提取出来:
# code by Python
phone_re = re.compile("a='([ \+\-\d]+?)'.*?b='([ \+\-\d]+?)'.*?a\+='([ \+\-\d]+?)'.*?b\+='([ \+\-\d]+?)'.*?c='([ \+\-\d]+?)'", re.DOTALL)
match = phone_re.search(html)
if match:
a, b, c, d, e = match.groups()
telephone = a + c + e + b + d
else:
telephone = None