excelvba抓取网页数据(获取网页数据链接、识别汉字编码、转换和处理字符串并得到所需要的简单方法)
优采云 发布时间: 2021-09-11 13:12excelvba抓取网页数据(获取网页数据链接、识别汉字编码、转换和处理字符串并得到所需要的简单方法)
第 1 课总结:
本课通过实例讲解获取网页数据链接、识别汉字编码、转换处理字符串、获取所需数据的简单方法。请课后找一些网站duoduo的测试,练习抓包软件的使用和获取字符串后拆分等功能提取数据的基本技巧。
在实际的网页采集中,我们经常会遇到比例子网站复杂几倍甚至几十倍的网页。一个完整的网页采集程序需要处理以下问题:
1、 如有必要,请登录网站。可能需要验证码(需要拿到图片做OCR识别)
2、找到网站的初始链接,获取cookie或viewstate等隐藏提交信息,准备提交真实数据链接。
3、如有需要可以找网站中文语言的设置方法,可以直接写在链接里,也可以写在提交的参数里,也可以提交专门的语言设置链接。
4、找到网站的数据链路,抓包获取Referer值,解决反盗链
5、处理初始网页,获取后续数据链接提交所需的参数(可能没有,也可能有很多)
6、Process 网站data 链接的提交参数(可能有时间戳),可能是GET或POST。后者还要处理URLEncode编码或者其他形式的编码(如果是UTF-8编码,XMLHTTP会自己处理;WinHttp可以通过参数选择URL编码格式)。
7、Judge 网站返回数据的编码处理成可识别的字符串(可能需要htmlfile对象快速操作html文档中的表格等)
8、处理需要采集数据的字符串,可能需要从中提取页码,可能需要提取下一页的参数,可能需要使用数组提取需要的信息(尤其是网络表单)
9、 循环执行 6~8 直到数据提取结束
其实无论网站多么复杂,获取数据的基础无非是两点:
1、抓包查看链接、Cookie、Referer、Post参数、隐藏提交参数、MD5或RSA加密参数等,然后模拟提交
2、处理编码和提取字符串
只要熟练掌握这两个基本步骤,再加上充足的时间、坚定的信念、耐心和一点点运气,采集网站的工作就迎刃而解!
相信我
附上一些VBA调用JS函数的方法。