浏览器抓取网页(网页信息的批量分析与抓取,感觉还是有一些体会的)
优采云 发布时间: 2022-02-13 03:31浏览器抓取网页(网页信息的批量分析与抓取,感觉还是有一些体会的)
最近在研究网页信息的批量分析和爬取,还是有一些经验的。
我们知道网页程序的设计可以分为静态网页和动态网页。静态网页基本都是纯html,动态网页在服务器端执行,结果返回浏览器端。从某种意义上说,本地浏览器中的网页都是静态的。对于不需要验证的打开网页,只需使用带有网站地址和正则表达式的MSHTML,就可以远程抓取网页连接、内容等信息。好像在网上看一些文章,搜索引擎的基本功能都可以这样实现。最近还看到了一个Zpoo漫游网的例子(),他们可以抓取163相册的图片地址(本来有一个可以批量下载163相册的工具,但是163改版后,无法使用)。但是,以上一切都必须基于一个前提,即网页不需要认证,不需要用户名和密码。.net中的net库中有一些类为webclient、webrequest等提供http访问服务,但功能有限。如果要在连接后这样写: 连接一个地址获取信息是不可行的,不知道哪位高手有什么解决办法,可能我没用过对应的类库,少走弯路。但功能有限。如果要在连接后这样写: 连接一个地址获取信息是不可行的,不知道哪位高手有什么解决办法,可能是我没有使用对应的类库,少走弯路。但功能有限。如果要在连接后这样写: 连接一个地址获取信息是不可行的,不知道哪位高手有什么解决办法,可能是我没有使用对应的类库,少走弯路。
但是既然浏览器端可以访问,我们就有办法了。所以我想到了webbrowser控件。大致思路是先用webbrowser连接网页(登录验证问题可以在webbrowser中解决),解压连接后,继续请求相同网站的其他页面,验证通过由网页浏览器完成,以便批量提取。至于在线抓包,还是先下载数据再抓包。有区别。今天就写到这里,下次继续。