浏览器抓取网页(网页信息的批量分析与抓取，感觉还是有一些体会的)

优采云发布时间: 2022-02-13 03:31

　　最近在研究网页信息的批量分析和爬取，还是有一些经验的。

　　我们知道网页程序的设计可以分为静态网页和动态网页。静态网页基本都是纯html，动态网页在服务器端执行，结果返回浏览器端。从某种意义上说，本地浏览器中的网页都是静态的。对于不需要验证的打开网页，只需使用带有网站地址和正则表达式的MSHTML，就可以远程抓取网页连接、内容等信息。好像在网上看一些文章，搜索引擎的基本功能都可以这样实现。最近还看到了一个Zpoo漫游网的例子（），他们可以抓取163相册的图片地址（本来有一个可以批量下载163相册的工具，但是163改版后，无法使用）。但是，以上一切都必须基于一个前提，即网页不需要认证，不需要用户名和密码。.net中的net库中有一些类为webclient、webrequest等提供http访问服务，但功能有限。如果要在连接后这样写：连接一个地址获取信息是不可行的，不知道哪位高手有什么解决办法，可能我没用过对应的类库，少走弯路。但功能有限。如果要在连接后这样写：连接一个地址获取信息是不可行的，不知道哪位高手有什么解决办法，可能是我没有使用对应的类库，少走弯路。但功能有限。如果要在连接后这样写：连接一个地址获取信息是不可行的，不知道哪位高手有什么解决办法，可能是我没有使用对应的类库，少走弯路。

　　但是既然浏览器端可以访问，我们就有办法了。所以我想到了webbrowser控件。大致思路是先用webbrowser连接网页（登录验证问题可以在webbrowser中解决），解压连接后，继续请求相同网站的其他页面，验证通过由网页浏览器完成，以便批量提取。至于在线抓包，还是先下载数据再抓包。有区别。今天就写到这里，下次继续。

0

2022-02-13

浏览器抓取网页

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

浏览器抓取网页(网页信息的批量分析与抓取，感觉还是有一些体会的)

0 个评论

发起人