网页数据抓取软件(用C#或者VB抓取网页数据,常用的方法有两种 )
优采云 发布时间: 2021-09-25 07:19网页数据抓取软件(用C#或者VB抓取网页数据,常用的方法有两种
)
C#或VB抓取网页数据常用的方法有两种:使用正则表达式提取和分析网页源代码。使用 WebBrowser 分析网页对象。
那么,这两种方法各有什么优缺点呢?
先看界面:
左边是使用正则表达式方法获取网页,右边是使用Web对象分析方法获取网页。左边的对象是button1,listbox1,右边的数字是2。
我们想从网上获取新浪博客最新的博客排名,以此为例。
测试环境:visual studio 2015. Net 4.5 Windows10 32bit
源代码下载(2hpg)、程序文件下载(5raj)
用正则表达式抓取网页的方法
步:
使用 WebClient 从网站下载源代码。使用 GB2312 或 UTF8 对下载的内容进行编码并将其转换为文本。在文本上使用正则表达式来提取您需要的内容。将提取的内容一一写入列表。
观察网页源代码:
上图中要提取的内容基本符合这个规则,类是link335bbd,所以可以写正则表达式。
<p>var WebVistor = new WebClient();
var SourceString = Encoding.GetEncoding("gb2312").GetString(WebVistor.DownloadData(WebAddress));
foreach (Match m in Regex.Matches(SourceString, @"(?)(.+?)(?=</a>\n\s+