网页数据抓取软件(用C#或者VB抓取网页数据,常用的方法有两种 )

优采云 发布时间: 2021-09-25 07:19

  网页数据抓取软件(用C#或者VB抓取网页数据,常用的方法有两种

)

  C#或VB抓取网页数据常用的方法有两种:使用正则表达式提取和分析网页源代码。使用 WebBrowser 分析网页对象。

  那么,这两种方法各有什么优缺点呢?

  先看界面:

  

  左边是使用正则表达式方法获取网页,右边是使用Web对象分析方法获取网页。左边的对象是button1,listbox1,右边的数字是2。

  我们想从网上获取新浪博客最新的博客排名,以此为例。

  测试环境:visual studio 2015. Net 4.5 Windows10 32bit

  源代码下载(2hpg)、程序文件下载(5raj)

  用正则表达式抓取网页的方法

  步:

  使用 WebClient 从网站下载源代码。使用 GB2312 或 UTF8 对下载的内容进行编码并将其转换为文本。在文本上使用正则表达式来提取您需要的内容。将提取的内容一一写入列表。

  观察网页源代码:

  

  上图中要提取的内容基本符合这个规则,类是link335bbd,所以可以写正则表达式。

<p>var WebVistor = new WebClient();

var SourceString = Encoding.GetEncoding("gb2312").GetString(WebVistor.DownloadData(WebAddress));

foreach (Match m in Regex.Matches(SourceString, @"(?)(.+?)(?=</a>\n\s+

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线