网页爬虫抓取百度图片(网页抓取的具体实现功能代码，请大家不吝指教，在此谢过！)

优采云发布时间: 2022-01-03 01:07

　　我一直在想把网页抓取的具体实现功能代码整理出来，方便大家纠正，也方便大家学习纠正。当然，这并不适用于所有网页。我写的功能有限。您只能为具有特定结构的网页执行数据采集。如果有更好的方法，欢迎指教，谢谢！

　　一、获取网页内容：

　　网上有很多爬取网页的代码。以下方法是我找到的一种，供参考：

<p>///

/// 获取网页全部源代码

///

/// /要访问的网站地址

/// 目标网页的编码，如果传入的是null或者"",那就自动分析网页的编码

///

public static string getHtml(string url, params string[] charSets)

{

try

{

string charSet = null;

if (charSets.Length == 1)

{

charSet = charSets[0];

}

WebClient myWebClient = new WebClient(); //创建WebClient实例myWebClient

// 需要注意的：

//有的网页可能下不下来，有种种原因比如需要cookie,编码问题等等

//这是就要具体问题具体分析比如在头部加入cookie

// webclient.Headers.Add("Cookie", cookie);

//这样可能需要一些重载方法.根据需要写就可以了

//获取或设置用于对向 Internet 资源的请求进行身份验证的网络凭据.

myWebClient.Credentials = CredentialCache.DefaultCredentials;

//如果服务器要验证用户名，密码

//NetworkCredential mycred = new NetworkCredential(struser, strpassword);

//myWebClient.Credentials = mycred;

//从资源下载数据并返回字节数组.(加@是因为网址中间有"/"符号)

byte[] myDataBuffer = myWebClient.DownloadData(url);

string strWebData = Encoding.Default.GetString(myDataBuffer);

//获取网页字符编码描述信息

Match charSetMatch = Regex.Match(strWebData, "

0

2022-01-03

网页爬虫抓取百度图片

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

网页爬虫抓取百度图片(网页抓取的具体实现功能代码，请大家不吝指教，在此谢过！)

0 个评论

发起人

AI时代内容工厂

网页爬虫抓取百度图片(网页抓取的具体实现功能代码，请大家不吝指教，在此谢过！)

0 个评论

发起人

相关问题