vb抓取网页内容(计算机最开始只有ASCII编码，这就是所谓的”乱码“)

优采云发布时间: 2021-09-10 18:06

　　经常上网的人有时会发现他们不认识的网页。这就是所谓的“乱码”。

　　这是因为浏览器无法识别网页的原创文本编码方式，而使用了不同的文本编码方式。

　　例如百度首页使用utf-8编码：

　　在网页上点击鼠标右键查看编码项，可以看到浏览器自动选择了“UTF-8”：

　　如果强制切换到GB2312，则会产生乱码：

　　同样，打开文本文件时，需要指定编码方式，才能得到正确的文本。

　　起初，计算机只有ASCII码，包括字母、数字、一些标点符号和特殊符号。

　　但是随着计算机的广泛使用，ASCII越来越不能满足计算机发展的需要。

　　于是陆续产生了Unicode、中文GB2312、繁体中文Big5、日本shift_jis等。

　　不同的编码得到不同的内容。

　　直接在.net 中可用

　　编码.ASCII

　　编码.Unicode

　　编码.UTF32

　　编码.UTF7

　　编码.UTF8

　　可以使用，

　　如果要使用其他编码，可以使用以下方法，例如使用GB2312编码：

　　Dim enc 作为编码

　　enc = Encoding.GetEncoding("gb2312")

　　.net 还提供

　　编码。默认

　　这也主要用于以下代码段，虽然.net不推荐它：

　　我在这里使用它主要是为了简化。编码实际文本时最好使用Unicode编码。

　　更多关于编码的内容，请参考System.Text.Encoding一章或网上搜索相关内容。

　　在下一节中，我将用一个简单的例子来说明。

　　要了解更多，请参阅教程目录

　　———————————————————

0

2021-09-10

vb抓取网页内容

0 个评论

要回复文章请先登录或注册