vb抓取网页内容(计算机最开始只有ASCII编码,这就是所谓的”乱码“)
优采云 发布时间: 2021-09-10 18:06vb抓取网页内容(计算机最开始只有ASCII编码,这就是所谓的”乱码“)
经常上网的人有时会发现他们不认识的网页。这就是所谓的“乱码”。
这是因为浏览器无法识别网页的原创文本编码方式,而使用了不同的文本编码方式。
例如百度首页使用utf-8编码:
在网页上点击鼠标右键查看编码项,可以看到浏览器自动选择了“UTF-8”:
如果强制切换到GB2312,则会产生乱码:
同样,打开文本文件时,需要指定编码方式,才能得到正确的文本。
起初,计算机只有ASCII码,包括字母、数字、一些标点符号和特殊符号。
但是随着计算机的广泛使用,ASCII越来越不能满足计算机发展的需要。
于是陆续产生了Unicode、中文GB2312、繁体中文Big5、日本shift_jis等。
不同的编码得到不同的内容。
直接在.net 中可用
编码.ASCII
编码.Unicode
编码.UTF32
编码.UTF7
编码.UTF8
可以使用,
如果要使用其他编码,可以使用以下方法,例如使用GB2312编码:
Dim enc 作为编码
enc = Encoding.GetEncoding("gb2312")
.net 还提供
编码。默认
这也主要用于以下代码段,虽然.net不推荐它:
我在这里使用它主要是为了简化。编码实际文本时最好使用Unicode编码。
更多关于编码的内容,请参考System.Text.Encoding一章或网上搜索相关内容。
在下一节中,我将用一个简单的例子来说明。
要了解更多,请参阅教程目录
———————————————————
版权声明:本文为CSDN博主“VB.Net”原创文章,遵循C*敏*感*词*.0 BY-SA版权协议。转载请附上原出处链接和本声明。