关于.NET(C#)正确读取中文编码文件的实例教程-木庄网络博客

本文摘自PHP中文网，作者Y2J，侵删。

首先如果读者对编码或者BOM还不熟悉的话，推荐先读这篇文章：.NET(C#)：字符编码(Encoding)和字节顺序标记(BOM)。
中文编码基本可以分成两大类：
1. ANSI编码的扩展集合：比如GBK, GB2312, GB18030等，这类编码都不存在BOM（一些更新的标准中文编码，比如GB18030和GBK编码，都向后兼容GB2312编码）。
2. Unicode编码集合：比如UTF-8, UTF-16, UTF-32等。这类编码可以有BOM，也可以不加BOM。
3. 部分Unicode编码还存在具体字节次序问题（Endianess），就是所谓的Little endian和Big endian之分，不同此节次序对于不同的BOM，比如UTF16，不过UTF8不存在字节次序问题。

OK，了解了基本知识后，让我们回到主题，该如何正确打开中文文本文件。第一个需要确认的信息是：你的Unicode编码文件是否包含BOM？

如果包含BOM的话，那么一切好说！因为如果我们发现了BOM，我们就知道他的具体编码了。如果没有发现BOM，那就不是Unicode，我们用系统默认的ANSI扩展中文编码集打开文本文件就OK了。
而如果Unicode编码没有BOM的话（显然，你不能保证用户给你的所有Unicode文件都是有BOM的），那么你要手动从原始字节中判断他是GBK？还是UTF8？还是其他编码？。这个就需要具体的编码觉察算法了（可以google “charset|encoding detection”），当然编码觉察算法不一定会100%准确，正是因为这点，Windows记事本会有Bush hid the facts bug。在Chrome浏览网页时，也会遇到乱码的情况的。个人感觉，Notepad++的编码觉察做的还是很准确的。
编码觉察算法有很多，比如这个工程：https://code.google.com/p/ude

如果Unicode都带BOM的话，则就不需要第三方类库了。不过也有一些需要说明的地方。

问题就是.NET中读取文本方法（File类和StreamReader）默认是以UTF8编码来读取的，因此此类GBK的文本文件直接用.NET打开（不指定编码的话）结果肯定是乱码！

首先这里最有效地解决方案是使用系统默认的ANSI扩展编码，也就是系统默认的非Unicode编码来读取文本，参考代码：

1	`//输出系统默认非Unicode编码Console.WriteLine(Encoding.Default.EncodingName);//使用系统默认非Unicode编码来打开文件var fileContent = File.ReadAllText("C:\test.txt", Encoding.Default);`

在简体中文的Windows系统下应该输出：

简体中文(GB2312)<文本内容省略>...

而且使用这个方法其实是不限于简体中文的。

当然也可以手动去指定一个编码，比如就是GBK编码，但是如果用指定的GBK编码去打开一个Unicode文件，文件还会打开成功吗？答案是仍然成功。原因是.NET在打开文件时默认会自动觉察BOM然后用根据BOM得到的编码去打开文件，如果没有BOM再用用户指定的编码区打开文件，如果用户没有指定编码，则使用UTF8编码。

这个”自动觉察BOM“的参数可以在StreamReader中构造函数中设置，对应detectEncodingFromByteOrderMarks参数。

但是在File类的相应方法中无法设置。（比如：File.ReadAllText）。

比如下面代码，分别用：

GB2312编码，自动觉察BOM 来读取GB2312文本

GB2312编码，自动觉察BOM 来读取Unicode文本

GB2312编码，不觉察BOM 来读取Unicode文本

static void Main(){ var gb2312 = Encoding.GetEncoding("GB2312"); //用GB2312编码，自动觉察BOM 来读取GB2312文本 ReadFile("gbk.txt", gb2312, true); //用GB2312编码，自动觉察BOM 来读取Unicode文本 ReadFile("unicode.txt", gb2312, true); //用GB2312编码，不觉察BOM 来读取Unicode文本 ReadFile("unicode.txt", gb2312, false);}//通过StreamReader读取文本 static void ReadFile(string path, Encoding enc, bool detectEncodingFromByteOrderMarks){ StreamReader sr; using (sr = new StreamReader(path, enc, detectEncodingFromByteOrderMarks)) { Console.WriteLine(sr.ReadToEnd()); }}

输出：

a刘a刘???

第三行是乱码。

看到上面，使用GB2312编码去打开Unicode文件也会成功的。因为“自动觉察BOM”参数为True，所以当发现该文件有BOM，.NET会通过BOM觉察到是Unicode文件，然后用Unicode去打开文件的。当然如果没有BOM，会使用指定的编码参数去打开文件。对于GB2312编码的文本，显然是没有BOM的，所以必须指定GB2312编码，否则.NET会用默认的UTF8编码去解析文件，是无法读取结果的。第三行出现乱码则是由于“自动觉察BOM”为False，.NET会直接用指定的GB2312编码去读取一个有BOM的Unicode编码文本文件，显然无法成功的。

当然还可以自己判断BOM，如果没有BOM的话，指定一个缺省编码去打开文本。我在以前一篇文章中写到过（.NET(C#)：从文件中觉察编码）。

阅读剩余部分