HTML字符集 教程
-
定义和使用
为了正确显示 HTML 页面,浏览器必须知道要使用什么字符集(字符编码)。在 HTML 中使用的正确字符编码是什么?对于 HTML5,默认字符编码为 UTF-8。并非总是如此。 早期网络的字符编码为 ASCII。后来,从 HTML 2.0 到 HTML 4.01,ISO-8859-1 被认为是标准。有了 XML 和 HTML5,UTF-8 终于出现了,解决了许多字符编码问题。下面是字符编码标准的简要说明。 -
ASCII
计算机信息(数字,文本和图片)在电子设备中存储为二进制的1和0(01000101)。为了标准化字母数字字符的存储,创建了美国信息交换标准码(ASCII)。 它为每个可存储字符定义了一个唯一的7位二进制数字,以支持0-9之间的数字,大写/小写英文字母(a-z,A-Z)以及一些特殊字符(如!)。 $ +-()@ <>。由于ASCII使用一个字节(字符为7位,传输奇偶校验控制为一位),因此它只能表示 128 个不同的字符。 另外,这些字符中的32个被保留用于其他控制目的。ASCII 的最大缺点是它排除了非英文字母。如今,ASCII 仍在广泛使用,尤其是在大型主机系统中。要仔细查看,请阅读我们的《完整ASCII参考》。
-
ANSI
ANSI(也称为Windows-1252)是 Windows(直到Windows 95)中的默认字符集。ANSI 是 ASCII 的扩展,增加了国际字符。 它使用一个完整的字节(8位)表示 256 个不同的字符。由于 ANSI 是 Windows 中的默认字符集,因此所有浏览器都支持它。要仔细查看,请阅读我们的《完整ANSI参考》。
-
ISO-8859-1
由于大多数国家/地区使用 ASCII 以外的字符,因此 HTML 2.0 标准中的默认字符编码已更改为 ISO-8859-1。ISO-8859-1 是 ASCII 的扩展,增加了国际字符。 与 ANSI 一样,它使用一个完整的字节表示比 ASCII 两倍的字符。当浏览器在网页中检测到 ISO-8859-1 时,它们通常默认为 ANSI,因为 ANSI 与 ISO-8859-1 相同,只是 ANSI 包含 32 个额外的字符。
如果HTML 4网页使用的字符集不同于 ISO-8859-1,则应在<meta>标记中指定该字符集,例如:<meta http-equiv="Content-Type" content="text/html;charset=ISO-8859-8">
HTML5 的默认字符集为 UTF-8。所有 HTML4 处理器均支持 UTF-8,所有 HTML5 和 XML 处理器均支持 UTF-8 和 UTF-16。要仔细查看,请阅读我们的《完整ISO-8859-1参考》。
-
Unicode UTF-8
由于上面列出的字符集是有限的,并且在多语言环境中不兼容,因此 Unicode 联盟开发了 Unicode 标准。Unicode 标准涵盖(几乎)世界上所有的字符,标点和符号。Unicode 支持独立于平台和语言的文本处理,存储和传输。HTML5 中的默认字符编码为 UTF-8。要仔细查看,请阅读我们的《Unicode参考》。