HTML字符集 教程



  • 定义和使用

    为了正确显示 HTML 页面,浏览器必须知道要使用什么字符集(字符编码)。
    在 HTML 中使用的正确字符编码是什么?
    对于 HTML5,默认字符编码为 UTF-8。
    并非总是如此。 早期网络的字符编码为 ASCII。
    后来,从 HTML 2.0 到 HTML 4.01,ISO-8859-1 被认为是标准。
    有了 XML 和 HTML5,UTF-8 终于出现了,解决了许多字符编码问题。
    下面是字符编码标准的简要说明。
  • ASCII

    计算机信息(数字,文本和图片)在电子设备中存储为二进制的1和0(01000101)。
    为了标准化字母数字字符的存储,创建了美国信息交换标准码(ASCII)。 它为每个可存储字符定义了一个唯一的7位二进制数字,以支持0-9之间的数字,大写/小写英文字母(a-z,A-Z)以及一些特殊字符(如!)。 $ +-()@ <>。
    由于ASCII使用一个字节(字符为7位,传输奇偶校验控制为一位),因此它只能表示 128 个不同的字符。 另外,这些字符中的32个被保留用于其他控制目的。
    ASCII 的最大缺点是它排除了非英文字母。
    如今,ASCII 仍在广泛使用,尤其是在大型主机系统中。
    要仔细查看,请阅读我们的《完整ASCII参考》。
  • ANSI

    ANSI(也称为Windows-1252)是 Windows(直到Windows 95)中的默认字符集。
    ANSI 是 ASCII 的扩展,增加了国际字符。 它使用一个完整的字节(8位)表示 256 个不同的字符。
    由于 ANSI 是 Windows 中的默认字符集,因此所有浏览器都支持它。
    要仔细查看,请阅读我们的《完整ANSI参考》。
  • ISO-8859-1

    由于大多数国家/地区使用 ASCII 以外的字符,因此 HTML 2.0 标准中的默认字符编码已更改为 ISO-8859-1。
    ISO-8859-1 是 ASCII 的扩展,增加了国际字符。 与 ANSI 一样,它使用一个完整的字节表示比 ASCII 两倍的字符。
    当浏览器在网页中检测到 ISO-8859-1 时,它们通常默认为 ANSI,因为 ANSI 与 ISO-8859-1 相同,只是 ANSI 包含 32 个额外的字符。
    如果HTML 4网页使用的字符集不同于 ISO-8859-1,则应在<meta>标记中指定该字符集,例如:
    <meta http-equiv="Content-Type" content="text/html;charset=ISO-8859-8">
    
    
    HTML5 的默认字符集为 UTF-8。
    所有 HTML4 处理器均支持 UTF-8,所有 HTML5 和 XML 处理器均支持 UTF-8 和 UTF-16。
    要仔细查看,请阅读我们的《完整ISO-8859-1参考》。
  • Unicode UTF-8

    由于上面列出的字符集是有限的,并且在多语言环境中不兼容,因此 Unicode 联盟开发了 Unicode 标准。
    Unicode 标准涵盖(几乎)世界上所有的字符,标点和符号。
    Unicode 支持独立于平台和语言的文本处理,存储和传输。
    HTML5 中的默认字符编码为 UTF-8。
    要仔细查看,请阅读我们的《Unicode参考》。