HTML UTF-8 参考

  • 定义和使用

    由于 ISO-8859 中的字符集大小受限制,并且在多语言环境中不兼容,因此 Unicode 联盟开发了 Unicode 标准。
    Unicode 标准涵盖(几乎)世界上所有的字符,标点和符号。
    Unicode 支持独立于平台和语言的文本处理,存储和传输。
    HTML-5 中的默认字符编码为 UTF-8。
    如果 HTML5 网页使用的字符集与 UTF-8 不同,则应在 <meta> 标记中指定该字符集,例如:
    <meta charset="ISO-8859-1">
    
    
  • Unicode 和 UTF-8 之间的区别

    Unicode 是一个字符集。 UTF-8 正在编码。
    Unicode 是具有唯一十进制数字(代码点)的字符列表。 A = 41,B = 42,C = 43,...。
    此十进制数字列表表示字符串 “hello”:104101108108111
    编码是将这些数字转换为二进制数字以存储在计算机中的方式:
    UTF-8 编码将像这样(二进制)存储 “hello”:01101000 01100101 01101100 01101100 01101111
    编码将数字转换为二进制。 字符集可将字符转换为数字。
  • HTML5 UTF-8字符代码

    以下是HTML5支持的一些UTF-8字符代码的列表:
    字符集 十进制 十六进制
    C0控件和基本拉丁语 0-127 0000-007F
    C1控件和Latin-1补编 128-255 0080-00FF
    拉丁扩展A(Latin Extended-A) 256-383 0100-017F
    拉丁扩展B(Latin Extended-B) 384-591 0180-024F
    间距修饰符(Spacing Modifiers) 688-767 02B0-02FF
    变音标记(Diacritical Marks) 768-879 0300-036F
    希腊和科普特人(Greek and Coptic) 880-1023 0370-03FF
    西里尔字母(Cyrillic Basic) 1024-1279 0400-04FF
    西里尔补语(Cyrillic Supplement) 1280-1327 0500-052F
    一般标点(General Punctuation) 8192-8303 2000-206F
    货币符号(Currency Symbols) 8352-8399 20A0-20CF
    字母符号(Letterlike Symbols) 8448-8527 2100-214F
    箭(Arrows) 8592-8703 2190-21FF
    数学运算符(Mathematical Operators) 8704-8959 2200-22FF
    箱型图(Box Drawings) 9472-9599 2500-257F
    块元素(Block Elements) 9600-9631 2580-259F
    几何形状(Geometric Shapes) 9632-9727 25A0-25FF
    杂项符号(Miscellaneous Symbols) 9728-9983 2600-26FF
    丁巴特(Dingbats) 9984-10175 2700-27BF