HTML UTF-8 参考
-
定义和使用
由于 ISO-8859 中的字符集大小受限制,并且在多语言环境中不兼容,因此 Unicode 联盟开发了 Unicode 标准。Unicode 标准涵盖(几乎)世界上所有的字符,标点和符号。Unicode 支持独立于平台和语言的文本处理,存储和传输。HTML-5 中的默认字符编码为 UTF-8。如果 HTML5 网页使用的字符集与 UTF-8 不同,则应在 <meta> 标记中指定该字符集,例如:<meta charset="ISO-8859-1">
-
Unicode 和 UTF-8 之间的区别
Unicode 是一个字符集。 UTF-8 正在编码。Unicode 是具有唯一十进制数字(代码点)的字符列表。 A = 41,B = 42,C = 43,...。此十进制数字列表表示字符串 “hello”:104101108108111编码是将这些数字转换为二进制数字以存储在计算机中的方式:UTF-8 编码将像这样(二进制)存储 “hello”:01101000 01100101 01101100 01101100 01101111编码将数字转换为二进制。 字符集可将字符转换为数字。
-
HTML5 UTF-8字符代码
以下是HTML5支持的一些UTF-8字符代码的列表:字符集 十进制 十六进制 C0控件和基本拉丁语 0-127 0000-007F C1控件和Latin-1补编 128-255 0080-00FF 拉丁扩展A(Latin Extended-A) 256-383 0100-017F 拉丁扩展B(Latin Extended-B) 384-591 0180-024F 间距修饰符(Spacing Modifiers) 688-767 02B0-02FF 变音标记(Diacritical Marks) 768-879 0300-036F 希腊和科普特人(Greek and Coptic) 880-1023 0370-03FF 西里尔字母(Cyrillic Basic) 1024-1279 0400-04FF 西里尔补语(Cyrillic Supplement) 1280-1327 0500-052F 一般标点(General Punctuation) 8192-8303 2000-206F 货币符号(Currency Symbols) 8352-8399 20A0-20CF 字母符号(Letterlike Symbols) 8448-8527 2100-214F 箭(Arrows) 8592-8703 2190-21FF 数学运算符(Mathematical Operators) 8704-8959 2200-22FF 箱型图(Box Drawings) 9472-9599 2500-257F 块元素(Block Elements) 9600-9631 2580-259F 几何形状(Geometric Shapes) 9632-9727 25A0-25FF 杂项符号(Miscellaneous Symbols) 9728-9983 2600-26FF 丁巴特(Dingbats) 9984-10175 2700-27BF