Unicode
是一种字符编码标准,在不同的领域中普遍使用。Unicode是一个国际标准,创建于1987年,作为ASCII和其他字符集的替代品。截至2020年3月,Unicode字符集版本为13.0,包含来自不同语言和字母表的143859个字符。目前Unicode字符集覆盖了154个现代字母表,其中包含set和emoji符号。
Unicode版本和历史记录
Unicode是非常流行的主机编码标准,最新版本是2020年3月发布的13.0。
- 即使是在1988年标准化的版本1.0也在1991年10月发布,包含7129个字符,支持阿拉伯语、孟加拉语、希腊语、老挝语、拉丁语、藏语等字母。
- Unicode 2.0于1996年7月发布,包含38885个字符和一些现有字母表的更新,如朝鲜文、藏文等。
- Unicode 3.0版于1999年9月发布,包含49194个字符。这个版本增加了切罗基语、埃塞俄比亚语、高棉语、蒙古语等字母。
- Unicode 4.0版于2003年4月发布,包含96382个字符。
- Unicode 5.0版于2006年7月发布。
- Unicode 6.0版于2010年10月发布。
- Unicode 7.0版于2014年6月发布。
- Unicode 8.0版于2015年6月发布。
- Unicode 9.0版于2016年6月发布。
- Unicode 10.0版于2017年6月发布。
- Unicode 11.0版于2018年6月发布。
- Unicode 12.0版于2019年3月发布。
- Unicode 13.0版于2020年3月发布。
Unicode编码标准
创建Unicode标准是为了将不同的字符集统一为单一、标准化和清晰的版本。Unicode字符集可以用不同的技术实现,如操作系统、XML、Java编程语言、PHP、Python、.Net等。Unicode可以用不同的字符编码实现,如UTF-8、UTF-16、UTF-32。
Unicode标准编码格式
Unicode标准由多种不同大小的编码格式组成。
UTF-8
是使用1字节到4字节的最小编码格式。UTF-8是最流行的Unicode标准,94%的网站支持并使用它。前128个字符表示ASCII字符。
UTF-16
和 UTF-32
是其他更高容量的编码格式,使用4字节和许多不同的字符。
Unicode编码/字符集的使用和采用
Unicode标准非常流行,并被广泛应用于不同的技术中。
操作系统
为了使用Unicode编码,操作系统必须支持它。Windows NT操作系统,如Windows 2000、Windows XP、Windows Vista、Windows 7、Windows 8和Windows 10支持UTF-8和UTF-16。现代Linux发行版和MacOSX也支持UTF-8和UTF-16。
程序设计语言
Java、Python、PHP、.NET等编程语言都支持UTF-8和UTF-16来读写文件。
网状物
互联网标准化联盟W3C推荐Unicode作为他们的文档字符集,因为HTML版本4.0。Google Chrome、Mozilla Firefox、microsoftedge、Opera、Safari等浏览器多年来一直支持UTF-8。
对Emoji的Unicode支持
Ununicode标准支持不同的emojie,这些emojie在当今的文本消息和聊天应用程序中广泛使用。此外,这些unicode表情符号还用于网站和论坛中的评论和普通文本。下面您可以看到不同的emojies和相关的unicode值。
![图片[1]-什么是Unicode(编码标准)?-yiteyi-C++库](https://www.yiteyi.com/wp-content/uploads/2020/05/poftut_image-210.png)