当前位置：首页 > 科技 > 软件

你 UTF-8 乱码，关我 Unicode 什么事

来源：责编：时间：2023-12-08 09:14:09 377观看

导读平时开发的时候，相信很多人都碰到过乱码的问题，尤其是中文乱码。多年以前，我学 Python 的时候碰到的第一个难题就是乱码问题，差点《从入门到放弃了》。当时就是写一段 Python 的 Hello World 程序，只不过是把 Hello World

平时开发的时候，相信很多人都碰到过乱码的问题，尤其是中文乱码。多年以前，我学 Python 的时候碰到的第一个难题就是乱码问题，差点《从入门到放弃了》。

当时就是写一段 Python 的 Hello World 程序，只不过是把 Hello World 换成了中文输出，结果你猜怎么着？乱码了。

后来发现是因为 ASCII 编码和 UTF-8 的问题，Python 默认使用了 ASCII ，而我写的中文并不包含在 ASCII 码范围内，要改成 UTF-8。就是在 Python 文件的开头加入下面这一行。

# -*- coding:utf-8 -*-

由于当时这个乱码问题印象深刻，以至于多年之后，虽然很长时间不怎么写 Python了，但这一行代码我仍然能够快速的敲出来，并且一个空格都不差。

相信很多同学也有类似的经历，并且在查找解决办法的过程中会碰到 UTF-8、Unicode、GBK、GB2312 等等一堆的代号。之后呢，通过复制粘贴顺利的解决问题。

今天，我们就来理一理 Unicode 和 UTF-8 ，以及其他各种各样的代号之间的关系。

Unicode - 统一码

始皇嬴政“车同轨，书同文，统一度量衡”的目的是什么，就是为了统一标准，就是现在的ISO国际标准啊。

Unicode 真正做到了“书同文”的计算机语言标准，所以 Unicode 也叫统一码、万国码。Unicode 也是在不断更新的，过一段时间就要把新形成的文字加进去，比如 emoj 字符（[爱心][庆祝]）。就算有一天外星人来了，也得把外星人的文字加进去。到时候可能就得改名字叫太阳系码、宇宙码了。

Unicode 是一种计算机字符集标准，它就像是一部世界通用的字典，里面包含了几乎所有的文字集合，包括中文、英文、拉丁文、希腊文等等，以及每一种语言中的符号。

阿拉伯数字「0」的 Unicode 码就是 U+0030，汉字「中」的 Unicode 码就是 U+4E2D，这是固定不变的，符号U+是为了表示这是 Unicode 字符。

你翻开这个字典，找到第0030页，里面就写这阿拉伯数字「0」，翻开第4E2D页，上面就写着汉字「中」。Unicode 码是用十六进制表示的，0030是十六进制的0x0030，4E2D是十六进制的 0x4E2D。

下面这幅图，假设右上角有一盏灯，照着上层深颜色的 Unicode 码，透过Unicode码，投影出来的就是对应的具体字符。（比如做一个旁白，没有美术功底，效果做的不太行）。

图片

Unicode 字符映射

Unicode 其实就是用十六进制的 0x0000到0x10FFFF 这个范围内的数字表示的。实际上，是根本用不到这么多的。看下面这个表格，Unicode 被分为17个 Plane（平面），每个平面都有自己的功能，并且大多数平面都是不使用或者很少使用的。

图片

通常我们用到的字符都是在第0号平面的，也叫基本多文种平面，也就是0x0000到0xFFFF这个区间内的。这个区间能表示2的16次方个字符，也就是65536个。拉丁文、常用的东亚文字都在这个区间内。

为什么是65536个呢。一位16进制表示4位2进制，所以4位16进制，正好是二进制的16位，刚好可以表示2的16次方个数字，也就是65536个。

图片

16个平面怎么来的呢，就是在4位16进制前面又加了两位，但是只用到了 0x00到0x10这个区间表示平面，16进制的10，刚好是16，从0到16，一共17个平面。

最常用的就是0号平面，但是1、2、3号平面也用到了一些，比如第2号平面就是放的一些罕见的汉字或地区方言用字，比如粤语的字喃。

至于那些未使用的平面，等将来有了类似于emoj这种字符种类越来越多，或者外星人来的时候用吧。

有了 Unicode 为什么还要 UTF-8

UTF-8 应该是开发过程中接触最多的代号了，读写文件、数据库等等都会提到它。

UTF-8 全称是 8-bit Unicode Transformation Format，这就清楚了吧，是用来转编Unicode码的。除了UTF-8外，还有UTF-16、UTF-32 ，以及中国的 GB 18030 等。

图片

既然 Unicode 已经包含了所有字符，为什么还要用 UTF-8进行转编呢，直接用 Unicode 码不就好了吗？原因就是如果用 Unicode 会浪费过多的空间，比如 ASCII 码用256位就能全部覆盖了，但是如果用 Unicode 呢，会多出好多空间来。不便于存储以及传输。

所以，Unicode 只制定标准，不做具体实现，具体的实现方式就要依靠 UTF-8、GB18030 这些了。

拿 UTF-8 来说，它是一种可变长字符编码，用ASCII码能表示的就直接用ASCII码，不行的再想办法，主打一个能省则省。

可以用文本编辑器测试一下，写一个英文字母，用 UTF-8 编码保存，大小是1个字节。而如果写一个汉字呢，就是3个字节。

同样的，UTF-16、UTF-32都有自己的一套编码方式，宗旨就是为了减小体积，提高效率。

为什么就乱码了呢

你可以在记事本中写入一个汉字，然后将编码格式保存为 ANSI 。

图片

然后用其他的工具打开（不要用windows的记事本或写字板，它俩会自动识别），我用 Sublime Text 打开，显示的就是乱码。

图片

这是因为将中文用 ASCII 编码了，而ASCII字符集中根本不存在中文字符，存的什么东西也不知道。当其他工具用 UTF-8 编码准备展示的时候，发现这存的什么东西，它根本不认识啊。最终显示出来的只能是乱码。

如下图所示，分别用 GB18030 和 UTF-8 对Unicode进行编码，无论你最后是在浏览器还是其他的应用程序内，只要支持对应的编码，都可以正确的解析出对应的字符。

图片

而如果你将 UTF-8 编码的字符，用其他的编码方式进行解码，那大概就没那么顺利了，出来的很可能是乱码。例如下面这个，将UTF-8编码后的E4B8AD 用 TMD-8(瞎说的)进行解码，那出来就是????。

图片

GB2312、GB18030

此外，我们肯定还听说过 GB2312、GB18030，那它们又是什么呢？

GB18030是GB2312的扩展版本（升级版），现在的标准就是GB18030，GB2312 可以不再使用了。

GB2312和GB18030即是字符集，又同时是编码方式。

以前GB2312是专门为了中文以及少数民族字符设计的，随着不断的扩充，GB18030已经支持 Unicode 字符集了。

总结

Unicode 是字符集，不是编码方式，只是一个标准。
而 UTF-8、UTF-16 是专门针对于 Unicode 的编码方式，用于存储和传输。
对于纯中文的场景，也可以用GB18030。
如果没有特殊要求，最好还是用 UTF-8 编码，放之四海而皆准，没坏处。

本文链接：http://www.28at.com/showinfo-26-39504-0.html你 UTF-8 乱码，关我 Unicode 什么事

声明：本网页内容旨在传播知识，若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。邮件：2376512515@qq.com

上一篇：刷了360多道算法题，我终于顿悟了它的真谛

下一篇： Java 21 的虚拟线程：高性能并发应用的福音

标签：

热门焦点

6月安卓手机性能榜：vivo/iQOO霸占旗舰排行榜前三

2023年上半年已经正式过去了，我们也迎来了安兔兔V10版本，在新的骁龙8Gen3和天玑9300发布之前，性能榜的榜单大体会以骁龙8Gen2和天玑9200+为主，至于那颗3.36GHz的骁龙8Gen2领先
线程通讯的三种方法！通俗易懂

线程通信是指多个线程之间通过某种机制进行协调和交互，例如，线程等待和通知机制就是线程通讯的主要手段之一。在 Java 中，线程等待和通知的实现手段有以下几种方式：Object 类下
摸鱼心法第一章——和配置文件说拜拜

为了能摸鱼我们团队做了容器化，但是带来的问题是服务配置文件很麻烦，然后大家在群里进行了“亲切友好”的沟通图片图片图片图片对比就对比，简单对比下独立配置中心和k8s作为配
不容错过的MSBuild技巧，必备用法详解和实践指南

一、MSBuild简介MSBuild是一种基于XML的构建引擎，用于在.NET Framework和.NET Core应用程序中自动化构建过程。它是Visual Studio的构建引擎，可在命令行或其他构建工具中使用
只需五步，使用start.spring.io快速入门Spring编程

步骤1打开https://start.spring.io/，按照屏幕截图中的内容创建项目，添加 Spring Web 依赖项，并单击“生成”按钮下载 .zip 文件，为下一步做准备。请在进入步骤2之前进行解压。图
虚拟键盘 API 的妙用

你是否在遇到过这样的问题：移动设备上有一个固定元素，当激活虚拟键盘时，该元素被隐藏在了键盘下方？多年来，这一直是 Web 上的默认行为，在本文中，我们将探讨这个问题、为什么会发生
Temu起诉SHEIN，跨境电商战事升级

来源 | 伯虎财经（bohuFN）作者 | 陈平安日前据外媒报道，拼多多旗下跨境电商平台Temu正对竞争对手SHEIN提起新诉讼，诉状称Shein“利用市场支配力量强迫服装厂商与之签订独家
三星Galaxy Z Fold5官方渲染图曝光：13.4mm折叠厚度依旧感人

据官方此前宣布，三星将于7月26日在韩国首尔举办Unpacked活动，届时将带来带来包括Galaxy Buds 3、Galaxy Watch 6、Galaxy Tab S9、Galaxy Z Flip 5、
荣耀Magicbook V 14 2021曙光蓝版本正式开售，拥有触摸屏

荣耀 Magicbook V 14 2021 曙光蓝版本正式开售，搭载 i7-11390H 处理器与 MX450 显卡，配备 16GB 内存与 512GB SSD，重 1.48kg，厚 14.5mm，具有 1.5mm 键盘键程、

你 UTF-8 乱码，关我 Unicode 什么事

Unicode - 统一码

Unicode 字符映射

有了 Unicode 为什么还要 UTF-8

为什么就乱码了呢

GB2312、GB18030

总结

6月安卓手机性能榜：vivo/iQOO霸占旗舰排行榜前三

线程通讯的三种方法！通俗易懂

摸鱼心法第一章——和配置文件说拜拜

不容错过的MSBuild技巧，必备用法详解和实践指南

只需五步，使用start.spring.io快速入门Spring编程

虚拟键盘 API 的妙用

Temu起诉SHEIN，跨境电商战事升级

三星Galaxy Z Fold5官方渲染图曝光：13.4mm折叠厚度依旧感人

荣耀Magicbook V 14 2021曙光蓝版本正式开售，拥有触摸屏

最新推荐

猜你喜欢

热门推荐

相关资讯