色婷婷AⅤ一区二区三区|亚洲精品第一国产综合亚AV|久久精品官方网视频|日本28视频香蕉

<ul id="iscku"></ul>

新聞中心

EEPW首頁 > 嵌入式系統(tǒng) > 設(shè)計(jì)應(yīng)用 > UNICODE,GBK,UTF-8區(qū)別

UNICODE,GBK,UTF-8區(qū)別

作者：時(shí)間：2011-03-30 來源：網(wǎng)絡(luò)

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫查詢

收藏

4、UTF編碼

　　UTF-8就是以8位為單元對(duì)UCS進(jìn)行編碼。從UCS-2到UTF-8的編碼方式如下：

　　UCS-2編碼(16進(jìn)制) UTF-8 字節(jié)流(二進(jìn)制)

　　0000 - 007F 0xxxxxxx

　　0080 - 07FF 110xxxxx 10xxxxxx

　　0800 - FFFF 1110xxxx 10xxxxxx 10xxxxxx

　　例如“漢”字的Unicode編碼是6C49。6C49在0800-FFFF之間，所以肯定要用3字節(jié)模板了：1110xxxx 10xxxxxx 10xxxxxx。將6C49寫成二進(jìn)制是：0110 110001 001001，用這個(gè)比特流依次代替模板中的x，得到：11100110 10110001 10001001，即E6 B1 89。

　　讀者可以用記事本測(cè)試一下我們的編碼是否正確。需要注意，UltraEdit在打開utf-8編碼的文本文件時(shí)會(huì)自動(dòng)轉(zhuǎn)換為UTF-16，可能產(chǎn)生混淆。你可以在設(shè)置中關(guān)掉這個(gè)選項(xiàng)。更好的工具是Hex Workshop。

　　UTF-16以16位為單元對(duì)UCS進(jìn)行編碼。對(duì)于小于0x10000的UCS碼，UTF-16編碼就等于UCS碼對(duì)應(yīng)的16位無符號(hào)整數(shù)。對(duì)于不小于0x10000的UCS碼，定義了一個(gè)算法。不過由于實(shí)際使用的UCS2，或者UCS4的BMP必然小于0x10000，所以就目前而言，可以認(rèn)為UTF-16和UCS-2基本相同。但UCS-2只是一個(gè)編碼方案，UTF-16卻要用于實(shí)際的傳輸，所以就不得不考慮字節(jié)序的問題。

　　5、UTF的字節(jié)序和BOM

　　UTF-8以字節(jié)為編碼單元，沒有字節(jié)序的問題。UTF-16以兩個(gè)字節(jié)為編碼單元，在解釋一個(gè)UTF-16文本前，首先要弄清楚每個(gè)編碼單元的字節(jié)序。例如“奎”的Unicode編碼是594E，“乙”的Unicode編碼是4E59。如果我們收到UTF-16字節(jié)流“594E”，那么這是“奎”還是“乙”?

　　Unicode規(guī)范中推薦的標(biāo)記字節(jié)順序的方法是BOM。BOM不是“Bill Of Material”的BOM表，而是Byte order Mark。BOM是一個(gè)有點(diǎn)小聰明的想法：

　　在UCS編碼中有一個(gè)叫做ZERO WIDTH NO-BREAK SPACE的字符，它的編碼是FEFF。而FFFE在UCS中是不存在的字符，所以不應(yīng)該出現(xiàn)在實(shí)際傳輸中。UCS規(guī)范建議我們?cè)趥鬏斪止?jié)流前，先傳輸字符ZERO WIDTH NO-BREAK SPACE。

　　這樣如果接收者收到FEFF，就表明這個(gè)字節(jié)流是Big-Endian的;如果收到FFFE，就表明這個(gè)字節(jié)流是Little-Endian的。因此字符ZERO WIDTH NO-BREAK SPACE又被稱作BOM。

　　UTF-8不需要BOM來表明字節(jié)順序，但可以用BOM來表明編碼方式。字符ZERO WIDTH NO-BREAK SPACE的UTF-8編碼是EF BB BF(讀者可以用我們前面介紹的編碼方法驗(yàn)證一下)。所以如果接收者收到以EF BB BF開頭的字節(jié)流，就知道這是UTF-8編碼了。

　　Windows就是使用BOM來標(biāo)記文本文件的編碼方式的。

　　6、進(jìn)一步的參考資料

　　本文主要參考的資料是 Short overview of ISO-IEC 10646 and Unicode (http://www.nada.kth.se/i18n/ucs/unicode-iso10646-oview.html)。

　　我還找了兩篇看上去不錯(cuò)的資料，不過因?yàn)槲议_始的疑問都找到了答案，所以就沒有看：

　　Understanding Unicode A general introduction to the Unicode Standard (http://scripts.sil.org/cms/scripts/page.php?site_id=nrsiitem_id=IWS-Chapter04a)

　　Character set encoding basics Understanding character set encodings and legacy encodings (http://scripts.sil.org/cms/scripts/page.php?site_id=nrsiitem_id=IWS-Chapter03)

　　我寫過UTF-8、UCS-2、GBK相互轉(zhuǎn)換的軟件包，包括使用Windows API和不使用Windows API的版本。以后有時(shí)間的話，我會(huì)整理一下放到我的個(gè)人主頁上(http://fmddlmyy.home4u.china.com)。

　　我是想清楚所有問題后才開始寫這篇文章的，原以為一會(huì)兒就能寫好。沒想到考慮措辭和查證細(xì)節(jié)花費(fèi)了很長(zhǎng)時(shí)間，竟然從下午1:30寫到9:00。希望有讀者能從中受益。

　　附錄1 再說說區(qū)位碼、GB2312、內(nèi)碼和代碼頁

　　有的朋友對(duì)文章中這句話還有疑問：

　　“GB2312的原文還是區(qū)位碼，從區(qū)位碼到內(nèi)碼，需要在高字節(jié)和低字節(jié)上分別加上A0。”

　　我再詳細(xì)解釋一下：

　　“GB2312的原文”是指國家1980年的一個(gè)標(biāo)準(zhǔn)《中華人民共和國國家標(biāo)準(zhǔn) 信息交換用漢字編碼字符集基本集 GB 2312-80》。這個(gè)標(biāo)準(zhǔn)用兩個(gè)數(shù)來編碼漢字和中文符號(hào)。第一個(gè)數(shù)稱為“區(qū)”，第二個(gè)數(shù)稱為“位”。所以也稱為區(qū)位碼。1-9區(qū)是中文符號(hào)，16-55區(qū)是一級(jí)漢字，56-87區(qū)是二級(jí)漢字。現(xiàn)在Windows也還有區(qū)位輸入法，例如輸入1601得到“啊”。(這個(gè)區(qū)位輸入法可以自動(dòng)識(shí)別16進(jìn)制的GB2312和10進(jìn)制的區(qū)位碼，也就是說輸入B0A1同樣會(huì)得到“啊”。)

　　內(nèi)碼是指操作系統(tǒng)內(nèi)部的字符編碼。早期操作系統(tǒng)的內(nèi)碼是與語言相關(guān)的。現(xiàn)在的Windows在系統(tǒng)內(nèi)部支持Unicode，然后用代碼頁適應(yīng)各種語言，“內(nèi)碼”的概念就比較模糊了。微軟一般將缺省代碼頁指定的編碼說成是內(nèi)碼。

　　內(nèi)碼這個(gè)詞匯，并沒有什么官方的定義，代碼頁也只是微軟這個(gè)公司的叫法。作為程序員，我們只要知道它們是什么東西，沒有必要過多地考證這些名詞。

　　所謂代碼頁(code page)就是針對(duì)一種語言文字的字符編碼。例如GBK的code page是CP936，BIG5的code page是CP950，GB2312的code page是CP20936。

　　Windows中有缺省代碼頁的概念，即缺省用什么編碼來解釋字符。例如Windows的記事本打開了一個(gè)文本文件，里面的內(nèi)容是字節(jié)流：BA、BA、D7、D6。Windows應(yīng)該去怎么解釋它呢?

　　是按照Unicode編碼解釋、還是按照GBK解釋、還是按照BIG5解釋，還是按照ISO8859-1去解釋?如果按GBK去解釋，就會(huì)得到“漢字”兩個(gè)字。按照其它編碼解釋，可能找不到對(duì)應(yīng)的字符，也可能找到錯(cuò)誤的字符。所謂“錯(cuò)誤”是指與文本作者的本意不符，這時(shí)就產(chǎn)生了亂碼。

　　答案是Windows按照當(dāng)前的缺省代碼頁去解釋文本文件里的字節(jié)流。缺省代碼頁可以通過控制面板的區(qū)域選項(xiàng)設(shè)置。記事本的另存為中有一項(xiàng)ANSI，其實(shí)就是按照缺省代碼頁的編碼方法保存。

　　Windows的內(nèi)碼是Unicode，它在技術(shù)上可以同時(shí)支持多個(gè)代碼頁。只要文件能說明自己使用什么編碼，用戶又安裝了對(duì)應(yīng)的代碼頁，Windows就能正確顯示，例如在HTML文件中就可以指定charset。

　　有的HTML文件作者，特別是英文作者，認(rèn)為世界上所有人都使用英文，在文件中不指定charset。如果他使用了0x80-0xff之間的字符，中文Windows又按照缺省的GBK去解釋，就會(huì)出現(xiàn)亂碼。這時(shí)只要在這個(gè)html文件中加上指定charset的語句，例如：

　　如果原作者使用的代碼頁和ISO8859-1兼容，就不會(huì)出現(xiàn)亂碼了。

　　再說區(qū)位碼，啊的區(qū)位碼是1601，寫成16進(jìn)制是0x10,0x01。這和計(jì)算機(jī)廣泛使用的ASCII編碼沖突。為了兼容00-7f的ASCII編碼，我們?cè)趨^(qū)位碼的高、低字節(jié)上分別加上A0。這樣“啊”的編碼就成為B0A1。我們將加過兩個(gè)A0的編碼也稱為GB2312編碼，雖然GB2312的原文根本沒提到這一點(diǎn)。

上一頁 1 2 下一頁

<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=114&cb=INSERT_RANDOM_NUMBER_HERE&n=a7a83b30' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=115&cb=INSERT_RANDOM_NUMBER_HERE&n=a3d98779' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=116&cb=INSERT_RANDOM_NUMBER_HERE&n=abca108c' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=117&cb=INSERT_RANDOM_NUMBER_HERE&n=a1775170' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=118&cb=INSERT_RANDOM_NUMBER_HERE&n=a449048b' border='0' alt='' /></a>

關(guān)鍵詞： 區(qū)別 UTF-8 GBK UNICODE

評(píng)論

相關(guān)推薦

CUTE ftp 8.0 perfessional漢化破解版

資源下載客戶端程序 FTP CUTE ftp 8.0 perfessional 漢化破解 | 2007-11-30

消息稱臺(tái)積電 3nm 獨(dú)家代工高通驍龍 8 Gen 4，三星良率仍不理想

EDA/PCB 臺(tái)積電 8 gen 4 4nm | 2023-12-01

簡(jiǎn)體中文版LabVIEW 8.20—— 母語編程，方便高效

資源下載 NI 虛擬儀器 LabVIEW 8.20 | 2007-02-09

使用Virtual Eval工具了解AD7124-4/AD7124-8的常見時(shí)序問題

視頻 ADI Virtual Eval AD7124-4/8 | 2023-06-08

GEEKBENCH:驍龍8 Gen 3比蘋果iPhone芯片要優(yōu)秀得多

消費(fèi)電子驍龍 8 gen 3 智能手機(jī) | 2023-03-06

PIC16F157X 8位單片機(jī)系列2——信號(hào)發(fā)生功能

視頻 Microchip PIC?單片機(jī) Microchip 單片機(jī) PIC16F157X 8 | 2015-05-12

小天鵝-XQB30-8線路圖

設(shè)計(jì)方案小天鵝 -XQB30-8 線路 | 2009-08-06

Vxworks中printf()和logMsg()的區(qū)別(老站轉(zhuǎn))

amine | 2002-05-31

索尼KV-W28MHll型彩電半橋式開關(guān)電源(STR-83159)電路

設(shè)計(jì)方案索尼 KV-W28MHll 彩電半橋開關(guān)電源 STR-8 | 2009-07-06

vxWorks支不支持UNICODE(老站轉(zhuǎn))

amine | 2002-05-31

8,16位MCU接入TCP IP網(wǎng)絡(luò)的資料

資源下載 PC104 8 16位MCU TCP IP 網(wǎng)絡(luò) | 2007-02-09

74LS244與74LS373區(qū)別

資源下載 74LS244 74LS373 區(qū)別 | 2007-02-16

小天鵝-XQB30-8

設(shè)計(jì)方案小天鵝 -XQB30-8 | 2009-08-06

2024Q4 對(duì)決，聯(lián)發(fā)科天璣 9400、高通驍龍 8 Gen 4 被曝已流片

EDA/PCB 聯(lián)發(fā)科天璣 9400 高通驍龍 8 Gen 4 流片 | 2024-07-09

單片機(jī)和PLD的區(qū)別(老站轉(zhuǎn))

amine | 2002-07-29

AD7124概述：集成PGA和基準(zhǔn)電壓源的4通道/8通道Σ-Δ型ADC

視頻 ADI AD7124-4 AD7124-8 集成PGA ADC | 2017-02-13

LM3420-8.4構(gòu)成的鋰電池快速充電器

設(shè)計(jì)方案 LM3420-8.4 構(gòu)成鋰電池快速充電器 | 2009-07-06

三星Exynos 2400芯片規(guī)格曝光：10個(gè)CPU核心超過驍龍8 Gen 3

模擬技術(shù) 三星 Exynos 2400 CPU 8 Gen3 | 2023-07-14

小天鵝-XQ330-8

設(shè)計(jì)方案小天鵝 -XQ330-8 | 2009-08-06

蘋果WWDC 2023日期曝光！iOS 17首秀來了：或不再支持iPhone X/8

蘋果WWDC iOS 17 iPhone X/8 | 2023-03-27

高通稱驍龍 8 Gen 4 將使用自研 Oryon CPU 核心，成本可能上升

手機(jī)與無線通信高通驍龍 8 Gen 4 | 2023-10-26

高通：搭載衛(wèi)星連接的驍龍 8 Gen 2 安卓手機(jī)今年下半年推出，首先支持應(yīng)急消息

智能計(jì)算高通，驍龍 8 Gen 2 | 2023-01-06

請(qǐng)問：am29f040和am29f040b有和區(qū)別(老站轉(zhuǎn))

amine | 2002-05-30

英飛凌推出全新600 V CoolMOS? 8 SJ MOSFET系列，適用于高成本效益的先進(jìn)電源應(yīng)用

電源與新能源英飛凌 oolMOS 8 SJ MOSFET 電源應(yīng)用 | 2024-06-27

AD4130-8：集成PGA和FIFO的32 μA、24位Σ-Δ ADC

視頻 ADI AD4130-8 PGA FIFO ADC | 2022-11-16

Measurement Studio 8.0評(píng)估版軟件

資源下載 NI Measurement Studio 8.0 Microsoft Visual Studio 數(shù)據(jù)采集 | 2007-02-09

AD7124——PGA型4/8通道Σ-Δ ADC上的診斷功能

視頻 ADI AD7124-4 AD7124-8 診斷 | 2017-02-13

驍龍 8 Gen 4 旗艦處理器要來了！高通驍龍峰會(huì) 2024 定檔 10 月 21~23 日

手機(jī)與無線通信高通驍龍 8 gen 4 | 2024-06-13

區(qū)別

hpnet | 2003-03-25

研華AIR-150掌上型Hailo-8 AI推理系統(tǒng)震撼上市

工控自動(dòng)化研華 Hailo-8 AI推理 | 2024-07-05

焦點(diǎn)

推薦視頻

技術(shù)專區(qū)

<tfoot id="mqqec"></tfoot>

<fieldset id="mqqec"></fieldset>

<pre id="mqqec"></pre>

<em id="mqqec"><li id="mqqec"></li></em>