• <bdo id="i4g44"></bdo>
    <code id="i4g44"><tr id="i4g44"></tr></code>
    <strike id="i4g44"></strike>
    <bdo id="i4g44"></bdo>

    Unicode編碼是什么?

    Infocode藍暢 互聯(lián)網(wǎng)開發(fā) 1149

    Unicode是一種字符編碼標準,在不同領(lǐng)域的IT中都很常用。 Unicode是國際標準,于1987年創(chuàng)建,是ASCII和其他字符集的替代方法。 截至2020年3月,Unicode字符集版本為13.0,其中包含來自不同語言和字母的143,859個字符。 當(dāng)前,Unicode字符集包含154種帶有設(shè)置和表情符號的現(xiàn)代字母。

    Unicode編碼是什么?
    Unicode編碼是什么?

    Unicode編碼規(guī)范制定標準:

       把世界上所有能出現(xiàn)的字符,都為其分配一個數(shù)字來表示,比如,數(shù)字U+7F57被分配給了漢字中的”羅”字。Unicode編碼的標準里字符數(shù)量一直實在新增(包括一些稀有字符,當(dāng)然emoji表情字符也屬于unicode編碼哈哈),19年3月剛發(fā)布了Unicode12.0版本,比之前的版本新增了一些字符,現(xiàn)在在標準中的字符一共有137929個,而Unicode編碼目前規(guī)劃了U+0000至U+10FFFF為unicode編碼(以世界上字符的數(shù)量應(yīng)該是很久不會考慮擴展的),算一下目前還剩下976183(1114112-137929)個代碼點,這976183個代碼點是規(guī)劃在unicode中的數(shù)字,但是還沒被分配對應(yīng)的字符。

    UTF-8編碼:

       UTF-8可以說是當(dāng)前互聯(lián)網(wǎng)最常用的編碼格式了,它基于Unicode字符集進行編碼設(shè)計。它最大的特點是變長字節(jié)的編碼設(shè)計,一個字符最長4個字節(jié),最少1個字節(jié),大部分的中文字符占3個字節(jié)。

       編碼規(guī)則如下:

      1.用一個字節(jié)表示的字符,第一位設(shè)為 0,后面的 7 位對應(yīng)這個字符的 Unicode 碼點。由于這128個字符的unicode完全對照ASCII碼,可以說完全向下兼容ASCII碼。即ASCII編碼的文件可以用UTF-8打開而不亂碼;

      2.用一個字節(jié)以上表示的字符,假設(shè)是N個字節(jié)表示這個字符:則該字符第一個字節(jié)的前N位都為1,第N+1位為0,剩下的N-1個字節(jié)的前兩位都設(shè)為10,剩下沒有主動設(shè)值的位置則使用這個字符的Unicode二進制代碼點從低位到高位填充,不夠用0補足。

       




    請輸入姓名或昵稱
    如果您有任何疑問、需要更多信息或希望與我們建立合作請留言
    =

    回復(fù)

    我來回復(fù)
    • 暫無回復(fù)內(nèi)容

    已關(guān)閉回復(fù)。
    主站蜘蛛池模板: 民权县| 新晃| 酒泉市| 叙永县| 邓州市| 六枝特区| 安图县| 高青县| 肇东市| 大姚县| 通山县| 泗阳县| 台中县| 柳州市| 华池县| 绥江县| 东丽区| 德清县| 高台县| 静宁县| 阳高县| 平和县| 南京市| 樟树市| 霍州市| 苏尼特右旗| 叙永县| 扬中市| 绍兴县| 郑州市| 克拉玛依市| 阜新| 南昌市| 武冈市| 渭源县| 棋牌| 徐水县| 清流县| 邛崃市| 福贡县| 屏东县|