倉頡輸入法/特別注意
以下說明倉頡輸入法取碼時可能遇到的其他問題,包括字體差異、編碼訛誤、簡化字取碼等。
目录 |
[编辑] 概述
倉頡輸入法相關問題之歷史及時代背景:
- 1977年,朱邦復發表第一代倉頡。1982年,發表改良後的第三代倉頡,選《康熙字典》中之四萬字為取碼範圍,此時只有編入正體字。
- 1982年,教育部公布國字標準字體,成為台灣之字形標準。此標準之後經過數次小幅修改,最後一次修改於1998年。目前符合此標準的中文字型為微軟正黑體或安裝新細明體更新套件後的新細明體,內建的標楷體也相當接近此標準(仍有少數不符合)。
- 1984年,財團法人資訊工業策進會發表 Big5 編碼,成為繁體中文的主要編碼標準。
- 1985年,朱邦復在美國發表第四代倉頡。
- 1987年,朱邦復發表第五代倉頡輸入法,共收集了約六萬字,將正簡漢字統一處理,增加一些輔助字形,並修正少許取碼。朱邦復也把五代倉頡應用在他們開發的【聚珍大字庫】(【倉頡系統】的一部分)上,倉頡系統的特色之一是以倉頡碼為內碼,字型則是用其內建之【向量字形產生器】產生。在朱邦復工作室網站上的《第五代倉頡輸入法手冊》一書中提供了第三代、第五代改碼字的字碼對照表。
- 1995年左右,Windows 95 推出,由於微軟在1990年和朱邦復的合作關係破裂。Windows 95 將朱邦復發表過的第四代倉頡略作修改[1],成為其內建的倉頡輸入法,並以 Big5 為中文編碼,新細明體及標楷體為中文字型。由於 Windows 流行,此版漸成主流。
- 2000年左右,Windows 2000 開始支援 Unicode 編碼,微軟因此擴充了新細明體及標楷體,並自行增加多出的中文字的編碼,隨後推出的 Windows XP 亦同。
由於 Windows 為目前中文電腦之主流作業系統,連帶其內建的中文輸入法也被最多人使用。今日所稱的「倉頡輸入法」、「三代倉頡」、「微軟倉頡」多是指 Windows 系統內建的倉頡輸入法。(實際上應為四代)
[编辑] 字體問題
目前的中文字型(Big5 和 Unicode)通常只取其中一個「標準字體」編入內碼,因此只能用「微軟倉頡編碼」輸入(如「麻 」(有些字型呈現「麻 」)只能用「戈.十金.金」 輸入)。
而五代倉頡直接用於倉頡系統,其輸入碼(倉頡碼)即是內碼,往往會把二種字體都列入編碼(輸入「戈.十金.金」 得「麻 」,輸入「戈.木.木」 得「麻 」);有些版本的五代倉頡是提供給 Windows、Linux 等系統使用,會加上部分容錯編碼(輸入「戈.十金.金」 或「戈.木.木」 皆得「麻 」(有些字型呈現「麻 」))。
[编辑] 編碼字形差異
倉頡輸入法發展較早,因此有些字取碼所據字形與後來教育部公布的國字標準字體不同,取碼時須留意。
以「反 」 為例,情況大致如下:
- 朱邦復依據早期的標準字體(多為宋體),編碼為「竹水」
,他們設計的字形產生器產生的字體結構約相似於「反 」。
- 後來台灣教育部公布新的標準字體。新的電腦系統字體只有新細明體「反
」和標楷體「反 」等。
- 後來的系統設計者,可能沒注意到字體的變化會影響倉頡輸入法的取碼,也可能因其他因素不便更改字體(修改新細明體與標楷體,使之符合相應的倉頡編碼)或更改編碼(把「竹水」
改為「一水」 ,使之符合新的字體)。
- 結果,現在的呈現字體「反
、反 」編碼像「一水」 ,實際編碼卻為「竹水」 。
(下表依微軟倉頡編碼排序)
| 標準字形 | 標準字形編碼 | 取碼字形 | 微軟倉頡編碼 | 五代倉頡編碼 | 補充說明 |
|---|---|---|---|---|---|
| 潃 | 水.竹.人月 | 滫 | 水.人.中月 | 水.竹.人月 | 「滫
」 字為後來 Unicode 加收。 |
| 滫 | 水.人.中月 | 滫 | 水.人.中月 | 水.人.中月 | |
| 築 | 竹.一戈.木 | 築 | 竹.一弓.木 | 竹.一弓.木 | 類字:銎
、……。 |
| 反 | 一水 | 反 | 竹水 | 竹水 | 類字:板
、飯 、……。但「坂 」 因所有的日本字體皆像「一水」 ,微軟倉頡編碼作「土.一水」 。 |
| 麻 | 戈.十金.金 | 麻 | 戈.十金.金 | 戈.十金.金; 戈.木.木 |
類字:糜
、魔 、麾 、靡 、磨 、摩 、……。除「麻 」 作「戈.十金.金」 以外,其他衍生字皆作「戈木」 。 |
| 麼 | 戈金.女戈 | 麼 | 戈木.女戈 | 戈金.女戈; 戈木.女戈 |
|
| 麵 | 十水.一田中 | 麵 | 十弓.一田中 | 十水.一田中 | Big5 原收者,有「麵
麵 」 、「麴 麴 」 、……等字。 |
| 麫 | 十水.一卜尸 | 麫 | 十弓.一卜尸 | 十水.一卜尸 | Unicode 加收者,有「麬
麬 」 、「麳 麳 」 、「麱 麱 」 、「麪 麪 」 、「麫 麫 」 、「麯 麯 」 、……等字。 |
| 致 | 一土.竹水 | 致 | 一土.人大 | 一土.竹水; 一土.人大 |
依文字學考據,「致
」 之右半應為「夊 」 而非「攵 」 (攴)。 |
| 急 | 弓一.心 | 急 | 弓尸.心 | 弓一.心 | |
| 倉 | 人.一.日口 | 倉 | 人.戈.日口 | 人.戈.日口 | 類字:食
、養 、餐 、今 、令 、……等。但俞 、命 、……等字為「人一」 。大略的判斷方式是,如果「一」之後的筆劃為左向右的橫筆,書寫時常因手順將「一」寫成「丶」,因此取碼為「人戈」 ;其餘則為「人一」 。有些字為後來 Unicode 加收,編碼則為「人一」 ,如「赺 」 、「趻 」 、「黅 」 、「訡 」 、……。 |
| 勻 | 心一一 | 匀 | 心戈一 | 心一一 | 「匀
」 字為後來 Unicode 加收。見【#編碼訛誤】一節。 |
| 撐 | 手.火月竹 | 撑 | 手.火月手 | 手.火月竹 | 「撑
」 字為後來 Unicode 加收。 |
| 撑 | 手.火月手 | 撑 | 手.火月手 | 手.火月手 | |
| 插 | 手.一十難 | 插 | 手.竹十難 | 手.一十難; 手.竹十難 |
類字:鍤
、……。 |
| 捏 | 手.日.土 | 揑 | 手.竹難.一 | 手.日.土 | 「揑
」 字為後來 Unicode 加收。 |
| 揑 | 手.竹難.一 | 揑 | 手.竹難.一 | 手.竹難.一 | |
| 毒 | 手一.田十竹 | 毒 | 手一.田卜戈 | 手一.田十竹; 手一.田卜戈; 手一.田十 |
|
| 育 | 大戈.月 | 育 | 卜戈.月 | 卜戈.月 | 類字:銃
、梳 、流 、硫 、統 、……。 |
| 彥 | 卜大.一.竹竹 | 彦 | 卜竹.竹竹竹 | 卜大.一.竹竹 | 「彦
」 字為後來 Unicode 加收。見【#編碼訛誤】一節。 |
| 諺 | 卜口.卜大.竹 | 諺 | 卜口.卜竹.竹 | 卜口.卜大.竹; 卜口.卜竹.竹 |
類字:楌
、嵃 、齴 、……。有些字為後來 Unicode 加收,編碼則為「卜大.竹」 ,如「遃 」 。 |
| 產 | 卜大.一.竹一 | 産 | 卜竹.竹手一 | 卜大.一.竹一 | 「産
」 字為後來 Unicode 加收。見【#編碼訛誤】一節。 |
| 鏟 | 金.卜大.一 | 鏟 | 金.卜竹.一 | 金.卜大.一; 金.卜竹.一 |
類字:滻
、簅 、隡 、嵼 、……。有些字為後來 Unicode 加收,編碼則為「卜大.一」 ,如「摌 」 。 |
| 螤 | 卜戈.中田人 | 斔 | 卜戈.竹難人 | 卜戈.中田人 | 「斔
」 字為後來 Unicode 加收。 |
| 斔 | 卜戈.竹難人 | 斔 | 卜戈.竹難人 | 卜戈.竹難人 |
[编辑] 新細明體差異
目前廣泛使用的新細明體,很多字來自舊字形漢字的字模,往往不符合臺灣國字標準字體(標楷體是目前最接近國字標準字體的電腦中文字型),也和倉頡輸入法的取碼字體不同。
(下表依微軟倉頡編碼排序)
| 標準字體 | 微軟倉頡編碼 | 新細明體 | 新細明體編碼 | 五代倉頡編碼 | 補充說明 |
|---|---|---|---|---|---|
| 沉 | 水.月.竹山 | 沉 | 水.月.竹弓 | 水.月.竹山; 水.月.竹弓 |
「冗
冗 」 仍作「月.竹弓」。 |
| 節 | 竹.日戈.中 | 節 | 竹.竹心.中 | 竹.日戈.中 | 類字:「概
概 」 、「溉 溉 」 、「鄉 鄉 」 、「卿 卿 」 。 |
| 啟 | 竹口.人大 | 啟 | 竹大.口 | 竹口.人大 | Unicode 提供兩種不同內碼的字,但新細明體皆呈現作「啟」。 |
| 啓 | 竹大.口 | 竹大.口 | |||
| 社 | 戈火.土 | 社 | 一火.土 | 戈火.土 | 類字:「禍
禍 」 、「視 視 」 、「祝 祝 」 、「禎 禎 」 。少數常用字的新細明體和標準字體相近,如:「神 神 」 、「祧 祧 」 、「禙 禙 」 。 |
| 為 | 戈大弓火 | 為 | 月.竹弓火 | 戈大弓火 | Unicode 提供兩種不同內碼的字,但新細明體皆呈現作「為」。 |
| 爲 | 月.竹弓火 | 月.竹弓火 | |||
| 州 | 戈.中.戈中 | 州 | 竹.中.戈中 | 戈.中.戈中 | 類字:「辨
辨 」 。 |
| 直 | 十月一一 | 直 | 十山.女 | 十月一一 | 類字:「植
植 」 、「值 值 」 、「置 置 」 。 |
| 麥 | 十人.弓戈 | 麥 | 木人.竹水 | 十人.弓戈 | 類字:「嘜
嘜 」 。 |
| 朮 | 戈十金 | 朮 | 戈十金 | 戈十金 | 類字:「怵
怵 」 、「述 述 」 。除本字「朮 」 有兩種內碼和字體,其餘字微軟倉頡皆只取「戈十金」 (戈金 )作為標準。 |
| 术 | 戈木 | 术 | 戈木 | 戈木 | |
| 殺 | 大金.竹弓.水 | 殺 | 大木.竹弓.水 | 大金.竹弓.水; 大木.竹弓.水 |
|
| 免 | 弓日竹山 | 免 | 尸竹日山 | 弓日竹山 | |
| 延 | 弓大.竹卜一 | 延 | 弓大.竹卜女 | 弓大.竹卜一 | 類字:「梴
梴 」 、「涎 涎 」 、「筵 筵 」 。 |
| 隊 | 弓中.廿心人 | 隊 | 弓中.金.一人 | 弓中.廿心人 | 類字:「遂
遂 」 。 |
| 弱 | 弓一.弓戈一 | 弱 | 弓竹.弓竹竹 | 弓一.弓戈一 | 類字:「溺
溺 」 。 |
| 令 | 人.戈.弓戈 | 令 | 人.戈.尸中 | 人.戈.弓戈 | 類字:「領
領 」 、「零 零 」 。前為「人戈」 而非「人一」 ,參考【#編碼字形差異】一節的「倉 」 字。 |
| 拼 | 手.廿廿 | 拼 | 手.竹十.十 | 手.廿廿 | 類字:「胼
胼 」 、「迸 迸 」 。 |
| 黃 | 廿.一.田金 | 黃 | 廿.一中金 | 廿.一中金 | 五代改取「廿.一中金」
為標準字體,與國字標準字體不同。 |
| 翔 | 廿手.尸一一 | 翔 | 廿手.尸竹竹 | 廿手.尸一一 | 類字:「翁
翁 」 、「詡 詡 」 、「翅 翅 」 。 |
| 兼 | 廿難金 | 兼 | 金.一難金 | 廿難金 | 類字:「膁
膁 」 、「鎌 鎌 」 、「廉 廉 」 、「簾 簾 」 。 |
| 賺 | 月金.廿難金 | 賺 | 月金.竹竹金 | 月金.廿難金 | |
| 函 | 弓山水 | 函 | ? | 山.弓水 | 類字:「涵
涵 」 。 |
[编辑] 微軟倉頡的編碼訛誤
Windows 2000 以後的版本開始支援 Unicode,其擴充的非 Big5 字(多為簡化字及罕用字)被微軟自行加上編碼。可能因編碼者不清楚編碼規則,或缺乏查對,造成某些字編碼錯誤,即,不符合原先的(理論上的)編碼規律。
(下表依微軟理論編碼排序)
| 例字 | 微軟理論編碼 | 微軟倉頡編碼 | 補充說明 |
|---|---|---|---|
| 暎 | 日.廿中大 | 日.廿大月 | |
| 髎 | 月月.尸一.竹 | 月月.尸卜.竹 | |
| 銹 | 金.竹木.尸 | 金.竹木.竹 | 「銹」為「鏽」的異體字。 |
| 鍈 | 金.廿中大 | 金.廿大月 | |
| 楧 | 木.廿中大 | 木.廿大月 | |
| 熮 | 火.尸一.竹 | 火.尸卜.竹 | |
| 灬 | 竹.火 | 火.戈 | 「火」的輔助字形「 |
| 筑 | 竹.一.竹弓 | 竹.一.弓十 | |
| 覣 | 竹女.月山山 | 竹女.月山 | |
| 睾 | 竹田.土廿十 | 竹田.土廿戈 | |
| 疒 | 戈戈一 | 戈卜 | |
| 氵 | 戈.戈.一 | 卜.一 | 「卜」的輔助字形「 |
| 巩 | 一.竹弓戈 | 一.弓竹戈 | |
| 珉 | 一土.口女心 | 一土.口山心 | |
| 侌 | 人.戈.弓戈 | 人弓.一一戈 | |
| 偐 | 人.卜廿竹 | 人.卜竹.竹 | |
| 匀 | 心戈一 | 心卜 | 較常用的異體字「勻」見【#編碼字形差異】一節。 |
| 蹘 | 口一.尸一.竹 | 口一.尸卜.竹 | |
| 芪 | 廿.竹女心 | 廿.竹山心 | |
| 羋 | 廿中.一十 | 中一卜手 | 此字有許多異體字,微軟收了「羋
」(新細明體:「羋 」,標楷體:「羋 」)(中一卜手)、「芈 」(廿手)二字;倉頡系統收了「羋 」(廿中.手)、「羋 」(廿中.一十)、「芈 」(廿手)、「芈 (中豎低於卝)」(廿手)四字。 |
| 姄 | 女.口女心 | 女.口山心 | |
| 媖 | 女.廿中大 | 女.廿大月 | |
| 囻 | 田.口女心 | 田.口山心 | |
| 疁 | 田.尸一.竹 | 田.尸卜.竹 | |
| 彦 | 卜竹.竹竹竹 | 卜廿竹竹 | 較常用的異體字「彥」見【#編碼字形差異】一節。 |
| 産 | 卜竹.竹手一 | 卜廿竹一 | 較常用的異體字「產」見【#編碼字形差異】一節。 |
| 旞 | 卜尸.人.卜人 | 卜尸.卜.人人 |
[编辑] 簡化字的編碼
簡化字的編碼規則原則上和正體字相同,但倉頡直至五代才開始對簡化字編碼,而微軟自行在擴充 Unicode 字集時對簡化字編碼,因此規則較為混亂,甚至有不少錯碼,以下列出較不易理解的簡化字的編碼。
(下表依五代編碼排序)
| 例字 | 五代編碼 | 微軟編碼 | 補充說明 |
|---|---|---|---|
| 炼 | 火.大女金 | 火.手木 | 類字:「拣
」 、「练 」 、……等。 |
| 戋 | 戈十 | 戈一 | 類字:「笺
」 、「钱 」 、「线 」 、……等。 |
| 讠 | 戈.弓女 | 戈.弓 | 微軟的「讠
」 字首編碼不統一,有作「戈弓」 ,或作「戈山」 ,或二者皆有。 |
| 认 | 戈女.人 | 戈弓.人; 戈山.人 |
|
| 丬 | 中戈一 | 卜中; 戈一中 |
類字:「状
」 、「妆 」 、「浆 」 、「酱 」 、……等。 |
| 壮 | 中一.土 | 卜中.土 | |
| 门 | 中尸 | 中尸; 戈尸 |
「门
」 同「門 」 視作複合字,取首尾碼「中尸」 。微軟編碼不統一,有作前者,或後者,或二者皆有。類字:「简 」 、「闲 」 、「们 」 、……等。這個系列有很多錯碼,尤其是「戈尸」 為字首的字,如 门 (心人 ) 、闪 (戈尸一 ) 、闭 (戈尸一十 ) 、闬 (戈尸一一一 ) 、闫 (戈尸人 ) 、闯 (戈尸口 ) 、……。相較之下取「中尸」 者多為正常。 |
| 间 | 中尸.日 | 中尸.日; 戈尸.日 |
|
| 钅 | 人.一心 | 金; 人.一心 |
微軟的「钅
」 多為「人心」 和「金」 二者皆有。 |
| 锡 | 人心.日心竹 | 金.日心竹; 人心.日心竹 |
|
| 长 | 心人 | 心人 | 類字:「帐
」 、「张 」 、……等。 |
| 马 | 尸一 | 弓尸.一 | 五代加了一個輔助字型處理「马
」 。微軟三代視作組合字,而不如「馬 」 視為整體字。 |
| 驰 | 尸一.心木 | 弓一.心木 |
| 例字 | 五代編碼 | 微軟編碼 | 補充說明 |
|---|---|---|---|
| 学 | 火月.弓木 | 戈月.弓木 | 微軟編碼有誤。 |
| 书 | 戈木尸 | 戈木木; 戈木尸 |
「木 |
| 发 | 戈女大水 | 火大水 | 「发 |
| 为 | 戈大尸戈 | 戈大尸戈; 戈大弓戈 |
依字形特徵原則,「戈大弓戈」
編碼不合理。 |
| 关 | 廿大 | 金一大 | 微軟編碼有誤。 |
[编辑] 附註
- ↑ 從《第五代倉頡輸入法手冊:第三代、第五代改碼字字碼對照表》可看出,微軟據以修改的倉頡並非三代(如既、然、牙、等字),也並非五代(如犀、非、乍等字),應是介於三代和五代中間,很可能是朱邦復在美國發表的四代。