仓颉输入法/汉字分割

维基教科书,自由的教学读本
 辅助字形 仓颉输入法
汉字分割
基本取码 

仓颉输入法按照汉字结构特征取码,要清楚了解分割汉字的位置才能取对码。

分割汉字的核心概念是以视觉(而非字义或笔顺)判断汉字能否分割,不能分割者为“整体字”,能分割者为“组合字[1],并将其分割为“字首”、“字身”二部分;“字身”若还能分割,则按相同方式再分割为“次字首”、“次字身”二部分。[2]分割完后再对各部分分别取码。

组合字[编辑]

以视觉判断汉字能否分割,能分割者为“组合字”(或称“分体字”)。

字首与字身[编辑]

组合字可将第一部分分离为“字首”,其余部分则为“字身”。视组合形态不同,大略可分为以下两种分割方式:[3]

基本分割[编辑]

可纵向或横向“一刀分离”者,其“最左侧”或“最上方”的部分定义为字首。

基本分割字例[4]
分类 图例 字例
左右形 左右形 肌江绿俎观邻语抚韵链
框澹个烟条涤谢辩顺州
上下形 上下形 昌吉字想变产煎爰萌巓
盆合祭券乔冠旁忧囊孛

延伸分割[编辑]

一些字典惯用且位置固定的字形,会有一部分向右或向下延伸(下方向右延伸左方向下延伸右方向下延伸),或以三面、四面包住另一字形(三面缺右包围三面缺下包围三面缺上包围山形包围四面包围),为取码方便,亦视为字首。

延伸分割字例
图例 字例
下方向右延伸 旭尬延迎爬瓞毯瓩起台魅鼹
左方向下延伸 雁麻屁房危詹眉病产差
右方向下延伸 司可句式武哉韱或彧飞
三面缺右包围 匡区
三面缺下包围 同向周凰戚臧开闹间
三面缺上包围 凶凼
山形包围 幽豳
四面包围 回国

练习[编辑]

按此练习分割汉字(一)

次字首与次字身[编辑]

组合字的字身若可分割,则比照分割整个汉字的方法分割为“次字首”与“次字身”。

字身份割范例(字首为红色、次字首为蓝色、次字身为绿色)
分类 图例 字例
字身为左右形 多列形下方左右形
右上左右形右下左右形
右内左右形框内左右形
谢条涤顺州萌巓前寝养
迎巡逃雁麻屁履匑氘氚
汇匪囮圞阀阚斗斗网幽
字身为上下形 右旁上下形多层形
右上上下形右下上下形
右内上下形框内上下形
抚韵语优桥答忧盆参乔
台毯尬趫詹属疹贰司鿫
区匿凰圈圐圆同阎阁𩰟
字身为延伸形 右旁下右延伸形右旁四面包围形
下旁下右延伸形下旁四面包围形
右上包围形下方四面包围形
链澹媚铜框汹佩锎个烟
莲筵产苟筐齿藏奁岚画
庭届廜闼阃国回迥鼹匈

按此,有些字的异体写法,例如“广”末笔向下延伸的长度,会导致不同的分割方式:

基本分割型 上下形懬 上下形垕
延伸分割型 左下延伸懬 左下延伸垕

此外,请留意以下初学者常犯的错误:

错误:试图从字首分割出次字首[编辑]

次字首与次字身是对字身的分割,与字首无关。例如“哲”的字首是“折”、字身是“口”,“口”为连体字不能再分割;若分割成字首“扌”、次字首“斤”、次字身“口”,就属错误。

正确分割 哲 导 颁 盔 颋
错误分割 哲 导 颁 盔 颋

错误:没有在最左侧或最上方分割[编辑]

初学者分割汉字往往会受“部首”或“常见偏旁”影响,例如把“順”分割成“川”和“頁”。按规则应于最左侧分离出“丿”作为字首,接着将字身于最左侧分离出“丨”作为次字首,最后剩下“⿰丨页”为次字身。

先分字首 念 盆 丽 剪 鼋 鹏 顺 条 彬 𫖯
字身再分 念 盆 丽 剪 鼋 鹏 顺 条 彬 𫖯
错误分割 念 盆 丽 剪 鼋 鹏 顺 条 彬 𫖯

采用这种分割规则是为了方便视觉辨识,因为部首是根据“字义”决定,没有固定位置,导致某些汉字难以判断部首所在,例如“鸣”看似“口”部实为“鸟”部。仓颉输入法的设计与过去习惯不一致,但熟悉以后便能提高检索汉字的效率。

练习[编辑]

按此练习分割汉字(二)

整体字[编辑]

非组合字的字称为“整体字”(又称“连体字”),包括以下三类:[5]

  1. 笔划彼此相连,无法分割者。如:更、才、韭、重等。
  2. 笔划虽非全部交连,但形势为一完整个体者。如:烏、來、噩、坐等。
  3. 例外字〉一节谈及的复合字首、复合字、难字、特殊字等,皆视为整体,不再分割。[6]如:“頨”字以“羽”为字首,“頁”为字身,而非以“习”为字首、“⿰习頁”为字身,因为“羽”是复合字首,不可进一步分割。

字形是否相连的判断[编辑]

一些汉字笔划,有些人会写成相连,有些人则否,不易判断是否相连,以下为一些归纳的判断原则,用于处理模棱两可的情况:[7]

  • 上方或右上方的点(丶)视为与整个字形相连。[8]
如:……等字皆视为整体字。
※但如……等字的“丶”则不视为与下相连。[9]
  • 附属于整个字形的点(丶),在五代仓颉视为相连,三代仓颉则否。[8]
如:“”字在三代视为组合字,字首为“免”(向右下延伸),字身为“丶”,类似“勉”的结构;五代则把“兔”视为整体字。
如:“”字,五代明确定为相连,三代未明确提及,但相关字形结构通常在实际取码没有差异。
  • 撇与下面笔划视为相连。[10]
如:……等字皆视为整体字。
  • 单纯性横笔与其下之单纯性纵、斜向笔画视为相连。[11]
如:……等字皆视为整体字。
※但如……等字则视为组合字。[12]
  • ”、“”、“”、“”与其上的横向笔划视为相连。[13]
如:西……等字皆视为整体字。
又如:……等字的字首皆包含了“”、“”、“”。
同理,……等字的次字首皆包含了“”或“”。
视为整体字 六 其 共 允 凶 兜
八归入字首 衮 基 恭 夋 㚇 空 养 夔
八归入次字首 嚣 衅 寡
  • ”、“龴”、“”、“”与其下部视为相连。[14]
如:、……等字皆视为整体字。
视为整体字 卤 甬 承 角
  • “撇捺形状”或“盖子形状”(即“”、“”、“”、“”、“”、“”、“”、“”、“”、“”等),通常视为可和下方部件“一刀分离”。[15]
如:、……等字,字首与字身都视为一刀横向分离。
八形、冖形与下分离 会 兑 全 秦 脊 祭 冗 字 学 孛 忧
※“盖子形状”下接“撇捺形状”时,因前述撇捺与上方相连的原则,“盖子形状”不视为与下分离。如、……等字上方的“”、“”视为整体而不切开。
  • ”、“”、“”、“”、“”通常视为可和下部“一刀分离”。[16]
如:等字,皆以“亠”、“爫”、或“厶”为字首。
亠、厶与下分离 雍 玄 畜 率 矣 牟
※但、……等字形皆视为整体。[17]
亠黏他形者 斍 产 恋 巟 衮 音 产 旁 帝 𠅘 髙
厶黏他形者 夋 軬
  • 尚有一些无法套用前述几项,但形势为完整个体者,亦视为整体字。[18]
此类字可大致归纳为二小类:
  • 一是字形交错无法作前述“基本分割”或“延伸分割”者,如:……等;
  • 一是仅能勉强视作“延伸分割”者,如:……等。这些字的“字首”多半占了大部分空间或笔画繁复,以致整个字看来更像一个整体。
在五代仓颉不视为整体字。[19]

练习[编辑]

按此练习分割汉字(三)

附注[编辑]

  1. 《第五代仓颉输入法手册》称为“整体字”、“组合字”;二代及三代手册称为“连体字”、“分体字”。
  2. 《第五代仓颉输入法手册》第二章第二节提到:“整体字本无字首、字身之分,为统一取码观念,特以其第一码为字首,其余部分为字身,故整体字取一至四码。”第二章第一节介绍汉字分割时亦未提及整体字需要分割。按此发明人原意当是整体字不须分割,惟取码时“假定”分割,以套用类似组合字的取码方式。本教科书于取码说明时以“・”区分字首与字身及次字首与次字身,如“木・一一・口”表示“木”为字首、其后为字身,又其中“一一”为次字首、“口”为次字身。为避免混淆,本教科书于解说时一律不分割整体字,例如“其”的编码标示为“廿一一金”而非“廿・一一金”,以免读者难以分辨是整体字或组合字。
  3. 《第五代仓颉输入法手册》〈第二章・第一节・一、字首〉。
  4. 有些组合字的左右或上下部件略有交错、看似无法直线切开,如字例的“涤”、“祭”等,为规则统一,皆视为可以“一刀分离”。亦参见〈整体字〉及〈忽略书法变形或变位〉等节之说明。
  5. 五代手册〈整体字〉
  6. 五代手册〈整体字〉:“3.在第四节的复合字、难字、特殊字等例外字,均视为整体字。”
  7. 五代手册已言“中文字形体各异,笔画复杂,很难用简单清楚的文句定义‘整体字’”,其就此部分描述,与实际码表比对,亦非百分之百完备。以下内容除五代手册,亦参酌三代手册、实际编码字例、及其他仓颉教材增补。
  8. 8.0 8.1 五代手册〈整体字〉:“3.丶附属于整个字形,视为一整体字。如:寸、永、兔、甫、犬等。”1994年版三代手册〈连体字〉:“(2)斜、点与其下面字形笔划相接。如良、自、乖。”“(6)点(丶)皆视为与该字体相连,凡点在上方,均视为最高位。如犬、甫、尤。”
  9. 三代、五代手册未明确提及,但由手册字例可确定这些字皆视为“上中下”形组合字,其中“丶”不视为与下部或上部相连。例如“倉”取码“人・戈・日口”而非“人・戈竹・口”,显示点并非与下相连;“貪”取码“人・戈・弓金”而非“人弓・月山金”,显示点并非同时与上下相连。其理由可能是“点与下相连”(及下述的“点附属于整体”)只适用于“整体字形+点”的结构,这些字为“整体字形+点+整体字形”,故不适用。
  10. 1994年版三代手册〈连体字〉:“(2)斜、点与其下面字形笔划相接。如良、自、乖。”点的规则已于前面提及,故在此省略。五代虽无明确提及此原则,但并无相关编码异动,故仍视为适用。
  11. 五代手册〈整体字〉:“1.单纯之丨、丿笔画与其上的字形相连。如:干、黃、焉、歹、刀、卑等。”1994年版三代手册〈连体字〉:“(1)横向笔画与纵、斜向视为相连。如亡、正、步。”1984年版三代手册〈连体字取码〉:“1.横向笔画与纵、斜向笔画,视为相连。如:焉、步、乖”。又网友去信询问“阜”、“枼”何以不视为整体字,并推测上方的横笔须为“单纯性横笔”方适用此规则,沈答是,故按此补。
  12. 三代、五代手册未对“单纯性”做详细定义,按这些实际字例归纳,应是将“𠃊”、“凵”、“厂”、“尸”、“武-止”、“韱-韭”、“戚-尗”等形状下方的横笔视为非“单纯性”。此外三代手册第二章第一节介绍字首时提及“3.戈、戊、𢦏、㦰、产、……等,为便于取码,亦视为字首。”,亦可参考。“垩”、“汞”之分割方式目前尚无明确解释。
  13. 五代手册〈整体字〉:“2.八、、儿等形状与其上部相连。如:真、貝、興、夔、西、見、兀等。”1994年版三代手册〈连体字〉:“(4)儿、八视为与上相连。如兒、免、兇、頁、貝、與、興。”
  14. 五代手册〈整体字〉:“4.与其下的形状相连。如:甬、矛、及、角、龜、色等。”1994年版三代手册〈连体字〉:“(3)凡、龴、等字形与下相连,如桌、甬、角、色、業。”
  15. 1984年版三代手册〈字首〉:“2.八、人、父、𡗗、⿱十冖、𦥯、⿳十中冖、龹、龸等,当作上下分离的字首。”
  16. 1994年版三代手册:“亠、八、爫、𠆢等字形视作与下面分离,皆属单字首。如:畜字首为“亠”不为“玄”;盆字首为“八”不为“分”。”
  17. 三代、五代手册未明确提及这些字形,稍有关系的只有三代手册第二章第一节介绍字首时提及“3.戈、戊、𢦏、㦰、产、麻、厭、厤、鴈、雁、辰、厥、羽、府、鹿、君等,为便于取码,亦视为字首。”有提到“产”字形。此按三代、五代手册实际取码规纳。 其中“六”、“”可用前述“”、“”与上相连的原则解释;“文”、“亦”、“亡”、“”可能是一般书写皆是相连,并无模棱两可,故不套用此原则;“立”、“产”、“辛”、“”、“”未有明确解释,可暂且将“立”型及“”视为相连的特例记忆。
  18. 五代手册〈整体字〉:“2.字形笔画虽非完全全部交连,但形势为一完整个体者。如:島、烏、焉、來、乘、乖、噩、坐、禺、离等。”1994年版三代手册〈连体字〉:“(5)鳥、烏、馬、裊、島‥等字亦视为连体字。”
  19. 官方并未明确说明原因,可能是把“鬼”、“羗”看作类似“勉”的结构所致。三代仓颉把“鬼”定义为复合字;“羗”则未见于官方三代手册的编码表。


 辅助字形 仓颉输入法
汉字分割
基本取码