跳转到内容

仓颉输入法/汉字分割

维基教科书,自由的教学读本
 辅助字形 仓颉输入法
汉字分割
基本取码 

仓颉输入法按照汉字结构特征取码,要清楚了解分割汉字的位置才能取对码。

分割汉字的核心概念是以视觉(而非字义或笔顺)判断汉字能否分割,不能分割者为“整体字”,能分割者为“组合字[1],并将其分割为“字首”、“字身”二部分;“字身”若还能分割,则按相同方式再分割为“次字首”、“次字身”二部分。[2]分割完后再对各部分分别取码。

组合字

以视觉判断汉字能否分割,能分割者为“组合字”(或称“分体字”)。

字首与字身

组合字可将第一部分分离为“字首”,其余部分则为“字身”。视组合形态不同,大略可分为以下两种分割方式:[3]

基本分割

可纵向或横向“一刀分离”者,其“最左侧”或“最上方”的部分定义为字首。

基本分割字例[4]
分类 图例 字例
左右形 左右形 肌江绿俎观邻语抚韵链
框澹个烟条涤谢辩顺州
上下形 上下形 昌吉字想变产煎爰萌巓
盆合祭券乔冠旁忧囊孛

延伸分割

一些字典惯用且位置固定的字形,会有一部分向右或向下延伸(下方向右延伸左方向下延伸右方向下延伸),或以三面、四面包住另一字形(三面缺右包围三面缺下包围三面缺上包围山形包围四面包围),为取码方便,亦视为字首。

延伸分割字例
图例 字例
下方向右延伸 旭尬延迎爬瓞毯瓩起台魅鼹
左方向下延伸 雁麻屁房危詹眉病产差
右方向下延伸 司可句式武哉韱或彧飞
三面缺右包围 匡区
三面缺下包围 同向周凰戚臧开闹间
三面缺上包围 凶凼
山形包围 幽豳
四面包围 回国

练习

按此练习分割汉字(一)

次字首与次字身

组合字的字身若可分割,则比照分割整个汉字的方法分割为“次字首”与“次字身”。

字身份割范例(字首为红色、次字首为蓝色、次字身为绿色)
分类 图例 字例
字身为左右形 多列形下方左右形
右上左右形右下左右形
右内左右形框内左右形
谢条涤顺州萌巓前寝养
迎巡逃雁麻屁履匑氘氚
汇匪囮圞阀阚斗斗网幽
字身为上下形 右旁上下形多层形
右上上下形右下上下形
右内上下形框内上下形
抚韵语优桥答忧盆参乔
台毯尬趫詹属疹贰司鿫
区匿凰圈圐圆同阎阁𩰟
字身为延伸形 右旁下右延伸形右旁四面包围形
下旁下右延伸形下旁四面包围形
右上包围形下方四面包围形
链澹媚铜框汹佩锎个烟
莲筵产苟筐齿藏奁岚画
庭届廜闼阃国回迥鼹匈

按此,有些字的异体写法,例如“广”末笔向下延伸的长度,会导致不同的分割方式:

基本分割型 上下形懬 上下形垕
延伸分割型 左下延伸懬 左下延伸垕

此外,请留意以下初学者常犯的错误:

错误:试图从字首分割出次字首

次字首与次字身是对字身的分割,与字首无关。例如“哲”的字首是“折”、字身是“口”,“口”为连体字不能再分割;若分割成字首“扌”、次字首“斤”、次字身“口”,就属错误。

正确分割 哲 导 颁 盔 颋
错误分割 哲 导 颁 盔 颋

错误:没有在最左侧或最上方分割

初学者分割汉字往往会受“部首”或“常见偏旁”影响,例如把“順”分割成“川”和“頁”。按规则应于最左侧分离出“丿”作为字首,接着将字身于最左侧分离出“丨”作为次字首,最后剩下“⿰丨页”为次字身。

先分字首 念 盆 丽 剪 鼋 鹏 顺 条 彬 𫖯
字身再分 念 盆 丽 剪 鼋 鹏 顺 条 彬 𫖯
错误分割 念 盆 丽 剪 鼋 鹏 顺 条 彬 𫖯

采用这种分割规则是为了方便视觉辨识,因为部首是根据“字义”决定,没有固定位置,导致某些汉字难以判断部首所在,例如“鸣”看似“口”部实为“鸟”部。仓颉输入法的设计与过去习惯不一致,但熟悉以后便能提高检索汉字的效率。

练习

按此练习分割汉字(二)

整体字

非组合字的字称为“整体字”(又称“连体字”),包括以下三类:[5]

  1. 笔划彼此相连,无法分割者。如:更、才、韭、重等。
  2. 笔划虽非全部交连,但形势为一完整个体者。如:烏、來、噩、坐等。
  3. 例外字〉一节谈及的复合字首、复合字、难字、特殊字等,皆视为整体,不再分割。[6]如:“頨”字以“羽”为字首,“頁”为字身,而非以“习”为字首、“⿰习頁”为字身,因为“羽”是复合字首,不可进一步分割。

字形是否相连的判断

一些汉字笔划,有些人会写成相连,有些人则否,不易判断是否相连,以下为一些归纳的判断原则,用于处理模棱两可的情况:[7]

  • 上方或右上方的点(丶)视为与整个字形相连。[8]
如:……等字皆视为整体字。
※但如……等字的“丶”则不视为与下相连。[9]
  • 附属于整个字形的点(丶),在五代仓颉视为相连,三代仓颉则否。[8]
如:“”字在三代视为组合字,字首为“免”(向右下延伸),字身为“丶”,类似“勉”的结构;五代则把“兔”视为整体字。
如:“”字,五代明确定为相连,三代未明确提及,但相关字形结构通常在实际取码没有差异。
  • 撇与下面笔划视为相连。[10]
如:……等字皆视为整体字。
  • 单纯性横笔与其下之单纯性纵、斜向笔画视为相连。[11]
如:……等字皆视为整体字。
※但如……等字则视为组合字。[12]
  • ”、“”、“”、“”与其上的横向笔划视为相连。[13]
如:西……等字皆视为整体字。
又如:……等字的字首皆包含了“”、“”、“”。
同理,……等字的次字首皆包含了“”或“”。
视为整体字 六 其 共 允 凶 兜
八归入字首 衮 基 恭 夋 㚇 空 养 夔
八归入次字首 嚣 衅 寡
  • ”、“龴”、“”、“”与其下部视为相连。[14]
如:、……等字皆视为整体字。
视为整体字 卤 甬 承 角
  • “撇捺形状”或“盖子形状”(即“”、“”、“”、“”、“”、“”、“”、“”、“”、“”等),通常视为可和下方部件“一刀分离”。[15]
如:、……等字,字首与字身都视为一刀横向分离。
八形、冖形与下分离 会 兑 全 秦 脊 祭 冗 字 学 孛 忧
※“盖子形状”下接“撇捺形状”时,因前述撇捺与上方相连的原则,“盖子形状”不视为与下分离。如、……等字上方的“”、“”视为整体而不切开。
  • ”、“”、“”、“”、“”通常视为可和下部“一刀分离”。[16]
如:等字,皆以“亠”、“爫”、或“厶”为字首。
亠、厶与下分离 雍 玄 畜 率 矣 牟
※但、……等字形皆视为整体。[17]
亠黏他形者 斍 产 恋 巟 衮 音 产 旁 帝 𠅘 髙
厶黏他形者 夋 軬
  • 尚有一些无法套用前述几项,但形势为完整个体者,亦视为整体字。[18]
此类字可大致归纳为二小类:
  • 一是字形交错无法作前述“基本分割”或“延伸分割”者,如:……等;
  • 一是仅能勉强视作“延伸分割”者,如:……等。这些字的“字首”多半占了大部分空间或笔画繁复,以致整个字看来更像一个整体。
在五代仓颉不视为整体字。[19]

练习

按此练习分割汉字(三)

附注

  1. 《第五代仓颉输入法手册》称为“整体字”、“组合字”;二代及三代手册称为“连体字”、“分体字”。
  2. 《第五代仓颉输入法手册》第二章第二节提到:“整体字本无字首、字身之分,为统一取码观念,特以其第一码为字首,其余部分为字身,故整体字取一至四码。”第二章第一节介绍汉字分割时亦未提及整体字需要分割。按此发明人原意当是整体字不须分割,惟取码时“假定”分割,以套用类似组合字的取码方式。本教科书于取码说明时以“・”区分字首与字身及次字首与次字身,如“木・一一・口”表示“木”为字首、其后为字身,又其中“一一”为次字首、“口”为次字身。为避免混淆,本教科书于解说时一律不分割整体字,例如“其”的编码标示为“廿一一金”而非“廿・一一金”,以免读者难以分辨是整体字或组合字。
  3. 《第五代仓颉输入法手册》〈第二章・第一节・一、字首〉。
  4. 有些组合字的左右或上下部件略有交错、看似无法直线切开,如字例的“涤”、“祭”等,为规则统一,皆视为可以“一刀分离”。亦参见〈整体字〉及〈忽略书法变形或变位〉等节之说明。
  5. 五代手册〈整体字〉
  6. 五代手册〈整体字〉:“3.在第四节的复合字、难字、特殊字等例外字,均视为整体字。”
  7. 五代手册已言“中文字形体各异,笔画复杂,很难用简单清楚的文句定义‘整体字’”,其就此部分描述,与实际码表比对,亦非百分之百完备。以下内容除五代手册,亦参酌三代手册、实际编码字例、及其他仓颉教材增补。
  8. 8.0 8.1 五代手册〈整体字〉:“3.丶附属于整个字形,视为一整体字。如:寸、永、兔、甫、犬等。”1994年版三代手册〈连体字〉:“(2)斜、点与其下面字形笔划相接。如良、自、乖。”“(6)点(丶)皆视为与该字体相连,凡点在上方,均视为最高位。如犬、甫、尤。”
  9. 三代、五代手册未明确提及,但由手册字例可确定这些字皆视为“上中下”形组合字,其中“丶”不视为与下部或上部相连。例如“倉”取码“人・戈・日口”而非“人・戈竹・口”,显示点并非与下相连;“貪”取码“人・戈・弓金”而非“人弓・月山金”,显示点并非同时与上下相连。其理由可能是“点与下相连”(及下述的“点附属于整体”)只适用于“整体字形+点”的结构,这些字为“整体字形+点+整体字形”,故不适用。
  10. 1994年版三代手册〈连体字〉:“(2)斜、点与其下面字形笔划相接。如良、自、乖。”点的规则已于前面提及,故在此省略。五代虽无明确提及此原则,但并无相关编码异动,故仍视为适用。
  11. 五代手册〈整体字〉:“1.单纯之丨、丿笔画与其上的字形相连。如:干、黃、焉、歹、刀、卑等。”1994年版三代手册〈连体字〉:“(1)横向笔画与纵、斜向视为相连。如亡、正、步。”1984年版三代手册〈连体字取码〉:“1.横向笔画与纵、斜向笔画,视为相连。如:焉、步、乖”。又网友去信询问“阜”、“枼”何以不视为整体字,并推测上方的横笔须为“单纯性横笔”方适用此规则,沈答是,故按此补。
  12. 三代、五代手册未对“单纯性”做详细定义,按这些实际字例归纳,应是将“𠃊”、“凵”、“厂”、“尸”、“武-止”、“韱-韭”、“戚-尗”等形状下方的横笔视为非“单纯性”。此外三代手册第二章第一节介绍字首时提及“3.戈、戊、𢦏、㦰、产、……等,为便于取码,亦视为字首。”,亦可参考。“垩”、“汞”之分割方式目前尚无明确解释。
  13. 五代手册〈整体字〉:“2.八、、儿等形状与其上部相连。如:真、貝、興、夔、西、見、兀等。”1994年版三代手册〈连体字〉:“(4)儿、八视为与上相连。如兒、免、兇、頁、貝、與、興。”
  14. 五代手册〈整体字〉:“4.与其下的形状相连。如:甬、矛、及、角、龜、色等。”1994年版三代手册〈连体字〉:“(3)凡、龴、等字形与下相连,如桌、甬、角、色、業。”
  15. 1984年版三代手册〈字首〉:“2.八、人、父、𡗗、⿱十冖、𦥯、⿳十中冖、龹、龸等,当作上下分离的字首。”
  16. 1994年版三代手册:“亠、八、爫、𠆢等字形视作与下面分离,皆属单字首。如:畜字首为“亠”不为“玄”;盆字首为“八”不为“分”。”
  17. 三代、五代手册未明确提及这些字形,稍有关系的只有三代手册第二章第一节介绍字首时提及“3.戈、戊、𢦏、㦰、产、麻、厭、厤、鴈、雁、辰、厥、羽、府、鹿、君等,为便于取码,亦视为字首。”有提到“产”字形。此按三代、五代手册实际取码规纳。 其中“六”、“”可用前述“”、“”与上相连的原则解释;“文”、“亦”、“亡”、“”可能是一般书写皆是相连,并无模棱两可,故不套用此原则;“立”、“产”、“辛”、“”、“”未有明确解释,可暂且将“立”型及“”视为相连的特例记忆。
  18. 五代手册〈整体字〉:“2.字形笔画虽非完全全部交连,但形势为一完整个体者。如:島、烏、焉、來、乘、乖、噩、坐、禺、离等。”1994年版三代手册〈连体字〉:“(5)鳥、烏、馬、裊、島‥等字亦视为连体字。”
  19. 官方并未明确说明原因,可能是把“鬼”、“羗”看作类似“勉”的结构所致。三代仓颉把“鬼”定义为复合字;“羗”则未见于官方三代手册的编码表。


 辅助字形 仓颉输入法
汉字分割
基本取码