仓颉输入法/汉字分割

维基教科书,自由的教学读本
跳到导航 跳到搜索
 辅助字形 仓颉输入法
汉字分割
基本取码 

仓颉输入法是按照汉字的结构特征取码,因此要清楚了解分割汉字的位置,才能正确取码。

分割汉字的核心概念是以视觉(而非字义或笔顺)判断汉字能否分割,不能分割者为“整体字”,能分割者为“组合字[1],并将其分割为“字首”、“字身”二部分;“字身”若还能分割,则按相同方式再分割为“次字首”、“次字身”二部分。[2]分割完后再对各部分分别取码。

组合字[编辑]

以视觉判断汉字能否分割,能分割者为“组合字”(或称“分体字”)。

字首与字身[编辑]

组合字可将第一部分分离为“字首”,其余部分则为“字身”。视组合形态不同,大略可分为以下两种分割方式:[3]

基本分割[编辑]

可纵向或横向“一刀分离”者,其“最左侧”或“最上方”的部分定义为字首。

基本分割字例[4]
分类 图例 字例
左右形 左右形 肌江绿俎观邻语抚韵链
框澹个烟条涤谢辩顺州
上下形 上下形 昌吉字想变产煎爰萌巓
盆合祭券乔冠旁忧囊孛

延伸分割[编辑]

一些字典上惯用且位置固定的字形,会有一部分向右或向下延伸(下方向右延伸左方向下延伸右方向下延伸),或以三面、四面包住另一字形(三面缺右包围三面缺下包围三面缺上包围山形包围四面包围),为取码方便,亦视为字首。

延伸分割字例
图例 字例
下方向右延伸 旭尬延迎爬瓞毯瓩起台魅鼹
左方向下延伸 雁麻屁房危詹眉病产差
右方向下延伸 司可句式武哉韱或彧飞
三面缺右包围 匡区
三面缺下包围 同向周凰戚臧开闹间
三面缺上包围 凶凼
山形包围 幽豳
四面包围 回国

练习[编辑]

按此进行汉字分割练习(一)

次字首与次字身[编辑]

组合字的字身若可分割,则比照分割整个汉字的方法分割为“次字首”与“次字身”。

字身份割范例(字首为红色、次字首为蓝色、次字身为绿色)
分类 图例 字例
字身为左右形 多列形下方左右形
右上左右形右下左右形
右内左右形框内左右形
谢条涤顺州萌巓前寝养
迎巡逃雁麻屁履匑氘氚
汇匪囮圞阀阚斗斗网幽
字身为上下形 右旁上下形多层形
右上上下形右下上下形
右内上下形框内上下形
抚韵语优桥答忧盆参乔
台毯尬趫詹属疹贰司鿫
区匿凰圈圐圆同阎阁𩰟
字身为延伸形 右旁下右延伸形右旁四面包围形
下旁下右延伸形下旁四面包围形
右上包围形下方四面包围形
链澹媚铜框汹佩锎个烟
莲筵产苟筐齿藏奁岚画
庭届廜闼阃国回迥鼹匈

按此,有些字的异体写法,例如“广”末笔向下延伸的长度,会导致不同的分割方式:

基本分割型 上下形懬 上下形垕
延伸分割型 左下延伸懬 左下延伸垕

此外,请留意几个初学者常见的错误:

错误:试图从字首分割出次字首[编辑]

次字首与次字身是对字身的分割,与字首无关。例如“哲”的字首是“折”、字身是“口”,“口”为连体字不能再分割;若分割成字首“扌”、次字首“斤”、次字身“口”,就属错误。

正确分割 哲 导 颁 盔 憠 颋
错误分割 哲 导 颁 盔 憠 颋

错误:没有在最左侧或最上方分割[编辑]

初学者分割汉字往往会受“部首”或“常见偏旁”影响,例如把“顺”分割成“川”和“頁”。按规则应于最左侧分离出“丿”作为字首,接着将字身于最左侧分离出“丨”作为次字首,最后剩下“⿰丨页”为次字身。

先分字首 念 盆 丽 剪 鼋 鹏 顺 条 彬 𫖯
字身再分 念 盆 丽 剪 鼋 鹏 顺 条 彬 𫖯
错误分割 念 盆 丽 剪 鼋 鹏 顺 条 彬 𫖯

采用这种分割规则是为了方便视觉辨识,因为部首是根据“字义”决定,没有固定位置,导致某些汉字难以判断部首所在,例如“鸣”看似“口”部实为“鸟”部。仓颉输入法的设计与过去习惯不一致,但熟悉以后便能提高检索汉字的效率。

练习[编辑]

按此进行汉字分割练习(二)

整体字[编辑]

笔划彼此相连,无法分割;或虽非全部交连,但形势上为一完整个体者,称为“整体字”(又称“连体字”)。

字形是否相连的判断[编辑]

一些汉字笔划,有些人会写成相连,有些人则否,不易判断是否相连,以下为一些归纳的判断原则,用于处理模棱两可的情况:[5]

  • 形势上为完整个体者,视为整体字。[6]
此类字又可大致归纳为二小类:
  • 一是字形交错无法作前述“基本分割”或“延伸分割”者,如:西……等;
  • 一是仅能勉强视作“延伸分割”者,如:……等。这些字的“字首”多半占了大部分空间或笔画繁复,以致整个字看来更像一个整体。
  • 上方或右上方的点(丶)视为与整个字形相连。[7]
如:……等字皆视为整体字。
※但如……等字的“丶”则不视为与下相连。[8]
  • 附属于整个字形的点(丶),在五代仓颉视为相连,三代仓颉则否。[7]
如:“”字在三代视为组合字,字首为“免”(向右下延伸),字身为“丶”,类似“勉”的结构;五代则把“兔”视为整体字。
如:“”字,五代明确定为相连,三代未明确提及,但相关字形结构通常在实际取码上没有差异。
  • 撇与下面笔划视为相连。[9]
如:……等字皆视为整体字。
  • 单纯性横笔与其下之单纯性纵、斜向笔画视为相连。[10]
如:……等字皆视为整体字。
※但如……等字则视为组合字。[11]
  • Cjrm-c5.svg”、“Cjrm-c3.svg”、“Cjrm-c6.svg”、“Cjwm-hu.svg”与其上的横向笔划视为相连。[12]
如:西……等字皆视为整体字。
又如:……等字的字首皆包含了“Cjrm-c6.svg”、“Cjrm-c3.svg”、“Cjrm-c5.svg”。
同理,……等字的次字首皆包含了“Cjrm-c5.svg”或“Cjrm-c3.svg”。
视为整体字 六 其 共 允 凶 兜
八归入字首 衮 基 恭 夋 㚇 空 养 夔
八归入次字首 嚣 衅 寡
  • Cjrm-y1.svg”、“龴”、“Cjrm-n2.svg”、“Cjrm-n4.svg”与其下部视为相连。[13]
如:、……等字皆视为整体字。
视为整体字 卤 甬 承 角
  • “撇捺形状”或“盖子形状”(即“Cjrm-c5.svg”、“Cjrm-c3.svg”、“Cjrm-o3.svg”、“Cjrm-o4.svg”、“Cjrm-k0.svg”、“Cjrm-e4.svg”、“Cjwm-niho.svg”、“Cjwm-bno.svg”、“Cjrm-b11.svg”、“Cjrm-j2.svg”等),通常视为可和下方部件“一刀分离”。[14]
如:、……等字,字首与字身都视为一刀横向分离。
八形、冖形与下分离 会 兑 全 秦 脊 祭 冗 字 学 孛 忧
※“盖子形状”下接“撇捺形状”时,因前述撇捺与上方相连的原则,“盖子形状”不视为与下分离。如、……等字上方的“Cjwm-bc.svg”、“Cjwm-jc.svg”视为整体而不切开。
  • Cjrm-y2.svg”、“Cjrm-y3.svg”、“Cjrm-y4.svg”、“Cjrm-b16.svg”、“Cjrm-i3.svg”通常视为可和下部“一刀分离”。[15]
如:等字,皆以“亠”、“爫”、或“厶”为字首。
亠、厶与下分离 雍 玄 畜 率 矣 牟
※但Cjh6m-yb2.svgCjwm-yslb.svgCjwm-ic.svgCjwm-ik.svg、……等字形皆视为整体。[16]
亠黏他形者 斍 产 恋 巟 衮 音 产 旁 帝 𠅘 髙
厶黏他形者 夋 軬
  • 例外字〉一节谈及的复合字首、复合字、难字、特殊字,皆视为整体,不再分割。[17]
如:“”字以“羽”为字首,“頁”为字身,而非以“习”为字首、“⿰习頁”为字身,因为“羽”是复合字,不可进一步分割。

练习[编辑]

按此进行汉字分割练习(三)

附注[编辑]

  1. 《第五代仓颉输入法手册》称为“整体字”、“组合字”;二代及三代手册称为“连体字”、“分体字”。
  2. 《第五代仓颉输入法手册》第二章第二节提到:“整体字本无字首、字身之分,为统一取码观念,特以其第一码为字首,其余部分为字身,故整体字取1—4码。”第二章第一节介绍汉字分割时亦未提及整体字需要分割。按此发明人原意当是整体字不须分割,惟取码时“假定”分割,以套用类似组合字的取码方式。本教科书于取码说明时会以“.”区分字首与字身及次字首与次字身,例如“木.一一.口”表示“木”为字首、其后为字身,又其中“一一”为次字首、“口”为次字身。为避免混淆,本教科书于解说时一律不分割整体字,例如“其”的编码标示为“廿一一金”而非“廿.一一金”,以免读者难以分辨是整体字或组合字。
  3. 《第五代仓颉输入法手册》〈第二章·第一节·一、字首〉。
  4. 有些组合字的左右或上下部件略有交错、看似无法直线切开,如字例中的“涤”、“祭”等,为规则统一,皆视为可以“一刀分离”。亦参见〈整体字〉及〈忽略书法变形或变位〉等节之说明。
  5. 五代手册已言“中文字形体各异,笔画复杂,很难用简单清楚的文句定义‘整体字’”,其就此部分描述,与实际码表比对,亦难称完备。以下内容除五代手册,亦参酌三代手册、实际编码字例、及其他仓颉教材增补。
  6. 五代手册〈整体字〉:“2.字形笔画虽非完全全部交连,但形势上为一完整个体者。如:岛、乌、焉、来、乘、乖、噩、坐、禺、离等。”1994年版三代手册〈连体字〉:“(5)鸟、乌、马、袅、岛‥等字亦视为连体字。”
  7. 7.0 7.1 五代手册〈整体字〉:“3.丶附属于整个字形,视为一整体字。如:寸、永、兔、甫、犬等。”1994年版三代手册〈连体字〉:“(2)斜、点与其下面字形笔划相接。如良、自、乖。”“(6)点(丶)皆视为与该字体相连,凡点在上方,均视为最高位。如犬、甫、尤。”
  8. 三代、五代手册未明确提及,但由手册字例可确定这些字皆视为“上中下”形组合字,其中的“丶”不视为与下部或上部相连。例如“倉”取码“人.戈.日口”而非“人.戈竹.口”,显示点并非与下相连;“貪”取码“人.戈.弓金”而非“人弓.月山金”,显示点并非同时与上下相连。其理由可能是“点与下相连”(及下述的“点附属于整体”)只适用于“整体字形+点”的结构,这些字为“整体字形+点+整体字形”,故不适用。
  9. 1994年版三代手册〈连体字〉:“(2)斜、点与其下面字形笔划相接。如良、自、乖。”点的规则已于前面提及,故在此省略。五代虽无明确提及此原则,但并无相关编码异动,故仍视为适用。
  10. 五代手册〈整体字〉:“1.单纯之丨、丿笔画与其上的字形相连。如:干、黄、焉、歹、刀、卑等。”1994年版三代手册〈连体字〉:“(1)横向笔画与纵、斜向视为相连。如亡、正、步。”1984年版三代手册〈连体字取码〉:“1.横向笔画与纵、斜向笔画,视为相连。如:焉、步、乖”。又网友去信询问“阜”、“枼”何以不视为整体字,并推测上方的横笔须为“单纯性横笔”方适用此规则,沈答是,故按此补。
  11. 三代、五代手册未对“单纯性”做详细定义,按这些实际字例归纳,应是将“𠃊”、“凵”、“厂”、“尸”、“武-止”、“韱-韭”、“戚-尗”等形状下方的横笔视为非“单纯性”。此外三代手册第二章第一节介绍字首时提及“3.戈、戊、𢦏、㦰、产、……等,为便于取码,亦视为字首。”,亦可参考。“垩”、“汞”之分割方式目前尚无明确解释。
  12. 五代手册〈整体字〉:“2.八、Cjrm-c6.svg、儿等形状与其上部相连。如:真、贝、兴、夔、西、见、兀等。”1994年版三代手册〈连体字〉:“(4)儿、八视为与上相连。如儿、免、凶、页、贝、与、兴。”
  13. 五代手册〈整体字〉:“4.Cjrm-n2.svgCjrm-n4.svg与其下的形状相连。如:甬、矛、及、角、龟、色等。”1994年版三代手册〈连体字〉:“(3)凡Cjrm-y1.svg、龴、Cjrm-n4.svgCjrm-t12.svg等字形与下相连,如桌、甬、角、色、业。”
  14. 1984年版三代手册〈字首〉:“2.八、人、父、𡗗、⿱十冖、𦥯、⿳十中冖、龹、龸等,当作上下分离的字首。”
  15. 1994年版三代手册:“亠、八、爫、𠆢等字形视作与下面分离,皆属单字首。如:畜字首为“亠”不为“玄”;盆字首为“八”不为“分”。”
  16. 三代、五代手册未明确提及这些字形,稍有关系的只有三代手册第二章第一节介绍字首时提及“3.戈、戊、𢦏、㦰、产、麻、厭、厤、鴈、雁、辰、厥、羽、府、鹿、君等,为便于取码,亦视为字首。”有提到“产”字形。此按三代、五代手册实际取码规纳。 其中“六”、“Cjwm-ic.svg”可用前述“Cjrm-c6.svg”、“Cjrm-c3.svg”与上相连的原则解释;“文”、“亦”、“亡”、“Cjwm-yslb.svg”可能是一般书写皆是相连,并无模棱两可,故不套用此原则;“立”、“产”、“辛”、“Cjh6m-yb2.svg”、“Cjwm-ik.svg”未有明确解释,可暂且将“立”型及“Cjwm-ik.svg”视为相连的特例记忆。
  17. 五代手册〈整体字〉:“3.在第四节中的复合字、难字、特殊字等例外字,均视为整体字。”


 辅助字形 仓颉输入法
汉字分割
基本取码