仓颉输入法/汉字分割

维基教科书,自由的教学读本
跳到导航 跳到搜索
 辅助字形 仓颉输入法
汉字分割
基本取码 

仓颉输入法是按照汉字的结构特征取码,因此要清楚了解分割汉字的位置,才能正确取码。

分割汉字的核心概念是以视觉(而非字义或笔顺)判断汉字能否分割,不能分割者为“整体字”,能分割者为“组合字[1],并将其分割为“字首”、“字身”二部分;“字身”若还能分割,则按相同方式再分割为“次字首”、“次字身”二部分。[2]分割完后再对各部分分别取码。

组合字[编辑]

以视觉判断汉字能否分割,能分割者为“组合字”(或称“分体字”)。

字首与字身[编辑]

组合字可将第一部分分离为“字首”,其馀部分则为“字身”。视组合形态不同,大略可分为以下两种分割方式:

基本分割[编辑]

可纵向或横向“一刀分离”者,其“最左侧”或“最上方”的部分定义为字首。

分类 图例 字例
左右形 左右形 肌江绿俎观邻语抚韵链
框澹个烟条涤谢辩顺州
上下形 上下形
微曲上下形
昌吉字想变产煎爰萌巓
盆合祭券乔冠旁忧囊孛

注意:

  • “撇捺形状”(八、人、𠆢、癶等)或“盖子形状”(冖、宀等)的下缘有时看似不易以直刀分割,切口会有点曲,但仍一律视为可以“一刀分离”。如以上“盆”、“祭”、“乔”、“旁”等字。
  • 有些汉字恰好可纵向也可横向“一刀分离”,此时则按对汉字的一般认知分割。例如把“萌”横向分割为“艹”“明”,而非纵向分割为“⿱十日”“⿱十月”。

延伸分割[编辑]

一些字典上惯用且位置固定的字形有一部分向右方或下方延伸(下右延伸左下延伸右下延伸),或以三面、四面包住另一字形(三面缺右三面缺下三面缺上四面包围),为取码方便,亦视为字首。如以下字例:

图例 字例
下右延伸 旭尬延迎爬瓞毯瓩起台魅鼹
左下延伸 雁麻屁房危詹眉病产差
右下延伸 司可句式武哉韱或彧飞
三面缺右 匡区
三面缺下 同向周凰戚臧开闹间
三面缺上 凶凼
四面包围 回国
山形 幽豳

练习[编辑]

按此进行汉字分割练习(一)

次字首与次字身[编辑]

组合字的字身可比照分割汉字的逻辑尝试分割,可分割者则分割为“次字首”与“次字身”,不可分割者则不分割。字身分割与字首形状无关,分割字身时暂时无视字首即可,如以下字例(字首为红色、次字首为蓝色、次字身为绿色):

分类 图例 字例
字身为左右形 多列形下方左右形
右上左右形右下左右形
右内左右形框内左右形
谢条涤顺州萌巓前寝养
迎巡逃雁麻屁履匑氘氚
汇匪囮圞阀阚斗斗网幽
字身为上下形 右旁上下形多层形
右上上下形右下上下形
右内上下形框内上下形
抚韵语优桥答忧盆参乔
台毯尬趫詹属疹贰司⿹气奥
区匿凰圈圐圆同阎阁𩰟
字身为延伸形 右旁下右延伸形右旁四面包围形
下旁下右延伸形下旁四面包围形
右上包围形下方四面包围形
链澹媚铜框汹佩锎个烟
莲筵产苟筐齿藏奁岚画
庭届廜闼阃国回迥鼹匈

注意规则是“把汉字切一刀分出字首、字身,再把字身切一刀分出次字首、次字身”,即使字首可以分割,也不能“切两刀后依序取字首、次字首、次字身”。如以下字例:

正确分割 哲 导 颁 盔 憠 颋
错误分割 哲 导 颁 盔 憠 颋

按此,有些字的异体写法,会导致不同的分割方式:

基本分割型 上下形懬 上下形垕
延伸分割型 左下延伸懬 左下延伸垕

此外也特别注意“顺”、“鹏”、“贫”等字的分割方式。初学者往往会受“部首”观念影响,而把汉字分割为“部首”及“非部首”,例如把“顺”字分割为字首“川”和字身“页”。但仓颉输入法纯粹根据字形在“最左侧”或“最上方”可“一刀分离”之处分割,与部首无关,例如“顺”字应于最左侧一刀分离出“丿”作为字首,接著将字身于最左侧一刀分离出“丨”作为次字首,最后剩下“⿰丨页”为次字身。同理,其他类似字分割如下:

先分字首 念 盆 丽 剪 鼋 鹏 顺 条 彬 𫖯
字身再切 念 盆 丽 剪 鼋 鹏 顺 条 彬 𫖯
错误切割 念 盆 丽 剪 鼋 鹏 顺 条 彬 𫖯

采用这种分割规则是为了方便视觉辨识,因为字典的部首是根据“字义”决定,没有固定位置,导致某些汉字难以判断部首所在,例如“鸣”看似“口”部实为“鸟”部。仓颉输入法的设计与过去习惯不一致,但熟悉以后便能提高检索汉字的效率。

练习[编辑]

按此进行汉字分割练习(二)

整体字[编辑]

笔划彼此相连,无法分割;或虽非全部交连,但形势上为一完整个体者,称为“整体字”(又称“连体字”)。

一些汉字笔划,有些人会写成相连,有些人则否,不易判断是否相连,以下为一些归纳的判断原则,用于处理这种模棱两可的情况:[3]

  • 形势上为完整个体者,视为整体字。[4]
此类字又可大致归纳为二小类,一是字形交错无法作前述“基本分割”或“延伸分割”者,如:西……等;一是仅能勉强作“延伸分割”且分出之字首将过于繁复者,如:……等。
  • 点(Cjrm-i1.svg)附属于整个字形时,视为相连。[5]
如:……等字皆视为整体字。
※“”字在三代视为组合字,字首为“免”(向右下延伸),字身为“丶”;五代则把“丶”视为附属于整体,故“兔”视为整体字。
  • 撇、点与下面笔划视为相连。[6]
如:……等字皆视为整体字。
  • 单纯性横笔与其下之单纯性纵、斜向笔画视为相连。[7]
如:……等字皆视为整体字。
※注意折笔或封闭形状下的横笔非属单纯,不与下面视为相连,如:……等字皆视为组合字。
  • Cjrm-c5.svg”、“Cjrm-c3.svg”、“Cjrm-c6.svg”、“Cjwm-hu.svg”、“Cjrm-c2.svg”与其上的横向笔划视为相连。[8]
如:西……等字皆视为整体字。
又如:……等字的字首皆包含了“Cjrm-c6.svg”、“Cjrm-c3.svg”、“Cjrm-c5.svg”。
同理,……等字的次字首皆包含了“Cjrm-c5.svg”或“Cjrm-c3.svg”。
视为整体字 六 其 共 允 凶 兜 幸 业
八归入字首 衮 基 恭 夋 㚇 空 养 夔
八归入次字首 嚣 衅 寡
  • Cjrm-c2.svg”与其下的横向笔画视为相连。[9]
如:、……等字皆视为整体字。
又如:等字,“Cjrm-c2.svg”皆与下接部件一同视为字首。
视为整体字 弟 幸 业
丷归入字首 Cutm-tbln.svg Cutm-tvii.svg Cutm-cwa.svg
  • Cjrm-y1.svg”、“龴”、“Cjrm-n2.svg”、“Cjrm-n4.svg”与其下部视为相连。[10]
如:、……等字皆视为整体字。
视为整体字 卤 甬 承 角
  • “撇捺形状”或“盖子形状”(即“Cjrm-c5.svg”、“Cjrm-c3.svg”、“Cjrm-o3.svg”、“Cjrm-o4.svg”、“Cjrm-k0.svg”、“Cjrm-e4.svg”、“Cjwm-niho.svg”、“Cjwm-bno.svg”、“Cjrm-b11.svg”、“Cjrm-j2.svg”等),通常视为可和下方部件“一刀分离”。[11]
如:等字,字首与字身都视为一刀横向分离。
八形、冖形与下分离 会 兑 全 秦 脊 祭 冗 字 学 孛 忧
※但因“Cjrm-c6.svg”、“Cjrm-c3.svg”等形与上方相连的原则,等字上方的“Cjwm-bc.svg”、“Cjwm-jc.svg”视为整体而不切开。
  • Cjrm-y2.svg”、“Cjrm-y3.svg”、“Cjrm-y4.svg”、“Cjrm-b16.svg”、“Cjrm-i3.svg”通常视为可和下部“一刀分离”。[12]
如:等字,皆以“亠”、“爫”、或“厶”为字首。
亠、厶与下分离 雍 玄 畜 率 矣 牟
※但因纵、斜向笔画或“Cjrm-c5.svg”、“Cjrm-c2.svg”等形与上方相连的原则,Cjh6m-yb2.svgCjwm-yslb.svgCjwm-ic.svgCjwm-ik.svg、……等字形皆视为整体。
亠黏他形者 斍 产 恋 巟 衮 音 产 旁 帝 𠅘 髙
厶黏他形者 夋 軬
  • 例外字〉一节谈及的复合字首、复合字、难字、特殊字,皆视为整体,不再分割,也不再与其他笔划视为相连。[13]
如:鹿……等。

练习[编辑]

按此进行汉字分割练习(三)

附注[编辑]

  1. 《第五代仓颉输入法手册》称为“整体字”、“组合字”;二代及三代手册称为“连体字”、“分体字”。
  2. 《第五代仓颉输入法手册》第二章第二节提到:“整体字本无字首、字身之分,为统一取码观念,特以其第一码为字首,其馀部份为字身,故整体字取1—4码。”第二章第一节介绍汉字分割时亦未提及整体字需要分割。按此发明人原意当是整体字不须分割,惟取码时“假定”分割,以套用类似组合字的取码方式。本教科书于取码说明时会以“.”区分字首与字身及次字首与次字身,例如“木.一一.口”表示“木”为字首、其后为字身,又其中“一一”为次字首、“口”为次字身。为避免混淆,本教科书于解说时一律不分割整体字,例如“其”的编码标示为“廿一一金”而非“廿.一一金”,以免读者难以分辨是整体字或组合字。
  3. 五代手册已言“中文字形体各异,笔画复杂,很难用简单清楚的文句定义‘整体字’”,其就此部分描述,与实际码表比对,亦难称完备。以下内容除五代手册,亦参酌三代手册、实际编码字例、及其他仓颉教材增补。
  4. 五代手册〈整体字〉:“2.字形笔画虽非完全全部交连,但形势上为一完整个体者。如:岛、乌、焉、来、乘、乖、噩、坐、禺、离等。”1994年版三代手册〈连体字〉:“(5)鸟、乌、马、袅、岛‥等字亦视为连体字。”
  5. 五代手册〈整体字〉:“3.丶附属于整个字形,视为一整体字。如:寸、永、兔、甫、犬等。”1994年版三代手册〈连体字〉:“(6)点(丶)皆视为与该字体相连,凡点在上方,均视为最高位。如犬、甫、尤。”
  6. 1994年版三代手册〈连体字〉:“(2)斜、点与其下面字形笔划相接。如良、自、乖。”
  7. 五代手册〈整体字〉:“1.单纯之丨、丿笔画与其上的字形相连。如:干、黄、焉、歹、刀、卑等。”1994年版三代手册〈连体字〉:“(1)横向笔画与纵、斜向视为相连。如亡、正、步。”1984年版三代手册〈连体字取码〉:“1.横向笔画与纵、斜向笔画,视为相连。如:焉、步、乖”。又网友去信询问“阜”、“枼”何以不视为整体字,并推测上方的横笔须为“单纯性横笔”方适用此规则,沈答是,故按此补。
  8. 五代手册〈整体字〉:“2.八、Cjrm-c6.svg、儿等形状与其上部相连。如:真、贝、兴、夔、西、见、兀等。”1994年版三代手册〈连体字〉:“(4)儿、八视为与上相连。如儿、免、凶、页、贝、与、兴。”
  9. 1984年版三代手册〈连体字取码〉:“(3)凡Cjrm-y1.svgCjrm-n2.svgCjrm-n4.svgCjrm-t13.svg等字形,视为与下相连,如桌、甬、角、业。”但显然与“前”、“兹”之分割方式不符,故修正为Cjrm-c2.svg与下面横笔相连。
  10. 五代手册〈整体字〉:“4.Cjrm-n2.svgCjrm-n4.svg与其下的形状相连。如:甬、矛、及、角、龟、色等。”1994年版三代手册〈连体字〉:“(3)凡Cjrm-y1.svg、龴、Cjrm-n4.svgCjrm-t12.svg等字形与下相连,如桌、甬、角、色、业。”
  11. 1984年版三代手册〈字首〉:“2.八、人、父、𡗗、⿱十冖、𦥯、⿳十中冖、龹、龸等,当作上下分离的字首。”
  12. 1994年版三代手册:“亠、八、爫、𠆢等字形视作与下面分离,皆属单字首。如:畜字首为“亠”不为“玄”;盆字首为“八”不为“分”。”
  13. 五代手册〈整体字〉:“3.在第四节中的复合字、难字、特殊字等例外字,均视为整体字。”按复合字首及复合字之实际取码字例增补“不再与其他笔划视为相连”。


 辅助字形 仓颉输入法
汉字分割
基本取码