关于U+2F9B2 䕫 的问题

关于U+2F9B2 䕫 的问题

原文:“Houston, we have a problem… …with U+2F9B2”

作者:Dr. Ken Lunde (小林剣)

时间:2017 年 9 月 4 日

注意⚠️ 本译文获得原作者许可,转载请注明来源

译按:支持香港特别行政区字形的思源字体即将发布,或许很多人并不会用到䕫、夔、蘷、虁、𡕸、𡕿、𡖂或𣀚,但从字符编码的角度,还是一个值得讨论的问题。

U+2F9B2 䕫1是一个中日韩兼容表意文字2。,同其他所有中日韩兼容表意文字一样,它被规范地分解成一中日韩统一表意文字,且有一个使用其标准等价3作为其基本字符4的标准化异体字序列(Standardized Variation Sequence, SVS)。这个字符也有一个单一的来源参考——H-8FA8,对应香港增补字符集中的 0x8FA8。

有何问题呢?简单来说,其标准等价——U+456B 䕫,既不在香港增补字符集中,也不在大五码中:

image.png

如果这个字符被正规化5,无论正规形式6为何,它都会被转换为其标准等价——U+456B 䕫,而这一字符无法包含在专门为香港特别行政区使用的字体中。此外,即使使用了其SVS <U+456B, U+FE00>,也依然存在类似的问题,因为其基本字符也不太可能用于香港特别行政区的字体中。

如上述 U+2F9B2 䕫 的元数据所示,还有另外两个相关的有H-源来源参考的中日韩统一表意文字——U+5914 夔 和U+270CD 𧃍,它们的代码表摘录如下:

U+5914 夔包含于Big 5, U+270CD 𧃍包含于HKSCS。

不论如何,我想到了三个可能的解决方案:

  1. 将U+456B 䕫 加入香港增补字符集,并提交横向扩展,将__HD-345B__添加为U+456B 䕫 的新H源来源参考。
  2. 将HKSCS 0x8FA8, _H-8FA8_的映射从U+2F9B2 䕫 改为U+456B 䕫。
  3. 将HKSCS 0x8FA8, _H-8FA8_的映射从U+2F9B2 䕫 改为U+270F0 𧃰。

第二个和第三个解决方案将有效地孤立U+2F9B2 䕫,这意味着使用“UCI”前缀的新U-源的来源参考将需被分配并被添加到UAX#45_(U-源表意文字)_。第三个解决方案,即U + 270F0 𧃰 如下:

u270F0.jpg

我选择第二个解决方案,主要是因为U+456B 䕫 目前未包含于香港增补字符集中,这样做减少了香港增补字符集所需的中日韩兼容表意文字的数量,这是非常好。此外,U+2F9B2 䕫 标准分解为U+456B 䕫,这意味着它们是统一的,任何使用正规化的U+2F9B2 䕫 将成为 U+456B 䕫。最好的替代解决方案是第一个,简单地说就是将U+456B 䕫 添加到香港增补字符集中,但这意味着这两个字符的代表字形(representative glyphs)是相同的,而U+456B䕫是首选的,因为它是中日韩统一表意文字。

最后,将U+2F9B2䕫 的标准等价从U+456B 䕫 改为U+5914 夔 是完全不启动(complete non-starter )的,这是出于稳定性政策的考量,正如出于正规化的考量而编译一个新的中日韩兼容表意文字。

如果你有任何想法,请给予回复。

2017-10-14更新: 根据昨天的 IRG N2268,香港特区决定选择上述的第三个解决方案 ,即将香港增补字符集 0x8FA8,H-8FA8重新映射到 U+270F0 𧃰。

🐡


  1. 䕫:kuí,U+5914 夔 的异体字,上古时期龙形异兽,一足,象有角、手、人面之形。

  2. 中日韩兼容表意文字:CJK Compatibility Ideographs,中日韩统一表意文字中因字源分离原则未与正式字集中的字形统一的文字,参见Unicode中日韩兼容表意文字代码表

  3. 标准等价:为同许多现存的标准兼容,Unicode中包含了许多特殊字符,这些字符的功能会和其它字符或字符序列等价,故Unicode将一些码位序列定义为相等的,并提供了两种等价概念:标准等价和兼容等价,前者是后者的子集。标准等价的基础概念为字符的组成和分解的交互使用。合成指将简单的字符合并成较少的预组字符的过程,如字符n和组合字符~可以组成统一码ñ。分解则是反向过程,即将预组字符变回部件。标准等价是指保持视觉上和功能上的等价。例如,含附加符号字母被视为和分解后的字母及其附加符号是标准等价。换句话说,预组字符‘ü’和由‘u’及 ‘¨’所组成的序列是标准等价。相似地,Unicode统合了一些希腊附加符号和外观与附加符号类似的标点符号。

  4. 基本字符:除具有组合标记普通类(General Category of Combining Mark)(M)外的图形字符。如拉丁文排印中常见的附加符号,用来改变其它字符所用的字符即为组合字符,在组合字符序列中,基本字符是应用于组合标记的初始字符。

  5. 正规化:文字处理软件在Unicode字符串的搜索和排序时,须考虑到等价性,这一特性可使用户在搜索时将找到在视觉上无法区分的字形。

  6. 正规形式:Unicode定义了四种正规形式:1. NFD (Normalization Form Canonical Decomposition) 以标准等价方式来分解。2. NFC (Normalization Form Canonical Composition) 以标准等价方式来分解,然后以标准等价重组之。若是singleton的话,重组结果有可能和分解前不同。3. NFKD (Normalization Form Compatibility Decomposition)以兼容等价方式来分解。4. NFKC (Normalization Form Compatibility Composition)以兼容等价方式来分解,然后以标准等价重组之。所有的形式都使用标准顺序,以使结果序列保证是等价类中的唯一形式。

Some rights reserved
Except where otherwise noted, content on this page is licensed under a Creative Commons Attribution 4.0 International license