3个Unicode公共审查议题

3个Unicode公共审查议题

原文:The Tale of Three PRIs

作者:Dr. Ken Lunde (小林剣)

时间:2017年8月15日

注意⚠️ 本译文获得原作者许可,转载请注明来源

译按:小林剑博士在本文中介绍了本年至今一些关于Unicode的情况。文章中必要的内容加以注释,大部分专有名词并无官方或通行译名,故在中文后附英文,请以原文为准。

今年到现在,已经有一些关于IVD1的动态。

第一,在1月底,UTS#37(Unicode Ideographic Variation Database,Unicode表意文字异体字数据库)2更新,允许具有“表意”属性的字符在IVS中作为有效的基本字符。实际上意味着西夏文34和女书文字5现在可以被列入IVD。

第二,今年早些时候发布了两个PRI6#349#351,现已关闭。 这将使Adobe-Japan1 IVD集合增加四个已注册的IVS,以及新的KRName IVD集合注册。

第三,今天(2017年8月15日)发布的PRI#354,其中计划为已注册的Moji_Joho IVD集合增加674个IVS,其中的181个与已注册的Hanyo-Denshi IVS共享。 最上方图片展示了一个节选。 一个新版IVD将在此PRI关闭后不久公布,其中将包括所有三个PRI的结果。

第四,IRG P&P(Principles & Procedures,原则和程序)第10版的草案将在下个月的WG2#66中进行讨论,有希望获得批准,其中包括关于IVD的更强大的语言,例如鼓励成员机构通过在新的或已有的的IVD集合中注册新IVS来处理有望统一的字符。如果你对细节感兴趣,可参见IRG#48页面中为IRG N2222提供的两个草案。

第五,虽然与IVD没有直接关系,但我注意到,Unicode 9.0版为斜杠版本(slashed)的U+0030 0 DIGIT ZERO, <U+0030,U+FE00>的添加了SVS,其中一个基于U+FF10 0 FULLWIDTH DIGIT ZERO,这是考虑到 Adobe-Japan1-6字形集包括多个“斜杠零(slashed zero)字形78。我决定通过L2 / 17-294为后者提出一个新的SVS,这将在十月的UTC#153中讨论。一旦被接受,两个SVS都将被添加到Adobe-Japan1-6 UVS(Unicode Variation Sequence,Unicode异体字序列)的定义文件中。

尽管这些让我很忙,但我很高兴看到与IVD有关的关注和活动有所增加。


  1. IVD: Ideographic Variation Database,Unicode表意文字异体字数据库,Unicode定义了两种异体字序列,定义于StandardizedVariants.txt的SVS(Standardized variation sequences,标准异体字序列),以及定义于IVD的IVS(Ideographic variation sequences,表意文字异体字序列)。中日韩因字源分离原则分开编码一些在不同地区写法不同的字,因而创立中日韩兼容表意文字区(CJK Compatibility Ideographs),该区中有数十个在IVD中注册的为给定Unicode字符指定异体字形的表意文字异体字序列。

  2. UTS:Unicode Technical Committee,Unicode技术委员会,其负责开发维护Unicode标准,并在其出版物中适时公布更新(Updates)与错误(Errata)。UTS按季度举行会议,Unicode学术学会全会员与机构会员有全票,贡献者有半票,助理、联络人与个人成员参会但无投票权,会议纪要在线公开。

  3. 西夏文:属于汉字的派生文字,创制于西夏建国后,蒙古灭亡西夏后废止,并在一段时间后消亡,自清末逐渐考证研究。2016年6月收入Unicode 9.0版中的SMP(多文种补充平面),包括6125个U+17000至U+187EC的西夏文字与755个U+18800至U+18AF2的西夏文字部件,另有叠字符号收入表意文字符号及标点区(Ideographic Symbols and Punctuation)。

  4. image.png
  5. 女书:20世纪下叶前中国妇女用来书写诗歌等的文字,是一种音节文字。女书起源于湖南省永州市江永县,又称“江永女书”,在其附近地区的妇女流传,文革期间遭到破坏,1982年武汉大学教授宫哲兵发现。可参见宫哲兵教授的课程女书教授演电影以及本站关于Unicode的文章

  6. PRI:Public Review Issues,Unicode公开审查议题,由Unicode学术学会不定期针对某些计划行动寻求广泛的公共评价反馈,以获得这些反馈对使用者或执行者的实际影响的信息并扩大对技术细节的审查。这些议题往往与下一版本的规范息息相关,特别是Unicode标准。

  7. 斜杠零:Slashed zero,斜杠零多用于区别拉丁字母“O”与数字“0”,特别是在编码系统、科学与工程程序、计算机编程和电信等领域。Unicode支持斜杠零,但得通过一对字符组合而成而非单个字符,即一个普通的“0”,“与长斜线叠加(combining long solidus overlay)”U+0338。在HTML中可使用0̸,但并非所有浏览器都支持。Unicode 9.0版中引入了一种不同的方式实现,即利用序列U+0030 U+FE00中的VS1(Variation Selector 1 ,异体字选择器1)。

  8. 从上至下:斜杠零(slashed zero)、点零(dotted zero)、开零(plain or open zero)image.png

Some rights reserved
Except where otherwise noted, content on this page is licensed under a Creative Commons Attribution 4.0 International license