令

图片来源 Smaji Org

只记录字元而不记录字形后, Unicode 的应用就会出现如图所示的含糊。在我们使用的“现代的”计算机系统上,若直接数字化一个文档。用 Unicode 编码 4EE4 来记录文字,其原始的字形是未定的。在中国的电脑上,显示的是图一的字形;而在香港或者台湾的电脑上,显示的是图二,三所示图形;而在日本的电脑上,显示的是图四的图形。

无论我们想在一个数据库中记录某古籍的版本比较,历史变迁,或仅是精确记录其原始文字及字形的选择,只能选择高成本且无法快速检索的方式—图片。

问题本身就是解决方法的线索的直接来源。不过呢,问题已经因为各种各样的原因纷乱了:简繁区别,中日韩的区隔,正字与俗字之争,中日简化字的分歧,Unicode / ISO10646 的收录策略。若只是不假思索地直面问题,容易从一团乱麻走向另一团乱麻。

不如,暂离这些纷乱。想一想,我们需要的是什么。

现实

而在问我们需要什么之前,先得问的是,现实情境如何:

  • 古籍的存在,异体,变体文字的存在是现实,而不是我们要解决的问题。我们不可能规范出一张《标准用字表》去规范古人的写作和记载。
  • 用于文史研究的话,精确的文字编码是数字化处理,快速索引查找的基础。

如果把问题简化来看。抽象的或想象的或约定的,字的原型是存在的。而基于这种原型,存在具体的许多大同小异的变体。

所以,我们的标准要记录的是统一的原型,附加变体的编号,和这编号对应的具体的图形。那样的话,使用者的文本档案还是用文本文档记录文字,只是在文字后附加变体编号即可。

理想状态,总是如上述这段话一样,简洁优美。但实际使用时,汉字变体有时候会有额外的上下文场景;实际的书写系统的统一数字化也有许多工程上的复杂度与考量。最重要的,作为信息交换的基础,需要不同范围内的计算机系统有着同样的,至少是相近的约定。为了接近这种简洁优美,我们可以不优美地做一些不简洁的事:

  1. 增加新字时按此种方案录入编码,变体选择子,入库字形信息。
  2. 对过去已混杂的文字的所有变体按上一条的处理方式增加信息。
  3. 编制附加信息表,理清变体之间的关系。
  4. 处理好此套系统在大范围应用时的工程需求:
    • 与 Unicode 以及现有的文字处理系统的兼容
    • 增加新字,更新系统标准的平滑性
    • 增加新字,更新系统标准的实时性

态度

绵延了至少数千年,文字的使用,传承,演化的过程,是人们广泛而自然参与,流动而包容的。而且,这一过程也将伴随几乎所有人继续绵延下去。

只要诚实地看待这一过程,就该明白,整理,记录它们的过程,也该是广泛而自然,流动而包容的。

怎么做呢

前两节是从细节开始描述。过去的实操细节,是选纸,用笔,书写规范;而现代的实操细节,可以加上编辑软件,输入法,编码标准。前两节另外谈到了态度。因为态度不诚实的话,很容易就又做出一堆小气而挣扎的“项目”,“成果”。

若诚实地直面文字使用,传承,演化的过程,自然就明白:并没有项目要发起,也没有目标要达成。没有人主导这个过程。没有人拥有什么成果。换句话说,任何人都拥有它,任何人都可以对其施加影响。



所以,怎么做呢?

- ZAN DoYe


Comments

comments powered by Disqus

© 2020 ZAN DoYe