DoYe's Chaos

啊,你来啦~

Recent Articles:

CJKV Info Dataset

作为记录中文文字的初步, cjkv info 的数据集,于今天解除了私密状态。现已包含了来源数据 23 万条,字符轮廓 25 万条,输入法条目 9 万条。

cjkv_info 比 unicode 收录数量(14 万字符)更多的原因,是考虑到了异体,变体的收录。Unicode 将许多来源不同的字符编入了同一码位。于是在 cjkv_info 里,就用额外的来源数据将其区隔。

字符轮廓,是 unicode 标准未予收录的信息。它即是字形的核心,有了它,就能知道对应来源的文字的笔画,结构究竟如何。有了它,也能立即将其转化为字体文件在计算机上得以应用。

输入法的选择则是经过了一些考察,着重关注科学性与规律性。这样,就可以在收录新字,收录变体时减少争议,获得共识。也容易让人见到文字即可按图输入,无需考量无理码问题。因此,首先用了郑码的方案做了收录和记录。

授权方式 …


CJKV Info

令

图片来源 Smaji Org

只记录字元而不记录字形后, Unicode 的应用就会出现如图所示的含糊。在我们使用的“现代的”计算机系统上,若直接数字化一个文档。用 Unicode 编码 4EE4 来记录文字,其原始的字形是未定的。在中国的电脑上,显示的是图一的字形;而在香港或者台湾的电脑上,显示的是图二,三所示图形;而在日本的电脑上,显示的是图四的图形。

无论我们想在一个数据库中记录某古籍的版本比较,历史变迁,或仅是精确记录其原始文字及字形的选择,只能选择高成本且无法快速检索的方式—图片。

问题本身就是解决方法的线索的直接来源。不过呢,问题已经因为各种各样的原因纷乱了:简繁区别,中日韩的区隔,正字与俗字之争,中日简化字的分歧,Unicode / ISO10646 的收录策略。若只是不假思索地直面问题,容易从一团乱麻走向另一团乱麻。

不如,暂离这些纷乱。想一想,我们需要的是什么。

现实

而在问我们需要什么之前,先得问的是,现实情境如何:

  • 古籍的存在,异体 …

2020 小记

最近两年,我稍稍去了解了某类观念在传播,继承过程中发生的变化:因传播方向不同,有了地理区隔而产生的;因代代流传,有了时间区隔而产生的。

作为记载这些观念的载体,文字,自然也因地理,时间区隔而产生了许多变化。

以前,文字都是些记载在纸张上的图形。记录,检索并不容易。在了解过去的观念的过程中,我发现,即使到了现在,过去的图书尚没有被很好地数字化。即使有数字化版本,也大多是改写,简化的版本。除了常用文字得到了信息处理技术的支持外,文字仍然还是记录在纸张上的图形。只不过这些纸张变成可以存储在硬盘上的图片了。嗯,图片中的图片,记录和检索仍没什么便利的改善。

文史学界的论著,那么多地采用图档穿插形式来写作。我还见过整本文档,其大多文字是用手写描绘的。2020,仍然是个刀耕火种的时代。

器用不堪,只好暂缓读书,分出些精力来瞧一瞧现在的计算机文字处理现状。

CJK Unified Ideographs

中国,日本,韩国,曾经的越南,都有各自的汉字书写系统,相互间大多共通但也有差异。计算机技术发展后,各国都为各自的书写系统制定了内码。虽然这些书写系统数字化后的外在表现大同小异,但内码却是各行其是 …


喵喵,决策树之舞

不久前,我无意间看到了过去的一个功能请求: vim edit mode

vi 类编辑器,其最具特色的,便是 modal editing. 正如其名,是个逻辑流在决策树上流动,变换的过程。

大多编辑器,或多或少,都会带有一些 modal editing, 最常见的,便是快捷键组合,如 Ctrl-c, Ctrl-v. 当编辑者按下 Ctrl 后,即进入了 Ctrl 的决策分支,而在这个分支下面,有许多片叶子. c 和 v 即是这片分支下的两片叶子之一。次常见的,快捷键序列。比如,在 emacs 里,顺序地按 Ctrl-x, Ctrl-c 就会执行退出编辑器的操作。

vim 作为 modal editing …


蕃劍之音

翻了翻王路前輩的專欄,讀到 李太白天才在哪里? 一文。可巧,王路前輩發表此文前一星期,13年12月的《文史知識》上有張一南前輩 略论李白诗歌的声情之美 。兩文相得益彰。

兩文談到李白音節運用的高妙。讓我想起杜甫的一首起手連仄的五律。

蕃劍

致此自僻遠,又非珠玉裝。
如何有竒怪,每夜吐光芒。
虎氣必騰踔,龍身寧久藏。
風塵苦未息,持汝奉明王。
根據《廣韻》給字標註下音韻。對於多音字,添註解以方便選擇。
圓圈爲平聲,三角形爲仄聲,實心三角爲仄聲中的入聲。
(陟利切,4.06至韻,去声) (雌氏切,3.04紙韻,上声) (疾二切,4.06至韻,去声) (芳辟切,5.22昔韻,入声 …

© 2020 ZAN DoYe