CJKV Info Dataset
作为记录中文文字的初步, cjkv info 的数据集,于今天解除了私密状态。现已包含了来源数据 23 万条,字符轮廓 25 万条,输入法条目 9 万条。
cjkv_info 比 unicode 收录数量(14 万字符)更多的原因,是考虑到了异体,变体的收录。Unicode 将许多来源不同的字符编入了同一码位。于是在 cjkv_info 里,就用额外的来源数据将其区隔。
字符轮廓,是 unicode 标准未予收录的信息。它即是字形的核心,有了它,就能知道对应来源的文字的笔画,结构究竟如何。有了它,也能立即将其转化为字体文件在计算机上得以应用。
输入法的选择则是经过了一些考察,着重关注科学性与规律性。这样,就可以在收录新字,收录变体时减少争议,获得共识。也容易让人见到文字即可按图输入,无需考量无理码问题。因此,首先用了郑码的方案做了收录和记录。