鉴于王码五笔官方编码已多年没有更新,目前也没有一个包含Unicode CJK全部近9万汉字的新世纪版五笔字型编码数据库,遂在Github发起了“新世纪版五笔字型 Unicode CJK 超大字符集编码数据库”项目。选择这个平台的原因是多人协作比较方便、修改历史可以保留。
项目主页:https://github.com/CNMan/UnicodeCJK-WuBi06/
QQ群:857031696
CJK-B、CJK-C、CJK-D、CJK-E、CJK-F、CJK-G已全部改为新世纪版编码,各位可进行二次校对。

编码、查错认领表

CJK前20902字和CJK-A前6582字使用王码五笔大一统2018高级版单字“首选”编码,并作为新增字符编码参考依据。
每1000字大约需时0.5~1.5小时。
无论水平高低,均可认领。新手可借此熟悉字根位置、拆字规则;高手就权当做公益吧:)
本表依认领进度随时更新。
包号编码区起始编码终止编码字数首编/初查认领二查认领三查认领四查认领五查认领
1.1CJK9FA69FFF87
1.2CJK-A4DB64DBF10
1.3CJK-CIF900FAFF472
1.4CJK-CIS2F8002FA1F542
2CJK-B20000203E71000
3CJK-B203E8207CF1000
4CJK-B207D020BB71000
5CJK-B20BB820F9F1000
6CJK-B20FA0213871000
7CJK-B213882176F1000
8CJK-B2177021B571000
9CJK-B21B5821F3F1000
10CJK-B21F40223271000
11CJK-B223282270F1000
12CJK-B2271022AF71000
13CJK-B22AF822EDF1000
14CJK-B22EE0232C71000
15CJK-B232C8236AF1000
16CJK-B236B023A971000
17CJK-B23A9823E7F1000
18CJK-B23E80242671000
19CJK-B242682464F1000
20CJK-B2465024A371000
21CJK-B24A3824E1F1000
22CJK-B24E20252071000
23CJK-B25208255EF1000
24CJK-B255F0259D71000
25CJK-B259D825DBF1000
26CJK-B25DC0261A71000
27CJK-B261A82658F1000
28CJK-B26590269771000
29CJK-B2697826D5F1000
30CJK-B26D60271471000
31CJK-B271482752F1000
32CJK-B27530279171000
33CJK-B2791827CFF1000
34CJK-B27D00280E71000
35CJK-B280E8284CF1000
36CJK-B284D0288B71000
37CJK-B288B828C9F1000
38CJK-B28CA0290871000
39CJK-B290882946F1000
40CJK-B29470298571000
41CJK-B2985829C3F1000
42CJK-B29C402A0271000
43CJK-B2A0282A40F1000
44CJK-B2A4102A6DF718
45CJK-C2A7002AAE71000
46CJK-C2AAE82AECF1000
47CJK-C2AED02B2B71000
48CJK-C2B2B82B69F1000
49CJK-C2B6A02B73F149
50CJK-D2B7402B81F222
51CJK-E2B8202BC071000
52CJK-E2BC082BFEF1000
53CJK-E2BFF02C3D71000
54CJK-E2C3D82C7BF1000
55CJK-E2C7C02CBA71000
56CJK-E2CBA82CEAF762
57CJK-F2CEB02D2971000
58CJK-F2D2982D67F1000
59CJK-F2D6802DA671000
60CJK-F2DA682DE4F1000
61CJK-F2DE502E2371000
62CJK-F2E2382E61F1000
63CJK-F2E6202EA071000
64CJK-F2EA082EBEF473
65CJK-G30000303E71000勇敢
66CJK-G303E8307CF1000勇敢
67CJK-G307D030BB71000修改姓名
68CJK-G30BB830F9F1000修改姓名
69CJK-G30FA03134F939勇敢
70CJK-H31350317371000CNMan
71CJK-H3173831B1F1000CNMan
72CJK-H31B2031F071000CNMan
73CJK-H31F08322EF1000修改姓名
74CJK-H322F0323AF192修改姓名

编码或校对前请先了解部分字根异写的处理

一、下载:
1、下载并安装中华书局宋体
2、下载编辑器BabelPad_CHS.zip
绿色单文件中文版,解压缩到任意目录即可(目录路径最好无中文)
3、下载项目文件
二、运行BabelPad_CHS.exe,先做一下字体设置
“字体”菜单选择“设定综合字体”

先点击“编码区”排下序,然后分别设置CJK、CJK-A、CJK-B、CJK-C、CJK-D、CJK-E、CJK-F、CJK-G的字体,分别点选左边的编码区,再在右边点选字体后,按下“设定字体”,最后点击“确定”完成。
CJK:中华书局宋体00平面
CJK-A:中华书局宋体00平面
CJK-B:中华书局宋体02平面
CJK-C:中华书局宋体02平面
CJK-D:中华书局宋体02平面
CJK-E:中华书局宋体02平面
CJK-F:中华书局宋体02平面
CJK-G:sim-ch_n5100(暂用Unicode漢字交流群[436064726]群主制作的字体,希望中华书局宋体能早日跟进Unicode 13.0.0更新)

字太小看不清字形的话,可以在工具栏设定“字型大小”,第一张图中“32”那个地方。
三、开始编辑
用BabelPad分别打开CJK.txt、CJK-A.txt、CJK-B.txt、CJK-C.txt、CJK-D.txt、CJK-E.txt、CJK-F.txt、CJK-G.txt、CJK-H.txt,就可以进行第三列的编码修改了,修改后保存。

修改后的文件可以发到我邮箱由我代为提交(日志会包含贡献者资料),会git的也可以直接提交Pull request由我进行合并。

Unicode 标准字形PDF文档,供字体显示不清楚或与目前编码严重不符时参考:
https://www.unicode.org/charts/PDF/U4E00.pdf CJK
https://www.unicode.org/charts/PDF/U3400.pdf CJK-A
https://www.unicode.org/charts/PDF/U20000.pdf CJK-B
https://www.unicode.org/charts/PDF/U2A700.pdf CJK-C
https://www.unicode.org/charts/PDF/U2B740.pdf CJK-D
https://www.unicode.org/charts/PDF/U2B820.pdf CJK-E
https://www.unicode.org/charts/PDF/U2CEB0.pdf CJK-F
https://www.unicode.org/charts/PDF/U30000.pdf CJK-G
https://www.unicode.org/charts/PDF/U31350.pdf CJK-H
https://www.unicode.org/charts/PDF/UF900.pdf CJK-CI
https://www.unicode.org/charts/PDF/U2F800.pdf CJK-CIS
目前发现的一些字体字形错误整理:
中华书局宋体字形错误

关于Unicode 字符平面和编码区的基础信息

Unicode 有0-16共17个平面,每个平面有65536(即2^16)个码位,目前已定义第0、1、2、3、14、15、16平面,第4-13平面尚未使用。
平面 英文名称 英文简称 中文名称 编码范围
0 Basic Multilingual Plane BMP 基本多文种平面 00000–0FFFF
1 Supplementary Multilingual Plane SMP 多文种补充平面 10000–1FFFF
2 Supplementary Ideographic Plane SIP 表意文字补充平面 20000–2FFFF
3 Tertiary Ideographic Plane TIP 第三表意文字平面 30000–3FFFF
14 Supplementary Special-purpose Plane SSP 特别用途补充平面 E0000–EFFFF
15 Supplementary Private Use Area Plane SPUA-A 私人使用补充平面A区 F0000–FFFFF
16 Supplementary Private Use Area Plane SPUA-B 私人使用补充平面B区 100000–10FFFF

CJK(中日韩统一表意文字) 超大字符集相关编码区及所在平面

中文名称 英文名称 英文简称 编码范围 所在平面 码位数 字符数
中日韩统一表意文字 CJK Unified Ideographs CJK 4E00-9FFF 第0平面 20,992 20,992
中日韩统一表意文字扩展区A CJK Unified Ideographs Extension A CJK-A 3400-4DBF 第0平面 6,592 6,592
中日韩统一表意文字扩展区B CJK Unified Ideographs Extension B CJK-B 20000-2A6DF 第2平面 42,720 42,720
中日韩统一表意文字扩展区C CJK Unified Ideographs Extension C CJK-C 2A700-2B73F 第2平面 4,160 4,154
中日韩统一表意文字扩展区D CJK Unified Ideographs Extension D CJK-D 2B740-2B81F 第2平面 224 222
中日韩统一表意文字扩展区E CJK Unified Ideographs Extension E CJK-E 2B820-2CEAF 第2平面 5,776 5,762
中日韩统一表意文字扩展区F CJK Unified Ideographs Extension F CJK-F 2CEB0-2EBEF 第2平面 7,488 7,473
中日韩统一表意文字扩展区G CJK Unified Ideographs Extension G CJK-G 30000-3134F 第3平面 4,944 4,939
中日韩统一表意文字扩展区H CJK Unified Ideographs Extension H CJK-H 31350-323AF 第3平面 4,192 4,192
中日韩统一表意文字兼容区 CJK Compatibility Ideographs CJK-CI F900-FAFF 第0平面 512 472
中日韩统一表意文字兼容补充区 CJK Compatibility Ideographs Supplement CJK-CIS 2F800-2FA1F 第2平面 544 542
注1:以上码位数共98,144个,字符数共98,060个。

CJK(中日韩统一表意文字) 超大字符集字体

由于单个字体文件只能容纳65536个字形,所以超大字符集字体一般分为2个或2个以上字体文件。
国内90%以上的中文字体仅支持GB2312-80国家标准的6763个汉字,少量支持GBK国家标准的20902个汉字,极少数支持GB18030-2000国家标准的27533个汉字,支持GB18030-2005国家标准的70244个汉字的字体比较罕见。
常用超大字符集字体见:https://github.com/CNMan/UnicodeCJK-WuBi06/issues/17