鉴于王码五笔官方编码已多年没有更新,目前也没有一个包含Unicode CJK全部近9万汉字的新世纪版五笔字型编码数据库,遂在Github发起了“新世纪版五笔字型 Unicode CJK 超大字符集编码数据库”项目。选择这个平台的原因是多人协作比较方便、修改历史可以保留。
项目主页:
https://github.com/CNMan/UnicodeCJK-WuBi06/
QQ群:857031696
CJK-B、CJK-C、CJK-D、CJK-E、CJK-F、CJK-G已全部改为新世纪版编码,各位可进行二次校对。
编码、查错认领表
CJK前20902字和CJK-A前6582字使用王码五笔大一统2018高级版单字“首选”编码,并作为新增字符编码参考依据。
每1000字大约需时0.5~1.5小时。
无论水平高低,均可认领。新手可借此熟悉字根位置、拆字规则;高手就权当做公益吧:)
本表依认领进度随时更新。
包号 | 编码区 | 起始编码 | 终止编码 | 字数 | 首编/初查认领 | 二查认领 | 三查认领 | 四查认领 | 五查认领 |
1.1 | CJK | 9FA6 | 9FFF | 87 | | | | | |
1.2 | CJK-A | 4DB6 | 4DBF | 10 | | | | | |
1.3 | CJK-CI | F900 | FAFF | 472 | | | | | |
1.4 | CJK-CIS | 2F800 | 2FA1F | 542 | | | | | |
2 | CJK-B | 20000 | 203E7 | 1000 | | | | | |
3 | CJK-B | 203E8 | 207CF | 1000 | | | | | |
4 | CJK-B | 207D0 | 20BB7 | 1000 | | | | | |
5 | CJK-B | 20BB8 | 20F9F | 1000 | | | | | |
6 | CJK-B | 20FA0 | 21387 | 1000 | | | | | |
7 | CJK-B | 21388 | 2176F | 1000 | | | | | |
8 | CJK-B | 21770 | 21B57 | 1000 | | | | | |
9 | CJK-B | 21B58 | 21F3F | 1000 | | | | | |
10 | CJK-B | 21F40 | 22327 | 1000 | | | | | |
11 | CJK-B | 22328 | 2270F | 1000 | | | | | |
12 | CJK-B | 22710 | 22AF7 | 1000 | | | | | |
13 | CJK-B | 22AF8 | 22EDF | 1000 | | | | | |
14 | CJK-B | 22EE0 | 232C7 | 1000 | | | | | |
15 | CJK-B | 232C8 | 236AF | 1000 | | | | | |
16 | CJK-B | 236B0 | 23A97 | 1000 | | | | | |
17 | CJK-B | 23A98 | 23E7F | 1000 | | | | | |
18 | CJK-B | 23E80 | 24267 | 1000 | | | | | |
19 | CJK-B | 24268 | 2464F | 1000 | | | | | |
20 | CJK-B | 24650 | 24A37 | 1000 | | | | | |
21 | CJK-B | 24A38 | 24E1F | 1000 | | | | | |
22 | CJK-B | 24E20 | 25207 | 1000 | | | | | |
23 | CJK-B | 25208 | 255EF | 1000 | | | | | |
24 | CJK-B | 255F0 | 259D7 | 1000 | | | | | |
25 | CJK-B | 259D8 | 25DBF | 1000 | | | | | |
26 | CJK-B | 25DC0 | 261A7 | 1000 | | | | | |
27 | CJK-B | 261A8 | 2658F | 1000 | | | | | |
28 | CJK-B | 26590 | 26977 | 1000 | | | | | |
29 | CJK-B | 26978 | 26D5F | 1000 | | | | | |
30 | CJK-B | 26D60 | 27147 | 1000 | | | | | |
31 | CJK-B | 27148 | 2752F | 1000 | | | | | |
32 | CJK-B | 27530 | 27917 | 1000 | | | | | |
33 | CJK-B | 27918 | 27CFF | 1000 | | | | | |
34 | CJK-B | 27D00 | 280E7 | 1000 | | | | | |
35 | CJK-B | 280E8 | 284CF | 1000 | | | | | |
36 | CJK-B | 284D0 | 288B7 | 1000 | | | | | |
37 | CJK-B | 288B8 | 28C9F | 1000 | | | | | |
38 | CJK-B | 28CA0 | 29087 | 1000 | | | | | |
39 | CJK-B | 29088 | 2946F | 1000 | | | | | |
40 | CJK-B | 29470 | 29857 | 1000 | | | | | |
41 | CJK-B | 29858 | 29C3F | 1000 | | | | | |
42 | CJK-B | 29C40 | 2A027 | 1000 | | | | | |
43 | CJK-B | 2A028 | 2A40F | 1000 | | | | | |
44 | CJK-B | 2A410 | 2A6DF | 720 | | | | | |
45 | CJK-C | 2A700 | 2AAE7 | 1000 | | | | | |
46 | CJK-C | 2AAE8 | 2AECF | 1000 | | | | | |
47 | CJK-C | 2AED0 | 2B2B7 | 1000 | | | | | |
48 | CJK-C | 2B2B8 | 2B69F | 1000 | | | | | |
49 | CJK-C | 2B6A0 | 2B73F | 154 | | | | | |
50 | CJK-D | 2B740 | 2B81F | 222 | | | | | |
51 | CJK-E | 2B820 | 2BC07 | 1000 | | | | | |
52 | CJK-E | 2BC08 | 2BFEF | 1000 | | | | | |
53 | CJK-E | 2BFF0 | 2C3D7 | 1000 | | | | | |
54 | CJK-E | 2C3D8 | 2C7BF | 1000 | | | | | |
55 | CJK-E | 2C7C0 | 2CBA7 | 1000 | | | | | |
56 | CJK-E | 2CBA8 | 2CEAF | 762 | | | | | |
57 | CJK-F | 2CEB0 | 2D297 | 1000 | | | | | |
58 | CJK-F | 2D298 | 2D67F | 1000 | | | | | |
59 | CJK-F | 2D680 | 2DA67 | 1000 | | | | | |
60 | CJK-F | 2DA68 | 2DE4F | 1000 | | | | | |
61 | CJK-F | 2DE50 | 2E237 | 1000 | | | | | |
62 | CJK-F | 2E238 | 2E61F | 1000 | | | | | |
63 | CJK-F | 2E620 | 2EA07 | 1000 | | | | | |
64 | CJK-F | 2EA08 | 2EBEF | 473 | | | | | |
65 | CJK-G | 30000 | 303E7 | 1000 | 勇敢 | | | | |
66 | CJK-G | 303E8 | 307CF | 1000 | 勇敢 | | | | |
67 | CJK-G | 307D0 | 30BB7 | 1000 | 修改姓名 | | | | |
68 | CJK-G | 30BB8 | 30F9F | 1000 | 修改姓名 | | | | |
69 | CJK-G | 30FA0 | 3134F | 939 | 勇敢 | | | | |
70 | CJK-H | 31350 | 31737 | 1000 | CNMan | | | | |
71 | CJK-H | 31738 | 31B1F | 1000 | CNMan | | | | |
72 | CJK-H | 31B20 | 31F07 | 1000 | CNMan | | | | |
73 | CJK-H | 31F08 | 322EF | 1000 | 修改姓名 | | | | |
74 | CJK-H | 322F0 | 323AF | 192 | 修改姓名 | | | | |
75 | CJK-I | 2EBF0 | 2EE5F | 622 | csjtl | | | | |
编码或校对前请先了解
部分字根异写的处理
一、下载:
1、下载并安装
中华书局宋体
2、下载编辑器
BabelPad_CHS.zip
绿色单文件中文版,解压缩到任意目录即可(目录路径最好无中文)
3、下载
项目文件
二、运行BabelPad_CHS.exe,先做一下字体设置
“字体”菜单选择“设定综合字体”
先点击“编码区”排下序,然后分别设置CJK、CJK-A、CJK-B、CJK-C、CJK-D、CJK-E、CJK-F、CJK-G的字体,分别点选左边的编码区,再在右边点选字体后,按下“设定字体”,最后点击“确定”完成。
CJK:中华书局宋体00平面
CJK-A:中华书局宋体00平面
CJK-B:中华书局宋体02平面
CJK-C:中华书局宋体02平面
CJK-D:中华书局宋体02平面
CJK-E:中华书局宋体02平面
CJK-F:中华书局宋体02平面
CJK-G:sim-ch_n5100(暂用Unicode漢字交流群[436064726]群主制作的
字体,希望中华书局宋体能早日跟进Unicode 13.0.0更新)
字太小看不清字形的话,可以在工具栏设定“字型大小”,第一张图中“32”那个地方。
三、开始编辑
用BabelPad分别打开CJK.txt、CJK-A.txt、CJK-B.txt、CJK-C.txt、CJK-D.txt、CJK-E.txt、CJK-F.txt、CJK-G.txt、CJK-H.txt、CJK-I.txt,就可以进行第三列的编码修改了,修改后保存。
修改后的文件可以发到我邮箱由我代为提交(日志会包含贡献者资料),会git的也可以直接提交
Pull request由我进行合并。
Unicode 标准字形PDF文档,供字体显示不清楚或与目前编码严重不符时参考:
https://www.unicode.org/charts/PDF/U4E00.pdf CJK
https://www.unicode.org/charts/PDF/U3400.pdf CJK-A
https://www.unicode.org/charts/PDF/U20000.pdf CJK-B
https://www.unicode.org/charts/PDF/U2A700.pdf CJK-C
https://www.unicode.org/charts/PDF/U2B740.pdf CJK-D
https://www.unicode.org/charts/PDF/U2B820.pdf CJK-E
https://www.unicode.org/charts/PDF/U2CEB0.pdf CJK-F
https://www.unicode.org/charts/PDF/U30000.pdf CJK-G
https://www.unicode.org/charts/PDF/U31350.pdf CJK-H
https://www.unicode.org/charts/PDF/U2EBF0.pdf CJK-I
https://www.unicode.org/charts/PDF/UF900.pdf CJK-CI
https://www.unicode.org/charts/PDF/U2F800.pdf CJK-CIS
目前发现的一些字体字形错误整理:
中华书局宋体字形错误
关于Unicode 字符平面和编码区的基础信息
Unicode 有0-16共17个平面,每个平面有65536(即2^16)个码位,目前已定义第0、1、2、3、14、15、16平面,第4-13平面尚未使用。
平面 |
英文名称 |
英文简称 |
中文名称 |
编码范围 |
0 |
Basic Multilingual Plane |
BMP |
基本多文种平面 |
00000–0FFFF |
1 |
Supplementary Multilingual Plane |
SMP |
多文种补充平面 |
10000–1FFFF |
2 |
Supplementary Ideographic Plane |
SIP |
表意文字补充平面 |
20000–2FFFF |
3 |
Tertiary Ideographic Plane |
TIP |
第三表意文字平面 |
30000–3FFFF |
14 |
Supplementary Special-purpose Plane |
SSP |
特别用途补充平面 |
E0000–EFFFF |
15 |
Supplementary Private Use Area Plane |
SPUA-A |
私人使用补充平面A区 |
F0000–FFFFF |
16 |
Supplementary Private Use Area Plane |
SPUA-B |
私人使用补充平面B区 |
100000–10FFFF |
CJK(中日韩统一表意文字) 超大字符集相关编码区及所在平面
中文名称 |
英文名称 |
英文简称 |
编码范围 |
所在平面 |
码位数 |
字符数 |
中日韩统一表意文字 |
CJK Unified Ideographs |
CJK |
4E00-9FFF |
第0平面 |
20,992 |
20,992 |
中日韩统一表意文字扩展区A |
CJK Unified Ideographs Extension A |
CJK-A |
3400-4DBF |
第0平面 |
6,592 |
6,592 |
中日韩统一表意文字扩展区B |
CJK Unified Ideographs Extension B |
CJK-B |
20000-2A6DF |
第2平面 |
42,720 |
42,720 |
中日韩统一表意文字扩展区C |
CJK Unified Ideographs Extension C |
CJK-C |
2A700-2B73F |
第2平面 |
4,160 |
4,154 |
中日韩统一表意文字扩展区D |
CJK Unified Ideographs Extension D |
CJK-D |
2B740-2B81F |
第2平面 |
224 |
222 |
中日韩统一表意文字扩展区E |
CJK Unified Ideographs Extension E |
CJK-E |
2B820-2CEAF |
第2平面 |
5,776 |
5,762 |
中日韩统一表意文字扩展区F |
CJK Unified Ideographs Extension F |
CJK-F |
2CEB0-2EBEF |
第2平面 |
7,488 |
7,473 |
中日韩统一表意文字扩展区G |
CJK Unified Ideographs Extension G |
CJK-G |
30000-3134F |
第3平面 |
4,944 |
4,939 |
中日韩统一表意文字扩展区H |
CJK Unified Ideographs Extension H |
CJK-H |
31350-323AF |
第3平面 |
4,192 |
4,192 |
中日韩统一表意文字扩展区I |
CJK Unified Ideographs Extension I |
CJK-I |
2EBF0-2EE5F |
第2平面 |
624 |
622 |
中日韩统一表意文字兼容区 |
CJK Compatibility Ideographs |
CJK-CI |
F900-FAFF |
第0平面 |
512 |
472 |
中日韩统一表意文字兼容补充区 |
CJK Compatibility Ideographs Supplement |
CJK-CIS |
2F800-2FA1F |
第2平面 |
544 |
542 |
注1:以上码位数共98,768个,字符数共98,682个。
CJK(中日韩统一表意文字) 超大字符集字体
由于单个字体文件只能容纳65536个字形,所以超大字符集字体一般分为2个或2个以上字体文件。
国内90%以上的中文字体仅支持GB2312-80国家标准的6763个汉字,少量支持GBK国家标准的20902个汉字,极少数支持GB18030-2000国家标准的27533个汉字,支持GB18030-2005国家标准的70244个汉字的字体比较罕见。
常用超大字符集字体见:
https://github.com/CNMan/UnicodeCJK-WuBi06/issues/17