一种由中国人自主开发的编码技术以计算机录入和处理的方式,出版了收录有大量生僻汉字的《康熙字典》,这不仅改变了古籍中的生僻汉字仅能依靠影印或造字出版的历史,也意味着中国所有汉字将实现计算机处理。
记者28日获悉,由中国人自主开发的四字节编码技术还将解决户籍、银行、海关等行业遇到的姓名、地名中的生僻字问题。
该项技术的发明人、北京时代瀚堂科技有限公司总经理王宏源说,在通用的计算机平台上的“龙语瀚堂”典籍数据库采用的四字节编码技术,可录入、显示、编辑、检索、查询和管理7万多汉字。而传统的二字节编码技术只能处理2万多个汉字,一些存在生僻汉字的古籍只能依靠影印或生造字的方式复制或出版。
在日常生活中,一些姓名中有生僻字的人常常因为民航、银行等服务机构不认识或无法在电脑中输入他们的名字而遇到麻烦。统计显示,中国13亿人口中仅名字中带有生僻字的就多达6000多万人。
虽然各种解决方案如手写扫描、造字打印、自建字库等输入手段也相应提出,却无法解决生僻汉字检索和查询的管理问题。
据介绍,应用“龙语瀚堂”典籍数据库的技术,社科文献出版社已出版了中国最早的字书《说文解字》。该典籍数据库还收录了“字书类数据库”、“殷周金文库”、“音韵库”、“中国简帛库”、“甲骨文库”等13类子库数百万条数据记录。
目前,“龙语瀚堂”典籍数据库已在包括哈佛、斯坦福等百余所海内外大学的中文系、历史系、考古系及汉学研究机构广泛应用。该数据库还将为中小学生的汉语学习设立“汉字故事检索”等功能。
目前,海内外汉字文化圈所拥有的人口数高达15亿,全球非汉语母语的学习者已达3000万人。
|