“名字无法显示”,困扰着6000万人的日常生活

author
0 minutes, 14 seconds Read

洪⿰伟华(wěi)查了字典,他名字的意思是“明亮、美丽”。 在数字社会,这个不常见的名字让她遇到了很多麻烦。

她的微信实名本来是用拼音的,现在要转成汉字。 但由于她购买了理财产品,所以需要先提款才能更改账户名,而且提现时需要提供与身份证相符的中文实名。 “进入死亡”这是一个循环。

如果她想买火车票,就必须到人工窗口用拼音验证自己的12306账号。 她等待后台处理的时间很长。 “这还是在北京,据说其他地方的一些小站根本就没有处理生僻字的窗口。” 拥有账户后,只能购买门票,无法使用备用购票功能。 乘坐飞机时,您必须在柜台办理登机手续并获得纸质机票盖章。

2020年,洪卫华因无法实名认证北京健康宝,在家待了近一个月。 当时,超市还没有推出送货服务。 她靠家里储存的食物和阳台上的大葱勉强度日。 她告诉南方周末记者,那段时间她曾考虑过改名,但无法出门是最大的问题。 即使她可以出去,也无法去派出所现场申请,因为她没有健康宝。

一位同样在北京、名字中带有“dí”字的男性网友总结了自己的经历。 少数有授权流程,可以提供实名认证(如申请银行卡)并提供户口本等辅助证明,可以成功申请。 大部分都能成功申请实名认证。 比如买车险、公租房抽奖,都是“报给你”,最终解决不了。 他抱怨道:“即使是我三十多岁的人,玩游戏也只能用父母的身份证号才能通过实名认证。”

2023年4月,居住在云南丽江的一个以鸟为图腾的家庭,由于信息系统无法输入和显示“nià”姓氏,族中近700人不得不将姓氏改为“鸭”。

网名繁体字设计大全_繁体字网名设计_网名繁体字简单/

在稀有人物收藏小程序中,有一些网友上传的稀有人物。 (资料图/图片)

也存在因地名中生僻字符而导致日常工作受阻的情况。 山东省泰安市岱岳区石洼社区的居民目前还没有拿到房产证。 “烟”是临时代用的谐音,原字是上下石(⿱分石)。 石“蜡”社位于泰山脚下,是泰山玉的原产地。 最不可缺少的就是石头。 相传古时候,当地人把大石头分成小石头,于是就有了“分石”一词。 但电脑一般不会显示这个词,所以在大多数日常场合只能用“蜡”或“蜡”来代替。

据不完全统计,全国人口超过6000万,还有大量含有生僻字的地名、古籍、方言等。 其中大部分尚未数字化,无法在信息系统中正常使用。

刘惠丹,中国科学院软件研究所工程师。 在帮助居民解决问题的过程中,他发现安装输入法等软件后,测绘系统可以正确显示和打印小区地址,但房产登记系统仍然无法显示。 解决稀有字符的问题是非常困难的。 除了输入法、字库之外,业务系统也需要升级改造。

“有时候我觉得我所做的事情和《我不是药神》里的主角很相似,他对待人,我对待信息处理设备和信息处理系统。” 刘惠丹告诉南方周末记者。

近年来,随着实名制的逐步实施,名字生僻字的人的困境日益凸显。

“名称无法显示”联盟

刘惠丹的名字没有生僻字。 他本来以为生僻字数字化已经不是什么问题了。 毕竟他的专业研究方向是与中文信息处理相关的。 高级教师是第一批让汉字进入计算机信息系统的中国学者。

直到2020年,刘惠丹发现事实并非如此。 当时,在银行工作多年的系统架构师马玉明找到他,建议很多人名字里有生僻字,全社会应该共同努力解决这个问题。 刘惠丹不可置信:“怎么还有这样的问题?几句生僻的话,就让这些人不敢动了。”

刘惠丹与他人共同开发了珍稀字库和输入法,用于银行业等系统。 后来,他和朋友众筹了一个处理稀有字符的平台。 通过这个平台,来自世界各地的稀有名字的用户找到了该组织。

、、㱔、……南方周末记者走进“生僻名字交流群”,一一打招呼,迎接他们的是形状各异的名字。 有些字符无法显示,所以被分成两部分替换。 一些字符被拼音替换,一些简体字符被更好的打字繁体字符替换,一些字符只能显示一个空白框。 一群名叫刘㛃(jié)的朋友将自己的微信昵称设置为“姓名无法显示”。 稀有字符的用户在信息世界中以这样的“代号”说话:

“‘人’的生僻字和‘机器(IT系统)’的生僻字是两个概念,这个小组正在讨论后者。”

“我们面临的困难是,任何有名字的东西都可能成为障碍。”

“仅仅罗列有需要的人的事实是很难推广的,问题的根源需要暴露出来。否则,文章会有很好的反响,但效果却无济于事。”

自2020年创建以来,交流群规模已超过500人,第二群也已成立。 作为组长,刘惠丹估计,其中至少有200人名字生僻。 每一个字的背后,也可能聚集着一群“困难同志”。 群友文陈䶮(yǎn)以“䶮”字入群,现有成员近300人。

几乎每天都有群友分享日常生活中遇到的不便。 由于名字中的生僻字无法在业务系统中正常显示或处理,办理银行卡、驾照、报税、报销,甚至购买海外产品等,都是其他人可以轻松完成的事情。 等级。 群体中除了有稀有字名字的人外,还有金融行业与稀有字打交道的专业人士、公共服务机构及相关部门的工作人员、学者等。

“名字里有生僻字的人比例很小,而且很分散。如果不是最近上了热搜,可能大家也不会这么关注。因为这个平台,这些人都聚集在一个地方。”微信群,大家互相互动,分享一下办事经验,古话说久病成良医,现在大概也是这个状态。” 刘惠丹告诉南方周末记者。

网名繁体字设计大全_网名繁体字简单_繁体字网名设计/

在信息社会中,名字中​​的生僻字会让一个人难以前行。 图为2023年沉阳某商场内的姓氏文化装置。(视觉中国/图)

76%的汉字可能是生僻字

(xí) 庆有一个大多数人都读不准的姓氏,他的生活也充满了不便。 当我还是学生时,我的信息无法输入注册系统。 参加工作后,我遇到了更多的困难。 贷款无法获得批准,保险也无法购买。 他第一次缴纳社保时,把“褛”字换成了“褛”字,社保局出具了证明,证明这是同一个人。 2021年社保系统将进行升级,后台数据将自动与人口数据库信息对接。 但在社保局的系统中,“”只能显示两个问号,无法办卡。 青多次投诉,反馈是修改量太大,暂时无法解决。

生僻字数字化困境的根源在于许多社会公共服务信息系统仍然使用GBK编码字符集,与最新的GB 18030-2022编码字符集标准相比存在很大缺失。 技术遗留问题意味着76%的汉字可能是日常生活中无法输入或显示的生僻字。

汉字编码标准GBK于1995年发布,仅收录了21003个汉字,很多人名、地名中的生僻字并未收录。 2000年,新的汉字编码规范GB 18030发布,2005年发布第二版。GB 18030共收录汉字7万多个。 在GBK的基础上增加了中、日、韩汉字以及少数民族文字、少数民族文字,基本可以承担生僻字的表达。

但由于大多数业务系统数据库的编码字符集仍然是GBK,所以当未收集的稀有字符存储到数据库中时,就会变成问号。 这就是庆的遭遇。

刘惠丹指出,“很多信息系统积累了大量的数据,数据库数据的迁移,就是将原来的GBK数据库重建为GB 18030或者UTF8数据库,将原来的数据导入到现在的数据库中。”操作本身理论上比较简单,但实践中存在风险,有经验的技术人员可能很难找到。”

名字中带有“”的群友认为,“现在的‘费时费力’是没有按照规范开发系统造成的。就像一年级学生学加法一样,1+1=1+1=” 3并且一直在读高中,是的,改变它会很痛苦。”

从比例来看,生僻字的使用者占中国总人口的比例较低。 商业组织是否会为这4%的人群支付制度改造的成本,基本上取决于过去对这个问题的主观重视程度。

国家市场监管总局于2022年7月发布《信息技术中文编码字符集》强制性国家标准(GB 18030-2022),要求2023年8月1日前,政务服务和公共服务的产品和系统必须支持信息技术中文编码字符集。标准中有87887个汉字。

刘惠丹参与了新国标的修订。 他认为,GB 18030-2022虽然是强制性国家标准,但几乎没有相关的监督执法工作。 目前市场上的输入法只有2万多个字符。 虽然国家标准没有要求支持这么大的字号(超过8万字符),但大公司还是应该有责任感,对标最全的字库和最新的标准。”

洪卫华指出,前端过滤也是一个痛点。 “即使没有生僻字库,无法正常显示,也没有关系,至少不要做GBK过滤,让前端拦截生僻字。一般情况下,只要前端做不拦截,即使无法正常显示,也能通过实名认证。”

症结在于1995年发布的GBK中2万多个汉字的Unicode编码范围(正则表达式名为“\u4e00-\u9fa5”)。 这套代码的范围一直流传至今。 如今,大量的程序开发书籍和网络文章仍然采用这种正则表达式,广大程序员都受到它的影响。 几乎所有类型的开发系统都使用这种不完整的正则表达式来处理输入的名称。 验证(包括最近开发的一些政府网站和公共服务应用系统)导致大量姓名中含有生僻字符的用户在第一步实名登记时被提示“非法字符”而被拒之门外。

看起来相同的词可能不“正确”

“䶮”字最初是南汉皇帝刘伟所创。 后人将其解读为“天上飞龙”。 文辰姬的名字听起来很霸气,但原因是他母亲的怀孕时间几乎和岁月一样长。 母亲怀上文臣,非常辛苦。 她长期卧床不起,离不开氧气瓶、浓糖水和高渗葡萄糖。 她经常一个人在家,每天都会用笔在日历上画一个圈。 “我的儿子是龙年出生的,时势如此艰难,所以他的名字就取了‘䶮’。”

2019年高中毕业后,闻辰佑发现,离开小圈子后,自己名字的正确使用成了需要捍卫的事情。 母亲曾劝他改名,但他坚持不改,说会努力改。 2020年,他拿到了“改名”的身份证和户口簿。 姓名栏里他曾经用过的名字和他现在的名字在外观上几乎没有什么区别,但只有不常见名字的使用者才知道其背后隐藏的秘密——两个字符的编码方式不同,原来的编码方式并不一样。包含在许多系统中。

这就是所谓的“一字多码”,也是名字生僻字的人遇到困难的重要原因之一。 这也是一个历史遗留问题:国际标准和国家标准制定时,预留了一小块编码块。 它允许用户在小范围内(即Private User Areas,PUA)自定义使用,但一些涉及外部信息交换的系统也使用自定义的PUA编码,这导致许多生僻字有两种以上的编码。

刘惠丹创办的生僻字处理平台具有户籍字搜索功能,既可以提供生僻字的官方代码,也可以提供PUA代码。 用户可以通过直接复制代码的方式解决一字多码的问题。

户籍管理部门共创建了4700多个PUA字符,其中大部分现已有了正式代码。 马玉明指出,PUA码方便地解决了居民过早落户的问题。 正式标准中收录的生僻字应腾出并移入正式字区。 但在发放二代身份证时,由于技术条件和人员认知的限制,很多证件仍采用临时编码。 同时,由于这些PUA代码不向公众公开,文字用户只能闭门造字,用另一个代码自己造字。 最典型的例子就是搜狗输入法,它创建了415个PUA码字。

腾讯搜狗输入法负责人刘芳负责稀有字项目。 她表示,搜狗正在推动移除这些PUA编码字符,“预计2023年第二季度解决”。

不久前,有网友向她反映,自己已经通过了广州初级证书考试。 当他继续报考中级考试时,系统却找不到他之前通过初级证书的信息。 一番折腾后,他才知道初级证书上的名字和现在的名字是一样的。 输入的名称看似相同的字符,但实际上编码不同,因此无法进行比较。

最后通过复制粘贴原来输入的单词解决了问题。 刘芳感叹道,“像他(她)这样的人,学历都比较高,知道如何寻求帮助。但对于很多用户来说,他们真的不知道去哪里解决问题。很多人会认为是他们的问题。”自己的问题。我应该改变你的名字和姓氏。”

此后,温辰逸获得了很多知识,并用这些知识与各界人士斡旋。 办理银行卡、驾照以及各种实名认证,都是他与主管反复沟通、推进的结果。 有时候,他个人问题的解决可以促进业务部门的系统升级,这是最理想的情况。 有的机构选择通过“打补丁”的方式来处理,单独存储他的名字,单独调用。

他曾给国家相关部门写信反映生僻名字用户的困境,“希望国家能够像‘老年App转型’一样重视‘生僻名字’群体。”

“很多问题的落实需要人与人之间的沟通,这需要花费大量的时间和精力。但这也很难。如果你没有很强的抗压能力和足够的信心,你很容易被踢出去。”球被扔掉了,让一切回到起点。” 文辰燮告诉南方周末记者,日常问题他已经基本解决,但“䶮”群里的296人大部分不了解问题的根源,也没有有效的解决办法。 保护自身权益的方法和手段,“个体差异非常大”。

与当前人工智能等前沿领域的热潮不同,从事汉字信息处理的刘惠丹对业内人士“坐冷板凳”的描述有着深刻的理解。 除了希望用自己积累的专业技能来解决问题、支持自己和团队之外,刘惠丹对名字不常见的边缘人有着特殊的感情。 “见到这些人后,我发现他们的生活太艰难了。 受不了。”

网名繁体字设计大全_网名繁体字简单_繁体字网名设计/

温晨宇户口簿上的名字和他以前的名字看似一模一样,但实际上编码不同,他也因此遇到了很多麻烦。 (受访者供图/图)

完整的解决方案正在进行中

2023年4月20日,第14个“联合国中文日”,上线“生僻字收藏”小程序,在字库“扩容”的基础上,向公众征集无法打字的生僻字。

上传的生僻字大部分已经编码,尚未编码的字符将由工业和信息化部电子工业标准化研究院进行验证和审核,然后分配相应的编码并纳入国家标准字体数据库; 腾讯搜狗输入法随后将完成适配匹配,汉仪字库为新编码的汉字设计字形,然后就可以在电脑、手机等信息系统中输入并显示目标生僻字。

一款能够为生僻字提供完整解决方案的产品,需要同时具备字库和输入法。 刘惠丹告诉南方周末记者,目前国内有五家厂商可以做到这一点。 “因为有一群幕后人士的默默努力,稀有字符产品的市场价格水涨船高。” 从天价砍下来。 供应商多了,价格也降了,有助于解决问题。”

在稀有文字处理方面,行业之间存在巨大差异。 金融业遥遥领先,不仅因为金融业本身是信息化程度最高的行业,还取决于其重视程度。 2022年6月24日,中国人民银行正式发布《金融服务生僻词处理指引》金融行业标准,规范了金融服务生僻字的录入、展示、打印、信息交换、存储、内部培训和投诉处理等方法每个阶段的稀有角色。 第一个是银行,目前正在向保险、证券行业传导。 整个金融行业都把生僻词的处理作为一项非常重要的工作来推动。

在“生僻字交流群”中,一些银行专业人员直接充当“客服”,为群里成员的问题提供咨询。 一个机构处理生僻词的好坏,往往隐藏在群友的评论中。 温晨宇认为,“蚂蚁(支付宝)一直走在前列,非常重视稀有字符,一直在与各机构进行互联网推广。” 支付宝实名认证流程中,可以处理多种生僻字姓名变体,如PUA码、官方码、拼音、分词、繁体字替换等。

2022年6月,蚂蚁集团成立了生僻字项目组,专门解决支付宝平台的生僻字处理问题。 工程师胡一兵和彭少华见证了这个小团队慢慢扩大到现在的20多人。

许多生僻字用户因无法正确输入姓名而陷入实名认证过程。 为此,他们开发了一种带有稀有字符的键盘。 除了拼音之外,还可以将汉字拆分成几个部分来输入,比如“䶮”、“龙天”等也可以找到。

解决系统互通互认问题的技术关键是收集各种形式的生僻字映射表,并进行转码映射,帮助业务系统将两种不同的替代形式的字符识别为同一个字符。

虽然只是一小步,但也涉及到上下游系统的协调。 胡一兵指出,“除了支付宝自己的金融、支付业务,还有查公积金、查社保等上千个小程序,只要有一个生僻字的链接,你就可能会遇到它。 如果有卡点,我们需要配合国家相关政府机构一一清理,这不是我们自己机构支付宝就能完成的事情。”

罕见的词是什么意思?

因为每天在各个群里回复消息,彭少华和一些生僻字的用户成为了朋友。 其中之一就是坚。 简家住甘肃酒泉,家人基本居住在甘肃、陕西、宁夏等西部地区。 他还寄来了家人对姓氏起源的详细研究。 彭少华读完后觉得,一个罕见的姓氏是古代汉语演化史的缩影。

面对现实困难,不少亲戚选择改姓“葸”。 坚决心不改。 这位兰州大学临床医学专业的毕业生也是一位古文爱好者。 他实在不喜欢“葸”这个词。 它唯一能形成的成语就是“畏葸而不前行”。 更重要的是,这个诞生于元代的古汉字,已经使用和流通了700多年。 它熬过了农业文明、工业文明,却熬不过数字时代? 这对他来说是无法接受的。

汉语的演变是复杂的,生僻字主要有时间和空间两个来源。 历史积累越久,人物数量越多,在不同时代的人际交往中就会淡出更多的人物。 同时,广阔的地理空间保存了大量的地名和方言中的生僻字。

中国社会科学院语言研究所研究员谭景春举了一个例子。 在畜牧业比较发达的时代,古人创造了很多形容马的词语,而且马的分类也非常详细。 例如,騑指三岁的马,駣指三四岁的马。 畜牧业衰落之后,这些词的使用频率自然就减少了,变得不常见了。

他强调,对于历史上存在过、古籍中已有记载的生僻字,要在相关词典中予以认识和体现。 如今,一些父母倾向于选择不常见的单词来给孩子命名。 谭景春认为,至少不应该提倡。 “可能会满足一些需求,但负面影响会更大,会给孩子带来很多麻烦,无论是写字、取别人的名字,还是登记。” ”。一些常用词的组合也可以达到丰富含义的效果。

谭景春告诉南方周末记者,历史积淀形成的不寻常人物层出不穷,这是古代人和现代人的共同情况。 然而,“以前信息通讯、交通不方便,交流很少,现在交流太多。现在已经进入信息时代,汉字由电脑输入,不再是手写,所以稀有字符的数字化非常重要,是我们沟通的基础。”

潮汕人黄航的名字带有家乡的印记。 这个独特的词在方言中的意思是“足够”。 她说:“汉字是中国文化的一部分,不应以实际使用频率来定义一个汉字是否具有存在意义,甚至决定一个汉字的去留。”

“⿰土制(zhuài)头”是江苏省宿迁市泗洪县的一个村名。 有人在“稀有人物集”小程序中手写并上传了一张“土之”人物的图片,讲述了尚为范的《天地》中我在精卫地名中读到的一段往事。 当地一位老教师说:“多年来,每次新生进入第一堂课,我都要教他们家乡的名字——土鸡头村。‘土鸡头’字笔画不多,左边是土。” ……,右边只有。学完后,孩子们总是问:我们村这么大,还是新四军抗日根据地,为什么《新华字典》里没有这个词,可以《辞海》里也找不到?” 一位网友最后写道,“现在这个字符已经被编码,老人的部分愿望已经实现了,希望能够尽快在电脑上方便地输入和交换这个字符。”

(应受访者要求,马玉明为化名)

其他人都在看:

网名繁体字设计大全_网名繁体字简单_繁体字网名设计/

网名繁体字简单_网名繁体字设计大全_繁体字网名设计/

Similar Posts