3000人名地名生僻字進(jìn)字庫(kù)
摘要:原標(biāo)題:3000人名地名生僻字進(jìn)字庫(kù) 字庫(kù)漢字將超7萬(wàn)個(gè)注:圖中“讀音”欄中的5表示輕聲?! ”緢?bào)記者 劉宇鑫 只因自己的名字里含有一個(gè)生僻字——
注:圖中“讀音”欄中的5表示輕聲。
本報(bào)記者 劉宇鑫
只因自己的名字里含有一個(gè)生僻字——“瓛”(音同“環(huán)”),多年來(lái),銀行存折、火車票、社保卡、駕照等處都無(wú)法正確顯示全名,如今只要牽扯到電腦錄入姓名或核實(shí)身份證上的姓名,不得不耗費(fèi)很長(zhǎng)時(shí)間。市民邵先生反映的取名生僻字困擾有望在近期得到解決。
昨日,本報(bào)記者獨(dú)家從北京北大方正電子有限公司(下文簡(jiǎn)稱“方正電子”)獲悉,方正電子確定承擔(dān)“中華字庫(kù)”中第17包“當(dāng)代人名地名用字搜集與整理”和第20包“字庫(kù)制作一:中間字庫(kù)、宋體楷體等成果字庫(kù)”項(xiàng)目研發(fā),前者預(yù)計(jì)會(huì)收集人口信息中3000個(gè)左右未編碼生僻字,該項(xiàng)目在明年年底完成后,可以有效解決取名生僻字在經(jīng)濟(jì)社會(huì)中難通用的問(wèn)題。
名字被五角星號(hào)替代
邵先生的名字中含有一個(gè)生僻字“瓛”,該字由王字旁及“獻(xiàn)”字組成,在由商務(wù)印書(shū)館出版的《現(xiàn)代漢語(yǔ)詞典》中收錄該字,詞典中解釋該字義為玉圭的一種,多用于人名。據(jù)他回憶,最初起這個(gè)名字是按照輩分排下來(lái)的,名字取“玉石”的寓意,至今已用了58年,雖然這個(gè)字一直都不常用,但年輕時(shí)辦很多手續(xù)都可以手寫,沒(méi)有對(duì)生活造成太多困擾。近年來(lái),隨著計(jì)算機(jī)的普及,好多手續(xù)都需要電腦輸入信息,多個(gè)輸入法打不出他的名字,即使一些輸入法能打出來(lái),程序卻不承認(rèn),這讓他感到非常不便。
在邵先生的證件中,僅有他身份證上的姓名完全正確;在多個(gè)銀行存折中,“瓛”字被五角星號(hào)代替,在社??榜{照中,該字為手寫添加;而在一些醫(yī)院的報(bào)銷單上該字被寫成了其他形似漢字;火車票中該字被拼音代替。
因?yàn)樯矸葑C上的姓名與其他證件上的姓名并不完全一樣,邵先生每次辦事時(shí)都需花費(fèi)多于別人幾倍的時(shí)間。在銀行,別的窗口都辦完了十幾個(gè)人的業(yè)務(wù)了,他想取錢都需要找相關(guān)負(fù)責(zé)人,最后在存折名字旁蓋章才可以。為了節(jié)省時(shí)間,現(xiàn)在他都將錢放在銀行卡中,以至于每次出門都得加倍小心——就沖這個(gè)名字,銀行卡要是不小心丟了,掛失估計(jì)更麻煩。
字庫(kù)漢字明年超7萬(wàn)個(gè)
像邵先生這樣的煩惱,很多名字中包含生僻漢字的市民也都遇到過(guò),主要原因還是人口信息部門使用的字庫(kù)內(nèi)容,與社會(huì)單位使用的字庫(kù)并不完全吻合。為此,“中華字庫(kù)”中專門啟動(dòng)了針對(duì)當(dāng)代人名地名用字的搜集與整理。
承擔(dān)該項(xiàng)目研發(fā)的方正電子字庫(kù)業(yè)務(wù)部副總經(jīng)理黃學(xué)鈞介紹,“中華字庫(kù)”工程由相關(guān)部委推出,是一項(xiàng)引領(lǐng)中華文化步入信息化、數(shù)字化時(shí)代的先導(dǎo)性、奠基性工程。工程共分為28個(gè)包,近30家高校、研究院所和企業(yè)參與了研發(fā)工作。其中,方正電子承擔(dān)了第17包“當(dāng)代人名地名用字搜集與整理”、第20包“字庫(kù)制作一:中間字庫(kù)、宋體楷體等成果字庫(kù)”的研發(fā)。方正電子承擔(dān)的第17包的主要任務(wù)是建立當(dāng)代人名、地名用字字表與屬性庫(kù),為“中華字庫(kù)”的字庫(kù)集成提供基礎(chǔ)資料。
說(shuō)起收集生僻字,黃學(xué)鈞用“經(jīng)驗(yàn)豐富”來(lái)形容他的研發(fā)團(tuán)隊(duì),近年完成過(guò)多次同類項(xiàng)目:2011年,公安人口管理系統(tǒng)用字;2012年,第二代居民身份證用字;2013年,外交部電子護(hù)照用字。“計(jì)劃納入第17包的3000個(gè)字,我們也是根據(jù)相關(guān)部門的要求,將近年發(fā)現(xiàn)的人口身份信息中出現(xiàn)頻率較高的姓氏、人名、住址所在地生僻字,納入常用字庫(kù)中,同時(shí)為‘中華字庫(kù)’的字庫(kù)集成提供基礎(chǔ)資料。”他解釋說(shuō),這部分字庫(kù)計(jì)劃于明年年底前完成,屆時(shí),字庫(kù)中的漢字總量將會(huì)超過(guò)7萬(wàn)個(gè)。
給每個(gè)字都設(shè)一個(gè)“門牌號(hào)”
“不論是常用字還是生僻字,只有被納入到字庫(kù)當(dāng)中,才算是找到家了。”在舉例時(shí),黃學(xué)鈞說(shuō)得最多的,就是給每個(gè)字都設(shè)一個(gè)門牌號(hào),整個(gè)字庫(kù)相當(dāng)于一個(gè)網(wǎng)格式的大廈。比如,“住”在大廈左上角的“啊”字,其字庫(kù)編碼為“B0A1”。然而,要讓一個(gè)個(gè)生僻字找到回家的路,其工作量遠(yuǎn)不止這些。
根據(jù)“中華字庫(kù)”的編制要求,對(duì)搜集到姓氏、人名、地名用字進(jìn)行查重整理后,建立相應(yīng)的屬性數(shù)據(jù)庫(kù),包括:序號(hào)、字形圖像、讀音、釋義、漢字描述序列、用途類別、姓氏、人名用字需注明民族和屬地信息,提交登記資料圖像、地名用字需注明從省級(jí)地名下溯到包含該字的地名,提交登記資料圖像。同時(shí),本項(xiàng)目包資源搜集范圍應(yīng)在公安、民政、教育、郵政、測(cè)繪、銀行等領(lǐng)域中選取,但必須包含公安和民政部門。搜集整理的姓氏、人名、地名用字盡可能覆蓋社會(huì)用字的實(shí)際需求。屬性數(shù)據(jù)庫(kù)的屬性項(xiàng)設(shè)置全面,標(biāo)注完整,符合工程相關(guān)要求,差錯(cuò)率小于萬(wàn)分之一。
方正電子字庫(kù)業(yè)務(wù)部總經(jīng)理張建國(guó)介紹,作為國(guó)內(nèi)最大、市場(chǎng)占有率最高的字體廠商,方正電子在完成上述字庫(kù)項(xiàng)目后,將與“中華字庫(kù)”共同擁有知識(shí)產(chǎn)權(quán)。憑借商業(yè)推廣,這些生僻字有望在銀行、醫(yī)療、教育留學(xué),乃至電商領(lǐng)域被廣泛使用,從而大大減少部分市民在經(jīng)濟(jì)社會(huì)中為“名”所累的煩惱。
責(zé)任編輯:xmx
(原標(biāo)題:北京日?qǐng)?bào))
查看心情排行你看到此篇文章的感受是:
版權(quán)聲明:
1.凡本網(wǎng)注明“來(lái)源:駐馬店網(wǎng)”的所有作品,均為本網(wǎng)合法擁有版權(quán)或有權(quán)使用的作品,未經(jīng)本網(wǎng)書(shū)面授權(quán)不得轉(zhuǎn)載、摘編或利用其他方式使用上述作品。已經(jīng)本網(wǎng)授權(quán)使用作品的,應(yīng)在授權(quán)范圍內(nèi)使用,并注明“來(lái)源:駐馬店網(wǎng)”。任何組織、平臺(tái)和個(gè)人,不得侵犯本網(wǎng)應(yīng)有權(quán)益,否則,一經(jīng)發(fā)現(xiàn),本網(wǎng)將授權(quán)常年法律顧問(wèn)予以追究侵權(quán)者的法律責(zé)任。
駐馬店日?qǐng)?bào)報(bào)業(yè)集團(tuán)法律顧問(wèn)單位:上海市匯業(yè)(武漢)律師事務(wù)所
首席法律顧問(wèn):馮程斌律師
2.凡本網(wǎng)注明“來(lái)源:XXX(非駐馬店網(wǎng))”的作品,均轉(zhuǎn)載自其他媒體,轉(zhuǎn)載目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點(diǎn)和對(duì)其真實(shí)性負(fù)責(zé)。如其他個(gè)人、媒體、網(wǎng)站、團(tuán)體從本網(wǎng)下載使用,必須保留本網(wǎng)站注明的“稿件來(lái)源”,并自負(fù)相關(guān)法律責(zé)任,否則本網(wǎng)將追究其相關(guān)法律責(zé)任。
3.如果您發(fā)現(xiàn)本網(wǎng)站上有侵犯您的知識(shí)產(chǎn)權(quán)的作品,請(qǐng)與我們?nèi)〉寐?lián)系,我們會(huì)及時(shí)修改或刪除。