計(jì)算語(yǔ)言學(xué)(漢文部分)

發(fā)布時(shí)間:2021-12-09 16:59:07 | 來(lái)源:中國(guó)藏學(xué)研究中心 | 作者: | 責(zé)任編輯:

二、計(jì)算語(yǔ)言學(xué)

標(biāo)注、分詞及其算法是計(jì)算語(yǔ)言學(xué)關(guān)注的重點(diǎn),是藏文信息處理的基礎(chǔ)性問(wèn)題,也是藏文信息化建設(shè)的關(guān)鍵因素。相關(guān)的研究成果有:

鄭亞楠、珠杰的《基于詞向量的藏文詞性標(biāo)注方法研究》(《中文信息學(xué)報(bào)》第1期)一文,提出一種基于詞向量模型的詞性標(biāo)注方法和相應(yīng)算法。該方法首先利用詞向量的語(yǔ)義近似計(jì)算功能,擴(kuò)展標(biāo)注詞典;其次,結(jié)合語(yǔ)義近似計(jì)算和標(biāo)注詞典,完成詞性標(biāo)注。實(shí)驗(yàn)結(jié)果表明,該方法能夠快速有效地?cái)U(kuò)大標(biāo)注詞典規(guī)模,并能取得較好的標(biāo)注結(jié)果。龍從軍、劉匯丹、吳健的《藏語(yǔ)音節(jié)標(biāo)注研究》(《中文信息學(xué)報(bào)》第4期)一文,對(duì)藏語(yǔ)音節(jié)的定義進(jìn)行了界定,提出音節(jié)的性質(zhì)分類及標(biāo)注原則,利用統(tǒng)計(jì)模型,在約24萬(wàn)個(gè)音節(jié)的中小學(xué)語(yǔ)文教材語(yǔ)料庫(kù)中進(jìn)行實(shí)驗(yàn),音節(jié)性質(zhì)標(biāo)注的正確率為93.5208%。在此基礎(chǔ)上,把音節(jié)性質(zhì)標(biāo)注信息用到詞性標(biāo)注中。實(shí)驗(yàn)結(jié)果表明:即使在音節(jié)性質(zhì)標(biāo)注存在一定錯(cuò)誤的情況下,詞性標(biāo)注的正確率也提高到94.1967%;如果在保證音節(jié)性質(zhì)標(biāo)注完全正確的情況下,詞性標(biāo)注的正確率可以提高到97.7754%,這說(shuō)明音節(jié)性質(zhì)標(biāo)注信息對(duì)詞性標(biāo)注有幫助。羊毛卓么的《基于HMM藏文詞性標(biāo)注的研究》(《信息系統(tǒng)工程》第10期)一文,以藏語(yǔ)語(yǔ)料為切入點(diǎn),運(yùn)用現(xiàn)代化Viterbi算法來(lái)展開對(duì)藏文信息中詞性的注釋的系統(tǒng)研究。結(jié)合研究結(jié)果發(fā)現(xiàn),基于數(shù)據(jù)統(tǒng)計(jì)模式展開的詞性標(biāo)注模式,可以切實(shí)有效提升其正確率,為實(shí)踐推廣產(chǎn)生了良好的參考價(jià)值。李亞超、加羊吉、江靜、何向真、于洪志的《融合無(wú)監(jiān)督特征的藏文分詞方法研究》(《中文信息學(xué)報(bào)》第2期)一文,從無(wú)標(biāo)注語(yǔ)料中抽取邊界熵特征、鄰接變化數(shù)特征、無(wú)監(jiān)督間隔標(biāo)注等無(wú)監(jiān)督特征,并將之融合到基于序列標(biāo)注的分詞系統(tǒng)中。從實(shí)驗(yàn)結(jié)果可以看出,與基線藏文分詞系統(tǒng)相比,分詞F值提高了0.97%,并且未登錄詞識(shí)別結(jié)果也有較大的提高。拉巴頓珠、歐珠、趙棟材等的《藏文自動(dòng)分詞系統(tǒng)中虛詞識(shí)別算法研究》(《計(jì)算機(jī)應(yīng)用與軟件》第9期)一文根據(jù)傳統(tǒng)藏文文法,描述了藏文虛詞在文本中不同的表現(xiàn)形式,用規(guī)則和統(tǒng)計(jì)相結(jié)合的方法,建立了較為全面的虛詞知識(shí)庫(kù)和規(guī)則庫(kù),并給出切分用虛詞分塊算法,該方法對(duì)不同領(lǐng)域的3200個(gè)較典型的藏文句子進(jìn)行了測(cè)試,結(jié)果表明,該方法的虛詞識(shí)別率高達(dá)98%以上。江濤、袁斌、于洪志、加羊吉等的《基于多特征的藏文微博情感傾向性分析》(《中文信息學(xué)報(bào)》第3期)一文,提出了基于多特征的情感傾向性分析算法,算法使用情感詞、詞性序列、句式信息和表情符號(hào)作為特征,并針對(duì)藏文微博常出現(xiàn)中文表述的情況,將中文的情感信息也作為特征進(jìn)行情感計(jì)算,利用雙語(yǔ)情感特征有效提高了情感傾向性分析的效果。實(shí)驗(yàn)顯示,該方法對(duì)純藏文表述的微博情感傾向性分析正確率可達(dá)79.8%,針對(duì)藏漢雙語(yǔ)表述的微博在加入中文情感詞、中文標(biāo)點(diǎn)符號(hào)等特征后,正確率能夠達(dá)到82.8%。徐濤、藍(lán)傳锜的《基于卡方統(tǒng)計(jì)量的藏文新聞網(wǎng)頁(yè)關(guān)鍵詞提取方法》(《電腦知識(shí)與技術(shù)》第26期)一文,該文將卡方統(tǒng)計(jì)量進(jìn)行改進(jìn),運(yùn)用詞與詞推薦的思想進(jìn)行關(guān)鍵詞抽取。通過(guò)藏文新聞網(wǎng)頁(yè)實(shí)驗(yàn)結(jié)果表明,該文的方法優(yōu)于融入位置信息的TF/IDF。春燕、曲珍、許寧的《面向藏文基本集編碼的單模式匹配算法研究》(《西藏科技》第3期)一文提出一種改進(jìn)的針對(duì)藏文編碼的BMT(Boyer Moore Tibet)模式匹配算法。官卻多杰、關(guān)白的《計(jì)算機(jī)識(shí)別藏文音節(jié)構(gòu)件的方法研究》(《現(xiàn)代電子技術(shù)》第10期)一文依據(jù)藏文字性組織法規(guī)定的音節(jié)組合規(guī)則和組合結(jié)構(gòu),提出先確定藏文音節(jié)中作為核心構(gòu)件的基字,再依據(jù)基字判斷出其他構(gòu)件的算法,結(jié)合此算法對(duì)藏文中出現(xiàn)的其他特殊音節(jié)進(jìn)行了特殊的構(gòu)件識(shí)別處理。通過(guò)測(cè)試驗(yàn)證算法的可行性,測(cè)試結(jié)果表明,該算法能夠正確識(shí)別符合組合規(guī)則和結(jié)構(gòu)的藏文音節(jié),對(duì)特殊音節(jié)也有較好的識(shí)別能力。李加才讓、安見才讓的《一種用于藏英文混合文本壓縮的改進(jìn)LZW算法》(《軟件工程》第6期)一文根據(jù)藏文文本的特點(diǎn),提出兩種改進(jìn)的LZW數(shù)據(jù)壓縮算法對(duì)藏英文混合文本進(jìn)行數(shù)據(jù)壓縮并無(wú)損解壓。通過(guò)實(shí)驗(yàn)結(jié)果表明,該算法是一個(gè)適應(yīng)于不同場(chǎng)合的文本壓縮技術(shù)。普次仁、侯佳林、劉月、翟東海等的《深度學(xué)習(xí)算法在藏文情感分析中的應(yīng)用研究》(《計(jì)算機(jī)科學(xué)與探索》第7期)一文,將深度學(xué)習(xí)領(lǐng)域內(nèi)的遞歸自編碼算法引入藏文情感分析中,以更深層次提取語(yǔ)義情感信息。實(shí)驗(yàn)表明,在最佳參數(shù)組合下,所提算法準(zhǔn)確度比傳統(tǒng)機(jī)器學(xué)習(xí)算法中性能較好的語(yǔ)義空間模型高約8.6%。艾金勇的《融合語(yǔ)義知識(shí)的藏文網(wǎng)頁(yè)關(guān)鍵詞提取方法研究》(《圖書館學(xué)研究》第3期)和《結(jié)合語(yǔ)義知識(shí)的藏文網(wǎng)頁(yè)主題句抽取算法研究》(《圖書館理論與實(shí)踐》第8期)兩文,歸納整理了藏文網(wǎng)頁(yè)的結(jié)構(gòu)特征,在借鑒中英文關(guān)鍵詞和主題句抽取方法的基礎(chǔ)上,設(shè)計(jì)實(shí)現(xiàn)了融合語(yǔ)義知識(shí)的藏文網(wǎng)頁(yè)關(guān)鍵詞抽取算法。該算法利用藏文文本特征實(shí)現(xiàn)了網(wǎng)頁(yè)內(nèi)容模塊的智能識(shí)別,在對(duì)識(shí)別的文本塊進(jìn)行自動(dòng)分詞后,采用改進(jìn)的TF-IDF算法得到基礎(chǔ)詞集,然后根據(jù)詞向量特征進(jìn)行基礎(chǔ)詞的語(yǔ)義擴(kuò)展構(gòu)建候選關(guān)鍵詞集,最后利用候選關(guān)鍵詞之間的語(yǔ)義相關(guān)度值,確立藏文網(wǎng)頁(yè)的關(guān)鍵詞。

實(shí)用軟件的開發(fā)同樣是藏語(yǔ)文信息化建設(shè)的重要組成部分。相關(guān)的研究成果有:李自清的《基于ssi框架藏語(yǔ)/漢語(yǔ)在線教育系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)》(《軟件》第4期)一文,設(shè)計(jì)和完成了基于spring+spring MVC+iBatis藏語(yǔ)/漢語(yǔ)遠(yuǎn)程教育系統(tǒng)的在線學(xué)習(xí)平臺(tái),介紹了在Eclipse開發(fā)平臺(tái)下,利用spring、spring MVC、iBatis技術(shù)開發(fā)該平臺(tái)。主要討論了系統(tǒng)所涉及的相關(guān)技術(shù),設(shè)計(jì)的思想以及系統(tǒng)各功能模塊的設(shè)計(jì)與實(shí)現(xiàn)。陳小瑩的《藏文百科知識(shí)問(wèn)答系統(tǒng)的設(shè)計(jì)與研究》(《智能計(jì)算機(jī)與應(yīng)用》第4期)一文參照中英文知識(shí)問(wèn)答系統(tǒng)的設(shè)計(jì)方法,建立藏文百科知識(shí)庫(kù),在句法分析的基礎(chǔ)上,設(shè)計(jì)藏文百科知識(shí)的自動(dòng)問(wèn)答系統(tǒng)。山發(fā)、富春燕、李婷、旦增多吉、李凌的《基于Android平臺(tái)的藏文駕考軟件》(《智庫(kù)時(shí)代》第8期)一文,介紹了針對(duì)藏族地區(qū)群眾需求而設(shè)計(jì)的一款A(yù)ndroid平臺(tái)下的藏語(yǔ)駕考APP。

相關(guān)的研究還有:陳小瑩的《現(xiàn)代藏文中黏著語(yǔ)的規(guī)范化處理》(《電腦與信息技術(shù)》第1期)一文,對(duì)黏著語(yǔ)產(chǎn)生的背景和意義進(jìn)行介紹,按照黏著語(yǔ)不同的形成原因進(jìn)行分類處理,最終實(shí)現(xiàn)黏著語(yǔ)的規(guī)范化處理。孟雯、江荻的《藏文詞典排序原理與查詞典的方法》(《西北民族大學(xué)學(xué)報(bào)》哲社版第3期)一文,詳細(xì)敘述了藏文詞典的檢索方法,并配以案例加以說(shuō)明。這些內(nèi)容對(duì)于學(xué)習(xí)者和使用者都具有一定的實(shí)用價(jià)值。仁青東主、安見才讓的《藏文字母的信息熵》(《電子技術(shù)與軟件工程》第15期)一文,用擴(kuò)大容量的方法統(tǒng)計(jì)了藏文字母的信息熵,并用zipf定律進(jìn)行了理論上的說(shuō)明。王維蘭、盧小寶、蔡正琦、沈文韜、付吉、才科扎西的《基于部件組合的聯(lián)機(jī)手寫“藏文—梵文”樣本生成》(《中文信息學(xué)報(bào)》第5期)一文,提供了一種基于部件組合的“藏文—梵文”手寫樣本生成方法,主要包括:(1)確定“藏文—梵文”字符集和部件集;(2)獲取“藏文—梵文”字丁的部件位置信息;(3)采集聯(lián)機(jī)手寫“藏文—梵文”部件的樣本;(4)生成聯(lián)機(jī)手寫“藏文—梵文”字符集樣本庫(kù)。該文為聯(lián)機(jī)手寫“藏文—梵文”識(shí)別的研究提供字符訓(xùn)練樣本庫(kù)和測(cè)試樣本庫(kù),提高了手寫梵音藏文樣本采集效率,解決了樣本數(shù)量及多樣性問(wèn)題,降低了樣本采集成本,為進(jìn)一步聯(lián)機(jī)手寫梵音藏文識(shí)別的研究與系統(tǒng)開發(fā)奠定了基礎(chǔ)。多杰才讓、才智杰的《藏文輔音字母的動(dòng)詞構(gòu)成能力分析》(《西北民族大學(xué)學(xué)報(bào)》自然科學(xué)版第3期)一文,對(duì)藏文動(dòng)詞詞典中收錄的所有藏語(yǔ)動(dòng)詞進(jìn)行了統(tǒng)計(jì),發(fā)現(xiàn)30個(gè)藏文字母因其性(即陽(yáng)性、中性、陰性)不同,在所構(gòu)成動(dòng)詞的及物性上也出現(xiàn)明顯區(qū)別。完么扎西、尼瑪扎西的《藏文的信息熵與輸入法鍵盤設(shè)計(jì)》(《北京大學(xué)學(xué)報(bào)》自然科學(xué)版第3期)一文,在研究和分析藏文拼寫文法的基礎(chǔ)上,對(duì)計(jì)算機(jī)藏文快速輸入法鍵盤鍵位布局進(jìn)行形式化描述,推導(dǎo)計(jì)算機(jī)藏文鍵盤鍵位布局規(guī)則及方法。安見才讓、拉毛措、孫琦龍的《互聯(lián)網(wǎng)藏文信息輿情分析系統(tǒng)設(shè)計(jì)》(《微處理機(jī)》第2期)一文,介紹了研究互聯(lián)網(wǎng)藏文信息輿情分析的必要性、重點(diǎn)及難點(diǎn),詳細(xì)介紹了藏文輿情分析的關(guān)鍵技術(shù),最后說(shuō)明了藏文輿情分析系統(tǒng)的設(shè)計(jì)和實(shí)現(xiàn)框架。劉匯丹、洪錦玲、諾明花、吳健的《基于大規(guī)模網(wǎng)絡(luò)語(yǔ)料的藏文音節(jié)拼寫錯(cuò)誤統(tǒng)計(jì)與分析》(《中文信息學(xué)報(bào)》第2期)一文,針對(duì)從互聯(lián)網(wǎng)獲取的一份包含19萬(wàn)藏文網(wǎng)頁(yè),總計(jì)427萬(wàn)句、9328萬(wàn)音節(jié)字的藏文文本語(yǔ)料,按照預(yù)定的規(guī)則對(duì)其中的藏文音節(jié)拼寫錯(cuò)誤情況進(jìn)行了統(tǒng)計(jì)與分析。文章還詳細(xì)統(tǒng)計(jì)了各種不同表現(xiàn)形式的錯(cuò)誤音節(jié)所占比重,并分析了導(dǎo)致拼寫錯(cuò)誤的四個(gè)主要原因:一是輸入了多余的元音符號(hào);二是音節(jié)點(diǎn)或句尾空格缺失;三是同一字丁/字符存在多種表達(dá)形式;四是錯(cuò)誤地使用了相似字符。艾金勇的《面向信息處理的藏文文本規(guī)范化方法研究》(《西北師范大學(xué)學(xué)報(bào)》自然科學(xué)版第2期)一文,針對(duì)藏文信息處理的需求,提出了一套層次化、基于規(guī)則的藏文文本規(guī)范化處理方案。首先分析整理了藏文文本中的不規(guī)范文本類型,然后根據(jù)藏文文本中不同類型的不規(guī)范文本特征,分別設(shè)計(jì)文本規(guī)范化算法,并用程序?qū)崿F(xiàn)了藏文文本的規(guī)范化。最后對(duì)該方法進(jìn)行了實(shí)驗(yàn)測(cè)試,測(cè)試結(jié)果表明該方法能較好地實(shí)現(xiàn)藏文文本的規(guī)范化。才讓叁智、關(guān)白的《基于規(guī)則的現(xiàn)代藏文音節(jié)字檢錯(cuò)研究》(《西藏大學(xué)學(xué)報(bào)》自然科學(xué)版第1期)一文,通過(guò)分析現(xiàn)代藏文音節(jié)字,將藏文音節(jié)字分為規(guī)則音節(jié)字(遵循組件組合規(guī)則的藏文音節(jié)字)和不規(guī)則音節(jié)字(不遵循組件組合規(guī)則的音節(jié)字)兩種。對(duì)規(guī)則音節(jié)字采用了音節(jié)字組件組合規(guī)則進(jìn)行檢錯(cuò),對(duì)非規(guī)則音節(jié)字采用建立梵源藏文詞典、音譯藏文詞典和本體非規(guī)則音節(jié)字詞典進(jìn)行檢錯(cuò)。實(shí)驗(yàn)表明,文章提出的藏文音節(jié)字檢錯(cuò)方法對(duì)報(bào)紙類藏文的檢錯(cuò)率為100%。張?jiān)蒲蟮摹恫匚木W(wǎng)頁(yè)搜索關(guān)鍵技術(shù)研究》(《計(jì)算機(jī)時(shí)代》第6期)一文,通過(guò)分析藏文網(wǎng)站中藏文字符的編碼特點(diǎn),對(duì)藏文網(wǎng)頁(yè)的URL處理技術(shù)、限定爬蟲、藏文網(wǎng)頁(yè)倒排索引的建立、網(wǎng)頁(yè)的檢索和結(jié)果排序等進(jìn)行了詳細(xì)闡述,提出了較完整的藏文網(wǎng)頁(yè)搜索方法,對(duì)于藏文網(wǎng)頁(yè)信息的搜索和利用有一定的實(shí)用價(jià)值。

版權(quán)所有 中國(guó)藏學(xué)研究中心。 保留所有權(quán)利。 京ICP備06045333號(hào)-1

京公網(wǎng)安備 11010502035580號(hào)