計(jì)算語言學(xué)(漢文部分)——分詞、標(biāo)注與識別

發(fā)布時(shí)間:2023-05-23 16:22:27 | 來源:中國藏學(xué)研究中心 | 作者: | 責(zé)任編輯:

二、計(jì)算語言學(xué)

計(jì)算語言學(xué)是涉及語言學(xué)、計(jì)算機(jī)科學(xué)和自然語言處理、語言信息化建設(shè)等多門學(xué)科的綜合性交叉學(xué)科,藏語計(jì)算語言學(xué)主要涉及藏語計(jì)算處理理論,詞法、句法和語義階段重要的分析算法及語料庫的設(shè)計(jì)與實(shí)踐,運(yùn)用不同算法對語料進(jìn)行標(biāo)注,分詞是計(jì)算語言學(xué)關(guān)注的重點(diǎn),也是藏文信息化建設(shè)的關(guān)鍵。本文根據(jù)研究的不同側(cè)重將相關(guān)研究成果作一簡單分類,鑒于研究內(nèi)容有很多屬交集,若有分類不合適的還望專家多提寶貴意見。

(一)分詞、標(biāo)注與識別

藏文分詞、標(biāo)注和識別是進(jìn)行各類藏文自然語言處理的基礎(chǔ),藏文分詞的結(jié)果直接影響其他自然語言處理任務(wù)的性能。桑杰端珠、才讓加《神經(jīng)網(wǎng)絡(luò)藏文分詞方法研究》(《青海科技》第6期)一文,通過對CNN、BiLSTM、和CRF三種網(wǎng)絡(luò)的有效組合,提出一種藏文分詞的神經(jīng)網(wǎng)絡(luò)構(gòu)架,使分詞模型在測試數(shù)據(jù)集上的準(zhǔn)確率、召回率和F1值分別達(dá)到了93.4%、94.2%和94.1%,超越了各類基準(zhǔn)模型的表現(xiàn)。道吉仁青、安見才讓《藏文終結(jié)詞與離合詞的識別算法研究》(《信息通信》第4期)一文,用正則表達(dá)式識別藏語終結(jié)詞與離合詞,提出了一種計(jì)算機(jī)識別藏文終結(jié)詞與離合詞的算法,并用18232個(gè)句子(包含241272個(gè)藏文字)進(jìn)行了實(shí)驗(yàn),通過實(shí)驗(yàn)得出藏文終結(jié)詞識別準(zhǔn)確率達(dá)99.89%,離合詞識別準(zhǔn)確率達(dá)90.18%。色差甲、貢保才讓、才讓加《基于最大和HMM的藏文新詞識別對比研究》(《青海師范大學(xué)學(xué)報(bào)》自然科學(xué)版第1期)一文,首先使用序列標(biāo)注方法來識別藏文新詞,對多種題材共15萬藏文句子進(jìn)行統(tǒng)計(jì)建模,最后對3087句(其中包含12348個(gè)新詞)開放語料進(jìn)行測試,實(shí)驗(yàn)結(jié)果表明將規(guī)則嵌入到最大熵模型比嵌入到HMM模型中的正確率、召回率都高。張日培、姜占才《基于特征的藏文音節(jié)識別算法》(《電子設(shè)計(jì)工程》第20期)一文,以音節(jié)為基元,選擇并提取音節(jié)中由字符列投影變換組成的特征向量,以此建立音節(jié)特征庫;通過查表算法對藏文音節(jié)進(jìn)行識別。通過理論分析和算法測試實(shí)驗(yàn)證明:提取的特征向量與藏文音節(jié)一一對應(yīng),藏文音節(jié)識別率達(dá)到100%,且特征的提取過程簡便易行。該算法已經(jīng)成功應(yīng)用于藏文的文語轉(zhuǎn)換系統(tǒng)。

扎西拉旦、安見才讓《藏文字結(jié)構(gòu)自動識別與形式化描述研究》(《中國信息化》第3期),一文通過研究藏文的構(gòu)件規(guī)則,結(jié)構(gòu)特征,提出了藏文組合規(guī)則和藏文字語法分析相結(jié)合的藏文字自動分解算法,進(jìn)而對藏文字的字母組合進(jìn)行分段處理,簡化藏文字構(gòu)件復(fù)雜度,研究出各分段部分的藏文字的構(gòu)件規(guī)則,并且按照規(guī)則進(jìn)行藏文字?jǐn)?shù)的統(tǒng)計(jì)。實(shí)驗(yàn)表明,系統(tǒng)能有效地自動識別現(xiàn)代藏文。

洛桑嘎登、仁增多杰《基于知識反饋的藏文詞性標(biāo)注研究》(《計(jì)算機(jī)時(shí)代》第7期)一文指出,提出的基于知識反饋的藏文詞性標(biāo)注方法可以顯著提高詞性標(biāo)注效果,準(zhǔn)確率達(dá)到98.75%,該研究已基本滿足日常實(shí)際使用。夏吾吉、華卻才讓《基于有限狀態(tài)自動機(jī)阿拉伯?dāng)?shù)字與藏文數(shù)詞自動翻譯》(《計(jì)算機(jī)工程與科學(xué)》第3期)一文,分析并規(guī)定了阿拉伯?dāng)?shù)字和藏文數(shù)詞的結(jié)構(gòu)成分,分析藏文數(shù)詞的構(gòu)詞規(guī)律,采用最大匹配的原則實(shí)現(xiàn)了翻譯復(fù)雜數(shù)詞自動翻譯系統(tǒng)。實(shí)驗(yàn)F值達(dá)到了98.02%。

版權(quán)所有 中國藏學(xué)研究中心。 保留所有權(quán)利。 京ICP備06045333號-1

京公網(wǎng)安備 11010502035580號