計算語言學(漢文部分)——藏語文智能信息化專題

發(fā)布時間:2023-05-23 16:26:33 | 來源:中國藏學研究中心 | 作者: | 責任編輯:

(四)藏語文智能信息化專題

1.信息的提取

信息的提取,不僅是自然語言處理的重要環(huán)節(jié),同時信息提取也為構(gòu)建知識圖譜、問答系統(tǒng)等應用提供重要支撐。相關(guān)研究有:夏天賜、孫媛《基于聯(lián)合模型的藏文實體關(guān)系抽取方法研究》(《中文信息學報》第12期)一文,采用端到端的BiLSTM框架,提出了基于聯(lián)合模型抽取藏文實體關(guān)系的方法,實驗結(jié)果表明,該方法較傳統(tǒng)的基于藏文處理方式,如SVM算法和LR算法,準確率提高了30%~40%。

成晨、于洪志、徐濤等《基于卷積神經(jīng)網(wǎng)絡的藏文實體關(guān)系抽取模型研究》(《中國新通信》第19期)一文,采用基于卷積神經(jīng)網(wǎng)絡的藏文實體關(guān)系抽取方法,在原始詞向量的基礎上,通過關(guān)鍵詞算法獲得類別關(guān)鍵詞特征,采用分段最大池化策略,減少傳統(tǒng)最大池化策略的信息丟失。實驗表明,該方法有利于提升藏文實體關(guān)系抽取結(jié)果。朱利娟、云中華、邊巴旺堆等的《基于極坐標變換的脫機手寫藏文字符特征提取方法》(《計算機應用與軟件》第3期)一文,基于向量特征,將脫機手寫藏文字符圖像進行預處理,求出二值圖像中所有值為1的點對應的極坐標后將其進行投影變換得到投影向量。使用KNN分類器對30000個脫機手寫藏文字進行實驗,其中80%的樣本作為訓練數(shù)據(jù),20%的樣本作為測試數(shù)據(jù),識別率達到了96.32%。結(jié)果表明該方法的有效性,計算簡單并達到了較好的識別效果。

指代消解是文本理解和信息抽取的一項重要任務。夏吾吉、華卻才讓《基于混合策略的藏文人稱代詞指代消解研究》(《計算機工程與應用》第7期)一文,通過對藏文人名、人稱代詞的形態(tài)特征和構(gòu)詞規(guī)律的研究,采用基于規(guī)則、最大熵模型以及規(guī)則與最大熵模型相結(jié)合的三種方法實現(xiàn)了藏文人稱代詞的指代消解系統(tǒng)。在包含2306個待消解對的藏文句子集上,經(jīng)測試分別獲得76.02%、86.21%和88.16%的F值。

2.情感標注

情感因素對于自然語言的標注與處理很重要。相關(guān)研究有:閆曉東、黃濤《基于情感詞典的藏語文本句子情感分類》(《中文信息學報》第2期)一文提出了一種基于極性詞典的藏語文本句子情感分析方法。實驗結(jié)果表明,利用該文構(gòu)建的詞典進行的傾向性分析效果良好。孫本旺、田芳《藏文情感詞典的構(gòu)建及微博情感計算研究》(《計算機技術(shù)與發(fā)展》第11期)一文,針對國內(nèi)尚缺乏系統(tǒng)的藏文情感詞典,提出借助中文情感詞典資源自動構(gòu)建藏文情感詞典的方法,并基于構(gòu)建的藏文情感詞典對藏文微博進行情感分析研究。實驗自動構(gòu)建了藏文情感詞典,包含基礎情感詞、程度詞、否定詞、轉(zhuǎn)折詞、雙重否定詞、藏文停用詞。基于實驗構(gòu)建的藏文情感詞典,與其他藏文情感詞典相比,有效地提高了藏文微博情感傾向分類的準確率。實驗結(jié)果表明,該詞典達到了良好的實用性。張瑞《藏文在線評論情感分析研究綜述》(《智庫時代》第35期)一文,從藏文情感詞典的構(gòu)建、藏文句子情感分析和藏文篇章情感分析三個層面對藏文情感分析進行研究,發(fā)現(xiàn)基于機器學習的方法是藏文情感分析研究的主流方法,今后應加強藏文語料和情感詞典建設等基礎性工作。

3.算法與文本的分類與識別

運用不同的算法對藏語文進行分類與識別,是藏語文信息處理的重要步驟。相關(guān)研究有:群諾、賈宏云《基于Logistic回歸模型的藏文文本分類研究與實現(xiàn)》(《信息與電腦》理論版第5期)一文,基于Logistic回歸模型分類器對藏文文本進行分類,并且對Logistic算法和Gaussian NB算法進行分類性能進行了比較,結(jié)果顯示Logistic算法具有較好的分類效果。賈宏云、群諾等《基于SVM藏文文本分類的研究與實現(xiàn)》(《電子技術(shù)與軟件工程》第9期)一文,利用SVM(支持向量機)技術(shù)藏文文本進行分類,包括文本向量空間模型化,獲取SVM中核函數(shù)的參數(shù)并進行常用核函數(shù)分類性能對比,最后與Logistic回歸分類器進行同等條件下的實驗對比,驗證了支持向量機模型在藏文文本分類中具有良好的分類效果。才藏太、索南才讓、才讓加《面向語言信息處理的藏語短語及其分類方法研究》(《中文信息學報》第9期)一文,根據(jù)藏語信息處理的特點和要求,在藏語短語與句子界線研究的基礎上,按照語法功能和便于計算機自動分析和處理的原則對短語進行分類,并規(guī)定了信息處理中藏語短語類別單位的標記代碼。

拉毛措《基于正則表達式的藏文屬格的識別及其檢錯算法研究》(《電子技術(shù)與軟件工程》第9期)一文,結(jié)合傳統(tǒng)的格助詞添接規(guī)則和正則表達式對屬格助詞進行了識別和檢錯的算法研究,提出了藏文屬格助詞的識別算法,在此基礎上提出了基于正則表達式和消歧知識庫的屬格助詞自動檢錯算法。周雁、西繞多吉《面向藏語聲紋識別的語料庫建設》(《計算機工程與科學》第11期)一文結(jié)合藏語特點設計了一個面向藏語聲紋識別的語料庫。語料庫的文本語料來自新聞報刊、文學類、教育類、科技類、佛學類、歷史類和傳統(tǒng)文化五明類等文獻資料,該研究為藏語的聲紋識別研究奠定了一定的基礎。王德欣、卓嘎、張瑞《基于LBG的藏語字母識別算法研究》(《電子技術(shù)與軟件工程》第20期)一文,使用MATLABR2014a進行算法的仿真,采用VQ的技術(shù)中LBG來實現(xiàn)對藏文字母的識別。此算法對藏語30個字母的語音進行了語音預處理和端點檢測,并提取了MFCC特征參數(shù),該研究為今后藏語語音的識別有一定的借鑒作用。

文獻的圖像處理是近年來藏語文信息化的一個節(jié)點。相關(guān)研究有:劉芳、張云洋等《基于像素鄰域點信息的藏文圖像細化算法研究》(《計算機技術(shù)與發(fā)展》第4期)一文,根據(jù)首先對藏文數(shù)字圖像利用局部自適應方法進行二值化處理,再采用濾波處理噪聲方法進行去噪處理,通過對某個像素點的八個鄰域點的連接情況,在對照矩陣中查找對應矩陣項的值判斷該點是否能刪除,該算法在藏文字符數(shù)字圖像細化實驗中效果良好,正確率高,實用性強。張西群、馬龍龍等《基于卷積降噪自編碼器的藏文歷史文獻版面分析方法》(《中文信息學報》第7期)一文,利用卷積降噪自編碼器提取超像素塊的特征;使用SVM分類器對藏文歷史文獻的超像素塊進行分類預測,提取出藏文歷史文獻版面的各個部分。實驗表明,該方法能夠?qū)Σ匚臍v史文獻的不同版面元素進行有效的分離。

珠杰、仁青諾布等《論元角色的藏語語義角色標注研究》(《高原科學研究》第3期)一文探討了藏語語義角色標注問題,一是按照PropBank標注規(guī)范對藏語簡單句進行了語義角色標注;二是依據(jù)藏語動詞的語義類別,研究了藏文語義角色框架文件建設的可行性;三是結(jié)合藏語動詞分析理論和格語法理論,在PropBank標記基礎上研究了藏語特殊語義角色標記規(guī)范和標記方式。頭旦才讓、尼瑪扎西、完么扎西《藏語依存樹庫的構(gòu)建技術(shù)研究》(《高原科學研究》第3期)一文,建立了規(guī)模為1萬句、詞語總數(shù)為119510個、平均句長為12個詞的藏語依存樹庫,并對建立的藏語依存樹庫進行了詞類分布統(tǒng)計,該研究為藏語依存樹庫的構(gòu)建提供了思路。

洛松求培、安見才讓《藏文網(wǎng)頁主題爬蟲系統(tǒng)的實現(xiàn)》(《電子技術(shù)與軟件工程》第10期)一文,將貝葉斯分類算法用于網(wǎng)頁文檔分類,通過樣本集本訓練出教育、政治、宗教三類主題分類器,再與爬蟲技術(shù)結(jié)合從互聯(lián)網(wǎng)上采集與主題相似的網(wǎng)頁集合,從而滿足了用戶的個性化需求,提升了信息檢索的效率。

4.藏語文信息化建設及文獻回溯

藏語文信息化研究以及發(fā)展歷程梳理,對于藏語文信息化建設具有指導意義。相關(guān)研究有:頭旦才讓、尼瑪扎西《改革開放以來西藏藏文信息化發(fā)展綜述》(《西藏研究》第5期)一文,回顧了西藏藏文信息化發(fā)展的歷程和取得的重要成就,指出并預測今后西藏藏文信息化的發(fā)展策略與路徑。高定國《藏文信息處理研究進展》(《廣西科學院學報》第1期)一文,簡要回顧了藏文信息處理中字、詞、句、段、篇的特點、處理方法及取得的典型成果,藏語資源建設和應用研究取得的成果,并對藏文信息處理未來的發(fā)展方向進行展望。李玖一、于洪志、徐濤《藏文文本聚類及其相關(guān)技術(shù)綜述》(《廣西科學院學報》第1期)一文,介紹了藏文文本聚類的應用背景和相關(guān)概念、藏文文本特點和藏文文本聚類的相關(guān)技術(shù),討論了藏文文本建模和聚類算法,并對藏文聚類發(fā)展和應用進行了總結(jié)和展望。尕瑪草《論新時代藏文信息技術(shù)的應用與發(fā)展》(《電腦迷》第9期)一文,主要對目前國內(nèi)藏文信息技術(shù)的應用與發(fā)展狀況進行了介紹和評價,并在此基礎上探討加強藏文信息技術(shù)的應用,進而有效推動藏文信息技術(shù)的發(fā)展,并對進一步加速制定藏文信息標準化提出了自己的見解。

此外,扎西當知、多拉等《從六百余篇藏文學術(shù)論文看藏學研究40年——以詞匯計量為視角》(《中國藏學》第4期)一文,梳理了國內(nèi)25種藏文學術(shù)期刊的642篇藏文學術(shù)論文,建立語料庫,進行分詞、詞性標記,并通過統(tǒng)計文獻信息、音節(jié)、詞匯等方法,對藏文學術(shù)文章的外部信息和詞匯、音節(jié)等內(nèi)容信息進行計量研究,從而觀察40年來國內(nèi)藏文學術(shù)研究的發(fā)展脈絡、主要研究領域及其發(fā)展趨勢。肖維霖《基于文獻計量的藏語自然語言處理研究分析》(《青藏高原論壇》第1期)一文,以中國知網(wǎng)為數(shù)據(jù)源,分析了所有與藏語自然語言處理相關(guān)的文章,用文獻計量學的方法從論文數(shù)量規(guī)律、機構(gòu)發(fā)展、主題研等,介紹了我國在藏語自然語言處理方面的研究發(fā)展情況。

版權(quán)所有 中國藏學研究中心。 保留所有權(quán)利。 京ICP備06045333號-1

京公網(wǎng)安備 11010502035580號