計算語言學(xué)(漢文部分)

發(fā)布時間:2021-11-19 18:02:38 | 來源: | 作者: | 責(zé)任編輯:

應(yīng)用軟件開發(fā)和文本信息處理是近幾年藏語計算語言學(xué)處理的核心研究領(lǐng)域,文本處理包括文本知識自動發(fā)現(xiàn)、自動分類、知識抽取、校對、檢索等內(nèi)容。2014年度,涉及藏語計算語言學(xué)的研究成果比較多,有50多篇,下面按研究內(nèi)容大致分類介紹。

(一)關(guān)于信息化建設(shè)的討論以及相關(guān)數(shù)據(jù)庫的建設(shè)

相關(guān)的研究成果有:德薩的《藏文數(shù)字圖書館研究綜述》(《西藏科技》第4期),《論藏文文獻數(shù)據(jù)庫建設(shè)實證調(diào)查研究的必要性:兼談價值及其意義》(《西藏科技》第9期),何明華的《當(dāng)代藏文信息處理的現(xiàn)狀與展望》(《科技資訊》第23期),萬福成、李冬晨、何向真等的《面向信息檢索的藏文文本索引策略研究》(《計算機工程與應(yīng)用》第7期)等。

德薩的《藏文數(shù)字圖書館研究綜述》一文,概述了2005—2013年國內(nèi)藏文數(shù)字圖書館研究的進展及熱點,從藏文數(shù)字圖書館的概念、特點及各種技術(shù)在藏文數(shù)字圖書館中的應(yīng)用、元數(shù)據(jù)研究成果,揭示了藏文數(shù)字圖書館的研究現(xiàn)狀、研究重點和研究方向。在《論藏文文獻數(shù)據(jù)庫建設(shè)實證調(diào)查研究的必要性:兼談價值及其意義》一文中,德薩對國內(nèi)外藏文文獻數(shù)據(jù)庫建設(shè)的理論與實踐研究現(xiàn)狀進行概括性述評,闡述了藏文文獻數(shù)據(jù)庫建設(shè)實證調(diào)查研究的必要性及其價值與意義,以期為藏文文獻數(shù)據(jù)庫的建設(shè)與研究者提供參考。何明華的《當(dāng)代藏文信息處理的現(xiàn)狀與展望》一文,立足于藏文信息處理現(xiàn)狀,結(jié)合藏文發(fā)展狀況對藏文信息處理從技術(shù)層面和文化傳承方面進行了分析。萬福成、李冬晨、何向真等的《面向信息檢索的藏文文本索引策略研究》,認為互聯(lián)網(wǎng)文本數(shù)量持續(xù)爆炸式增長,用戶通過互聯(lián)網(wǎng)查找信息變得更加困難,響應(yīng)時間得不到滿足。針對藏文本身的語言學(xué)特點,探討一種面向信息搜索的藏文文本索引建立策略,建立一種高效的藏文文本索引,以提高藏文信息檢索速度。

(二)藏語文詞性標注、識別、分詞是藏語文信息處理的基礎(chǔ),也是計算語言學(xué)關(guān)注的焦點

標注是分詞和識別的基礎(chǔ)。涉及標注的代表性研究有:龍從軍、康才畯、李琳等的《基于多策略的藏語語義角色標注研究》(《中文信息學(xué)報》第5期),完么扎西的《藏語詞語兼類情況及識別規(guī)則庫》[《西藏大學(xué)學(xué)報》(自然科學(xué)版)第2期],安見才讓、陳烈多杰的《藏語虛詞ng的詞性標注的研究》[《信息與電腦》(理論版)第8期],祁坤鈺的《基于依存關(guān)系的藏文語義角色標注研究》(《西北民族大學(xué)學(xué)報》第1期),華卻才讓、劉群、趙海興的《判別式藏語文本詞性標注研究》(《中文信息學(xué)報》第2期)等。

龍從軍、康才畯、李琳等在《基于多策略的藏語語義角色標注研究》一文中指出,語義角色標注研究對自然語言處理具有十分重要的意義,提出規(guī)則和統(tǒng)計相結(jié)合的、基于語義組塊的語義角色標注策略。為了實現(xiàn)語義角色標注,首先對藏語語義角色進行分類,得到語義角色標注的分類體系,然后討論標注規(guī)則的獲得情況,包括手工編制初始規(guī)則集和采用錯誤驅(qū)動學(xué)習(xí)方法獲得擴充規(guī)則集;統(tǒng)計技術(shù)上,選用了條件隨機場模型,并添加了有效的語言特征,最終語義角色標注的結(jié)果準確率、召回率和F值分別達到8278%、8571%和8391%。完么扎西在《藏語詞語兼類情況及識別規(guī)則庫》一文中指出,對兼類詞的處理是藏語詞性標注的關(guān)鍵所在。文章利用傳統(tǒng)和現(xiàn)代藏語語法理論,在分析藏語真實文本的基礎(chǔ)上,歸納了藏語兼類詞的種類,提出了兼類詞的標注原則。并根據(jù)詞語搭配關(guān)系和詞的組合結(jié)構(gòu)構(gòu)建了兼類詞的識別規(guī)則庫,利用該規(guī)則庫可對兼類詞的詞性進行較準確的標注。祁坤鈺的《基于依存關(guān)系的藏文語義角色標注研究》一文指出,語義角色標注已成為中文信息處理研究的熱點問題,并廣泛應(yīng)用在問答系統(tǒng)、信息抽取、機器翻譯等領(lǐng)域。在多年來藏文分詞標注研究和語料庫建設(shè)的基礎(chǔ)上,分析了傳統(tǒng)藏文文法中的邏輯格,以及接續(xù)特征的語義映射關(guān)系,參考FrameNet、PropBank和北大中文網(wǎng)庫等資源庫制定了藏文語義角色標注體系,提出了建立高質(zhì)量的藏語句法樹庫TTB(Tibetan TreeBank)、語義角色標注庫TPB(Tibetan PropBank)和藏語動詞語義框架庫TVN(Tibetan VerbNet)等知識庫的方案;運用依存句法分析方法建立了句法分析模型;結(jié)合藏文句法結(jié)構(gòu)特征和語言習(xí)慣,挖掘藏文句法結(jié)構(gòu)屬性,闡明了藏語語義角色標注的理論和原理。華卻才讓、劉群、趙海興的《判別式藏語文本詞性標注研究》一文在分析了現(xiàn)有藏文詞性標注方法的基礎(chǔ)上,提出感知機訓(xùn)練模型的判別式藏語詞性標注方法,重點研究了符合藏語詞法特性的模型訓(xùn)練特征模板、模型訓(xùn)練和詞性標注方法。并且在人工標注的測試集上獲得了9826%的詞性標注精確率。

(三)各類識別、分詞

涉及各類識別研究的成果主要有:加羊吉、李亞超、宗成慶等的《最大熵和條件隨機場模型相融合的藏文人名識別》(《中文信息學(xué)報》第1期),王天航、史樹敏、龍從軍等的《基于錯誤驅(qū)動學(xué)習(xí)策略的藏語句法功能組塊邊界識別》(《中文信息學(xué)報》第5期),當(dāng)增卓瑪?shù)摹恫匚奈谋局懈裰~的識別研究》(《網(wǎng)絡(luò)安全技術(shù)與應(yīng)用》第1期),完么才讓、曹玉林的《藏語及物與不及物動詞的自動識別研究》[《西南民族大學(xué)學(xué)報》(自然科學(xué)版)第1期],華卻才讓、姜文斌、趙海興等的《基于感知機模型藏文命名實體識別》(《計算機工程與應(yīng)用》第15期)等,康才畯、龍從軍、江荻的《基于詞位的藏文黏寫形式的切分》(《計算機工程與應(yīng)用》第11期),高定國、扎西加、趙棟材的《計算機識別藏語虛詞的方法研究》(《中文信息學(xué)報》第1期)等。

加羊吉、李亞超、宗成慶等在《最大熵和條件隨機場模型相融合的藏文人名識別》一文中,分析了藏文人名構(gòu)成規(guī)律和特點,提出了一種最大熵和條件隨機場相融合的藏文人名識別方法。王天航、史樹敏、龍從軍等在《基于錯誤驅(qū)動學(xué)習(xí)策略的藏語句法功能組塊邊界識別》一文中,指出藏語句法功能組塊分析旨在識別出藏語句子的句法成分,為后續(xù)句子級深入分析提供支持。首先基于條件隨機場(ConditionalRandomFields,CRFs)識別組塊,然后分別基于轉(zhuǎn)換規(guī)則的錯誤驅(qū)動學(xué)習(xí)(TransformationbasedErrordrivenLearning,TBL)及基于新特征模板的CRFs錯誤驅(qū)動學(xué)習(xí)進行二次識別,并對初次結(jié)果進行校正,F(xiàn)值分別提高了165%、836%。最后通過實驗分析,進一步將兩種錯誤驅(qū)動學(xué)習(xí)機制融合,在18073詞級的藏語語料上開展實驗,識別性能進一步提高,準確率、召回率與F值分別達到941%、9476%與9443%。當(dāng)增卓瑪在《藏文文本中格助詞的識別研究》一文中通過研究藏文格的用法,建設(shè)藏文八格的知識庫和藏文八格的算法及識別研究。完么才讓、曹玉林在《藏語及物與不及物動詞的自動識別研究》一文,通過句子中的使格助詞來自動判斷動詞及物性的方法,這種自動識別方法是一種理性主義的判斷方法,所以不需要大規(guī)模語料的支持。華卻才讓、姜文斌、趙海興等的《基于感知機模型藏文命名實體識別》一文,通過對命名實體構(gòu)詞規(guī)律及分詞歧義進行分析,提出基于音節(jié)特征感知機訓(xùn)練模型的藏文命名實體識別方案??挡女?、龍從軍、江荻的《基于詞位的藏文黏寫形式的切分》一文,根據(jù)藏文自身的特點,將常用的四詞位擴充為六詞位,再利用條件隨機場模型作為標注建模工具來進行訓(xùn)練和測試,并根據(jù)規(guī)則對識別結(jié)果進行后處理。卓瑪吉、安見才讓的《藏文不自由虛詞的自動識別研究》一文,主要研究藏文文本中大量藏文不自由虛詞的識別算法,同時建立了藏文不自由虛詞的消歧規(guī)則庫,使計算機快速地識別并消除藏文句子中不自由虛詞的歧義問題,提高藏文自動分詞的準確率。高定國、扎西加、趙棟材的《計算機識別藏語虛詞的方法研究》一文,認為藏文虛詞的研究是藏文信息處理技術(shù)中詞、句及語義研究的基礎(chǔ),而計算機自動識別藏文虛詞又是藏語虛詞研究的前提。該文在論述藏語虛詞在藏語文本中的作用和使用方法的基礎(chǔ)上,分析了計算機識別藏語虛詞的難度,提出了一個計算機識別藏語虛詞的方法,并用2525句典型藏文句子進行了驗證,虛詞識別的正確率高達970768%。

涉及分詞的研究成果主要有:孫萌、華卻才讓、才智杰等的《基于判別式分類和重排序技術(shù)的藏文分詞》(《中文信息學(xué)報》第2期),艾金勇、陳小瑩、華侃等的《面向Web的藏文文本分詞策略研究》(《圖書館學(xué)研究》第21期),完么扎西、尼瑪扎西《藏語自動分詞中的幾個關(guān)鍵問題的研究》(《中文信息學(xué)報》第4期),黃鶴鳴、達飛鵬、韓曉旭的《基于小波變換和梯度方向的脫機手寫藏文字符特征提取方法》[《東南大學(xué)學(xué)報》(英文版)第1期]等。

孫萌、華卻才讓、才智杰等的《基于判別式分類和重排序技術(shù)的藏文分詞》一文,提出一種基于判別式模型的藏文分詞方法,重點研究最小構(gòu)詞粒度和分詞結(jié)果重排序?qū)Σ匚姆衷~效果的影響。在構(gòu)詞粒度方面,分別考察了以基本字丁、基本字丁—音節(jié)點、音節(jié)為最小構(gòu)詞粒度對分詞效果的影響,在分詞結(jié)果重排序方面,提出一種基于詞圖的最短路徑重排序策略,將判別式解碼生成的切分結(jié)果壓縮為加權(quán)有向圖,圖中節(jié)點表示音節(jié)間隔,而邊所覆蓋的音節(jié)作為候選切分并賦予不同權(quán)重,選擇一條最短路徑從而實現(xiàn)整句切分。艾金勇、陳小瑩、華侃等的《面向Web的藏文文本分詞策略研究》一文,對比參照其他藏文分詞系統(tǒng)的優(yōu)缺點并借鑒漢語分詞系統(tǒng)的一些好的方法,設(shè)計開發(fā)了一個面向藏文網(wǎng)頁的自動分詞系統(tǒng)。項煒、金澎的《基于詞頻學(xué)習(xí)和動態(tài)詞頻更新的藏文自動分詞系統(tǒng)設(shè)計》一文,針對藏文自動分詞中的重點難點,設(shè)計了一個新的藏文自動分詞系統(tǒng),該系統(tǒng)采用動態(tài)詞頻更新和基于上下文詞頻的歧義處理和未登錄詞識別技術(shù),在歧義字段分詞準確性、未登錄詞識別率和分詞速度上,系統(tǒng)具有較優(yōu)的性能。完么扎西、尼瑪扎西的《藏語自動分詞中的幾個關(guān)鍵問題的研究》一文,通過分析藏文構(gòu)詞規(guī)則、句法結(jié)構(gòu)、詞的前后詞性關(guān)系、后加字的添接法和格助詞的用法等重點研究了未登錄詞、緊縮詞和交集型歧義的識別及處理方法,并提出了“重組法”“排除—還原法”和“詞性規(guī)則法”三種方法。

(四)算法與識別

相關(guān)的研究成果主要有:康健、喬少杰、格桑多杰等的《基于群體智能的半結(jié)構(gòu)化藏文文本聚類算法》(《模式識別與人工智能》第7期),才項俄日、安見才讓的《藏文屬格助詞的識別算法》[《信息與電腦》(理論版)第8期],珠杰、李天瑞、劉勝久的《藏文文本自動校對方法及系統(tǒng)設(shè)計》[《北京大學(xué)學(xué)報》(自然科學(xué)版)第1期],邊巴旺堆、卓嘎、陳延利等的《藏文構(gòu)件元素識別算法研究》(《中文信息學(xué)報》第3期),邊巴旺堆、卓嘎、陳延利等的《藏文構(gòu)件元素識別算法研究》(《中文信息學(xué)報》第3期),曹暉、孟祥和的《基于藏文新聞文本話題檢測的聚類算法研究》[《華中師范大學(xué)學(xué)報》(自然科學(xué)版)第1期],珠杰、李天瑞、劉勝久的《TSRM藏文拼寫檢查算法》(《中文信息學(xué)報》第3期),徐濤、于洪志、加羊吉的《基于改進卡方統(tǒng)計量的藏文文本表示方法》(《計算機工程》第6期),春燕的《基于藏文音節(jié)特征的模式匹配算法的研究》(《計算機光盤軟件與應(yīng)用》第15期),劉偉光、郭小丹、孔繁秀的《一種基于改進向量空間模型的藏文主題網(wǎng)頁采集方法》(《圖書館學(xué)研究》第16期),梁會方、黃鶴鳴、楊峰的《漢文專有名詞藏文音譯的研究與實現(xiàn)》(《計算機技術(shù)與發(fā)展》第12期)等。

康健、喬少杰、格桑多杰等的《基于群體智能的半結(jié)構(gòu)化藏文文本聚類算法》一文,將群體智能技術(shù)應(yīng)用于半結(jié)構(gòu)化的藏文Web文本聚類,提出基于群體智能的半結(jié)構(gòu)化藏文Web文本聚類算法(SCAST),充分考慮群體智能技術(shù)對藏文文本聚類準確性和時間效率的影響。SCAST算法首先運用向量空間模型表示藏文文本信息,將藏文文本按其相似性聚集在一起,得到最終聚類結(jié)果。才項俄日、安見才讓的《藏文屬格助詞的識別算法》一文,將藏文屬格助詞作為查找目標,結(jié)合藏文屬格助詞添接規(guī)則、屬格助詞前詞與詞庫進行比較,提出了一種有效的屬格助詞識別算法,進一步提高藏文信息處理技術(shù)中藏文自動分詞的準確率。珠杰、李天瑞、劉勝久的《藏文文本自動校對方法及系統(tǒng)設(shè)計》,以藏文音節(jié)拼寫檢查、梵音轉(zhuǎn)寫藏文檢查、接續(xù)關(guān)系檢查、詞語檢查為研究內(nèi)容,提出藏文文本自動校對框架和接續(xù)關(guān)系檢查算法。根據(jù)該框架及算法,設(shè)計并實現(xiàn)藏文自動校對系統(tǒng),通過實驗證明算法和系統(tǒng)的可靠性和有效性。邊巴旺堆、卓嘎、陳延利等的《藏文構(gòu)件元素識別算法研究》一文,指出要實現(xiàn)藏文排序算法,必須解決組成藏文音節(jié)的構(gòu)件元素識別,然后由構(gòu)件元素的優(yōu)先級進行排序。文章通過對藏文的文字結(jié)構(gòu)、書寫規(guī)律,以及文法規(guī)則的研究,設(shè)計了符合現(xiàn)代藏文的構(gòu)件元素識別算法。曹暉、孟祥和的《基于藏文新聞文本話題檢測的聚類算法研究》一文,提出一種聚類算法,首先改進了文本順序?qū)垲惤Y(jié)果產(chǎn)生的影響,其次通過確定種子話題,來確定話題的類別。本研究的聚類算法在較小規(guī)模的語料中比改進前源算法有一定程度的提高。珠杰、李天瑞、劉勝久的《TSRM藏文拼寫檢查算法》一文,以藏文語音特性建立的字組織法為依據(jù),以藏文音節(jié)規(guī)則為模型,提出了藏文音節(jié)規(guī)則模型(TSRM)的藏文音節(jié)拼寫檢查算法,并通過兩組實驗驗證了算法的有效性。徐濤、于洪志、加羊吉的《基于改進卡方統(tǒng)計量的藏文文本表示方法》一文,認為傳統(tǒng)的藏文文本表示方法較少考慮特征項之間的關(guān)聯(lián)度,容易造成語義損失。結(jié)合向量空間模型,提取文本中詞頻統(tǒng)計TF-IDF值較高的部分詞項作為對比詞項,對藏文文本進行斷句處理,以每個句子作為一個語境主題,利用卡方統(tǒng)計量計算文本中詞項與對比詞項的關(guān)聯(lián)程度。春燕的《基于藏文音節(jié)特征的模式匹配算法的研究》一文指出,近年來針對網(wǎng)絡(luò)中藏文輿情的研究已在相關(guān)研究機構(gòu)進行。模式匹配問題是計算機科學(xué)中的一個基本問題,在藏文輿情、網(wǎng)絡(luò)入侵檢測等應(yīng)用中起著重要的作用。針對藏文字本身特性的字符匹配算法在相關(guān)文獻并沒有給出相應(yīng)的解決辦法,而是直接采用了中文或英文的模式匹配算法作為研究的基礎(chǔ)。認為給出一個合理有效的藏文字符串的模式匹配算法,能有效地提高藏文字符的匹配效率。劉偉光、郭小丹、孔繁秀的《一種基于改進向量空間模型的藏文主題網(wǎng)頁采集方法》一文,設(shè)計了一種基于改進向量空間模型的藏文主題網(wǎng)頁采集算法。梁會方、黃鶴鳴、楊峰的《漢文專有名詞藏文音譯的研究與實現(xiàn)》一文,在漢藏音譯規(guī)則的制定的基礎(chǔ)上,對于存在的約定俗成譯法詞組優(yōu)先處理,以及漢文的多音字結(jié)合了統(tǒng)計的多音字語料詞組,提高音譯系統(tǒng)的性能,以及其音譯的準確性。該算法實現(xiàn)簡單,準確率高。

標注、算法、識別、分類等之間是相互關(guān)聯(lián)的。不能將彼此截然分開。此外,相關(guān)的研究還有:仁青諾布、蘇亞超、孫亞東的《基于最大熵模型的藏文不良文本識別系統(tǒng)的設(shè)計和實現(xiàn)》(《西藏科技》第3期)一文,該文通過實驗實現(xiàn)了最大熵算法進行藏文文本分類功能,用最大熵算法進行藏文不良文本識別效果比較明顯。武強、邊巴旺堆的《信息檢索系統(tǒng)中藏文自動提示的研究與實現(xiàn)》(《電腦知識與技術(shù)》第19期)一文,認為在當(dāng)今信息社會,信息檢索已經(jīng)成為人們?nèi)粘9ぷ鞯囊徊糠帧T撐闹饕接懥瞬匚牡臉?gòu)成、編碼、分詞及藏文相關(guān)提示詞的實現(xiàn)原理及方法,對具有重要影響的藏文分詞和排序進行了深入的分析,實現(xiàn)了在信息檢索系統(tǒng)中基于權(quán)重的藏文自動提示功能。通過測試分析,該功能能較好地分辨藏文和依據(jù)權(quán)重對藏文進行相關(guān)詞提示。才華的《藏文組字部件的自動識別與字排序研究》[《西藏大學(xué)學(xué)報》(自然科學(xué)版)第2期]一文,認為藏文字有著獨特的構(gòu)字規(guī)則,組字部件的自動識別在藏文字、詞、句層面的信息化處理有重要的應(yīng)用。文章把現(xiàn)代藏文字按其第一個部件字符的不同分成5種結(jié)構(gòu)類型,每一種類型又按其字長分為若干個子類,在每個子類中定義各字的部件識別算法,最后在藏文組字部件識別的基礎(chǔ)上,給每個部件賦予序值,實現(xiàn)藏文字的有效排序。

(五)軟件開發(fā)與應(yīng)用

在過去的一年,涉及軟件開發(fā)與應(yīng)用的研究成果主要有:看不太、安見才讓的《藏文學(xué)術(shù)論文復(fù)制檢測技術(shù)研究》[《信息與電腦》(理論版)第8期],柔特的《基于WordNet的藏文語義詞典半自動構(gòu)建方法研究》[《西藏大學(xué)學(xué)報》(自然科學(xué)版)第1期],江濤、江靜、戴玉剛等的《藏文輿情云分析系統(tǒng)平臺研究》(《信息網(wǎng)絡(luò)安全》第9期),高紅梅、拉巴頓珠、嘎瑪平措等的《基于Flash的藏文詞語學(xué)習(xí)軟件設(shè)計》(《西藏科技》第4期),陳小瑩、艾金勇、郭小丹《藏文拉丁轉(zhuǎn)寫的設(shè)計與實現(xiàn)》(《科技信息》第11期),白瑪玉珍的《幾種藏文字特征提取方法比較研究》[《信息與電腦》(理論版)第4期],俄果措、安見才讓的《藏文單音節(jié)動詞時式的形態(tài)變化研究》[《信息與電腦》(理論版)第9期],高定國、郭鑫的《TSF藏文輸入法的設(shè)計與實現(xiàn)》[《西藏大學(xué)學(xué)報》(自然科學(xué)版)第2期],白瑪拉姆、張旋的《基于物聯(lián)網(wǎng)的藏文二維碼的研究與實現(xiàn)》(《西藏科技》第2期),張繼偉的《基于Android系統(tǒng)智能終端的藏文輸入法分析與實現(xiàn)》(《信息安全與技術(shù)》第4期),張云洋、劉芳的《基于Unicode的藏文網(wǎng)頁搜索探討》(《科技情報開發(fā)與經(jīng)濟》第11期),項毛措、張有誼的《Word 2007中藏文排序的研究》(《商》第5期),扎西加、多拉的《基于FUG的藏語句法形式化描述》(《中文信息學(xué)報》第3期),達召卡什吉的《現(xiàn)代藏語常用名詞的內(nèi)部結(jié)構(gòu)特征分析》(《安多研究》第11輯,甘肅民族出版社)等。

看不太、安見才讓的《藏文學(xué)術(shù)論文復(fù)制檢測技術(shù)研究》一文,在分析藏文論文整體結(jié)構(gòu)的基礎(chǔ)上結(jié)合或改進現(xiàn)有的復(fù)制檢測方法并提出某種符合藏文文法的新的藏文學(xué)術(shù)論文復(fù)制檢測算法,實現(xiàn)用于藏文學(xué)術(shù)論文對他人的隱式抄襲、部分抄襲和完全抄襲等抄襲現(xiàn)象的初步檢測。柔特的《基于WordNet的藏文語義詞典半自動構(gòu)建方法研究》一文,在藏語獨特的文法理論研究基礎(chǔ)上,利用對比英文和藏文詞之間的語義關(guān)系、構(gòu)建雙語大型數(shù)據(jù)庫和制定映射過程中詞匯空缺等方法,構(gòu)建了基于半自動匹配的藏文語義詞典,為藏文信息處理提供了重要的數(shù)據(jù)資源。江濤、江靜、戴玉剛等的《藏文輿情云分析系統(tǒng)平臺研究》一文,介紹了藏文輿情云分析平臺的系統(tǒng)框架和核心模塊,及其模塊運行。高紅梅、拉巴頓珠、嘎瑪平措等的《基于Flash的藏文詞語學(xué)習(xí)軟件設(shè)計》一文,選用藏語詞典作素材,基于Flash設(shè)計了一款藏文詞語學(xué)習(xí)軟件,通過通關(guān)形式增強學(xué)習(xí)的趣味性,同時對詞組輔以圖片演示、讀音配音和講解,真正起到輔助教學(xué)的作用。陳小瑩、艾金勇、郭小丹的《藏文拉丁轉(zhuǎn)寫的設(shè)計與實現(xiàn)》一文,從藏文文本規(guī)范化、黏著語的分離與還原、基字的確定和藏文音節(jié)轉(zhuǎn)寫規(guī)則四個部分設(shè)計了藏文拉丁轉(zhuǎn)寫方案,最終實現(xiàn)藏文拉丁轉(zhuǎn)寫。該轉(zhuǎn)寫方案的設(shè)計在藏文信息處理領(lǐng)域具有非常重要的現(xiàn)實意義和應(yīng)用價值。白瑪玉珍的《幾種藏文字特征提取方法比較研究》一文,認為藏文字識別中特征提取是一個很重要的環(huán)節(jié)。該文研究了幾種藏文字特征提取的方法,提出了各個特征提取方法的優(yōu)、缺點。俄果措、安見才讓的《藏文單音節(jié)動詞時式的形態(tài)變化研究》一文,采用統(tǒng)計學(xué)的研究方法,建立藏文單音節(jié)動詞詞庫,并對每一個動詞形態(tài)變化類型進行標注。根據(jù)動詞形態(tài)同形方式的不同,對四種、三種、兩種和無形態(tài)變化的動詞模式進行統(tǒng)計,從而總結(jié)了動詞形態(tài)的規(guī)則,為藏語語音和詞匯的演變做了基礎(chǔ)性的研究。高定國、郭鑫的《TSF藏文輸入法的設(shè)計與實現(xiàn)》一文,指出TSF是微軟推出的一種新的輸入法框架,用TSF開發(fā)藏文輸入法不僅能實現(xiàn)詞組輸入的功能,還能提高藏文鍵盤的輸入速度。白瑪拉姆、張旋的《基于物聯(lián)網(wǎng)的藏文二維碼的研究與實現(xiàn)》一文,基于物聯(lián)網(wǎng)的相關(guān)技術(shù),通過藏文二維碼軟件的設(shè)計,對二維碼的編碼結(jié)構(gòu)、編碼原理、編碼流程等問題進行了分析,最后利用Visual Basic軟件進行應(yīng)用和開發(fā)。張繼偉的《基于Android系統(tǒng)智能終端的藏文輸入法分析與實現(xiàn)》一文,闡述了藏文在Android系統(tǒng)下輸入法的設(shè)計思想,以及實現(xiàn)過程,介紹了該技術(shù)的設(shè)計原理以及流程。張云洋、劉芳的《基于Unicode的藏文網(wǎng)頁搜索探討》一文指出,藏文網(wǎng)頁搜索是藏文計算機技術(shù)和藏文網(wǎng)站發(fā)展的必然要求,藏文字的特殊結(jié)構(gòu)和藏文編碼的多樣性給網(wǎng)頁的統(tǒng)一檢索造成一定的困難,使用基于Unicode的藏文編碼來識別和存儲藏文有利于網(wǎng)頁搜索的實施。項毛措、張有誼的《Word 2007中藏文排序的研究》一文,認為藏文文字的排序是藏文信息處理領(lǐng)域一項不可缺少的關(guān)鍵所在,也是一直以來有待解決的問題。目前,word成了最廣泛的應(yīng)用程序之一,如果word中實現(xiàn)符合藏文文字結(jié)構(gòu)特點和語法規(guī)則的藏文排序,將會為以后藏文研究工作者帶來很大方便。扎西加、多拉的《基于FUG的藏語句法形式化描述》一文,分析了用復(fù)雜特征描述藏語句子的必要性,引入了復(fù)雜特征集和合一運算的概念,以實例舉證的方式對藏語詞匯、句法、語義的規(guī)則及句子合一運算提出了探索性的研究思路,并且采用框式表示的方法,力求從形式化的角度為藏語自然語言處理提供便利。達召卡什吉的《現(xiàn)代藏語常用名詞的內(nèi)部結(jié)構(gòu)特征分析》一文,主要對名詞的內(nèi)部結(jié)構(gòu)特征進行了分析研究,其目的是為藏語名詞的語義分詞服務(wù)和擴大藏語資源建設(shè)的規(guī)模。為藏語信息處理的機器翻譯、信息檢索、信息提取、文本校對服務(wù)。

版權(quán)所有 中國藏學(xué)研究中心。 保留所有權(quán)利。 京ICP備06045333號-1

京公網(wǎng)安備 11010502035580號