欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種語境標(biāo)注的雙語平行語料庫構(gòu)建系統(tǒng)的制作方法

文檔序號:10697618閱讀:876來源:國知局
一種語境標(biāo)注的雙語平行語料庫構(gòu)建系統(tǒng)的制作方法
【專利摘要】本發(fā)明公開了一種語境標(biāo)注的雙語平行語料庫構(gòu)建系統(tǒng),該系統(tǒng)由上位機(jī)與并行的語境標(biāo)注數(shù)據(jù)生成單元組成。通過上位機(jī)進(jìn)行雙語語料的前置處理,再將語料分詞發(fā)送至并行標(biāo)注數(shù)據(jù)生成單元。在生成單元的主控模塊控制下由單元內(nèi)各節(jié)點模塊生成語境標(biāo)注數(shù)據(jù)并將數(shù)據(jù)存儲在模塊外接的FLASH芯片中。當(dāng)雙語平行語料庫達(dá)到一定規(guī)模后,由上位機(jī)讀取存儲在各節(jié)點模塊中詞共句關(guān)系的統(tǒng)計數(shù)據(jù)實現(xiàn)對語料庫中雙語語料的語境標(biāo)識。本構(gòu)建系統(tǒng)充分利用了并行處理的架構(gòu)優(yōu)勢,能快速處理較大規(guī)模的語料庫語境標(biāo)注數(shù)據(jù)的生成。并基于標(biāo)注數(shù)據(jù)標(biāo)注出語料庫中語料的語境,實現(xiàn)語境標(biāo)注的雙語平行語料庫。
【專利說明】
一種語境標(biāo)注的雙語平行語料庫構(gòu)建系統(tǒng)
技術(shù)領(lǐng)域
[0001]本發(fā)明涉及一種基于并行處理架構(gòu)的語料庫構(gòu)建系統(tǒng),實現(xiàn)了基于語境標(biāo)注的雙語平行語料庫構(gòu)建系統(tǒng),屬于大領(lǐng)域是信息技術(shù)技術(shù)領(lǐng)域。
【背景技術(shù)】
[0002]語料庫是具有一定規(guī)模的規(guī)格化的語料集合,以電子文本形式集中存儲信息系統(tǒng)中。語料庫在語言學(xué)研究領(lǐng)域中有廣泛的應(yīng)用,是語言學(xué)研究的基礎(chǔ)資源,也是現(xiàn)代機(jī)器語言翻譯,語義理解等研究基礎(chǔ)。照語料的語種,語料庫也可以分成單語的(Monolingual)、雙語的(Bi I inguaI)和多語的(Mu11i I ingual)。本發(fā)明涉及的就是雙語語料庫的構(gòu)建。按雙語語料的組織形式,語料庫還可以分為平行(對齊)語料庫和比較語料庫,前者的語料是互為譯文關(guān)系,多用于機(jī)器翻譯、雙語詞典編撰等應(yīng)用領(lǐng)域,后者將表述同樣內(nèi)容的不同語言文本收集到一起,多用于語言對比研究。本發(fā)明側(cè)重于平行語料庫的構(gòu)建。
[0003]語料庫構(gòu)建中語料的標(biāo)注是一項重要的內(nèi)容。標(biāo)注是通過對語料庫中的原始語料進(jìn)行加工,把表示語料特征的各種特征標(biāo)記附加到相應(yīng)的語料成分上,目的是為了便于機(jī)器識讀與處理。
[0004]現(xiàn)有語料庫的標(biāo)注,主要有詞性標(biāo)注、漢語拼音標(biāo)注、語料詞頻率統(tǒng)計等,對于中文,日文這些語言類型的語料還有分詞標(biāo)注等。標(biāo)注可以分為人工方式和計算機(jī)自動標(biāo)注處理方式。與其它語料標(biāo)注不同,本發(fā)明涉及的構(gòu)建系統(tǒng)是使用算法實現(xiàn)對語料語境的自動標(biāo)注。
[0005]但是目前語境研究還主要集中在語言學(xué)領(lǐng)域定性的研究,對于機(jī)器可計算的語境模型還沒有太多的研究。
[0006]本發(fā)明提出一種基于詞的共句關(guān)系頻率統(tǒng)計來構(gòu)建以句為單位的語境模型,但是由于一般中等規(guī)模的語料庫大多有十萬條左右的語料,這些語料后大約會形成上百萬的分詞,每個分詞都要統(tǒng)計由其它詞的共句關(guān)系,因此統(tǒng)計關(guān)系的計算次數(shù)會達(dá)到億級,計算量非常大。由于本發(fā)明提出并行語境標(biāo)注數(shù)據(jù)的生成架構(gòu)來處理這統(tǒng)計過程,有效提高了語境標(biāo)注數(shù)據(jù)的生成效率,為構(gòu)建基于標(biāo)注語境的雙語平行語料庫提供了有力的支持。
[0007]發(fā)明專利內(nèi)容
[0008]本發(fā)明提出了一種語境標(biāo)注的雙語平行語料庫構(gòu)建系統(tǒng)。該構(gòu)建系統(tǒng)主要的內(nèi)容是:提出了一種生成語境標(biāo)注數(shù)據(jù)的并行處理架構(gòu),該架構(gòu)利用上位機(jī)預(yù)處理語料,利用并行的語境標(biāo)注數(shù)據(jù)生成單元來生成語境標(biāo)注所需的統(tǒng)計數(shù)據(jù)。用以解決語境標(biāo)注生成過程中所需的海量計算,提高構(gòu)建雙語平行語料庫的效率
[0009]為了解決上述技術(shù)問題,本發(fā)明專利采用的技術(shù)方案如下:
[0010]一種語境標(biāo)注的雙語平行語料庫構(gòu)建系統(tǒng),包括:
[0011]上位機(jī):上位機(jī)主要是用于語料的前置處理,以及與語境標(biāo)注數(shù)據(jù)生成單元的交互,傳遞該單元需要處理的分詞數(shù)據(jù),接收該單元上傳的數(shù)據(jù)處理狀態(tài)信號,其中:
[0012]語料前置處理模塊:主要是存儲語料電子文本,去掉包含語料的電子文本中與語料無關(guān)的部分,轉(zhuǎn)換語料電子文本為統(tǒng)一的格式等,并建立雙語語句的對應(yīng)關(guān)聯(lián)關(guān)系;
[0013]語境計算與標(biāo)注模塊:該模塊基于語境標(biāo)注數(shù)據(jù)生成單元生成的詞共句關(guān)系統(tǒng)計數(shù)據(jù)實現(xiàn)語料庫中所有語料的語境計算,并將各語料的語境存儲到系統(tǒng)數(shù)據(jù)庫中,以備進(jìn)一步的分析與研究。
[0014]語境標(biāo)注數(shù)據(jù)生成單元:包括主控模塊與多節(jié)點可擴(kuò)展處理模塊,其中主控模塊主要用于接收上位機(jī)發(fā)來的分詞數(shù)據(jù),控制各處理節(jié)點生成語境標(biāo)注數(shù)據(jù);
[0015]多節(jié)點可擴(kuò)展處理模塊:主要包括分詞數(shù)據(jù)緩存的數(shù)據(jù)結(jié)構(gòu)和所屬本節(jié)點的詞共句關(guān)聯(lián)關(guān)系數(shù)據(jù)存儲,其中:
[0016]詞共句關(guān)聯(lián)關(guān)系指的是不同兩個詞位于同一語料的頻度,該頻度來自語料庫詞反向語料索引統(tǒng)計,各節(jié)點按分詞映射到節(jié)點號算法并行分配等處理的分詞,并保存處理結(jié)果到本節(jié)點的FLASH存儲器中;
[0017]多節(jié)點可擴(kuò)展處理模塊:主要包括分詞數(shù)據(jù)緩存的數(shù)據(jù)結(jié)構(gòu)和所屬本節(jié)點的詞共句關(guān)聯(lián)關(guān)系數(shù)據(jù)存儲,多節(jié)點可擴(kuò)展處理模塊的電路構(gòu)成是由中央處理器ARM芯片,外接的RAM芯片以及FLASH芯片,還有外圍的數(shù)據(jù)總線接口、控制總線路接口,以FLASH外圍讀寫接口組成。其中ARM芯片只要用于計算,在本專利中選用低成本的32位ARM芯片,但是通用32位ARM芯片內(nèi)存容量較小,所以在本專利中對ARM芯片外接擴(kuò)展內(nèi)存實現(xiàn)內(nèi)存擴(kuò)展,提高節(jié)點的數(shù)據(jù)緩存能力,相應(yīng)提高了本專利的語境數(shù)據(jù)生成速度。多節(jié)點可擴(kuò)展處理模塊通過數(shù)據(jù)總線接口與控制總線接口掛接在主控單元的總線上,接入到并行標(biāo)注數(shù)據(jù)生成單元中。節(jié)點同時使用FLASH作為語境數(shù)據(jù)的存儲器,存儲詞索引數(shù)據(jù)以及詞共句關(guān)聯(lián)關(guān)系數(shù)據(jù),其中:
[0018]詞共句關(guān)聯(lián)關(guān)系指的是不同兩個詞位于同一語料的頻度,該頻度來自語料庫詞反向語料索引統(tǒng)計,各節(jié)點按分詞映射到節(jié)點號算法并行分配等處理的分詞,并保存處理結(jié)果到本節(jié)點的FLASH存儲器中;
[0019]所述詞索引結(jié)構(gòu),包括詞,詞的MD5碼以及二進(jìn)制的反向語料有序索引數(shù)組,每個索引數(shù)組元素為corpusID,index二元組,其中:corpusID為語料唯一ID,以及詞在語料中的位置,數(shù)組以corpusID為序從小到大排列,提供二分法插入與查找,詞與詞句共現(xiàn)關(guān)系的分析接口;
[0020]所述詞共句關(guān)系統(tǒng)計,每個統(tǒng)計項為wordID ,wordID, count,其中前二個wordID分別代表在同一個句子中出現(xiàn)的二個詞的ID,Count代表到目前為止這二個詞共句出現(xiàn)的頻率。
[0021]有益效果
[0022]本發(fā)明的上述技術(shù)方案相比現(xiàn)有技術(shù)具有以下優(yōu)點:
[0023]本發(fā)明通過軟硬件結(jié)合的方式,給出了一種并行的語境標(biāo)注數(shù)據(jù)生成架構(gòu),由于語境標(biāo)注生成過程中隨著語料庫的擴(kuò)展,所需的計算量會以指數(shù)方式增長。因此本發(fā)明通過上位機(jī)與外部處理單元并行處理的方式,有效提高了語境標(biāo)注數(shù)據(jù)生成的效率;
[0024]本發(fā)明提出了一種新型的詞共句關(guān)系統(tǒng)計方法,該結(jié)構(gòu)實現(xiàn)了通過詞的節(jié)點號映射算法,將詞分配到各并行處理模塊節(jié)點中。在該節(jié)點中生成詞與語料的雙向索引,同時保存詞在語料中的位置,并通過節(jié)點中分詞緩存的數(shù)據(jù)結(jié)構(gòu)實現(xiàn)詞共句關(guān)系的統(tǒng)計計算,實現(xiàn)了語境標(biāo)注基礎(chǔ)數(shù)據(jù)的獲??;
[0025]本發(fā)明中設(shè)計了一種新的語料標(biāo)注,即語境標(biāo)注,語境在語言研究以及計算機(jī)文本處理方面有很深遠(yuǎn)的意義,所以本發(fā)明實現(xiàn)的語境標(biāo)注語料庫必然對這些方面的研究起到重要的促進(jìn)作用。
【附圖說明】
[0026]圖1為本發(fā)明基于語境標(biāo)注的雙語平行語料庫構(gòu)建系統(tǒng)架構(gòu)設(shè)計圖。
[0027]圖2為本發(fā)明基于語境標(biāo)注的雙語平行語料庫構(gòu)建系統(tǒng)的語境標(biāo)注數(shù)據(jù)生成單元組成圖。
[0028]具體的實施方式
[0029]本發(fā)明所提出的雙語平行語料庫構(gòu)建系統(tǒng)如圖1所示,其中包括最主要的部分為六個組成部分:
[0030]上位機(jī),上位機(jī)主要負(fù)責(zé)雙語平行語料庫存儲、語料的前置處理、語料庫中語料的語境標(biāo)注以及與并行處理單元的數(shù)據(jù)交互。其中雙語平行語料庫中語料組織形式為結(jié)構(gòu)化的語料數(shù)據(jù)記錄,每條語料分別包括對應(yīng)互譯的雙語語句,唯一的標(biāo)識符,以及語料的來源。該語料庫的語料來自于系統(tǒng)外采集的生語料,經(jīng)過清洗,格式轉(zhuǎn)換和雙語語句匹配后賦予唯一標(biāo)識符以及標(biāo)注其來源后存儲進(jìn)入語料庫;
[0031]主控單元,主控單元主要負(fù)責(zé)上位機(jī)之間的通訊以及控制各可擴(kuò)展處理節(jié)點,接收來自于上位機(jī)的分詞數(shù)據(jù),分發(fā)至各可擴(kuò)展處理節(jié)點,收集各可擴(kuò)展處理節(jié)點的處理狀態(tài),再上報到上位機(jī),實現(xiàn)語境標(biāo)注數(shù)據(jù)處理流程的控制。
[0032]可擴(kuò)展處理節(jié)點,主要負(fù)責(zé)分詞的雙向索引建立以及統(tǒng)計詞共句關(guān)系,它通過接收主控單元發(fā)來的分詞數(shù)據(jù),判斷分詞數(shù)據(jù)處理節(jié)點是否為本節(jié)點,再更新本地分詞索引庫與詞共句關(guān)系統(tǒng)計庫,實現(xiàn)語境標(biāo)注數(shù)據(jù)的生成與存儲。
[0033]詞索引庫,該庫是針對雙語語料中的語句采用分詞形成的詞索引,本發(fā)明中詞索引是雙向索引的,索引庫中每條紀(jì)錄代表一個詞,分別賦予唯一的標(biāo)識符,該標(biāo)識符使用MD5算法生成,除此之外,每個詞附帶一個二進(jìn)制字節(jié)流的索引,該索引采用二進(jìn)制數(shù)組方式實現(xiàn)對所有出現(xiàn)過該詞的語料索引,其元素結(jié)構(gòu)所前所述,如此實現(xiàn)詞對語料的索引,此夕卜,該索引數(shù)組是依據(jù)語料的唯一標(biāo)識符從小到大有序排列的。語料對詞的索引同樣是先分詞后,對各詞生成MD5碼,依據(jù)該碼即可實現(xiàn)對應(yīng)詞的索引。
[0034]詞共句關(guān)系統(tǒng)計庫,是由詞索引庫直接生成的,主要通過兩兩遍歷詞索引紀(jì)錄,對比兩個詞關(guān)于語料索引的元素是否相同,如果相同則這兩個詞出現(xiàn)在同一語料中,則記錄到庫中,最終生成完成的詞共句關(guān)系統(tǒng)計庫。
[0035]基于語境的雙語平行語料庫,是通過遍歷語料庫中語料,語料分詞后,以語料包含的各分詞詞共句關(guān)系統(tǒng)計模型構(gòu)成的無向有權(quán)圖作為語料的語境模型。將該模型作為語料庫的一部分存儲到語料庫數(shù)據(jù)庫中,形成基于語境的雙語平行語料庫。
[0036]如此以上各組成部分構(gòu)建完成后,即實現(xiàn)了本發(fā)明所提出的語境標(biāo)注雙語平行語料庫系統(tǒng)。
【主權(quán)項】
1.一種語境標(biāo)注的雙語平行語料庫構(gòu)建系統(tǒng),其特征在于,包括: 1)并行的語境標(biāo)注數(shù)據(jù)生成架構(gòu):由上機(jī)位與外接的并行語境標(biāo)注數(shù)據(jù)生成單元組成,通過上位機(jī)將語料分詞結(jié)果發(fā)送到生成單元,由生成單元完成詞的雙向索引和詞共句關(guān)系統(tǒng)計,作為語境標(biāo)注所需的基礎(chǔ)數(shù)據(jù); 2)并行語境標(biāo)注數(shù)據(jù)生成單元:由一個主控模塊和多個可擴(kuò)展的處理節(jié)點模塊構(gòu)成,由主控模塊實現(xiàn)與上位機(jī)的交互,可擴(kuò)展并行節(jié)點實現(xiàn)對詞的索引與詞共句關(guān)系統(tǒng)計,作為語境標(biāo)注的數(shù)據(jù)來源; 3)面向語境的詞索引結(jié)構(gòu):該結(jié)構(gòu)實現(xiàn)了一種面向語境的詞索引結(jié)構(gòu),能實現(xiàn)詞與語料的雙向索引,保存詞在語料中位置,實現(xiàn)詞與詞之間的共現(xiàn)關(guān)聯(lián)關(guān)系統(tǒng)計; 4)基于語境的雙語平行語料庫的構(gòu)建:基于語境模型實現(xiàn)對語料庫中語料語境的構(gòu)建,實現(xiàn)包含語境標(biāo)注的雙語平行語料庫; 其中,所述可擴(kuò)展的節(jié)點模塊由ARM、擴(kuò)展內(nèi)存、外接FLASH芯片以及相關(guān)的控制與數(shù)據(jù)線組成,其接收從主控模塊發(fā)送來的分詞以及語料ID,緩存于模塊語料分詞緩存數(shù)據(jù)結(jié)構(gòu)中,再遍歷各分詞,將分詞生成MD5再映射成節(jié)點號,判斷該分詞是否由本節(jié)點處理,若由本節(jié)點處理,則生成該詞的面向語境的詞索引結(jié)構(gòu)和詞共現(xiàn)關(guān)系統(tǒng)計數(shù)據(jù); 所述詞索引結(jié)構(gòu),包括詞,詞的MD5碼以及二進(jìn)制的反向語料有序索引數(shù)組,每個索引數(shù)組元素為corpusID,index二元組,其中:corpusID為語料唯一ID,以及詞在語料中的位置,數(shù)組以corpusID為序從小到大排列,提供二分法插入與查找,詞與詞句共現(xiàn)關(guān)系的分析接口; 所述詞共句關(guān)系統(tǒng)計,每個統(tǒng)計項為wordID,wordID, count三元組,其中前二個wordID分別代表在同一個句子中出現(xiàn)的二個詞的ID,Count代表到目前為止這二個詞共句出現(xiàn)的頻率。
【文檔編號】G06F17/30GK106066870SQ201610368937
【公開日】2016年11月2日
【申請日】2016年5月27日 公開號201610368937.3, CN 106066870 A, CN 106066870A, CN 201610368937, CN-A-106066870, CN106066870 A, CN106066870A, CN201610368937, CN201610368937.3
【發(fā)明人】尹娜, 高湘, 韓進(jìn), 李潼潼, 林弋嵐, 李亞州
【申請人】南京信息工程大學(xué)
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
金塔县| 祁阳县| 陵川县| 南江县| 开封市| 黔东| 遂宁市| 曲周县| 石楼县| 尚志市| 武乡县| 江都市| 罗城| 岳池县| 望都县| 青海省| 肥东县| 巴中市| 凤山县| 阳高县| 乐陵市| 吴川市| 沐川县| 三明市| 浮梁县| 汉阴县| 台东县| 鲜城| 土默特左旗| 巫溪县| 高唐县| 安龙县| 钟祥市| 印江| 隆尧县| 青冈县| 五寨县| 长春市| 辉南县| 西和县| 铜鼓县|