從圖片中自動(dòng)提取雙語(yǔ)詞典的方法及裝置制造方法
【專利摘要】本發(fā)明提出一種從圖片中自動(dòng)提取雙語(yǔ)詞典的方法及裝置,其中,從圖片中自動(dòng)提取雙語(yǔ)詞典的方法包括:分別采用第一語(yǔ)言圖片語(yǔ)義標(biāo)注器和第二語(yǔ)言圖片語(yǔ)義標(biāo)注器對(duì)至少兩個(gè)圖片進(jìn)行標(biāo)注,根據(jù)第一語(yǔ)言圖片語(yǔ)義標(biāo)注器和第二語(yǔ)言圖片語(yǔ)義標(biāo)注器的輸出,生成至少兩個(gè)均包含第一語(yǔ)言語(yǔ)義標(biāo)簽和第二語(yǔ)言語(yǔ)義標(biāo)簽的雙語(yǔ)句對(duì);以及采用最大期望(EM)算法對(duì)生成的雙語(yǔ)句對(duì)進(jìn)行詞對(duì)齊,提取出雙語(yǔ)詞典詞條。本發(fā)明實(shí)施例,通過生成至少兩個(gè)雙語(yǔ)句對(duì),采用EM算法對(duì)雙語(yǔ)句對(duì)進(jìn)行詞對(duì)齊,從而可以從圖片中自動(dòng)提取出雙語(yǔ)詞典詞條,而不需要依賴雙語(yǔ)文本和網(wǎng)頁(yè)資源,且實(shí)現(xiàn)簡(jiǎn)單、準(zhǔn)確率高。
【專利說明】從圖片中自動(dòng)提取雙語(yǔ)詞典的方法及裝置
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及計(jì)算機(jī)【技術(shù)領(lǐng)域】,尤其涉及一種從圖片中自動(dòng)提取雙語(yǔ)詞典的方法及裝置。
【背景技術(shù)】
[0002]互聯(lián)網(wǎng)技術(shù)的發(fā)展讓我們的知識(shí)面更加廣闊,獲取的知識(shí)也日益豐富。不過問題也隨之而來,有些網(wǎng)絡(luò)只有詳盡的英文或者其他外文資料而沒有我們熟悉的漢語(yǔ)資料,這就給我們工作和生活帶來極大的不便。
[0003]目前網(wǎng)絡(luò)中有很多翻譯系統(tǒng),這些翻譯系統(tǒng)可以通過雙語(yǔ)詞典為我們提供翻譯服務(wù),即利用雙語(yǔ)詞典將一種我們不熟悉的語(yǔ)言翻譯成我們熟悉的語(yǔ)言。而雙語(yǔ)詞典對(duì)于一個(gè)翻譯系統(tǒng)而言非常重要。
[0004]現(xiàn)有技術(shù)中一般利用雙語(yǔ)文本(如聯(lián)合國(guó)用多種語(yǔ)言發(fā)布的文檔)或雙語(yǔ)網(wǎng)頁(yè)(如多種語(yǔ)言的網(wǎng)站)來獲取雙語(yǔ)句對(duì),并雙語(yǔ)從句對(duì)中抽取雙語(yǔ)詞典。
[0005]由此可見,現(xiàn)有雙語(yǔ)詞典的生成主要依賴雙語(yǔ)文本和網(wǎng)頁(yè)資源。而隨著信息技術(shù)的快速發(fā)展,信息載體多種多樣,包括文字、圖片和多媒體等,其中,圖片具有包含數(shù)據(jù)量大、表現(xiàn)形式豐富形象等特點(diǎn),因而作為信息載體的圖片應(yīng)用范圍越來越廣,如果能從圖片中抽取出雙語(yǔ)詞典詞條,將會(huì)極大地豐富和完善雙語(yǔ)詞典,因此,迫切需要提供一種可以從圖片中提取雙語(yǔ)詞典的技術(shù)方案。
【發(fā)明內(nèi)容】
[0006]本發(fā)明旨在至少解決上述技術(shù)問題之一。
[0007]為此,本發(fā)明的第一個(gè)目的在于提出一種從圖片中自動(dòng)提取雙語(yǔ)詞典的方法。該方法可以從圖片中自動(dòng)提取出雙語(yǔ)詞典詞條,而不需要依賴雙語(yǔ)文本和網(wǎng)頁(yè)資源,且實(shí)現(xiàn)簡(jiǎn)單、準(zhǔn)確率高。
[0008]本發(fā)明的第二個(gè)目的在于提出一種從圖片中自動(dòng)提取雙語(yǔ)詞典的裝置。
[0009]為了實(shí)現(xiàn)上述目的,本發(fā)明第一方面實(shí)施例的從圖片中自動(dòng)提取雙語(yǔ)詞典的方法,包括以下步驟:
[0010]分別采用第一語(yǔ)言圖片語(yǔ)義標(biāo)注器和第二語(yǔ)言圖片語(yǔ)義標(biāo)注器對(duì)至少兩個(gè)圖片進(jìn)行標(biāo)注,根據(jù)第一語(yǔ)言圖片語(yǔ)義標(biāo)注器和第二語(yǔ)言圖片語(yǔ)義標(biāo)注器的輸出,生成至少兩個(gè)均包含第一語(yǔ)言語(yǔ)義標(biāo)簽和第二語(yǔ)言語(yǔ)義標(biāo)簽的雙語(yǔ)句對(duì);以及
[0011]采用最大期望EM算法對(duì)生成的雙語(yǔ)句對(duì)進(jìn)行詞對(duì)齊,提取出雙語(yǔ)詞典詞條。
[0012]本發(fā)明實(shí)施例的從圖片中自動(dòng)提取雙語(yǔ)詞典的方法,通過生成多個(gè)雙語(yǔ)句對(duì),然后采用EM算法對(duì)生成的雙語(yǔ)句對(duì)進(jìn)行詞對(duì)齊,從而可以從圖片中自動(dòng)提取出雙語(yǔ)詞典,而不需要依賴雙語(yǔ)文本和網(wǎng)頁(yè)資源,且實(shí)現(xiàn)簡(jiǎn)單、準(zhǔn)確率高。
[0013]為了實(shí)現(xiàn)上述目的,本發(fā)明第二方面實(shí)施例的從圖片中自動(dòng)提取雙語(yǔ)詞典的裝置,包括:生成模塊以及對(duì)齊提取模塊。[0014]本發(fā)明實(shí)施例的從圖片中自動(dòng)提取雙語(yǔ)詞典的裝置,通過生成模塊生成至少兩個(gè)雙語(yǔ)句對(duì),通過對(duì)齊提取模塊采用EM算法對(duì)雙語(yǔ)句對(duì)進(jìn)行詞對(duì)齊,從而可以從圖片中自動(dòng)提取出雙語(yǔ)詞典詞條,而不需要依賴雙語(yǔ)文本和網(wǎng)頁(yè)資源,且實(shí)現(xiàn)簡(jiǎn)單、準(zhǔn)確率高。
[0015]本發(fā)明附加的方面和優(yōu)點(diǎn)將在下面的描述中部分給出,部分將從下面的描述中變得明顯,或通過本發(fā)明的實(shí)踐了解到。
【專利附圖】
【附圖說明】
[0016]本發(fā)明上述的和/或附加的方面和優(yōu)點(diǎn)從下面結(jié)合附圖對(duì)實(shí)施例的描述中將變得明顯和容易理解,其中,
[0017]圖1是根據(jù)本發(fā)明一個(gè)實(shí)施例的從圖片中自動(dòng)提取雙語(yǔ)詞典的方法的流程圖;
[0018]圖2a是根據(jù)本發(fā)明一個(gè)實(shí)施例的圖片示意圖;
[0019]圖2b是根據(jù)本發(fā)明另一個(gè)實(shí)施例的圖片示意圖;
[0020]圖2c是根據(jù)本發(fā)明又一個(gè)實(shí)施例的圖片示意圖;
[0021]圖3是根據(jù)本發(fā)明一個(gè)實(shí)施例的采用第一 EM算法提取雙語(yǔ)詞典的方法的流程圖;
[0022]圖4是根據(jù)本發(fā)明一個(gè)實(shí)施例的采用第二 EM算法提取雙語(yǔ)詞典的方法的流程圖;
[0023]圖5是根據(jù)本發(fā)明另一個(gè)實(shí)施例的從圖片中自動(dòng)提取雙語(yǔ)詞典的方法的流程圖;
[0024]圖6是根據(jù)本發(fā)明一個(gè)實(shí)施例的從圖片中自動(dòng)提取雙語(yǔ)詞典的裝置的結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0025]下面詳細(xì)描述本發(fā)明的實(shí)施例,實(shí)施例的示例在附圖中示出,其中自始至終相同或類似的標(biāo)號(hào)表示相同或類似的元件或具有相同或類似功能的元件。下面通過參考附圖描述的實(shí)施例是示例性的,僅用于解釋本發(fā)明,而不能理解為對(duì)本發(fā)明的限制。相反,本發(fā)明的實(shí)施例包括落入所附加權(quán)利要求書的精神和內(nèi)涵范圍內(nèi)的所有變化、修改和等同物。
[0026]在本發(fā)明的描述中,術(shù)語(yǔ)“第一”、“第二”等僅用于描述目的,而不能理解為指示或暗示相對(duì)重要性。在本發(fā)明的描述中,除非另有明確的規(guī)定和限定,術(shù)語(yǔ)“相連”、“連接”應(yīng)做廣義理解,例如,可以是固定連接,也可以是可拆卸連接,或一體地連接;可以是機(jī)械連接,也可以是電連接;可以是直接相連,也可以通過中間媒介間接相連。對(duì)于本領(lǐng)域的普通技術(shù)人員而言,可以具體情況理解上述術(shù)語(yǔ)在本發(fā)明中的具體含義。此外,在本發(fā)明的描述中,除非另有說明,“多個(gè)”的含義是兩個(gè)或兩個(gè)以上。
[0027]流程圖中或在此以其他方式描述的任何過程或方法描述可以被理解為,表示包括一個(gè)或更多個(gè)用于實(shí)現(xiàn)特定邏輯功能或過程的步驟的可執(zhí)行指令的代碼的模塊、片段或部分,并且本發(fā)明的優(yōu)選實(shí)施方式的范圍包括另外的實(shí)現(xiàn),其中可以不按所示出或討論的順序,包括根據(jù)所涉及的功能按基本同時(shí)的方式或按相反的順序,來執(zhí)行功能,這應(yīng)被本發(fā)明的實(shí)施例所屬【技術(shù)領(lǐng)域】的技術(shù)人員所理解。
[0028]下面參考附圖描述本發(fā)明實(shí)施例的從圖片中自動(dòng)提取雙語(yǔ)詞典的方法及裝置。
[0029]圖1是根據(jù)本發(fā)明一個(gè)實(shí)施例的從圖片中自動(dòng)提取雙語(yǔ)詞典的方法的流程圖。[0030]如圖1所示,從圖片中自動(dòng)提取雙語(yǔ)詞典的方法包括以下步驟:
[0031]S101,分別采用第一語(yǔ)言圖片語(yǔ)義標(biāo)注器和第二語(yǔ)言圖片語(yǔ)義標(biāo)注器對(duì)至少兩個(gè)圖片進(jìn)行標(biāo)注,根據(jù)第一語(yǔ)言圖片語(yǔ)義標(biāo)注器和第二語(yǔ)言圖片語(yǔ)義標(biāo)注器的輸出,生成至少兩個(gè)均包含第一語(yǔ)言語(yǔ)義標(biāo)簽和第二語(yǔ)言語(yǔ)義標(biāo)簽的雙語(yǔ)句對(duì)。
[0032]在本發(fā)明的實(shí)施例中,可以采用不同語(yǔ)言的圖片語(yǔ)義標(biāo)注器例如第一語(yǔ)言圖片語(yǔ)義標(biāo)注器和第二語(yǔ)言圖片語(yǔ)義標(biāo)注器將一副圖片轉(zhuǎn)換為對(duì)應(yīng)語(yǔ)言語(yǔ)義標(biāo)簽,也就是反應(yīng)該圖片內(nèi)容的多語(yǔ)言詞語(yǔ)列表。由于標(biāo)注方法的不同,不同語(yǔ)言的圖片語(yǔ)義標(biāo)注器所標(biāo)記出的語(yǔ)義標(biāo)簽并非一一對(duì)應(yīng)。比如,對(duì)于圖片G,其對(duì)應(yīng)的中文和英文語(yǔ)義標(biāo)簽分別為Cg=Ic1, C2, C3,…,ej和Eg= {e^ e2, e3,…,ej ,那么<CG, EG>就是一個(gè)雙語(yǔ)句對(duì)。每個(gè)圖片能夠產(chǎn)生一個(gè)由語(yǔ)義標(biāo)簽構(gòu)成的雙語(yǔ)句對(duì),利用大量圖片可以生成海量的雙語(yǔ)句對(duì)。
[0033]其中,圖片語(yǔ)義標(biāo)注器可以按順序比如按照從左到右或者從上到下的順序輸出雙語(yǔ)句對(duì),也可以無序輸出雙語(yǔ)句對(duì),生成由語(yǔ)義標(biāo)簽構(gòu)成的雙語(yǔ)句對(duì)。
[0034]例如,分別采用中文圖片語(yǔ)義標(biāo)注器和英文圖片語(yǔ)義標(biāo)注器對(duì)圖2a所示的圖片進(jìn)行標(biāo)注,獲得的包含中文語(yǔ)義標(biāo)簽和中文語(yǔ)義標(biāo)簽的雙語(yǔ)句對(duì)為:
[0035]中文語(yǔ)義標(biāo)簽:道路黃色的落葉樹木椅子
[0036]英文語(yǔ)義標(biāo)簽:“path”“l(fā)eaves” “tree”
[0037]由于中英文的圖片標(biāo)注器存在標(biāo)注效果的差異,圖片中標(biāo)出的實(shí)體不一定完全匹配,例如英文圖片標(biāo)注器沒有標(biāo)出“chair”。
[0038]同樣地,分別采用中文圖片語(yǔ)義標(biāo)注器和英文圖片語(yǔ)義標(biāo)注器對(duì)圖2b所示的圖片進(jìn)行標(biāo)注,獲得的包含中文語(yǔ)義標(biāo)簽和中文語(yǔ)義標(biāo)簽的雙語(yǔ)句對(duì)為:
[0039]中文語(yǔ)義標(biāo)簽:綠色樹木樓房草坪
[0040]英文語(yǔ)義標(biāo)簽:“rocks,,“people,,“green,,“tree”
[0041]同樣地,分別采用中文圖片語(yǔ)義標(biāo)注器和英文圖片語(yǔ)義標(biāo)注器對(duì)圖2c所示的圖片進(jìn)行標(biāo)注,獲得的包含中文語(yǔ)義標(biāo)簽和中文語(yǔ)義標(biāo)簽的雙語(yǔ)句對(duì)為:
[0042]中文語(yǔ)義標(biāo)簽:綠色草坪樹木
[0043]英文語(yǔ)義標(biāo)簽:“green,,“grass,,“trees,,“sky”
[0044]需要說明的是,由于圖2a_2c不是彩色圖片,所以從圖2a_2c中看不出顏色,但實(shí)際上與圖2a_2c對(duì)應(yīng)的圖片是彩色圖片,因此,可以顯示出對(duì)應(yīng)物體的顏色。
[0045]S102,采用最大期望(EM)算法對(duì)生成的雙語(yǔ)句對(duì)進(jìn)行詞對(duì)齊,提取出雙語(yǔ)詞典詞條。
[0046]在本發(fā)明的實(shí)施例中,當(dāng)?shù)谝徽Z(yǔ)言圖片語(yǔ)義標(biāo)注器和第二語(yǔ)言圖片語(yǔ)義標(biāo)注器的輸出為無序輸出時(shí),可以采用第一 EM算法對(duì)生成的雙語(yǔ)句對(duì)進(jìn)行詞對(duì)齊。當(dāng)?shù)谝徽Z(yǔ)言圖片語(yǔ)義標(biāo)注器和第二語(yǔ)言圖片語(yǔ)義標(biāo)注器的輸出為有序輸出時(shí),可以采用第二 EM算法對(duì)生成的雙語(yǔ)句對(duì)進(jìn)行詞對(duì)齊。
[0047]其中,如圖3所示,采用第一 EM算法對(duì)生成的雙語(yǔ)句對(duì)進(jìn)行詞對(duì)齊,提取出雙語(yǔ)詞典詞條,包括如下步驟:
[0048]S301,獲得兩個(gè)雙語(yǔ)句對(duì)中所有詞語(yǔ)之間的對(duì)齊概率。
[0049]初始假設(shè)第一語(yǔ)言句子中的每個(gè)詞語(yǔ)以等概率與第二語(yǔ)言句子中的每個(gè)詞語(yǔ)對(duì)齊。[0050]S302,判斷對(duì)齊概率是否達(dá)到設(shè)定閾值,若達(dá)到,則執(zhí)行步驟S303,若未達(dá)到,執(zhí)行步驟S304。
[0051]由于該實(shí)施例是針對(duì)無序語(yǔ)義標(biāo)簽進(jìn)行對(duì)齊,因此,不考慮第二語(yǔ)言詞語(yǔ)的位置,通過在大規(guī)模雙語(yǔ)句對(duì)上進(jìn)行迭代,出現(xiàn)次數(shù)高的詞對(duì)概率逐步增大,當(dāng)對(duì)齊概率大于閾值時(shí),則將其取出作為雙語(yǔ)詞典詞條,其中,該閾值可以靈活設(shè)置,例如為0.8。
[0052]S303,提取出雙語(yǔ)詞典詞條,操作結(jié)束。
[0053]S304,根據(jù)對(duì)齊概率采用第一對(duì)齊概率公式分別計(jì)算每個(gè)雙語(yǔ)句對(duì)中各種對(duì)齊方式對(duì)應(yīng)的概率。
[0054]在本實(shí)施例中,第一對(duì)齊概率公式為:
[0055]
【權(quán)利要求】
1.一種從圖片中自動(dòng)提取雙語(yǔ)詞典的方法,其特征在于,包括: 分別采用第一語(yǔ)言圖片語(yǔ)義標(biāo)注器和第二語(yǔ)言圖片語(yǔ)義標(biāo)注器對(duì)至少兩個(gè)圖片進(jìn)行標(biāo)注,根據(jù)所述第一語(yǔ)言圖片語(yǔ)義標(biāo)注器和所述第二語(yǔ)言圖片語(yǔ)義標(biāo)注器的輸出,生成至少兩個(gè)均包含第一語(yǔ)言語(yǔ)義標(biāo)簽和第二語(yǔ)言語(yǔ)義標(biāo)簽的雙語(yǔ)句對(duì);以及 采用最大期望EM算法對(duì)生成的所述雙語(yǔ)句對(duì)進(jìn)行詞對(duì)齊,提取出雙語(yǔ)詞典詞條。
2.如權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述第一語(yǔ)言圖片語(yǔ)義標(biāo)注器和所述第二語(yǔ)言圖片語(yǔ)義標(biāo)注器的輸出,生成至少兩個(gè)均包含第一語(yǔ)言語(yǔ)義標(biāo)簽和第二語(yǔ)言語(yǔ)義標(biāo)簽的雙語(yǔ)句對(duì),包括: 根據(jù)所述第一語(yǔ)言圖片語(yǔ)義標(biāo)注器和所述第二語(yǔ)言圖片語(yǔ)義標(biāo)注器的有序或無序輸出,生成至少兩個(gè)均包含第一語(yǔ)言語(yǔ)義標(biāo)簽和第二語(yǔ)言語(yǔ)義標(biāo)簽的雙語(yǔ)句對(duì)。
3.如權(quán)利要求1所述的方法,其特征在于,所述采用最大期望EM算法對(duì)生成的所述雙語(yǔ)句對(duì)進(jìn)行詞對(duì)齊包括: 當(dāng)所述第一語(yǔ)言圖片語(yǔ)義標(biāo)注器和所述第二語(yǔ)言圖片語(yǔ)義標(biāo)注器的輸出為無序輸出時(shí),采用第一 EM算法對(duì)生成的所述雙語(yǔ)句對(duì)進(jìn)行詞對(duì)齊;或者 當(dāng)所述第一語(yǔ)言圖片語(yǔ)義標(biāo)注器和所述第二語(yǔ)言圖片語(yǔ)義標(biāo)注器的輸出為有序輸出時(shí),采用第二 EM算法對(duì)生成的所述雙語(yǔ)句對(duì)進(jìn)行詞對(duì)齊。
4.如權(quán)利要求3所述的方法,其特征在于,所述采用第一EM算法對(duì)生成的所述雙語(yǔ)句對(duì)進(jìn)行詞對(duì)齊,提取出雙語(yǔ)詞典詞條,包括: 獲得兩個(gè)雙語(yǔ)句對(duì)中所有詞語(yǔ)之間的對(duì)齊概率; 判斷所述對(duì)齊概率是否達(dá)到設(shè)定閾值,若達(dá)到,則提取出雙語(yǔ)詞典詞條,若未達(dá)到,則根據(jù)所述對(duì)齊概率采用第一對(duì)齊概率公式分別計(jì)算每個(gè)雙語(yǔ)句對(duì)中各種對(duì)齊方式對(duì)應(yīng)的概率;對(duì)各種對(duì)齊方式對(duì)應(yīng)的概率進(jìn)行歸一化處理,對(duì)歸一化處理結(jié)果進(jìn)行計(jì)數(shù)統(tǒng)計(jì);根據(jù)計(jì)數(shù)統(tǒng)計(jì)結(jié)果更新所述對(duì)齊概率,重復(fù)執(zhí)行所述判斷所述對(duì)齊概率是否達(dá)到設(shè)定閾值的操作。
5.如權(quán)利要求4所述的方法,其特征在于,所述第一對(duì)齊概率公式為:
6.如權(quán)利要求3所述的方法,其特征在于,所述采用第二EM算法對(duì)生成的所述雙語(yǔ)句對(duì)進(jìn)行詞對(duì)齊,提取出雙語(yǔ)詞典詞條,包括: 獲得兩個(gè)雙語(yǔ)句對(duì)中所有詞語(yǔ)之間的對(duì)齊概率; 判斷所述對(duì)齊概率是否達(dá)到設(shè)定閾值,若達(dá)到,則提取出雙語(yǔ)詞典詞條,若未達(dá)到,則根據(jù)所述對(duì)齊概率采用第二對(duì)齊概率公式分別計(jì)算每個(gè)雙語(yǔ)句對(duì)中各種對(duì)齊方式對(duì)應(yīng)的概率;對(duì)各種對(duì)齊方式對(duì)應(yīng)的概率進(jìn)行歸一化處理,對(duì)歸一化處理結(jié)果進(jìn)行計(jì)數(shù)統(tǒng)計(jì);根據(jù)計(jì)數(shù)統(tǒng)計(jì)結(jié)果更新所述對(duì)齊概率,重復(fù)執(zhí)行所述判斷所述對(duì)齊概率是否達(dá)到設(shè)定閾值的操作。
7.如權(quán)利要求6所述的方法,其特征在于,所述第二對(duì)齊概率公式為:
8.一種從圖片中自動(dòng)提取雙語(yǔ)詞典的裝置,其特征在于,包括: 生成模塊,用于分別采用第一語(yǔ)言圖片語(yǔ)義標(biāo)注器和第二語(yǔ)言圖片語(yǔ)義標(biāo)注器對(duì)至少兩個(gè)圖片進(jìn)行標(biāo)注,根據(jù)所述第一語(yǔ)言圖片語(yǔ)義標(biāo)注器和所述第二語(yǔ)言圖片語(yǔ)義標(biāo)注器的輸出,生成至少兩個(gè)均包含第一語(yǔ)言語(yǔ)義標(biāo)簽和第二語(yǔ)言語(yǔ)義標(biāo)簽的雙語(yǔ)句對(duì);以及 對(duì)齊提取模塊,用于采用最大期望EM算法對(duì)生成的所述雙語(yǔ)句對(duì)進(jìn)行詞對(duì)齊,提取出雙語(yǔ)詞典詞條。
9.如權(quán)利要求8所述的裝置,其特征在于,所述生成模塊,具體用于: 根據(jù)所述第一語(yǔ)言圖片語(yǔ)義標(biāo)注器和所述第二語(yǔ)言圖片語(yǔ)義標(biāo)注器的有序或無序輸出,生成至少兩個(gè)均包含第一語(yǔ)言語(yǔ)義標(biāo)簽和第二語(yǔ)言語(yǔ)義標(biāo)簽的雙語(yǔ)句對(duì)。
10.如權(quán)利要求8所述的裝置,其特征在于,所述對(duì)齊提取模塊,具體用于: 當(dāng)所述第一語(yǔ)言圖片語(yǔ)義標(biāo)注器和所述第二語(yǔ)言圖片語(yǔ)義標(biāo)注器的輸出為無序輸出時(shí),采用第一 EM算法對(duì)生成的所述雙語(yǔ)句對(duì)進(jìn)行詞對(duì)齊;或者 當(dāng)所述第一語(yǔ)言圖片語(yǔ)義標(biāo)注器和所述第二語(yǔ)言圖片語(yǔ)義標(biāo)注器的輸出為有序輸出時(shí),采用第二 EM算法對(duì)生成的所述雙語(yǔ)句對(duì)進(jìn)行詞對(duì)齊。
11.如權(quán)利要求10所述的裝置,其特征在于,所述對(duì)齊提取模塊,具體用于: 獲得兩個(gè)雙語(yǔ)句對(duì)中所有詞語(yǔ)之間的對(duì)齊概率; 判斷所述對(duì)齊概率是否達(dá)到設(shè)定閾值,若達(dá)到,則提取出雙語(yǔ)詞典詞條,若未達(dá)到,則根據(jù)所述對(duì)齊概率采用第一對(duì)齊概率公式分別計(jì)算每個(gè)雙語(yǔ)句對(duì)中各種對(duì)齊方式對(duì)應(yīng)的概率;對(duì)各種對(duì)齊方式對(duì)應(yīng)的概率進(jìn)行歸一化處理,對(duì)歸一化處理結(jié)果進(jìn)行計(jì)數(shù)統(tǒng)計(jì);根據(jù)計(jì)數(shù)統(tǒng)計(jì)結(jié)果更新所述對(duì)齊概率,重復(fù)執(zhí)行所述判斷所述對(duì)齊概率是否達(dá)到設(shè)定閾值的操作。
12.如權(quán)利要求11所述的裝置,其特征在于,所述第一對(duì)齊概率公式為:
13.如權(quán)利要求10所述的裝置,其特征在于,所述對(duì)齊提取模塊,具體用于: 獲得兩個(gè)雙語(yǔ)句對(duì)中所有詞語(yǔ)之間的對(duì)齊概率; 判斷所述對(duì)齊概率是否達(dá)到設(shè)定閾值,若達(dá)到,則提取出雙語(yǔ)詞典詞條,若未達(dá)到,則根據(jù)所述對(duì)齊概率采用第二對(duì)齊概率公式分別計(jì)算每個(gè)雙語(yǔ)句對(duì)中各種對(duì)齊方式對(duì)應(yīng)的概率;對(duì)各種對(duì)齊方式對(duì)應(yīng)的概率進(jìn)行歸一化處理,對(duì)歸一化處理結(jié)果進(jìn)行計(jì)數(shù)統(tǒng)計(jì);根據(jù)計(jì)數(shù)統(tǒng)計(jì)結(jié)果更新所述對(duì)齊概率,重復(fù)執(zhí)行所述判斷所述對(duì)齊概率是否達(dá)到設(shè)定閾值的操作。
14.如權(quán)利要求13所述的裝置,其特征在于,所述第二對(duì)齊概率公式為:
【文檔編號(hào)】G06F17/27GK103714055SQ201310746535
【公開日】2014年4月9日 申請(qǐng)日期:2013年12月30日 優(yōu)先權(quán)日:2013年12月30日
【發(fā)明者】王海峰, 馬艷軍 申請(qǐng)人:北京百度網(wǎng)訊科技有限公司