技術(shù)編號:11177137
提示:您尚未登錄,請點(diǎn) 登 陸 后下載,如果您還沒有賬戶請點(diǎn) 注 冊 ,登陸完成后,請刷新本頁查看技術(shù)詳細(xì)信息。本發(fā)明涉及英語語料庫領(lǐng)域。更具體地說,本發(fā)明涉及一種基于向量空間模型的英漢語料提取方法。背景技術(shù)基于英漢雙語語料庫的前后文建模方法是利用語料庫提供的詞語和詞語間彼此的關(guān)聯(lián)性來對詞語進(jìn)行向量化建模,向量空間模型也稱為單向向量空間模型,是基于統(tǒng)計(jì)詞語相似度計(jì)算策略中使用廣泛的一種模型,其理論基礎(chǔ)是計(jì)算出源語言中每一個詞Wi的特征詞向量Ri,再計(jì)算出目標(biāo)語言中每一個詞Wi的特征詞向量Ri則計(jì)算詞Wi和Wj的相似度就轉(zhuǎn)換成計(jì)算特征詞向量Ri與Rj的相似度。而單向向量空間模型存在精確度不夠的問題,常常發(fā)生...
注意:該技術(shù)已申請專利,請尊重研發(fā)人員的辛勤研發(fā)付出,在未取得專利權(quán)人授權(quán)前,僅供技術(shù)研究參考不得用于商業(yè)用途。
該專利適合技術(shù)人員進(jìn)行技術(shù)研發(fā)參考以及查看自身技術(shù)是否侵權(quán),增加技術(shù)思路,做技術(shù)知識儲備,不適合論文引用。
請注意,此類技術(shù)沒有源代碼,用于學(xué)習(xí)研究技術(shù)思路。