欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種詞向量訓(xùn)練方法及系統(tǒng)的制作方法

文檔序號:10569890閱讀:306來源:國知局
一種詞向量訓(xùn)練方法及系統(tǒng)的制作方法
【專利摘要】本發(fā)明適用計算機(jī)技術(shù)領(lǐng)域,提供了一種詞向量訓(xùn)練方法及系統(tǒng),在該方法中,對訓(xùn)練樣本文檔中每個訓(xùn)練目標(biāo)詞執(zhí)行詞向量訓(xùn)練步驟時,獲取訓(xùn)練目標(biāo)詞在訓(xùn)練樣本文檔中上下文窗口內(nèi)的窗口詞,使用Skip?gram模型預(yù)測每個窗口詞的出現(xiàn)概率,更新窗口詞在詞向量庫中對應(yīng)的詞向量和Huffman樹中訓(xùn)練目標(biāo)詞對應(yīng)編碼路徑中每一個非葉子節(jié)點(diǎn)對應(yīng)的中間向量,通過預(yù)設(shè)的公式更新訓(xùn)練樣本文檔的全局文本向量,并計算CBOW模型的遞增式局部輸入向量,進(jìn)而計算CBOW模型的混合拼接向量,將混合拼接向量設(shè)置為CBOW模型投影層的輸入,使用CBOW模型預(yù)測訓(xùn)練目標(biāo)詞的出現(xiàn)概率,最后更新訓(xùn)練目標(biāo)詞的詞向量和Huffman樹中每一個非葉子節(jié)點(diǎn)對應(yīng)的中間向量,提高了訓(xùn)練目標(biāo)詞詞向量的準(zhǔn)確度。
【專利說明】
_種詞向量訓(xùn)練方法及系統(tǒng)
技術(shù)領(lǐng)域
[0001] 本發(fā)明屬于計算機(jī)技術(shù)領(lǐng)域,尤其涉及一種詞向量訓(xùn)練方法及系統(tǒng)。
【背景技術(shù)】
[0002] 近年來,詞向量已經(jīng)成為自然語言處理領(lǐng)域中一種非常流行的工具,傳統(tǒng)的文本 處理方法一般以詞為基本特征,將詞表示為二進(jìn)制編碼的詞向量,使用這種表示方式的詞 向量不僅容易產(chǎn)生特征稀疏性問題,而且任意兩個詞之間相互獨(dú)立,無法正確捕捉到隱含 在詞語之間的語義及詞法關(guān)聯(lián)。為了解決這一問題,分布式詞向量應(yīng)運(yùn)而生。分布式詞向量 將詞語表示為一個濃密的、低維的實(shí)值向量,每一維代表詞語的一個特征屬性,各詞向量之 間只需進(jìn)行簡單的余弦計算即可挖掘出詞語間的各種關(guān)聯(lián),過程簡單方便,易于實(shí)現(xiàn)。
[0003] 因此,如何有效獲取高質(zhì)量的詞向量一直是自然語言處理及文本挖掘中的一個重 要課題。谷歌(Google)公司提出了一款開源工具 W〇rd2vec,該工具提供的詞向量訓(xùn)練模型 具有結(jié)構(gòu)簡單、訓(xùn)練速度快、能處理大規(guī)模語料等優(yōu)點(diǎn),深受廣大研究者的喜愛。然而,該工 具提供的模型不能同時兼顧上下文局部語境、全局語境和詞語之間的語序關(guān)系,導(dǎo)致詞向 量訓(xùn)練的準(zhǔn)確度不高。

【發(fā)明內(nèi)容】

[0004] 本發(fā)明的目的在于提供一種詞向量訓(xùn)練方法及系統(tǒng),旨在解決由于現(xiàn)有技術(shù)無法 提供一種有效的詞向量訓(xùn)練方法,導(dǎo)致詞向量訓(xùn)練準(zhǔn)確度不高的問題。
[0005] -方面,本發(fā)明提供了 一種詞向量訓(xùn)練方法,所述方法包括下述步驟:
[0006] 預(yù)先構(gòu)建包括訓(xùn)練目標(biāo)詞的詞典,對所述訓(xùn)練目標(biāo)詞的詞向量和所述Huffman樹 中的所有非葉子節(jié)點(diǎn)對應(yīng)的中間向量進(jìn)行初始化,所述訓(xùn)練目標(biāo)詞的詞向量形成一詞向量 庫;
[0007] 對預(yù)設(shè)的訓(xùn)練樣本文檔進(jìn)行掃描,對掃描到的每個所述訓(xùn)練目標(biāo)詞執(zhí)行預(yù)設(shè)的詞 向量訓(xùn)練步驟,以得到每個訓(xùn)練目標(biāo)詞的詞向量;
[0008] 所述詞向量訓(xùn)練步驟包括:
[0009] 獲取所述訓(xùn)練目標(biāo)詞在所述訓(xùn)練樣本文檔中上下文窗口內(nèi)的窗口詞,使用Skip-gram 模型預(yù)測每個所述窗口 詞的出 現(xiàn)概率 ,更新所述窗 口詞在所述詞 向量庫 中對應(yīng)的詞向 量和所述Huffman樹中所述訓(xùn)練目標(biāo)詞對應(yīng)編碼路徑中每一個非葉子節(jié)點(diǎn)對應(yīng)的中間向 量;
[0010] 根據(jù)更新后的所述窗口詞的詞向量,通過預(yù)設(shè)的公式更新所述訓(xùn)練樣本文檔的全 局文本向量,并計算CB0W模型的遞增式局部輸入向量;
[0011] 根據(jù)所述更新后的全局文本向量和所述遞增式局部輸入向量,計算所述CB0W模型 的混合拼接向量,將所述混合拼接向量設(shè)置為所述CB0W模型投影層的輸入;
[0012] 使用所述CB0W模型預(yù)測所述訓(xùn)練目標(biāo)詞的出現(xiàn)概率,更新所述訓(xùn)練目標(biāo)詞的詞向 量和所述Huf f man樹中每一個非葉子節(jié)點(diǎn)對應(yīng)的中間向量。
[0013] 另一方面,本發(fā)明提供了一種詞向量訓(xùn)練系統(tǒng),所述系統(tǒng)包括:
[0014] 向量初始化單元,用于預(yù)先構(gòu)建包括訓(xùn)練目標(biāo)詞的詞典,對所述訓(xùn)練目標(biāo)詞的詞 向量和所述Huffman樹中的所有非葉子節(jié)點(diǎn)對應(yīng)的中間向量進(jìn)行初始化,所述訓(xùn)練目標(biāo)詞 的詞向量形成一詞向量庫;以及
[0015] 詞向量訓(xùn)練單元,用于對預(yù)設(shè)的訓(xùn)練樣本文檔進(jìn)行掃描,對掃描到的每個所述訓(xùn) 練目標(biāo)詞執(zhí)行預(yù)設(shè)的詞向量訓(xùn)練步驟,以得到每個訓(xùn)練目標(biāo)詞的詞向量;
[0016] 所述詞向量訓(xùn)練單元包括:
[0017] 第一向量更新單元,用于獲取所述訓(xùn)練目標(biāo)詞在所述訓(xùn)練樣本文檔中上下文窗口 內(nèi)的窗口詞,使用Skip-gram模型預(yù)測每個所述窗口詞的出現(xiàn)概率,更新所述窗口詞在所述 詞向量庫中對應(yīng)的詞向量和所述Huffman樹中所述訓(xùn)練目標(biāo)詞對應(yīng)編碼路徑中每一個非葉 子節(jié)點(diǎn)對應(yīng)的中間向量;
[0018] 向量計算單元,用于根據(jù)更新后的所述窗口詞的詞向量,通過預(yù)設(shè)的公式更新所 述訓(xùn)練樣本文檔的全局文本向量,并計算CB0W模型的遞增式局部輸入向量;
[0019] 輸入設(shè)置單元,用于根據(jù)所述更新后的全局文本向量和所述遞增式局部輸入向 量,計算所述CB0W模型的混合拼接向量,將所述混合拼接向量設(shè)置為所述CB0W模型投影層 的輸入;以及
[0020] 第二向量更新單元,用于使用所述CB0W模型預(yù)測所述訓(xùn)練目標(biāo)詞的出現(xiàn)概率,更 新所述訓(xùn)練目標(biāo)詞的詞向量和所述Huffman樹中每一個非葉子節(jié)點(diǎn)對應(yīng)的中間向量。
[0021]在本發(fā)明實(shí)施例中,在對詞向量進(jìn)行訓(xùn)練時,使用Skip-gram模型預(yù)測上下文窗口 內(nèi)每個窗口詞的出現(xiàn)概率,更新窗口詞在詞向量庫中對應(yīng)的詞向量和Huff man樹中訓(xùn)練目 標(biāo)詞對應(yīng)編碼路徑中每一個非葉子節(jié)點(diǎn)對應(yīng)的中間向量,根據(jù)更新后的全局文本向量和計 算得到的遞增式局部輸入向量計算CB0W模型的混合拼接向量,將混合拼接向量設(shè)置為CB0W 模型投影層的輸入,從而結(jié)合訓(xùn)練目標(biāo)詞的上下文局部語境、全局語境和詞語之間的語序 關(guān)系對訓(xùn)練目標(biāo)詞的詞向量進(jìn)行訓(xùn)練,提高了詞向量的訓(xùn)練準(zhǔn)確度。
【附圖說明】
[0022] 圖1是本發(fā)明實(shí)施例一提供的詞向量訓(xùn)練方法的實(shí)現(xiàn)流程圖;
[0023] 圖2是本發(fā)明實(shí)施例一提供的詞向量訓(xùn)練方法的實(shí)現(xiàn)流程圖;
[0024] 圖3是本發(fā)明實(shí)施例二提供的詞向量訓(xùn)練系統(tǒng)的結(jié)構(gòu)示意圖;以及
[0025] 圖4是本發(fā)明實(shí)施例二提供的詞向量訓(xùn)練系統(tǒng)的結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0026] 為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點(diǎn)更加清楚明白,以下結(jié)合附圖及實(shí)施例,對 本發(fā)明進(jìn)行進(jìn)一步詳細(xì)說明。應(yīng)當(dāng)理解,此處所描述的具體實(shí)施例僅僅用以解釋本發(fā)明,并 不用于限定本發(fā)明。
[0027] 以下結(jié)合具體實(shí)施例對本發(fā)明的具體實(shí)現(xiàn)進(jìn)行詳細(xì)描述:
[0028] 實(shí)施例一:
[0029] 圖1示出了本發(fā)明實(shí)施例一提供的詞向量訓(xùn)練方法的實(shí)現(xiàn)流程,為了便于說明,僅 示出了與本發(fā)明實(shí)施例相關(guān)的部分,詳述如下:
[0030] 在步驟S101中,預(yù)先構(gòu)建包括訓(xùn)練目標(biāo)詞的詞典,對訓(xùn)練目標(biāo)詞的詞向量和 Huffman樹中的所有非葉子節(jié)點(diǎn)對應(yīng)的中間向量進(jìn)行初始化,訓(xùn)練目標(biāo)詞的詞向量形成一 詞向量庫。
[0031] 在本發(fā)明實(shí)施例中,可預(yù)先構(gòu)建包括訓(xùn)練目標(biāo)詞的詞典,具體地,可對涉及某一類 型或科目的文本進(jìn)行分詞、去停用詞、去高低頻詞,從而構(gòu)造出對應(yīng)的詞典。優(yōu)選地,可使用 中科院的ICTCLAS2015分詞系統(tǒng),該分詞系統(tǒng)具有新詞發(fā)現(xiàn)、關(guān)鍵詞提取等功能,并支持用 戶自定義詞典導(dǎo)入。另外,還需要為詞典中的訓(xùn)練目標(biāo)詞構(gòu)建詞向量和對應(yīng)的Huffman樹。 在構(gòu)建Huffman樹時,可根據(jù)詞頻大小進(jìn)行構(gòu)建,詞典中所有詞的詞頻都位于樹中的葉子節(jié) 點(diǎn)處,每個葉子節(jié)點(diǎn)和非葉子節(jié)點(diǎn)都唯一地對應(yīng)一個向量。
[0032] 優(yōu)選地,對訓(xùn)練目標(biāo)詞的詞向量進(jìn)行初始化時,可引入外部樣本集或常識知識庫 對詞典中每個訓(xùn)練目標(biāo)詞進(jìn)行預(yù)訓(xùn)練,以對詞典中每個訓(xùn)練目標(biāo)詞的詞向量進(jìn)行初始化, 從而得到為每個訓(xùn)練目標(biāo)詞提供比較精確的初始化值,以提高詞向量訓(xùn)練的速度。優(yōu)選地, 常識知識庫采用Wordnet或Hownet知識庫。
[0033]在步驟S102中,對預(yù)設(shè)的訓(xùn)練樣本文檔進(jìn)行掃描,對掃描到的每個訓(xùn)練目標(biāo)詞執(zhí) 行預(yù)設(shè)的詞向量訓(xùn)練步驟,以得到每個訓(xùn)練目標(biāo)詞的詞向量。
[0034]在本發(fā)明實(shí)施例中,在對構(gòu)建好的詞典中的訓(xùn)練目標(biāo)詞進(jìn)行訓(xùn)練時,需要提供大 量的訓(xùn)練樣本文檔,在具體實(shí)施過程中,可根據(jù)系統(tǒng)對詞向量準(zhǔn)確度的要求輸入對應(yīng)數(shù)量 的訓(xùn)練樣本文檔,以在保證詞向量準(zhǔn)確度的前提下,提高詞向量的訓(xùn)練速度。
[0035]優(yōu)選地,在本發(fā)明實(shí)施例中,如圖2所示,通過圖示步驟對掃描到的每個訓(xùn)練目標(biāo) 詞執(zhí)行預(yù)設(shè)的詞向量訓(xùn)練步驟。
[0036]在步驟S201中,獲取訓(xùn)練目標(biāo)詞在訓(xùn)練樣本文檔中上下文窗口內(nèi)的窗口詞,使用 Skip-gram模型預(yù)測每個窗口詞的出現(xiàn)概率,更新窗口詞在詞向量庫中對應(yīng)的詞向量和 Huffman樹中訓(xùn)練目標(biāo)詞對應(yīng)編碼路徑中每一個非葉子節(jié)點(diǎn)對應(yīng)的中間向量。
[0037]在本發(fā)明實(shí)施例中,應(yīng)首先設(shè)置詞向量訓(xùn)練時訓(xùn)練目標(biāo)詞的上下文窗口的大小, 優(yōu)選地,上下文窗口的大小設(shè)置為10。之后使用Skip-gram(Continuous Skip-gramModel) 模型依次預(yù)測該上下文窗口中每個詞語(為了便于描述,將窗口中的詞語記為窗口詞)的出 現(xiàn)概率,進(jìn)而更新窗口詞在詞向量庫中對應(yīng)的詞向量和Huffman樹中訓(xùn)練目標(biāo)詞對應(yīng)編碼 路徑中每一個非葉子節(jié)點(diǎn)對應(yīng)的中間向量,這樣,可以使窗口詞和訓(xùn)練目標(biāo)詞之間建立某 種語義聯(lián)系,這種語義聯(lián)系體現(xiàn)在自然語言的表達(dá)中,通過窗口詞詞向量的各個維度反映 出來,并通過訓(xùn)練目標(biāo)詞對應(yīng)編碼路徑中各非葉子節(jié)點(diǎn)對應(yīng)的中間向量保存下來,用于下 一次訓(xùn)練。
[0038]在步驟S202中,根據(jù)更新后的窗口詞的詞向量,通過預(yù)設(shè)的公式更新訓(xùn)練樣本文 檔的全局文本向量,并計算CB0W模型的遞增式局部輸入向量。
[0039]在本發(fā)明實(shí)施例中,可通過預(yù)設(shè)的公式更新訓(xùn)練樣本文檔的全局文本向量,例如, 可先通過詞頻-逆文檔頻率(TF-IDF)權(quán)重計算方法抽取出能夠代表訓(xùn)練樣本文檔特征的詞 語,然后將這些詞的權(quán)重組合在一起構(gòu)成一個全局文本向量。另外,也可以使用詞頻或者逆 文檔頻率計算各個詞語的權(quán)重,然后將各個詞的權(quán)重組合在一起構(gòu)成一個全局文本向量。 當(dāng)然,也可以通過其他模型訓(xùn)練得到全局文本向量,如可通過PV-DB0W、PV-DM方法獲得。
[0040]優(yōu)選地,可通過公式dc(r)) = t (久* (K(^))) / t慫計算或更新全局文本向 2r- i r-1 量g(c(w)),其中Wi表示訓(xùn)練樣本文檔中第i個詞語,V(Wi)表示詞語Wi對應(yīng)的詞向量,K表示 訓(xùn)練樣本文檔中的詞語總數(shù),&表示詞Wi在訓(xùn)練樣本文檔中的權(quán)重,這樣,可簡化全局文本 向量的計算,同時可保證訓(xùn)練的準(zhǔn)確率,有助于提高訓(xùn)練速度。
[0041 ] 在計算CB0W(Continuous Bag-〇f-Words Model,連續(xù)詞袋模型)模型的遞增式局 部輸入向量時,可通過累加、求平均值、或者向量拼接的方式。優(yōu)選地,使用拼接方式計算 CB0W模型的遞增式局部輸入向量,從而可保留詞語內(nèi)部順序。
[0042]在步驟S203中,根據(jù)更新后的全局文本向量和遞增式局部輸入向量,計算CB0W模 型的混合拼接向量,將混合拼接向量設(shè)置為CB0W模型投影層的輸入。
[0043]在本發(fā)明實(shí)施例中,根據(jù)更新后的全局文本向量和遞增式局部輸入向量,計算 CB0W模型的混合拼接向量。具體地,通過下述方式進(jìn)行拼接:若向量的維度為d,詞^的遞增 式局部輸入向量為以¥」)=[¥1,¥2,一,¥01],'^在當(dāng)前窗口內(nèi)對應(yīng)的全局文本向量為8((:(¥)) = [V'1,V'2,…,V'd],貝1J混合拼接向量為[V1,V2,…,Vd,V'l,V'2,…,V'd],該向量維度為2d。 在得到CB0W模型的混合拼接向量后,將混合拼接向量設(shè)置為CB0W模型投影層的輸入,從而 可將局部和全局語境結(jié)合起來預(yù)測訓(xùn)練目標(biāo)詞,并更新訓(xùn)練目標(biāo)詞和其對應(yīng)路徑上的中間 節(jié)點(diǎn)對應(yīng)的中間向量,而且使用拼接方式還可以保留詞語之間的內(nèi)部語序關(guān)系,使得窗口 詞和訓(xùn)練目標(biāo)詞之間的語義聯(lián)系更強(qiáng),訓(xùn)練得到的詞向量表達(dá)更加準(zhǔn)確。
[0044] 在步驟S204中,使用CB0W模型預(yù)測訓(xùn)練目標(biāo)詞的出現(xiàn)概率,更新訓(xùn)練目標(biāo)詞的詞 向量和Huf f man樹中每一個非葉子節(jié)點(diǎn)對應(yīng)的中間向量。
[0045] 在本發(fā)明實(shí)施例中,在對詞向量進(jìn)行訓(xùn)練時,使用Skip-gram模型預(yù)測上下文窗口 內(nèi)每個窗口詞的出現(xiàn)概率,更新窗口詞在詞向量庫中對應(yīng)的詞向量和Huf fman樹中訓(xùn)練目 標(biāo)詞對應(yīng)編碼路徑中每一個非葉子節(jié)點(diǎn)對應(yīng)的中間向量,根據(jù)更新后的全局文本向量和計 算得到的遞增式局部輸入向量計算CB0W模型的混合拼接向量,將混合拼接向量設(shè)置為CB0W 模型投影層的輸入,從而結(jié)合訓(xùn)練目標(biāo)詞的上下文局部語境、全局語境和詞語之間的語序 關(guān)系對訓(xùn)練目標(biāo)詞的詞向量進(jìn)行訓(xùn)練,提高了詞向量的訓(xùn)練準(zhǔn)確度。
[0046] 本領(lǐng)域普通技術(shù)人員可以理解實(shí)現(xiàn)上述實(shí)施例方法中的全部或部分步驟是可以 通過程序來指令相關(guān)的硬件來完成,所述的程序可以存儲于一計算機(jī)可讀取存儲介質(zhì)中, 所述的存儲介質(zhì),如R0M/RAM、磁盤、光盤等。
[0047] 實(shí)施例二:
[0048] 圖3示出了本發(fā)明實(shí)施例二提供的詞向量訓(xùn)練系統(tǒng)的結(jié)構(gòu),為了便于說明,僅示出 了與本發(fā)明實(shí)施例相關(guān)的部分,其中包括:
[0049] 向量初始化單元31,用于預(yù)先構(gòu)建包括訓(xùn)練目標(biāo)詞的詞典,對訓(xùn)練目標(biāo)詞的詞向 量和Huffman樹中的所有非葉子節(jié)點(diǎn)對應(yīng)的中間向量進(jìn)行初始化,訓(xùn)練目標(biāo)詞的詞向量形 成一詞向量庫;以及
[0050] 詞向量訓(xùn)練單元32,用于對預(yù)設(shè)的訓(xùn)練樣本文檔進(jìn)行掃描,對掃描到的每個訓(xùn)練 目標(biāo)詞執(zhí)行預(yù)設(shè)的詞向量訓(xùn)練步驟,以得到每個訓(xùn)練目標(biāo)詞的詞向量。
[0051 ]優(yōu)選地,如圖4所示,本發(fā)明實(shí)施例提供的詞向量訓(xùn)練系統(tǒng)的詞向量訓(xùn)練單元32包 括:
[0052]第一向量更新單元321,用于獲取訓(xùn)練目標(biāo)詞在訓(xùn)練樣本文檔中上下文窗口內(nèi)的 窗口詞,使用Skip-gram模型預(yù)測每個窗口詞的出現(xiàn)概率,更新窗口詞在詞向量庫中對應(yīng)的 詞向量和Huffman樹中訓(xùn)練目標(biāo)詞對應(yīng)編碼路徑中每一個非葉子節(jié)點(diǎn)對應(yīng)的中間向量; [0053]向量計算單元322,用于根據(jù)更新后的窗口詞的詞向量,通過預(yù)設(shè)的公式更新訓(xùn)練 樣本文檔的全局文本向量,并計算CB0W模型的遞增式局部輸入向量;
[0054] 輸入設(shè)置單元323,用于根據(jù)更新后的全局文本向量和遞增式局部輸入向量,計算 CB0W模型的混合拼接向量,將混合拼接向量設(shè)置為CB0W模型投影層的輸入;以及
[0055] 第二向量更新單元324,用于使用CB0W模型預(yù)測訓(xùn)練目標(biāo)詞的出現(xiàn)概率,更新訓(xùn)練 目標(biāo)詞的詞向量和Huf f man樹中每一個非葉子節(jié)點(diǎn)對應(yīng)的中間向量。
[0056] 具體地,向量計算單元322可包括更新子單元,用于根據(jù)更新后的窗口詞的詞向 k k 量,通過公式發(fā)(C(r)) = |^(漢"Kr)))/藝更新全局文本向量g(C(w)),其中wi表示 訓(xùn)練樣本文檔中第i個詞語,V(Wl)表示詞語^對應(yīng)的詞向量,K表示訓(xùn)練樣本文檔中的詞語 總數(shù),Pi表示詞Wi在訓(xùn)練樣本文檔中的權(quán)重。
[0057] 具體地,向量初始化單元31可包括第一初始化單元,用于引入外部樣本集對詞典 中每個訓(xùn)練目標(biāo)詞進(jìn)行預(yù)訓(xùn)練,以對詞典中每個訓(xùn)練目標(biāo)詞的詞向量進(jìn)行初始化。
[0058]具體地,向量初始化單元31也可以包括第二初始化單元,用于引入常識知識庫對 詞典中每個訓(xùn)練目標(biāo)詞進(jìn)行預(yù)訓(xùn)練,以對詞典中每個訓(xùn)練目標(biāo)詞的詞向量進(jìn)行初始化。其 中,常識知識庫為Wordnet或Hownet。
[0059] 在本發(fā)明實(shí)施例中,詞向量訓(xùn)練系統(tǒng)的各單元可由相應(yīng)的硬件或軟件單元實(shí)現(xiàn), 各單元可以為獨(dú)立的軟、硬件單元,也可以集成為一個軟、硬件單元,在此不用以限制本發(fā) 明。各單元的【具體實(shí)施方式】可參考前述實(shí)施例的描述,不此不再贅述。
[0060] 以上所述僅為本發(fā)明的較佳實(shí)施例而已,并不用以限制本發(fā)明,凡在本發(fā)明的精 神和原則之內(nèi)所作的任何修改、等同替換和改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。
【主權(quán)項(xiàng)】
1. 一種詞向量訓(xùn)練方法,其特征在于,所述方法包括下述步驟: 預(yù)先構(gòu)建包括訓(xùn)練目標(biāo)詞的詞典,對所述訓(xùn)練目標(biāo)詞的詞向量和所述Huffman樹中的 所有非葉子節(jié)點(diǎn)對應(yīng)的中間向量進(jìn)行初始化,所述訓(xùn)練目標(biāo)詞的詞向量形成一詞向量庫; 對預(yù)設(shè)的訓(xùn)練樣本文檔進(jìn)行掃描,對掃描到的每個所述訓(xùn)練目標(biāo)詞執(zhí)行預(yù)設(shè)的詞向量 訓(xùn)練步驟,以得到每個訓(xùn)練目標(biāo)詞的詞向量; 所述詞向量訓(xùn)練步驟包括: 獲取所述訓(xùn)練目標(biāo)詞在所述訓(xùn)練樣本文檔中上下文窗口內(nèi)的窗口詞,使用Skip-gram 模型預(yù)測每個所述窗口詞的出現(xiàn)概率,更新所述窗口詞在所述詞向量庫中對應(yīng)的詞向量和 所述Huffman樹中所述訓(xùn)練目標(biāo)詞對應(yīng)編碼路徑中每一個非葉子節(jié)點(diǎn)對應(yīng)的中間向量; 根據(jù)更新后的所述窗口詞的詞向量,通過預(yù)設(shè)的公式更新所述訓(xùn)練樣本文檔的全局文 本向量,并計算CBOW模型的遞增式局部輸入向量; 根據(jù)所述更新后的全局文本向量和所述遞增式局部輸入向量,計算所述CBOW模型的混 合拼接向量,將所述混合拼接向量設(shè)置為所述CBOW模型投影層的輸入; 使用所述CBOW模型預(yù)測所述訓(xùn)練目標(biāo)詞的出現(xiàn)概率,更新所述訓(xùn)練目標(biāo)詞的詞向量和 所述Huf f man樹中每一個非葉子節(jié)點(diǎn)對應(yīng)的中間向量。2. 如權(quán)利要求1所述的方法,其特征在于,根據(jù)更新后的所述窗口詞的詞向量,通過預(yù) 設(shè)的公式更新所述訓(xùn)練樣本文檔的全局文本向量的步驟,包括:根據(jù)更新后的所述窗口詞的詞向量, 新所述全局文本向量g(C(w)),其中所述wi表示所述訓(xùn)練樣本文檔中第i個詞語,V(wi)表示 詞語^對應(yīng)的詞向量,K表示所述訓(xùn)練樣本文檔中的詞語總數(shù),隊(duì)表示詞^在所述訓(xùn)練樣本 文檔中的權(quán)重。3. 如權(quán)利要求1所述的方法,其特征在于,對所述訓(xùn)練目標(biāo)詞的詞向量和所述Huffman 樹中的所有非葉子節(jié)點(diǎn)對應(yīng)的中間向量進(jìn)行初始化的步驟,包括: 引入外部樣本集對所述詞典中每個所述訓(xùn)練目標(biāo)詞進(jìn)行預(yù)訓(xùn)練,以對所述詞典中每個 所述訓(xùn)練目標(biāo)詞的詞向量進(jìn)行初始化。4. 如權(quán)利要求1所述的方法,其特征在于,對所述訓(xùn)練目標(biāo)詞的詞向量和所述Huffman 樹中的所有非葉子節(jié)點(diǎn)對應(yīng)的中間向量進(jìn)行初始化的步驟,包括: 引入常識知識庫對所述詞典中每個所述訓(xùn)練目標(biāo)詞進(jìn)行預(yù)訓(xùn)練,以對所述詞典中每個 所述訓(xùn)練目標(biāo)詞的詞向量進(jìn)行初始化。5. 如權(quán)利要求4所述的方法,其特征在于,所述常識知識庫為Wordnet或Hownet。6. -種詞向量訓(xùn)練系統(tǒng),其特征在于,所述系統(tǒng)包括: 向量初始化單元,用于預(yù)先構(gòu)建包括訓(xùn)練目標(biāo)詞的詞典,對所述訓(xùn)練目標(biāo)詞的詞向量 和所述Huf fman樹中的所有非葉子節(jié)點(diǎn)對應(yīng)的中間向量進(jìn)行初始化,所述訓(xùn)練目標(biāo)詞的詞 向量形成一詞向量庫;以及 詞向量訓(xùn)練單元,用于對預(yù)設(shè)的訓(xùn)練樣本文檔進(jìn)行掃描,對掃描到的每個所述訓(xùn)練目 標(biāo)詞執(zhí)行預(yù)設(shè)的詞向量訓(xùn)練步驟,以得到每個訓(xùn)練目標(biāo)詞的詞向量; 所述詞向量訓(xùn)練單元包括: 第一向量更新單元,用于獲取所述訓(xùn)練目標(biāo)詞在所述訓(xùn)練樣本文檔中上下文窗口內(nèi)的 窗口詞,使用Skip-gram模型預(yù)測每個所述窗口詞的出現(xiàn)概率,更新所述窗口詞在所述詞向 量庫中對應(yīng)的詞向量和所述Huffman樹中所述訓(xùn)練目標(biāo)詞對應(yīng)編碼路徑中每一個非葉子節(jié) 點(diǎn)對應(yīng)的中間向量; 向量計算單元,用于根據(jù)更新后的所述窗口詞的詞向量,通過預(yù)設(shè)的公式更新所述訓(xùn) 練樣本文檔的全局文本向量,并計算CBOW模型的遞增式局部輸入向量; 輸入設(shè)置單元,用于根據(jù)所述更新后的全局文本向量和所述遞增式局部輸入向量,計 算所述CBOW模型的混合拼接向量,將所述混合拼接向量設(shè)置為所述CBOW模型投影層的輸 入;以及 第二向量更新單元,用于使用所述CBOW模型預(yù)測所述訓(xùn)練目標(biāo)詞的出現(xiàn)概率,更新所 述訓(xùn)練目標(biāo)詞的詞向量和所述Huffman樹中每一個非葉子節(jié)點(diǎn)對應(yīng)的中間向量。7. 如權(quán)利要求6所述的系統(tǒng),其特征在于,所述向量計算單元包括: 更新子單元,用于根據(jù)更新后的所述窗口詞的詞向量,通過公式更新所述全局文本向量g(C(w)),其中所述^表示所 述訓(xùn)練樣本文檔中第i個詞語,V(Wl)表示詞語^對應(yīng)的詞向量,K表示所述訓(xùn)練樣本文檔中 的詞語總數(shù),&表示詞Wl在所述訓(xùn)練樣本文檔中的權(quán)重。8. 如權(quán)利要求6所述的系統(tǒng),其特征在于,所述向量初始化單元包括: 第一初始化單元,用于引入外部樣本集對所述詞典中每個所述訓(xùn)練目標(biāo)詞進(jìn)行預(yù)訓(xùn) 練,以對所述詞典中每個所述訓(xùn)練目標(biāo)詞的詞向量進(jìn)行初始化。9. 如權(quán)利要求6所述的系統(tǒng),其特征在于,所述向量初始化單元包括: 第二初始化單元,用于引入常識知識庫對所述詞典中每個所述訓(xùn)練目標(biāo)詞進(jìn)行預(yù)訓(xùn) 練,以對所述詞典中每個所述訓(xùn)練目標(biāo)詞的詞向量進(jìn)行初始化。10. 如權(quán)利要求9所述的系統(tǒng),其特征在于,所述常識知識庫為Wordnet或Hownet。
【文檔編號】G06F17/27GK105930318SQ201610218878
【公開日】2016年9月7日
【申請日】2016年4月11日
【發(fā)明人】傅向華, 李晶
【申請人】深圳大學(xué)
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1
吕梁市| 宁城县| 和林格尔县| 沙坪坝区| 崇左市| 彩票| 老河口市| 虎林市| 土默特左旗| 济南市| 微山县| 恩平市| 竹溪县| 溧阳市| 手机| 长岛县| 府谷县| 沅江市| 吴桥县| 北安市| 宁阳县| 玉环县| 阜南县| 平和县| 松滋市| 霍山县| 巴彦县| 霍林郭勒市| 洛阳市| 阿鲁科尔沁旗| 南投县| 当涂县| 五大连池市| 奇台县| 田林县| 平泉县| 渭源县| 松潘县| 富顺县| 甘南县| 宜兰市|