訓(xùn)練神經(jīng)網(wǎng)絡(luò)的方法和裝置以及確定稀疏特征向量的方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及自然語言處理,具體涉及對神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練的方法和裝置以及確定 語料庫中的詞的稀疏特征向量的方法和裝置。
【背景技術(shù)】
[0002] 數(shù)據(jù)表示是機(jī)器學(xué)習(xí)方法能否取得成功的關(guān)鍵因素。對于自然語言處理來說,詞 是最基本的處理單位,因此詞的表示方法也至關(guān)重要。
[0003] 在一種傳統(tǒng)的詞表不方法中,使用一個0-1向量來表不一個詞,向量維數(shù)為語料 庫的詞匯數(shù)量大小。這種表示方法被稱為獨(dú)熱(one-hot)表示方法。圖1是示出根據(jù)獨(dú)熱 表示方法所表示的詞向量的示意圖。如圖1所示,該詞向量為一個n維向量,其中n表示等 于或大于2的整數(shù),該詞向量中只有一個向量元素值為1,其余元素值均為零。
[0004] 在一種改進(jìn)的詞表示方法中,為了便于計(jì)算詞之間的距離,使用詞的上下文信息 來表不這個詞。這種方法被稱為分布式表不方式。圖2是不出根據(jù)相關(guān)技術(shù)的分布式表不 方法所表示的多維詞向量的示意圖。如圖2所示,在分布式表示方法中,同樣使用一個向量 來表示一個詞,但是這個向量的維度m-般比較低,其中m表示等于或大于2的整數(shù),并且 每個向量元素都有一個非零的實(shí)數(shù)值。
【發(fā)明內(nèi)容】
[0005] 在下文中給出關(guān)于本發(fā)明的簡要概述,以便提供關(guān)于本發(fā)明的某些方面的基本理 解。應(yīng)當(dāng)理解,這個概述并不是關(guān)于本發(fā)明的窮舉性概述。它并不是意圖確定本發(fā)明的關(guān) 鍵或重要部分,也不是意圖限定本發(fā)明的范圍。其目的僅僅是以簡化的形式給出某些概念, 以此作為稍后論述的更詳細(xì)描述的前序。
[0006] 本發(fā)明提出了對神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練的方法和裝置以及確定語料庫中的詞的稀疏 特征向量的方法和裝置。
[0007] 根據(jù)本發(fā)明的一個方面,提供了一種對神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練的方法。其中,神經(jīng)網(wǎng)絡(luò) 包括輸入層、隱含層和輸出層,輸入層表示語料庫中的作為當(dāng)前詞的詞的原始特征向量,隱 含層表示當(dāng)前詞的中間特征向量,輸出層表示語料庫中的下一詞的預(yù)測概率。該方法包括: 將語料庫中的每個詞作為當(dāng)前詞,并將當(dāng)前詞的原始特征向量輸入到輸入層;以及訓(xùn)練神 經(jīng)網(wǎng)絡(luò)使得下一詞的預(yù)測概率總體上最高并利用懲罰項(xiàng)使得隱含層的中間特征向量的元 素稀疏。
[0008] 根據(jù)本發(fā)明的另一個方面,提供了一種確定語料庫中的詞的稀疏特征向量的方 法。該方法包括:將詞的原始特征向量輸入神經(jīng)網(wǎng)絡(luò)的輸入層,其中,神經(jīng)網(wǎng)絡(luò)是通過上述 方法訓(xùn)練獲得的;以及根據(jù)神經(jīng)網(wǎng)絡(luò)的隱含層的中間特征向量來獲得詞的稀疏特征向量。
[0009] 根據(jù)本發(fā)明的再一個方面,提供了一種對神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練的裝置。其中,神經(jīng)網(wǎng) 絡(luò)包括輸入層、隱含層和輸出層,輸入層表示語料庫中的作為當(dāng)前詞的詞的原始特征向量, 隱含層表示當(dāng)前詞的中間特征向量,輸出層表示語料庫中的下一詞的預(yù)測概率。該裝置包 括:第一輸入部,被配置為將語料庫中的每個詞作為當(dāng)前詞,并將當(dāng)前詞的原始特征向量輸 入到輸入層;以及訓(xùn)練部,被配置為訓(xùn)練神經(jīng)網(wǎng)絡(luò)使得下一詞的預(yù)測概率總體上最高并利 用懲罰項(xiàng)使得隱含層的中間特征向量的元素稀疏。
[0010] 根據(jù)本發(fā)明的又一個方面,提出了一種確定語料庫中的詞的稀疏特征向量的裝 置。該裝置包括:第二輸入部,被配置為將詞的原始特征向量輸入神經(jīng)網(wǎng)絡(luò)的輸入層,其中, 神經(jīng)網(wǎng)絡(luò)是通過上述裝置訓(xùn)練獲得的;以及稀疏向量獲得部,被配置為根據(jù)神經(jīng)網(wǎng)絡(luò)的隱 含層的中間特征向量來獲得詞的稀疏特征向量。
[0011] 另外,根據(jù)本發(fā)明的又一個方面,提出了一種實(shí)現(xiàn)上述方法的計(jì)算機(jī)程序。
[0012] 此外,根據(jù)本發(fā)明的又一個方面,提出了一種至少計(jì)算機(jī)可讀介質(zhì)形式的計(jì)算機(jī) 程序產(chǎn)品,其上記錄有用于實(shí)現(xiàn)上述方法的計(jì)算機(jī)程序代碼。
[0013] 通過以下結(jié)合附圖對本發(fā)明的最佳實(shí)施例的詳細(xì)說明,本發(fā)明的這些以及其他優(yōu) 點(diǎn)將更加明顯。
【附圖說明】
[0014] 參照下面結(jié)合附圖對本發(fā)明實(shí)施例的說明,會更加容易地理解本發(fā)明的以上和其 它目的、特點(diǎn)和優(yōu)點(diǎn)。附圖中的部件只是為了示出本發(fā)明的原理。在附圖中,相同的或類似 的技術(shù)特征或部件將采用相同或類似的附圖標(biāo)記來表示。
[0015] 圖1是示出根據(jù)相關(guān)技術(shù)的獨(dú)熱表示方法所表示的詞向量的示意圖;
[0016] 圖2是示出根據(jù)相關(guān)技術(shù)的分布式表示方法所表示的多維詞向量的示意圖;
[0017] 圖3是示出根據(jù)本發(fā)明實(shí)施例的神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)示意圖;
[0018] 圖4是示出根據(jù)本發(fā)明實(shí)施例的對神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練的方法的流程圖;
[0019] 圖5是示出根據(jù)本發(fā)明實(shí)施例的確定語料庫中的詞的稀疏特征向量的方法的流 程圖;
[0020] 圖6是示出通過圖5所示的方法獲得的中間特征向量的一個例子的圖;
[0021] 圖7是示出根據(jù)本發(fā)明實(shí)施例的對神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練的裝置的配置框圖;
[0022] 圖8是示出根據(jù)本發(fā)明實(shí)施例的確定語料庫中的詞的稀疏特征向量的裝置的配 置框圖;以及
[0023] 圖9是示出計(jì)算設(shè)備的舉例的結(jié)構(gòu)圖,該計(jì)算設(shè)備可用于實(shí)施根據(jù)本發(fā)明實(shí)施例 的對神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練的方法和裝置以及確定語料庫中的詞的稀疏特征向量的方法和裝 置。
【具體實(shí)施方式】
[0024] 下面參照附圖來說明本發(fā)明的實(shí)施例。在本發(fā)明的一個附圖或一種實(shí)施方式中描 述的元素和特征可以與一個或更多個其它附圖或?qū)嵤┓绞街惺境龅脑睾吞卣飨嘟Y(jié)合。應(yīng) 當(dāng)注意,為了清楚的目的,附圖和說明中省略了與本發(fā)明無關(guān)的、本領(lǐng)域普通技術(shù)人員已知 的部件和處理的表示和描述。
[0025] 發(fā)明人通過研究發(fā)現(xiàn),使用獨(dú)熱表示方法無法計(jì)算詞與詞之間的距離,因?yàn)榧词?是語義上相近的詞,它們之間的距離也為零。發(fā)明還發(fā)現(xiàn)使用分布式表示方法,會產(chǎn)生稠密 的詞向量,這種詞向量存儲開銷很大,并且在有些情況下不便于直接利用這種詞向量作為 特征。
[0026] 圖3是示出根據(jù)本發(fā)明實(shí)施例的神經(jīng)網(wǎng)絡(luò)的示意圖。
[0027] 如圖3所示,待訓(xùn)練的神經(jīng)網(wǎng)絡(luò)包括輸入層、隱含層和輸出層。
[0028]輸入層表示語料庫中的作為當(dāng)前詞的詞的原始特征向量,隱含層表示當(dāng)前詞的中 間特征向量,輸出層中的各個神經(jīng)元分別表示語料庫中與該神經(jīng)元對應(yīng)的詞的預(yù)測概率。
[0029] 換句話說,輸入層的神經(jīng)元的個數(shù)與原始特征向量的個數(shù)相等,輸入層的各神經(jīng) 元分別被輸入當(dāng)前詞的原始特征向量的對應(yīng)元素。隱含層的神經(jīng)元的