欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于詞向量的縮寫詞歧義消除系統(tǒng)及方法

文檔序號:8402774閱讀:758來源:國知局
一種基于詞向量的縮寫詞歧義消除系統(tǒng)及方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及一種歧義消除系統(tǒng)及方法,特別是關(guān)于一種基于詞向量的縮寫詞歧義 消除系統(tǒng)及方法。
【背景技術(shù)】
[0002] 隨著科技進(jìn)步,各領(lǐng)域?qū)I(yè)術(shù)語快速增長,縮寫詞多義現(xiàn)象非常普遍。例如, "UPS"至少包含"UPS電源"或"UPS物流公司"兩種義項。在國外專門收錄縮寫詞的網(wǎng)站 AcronymFinder. com中,每天平均增加37個人工標(biāo)注的縮寫詞定義;平均每個縮寫詞有12 個不同的定義。縮寫詞專業(yè)性強(qiáng),更新快,隨著新術(shù)語不斷涌現(xiàn),縮寫詞的歧義性不斷增加, 這不僅給讀者閱讀理解造成困擾,也會對現(xiàn)有的信息檢索,機(jī)器翻譯等應(yīng)用造成障礙,研宄 首字母縮略詞的消岐具有實際意義或應(yīng)用價值。
[0003] 傳統(tǒng)語義消岐方法常選取歧義詞上下文語境作為特征,用向量空間模型表示文 檔,其實質(zhì)上是根據(jù)領(lǐng)域特征劃分歧義詞所在的文檔,缺乏對歧義詞語義信息的挖掘或利 用。雖然使用語義網(wǎng)例如WordNet中的語義知識輔助詞義消歧效果相對較好,但是對于縮 寫詞而言,語義網(wǎng)絡(luò)更新慢,覆蓋度低,最重要一點(diǎn)是,針對特定領(lǐng)域的縮寫詞在消歧義時 候往往需要本領(lǐng)域方面的語義網(wǎng)絡(luò),沒有一個比較通用的解決方案。

【發(fā)明內(nèi)容】

[0004] 針對上述問題,本發(fā)明的目的提供一種基于詞向量的縮寫詞歧義消除系統(tǒng)及方 法。
[0005] 為實現(xiàn)上述目的,本發(fā)明采取以下技術(shù)方案:一種基于詞向量的縮寫詞歧義消除 系統(tǒng),其特征在于:它包括預(yù)處理模塊、關(guān)鍵詞選擇模塊、詞向量表示生成模塊、縮寫詞庫和 縮寫詞消歧模塊;所述預(yù)處理模塊將對含有目標(biāo)縮寫詞的待檢測文檔中所有非字母符號及 停用詞全部去除,并將預(yù)處理后的文檔傳送給所述關(guān)鍵詞選擇模塊;所述關(guān)鍵詞選擇模塊 針對處理后的文檔,選擇出現(xiàn)在目標(biāo)縮寫詞前后距離小于固定長度以內(nèi)的詞語作為備選關(guān) 鍵詞,并對備選關(guān)鍵詞通過相對重要性進(jìn)行篩選得到上下文關(guān)鍵詞,并將得到所有目標(biāo)縮 寫詞的上下文關(guān)鍵詞集合傳送給所述詞向量表示生成模塊;所述縮寫詞庫具有訓(xùn)練數(shù)據(jù)集 中所有詞語對應(yīng)的詞向量集合,并將其傳送給所述詞向量表示生成模塊;還具有訓(xùn)練數(shù)據(jù) 集中每個目標(biāo)縮寫詞的詞向量表示,并傳送給所述縮寫詞消歧模塊;所述詞向量表示生成 模塊將所有上下文關(guān)鍵詞所對應(yīng)的詞向量進(jìn)行加和,得到待檢測文檔中每個目標(biāo)縮寫詞的 詞向量表示,并將其傳送給所述縮寫詞消歧模塊;所述縮寫詞消歧模塊將目標(biāo)縮寫詞的詞 向量表示與所述縮寫詞庫中的目標(biāo)縮寫詞的每個意義的詞向量表示做比對,選擇選擇最相 似的意義作為待檢測文檔中目標(biāo)縮寫詞的意義。
[0006] 目標(biāo)縮寫詞包括首字母縮略詞。
[0007] 訓(xùn)練數(shù)據(jù)集是一系列含有至少一個目標(biāo)縮寫詞的文檔,且每一篇文檔中的目標(biāo)縮 寫詞意義已知。
[0008] 所述縮寫詞庫包括預(yù)處理單元、詞向量訓(xùn)練單元、關(guān)鍵詞選擇單元和詞向量表示 生成單元;所述預(yù)處理單元包括文本清理機(jī)構(gòu)和縮寫詞整理機(jī)構(gòu);所述文本清理機(jī)構(gòu)將包 含目標(biāo)縮寫詞的訓(xùn)練數(shù)據(jù)集中的每一篇文檔中所有非字母符號及停用詞全部去除,傳送給 所述縮寫詞整理機(jī)構(gòu);所述縮寫詞整理機(jī)構(gòu)將訓(xùn)練數(shù)據(jù)集中目標(biāo)縮寫詞的每一個意義及每 一意義對應(yīng)起來并進(jìn)行標(biāo)號,并將預(yù)處理后的文檔分別傳送給所述詞向量訓(xùn)練單元和所述 關(guān)鍵詞選擇單元;所述詞向量訓(xùn)練單元針對預(yù)處理后的訓(xùn)練數(shù)據(jù)集,采用詞向量工具進(jìn)行 詞向量訓(xùn)練,得到訓(xùn)練數(shù)據(jù)集中所有詞語對應(yīng)的詞向量集合,并將該詞向量集合分別傳送 給所述詞向量表示生成模塊和所述詞向量表示生成單元;所述關(guān)鍵詞選擇單元針對訓(xùn)練數(shù) 據(jù)集中的每一個目標(biāo)縮寫詞,從所有含有該目標(biāo)縮寫詞的文檔中選擇目標(biāo)縮寫詞前后距離 小于固定長度以內(nèi)的詞語作為備選關(guān)鍵詞,并對備選關(guān)鍵詞通過在文檔中的相對重要性進(jìn) 行篩選,得到所有目標(biāo)縮寫詞的上下文關(guān)鍵詞集合,并將該上下文關(guān)鍵詞集合傳送給所述 詞向量表示生成單元;所述詞向量表示生成單元將所有上下文關(guān)鍵詞集合中的上下文關(guān)鍵 詞所對應(yīng)的詞向量進(jìn)行加和,得到訓(xùn)練數(shù)據(jù)集中每個目標(biāo)縮寫詞的詞向量表示,并將其傳 送給所述縮寫詞消歧模塊;所述詞向量表示生成模塊在所述縮寫詞庫傳送的上下文關(guān)鍵詞 所對應(yīng)的詞向量進(jìn)行加和,得到待檢測文檔中每個目標(biāo)縮寫詞的詞向量表示,并將其傳送 給所述縮寫詞消歧模塊。
[0009] 所述詞向量訓(xùn)練單元中詞向量工具采用Word2Vec,進(jìn)行詞向量訓(xùn)練時的維度為 200 維。
[0010] 所述關(guān)鍵詞選擇模塊和所述關(guān)鍵詞選擇單元篩選備選關(guān)鍵詞 的相對重要性采用TF-IDF方法,并采用R :( ^進(jìn)行表示其重要性大?。?br>【主權(quán)項】
1. 一種基于詞向量的縮寫詞歧義消除系統(tǒng),其特征在于:它包括預(yù)處理模塊、關(guān)鍵詞 選擇模塊、詞向量表示生成模塊、縮寫詞庫和縮寫詞消歧模塊; 所述預(yù)處理模塊將對含有目標(biāo)縮寫詞的待檢測文檔中所有非字母符號及停用詞全部 去除,并將預(yù)處理后的文檔傳送給所述關(guān)鍵詞選擇模塊; 所述關(guān)鍵詞選擇模塊針對處理后的文檔,選擇出現(xiàn)在目標(biāo)縮寫詞前后距離小于固定長 度以內(nèi)的詞語作為備選關(guān)鍵詞,并對備選關(guān)鍵詞通過相對重要性進(jìn)行篩選得到上下文關(guān)鍵 詞,并將得到所有目標(biāo)縮寫詞的上下文關(guān)鍵詞集合傳送給所述詞向量表示生成模塊; 所述縮寫詞庫具有訓(xùn)練數(shù)據(jù)集中所有詞語對應(yīng)的詞向量集合,并將其傳送給所述詞向 量表示生成模塊;還具有訓(xùn)練數(shù)據(jù)集中每個目標(biāo)縮寫詞的詞向量表示,并傳送給所述縮寫 詞消歧模塊; 所述詞向量表示生成模塊將所有上下文關(guān)鍵詞所對應(yīng)的詞向量進(jìn)行加和,得到待檢測 文檔中每個目標(biāo)縮寫詞的詞向量表示,并將其傳送給所述縮寫詞消歧模塊; 所述縮寫詞消歧模塊將目標(biāo)縮寫詞的詞向量表示與所述縮寫詞庫中的目標(biāo)縮寫詞的 每個意義的詞向量表示做比對,選擇選擇最相似的意義作為待檢測文檔中目標(biāo)縮寫詞的意 義。
2. 如權(quán)利要求1所述的一種基于詞向量的縮寫詞歧義消除系統(tǒng),其特征在于:目標(biāo)縮 寫詞包括首字母縮略詞。
3. 如權(quán)利要求1所述的一種基于詞向量的縮寫詞歧義消除系統(tǒng),其特征在于:訓(xùn)練數(shù) 據(jù)集是一系列含有至少一個目標(biāo)縮寫詞的文檔,且每一篇文檔中的目標(biāo)縮寫詞意義已知。
4. 如權(quán)利要求2所述的一種基于詞向量的縮寫詞歧義消除系統(tǒng),其特征在于:訓(xùn)練數(shù) 據(jù)集是一系列含有至少一個目標(biāo)縮寫詞的文檔,且每一篇文檔中的目標(biāo)縮寫詞意義已知。
5. 如權(quán)利要求1或2或3或4所述的一種基于詞向量的縮寫詞歧義消除系統(tǒng),其特征 在于:所述縮寫詞庫包括預(yù)處理單元、詞向量訓(xùn)練單元、關(guān)鍵詞選擇單元和詞向量表示生成 單元; 所述預(yù)處理單元包括文本清理機(jī)構(gòu)和縮寫詞整理機(jī)構(gòu);所述文本清理機(jī)構(gòu)將包含目標(biāo) 縮寫詞的訓(xùn)練數(shù)據(jù)集中的每一篇文檔中所有非字母符號及停用詞全部去除,傳送給所述縮 寫詞整理機(jī)構(gòu);所述縮寫詞整理機(jī)構(gòu)將訓(xùn)練數(shù)據(jù)
當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1
漳浦县| 郧西县| 安塞县| 独山县| 淮滨县| 电白县| 通河县| 隆安县| 赞皇县| 阿尔山市| 保山市| 稻城县| 古蔺县| 图片| 镇雄县| 绩溪县| 湛江市| 黄大仙区| 邛崃市| 遂溪县| 揭西县| 乌拉特后旗| 嘉鱼县| 麦盖提县| 七台河市| 金寨县| 寿阳县| 岢岚县| 灵寿县| 拉孜县| 英德市| 柯坪县| 昌乐县| 噶尔县| 方正县| 金沙县| 新巴尔虎左旗| 衡东县| 普兰县| 磐安县| 客服|