本發(fā)明公開了一種基于知識(shí)本體的專利文獻(xiàn)相似性度量方法及使用該方法的專利文獻(xiàn)主題詞語(yǔ)義檢索系統(tǒng),涉及面向?qū)@谋镜淖匀徽Z(yǔ)言信息處理技術(shù)領(lǐng)域。
背景技術(shù):
現(xiàn)今的社會(huì)是一個(gè)信息型社會(huì),海量的數(shù)據(jù)在社會(huì)的各個(gè)領(lǐng)域產(chǎn)生,如何能從海量數(shù)據(jù)中挖掘出有價(jià)值的信息一直是學(xué)術(shù)界研究的熱點(diǎn)。專利作為一種特殊的信息戰(zhàn)略資源,是國(guó)家戰(zhàn)略資源的發(fā)展一個(gè)重要的組成部分。
專利信息記載著人類社會(huì)發(fā)明創(chuàng)造的成就,其將技術(shù)性、法律性和經(jīng)濟(jì)性集合于一體,是當(dāng)代社會(huì)中最重要的技術(shù)知識(shí)寶庫(kù)。專利具有新穎性,創(chuàng)造性和實(shí)用性的特點(diǎn),隨著世界經(jīng)濟(jì)和技術(shù)的競(jìng)爭(zhēng)越來越激烈,專利因其作為國(guó)家科技創(chuàng)新成果的重要表現(xiàn)形式和載體,具有非常高的知識(shí)含量,成為推動(dòng)現(xiàn)代社會(huì)進(jìn)步和經(jīng)濟(jì)技術(shù)發(fā)展的重要杠桿。
專利檢索是專利行業(yè)中最常用的工具,包括專利申請(qǐng)人、審查員以及從事專利運(yùn)營(yíng)活動(dòng)的相關(guān)企業(yè)都會(huì)用到,能否將最相關(guān)的專利從數(shù)千萬的文獻(xiàn)中檢索出來是衡量一個(gè)專利檢索工具的重要因素。
目前比較常見的專利文獻(xiàn)檢索方式主要有:傳統(tǒng)的基于布爾邏輯的檢索技術(shù),需要制定合適的檢索策略,編寫復(fù)雜的檢索式,檢索效率較低,如soopat專利搜索引擎;比較流行的基于概念的相似度計(jì)算,主要包括向量空間模型(vectorspacemodel,vsm)和概率模型(probabilisticmodel),基于統(tǒng)計(jì)分析詞共現(xiàn)信息,完成檢索關(guān)鍵詞的語(yǔ)義擴(kuò)展,如國(guó)家知識(shí)產(chǎn)權(quán)局專利檢索與服務(wù)系統(tǒng)中的語(yǔ)義檢索模塊。但是,上述兩種方式在檢索過程中,均未充分考慮專利文獻(xiàn)本身數(shù)據(jù)的特點(diǎn),造成查全和查準(zhǔn)率低,檢索不方便等問題。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明的主要目的是提供一種基于知識(shí)本體的專利文獻(xiàn)相似性度量方法及使用該方法的專利文獻(xiàn)關(guān)鍵詞語(yǔ)義檢索系統(tǒng),在基于傳統(tǒng)的基于概念的檢索方法的基礎(chǔ)上,進(jìn)一步挖掘?qū)@谋镜臄?shù)據(jù)特點(diǎn),提高專利文獻(xiàn)表示的全面性、深入性和準(zhǔn)確性,同時(shí)通過相關(guān)手段,進(jìn)一步提高專利文獻(xiàn)相似性或者相關(guān)性計(jì)算的準(zhǔn)確率。
本發(fā)明的目的是通過以下技術(shù)方案實(shí)現(xiàn)的:
一種基于知識(shí)本體的專利文獻(xiàn)相似性度量方法,包括以下步驟:
步驟一,根據(jù)專利文獻(xiàn)結(jié)構(gòu)特點(diǎn)、位置特征和關(guān)鍵詞特征,從專利全文文本中提取核心技術(shù)方案信息;
作為優(yōu)選,所述核心技術(shù)方案信息包括標(biāo)題,分類號(hào),發(fā)明解決的技術(shù)問題,達(dá)到的有益效果,技術(shù)方案應(yīng)用的領(lǐng)域,權(quán)利要求中的發(fā)明內(nèi)容。
作為優(yōu)選,所述專利全文文本為xml格式,符合國(guó)家知識(shí)產(chǎn)權(quán)局公布的cn-txts-10-a數(shù)據(jù)編碼規(guī)范,包括著錄項(xiàng)目、摘要、權(quán)利要求書、說明書、說明書附圖和索引信息。
步驟二,構(gòu)建專利文獻(xiàn)分類號(hào)主題詞詞間關(guān)系模型;
基于專利文獻(xiàn)數(shù)據(jù)集,人工提取每篇專利文獻(xiàn)的主題詞和分類號(hào),建立分類號(hào)與主題詞聯(lián)系,同時(shí)結(jié)合主題詞的語(yǔ)義信息和領(lǐng)域表達(dá)方式特點(diǎn),建立主題詞之間的相關(guān)關(guān)系:上、下位關(guān)系,同義關(guān)系和近義關(guān)系。利用分類號(hào)主題詞之間的聯(lián)系以及主題詞相互間的關(guān)系,構(gòu)建分類號(hào)主題詞詞間關(guān)系模型。
作為優(yōu)選,所述主題詞詞間關(guān)系模型為一個(gè)有向圖結(jié)構(gòu),圖的結(jié)點(diǎn)為主題詞,主題詞的屬性包括分類號(hào)、該主題詞的同義詞和近義詞,如果主題詞之間存在直接上、下位關(guān)系,則有一條連接兩個(gè)詞的有向邊,起點(diǎn)為下位詞,終點(diǎn)為上位詞,權(quán)重為常量w,大小介于0到1之間,本方案中w的值為0.8。
步驟三,基于步驟二構(gòu)建的分類號(hào)主題詞詞間關(guān)系模型生成領(lǐng)域詞典,使用領(lǐng)域詞典對(duì)核心技術(shù)方案信息的文本分詞,使用停用詞庫(kù)對(duì)分詞結(jié)果去停用詞,得到語(yǔ)料文本;
其中,由分類號(hào)主題詞關(guān)系模型得出領(lǐng)域詞典,領(lǐng)域信息由分類號(hào)唯一決定,不同的分類號(hào)劃分為不同的領(lǐng)域,根據(jù)核心技術(shù)方案的分類號(hào),采用對(duì)應(yīng)的領(lǐng)域詞典分詞。停用詞庫(kù)由常見的限定詞、介詞或副詞等無實(shí)際檢索意義的詞組成,通過去停用詞節(jié)省存儲(chǔ)空間和提高檢索效率。
步驟四,使用關(guān)鍵詞提取工具,提取步驟三中得到的語(yǔ)料文本中的關(guān)鍵詞及其權(quán)重;
作為優(yōu)選,所述關(guān)鍵詞提取方法為:首先,訓(xùn)練語(yǔ)料文本的tf-idf模型,然后,使用textrank方法提取關(guān)鍵詞及詞權(quán)重,其中詞初始權(quán)重為其tf-idf值,textrank方法中迭代次數(shù)范圍為5-20。
步驟五,基于步驟四得到的關(guān)鍵詞,提取經(jīng)過訓(xùn)練的詞向量模型中對(duì)應(yīng)的詞向量;
作為優(yōu)選,經(jīng)過訓(xùn)練的詞向量模型為使用詞嵌入工具對(duì)專利文獻(xiàn)數(shù)據(jù)集訓(xùn)練而得。
作為優(yōu)選,所述詞嵌入工具為word2vec或fasttext。
訓(xùn)練詞向量的實(shí)施步驟為:針對(duì)專利文獻(xiàn)數(shù)據(jù)集中的每一篇專利文本,結(jié)合上述步驟一中的方法得出核心技術(shù)方案信息;利用上述步驟三中的方法處理核心技術(shù)方案信息,得到分詞和去停用詞后的結(jié)果,最終每篇專利文本處理成以空格分割的連續(xù)若干詞;使用詞嵌入工具,將處理的結(jié)果作為輸入,即可訓(xùn)練出詞向量模型,在詞向量模型中,每個(gè)詞被量化為一個(gè)向量,向量的維度一般50-100,本方案中向量維度為100。
步驟六,基于步驟四和步驟五得到的關(guān)鍵詞,詞權(quán)重和詞向量信息,得出該專利文獻(xiàn)的量化表示
步驟七,使用emd(earthmovingdistance)工具,計(jì)算不同專利文獻(xiàn)的量化表示之間的距離,關(guān)鍵emd距離越小,語(yǔ)義越近似。
作為優(yōu)選,所述使用emd計(jì)算不同專利文獻(xiàn)的量化表示之間的距離的步驟為:
步驟7-1,存在專利文獻(xiàn)di和dj的量化表示結(jié)果為
步驟7-2,由di、dj和setp,將專利文獻(xiàn)di和dj的量化表示結(jié)果轉(zhuǎn)變?yōu)?imgfile="bda0001318891450000041.gif"wi="373"he="95"img-content="drawing"img-format="gif"orientation="portrait"inline="no"/>和
步驟7-3,由d'i、d'j和setp構(gòu)造特征距離矩陣{mij},其中
步驟7-4,根據(jù)d'i,d'j和{mij},使用emd工具計(jì)算d'i和d'j之間的特征分布距離,該特征分布距離即emd距離。
有益效果
本發(fā)明在基于傳統(tǒng)的基于概念的檢索方法的基礎(chǔ)上,通過進(jìn)一步挖掘?qū)@谋镜臄?shù)據(jù)特點(diǎn):引入位置特征和關(guān)鍵詞相似度特征,提取專利核心技術(shù)方案;構(gòu)建專利分類號(hào)主題詞模型,豐富技術(shù)主題關(guān)鍵詞的語(yǔ)義信息和領(lǐng)域信息;將專利文本量化表示為由關(guān)鍵詞、詞權(quán)重和詞向量為元組信息的集合,通過使用emd工具來計(jì)算文本量化結(jié)果之間的距離,進(jìn)一步得出專利文獻(xiàn)的相似度,提高了專利文獻(xiàn)表示的全面性、深入性和準(zhǔn)確性,提高了專利數(shù)據(jù)的檢索結(jié)果的準(zhǔn)確度和相關(guān)度。
此外,本發(fā)明提供的語(yǔ)義相似主題詞推薦功能,可以幫助用戶在檢索過程中及時(shí)調(diào)整搜索關(guān)鍵詞,加快檢索速度;命中結(jié)果集分類號(hào)分布信息,可以幫助確定搜索文本的分類號(hào)信息,對(duì)專利分類員分類業(yè)務(wù)起到幫助作用。
附圖說明
圖1為本發(fā)明實(shí)施例一種基于知識(shí)本體的專利文獻(xiàn)相似性度量方法流程示意圖;
圖2為專利文獻(xiàn)結(jié)構(gòu)圖提取準(zhǔn)確度示意圖;
圖3為分類號(hào)主題詞模型示意圖;
圖4為專利文獻(xiàn)關(guān)鍵詞語(yǔ)義檢索結(jié)果示意圖。
具體實(shí)施方式
為了使本發(fā)明的目的,技術(shù)方案及優(yōu)點(diǎn)更加清楚明白,以下結(jié)合附圖通過具體實(shí)施例對(duì)本發(fā)明進(jìn)一步詳細(xì)說明。
實(shí)施例1
如圖1所示為一種基于知識(shí)本體的專利文獻(xiàn)相似性度量方法的流程示意圖,該方法包括以下步驟:
步驟1),根據(jù)專利文獻(xiàn)結(jié)構(gòu)特點(diǎn)、位置特征和關(guān)鍵詞特征提取核心技術(shù)方案信息;
此處,專利文獻(xiàn)結(jié)構(gòu)特點(diǎn)為專利文獻(xiàn)說明書的類目與其xml文件標(biāo)簽之間的對(duì)應(yīng)關(guān)系;位置特征為提取核心技術(shù)方案信息所在的文檔中的段落信息,如發(fā)明內(nèi)容第一段,關(guān)鍵詞特征為提取核心技術(shù)方案信息類目的特殊描述詞語(yǔ),如優(yōu)化、改進(jìn)、解決等。
眾所周知,《中華人民共各國(guó)專利法》規(guī)定:申請(qǐng)發(fā)明或者實(shí)用新型專利的,應(yīng)當(dāng)提交請(qǐng)求書、說明書及其摘要和權(quán)利要求書等文件。說明書應(yīng)當(dāng)對(duì)發(fā)明或者實(shí)用新型作出清楚、完整的說明,以所屬技術(shù)領(lǐng)域人員能夠?qū)崿F(xiàn)為準(zhǔn),并且說明書應(yīng)當(dāng)包括下列內(nèi)容:技術(shù)領(lǐng)域、背景技術(shù)、發(fā)明內(nèi)容、附圖說明和具體實(shí)施方式。權(quán)利要求書應(yīng)當(dāng)以說明書為依據(jù),清楚、簡(jiǎn)要地限定要求專利保護(hù)的范圍。
因此,本實(shí)施例就以上述法規(guī)作為依據(jù),設(shè)定核心技術(shù)方案信息包括以下內(nèi)容:標(biāo)題,分類號(hào),發(fā)明解決的技術(shù)問題,達(dá)到的有益效果,技術(shù)方案應(yīng)用的領(lǐng)域,權(quán)利要求中的發(fā)明內(nèi)容信息等。當(dāng)上述法規(guī)變化的時(shí)候,可以根據(jù)法規(guī)內(nèi)容的調(diào)整調(diào)整相應(yīng)的核心技術(shù)方案信息。當(dāng)然,對(duì)于其它的很多應(yīng)用場(chǎng)合,也都可以類推地根據(jù)相關(guān)規(guī)定構(gòu)建核心技術(shù)方案信息。
由于專利文本一般具有標(biāo)準(zhǔn)的結(jié)構(gòu)化特征,因此可以利用該特點(diǎn),采用位置特征和關(guān)鍵詞相似度匹配等技術(shù),提取出專利文本的上述核心技術(shù)方案信息,主要包括:加入關(guān)鍵技術(shù)特征的標(biāo)題、專利要解決的技術(shù)問題、所達(dá)到的有益效果、專利技術(shù)可以應(yīng)用的領(lǐng)域信息、專利的核心技術(shù)方案等。本實(shí)施例中,基于位置特征和關(guān)鍵詞匹配技術(shù)提取核心技術(shù)方案信息的方法見表1,根據(jù)位置特征在專利文本的特定位置,查找匹配關(guān)鍵詞特征,即可以提取出專利文本的核心技術(shù)信息。
目前,專利文本大部分是xml格式,因此,需要對(duì)xml格式的文本進(jìn)行解析,分析其中各個(gè)不同類目的標(biāo)簽路徑信息,根據(jù)標(biāo)簽路徑提取文本,結(jié)合表1的位置特征和關(guān)鍵詞特征信息,即可提取特定類目的信息?;诖?,針對(duì)國(guó)家知識(shí)產(chǎn)權(quán)局專利局公布的專利xml文本,分析結(jié)構(gòu)信息,表2中包含專利文本各個(gè)類目的xpath信息。
表1提取核心技術(shù)方案信息的位置特征和關(guān)鍵詞特征
表2專利文本各類目標(biāo)簽路徑信息
結(jié)合表1中的位置特征和表2中的類目與標(biāo)簽路徑的對(duì)應(yīng)關(guān)系,解析專利文本xml文件,獲取對(duì)應(yīng)類目的文本信息。利用表1中的關(guān)鍵詞進(jìn)行相似度匹配,提取對(duì)應(yīng)類目的文本數(shù)據(jù)。對(duì)比提取出的文本數(shù)據(jù)和人工深加工的數(shù)據(jù),使用最長(zhǎng)字串算法,計(jì)算準(zhǔn)確度如附圖2所示,標(biāo)題,分類號(hào)和技術(shù)問題準(zhǔn)確率達(dá)到80%以上,有益效果,用途領(lǐng)域和核心方案的準(zhǔn)確率在70%-80%之間,說明本步驟的根據(jù)專利文獻(xiàn)結(jié)構(gòu)特點(diǎn)、位置特征和關(guān)鍵詞特征提取核心技術(shù)方案信息方案的高度可行性。
步驟2),構(gòu)建專利文獻(xiàn)分類號(hào)主題詞詞間關(guān)系模型;
基于專利文獻(xiàn)數(shù)據(jù)集,人工提取每篇專利文獻(xiàn)的主題詞和分類號(hào),建立分類號(hào)與主題詞聯(lián)系,同時(shí)結(jié)合主題詞的語(yǔ)義信息和領(lǐng)域表達(dá)方式特點(diǎn),建立主題詞之間的相關(guān)關(guān)系:上、下位關(guān)系,同義關(guān)系和近義關(guān)系。利用分類號(hào)主題詞之間的聯(lián)系以及主題詞相互間的關(guān)系,構(gòu)建分類號(hào)主題詞詞間關(guān)系模型,如附圖3所示為以主題詞“電容傳感器”為例說明主題詞詞間關(guān)系模型。
分詞結(jié)果的好壞很大程度上決定后續(xù)關(guān)鍵詞提取、信息檢索等步驟,由于專利文獻(xiàn)有很強(qiáng)的領(lǐng)域特性,存在構(gòu)成技術(shù)特征的主題詞在不同的領(lǐng)域表述相同而含義不同的現(xiàn)象。因此,本發(fā)明建立了分類號(hào)主題詞模型,該模型為一個(gè)有向圖結(jié)構(gòu),圖的結(jié)點(diǎn)為主題詞,主題詞的屬性包括分類號(hào),同義詞,近義詞等,如果主題詞詞之間存在直接上、下位關(guān)系,則有一條連接兩個(gè)詞的有向邊,起點(diǎn)為下位詞,終點(diǎn)為上位詞,權(quán)重為常量w,大小介于0到1之間,本實(shí)施例中w=0.8。附圖3為所述有向圖中每個(gè)節(jié)點(diǎn)的屬性信息,由領(lǐng)域特征和關(guān)系特征構(gòu)成,領(lǐng)域特征主要通過分類號(hào)體現(xiàn),關(guān)系特征通過族首詞、上位詞、下位詞和同義詞體現(xiàn)。基于此模型,一方面可以實(shí)現(xiàn)針對(duì)不同領(lǐng)域的專利文本,采用不同的領(lǐng)域詞典進(jìn)行分詞,可以進(jìn)一步提高分詞的準(zhǔn)確度,另一方面,加入了主題詞的關(guān)系特征,可以對(duì)主題詞進(jìn)一步進(jìn)行語(yǔ)義擴(kuò)展。
步驟3),根據(jù)步驟2中分類號(hào)主題詞詞間關(guān)系模型生成領(lǐng)域詞典以及由常見的介詞、語(yǔ)氣詞等無實(shí)際意義的詞構(gòu)成的停用詞庫(kù),對(duì)步驟一中提取的核心技術(shù)方案文本分詞和去停用詞,得到語(yǔ)料文本;
分詞過程包括:根據(jù)關(guān)系模型中的領(lǐng)域特征,提取分類號(hào)和主題詞信息,生成由分類號(hào)標(biāo)識(shí)的領(lǐng)域詞典,結(jié)合當(dāng)前專利文本的分類號(hào)信息,依據(jù)該分類號(hào)的領(lǐng)域詞典,使用中文分詞工具對(duì)核心技術(shù)方案文本進(jìn)行分詞,實(shí)施方案中選取的中文分詞工具為結(jié)巴分詞;
去停用詞過程包括:對(duì)分詞結(jié)果中的所有詞匯,查詢是否出現(xiàn)在停用詞庫(kù)中,如果出現(xiàn),則過濾掉。
步驟4),使用關(guān)鍵詞提取工具,提取語(yǔ)料文本中的關(guān)鍵詞及其權(quán)重;
tf-idf算法和textrank算法均可以用于提取文本的關(guān)鍵詞。
tf-idf是一種基于統(tǒng)計(jì)的模型的算法,其中tf為詞頻,特指某一個(gè)詞在指定文檔中出現(xiàn)的頻率,idf為逆文檔頻率,即數(shù)據(jù)集文檔的總數(shù)與包含該詞的文檔數(shù)的比的對(duì)數(shù),本算法的思想是某一個(gè)詞在文檔中出現(xiàn)的次數(shù)越多,其tf權(quán)重就越高,同時(shí)包含該詞的文檔數(shù)越多,其idf權(quán)重就越小,既考慮本片中詞的重要度,也考慮了全局中該詞的區(qū)分度。但是其問題在于:tf權(quán)重部分僅考慮了詞的統(tǒng)計(jì)頻率,忽略了詞與詞之間的聯(lián)系;idf基于整個(gè)語(yǔ)料庫(kù)計(jì)算,忽略了語(yǔ)料庫(kù)的類別信息。
textrank是一種基于圖結(jié)構(gòu)的模型,由pagerank的思想演化而來,其主要思想是:初始化圖的頂點(diǎn)為文檔中所有的詞,默認(rèn)頂點(diǎn)的權(quán)重為1或者詞總數(shù)的倒數(shù),針對(duì)特定詞w,可以給其后大小為span的窗口內(nèi)的各個(gè)詞投票,同時(shí)增加一條從該特定詞連接窗口內(nèi)其余詞的邊,并將該條邊的權(quán)重設(shè)置為1,如果該條邊已經(jīng)存在,則將該邊的權(quán)重加1,計(jì)算公式為公式(2),經(jīng)過特定次迭代后,每個(gè)頂點(diǎn)的權(quán)重代表該詞的重要程度。本算法的優(yōu)勢(shì)在于一定程度上考慮了詞的位置關(guān)系,不足之處為:初始化的時(shí)候每個(gè)詞的權(quán)重相等?;诖?,本實(shí)施例將tf-idf計(jì)算的詞權(quán)重信息引入textrank中,作為詞的初始權(quán)重,具體計(jì)算公式為公式(1),其中vi為文本中的詞,n為迭代次數(shù),實(shí)驗(yàn)結(jié)果表明,n的范圍應(yīng)為5-20,d為阻尼系數(shù),方案中,阻尼系數(shù)設(shè)置為0.85,wji為詞vj到vi的邊的權(quán)重,wn(vi)為第n次迭代的權(quán)重結(jié)果,w1通過tf-idf的權(quán)重進(jìn)行迭代計(jì)算。試驗(yàn)結(jié)果表明,使用該方法后,可以一定程度上改善textrank提取的關(guān)鍵詞的準(zhǔn)確度,準(zhǔn)確率提高了5%,如表3所示,準(zhǔn)確率為提取結(jié)果中準(zhǔn)確數(shù)據(jù)量與結(jié)果集數(shù)量之間的比值,召回率為提取結(jié)果中準(zhǔn)確數(shù)量與標(biāo)準(zhǔn)數(shù)據(jù)準(zhǔn)確數(shù)量的比值,f-值使用公式(2)計(jì)算,其中p為準(zhǔn)確率,q為召回率。
表3引入tf-idf作為初始權(quán)重的textrank關(guān)鍵詞提取準(zhǔn)確度
不限于此,本領(lǐng)域技術(shù)人員還可以類似的通過其他關(guān)鍵詞提取工具提取關(guān)鍵詞及其權(quán)重。
步驟五,基于步驟四得到的關(guān)鍵詞,提取經(jīng)過訓(xùn)練的詞向量模型中對(duì)應(yīng)的詞向量;
本步驟中經(jīng)過訓(xùn)練的詞向量模型為使用詞嵌入工具對(duì)專利文獻(xiàn)數(shù)據(jù)集訓(xùn)練而得。
詞嵌入工具為:word2vec或fasttext。
訓(xùn)練詞向量的實(shí)施步驟為:針對(duì)專利文獻(xiàn)數(shù)據(jù)集中的每一篇專利文本,結(jié)合上述步驟一中的方法得出核心技術(shù)方案信息;利用上述步驟三中的方法處理核心技術(shù)方案信息,得到分詞和去停用詞后的結(jié)果,最終每篇專利文本處理成以空格分割的連續(xù)若干詞;使用詞嵌入工具,將處理的結(jié)果作為輸入,即可訓(xùn)練出詞向量模型,在詞向量模型中,每個(gè)詞被量化為一個(gè)向量,向量的維度一般50-100,本實(shí)施例中向量維度為100。
fasttext是2016年facebook推出一個(gè)用于文本分類和計(jì)算詞向量的工具,其優(yōu)點(diǎn)在于模型簡(jiǎn)單,訓(xùn)練速度快。與常用的word2vec的cbow模型在結(jié)構(gòu)上是一樣的,不同之處在于word2vec目標(biāo)是通過當(dāng)前詞的前后若干的詞來預(yù)測(cè)當(dāng)前詞,在使用層次softmax的時(shí)候,huffman樹的葉子節(jié)點(diǎn)處是訓(xùn)練語(yǔ)料里所有詞的詞向量;而fasttext在進(jìn)行文本分類時(shí),huffman樹葉子節(jié)點(diǎn)處是每一個(gè)類別標(biāo)簽的詞向量,但是在訓(xùn)練過程中,每一個(gè)詞也會(huì)得出對(duì)應(yīng)的詞向量。本實(shí)驗(yàn)采用fasttext作為詞向量的訓(xùn)練模型,主要由于fasttext可以實(shí)現(xiàn)ngram切分,將長(zhǎng)詞通過ngram切分為幾個(gè)短詞,這樣對(duì)于未登錄詞也可以通過切出來的ngram詞向量合并為一個(gè)詞,表4是分別通過fasttext模型和word2vec模型計(jì)算一組特征詞,計(jì)算最相似的前20個(gè)詞,可見,對(duì)比fasttext模型和word2vec模型計(jì)算的結(jié)果,可以發(fā)現(xiàn)fasttext的結(jié)果一方面詞意更接近,計(jì)算結(jié)果均與漢字編碼相關(guān),另一方面相似度更高,word2vec的相似度分布在0.899-0.916之間,fasttext的相似度分布在0.934-0.963之間,因此,fasttext效果更優(yōu)。
表4fasttext和word2vec最相似詞對(duì)比
步驟6),基于上述得到的關(guān)鍵詞,詞權(quán)重和詞向量信息,得出專利文本的量化表示
步驟7),使用emd(earthmovingdistance)工具,計(jì)算不同專利文本的量化表示之間的距離,emd距離越小,語(yǔ)義更近似。
emd(earthmovingdistance)算法為評(píng)估特征空間中兩個(gè)多維分布之間的不相似性的方法,利用單個(gè)特征之間的距離成本及各自的權(quán)重,emd可以將各特征的距離轉(zhuǎn)變?yōu)樘卣骷戏植嫉木嚯x。其優(yōu)點(diǎn)在于:如果文本中的主題詞表達(dá)不同,但是語(yǔ)義距離接近,詞向量余弦值小,則理論上主題詞集合的距離也會(huì)小。
本實(shí)施例中,專利文獻(xiàn)之間emd距離的計(jì)算通過以下過程實(shí)現(xiàn):
基于步驟6完成專利文獻(xiàn)di和dj的量化表示結(jié)果為
fij≥0,i=1,2,...n;j=1,2,...n(5)
表5為檢索文本與語(yǔ)料集中專利文本之間emd距離最小的前5條的計(jì)算結(jié)果,其中,檢索文本為若干空格分開的詞,語(yǔ)料集為若干篇專利文獻(xiàn),計(jì)算結(jié)果包括標(biāo)題和emd距離。分析檢索結(jié)果,可以發(fā)現(xiàn):語(yǔ)義上近似的文本其emd距離更小,所以,可以使用emd距離衡量文本之間語(yǔ)義相似程度,emd值越大,語(yǔ)義越不相關(guān),emd值越小,語(yǔ)義越近似。
表5emd距離計(jì)算結(jié)果
實(shí)施例2
使用基于知識(shí)本體的專利文獻(xiàn)相似性度量方法的專利文獻(xiàn)關(guān)鍵詞語(yǔ)義檢索系統(tǒng),包括以下模塊:關(guān)鍵詞輸入模塊,關(guān)鍵詞語(yǔ)義擴(kuò)展模塊,檢索引擎匹配相關(guān)詞模塊,語(yǔ)義距離計(jì)算模塊,相關(guān)信息統(tǒng)計(jì)模塊,結(jié)果展示模塊。
關(guān)鍵詞輸入模塊用于接收用戶輸入的文本,生成關(guān)鍵詞集合。本模塊接收的輸入可以是由空格分隔的關(guān)鍵詞或一段文本,如果輸入為空格分隔的關(guān)鍵詞,以空格為分隔符,提取每一個(gè)關(guān)鍵詞組成關(guān)鍵詞集合;如果輸入為一段文本,結(jié)合步驟三中的方法,如果用戶輸入的文本無領(lǐng)域信息,則采用由所有主題詞構(gòu)成的全領(lǐng)域詞典,對(duì)輸入的文本處理,進(jìn)行分詞和去停用詞操作,將得到的詞組成關(guān)鍵詞集合;否則采用領(lǐng)域詞典對(duì)輸入的文本處理,進(jìn)行分詞和去停用詞操作,將得到的詞組成關(guān)鍵詞集合。
關(guān)鍵詞語(yǔ)義擴(kuò)展模塊,根據(jù)關(guān)鍵詞輸入模塊的關(guān)鍵詞集合進(jìn)行語(yǔ)義擴(kuò)展得到相關(guān)詞集合,該集合中每個(gè)元素由相關(guān)詞和該相關(guān)詞的相關(guān)性權(quán)重組成。
作為優(yōu)選,本實(shí)施例通過如下三種方式進(jìn)行關(guān)鍵詞語(yǔ)義擴(kuò)展:
1、基于步驟五訓(xùn)練的詞向量模型,利用詞向量訓(xùn)練工具,以關(guān)鍵詞輸入模塊得到的關(guān)鍵詞集合為輸入,即可得出與關(guān)鍵詞集合最相關(guān)的若干詞匯及相關(guān)性的權(quán)重,權(quán)重范圍為0到1,權(quán)重越大,越相關(guān),實(shí)施方案中取最相關(guān)10條詞匯作為擴(kuò)展結(jié)果;
2、使用主題詞詞間關(guān)系模型得出關(guān)鍵詞集合中所有詞的上位詞和下位詞,即在主題詞詞間關(guān)系模型的有向圖中,如果關(guān)鍵詞集合中的詞為圖中一個(gè)結(jié)點(diǎn)的主題詞,則取出與該結(jié)點(diǎn)存在連接關(guān)系的結(jié)點(diǎn)中的主題詞作為相關(guān)詞,相關(guān)詞權(quán)重為圖中連接兩個(gè)詞的邊權(quán)重,實(shí)施方案中邊權(quán)重取0.8;
3、針對(duì)關(guān)鍵詞輸入模塊得到的關(guān)鍵詞集合,如果關(guān)鍵詞在相關(guān)詞集合中不存在,則加入相關(guān)詞集合,并設(shè)置其相關(guān)性權(quán)重為1。
上述三種優(yōu)選方案,可單獨(dú)實(shí)施,也可相互結(jié)合實(shí)施,根據(jù)擴(kuò)展得到的相關(guān)詞及相關(guān)性權(quán)重信息,得到相關(guān)詞集合。
檢索引擎匹配相關(guān)詞模塊,使用全文檢索引擎對(duì)基于已有專利文獻(xiàn)構(gòu)建的全文索引根據(jù)關(guān)鍵詞語(yǔ)義擴(kuò)展模塊輸出的相關(guān)詞集合中的相關(guān)詞進(jìn)行檢索,得到命中專利文獻(xiàn)結(jié)果集,集合中的每個(gè)元素為一個(gè)二元組(weightj,docj),其中weightj為第j個(gè)命中文檔權(quán)重,其是根據(jù)文檔中包含的語(yǔ)義擴(kuò)展模塊輸出的相關(guān)詞的權(quán)重求和取平均計(jì)算而得,docj為第j個(gè)命中文檔的量化表示;
語(yǔ)義距離計(jì)算模塊,通過公式(9)計(jì)算關(guān)鍵詞輸入模塊輸入內(nèi)容與檢索引擎匹配相關(guān)詞模塊輸出的命中專利文獻(xiàn)結(jié)果集中的專利文獻(xiàn)的相似度距離sim,其中doci為輸入文本的量化表示:
sim=weightj*emd(doci,docj)(9)
其中,docj的量化表示同實(shí)施例1中步驟6)中的量化表示;emd()函數(shù)計(jì)算過程同實(shí)施例1中步驟7)中emd距離的計(jì)算過程。
相關(guān)信息統(tǒng)計(jì)模塊,統(tǒng)計(jì)檢索相似專利文獻(xiàn)過程的相關(guān)信息,統(tǒng)計(jì)的信息包括數(shù)據(jù)總量,檢索時(shí)間,命中結(jié)果總數(shù),命中結(jié)果分類號(hào)分布,語(yǔ)義擴(kuò)展的相關(guān)詞及權(quán)重等。
展示模塊,在屏幕上展示與關(guān)鍵詞輸入模塊輸入內(nèi)容相似的檢索結(jié)果及相關(guān)信息,展示的信息包括:對(duì)命中的專利文獻(xiàn)按照相似度由高到低顯示,即sim值由低到高顯示,相關(guān)信息統(tǒng)計(jì)模塊統(tǒng)計(jì)的相關(guān)信息的展示。
附圖4為一個(gè)網(wǎng)頁(yè)頁(yè)面,包括輸入框,可以輸入關(guān)鍵詞或一段文本,點(diǎn)擊檢索按鈕后,用戶可以得到按照相似度排序的專利文獻(xiàn)信息,如標(biāo)題,申請(qǐng)?zhí)?,技術(shù)方案等信息,同時(shí)頁(yè)面右側(cè)分為三塊,第一塊為本次檢索結(jié)果信息,如檢索關(guān)鍵詞,命中結(jié)果,使用時(shí)間,數(shù)據(jù)總量;第二塊為檢索技術(shù)主題詞推薦,包括一系列相關(guān)詞及相關(guān)度,即語(yǔ)義擴(kuò)展模塊輸出的相關(guān)詞及權(quán)重;第三塊為檢索結(jié)果中專利文本的領(lǐng)域分布,包括分類號(hào)及數(shù)量。
綜上所述,本發(fā)明方法基于專利文獻(xiàn)數(shù)據(jù)特點(diǎn)建模,提供一種簡(jiǎn)單有效的專利文獻(xiàn)相似性度量方法,該方法以及基于該方法構(gòu)建的系統(tǒng)可以應(yīng)用于專利文獻(xiàn)的檢索、審查、分類和分析等相關(guān)業(yè)務(wù)領(lǐng)域,檢索相關(guān)專利文獻(xiàn)和評(píng)價(jià)技術(shù)方案相關(guān)性等。
為了說明本發(fā)明的內(nèi)容和實(shí)施方法,本說明書給出了具體實(shí)施例:使用基于知識(shí)本體的專利文獻(xiàn)相似性度量方法的專利文獻(xiàn)關(guān)鍵詞語(yǔ)義檢索系統(tǒng)。本實(shí)施例中引入的細(xì)節(jié)的目的不是限制權(quán)利要求書的范圍,而是幫助理解本發(fā)明所述方法。本領(lǐng)域的技術(shù)人員應(yīng)理解:在不脫離本發(fā)明及其權(quán)利要求的精神和范圍內(nèi),對(duì)最佳實(shí)施例步驟的各種修改、變化或替換都是可能的。因此,本發(fā)明不應(yīng)局限于最佳實(shí)施例及附圖所公開的內(nèi)容。