本發(fā)明涉及一種基于知識(shí)網(wǎng)絡(luò)的創(chuàng)意自動(dòng)生成方法與終端。
背景技術(shù):
當(dāng)今,信息技術(shù)高速發(fā)展,文字、圖片、視頻等數(shù)據(jù)倍增,全球的數(shù)據(jù)總量已經(jīng)達(dá)到zb級(jí)別,并且每年的增長(zhǎng)速度都保持在40%左右,顯然我們已經(jīng)進(jìn)入了大數(shù)據(jù)時(shí)代。大數(shù)據(jù)給人們帶來(lái)了機(jī)會(huì)的同時(shí)也增大了定向檢索發(fā)明創(chuàng)意的難度,這會(huì)令一些創(chuàng)新者不勝其煩,以往的檢索發(fā)明創(chuàng)意信息的方式都是通過(guò)搜索引擎按需求搜索發(fā)明創(chuàng)意資料,查看專利、論文或者進(jìn)入某一科技博客、論壇逐一翻看與你發(fā)明創(chuàng)意主題相似的話題、評(píng)論,這樣會(huì)導(dǎo)致一些創(chuàng)新者在海量數(shù)據(jù)中檢索有價(jià)值的發(fā)明創(chuàng)意信息難度加大,在檢索過(guò)程中不僅會(huì)消耗大量的時(shí)間,而且檢索精度非常低。在國(guó)家“雙創(chuàng)”政策發(fā)布以來(lái),人們對(duì)于尋求發(fā)明創(chuàng)意進(jìn)行創(chuàng)新的熱情越來(lái)越高漲,顯然傳統(tǒng)的方式已經(jīng)滿足不了新時(shí)代人們的需求。
技術(shù)實(shí)現(xiàn)要素:
為了解決現(xiàn)有技術(shù)的不足,本發(fā)明提供了一種基于知識(shí)網(wǎng)絡(luò)的創(chuàng)意自動(dòng)生成方法與終端,其具有提供創(chuàng)意信息并自動(dòng)生成創(chuàng)意的效果;
一種基于知識(shí)網(wǎng)絡(luò)的創(chuàng)意自動(dòng)生成方法,所述方法由計(jì)算機(jī)程序控制計(jì)算機(jī)設(shè)備來(lái)完成,所述計(jì)算機(jī)設(shè)備包括存儲(chǔ)器、處理器及存儲(chǔ)在存儲(chǔ)器上并可在處理器上運(yùn)行的計(jì)算機(jī)程序;所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)以下步驟:
步驟(1):建立知識(shí)網(wǎng)絡(luò):對(duì)專利數(shù)據(jù)進(jìn)行爬取,對(duì)爬取后的數(shù)據(jù)進(jìn)行預(yù)處理,對(duì)預(yù)處理后的數(shù)據(jù)進(jìn)行關(guān)鍵詞抽取,然后利用層次聚類的方法將關(guān)鍵詞進(jìn)行聚類,最后建立具有層次關(guān)聯(lián)關(guān)系的知識(shí)網(wǎng)絡(luò);
步驟(2):接收輸入的發(fā)明創(chuàng)意需求;發(fā)明創(chuàng)意需求是所要發(fā)明或創(chuàng)新領(lǐng)域內(nèi)的關(guān)鍵詞,發(fā)明創(chuàng)意需求是關(guān)鍵詞或一句話,如果是一句話,將所述一句話進(jìn)行分詞,然后根據(jù)用戶選擇所需要的關(guān)鍵詞完成發(fā)明創(chuàng)意需求的輸入;
步驟(3):按照輸入的發(fā)明創(chuàng)意需求,通過(guò)計(jì)算發(fā)明創(chuàng)意需求與知識(shí)網(wǎng)絡(luò)中關(guān)鍵詞的關(guān)聯(lián)度,推薦出關(guān)聯(lián)度高的關(guān)鍵詞,計(jì)算層次關(guān)聯(lián)關(guān)系的緊密度,通過(guò)計(jì)算的層次關(guān)聯(lián)關(guān)系的緊密度抽取出創(chuàng)意關(guān)鍵詞集合即詞云。同時(shí)推薦出與詞云中心詞相關(guān)的關(guān)聯(lián)信息,包括高頻詞和專利文獻(xiàn)信息。
步驟(4):用戶根據(jù)發(fā)明創(chuàng)新需求更換詞云中心詞獲取更多與需求相關(guān)的關(guān)鍵詞,在詞云和關(guān)聯(lián)信息中標(biāo)記出相關(guān)信息,通過(guò)訓(xùn)練好的語(yǔ)言模型自動(dòng)生成發(fā)明創(chuàng)意。
步驟(5):從自動(dòng)生成的發(fā)明創(chuàng)意信息中選取需要的創(chuàng)意信息,從而完成創(chuàng)意引導(dǎo)過(guò)程。
所述步驟(1)包括步驟(101)-步驟(105):
步驟(101):對(duì)專利數(shù)據(jù)進(jìn)行爬?。?/p>
在萬(wàn)方數(shù)據(jù)知識(shí)服務(wù)網(wǎng)絡(luò)上爬取專利信息,爬取專利的名稱、類型、摘要、專利分類號(hào)信息,以下步驟處理的專利都是指專利的摘要部分;
步驟(102):對(duì)爬取的數(shù)據(jù)進(jìn)行預(yù)處理;
用中科院分詞系統(tǒng)nlpir對(duì)步驟(101)爬取的專利摘要信息進(jìn)行分詞,并依據(jù)停用詞庫(kù)刪除所爬取專利摘要信息中的停用詞。
建立向量空間模型:把專利摘要信息中的分好的詞統(tǒng)稱為項(xiàng)team,專利文檔用項(xiàng)表示為d(t1,t2,t3…tn),不考慮tk在文檔中的先后順序和重復(fù);把t1,t2,t3…tn看成一個(gè)n維的坐標(biāo)系,而w1,w2,w3…wn為相應(yīng)的坐標(biāo)值,因而d(w1,w2,w3…wn)被看成是n維空間中的一個(gè)向量,d(w1,w2,w3…wn)為文檔d的向量空間表示。
步驟(103):用tf-idf方法計(jì)算向量空間模型中項(xiàng)的權(quán)重,并抽取專利摘要中的關(guān)鍵詞。
步驟(104):計(jì)算抽取出關(guān)鍵詞的相似度,將相似度高的關(guān)鍵詞篩選出來(lái),利用層次聚類的方法將抽取出來(lái)的關(guān)鍵詞進(jìn)行聚類,相似度高的關(guān)鍵詞建立一種具有層次關(guān)聯(lián)關(guān)系的集合。
步驟(105):建立具有層次關(guān)聯(lián)關(guān)系的知識(shí)網(wǎng)絡(luò);根據(jù)聚類成功的關(guān)鍵詞集合和相應(yīng)的層次關(guān)聯(lián)關(guān)系,形成具有層次關(guān)聯(lián)關(guān)系的三層模型,最終建立發(fā)明知識(shí)網(wǎng)絡(luò)。
步驟(103)的步驟為:
詞頻tf指的是一個(gè)詞在專利中出現(xiàn)的次數(shù);tf的英文全稱是termfrequency;
詞頻的計(jì)算公式如下:
專利的總詞語(yǔ)數(shù)是指一篇專利分詞后的詞語(yǔ)個(gè)數(shù);
逆向文件頻率idf是一個(gè)詞語(yǔ)普遍重要性的度量;一個(gè)詞語(yǔ)的idf,由專利文獻(xiàn)總文件數(shù)目除以包含該詞語(yǔ)的專利文獻(xiàn)的數(shù)目,再將得到的商取對(duì)數(shù)得到;idf的英文全稱是inversedocumentfrequency;所述指定詞語(yǔ)是指專利摘要中的分好詞的結(jié)果;
逆向文件頻率idf的計(jì)算公式如下:
tf-idf的計(jì)算公式如下:
tf-idf=詞頻tf×逆向文件頻率idf;
tf-idf與一個(gè)詞在專利文獻(xiàn)中出現(xiàn)的次數(shù)成正比,與該詞在所有專利文獻(xiàn)中出現(xiàn)次數(shù)成反比。所以,提取關(guān)鍵詞就是計(jì)算出文檔的每個(gè)詞的tf-idf值,然后按從大到小進(jìn)行排列,取排在前面的設(shè)定個(gè)數(shù)的詞。
所述步驟(104)的步驟為:
在向量空間模型中計(jì)算抽取出關(guān)鍵詞的相似度,將相似度高的關(guān)鍵詞篩選出來(lái)。
用歐式距離來(lái)計(jì)算關(guān)鍵詞之間的相似度,歐式距離的表達(dá)式如下:
公式中的ti和tj分別表示兩個(gè)抽取出來(lái)的不同的關(guān)鍵詞、wk記錄關(guān)鍵詞在向量空間模型中的位置信息、k指的是總的關(guān)鍵詞的個(gè)數(shù)、distance(ti,tj)表示的是兩個(gè)關(guān)鍵詞之間的歐式距離。
使用凝聚層次聚類的方法來(lái)聚類相似度高的關(guān)鍵詞,就是尋找歐式距離最近的兩個(gè)關(guān)鍵詞,將兩個(gè)關(guān)鍵詞結(jié)合,有n個(gè)關(guān)鍵詞的集合sn={t1,t2,…tn},聚成k個(gè)類。
所述凝聚層次聚類的步驟如下:
(1041)建立一個(gè)關(guān)鍵詞集合di={ti}用來(lái)存放和ti相近的關(guān)鍵詞,其中i=1,2,3,…k;
(1042)設(shè)置一個(gè)參數(shù)k來(lái)記錄關(guān)鍵詞總個(gè)數(shù),如果k等于聚類數(shù)k,則結(jié)束循環(huán);
(1043)找到與ti距離最近的5個(gè)關(guān)鍵詞ta、tb、tc、td、te,使ti作為父節(jié)點(diǎn),將篩選出來(lái)的關(guān)鍵詞聚類成具有層次關(guān)聯(lián)關(guān)系的雙層結(jié)構(gòu),并存入di={ti、ta、tb、tc、td、te}中;
(1044)再依次尋找與ta、tb、tc、td、te距離最近的5個(gè)關(guān)鍵詞,使ta、tb、tc、td、te分別作為父節(jié)點(diǎn),將篩選出來(lái)的關(guān)鍵詞聚類成具有層次關(guān)聯(lián)關(guān)系的三層結(jié)構(gòu),分別將第三層結(jié)構(gòu)的關(guān)鍵詞有序地存入關(guān)鍵詞集合di中,并將具有三層關(guān)聯(lián)關(guān)系的關(guān)鍵詞集合標(biāo)記成ti;
(1045)除去ti,令k=k-1,然后轉(zhuǎn)到第(1042)步。
所述停用詞庫(kù)采用中科院統(tǒng)計(jì)的中文停用詞庫(kù),另外將“該發(fā)明、該案例和涉及”等詞匯加入停用詞庫(kù),避免此類詞匯的詞頻過(guò)高影響最終關(guān)鍵詞提取結(jié)果。
所述步驟(3)的步驟為:
步驟(31):按語(yǔ)義關(guān)聯(lián)度計(jì)算方法wsr來(lái)計(jì)算輸入的發(fā)明創(chuàng)意需求中的關(guān)鍵詞和層次聚類后關(guān)鍵詞的關(guān)聯(lián)度。
wsr語(yǔ)義關(guān)聯(lián)度計(jì)算公式如下:
公式中a是指發(fā)明創(chuàng)意需求中的關(guān)鍵詞,b是指層次聚類后的關(guān)鍵詞,將a和b轉(zhuǎn)換成需要計(jì)算的節(jié)點(diǎn)。relartneti是基于專利文本語(yǔ)義關(guān)聯(lián)度計(jì)算方法,αi是不同層次節(jié)點(diǎn)的權(quán)重;節(jié)點(diǎn)a和b至少分別隸屬于一個(gè)分類aj和bk,其中
步驟(32):經(jīng)過(guò)計(jì)算后,尋找出語(yǔ)義關(guān)聯(lián)度最高的關(guān)鍵詞,進(jìn)而在知識(shí)網(wǎng)絡(luò)中尋找與關(guān)聯(lián)度最高的關(guān)鍵詞的聚類層次結(jié)構(gòu),再根據(jù)層次緊密度大小,抽取出創(chuàng)意關(guān)鍵詞集合即詞云。
聚類緊密程度,是表示該聚類中所有關(guān)鍵詞和聚類中心之間的平均相似度,層次緊密度計(jì)算公式如下:
其中,cl(ni)表示聚類ni內(nèi)部的緊密度,tj則是聚類ni中的任意關(guān)鍵詞,
步驟(33):根據(jù)步驟(31)和步驟(32)計(jì)算關(guān)聯(lián)度和層次緊密度后,將關(guān)聯(lián)度高且層次緊密度高的創(chuàng)意關(guān)鍵詞集合抽取出來(lái)形成詞云。
步驟(34):生成詞云的同時(shí)還會(huì)推薦出相應(yīng)的關(guān)聯(lián)信息。推薦出中心詞及關(guān)聯(lián)詞所在的專利信息。通過(guò)計(jì)算專利中詞頻的方式,推薦出高頻詞。
所述步驟(4)的步驟為:
步驟(41):爬取創(chuàng)意設(shè)計(jì)網(wǎng)的發(fā)明創(chuàng)意信息作為訓(xùn)練語(yǔ)言模型的數(shù)據(jù)集,所爬取的發(fā)明創(chuàng)意信息主要是發(fā)明創(chuàng)意標(biāo)題信息,將數(shù)據(jù)集分為訓(xùn)練集和測(cè)試集。
對(duì)爬取到的任一語(yǔ)句首先進(jìn)行分詞,然后對(duì)詞語(yǔ)進(jìn)行預(yù)處理,得到的語(yǔ)句e∈s表示為:
e=(<t1,w1><t2,w2>…<tk,wk>),k∈n
其中ti(i=1,2,3…,k)為發(fā)明創(chuàng)意信息分詞后的詞,wi(i=1,2,3…,k)為詞語(yǔ)的語(yǔ)法語(yǔ)義表示項(xiàng),詞語(yǔ)的語(yǔ)法語(yǔ)義表示項(xiàng),包括:名詞詞語(yǔ)noth,應(yīng)用動(dòng)詞詞語(yǔ)vapp,介詞、副詞詞語(yǔ)atoh,數(shù)量詞語(yǔ)uoth。
詞語(yǔ)的標(biāo)識(shí)項(xiàng)構(gòu)成的集合記為w:
w=(w1,w2,…,wk),wi∈w,i=1,2,3…,k
目標(biāo)是為了生成一組語(yǔ)言模型:
語(yǔ)言模型=(rule1,rule2,…,rulek)
每一個(gè)規(guī)則rulei可表示為:rule=r1×r2×r3×…×rk;
其中ri有三種取值:通配符$(可以為任意詞語(yǔ),或?yàn)榭課ull),詞語(yǔ)標(biāo)識(shí)項(xiàng)w以及詞語(yǔ)t,即:ri∈{$}+w+{t1,t2,t3…,tk};
通過(guò)對(duì)訓(xùn)練集中的發(fā)明創(chuàng)意信息進(jìn)行逐一學(xué)習(xí),得到一組能覆蓋訓(xùn)練集的語(yǔ)言模型,然后用測(cè)試集進(jìn)行測(cè)試并調(diào)整模型信息,進(jìn)而得到自動(dòng)生成的發(fā)明創(chuàng)意信息語(yǔ)言模型。
步驟(42):搜索與發(fā)明創(chuàng)意需求相關(guān)的關(guān)鍵詞,得到具有關(guān)聯(lián)關(guān)系的創(chuàng)意關(guān)鍵詞集合,更換搜索中心詞,得到更多與中心詞具有關(guān)聯(lián)關(guān)系的關(guān)鍵詞。
步驟(43):查看中心詞、關(guān)聯(lián)詞、高頻詞和專利信息,將與發(fā)明創(chuàng)意需求相關(guān)的信息以選中加入記事本的方式標(biāo)記出來(lái),通過(guò)訓(xùn)練好的語(yǔ)言模型自動(dòng)生成發(fā)明創(chuàng)意。
一種基于知識(shí)網(wǎng)絡(luò)的創(chuàng)意自動(dòng)生成終端,包括:
發(fā)明知識(shí)網(wǎng)絡(luò)構(gòu)建單元:爬取專利數(shù)據(jù)作為構(gòu)建模塊的數(shù)據(jù)集,對(duì)專利數(shù)據(jù)預(yù)處理,抽取出能表示專利特征的關(guān)鍵詞,計(jì)算關(guān)鍵詞相似度,同時(shí)聚類相似度高的關(guān)鍵詞,形成一種具有層次關(guān)聯(lián)關(guān)系的發(fā)明知識(shí)網(wǎng)絡(luò)。
創(chuàng)意引導(dǎo)單元:計(jì)算發(fā)明創(chuàng)意需求的關(guān)鍵詞與發(fā)明知識(shí)網(wǎng)絡(luò)中關(guān)鍵詞的關(guān)聯(lián)度,計(jì)算層次關(guān)聯(lián)緊密度,抽取出創(chuàng)意關(guān)鍵詞集合即詞云,同時(shí)推薦專利文本信息和高頻詞的關(guān)聯(lián)信息,查看相關(guān)信息引導(dǎo)創(chuàng)意的產(chǎn)生。
發(fā)明創(chuàng)意生成單元:通過(guò)爬取到的發(fā)明創(chuàng)意信息進(jìn)行訓(xùn)練,得到一種自動(dòng)生成發(fā)明創(chuàng)意的語(yǔ)言模型,根據(jù)標(biāo)記信息自動(dòng)生成創(chuàng)意。
創(chuàng)意輸出單元:選擇所需要的發(fā)明創(chuàng)意,完成創(chuàng)意引導(dǎo)過(guò)程。
發(fā)明知識(shí)網(wǎng)絡(luò)構(gòu)建單元,包括:
預(yù)處理模塊:首先對(duì)爬取到的專利信息進(jìn)行分詞,然后建立處理專利數(shù)據(jù)的停用詞庫(kù),對(duì)專利文本數(shù)據(jù)進(jìn)行預(yù)處理,去掉沒有意義的詞,為提取關(guān)鍵詞做好準(zhǔn)備。
關(guān)鍵詞抽取模塊:將專利文本信息在向量空間模型中表示出來(lái),選擇信息檢索和文本挖掘中常用的加權(quán)技術(shù)抽取能表示專利信息的關(guān)鍵詞。
相似度計(jì)算模塊:計(jì)算抽取出關(guān)鍵詞的相似度,將相似度高的關(guān)鍵詞用凝聚層次聚類的方式聚類,建立一種具有層次關(guān)聯(lián)關(guān)系的關(guān)鍵詞集合。
發(fā)明知識(shí)網(wǎng)絡(luò)形成模塊:根據(jù)聚類成功的關(guān)鍵詞集合和相應(yīng)的層次關(guān)聯(lián)關(guān)系,形成具有層次關(guān)聯(lián)關(guān)系的三層模型,最終建立發(fā)明知識(shí)網(wǎng)絡(luò)。
創(chuàng)意引導(dǎo)單元,包括:
關(guān)聯(lián)度計(jì)算模塊:用語(yǔ)義關(guān)聯(lián)度計(jì)算的方式計(jì)算發(fā)明創(chuàng)意需求與發(fā)明知識(shí)網(wǎng)絡(luò)中關(guān)鍵詞的關(guān)聯(lián)度,將關(guān)聯(lián)度較高的關(guān)鍵詞推薦出來(lái)。
緊密度計(jì)算模塊:計(jì)算關(guān)鍵詞和每個(gè)層次網(wǎng)絡(luò)的緊密度。
詞云形成模塊:通過(guò)比較關(guān)鍵詞關(guān)聯(lián)度和層次關(guān)聯(lián)緊密度,抽取出相應(yīng)的創(chuàng)意關(guān)鍵詞集合,形成詞云。
關(guān)聯(lián)信息推薦模塊:關(guān)聯(lián)信息不僅包含與詞云中心詞相關(guān)的專利文本信息,而且包含專利文本中出現(xiàn)的高頻詞。
發(fā)明創(chuàng)意生成單元,包括:
標(biāo)記模塊:標(biāo)記出詞云中有關(guān)的關(guān)鍵詞,更換詞云中心詞查看更多與中心詞相關(guān)聯(lián)的信息,同時(shí)標(biāo)記出專利文本信息和高頻詞信息。
語(yǔ)言模型生成模塊:通過(guò)爬取到的發(fā)明創(chuàng)意信息進(jìn)行訓(xùn)練,得到一種自動(dòng)生成發(fā)明創(chuàng)意的語(yǔ)言模型。
創(chuàng)意自動(dòng)生成模塊:根據(jù)標(biāo)記信息和已經(jīng)訓(xùn)練好的語(yǔ)言模型,自動(dòng)生成創(chuàng)意。
與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果是:
建立了一個(gè)創(chuàng)意生成平臺(tái),用戶只需明確自己發(fā)明創(chuàng)意的需求,系統(tǒng)就會(huì)推薦出一個(gè)具有層次關(guān)聯(lián)關(guān)系的詞云,詞云分層次展示出與需求最相關(guān)的發(fā)明創(chuàng)意的關(guān)鍵詞集合。例如,發(fā)明創(chuàng)意需求是“智能手機(jī)”,在詞云中就會(huì)按層次展示出“無(wú)線通訊、藍(lán)牙、app、數(shù)據(jù)連接、通信協(xié)議”等關(guān)鍵詞。為了使系統(tǒng)用戶更加清楚的了解詞云中的關(guān)鍵詞,系統(tǒng)還將推薦出與詞云中心詞相關(guān)的專利信息和專利中的高頻詞,根據(jù)發(fā)明創(chuàng)意需求深入淺出地了解與你所感興趣的各個(gè)方面,這樣根據(jù)系統(tǒng)生成的發(fā)明創(chuàng)意信息,有理有據(jù)地為創(chuàng)新者提供創(chuàng)意引導(dǎo)。如果這樣還不能滿足創(chuàng)新者的需求,我們還提供了發(fā)明創(chuàng)意自動(dòng)生成的功能。在詞云、專利信息、高頻詞中標(biāo)記出所關(guān)注的信息,根據(jù)預(yù)先訓(xùn)練好的語(yǔ)言模型和標(biāo)注出的信息,自動(dòng)生成發(fā)明創(chuàng)意。
附圖說(shuō)明
構(gòu)成本申請(qǐng)的一部分的說(shuō)明書附圖用來(lái)提供對(duì)本申請(qǐng)的進(jìn)一步理解,本申請(qǐng)的示意性實(shí)施例及其說(shuō)明用于解釋本申請(qǐng),并不構(gòu)成對(duì)本申請(qǐng)的不當(dāng)限定。
圖1為本發(fā)明的系統(tǒng)調(diào)度示意圖。
圖2為本發(fā)明一個(gè)實(shí)施例的流程圖。
具體實(shí)施方式
應(yīng)該指出,以下詳細(xì)說(shuō)明都是例示性的,旨在對(duì)本申請(qǐng)?zhí)峁┻M(jìn)一步的說(shuō)明。除非另有指明,本文使用的所有技術(shù)和科學(xué)術(shù)語(yǔ)具有與本申請(qǐng)所屬技術(shù)領(lǐng)域的普通技術(shù)人員通常理解的相同含義。
本發(fā)明提出了一種基于發(fā)明知識(shí)網(wǎng)絡(luò)的創(chuàng)意自動(dòng)生成方法與終端。
具體來(lái)說(shuō):
一是建立專用發(fā)明知識(shí)網(wǎng)絡(luò),為用戶提供準(zhǔn)確而有價(jià)值的發(fā)明創(chuàng)意信息。
二是建立一種訓(xùn)練好的語(yǔ)言模型,根據(jù)用戶標(biāo)記出來(lái)的關(guān)鍵詞以及專利信息自動(dòng)生成發(fā)明創(chuàng)意。
為了實(shí)現(xiàn)上述目的,如圖1所示,本發(fā)明采用的技術(shù)方案具體包括:
發(fā)明知識(shí)網(wǎng)絡(luò)構(gòu)建模塊:爬取專利數(shù)據(jù)作為構(gòu)建模塊的數(shù)據(jù)集,對(duì)專利數(shù)據(jù)預(yù)處理,抽取出能表示專利特征的關(guān)鍵詞,計(jì)算關(guān)鍵詞相似度,同時(shí)聚類相似度高的關(guān)鍵詞,形成一種具有層次關(guān)聯(lián)關(guān)系的專用發(fā)明知識(shí)網(wǎng)絡(luò)。
創(chuàng)意引導(dǎo)模塊:計(jì)算發(fā)明創(chuàng)意需求與發(fā)明知識(shí)網(wǎng)絡(luò)中關(guān)鍵詞的關(guān)聯(lián)度,推薦出關(guān)聯(lián)度高的關(guān)鍵詞,然后計(jì)算推薦出的關(guān)鍵詞與層次網(wǎng)絡(luò)的緊密度,抽取出創(chuàng)意關(guān)鍵詞集合即詞云,同時(shí)推薦包含專利文本信息和高頻詞的關(guān)聯(lián)信息,查看相關(guān)信息引導(dǎo)創(chuàng)意產(chǎn)生。
發(fā)明創(chuàng)意生成模塊:通過(guò)爬取到的發(fā)明創(chuàng)意信息進(jìn)行訓(xùn)練,得到一種自動(dòng)生成發(fā)明創(chuàng)意的語(yǔ)言模型,根據(jù)標(biāo)記信息自動(dòng)生成發(fā)明創(chuàng)意。
創(chuàng)意輸出:選擇所需要的發(fā)明創(chuàng)意,完成創(chuàng)意引導(dǎo)過(guò)程。
具體的,發(fā)明知識(shí)網(wǎng)絡(luò)構(gòu)建模塊包括以下實(shí)現(xiàn)步驟:
a.首先對(duì)爬取到的專利數(shù)據(jù)進(jìn)行分詞處理,然后建立處理專利數(shù)據(jù)的停用詞庫(kù),對(duì)專利文本數(shù)據(jù)進(jìn)行預(yù)處理,去掉沒有意義的詞,為提取關(guān)鍵詞做好準(zhǔn)備。
b.將專利文本信息在向量空間模型中表示出來(lái),選擇信息檢索和文本挖掘中常用的加權(quán)技術(shù)抽取能表示專利信息的關(guān)鍵詞。
c.計(jì)算抽取出關(guān)鍵詞相似度,將相似度高的關(guān)鍵詞用凝聚層次聚類的方式聚類,建立一種具有層次關(guān)聯(lián)關(guān)系的關(guān)鍵詞集合。
d.根據(jù)聚類成功的關(guān)鍵詞集合和相應(yīng)的層次關(guān)聯(lián)關(guān)系,形成具有層次關(guān)聯(lián)關(guān)系的三層模型,建立發(fā)明知識(shí)網(wǎng)絡(luò)。
具體的,創(chuàng)意引導(dǎo)模塊包括以下實(shí)現(xiàn)步驟:
a.用語(yǔ)義關(guān)聯(lián)度計(jì)算的方式計(jì)算發(fā)明創(chuàng)意需求與發(fā)明知識(shí)網(wǎng)絡(luò)中關(guān)鍵詞的關(guān)聯(lián)度,將關(guān)聯(lián)度較高的關(guān)鍵詞推薦出來(lái)。
b.由于只計(jì)算關(guān)聯(lián)度不能準(zhǔn)確推薦出創(chuàng)意關(guān)鍵詞集合,一個(gè)關(guān)鍵詞可能同時(shí)屬于多個(gè)層次網(wǎng)絡(luò)/關(guān)鍵詞集合,繼續(xù)計(jì)算此關(guān)鍵詞和每個(gè)層次網(wǎng)絡(luò)的緊密度。
c.通過(guò)比較關(guān)鍵詞關(guān)聯(lián)度和層次關(guān)聯(lián)緊密度,抽取出相應(yīng)的創(chuàng)意關(guān)鍵詞集合,形成詞云。
d.同時(shí)會(huì)推薦出一些關(guān)聯(lián)信息,關(guān)聯(lián)信息不僅包含與詞云中心詞相關(guān)的專利文本信息,而且包含專利文本中出現(xiàn)的高頻詞。
具體的,發(fā)明創(chuàng)意生成模塊包括以下實(shí)現(xiàn)步驟:
a.標(biāo)記出詞云中有關(guān)的關(guān)鍵詞,更換詞云中心詞查看關(guān)鍵詞的層次關(guān)聯(lián)關(guān)系,同時(shí)標(biāo)記出專利文本信息和高頻詞信息。
b.通過(guò)爬取到的發(fā)明創(chuàng)意信息進(jìn)行訓(xùn)練,得到一種自動(dòng)生成發(fā)明創(chuàng)意的語(yǔ)言模型。
c.根據(jù)標(biāo)記信息和已經(jīng)訓(xùn)練好的語(yǔ)言模型,自動(dòng)生成創(chuàng)意。
下面以一個(gè)實(shí)施例對(duì)創(chuàng)意自動(dòng)生成方法與終端進(jìn)行具體的闡述。如圖2所示;
步驟201:建立發(fā)明知識(shí)網(wǎng)絡(luò);對(duì)爬取的專利數(shù)據(jù)預(yù)處理,然后抽取數(shù)據(jù)中的關(guān)鍵詞,用層次聚類的方法將關(guān)鍵詞聚類,建立具有層次關(guān)聯(lián)關(guān)系的發(fā)明知識(shí)網(wǎng)絡(luò)。
分步驟1:首先對(duì)專利數(shù)據(jù)進(jìn)行分詞處理,然后建立專用的停用詞庫(kù)。由于專利數(shù)據(jù)信息中含有較多的與要抽取關(guān)鍵詞不相關(guān)的詞匯,為了優(yōu)化抽取關(guān)鍵詞的結(jié)果,抽取關(guān)鍵詞前先對(duì)專利文獻(xiàn)去停用詞。停用詞庫(kù)則選擇的是中科院統(tǒng)計(jì)的中文停用詞庫(kù),另外,將專利信息中“該發(fā)明、該案例、涉及”等詞匯加入停用詞庫(kù)。
分步驟2:將專利文本用向量空間模型表示。把專利摘要中的分好的詞統(tǒng)稱為項(xiàng)team,專利文檔用項(xiàng)表示為d(t1,t2,t3…tn),不考慮tk在文檔中的先后順序和重復(fù);把t1,t2,t3…tn看成一個(gè)n維的坐標(biāo)系,而w1,w2,w3…wn為相應(yīng)的坐標(biāo)值,因而d(w1,w2,w3…wn)被看成是n維空間中的一個(gè)向量,d(w1,w2,w3…wn)為文檔d的向量空間表示
分步驟3:用tf-idf方法計(jì)算向量空間模型中項(xiàng)的權(quán)重,并抽取專利摘要中的關(guān)鍵詞。
詞頻tf指的是某一個(gè)給定的詞語(yǔ)在該文件中出現(xiàn)的次數(shù);tf的英文全稱是termfrequency;
詞頻的計(jì)算公式如下:
逆向文件頻率idf是一個(gè)詞語(yǔ)普遍重要性的度量。一個(gè)詞語(yǔ)的idf,由專利文獻(xiàn)文件總數(shù)目除以包含該詞語(yǔ)的專利文獻(xiàn)的數(shù)目,再將得到的商取對(duì)數(shù)得到。idf的英文全稱是inversedocumentfrequency;所述指定詞語(yǔ)是指專利摘要中的分好詞的結(jié)果;
逆向文件頻率的計(jì)算公式如下:
tf-idf的計(jì)算公式如下:
tf–idf=詞頻(tf)×逆文檔頻率(idf)
tf-idf與一個(gè)詞在專利文獻(xiàn)中出現(xiàn)的次數(shù)成正比,與該詞在所有專利文獻(xiàn)中出現(xiàn)次數(shù)成反比。所以,提取關(guān)鍵詞就是計(jì)算出文檔的每個(gè)詞的tf-idf值,然后按從大到小進(jìn)行排列,取排在前面的設(shè)定個(gè)數(shù)的詞;
分步驟4:計(jì)算關(guān)鍵詞之間的相似度,聚類關(guān)鍵詞,相似度高的關(guān)鍵詞建立一種層次關(guān)聯(lián)關(guān)系。
在向量空間模型中計(jì)算抽取出關(guān)鍵詞的相似度,將相似度高的關(guān)鍵詞篩選出來(lái)。
用歐式距離來(lái)計(jì)算關(guān)鍵詞之間的相似度,歐式距離的表達(dá)式如下:
公式中的ti和tj分別表示兩個(gè)抽取出來(lái)的不同的關(guān)鍵詞、wk記錄關(guān)鍵詞在向量空間模型中的位置信息、k指的是總的關(guān)鍵詞的個(gè)數(shù)、distance(ti,tj)表示的是兩個(gè)關(guān)鍵詞之間的歐式距離。
使用凝聚層次聚類的方法來(lái)聚類相似度高的關(guān)鍵詞,就是尋找歐式距離最近的兩個(gè)關(guān)鍵詞,將兩個(gè)關(guān)鍵詞結(jié)合,有n個(gè)關(guān)鍵詞的集合sn={t1,t2,…tn},聚成k個(gè)類。
凝聚層次聚類的步驟如下:
1)建立一個(gè)關(guān)鍵詞集合di={ti}用來(lái)存放和ti相近的關(guān)鍵詞,其中i=1,2,3,…k;
2)設(shè)置一個(gè)參數(shù)k來(lái)記錄關(guān)鍵詞總個(gè)數(shù),如果k等于聚類數(shù)k,則結(jié)束循環(huán);
3)找到與ti距離最近的5個(gè)關(guān)鍵詞ta、tb、tc、td、te,使ti作為父節(jié)點(diǎn),將篩選出來(lái)的關(guān)鍵詞聚類成具有層次關(guān)聯(lián)關(guān)系的雙層結(jié)構(gòu),并存入di={ti、ta、tb、tc、td、te}中;
4)再依次尋找與ta、tb、tc、td、te距離最近的5個(gè)關(guān)鍵詞,使ta、tb、tc、td、te分別作為父節(jié)點(diǎn),將篩選出來(lái)的關(guān)鍵詞聚類成具有層次關(guān)聯(lián)關(guān)系的三層結(jié)構(gòu),分別將第三層結(jié)構(gòu)的關(guān)鍵詞有序地存入關(guān)鍵詞集合di中,并將具有三層關(guān)聯(lián)關(guān)系的關(guān)鍵詞集合標(biāo)記成ti;
5)除去ti,令k=k-1,然后轉(zhuǎn)到第2)步;
分步驟5:根據(jù)聚類成功的關(guān)鍵詞集合和相應(yīng)的層次關(guān)聯(lián)關(guān)系,形成具有關(guān)聯(lián)關(guān)系的三層模型,建立發(fā)明知識(shí)網(wǎng)絡(luò)。
步驟202:輸入發(fā)明創(chuàng)意需求;發(fā)明創(chuàng)意需求即是所要發(fā)明或創(chuàng)新領(lǐng)域內(nèi)的主要關(guān)鍵詞,可以是關(guān)鍵詞或是一句完整的話,如果是一句話會(huì)自動(dòng)將這一句話分詞,然后選擇你所需要的關(guān)鍵詞完成發(fā)明創(chuàng)意需求的輸入。
步驟203:按照輸入的發(fā)明創(chuàng)意需求,計(jì)算需求與發(fā)明知識(shí)網(wǎng)絡(luò)中關(guān)鍵詞的關(guān)聯(lián)度,推薦出關(guān)聯(lián)度高的關(guān)鍵詞,只計(jì)算關(guān)聯(lián)度不能很好地抽取創(chuàng)意關(guān)鍵詞集合,一個(gè)關(guān)鍵詞可能同時(shí)屬于不同的層次關(guān)聯(lián)模型,將語(yǔ)義關(guān)聯(lián)度和層次關(guān)聯(lián)關(guān)系的緊密度結(jié)合起來(lái)計(jì)算,抽取出創(chuàng)意關(guān)鍵詞集合即詞云。同時(shí)推薦出與詞云中心詞相關(guān)的關(guān)聯(lián)信息,包括高頻詞和專利文本信息。
分步驟1:按語(yǔ)義關(guān)聯(lián)度計(jì)算方法wsr來(lái)計(jì)算輸入的發(fā)明創(chuàng)意需求中的關(guān)鍵詞和層次聚類后關(guān)鍵詞的關(guān)聯(lián)度。
wsr語(yǔ)義關(guān)聯(lián)度計(jì)算公式如下:
公式中a是指發(fā)明創(chuàng)意需求中的關(guān)鍵詞,b是指層次聚類后的關(guān)鍵詞,將a和b轉(zhuǎn)換成需要計(jì)算的節(jié)點(diǎn)。relartneti是基于專利文本語(yǔ)義關(guān)聯(lián)度計(jì)算方法,αi是不同層次節(jié)點(diǎn)的權(quán)重;節(jié)點(diǎn)a和b至少分別隸屬于一個(gè)分類aj和bk,其中
分步驟2:經(jīng)過(guò)計(jì)算后,尋找出語(yǔ)義關(guān)聯(lián)度最高的關(guān)鍵詞,進(jìn)而在知識(shí)網(wǎng)絡(luò)中尋找與關(guān)聯(lián)度最高的關(guān)鍵詞的聚類層次結(jié)構(gòu),再根據(jù)層次緊密度大小,抽取出創(chuàng)意關(guān)鍵詞集合即詞云。
聚類緊密程度,是表示該聚類中所有關(guān)鍵詞和聚類中心之間的平均相似度,層次緊密度計(jì)算公式如下:
其中,cl(ni)表示聚類ni內(nèi)部的緊密度,tj則是聚類ni中的任意關(guān)鍵詞,
分步驟3:根據(jù)上述方法計(jì)算關(guān)聯(lián)度和層次緊密度后,將關(guān)聯(lián)度高而且層次緊密度高的創(chuàng)意關(guān)鍵詞集合抽取出來(lái)形成詞云。
分步驟4:生成詞云的同時(shí)還會(huì)推薦出相應(yīng)的關(guān)聯(lián)信息。通過(guò)計(jì)算需求關(guān)鍵詞和專利文本信息的相似度,推薦出專利文本信息。通過(guò)計(jì)算專利中詞頻的方式,推薦出高頻詞,引導(dǎo)創(chuàng)意的產(chǎn)生。
步驟204:更換詞云中心詞獲取更多與需求相關(guān)的關(guān)鍵詞,在詞云和關(guān)聯(lián)信息中標(biāo)記出相關(guān)信息,通過(guò)訓(xùn)練好的語(yǔ)言模型自動(dòng)生成發(fā)明創(chuàng)意。
分步驟1:爬取創(chuàng)意設(shè)計(jì)網(wǎng)的發(fā)明創(chuàng)意信息作為訓(xùn)練語(yǔ)言模型的數(shù)據(jù)集,所爬取的發(fā)明創(chuàng)意信息主要是發(fā)明創(chuàng)意標(biāo)題信息,將數(shù)據(jù)集分為訓(xùn)練集和測(cè)試集。
對(duì)爬取到的任一語(yǔ)句首先進(jìn)行分詞,然后對(duì)詞語(yǔ)進(jìn)行簡(jiǎn)單的預(yù)處理,這樣得到的語(yǔ)句e∈s可表示為:
e=(<t1,w1><t2,w2>…<tk,wk>),k∈n
其中ti(i=1,2,3…,k)為發(fā)明創(chuàng)意信息分詞后的詞,wi(i=1,2,3…,k)為詞語(yǔ)的語(yǔ)法語(yǔ)義表示項(xiàng),如一般名詞詞語(yǔ)noth,應(yīng)用動(dòng)詞詞語(yǔ)vapp,介詞、副詞詞語(yǔ)atoh,數(shù)量詞語(yǔ)uoth等等。
這些詞語(yǔ)的標(biāo)識(shí)項(xiàng)構(gòu)成的集合記為w:
w=(w1,w2,…,wk),wi∈w,i=1,2,3…,k
目標(biāo)是為了生成一組語(yǔ)言模型:
語(yǔ)言模型=(rule1,rule2,…,rulek)
每一個(gè)規(guī)則rulei可表示為:rule=r1×r2×r3×…
其中ri有三種取值:通配符$(可以為任意詞語(yǔ),或?yàn)榭課ull),詞語(yǔ)標(biāo)識(shí)項(xiàng)w以及詞語(yǔ)t,即:ri∈{$}+w+{t1,t2,t3…}
通過(guò)對(duì)訓(xùn)練集中的發(fā)明創(chuàng)意信息進(jìn)行逐一學(xué)習(xí),得到一組能覆蓋訓(xùn)練集的語(yǔ)言模型,然后用測(cè)試集進(jìn)行測(cè)試并調(diào)整模型信息,進(jìn)而得到自動(dòng)生成的發(fā)明創(chuàng)意信息語(yǔ)言模型。
分步驟2:搜索與發(fā)明創(chuàng)意需求相關(guān)的關(guān)鍵詞,得到具有關(guān)聯(lián)關(guān)系的創(chuàng)意關(guān)鍵詞集合,更換搜索中心詞,得到更多與中心詞具有關(guān)聯(lián)關(guān)系的關(guān)鍵詞。
分步驟3:查看中心詞、關(guān)聯(lián)詞、高頻詞和專利信息,將與發(fā)明創(chuàng)意需求相關(guān)的信息以選中加入記事本的方式標(biāo)記出來(lái),通過(guò)訓(xùn)練好的語(yǔ)言模型自動(dòng)生成發(fā)明創(chuàng)意。
步驟205:從自動(dòng)生成的發(fā)明創(chuàng)意信息中選取需要的創(chuàng)意信息,從而完成創(chuàng)意引導(dǎo)過(guò)程。
以上所述僅為本發(fā)明的優(yōu)先實(shí)施例,并不用于限制本發(fā)明,基于本發(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
以上所述僅為本申請(qǐng)的優(yōu)選實(shí)施例而已,并不用于限制本申請(qǐng),對(duì)于本領(lǐng)域的技術(shù)人員來(lái)說(shuō),本申請(qǐng)可以有各種更改和變化。凡在本申請(qǐng)的精神和原則之內(nèi),所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本申請(qǐng)的保護(hù)范圍之內(nèi)。