本發(fā)明涉及自然語言處理,尤其涉及一種多段式文本相似度的計算方法、裝置及電子設(shè)備。
背景技術(shù):
1、統(tǒng)一資源管理平臺是信息資源的管理平臺,其核心管理目標(biāo)是統(tǒng)籌管理信息資源的合理利用,對資源效率使用率低的進行優(yōu)化與淘汰,同時管控項目報建,避免重復(fù)投入。該系統(tǒng)中主要的功能包含了對申報的新項目建設(shè)的審批,該審批功能需要提供過往的類似項目使用情況,以作為審批人的決策依據(jù),由此引發(fā)對項目相似度對比的需求。
2、現(xiàn)在技術(shù)方案是輸入查詢關(guān)鍵字,然后通過sql的模糊查詢分別對項目信息多個文本段,多個文本段包括項目名稱、項目類型、建設(shè)目標(biāo)、用戶角色、功能介紹以及關(guān)鍵字,對多個文本段進行查詢匹配,只要發(fā)現(xiàn)有匹配上的則認(rèn)為是相似項目。
3、現(xiàn)有的方式是一種主動查詢方式,是由審批人在審批時通過自己總結(jié)的關(guān)鍵字對已維護的項目信息進行匹配。這種方式不但對查詢?nèi)说目偨Y(jié)能力有過高要求,同時模糊匹配的精準(zhǔn)度也存在問題,常常出現(xiàn)多一個字匹配不上,少一個字匹配一堆的尷尬境地,導(dǎo)致匹配出來的項目精度不高。
技術(shù)實現(xiàn)思路
1、有鑒于此,有必要提供一種多段式文本相似度的計算方法、裝置及電子設(shè)備,用以解決現(xiàn)有技術(shù)中通過sql關(guān)鍵字查詢匹配項目時導(dǎo)致的精度低的問題。
2、為了解決上述問題,本發(fā)明提供一種多段式文本相似度的計算方法,包括:
3、獲取目標(biāo)軟件表中每個字段的文本權(quán)重詞以及文本權(quán)重詞得分;
4、獲取所述文本權(quán)重詞對應(yīng)的同義詞;
5、基于所述文本權(quán)重詞的得分得到目標(biāo)軟件表中每一行數(shù)據(jù)的行總得分;
6、將待新增項目中的字段進行分詞處理,得到分詞后的新項目字段;
7、基于所述文本權(quán)重詞、所述同義詞以及所述文本權(quán)重詞的得分確定所述新項目字段的總得分;
8、基于行總得分、所述新項目字段的總得分以及預(yù)設(shè)值得到待新增項目與目標(biāo)軟件表中每一行數(shù)據(jù)的相似度。在一種可能的實現(xiàn)方式中,所述獲取目標(biāo)軟件表中字段中每個字段的文本權(quán)重詞以及文本權(quán)重詞得分,包括:
9、對所述字段的文本進行預(yù)處理,得到預(yù)處理后的字段;
10、計算所述預(yù)處理后的字段的分詞的得分,并將所述分詞按照得分排序,得到排序后的分詞;
11、在所述排序后的分詞中選擇預(yù)設(shè)數(shù)量的分詞作為對應(yīng)字段的文本權(quán)重詞,所述文本權(quán)重詞對應(yīng)的分詞的得分為文本權(quán)重詞得分。
12、在一種可能的實現(xiàn)方式中,所述對所述字段的文本進行預(yù)處理,得到預(yù)處理后的字段,包括:
13、對所述字段進行分詞處理和停用詞處理,得到預(yù)處理后的字段。
14、在一種可能的實現(xiàn)方式中,所述計算所述預(yù)處理后的字段的分詞的得分,包括:
15、基于bm25算法計算所述預(yù)處理后的字段的分詞的得分。
16、在一種可能的實現(xiàn)方式中,所述獲取所述文本權(quán)重詞對應(yīng)的同義詞,包括:
17、在預(yù)設(shè)的標(biāo)準(zhǔn)同義詞庫上添加目標(biāo)軟件業(yè)務(wù)邏輯專屬同義詞,得到目標(biāo)同義詞庫;
18、基于所述目標(biāo)同義詞庫獲取所述文本權(quán)重詞對應(yīng)的同義詞。
19、在一種可能的實現(xiàn)方式中,所述基于所述文本權(quán)重詞的得分得到所述表中每一行數(shù)據(jù)的總得分,包括:
20、將所述字段的每個文本權(quán)重詞相加得到第一數(shù)據(jù);
21、按照所述目標(biāo)軟件的業(yè)務(wù)邏輯確定每個字段的權(quán)重系數(shù);
22、將每個字段的權(quán)重系數(shù)與所述第一數(shù)據(jù)相乘得到第二數(shù)據(jù),所述第二數(shù)據(jù)為所述表中每一行數(shù)據(jù)的總得分。
23、在一種可能的實現(xiàn)方式中,所述基于所述文本權(quán)重詞、所述同義詞以及所述文本權(quán)重詞的得分以確定所述新項目字段的總得分,包括:
24、將需要新增的項目中的字段進行分詞處理,得到分詞后的新項目字段;
25、將所述新項目字段中的每個分詞分別與表中每個字段的文本權(quán)重詞以及同義詞進行比對,確定是否命中;
26、在確定命中時,基于命中的分詞得分之和得到所述新項目字段的得分。
27、在一種可能的實現(xiàn)方式中,所述基于行總得分、所述新項目字段的總得分以及預(yù)設(shè)值得到待新增項目與目標(biāo)軟件表中每一行數(shù)據(jù)的相似度,包括:
28、確定所述行總得分與所述新項目字段的總得分的絕對值的差值;
29、將所述差值小于預(yù)設(shè)值對應(yīng)的項目確定為與待新增的項目相似度匹配的項目。
30、另一方面,本發(fā)明還提供了一種多段式文本相似度的計算裝置,包括:
31、第一分詞獲取模塊,用于獲取目標(biāo)軟件表中每個字段的文本權(quán)重詞以及文本權(quán)重詞得分;
32、同義詞獲取模塊,用于獲取所述文本權(quán)重詞對應(yīng)的同義詞;
33、第一總分獲取模塊,用于基于所述文本權(quán)重詞的得分得到目標(biāo)軟件表中每一行數(shù)據(jù)的行總得分;
34、第二分詞獲取模塊,用于將待新增項目中的字段進行分詞處理,得到分詞后的新項目字段;
35、第二總分獲取模塊,用于基于所述文本權(quán)重詞、所述同義詞以及所述文本權(quán)重詞的得分以確定所述新項目字段的總得分;
36、相似項目獲取模塊,用于基于行總得分、所述新項目字段的總得分以及預(yù)設(shè)值得到待新增項目與目標(biāo)軟件表中每一行數(shù)據(jù)的相似度。
37、另一方面,本發(fā)明還提供了一種電子設(shè)備,包括存儲器和處理器,其中,
38、所述存儲器,用于存儲程序;
39、所述處理器,與所述存儲器耦合,用于執(zhí)行所述存儲器中存儲的所述程序,以實現(xiàn)上述任意一種實現(xiàn)方式中所述的一種多段式文本相似度的計算方法中的步驟。
40、本發(fā)明的有益效果是:本發(fā)明提供的一種多段式文本相似度的計算方法、裝置及電子設(shè)備,該方法首先獲取目標(biāo)軟件表中字段中每個字段的文本權(quán)重詞以及文本權(quán)重詞得分,然后獲取文本權(quán)重詞對應(yīng)的同義詞,
41、進一步基于所述文本權(quán)重詞的得分得到目標(biāo)軟件表中每一行數(shù)據(jù)的總得分,通過以上步驟將目標(biāo)軟件中每個字段都進行得分計算獲取每一數(shù)據(jù)的總得分,以使得新增加的項目可以快速的通過總得分的對比確定相似高的項目,進一步將待新增項目中的字段進行分詞處理,得到分詞后的新項目字段,基于文本權(quán)重詞、所述同義詞以及文本權(quán)重詞的得分確定新項目字段的總得分,最后基于行總得分、新項目字段的總得分以及預(yù)設(shè)值得到待新增與目標(biāo)軟件表中每一行數(shù)據(jù)的相似度。本發(fā)明通過獲取目標(biāo)軟件中每個字段文本權(quán)重詞以及對應(yīng)的文本權(quán)重詞的得分,從而確定每行數(shù)據(jù)的總得分,通過計算新增項目中字段的總得分,將計算新增項目中字段的總得分與目標(biāo)軟件原數(shù)據(jù)的總得分進行比對,從而確定新增項目相似的項目,從而提高檢索的精度。
1.一種多段式文本相似度的計算方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的多段式文本相似度的計算方法,其特征在于,所述獲取目標(biāo)軟件表中字段中每個字段的文本權(quán)重詞以及文本權(quán)重詞得分,包括:
3.根據(jù)權(quán)利要求2所述的多段式文本相似度的計算方法,其特征在于,所述對所述字段的文本進行預(yù)處理,得到預(yù)處理后的字段,包括:
4.根據(jù)權(quán)利要求2所述的多段式文本相似度的計算方法,其特征在于,所述計算所述預(yù)處理后的字段的分詞的得分,包括:
5.根據(jù)權(quán)利要求1所述的多段式文本相似度的計算方法,其特征在于,所述獲取所述文本權(quán)重詞對應(yīng)的同義詞,包括:
6.根據(jù)權(quán)利要求1所述的多段式文本相似度的計算方法,其特征在于,所述基于所述文本權(quán)重詞的得分得到所述表中每一行數(shù)據(jù)的總得分,包括:
7.根據(jù)權(quán)利要求1所述的多段式文本相似度的計算方法,其特征在于,所述基于所述文本權(quán)重詞、所述同義詞以及所述文本權(quán)重詞的得分以確定所述新項目字段的總得分,包括:
8.根據(jù)權(quán)利要求1所述的多段式文本相似度的計算方法,其特征在于,所述基于行總得分、所述新項目字段的總得分以及預(yù)設(shè)值得到待新增項目與目標(biāo)軟件表中每一行數(shù)據(jù)的相似度,包括:
9.一種多段式文本相似度的計算裝置,其特征在于,包括:
10.一種電子設(shè)備,其特征在于,包括存儲器和處理器,其中,