本技術(shù)涉及數(shù)據(jù)處理,具體涉及數(shù)字醫(yī)療領(lǐng)域,尤其涉及一種數(shù)據(jù)檢索方法、裝置、計算機設(shè)備及存儲介質(zhì)。
背景技術(shù):
1、非結(jié)構(gòu)化數(shù)據(jù)庫在管理和檢索海量異構(gòu)信息時,面臨著語義理解的技術(shù)瓶頸。數(shù)據(jù)庫中的文本、圖像、音視頻等非結(jié)構(gòu)化數(shù)據(jù),其語義表示方式多樣且隱含,難以用統(tǒng)一的數(shù)據(jù)模型和索引結(jié)構(gòu)來刻畫。傳統(tǒng)的基于關(guān)鍵詞匹配的檢索方法,無法深入理解非結(jié)構(gòu)化數(shù)據(jù)的語義內(nèi)涵,檢索結(jié)果的相關(guān)性和準(zhǔn)確性無法保證。同時,用戶以自然語言形式提出的檢索需求,與非結(jié)構(gòu)化數(shù)據(jù)的語義表示之間存在表達差異,導(dǎo)致檢索意圖難以準(zhǔn)確匹配到相關(guān)數(shù)據(jù)上。
2、這一語義理解問題在醫(yī)療領(lǐng)域的非結(jié)構(gòu)化數(shù)據(jù)庫管理中尤為突出。海量醫(yī)學(xué)文獻、病歷記錄、醫(yī)療影像等非結(jié)構(gòu)化數(shù)據(jù),包含大量專業(yè)術(shù)語、縮略語、同義詞等,語義表示異常復(fù)雜。醫(yī)生在檢索時,往往使用專業(yè)術(shù)語和i?mp?l?i?ed?l?og?i?c,而這些檢索意圖難以直接匹配文本數(shù)據(jù)中的語義表示,導(dǎo)致檢索結(jié)果與實際需求出現(xiàn)偏差。語義理解的困難進一步導(dǎo)致檢索效率低下,醫(yī)生需要人工瀏覽大量無關(guān)結(jié)果,才能找到真正所需的信息,嚴(yán)重影響了醫(yī)療數(shù)據(jù)價值的發(fā)揮。
技術(shù)實現(xiàn)思路
1、本技術(shù)實施例的目的在于提出一種數(shù)據(jù)檢索方法、裝置、計算機設(shè)備及存儲介質(zhì),以解決無法有效根據(jù)輸入檢索信息來獲取內(nèi)容相關(guān)性高、檢索準(zhǔn)確度高的檢索結(jié)果數(shù)據(jù)的問題。
2、為了解決上述技術(shù)問題,本技術(shù)實施例提供一種數(shù)據(jù)檢索方法,采用了如下所述的技術(shù)方案:
3、獲取標(biāo)準(zhǔn)數(shù)據(jù)信息;
4、對所述標(biāo)準(zhǔn)數(shù)據(jù)信息進行特征提取和語義表示,得到語義向量表示,并根據(jù)所述語義向量表示構(gòu)建語義索引;
5、獲取輸入檢索信息,對所述輸入檢索信息進行語義理解和擴展,得到檢索信息表示;
6、將所述檢索信息表示轉(zhuǎn)化為檢索語義向量,并計算所述檢索語義向量和所述語義索引的相似度,根據(jù)所述相似度對所述標(biāo)準(zhǔn)數(shù)據(jù)信息進行篩選處理,得到候選數(shù)據(jù)集;
7、對所述候選數(shù)據(jù)集進行優(yōu)先級排序,得到檢索結(jié)果數(shù)據(jù)集,并將所述檢索結(jié)果數(shù)據(jù)集返回至顯示界面進行顯示。
8、進一步的,所述獲取標(biāo)準(zhǔn)數(shù)據(jù)信息的步驟,具體包括:
9、獲取信息提取標(biāo)識;
10、根據(jù)所述信息提取標(biāo)識從非結(jié)構(gòu)化數(shù)據(jù)庫中提取初始數(shù)據(jù)信息;
11、對所述初始數(shù)據(jù)信息進行預(yù)處理,得到所述標(biāo)準(zhǔn)數(shù)據(jù)信息。
12、進一步的,所述對所述標(biāo)準(zhǔn)數(shù)據(jù)信息進行特征提取和語義表示,得到語義向量表示,并根據(jù)所述語義向量表示構(gòu)建語義索引的步驟,具體包括:
13、識別所述標(biāo)準(zhǔn)數(shù)據(jù)信息的數(shù)據(jù)類型,其中,所述數(shù)據(jù)類型包括:文本數(shù)據(jù)、圖像數(shù)據(jù)、音頻數(shù)據(jù)、視頻數(shù)據(jù);
14、將所述文本數(shù)據(jù)、所述圖像數(shù)據(jù)、所述音頻數(shù)據(jù)、所述視頻數(shù)據(jù)輸入至預(yù)訓(xùn)練的特征提取模型進行特征提取,得到文本數(shù)據(jù)特征向量、圖像數(shù)據(jù)特征向量、音頻數(shù)據(jù)特征向量、視頻數(shù)據(jù)特征向量;
15、將所述文本數(shù)據(jù)特征向量、所述圖像數(shù)據(jù)特征向量、所述音頻數(shù)據(jù)特征向量、所述視頻數(shù)據(jù)特征向量映射至統(tǒng)一語義向量空間,得到所述語義向量表示;
16、對所述語義向量表示進行相似度計算,得到語義相似度;
17、根據(jù)所述語義相似度進行聚類分析,得到語義關(guān)聯(lián)關(guān)系;
18、根據(jù)所述語義關(guān)聯(lián)關(guān)系和所述語義向量表示構(gòu)建所述語義索引。
19、進一步的,所述獲取輸入檢索信息,對所述輸入檢索信息進行語義理解和擴展,得到檢索信息表示的步驟,具體包括:
20、獲取知識圖譜提取標(biāo)識,根據(jù)所述知識圖譜提取標(biāo)識從數(shù)據(jù)庫中提取預(yù)構(gòu)建的知識圖譜;
21、基于所述預(yù)構(gòu)建的知識圖譜對所述輸入檢索信息進行語義理解,得到輸入檢索語義信息;
22、基于所述預(yù)構(gòu)建的知識圖譜對所述輸入檢索語義信息進行語義擴展,得到所述檢索信息表示。
23、進一步的,所述將所述檢索信息表示轉(zhuǎn)化為檢索語義向量,并計算所述檢索語義向量和所述語義索引的相似度,根據(jù)所述相似度對所述標(biāo)準(zhǔn)數(shù)據(jù)信息進行篩選處理,得到候選數(shù)據(jù)集的步驟,具體包括:
24、將所述檢索信息表示映射至低維語義空間,得到所述檢索語義向量;
25、從所述語義索引中提取語義向量表示,對所述檢索語義向量和所述語義向量表示進行余弦相似度計算,得到相似度分值;
26、根據(jù)所述語義向量表示從所述標(biāo)準(zhǔn)數(shù)據(jù)信息中查找對應(yīng)的有效數(shù)據(jù)信息;
27、根據(jù)所述相似度分值對所述有效數(shù)據(jù)信息進行排序,得到排序數(shù)據(jù)信息集,并獲取預(yù)設(shè)信息集閾值,根據(jù)所述預(yù)設(shè)信息集閾值對所述排序數(shù)據(jù)信息集進行篩選,得到所述候選數(shù)據(jù)集。
28、進一步的,所述對所述候選數(shù)據(jù)集進行優(yōu)先級排序,得到檢索結(jié)果數(shù)據(jù)集的步驟,具體包括:
29、獲取所述輸入檢索信息,計算所述輸入檢索信息和所述候選數(shù)據(jù)集的語義相關(guān)性得分;
30、獲取所述候選數(shù)據(jù)集的權(quán)威信息和時效信息,根據(jù)所述權(quán)威信息、所述時效信息、所述語義相關(guān)性得分計算所述候選數(shù)據(jù)集的數(shù)據(jù)排序得分;
31、根據(jù)所述數(shù)據(jù)排序得分對所述候選數(shù)據(jù)集進行優(yōu)先級排序,得到所述檢索結(jié)果數(shù)據(jù)集。
32、進一步的,在所述根據(jù)所述數(shù)據(jù)排序得分對所述候選數(shù)據(jù)集進行優(yōu)先級排序,得到所述檢索結(jié)果數(shù)據(jù)集的步驟之后,還包括以下步驟:
33、獲取預(yù)設(shè)相關(guān)性得分閾值,并判斷所述檢索結(jié)果數(shù)據(jù)集對應(yīng)的語義相關(guān)性得分是否小于所述預(yù)設(shè)相關(guān)性得分閾值;
34、若所述檢索結(jié)果數(shù)據(jù)集對應(yīng)的語義相關(guān)性得分小于所述預(yù)設(shè)相關(guān)性得分閾值,則對所述輸入檢索信息進行語義擴展和推理,得到擴展檢索詞,再根據(jù)所述擴展檢索詞在所述檢索結(jié)果數(shù)據(jù)集中查找對應(yīng)的擴展檢索結(jié)果數(shù)據(jù),基于所述數(shù)據(jù)排序得分對所述擴展檢索結(jié)果數(shù)據(jù)進行重新排序,得到擴展檢索結(jié)果數(shù)據(jù)集,將所述擴展檢索結(jié)果數(shù)據(jù)集返回至顯示界面進行顯示。
35、為了解決上述技術(shù)問題,本技術(shù)實施例還提供一種數(shù)據(jù)檢索裝置,采用了如下所述的技術(shù)方案:
36、信息獲取模塊,用于獲取標(biāo)準(zhǔn)數(shù)據(jù)信息;
37、索引構(gòu)建模塊,用于對所述標(biāo)準(zhǔn)數(shù)據(jù)信息進行特征提取和語義表示,得到語義向量表示,并根據(jù)所述語義向量表示構(gòu)建語義索引;
38、信息擴展模塊,用于獲取輸入檢索信息,對所述輸入檢索信息進行語義理解和擴展,得到檢索信息表示;
39、信息篩選模塊,用于將所述檢索信息表示轉(zhuǎn)化為檢索語義向量,并計算所述檢索語義向量和所述語義索引的相似度,根據(jù)所述相似度對所述標(biāo)準(zhǔn)數(shù)據(jù)信息進行篩選處理,得到候選數(shù)據(jù)集;
40、數(shù)據(jù)集顯示模塊,用于對所述候選數(shù)據(jù)集進行優(yōu)先級排序,得到檢索結(jié)果數(shù)據(jù)集,并將所述檢索結(jié)果數(shù)據(jù)集返回至顯示界面進行顯示。
41、為了解決上述技術(shù)問題,本技術(shù)實施例還提供一種計算機設(shè)備,采用了如下所述的技術(shù)方案:
42、一種計算機設(shè)備,包括存儲器和處理器,所述存儲器中存儲有計算機可讀指令,所述處理器執(zhí)行所述計算機可讀指令時實現(xiàn)如以上任一項所述的數(shù)據(jù)檢索方法的步驟。
43、為了解決上述技術(shù)問題,本技術(shù)實施例還提供一種計算機可讀存儲介質(zhì),采用了如下所述的技術(shù)方案:
44、一種計算機可讀存儲介質(zhì),所述計算機可讀存儲介質(zhì)上存儲有計算機可讀指令,所述計算機可讀指令被處理器執(zhí)行時實現(xiàn)如以上任一項所述的數(shù)據(jù)檢索方法的步驟。
45、與現(xiàn)有技術(shù)相比,本技術(shù)實施例主要有以下有益效果:本實施例通過獲取標(biāo)準(zhǔn)數(shù)據(jù)信息;對所述標(biāo)準(zhǔn)數(shù)據(jù)信息進行特征提取和語義表示,得到語義向量表示,并根據(jù)所述語義向量表示構(gòu)建語義索引;獲取輸入檢索信息,對所述輸入檢索信息進行語義理解和擴展,得到檢索信息表示;將所述檢索信息表示轉(zhuǎn)化為檢索語義向量,并計算所述檢索語義向量和所述語義索引的相似度,根據(jù)所述相似度對所述標(biāo)準(zhǔn)數(shù)據(jù)信息進行篩選處理,得到候選數(shù)據(jù)集;對所述候選數(shù)據(jù)集進行優(yōu)先級排序,得到檢索結(jié)果數(shù)據(jù)集,并將所述檢索結(jié)果數(shù)據(jù)集返回至顯示界面進行顯示。從而有效根據(jù)輸入檢索信息來獲取內(nèi)容相關(guān)性高、檢索準(zhǔn)確度高的檢索結(jié)果數(shù)據(jù)集。