本公開涉及數(shù)據(jù)挖掘,尤其涉及一種查詢標(biāo)簽數(shù)據(jù)的生成方法、裝置、電子設(shè)備及存儲介質(zhì)。
背景技術(shù):
1、相關(guān)技術(shù)中,隨著人工智能領(lǐng)域的不斷發(fā)展,知識圖譜被看作是支持人工智能發(fā)展的一塊重要基石,同時(shí)隨著人工智能技術(shù)在各個(gè)應(yīng)用上的不斷突破,知識圖譜的應(yīng)用也受到越來越多的關(guān)注。知識引擎被視作人工智能時(shí)代下機(jī)器的大腦,不斷加速著各類垂直領(lǐng)域應(yīng)用的落地。知識圖譜和電商平臺聯(lián)合是基于電商商品數(shù)據(jù),采用知識圖譜技術(shù),對商品的標(biāo)簽、所屬場景、核心商品詞、屬性特征詞、同義詞等進(jìn)行計(jì)算及關(guān)聯(lián),從而構(gòu)建實(shí)時(shí)的商品圖譜用于挖掘商品上位詞、同義詞及場景概念詞等。同時(shí)依據(jù)用戶喜好、購買歷史、瀏覽足跡、重復(fù)購買率等特征推薦用戶感興趣的商品,為搜索和推薦提供有針對性的內(nèi)容,進(jìn)而精準(zhǔn)滿足用戶需求,提高商業(yè)應(yīng)用價(jià)值。
技術(shù)實(shí)現(xiàn)思路
1、為克服相關(guān)技術(shù)中存在的問題,本公開提供一種查詢標(biāo)簽數(shù)據(jù)的生成方法、裝置、電子設(shè)備及存儲介質(zhì)。
2、根據(jù)本公開實(shí)施例的第一方面,提供一種查詢標(biāo)簽數(shù)據(jù)的生成方法,包括:
3、獲取初始檢索數(shù)據(jù);
4、從商品交易日志中獲取與所述初始檢索數(shù)據(jù)匹配的第一查詢標(biāo)簽數(shù)據(jù);
5、基于預(yù)設(shè)啟發(fā)規(guī)則對所述第一查詢標(biāo)簽數(shù)據(jù)進(jìn)行篩選,獲得第二查詢標(biāo)簽數(shù)據(jù);
6、通過預(yù)設(shè)判別模型確定所述第二查詢標(biāo)簽數(shù)據(jù)的合理概率值,其中,所述預(yù)設(shè)判別模型用于對查詢標(biāo)簽數(shù)據(jù)進(jìn)行識別,生成合理概率值,所述合理概率值用于表征查詢標(biāo)簽數(shù)據(jù)的準(zhǔn)確性;
7、在所述合理概率值達(dá)到設(shè)定閾值的情況下,確定所述第二查詢標(biāo)簽數(shù)據(jù)為目標(biāo)查詢標(biāo)簽數(shù)據(jù)。
8、可選地,所述預(yù)設(shè)判別模型用于對所述第二查詢標(biāo)簽數(shù)據(jù)的特征進(jìn)行線性組合,以生成第一向量,并對所述第二查詢標(biāo)簽數(shù)據(jù)的語義信息進(jìn)行編碼,以生成第二向量,對所述第一向量與所述第二向量進(jìn)行拼接后,生成所述合理概率值。
9、可選地,所述對所述第二查詢標(biāo)簽數(shù)據(jù)的特征進(jìn)行線性組合,以生成第一向量,包括:
10、對所述第二查詢標(biāo)簽數(shù)據(jù)進(jìn)行特征識別,以確定所述第二查詢標(biāo)簽數(shù)據(jù)的特征數(shù)據(jù),所述特征數(shù)據(jù)包括:商品屬性特征數(shù)據(jù)、長度特征數(shù)據(jù)、詞性組合特征數(shù)據(jù)、困惑度數(shù)據(jù)和流行價(jià)值數(shù)據(jù);
11、對所述特征數(shù)據(jù)進(jìn)行線性組合和編碼,生成所述第一向量。
12、可選地,所述特征數(shù)據(jù)包括困惑度數(shù)據(jù),所述對所述第二查詢標(biāo)簽數(shù)據(jù)進(jìn)行特征識別,以確定所述第二查詢標(biāo)簽數(shù)據(jù)的特征數(shù)據(jù),包括:
13、通過預(yù)設(shè)語言模型對所述第二查詢標(biāo)簽數(shù)據(jù)進(jìn)行特征識別,以確定第一困惑度數(shù)據(jù);
14、通過預(yù)設(shè)商品語料模型對所述第二查詢標(biāo)簽數(shù)據(jù)進(jìn)行特征識別,以確定第二困惑度數(shù)據(jù);
15、根據(jù)所述第一困惑度數(shù)據(jù)和所述第二困惑度數(shù)據(jù),確定所述困惑度數(shù)據(jù)。
16、可選地,所述特征數(shù)據(jù)包括流行價(jià)值數(shù)據(jù),所述對所述第二查詢標(biāo)簽數(shù)據(jù)進(jìn)行特征識別,以確定所述第二查詢標(biāo)簽數(shù)據(jù)的特征數(shù)據(jù),包括:
17、根據(jù)所述第二查詢標(biāo)簽數(shù)據(jù)與預(yù)設(shè)通用語料庫的匹配次數(shù),生成第一流行價(jià)值數(shù)據(jù);
18、根據(jù)所述第二查詢標(biāo)簽數(shù)據(jù)與預(yù)設(shè)商品語料庫的匹配次數(shù),生成第二流行價(jià)值數(shù)據(jù);
19、根據(jù)所述第一流行價(jià)值數(shù)據(jù)和所述第二流行價(jià)值數(shù)據(jù),確定所述流行價(jià)值數(shù)據(jù)。
20、可選地,所述對所述第二查詢標(biāo)簽數(shù)據(jù)的語義信息進(jìn)行編碼,以生成第二向量,包括:
21、對所述第二查詢標(biāo)簽數(shù)據(jù)的語義信息進(jìn)行編碼,生成初始語義信息;
22、根據(jù)所述初始語義信息,確定所述第二查詢標(biāo)簽數(shù)據(jù)的上下文語義信息;
23、根據(jù)所述初始語義信息和所述上下文語義信息,生成所述第二向量。
24、可選地,所述方法還包括:
25、通過預(yù)設(shè)改寫規(guī)則對所述初始檢索數(shù)據(jù)進(jìn)行改寫,以生成多個(gè)第三查詢標(biāo)簽數(shù)據(jù);
26、確定所述多個(gè)第三查詢標(biāo)簽數(shù)據(jù)與所述目標(biāo)查詢標(biāo)簽數(shù)據(jù)的多個(gè)語義相似度;
27、從所述多個(gè)第三查詢標(biāo)簽數(shù)據(jù)中篩選出語義相似度大于相似度閾值的多個(gè)第四查詢標(biāo)簽數(shù)據(jù);
28、根據(jù)所述多個(gè)第四查詢標(biāo)簽數(shù)據(jù)和所述目標(biāo)查詢標(biāo)簽數(shù)據(jù),生成商品推薦列表。
29、可選地,所述從商品交易日志中獲取與所述初始檢索數(shù)據(jù)匹配的第一查詢標(biāo)簽數(shù)據(jù),包括:
30、從所述商品交易日志中獲取與所述初始檢索數(shù)據(jù)匹配的多個(gè)第五查詢標(biāo)簽數(shù)據(jù);
31、獲取所述多個(gè)第五查詢標(biāo)簽數(shù)據(jù)一一對應(yīng)的多個(gè)頁面瀏覽量;
32、根據(jù)所述多個(gè)頁面瀏覽量,從所述多個(gè)第五查詢標(biāo)簽數(shù)據(jù)中確定頁面瀏覽量大于設(shè)定瀏覽量閾值的所述第一查詢標(biāo)簽數(shù)據(jù)。
33、可選地,所述預(yù)設(shè)啟發(fā)規(guī)則包括:
34、若所述第一查詢標(biāo)簽數(shù)據(jù)中存在商品屬性特征,則確定所述第一查詢標(biāo)簽數(shù)據(jù)為所述第二查詢標(biāo)簽數(shù)據(jù);
35、若所述第一查詢標(biāo)簽數(shù)據(jù)與預(yù)設(shè)商品詞表和/或預(yù)設(shè)品牌詞表匹配,則確定所述第一查詢標(biāo)簽數(shù)據(jù)不是所述第二查詢標(biāo)簽數(shù)據(jù);
36、若所述第一查詢標(biāo)簽數(shù)據(jù)的詞性組合與預(yù)設(shè)詞性組合匹配,則確定所述第一查詢標(biāo)簽數(shù)據(jù)為所述第二查詢標(biāo)簽數(shù)據(jù)。
37、根據(jù)本公開實(shí)施例的第二方面,提供一種查詢標(biāo)簽數(shù)據(jù)的生成裝置,包括:
38、第一獲取模塊,被配置為獲取初始檢索數(shù)據(jù);
39、第二獲取模塊,被配置為從商品交易日志中獲取與所述初始檢索數(shù)據(jù)匹配的第一查詢標(biāo)簽數(shù)據(jù);
40、第三獲取模塊,被配置為基于預(yù)設(shè)啟發(fā)規(guī)則對所述第一查詢標(biāo)簽數(shù)據(jù)進(jìn)行篩選,獲得第二查詢標(biāo)簽數(shù)據(jù);
41、確定模塊,被配置為通過預(yù)設(shè)判別模型確定所述第二查詢標(biāo)簽數(shù)據(jù)的合理概率值,其中,所述預(yù)設(shè)判別模型用于對所述第二查詢標(biāo)簽數(shù)據(jù)的特征進(jìn)行線性組合,以生成第一向量,并對所述第二查詢標(biāo)簽數(shù)據(jù)的語義信息進(jìn)行編碼,以生成第二向量,對所述第一向量與所述第二向量進(jìn)行拼接后,生成所述合理概率值;
42、生成模塊,被配置為在所述合理概率值達(dá)到設(shè)定閾值的情況下,確定所述第二查詢標(biāo)簽數(shù)據(jù)為目標(biāo)查詢標(biāo)簽數(shù)據(jù)。
43、根據(jù)本公開實(shí)施例的第三方面,提供一種電子設(shè)備,包括:
44、存儲器,其上存儲有計(jì)算機(jī)程序;
45、處理器,用于執(zhí)行所述存儲器中的所述計(jì)算機(jī)程序,以實(shí)現(xiàn)本公開第一方面中任一項(xiàng)所述方法的步驟。
46、根據(jù)本公開實(shí)施例的第四方面,提供一種計(jì)算機(jī)可讀存儲介質(zhì),其上存儲有計(jì)算機(jī)程序指令,該程序指令被處理器執(zhí)行時(shí)實(shí)現(xiàn)本公開第一方面中任一項(xiàng)所述方法的步驟。
47、本公開的實(shí)施例提供的技術(shù)方案可以包括以下有益效果:
48、通過上述方式,獲取初始檢索數(shù)據(jù),從商品交易日志中獲取與初始檢索數(shù)據(jù)匹配的第一查詢標(biāo)簽數(shù)據(jù),基于預(yù)設(shè)啟發(fā)規(guī)則對第一查詢標(biāo)簽數(shù)據(jù)進(jìn)行篩選,獲得第二查詢標(biāo)簽數(shù)據(jù),通過預(yù)設(shè)判別模型確定第二查詢標(biāo)簽數(shù)據(jù)的合理概率值,其中,預(yù)設(shè)判別模型用于對查詢標(biāo)簽數(shù)據(jù)進(jìn)行識別,生成合理概率值,合理概率值用于表征查詢標(biāo)簽數(shù)據(jù)的準(zhǔn)確性,在合理概率值達(dá)到設(shè)定閾值的情況下,確定第二查詢標(biāo)簽數(shù)據(jù)為目標(biāo)查詢標(biāo)簽數(shù)據(jù)。從而通過預(yù)設(shè)判別模型對檢索數(shù)據(jù)匹配的查詢標(biāo)簽數(shù)據(jù)進(jìn)行篩選,挖掘出與用戶需求匹配的查詢標(biāo)簽數(shù)據(jù),解決語義鴻溝導(dǎo)致的漏召回問題。
49、應(yīng)當(dāng)理解的是,以上的一般描述和后文的細(xì)節(jié)描述僅是示例性和解釋性的,并不能限制本公開。