欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

查詢目標(biāo)匹配方法及裝置與流程

文檔序號:11134010閱讀:417來源:國知局
查詢目標(biāo)匹配方法及裝置與制造工藝

本發(fā)明涉及數(shù)據(jù)處理技術(shù)領(lǐng)域,尤其涉及一種查詢目標(biāo)匹配方法及裝置。



背景技術(shù):

一般情況下,對海量數(shù)據(jù)的搜索查詢,借助于計(jì)算機(jī)顯得尤為重要。在自然語言處理技術(shù)中,由于中文自身的語言特點(diǎn),中文處理要比其他西文處理復(fù)雜得多。

現(xiàn)有技術(shù)中,針對用戶輸入的查詢詞,通常是計(jì)算查詢詞與待推薦內(nèi)容的相關(guān)短文本(例如文件的名稱等)二者之間的語義相似度,按照語義相似度由高到低的順序?qū)⑴c短文本相關(guān)的內(nèi)容推薦給用戶,但是由于計(jì)算語義相似度的準(zhǔn)確性有限,常常導(dǎo)致推薦給用戶的內(nèi)容并不是用戶想得到的內(nèi)容

舉例來說,當(dāng)用戶輸入“英雄”這個(gè)查詢詞的時(shí)候,通常是想獲得李連杰主演的電影《英雄》,假設(shè)有兩個(gè)短文本:1、英雄聯(lián)盟2、李連杰電影英雄國語完整版,一般來說,從現(xiàn)有技術(shù)的機(jī)械的文本匹配來看,第一個(gè)短文本相比于第二個(gè)短文本與查詢詞更相似,但是從語義理解來看,第二個(gè)短文本相比于第一個(gè)短文本與用戶的查詢意圖匹配度可能更高一些。再舉例來說,用戶通常會通過輸入“是否”這個(gè)詞來獲得一首名字為《是否》的歌曲的相關(guān)視頻,假設(shè)有兩個(gè)短文本:1、你是否愛我?2、電影《搭錯(cuò)車》插曲-是否,機(jī)械的文本匹配很難分辨出哪一個(gè)與短文本相關(guān)的內(nèi)容更適合推薦給用戶。



技術(shù)實(shí)現(xiàn)要素:

技術(shù)問題

有鑒于此,本發(fā)明提出一種查詢目標(biāo)匹配方法及裝置,能夠更為準(zhǔn)確地將與用戶輸入的查詢詞相匹配的查詢目標(biāo)推薦給用戶,以提高用戶的查詢效率。

解決方案

一方面,提出了一種查詢目標(biāo)匹配方法,包括:獲取針對相同查詢目標(biāo)的關(guān)聯(lián)查詢詞;對所述關(guān)聯(lián)查詢詞進(jìn)行分詞操作,以獲得詞;計(jì)算各所述詞的詞向量;根據(jù)所述詞向量,確定當(dāng)前查詢詞中各詞的詞向量,以及與待匹配的查詢目標(biāo)相對應(yīng)的文本中包含的詞的詞向量;根據(jù)當(dāng)前查詢詞中各詞的詞向量以及與待匹配的查詢目標(biāo)相對應(yīng)的文本中包含的詞的詞向量,確定當(dāng)前查詢詞與所述文本的語義相似度;根據(jù)所確定的語義相似度,從所述待匹配的查詢目標(biāo)中確定與所述當(dāng)前查詢詞相匹配的查詢目標(biāo)。

又一方面,提出了一種查詢目標(biāo)匹配裝置,包括:獲取單元,獲取針對相同查詢目標(biāo)的關(guān)聯(lián)查詢詞;分詞單元,對所述關(guān)聯(lián)查詢詞進(jìn)行分詞操作,以獲得詞;計(jì)算單元,計(jì)算各所述詞的詞向量;第一確定單元,根據(jù)所述詞向量,確定當(dāng)前查詢詞中各詞的詞向量,以及與待匹配的查詢目標(biāo)相對應(yīng)的文本中包含的詞的詞向量;第二確定單元,根據(jù)當(dāng)前查詢詞中各詞的詞向量,以及與待匹配的查詢目標(biāo)相對應(yīng)的文本中包含的詞的詞向量,確定當(dāng)前查詢詞與所述文本的語義相似度;第三確定單元,根據(jù)所確定的語義相似度,從所述待匹配的查詢目標(biāo)中確定與所述當(dāng)前查詢詞相匹配的查詢目標(biāo)。

有益效果

根據(jù)本發(fā)明的各個(gè)方面,通過對獲取的針對相同查詢目標(biāo)的關(guān)聯(lián)查詢詞進(jìn)行分詞操作以獲得詞,并計(jì)算各所述詞的詞向量,再根據(jù)所確定的詞向量來確定當(dāng)前查詢詞中各詞的詞向量以及待匹配的查詢目標(biāo)相應(yīng)的文本中包含的詞的詞向量,并確定當(dāng)前查詢詞與所述文本的語義相似度,進(jìn)而從所述待匹配的查詢目標(biāo)中確定與所述當(dāng)前查詢詞相匹配的查詢目標(biāo)。根據(jù)該方法和裝置,使得詞向量的確定考慮到了針對相同查詢目標(biāo)的查詢詞之間的關(guān)聯(lián)性,能夠使得到的當(dāng)前查詢詞和與待匹配的查詢目標(biāo)相對應(yīng)的文本的語義相似度的準(zhǔn)確性更高,便于更準(zhǔn)確地將與所述當(dāng)前查詢詞相匹配的查詢目標(biāo)推薦給用戶,提高匹配度,從而提高用戶的查詢效率。

根據(jù)下面參考附圖對示例性實(shí)施例的詳細(xì)說明,本發(fā)明的其它特征及方面將變得清楚。

附圖說明

包含在說明書中并且構(gòu)成說明書的一部分的附圖與說明書一起示出了本發(fā)明的示例性實(shí)施例、特征和方面,并且用于解釋本發(fā)明的原理。

圖1示出根據(jù)本發(fā)明一實(shí)施例的查詢目標(biāo)匹配方法的流程圖。

圖2示出根據(jù)本發(fā)明一實(shí)施例選擇查詢詞中的各詞以及位于查詢詞中各詞附近的詞的方法示意圖。

圖3示出根據(jù)本發(fā)明一實(shí)施例的查詢目標(biāo)匹配裝置的結(jié)構(gòu)圖。

圖4示出根據(jù)本發(fā)明一實(shí)施例的查詢目標(biāo)匹配設(shè)備的結(jié)構(gòu)圖。

具體實(shí)施方式

以下將參考附圖詳細(xì)說明本發(fā)明的各種示例性實(shí)施例、特征和方面。附圖中相同的附圖標(biāo)記表示功能相同或相似的元件。盡管在附圖中示出了實(shí)施例的各種方面,但是除非特別指出,不必按比例繪制附圖。

在這里專用的詞“示例性”意為“用作例子、實(shí)施例或說明性”。這里作為“示例性”所說明的任何實(shí)施例不必解釋為優(yōu)于或好于其它實(shí)施例。

另外,為了更好的說明本發(fā)明,在下文的具體實(shí)施方式中給出了眾多的具體細(xì)節(jié)。本領(lǐng)域技術(shù)人員應(yīng)當(dāng)理解,沒有某些具體細(xì)節(jié),本發(fā)明同樣可以實(shí)施。在一些實(shí)例中,對于本領(lǐng)域技術(shù)人員熟知的方法、手段、元件和電路未作詳細(xì)描述,以便于凸顯本發(fā)明的主旨。

實(shí)施例1

圖1示出根據(jù)本發(fā)明一實(shí)施例的查詢目標(biāo)匹配方法的流程圖。如圖1所示,該方法主要包括:

步驟S101,獲取針對相同查詢目標(biāo)的關(guān)聯(lián)查詢詞;

步驟S102,對所述關(guān)聯(lián)查詢詞進(jìn)行分詞操作,以獲得詞;

步驟S103,計(jì)算各所述詞的詞向量;

步驟S104,根據(jù)所述詞向量,確定當(dāng)前查詢詞中各詞的詞向量,以及與待匹配的查詢目標(biāo)相對應(yīng)的文本中包含的詞的詞向量;

步驟S105,根據(jù)當(dāng)前查詢詞中各詞的詞向量以及與待匹配的查詢目標(biāo)相對應(yīng)的文本中包含的詞的詞向量,確定當(dāng)前查詢詞與所述文本的語義相似度;

步驟S106,根據(jù)所確定的語義相似度,從所述待匹配的查詢目標(biāo)中確定與所述當(dāng)前查詢詞相匹配的查詢目標(biāo)。

根據(jù)該實(shí)施例的方法,通過對獲取的針對相同查詢目標(biāo)的關(guān)聯(lián)查詢詞進(jìn)行分詞操作以獲得詞,并計(jì)算各所述詞的詞向量,再根據(jù)所確定的詞向量來確定當(dāng)前查詢詞中各詞的詞向量以及待匹配的查詢目標(biāo)相應(yīng)的文本中包含的詞的詞向量,并確定當(dāng)前查詢詞與所述文本的語義相似度,進(jìn)而從所述待匹配的查詢目標(biāo)中確定與所述當(dāng)前查詢詞相匹配的查詢目標(biāo)。根據(jù)本實(shí)施例,使得詞向量的確定考慮到了針對相同查詢目標(biāo)的查詢詞之間的關(guān)聯(lián)性,能夠使得到的當(dāng)前查詢詞和與待匹配的查詢目標(biāo)相對應(yīng)的文本的語義相似度的準(zhǔn)確性更高,便于更準(zhǔn)確地將與所述當(dāng)前查詢詞相匹配的查詢目標(biāo)推薦給用戶,提高匹配度,從而提高用戶的查詢效率。

以下結(jié)合一些具體示例,來對本實(shí)施例的各種可能的具體實(shí)現(xiàn)方式進(jìn)行說明,這些示例是示例性和說明性的,并非意在限制本發(fā)明。

在一個(gè)示例中,獲取針對相同查詢目標(biāo)的關(guān)聯(lián)查詢詞可以包括:獲取相同用戶連續(xù)輸入的查詢詞,作為所述關(guān)聯(lián)查詢詞。具體來說,相同用戶在針對某一查詢目標(biāo)使用搜索引擎進(jìn)行搜索的情況下,通常可能會包括不止一次的搜索行為,尤其是在用戶對搜索結(jié)果不滿意的情況下,用戶可能會通過改變查詢詞來查找想要得到的內(nèi)容,而這種相同用戶連續(xù)輸入不同查詢詞的搜索行為實(shí)際上是人為建立了不同查詢詞之間的關(guān)聯(lián)關(guān)系。例如,某一用戶希望得到歌曲《是否》的相關(guān)視頻,第一次通過輸入“是否”來進(jìn)行搜索,但是對于搜索引擎的推薦,用戶并沒有得到滿意的結(jié)果,該用戶第二次通過輸入“電影插曲是否”來進(jìn)行再次搜索,且得到了滿意的結(jié)果?;谠撚脩舻纳鲜鲂袨椋梢越ⅰ笆欠瘛迸c“電影插曲是否”之間的關(guān)聯(lián)關(guān)系,“是否電影插曲是否”可以作為關(guān)聯(lián)查詢詞。在一個(gè)示例中,可統(tǒng)計(jì)用戶輸入第一個(gè)查詢詞之后的預(yù)定時(shí)間(例如5到10分鐘)內(nèi)輸入的查詢詞,作為用戶連續(xù)輸入的查詢詞,并由此形成關(guān)聯(lián)查詢詞。

在一個(gè)示例中,獲取針對相同查詢目標(biāo)的關(guān)聯(lián)查詢詞還可以包括:獲取不同用戶針對相同的查詢目標(biāo)輸入的查詢詞,作為所述關(guān)聯(lián)查詢詞。具體來說,通常,不同用戶可能會針對相同的查詢目標(biāo)采用相同或者不同的查詢詞進(jìn)行搜索,進(jìn)而來查找想要得到的內(nèi)容,也可以將不同用戶針對相同的查詢目標(biāo)采用不同的查詢詞進(jìn)行搜索的搜索行為視為人為建立了不同查詢詞之間的關(guān)聯(lián)關(guān)系。例如,用戶A和用戶B的查詢目標(biāo)都是歌曲《是否》的相關(guān)視頻,用戶A采用“電影插曲是否”來進(jìn)行搜索,得到了滿意的結(jié)果,用戶B采用“搭錯(cuò)車插曲是否”來進(jìn)行搜索,同樣得到了滿意的結(jié)果?;谟脩鬉的上述行為,以及用戶B的上述行為,可以建立“電影插曲是否”與“搭錯(cuò)車插曲是否”之間的關(guān)聯(lián)關(guān)系,“電影插曲是否搭錯(cuò)車插曲是否”可以作為關(guān)聯(lián)查詢詞。在一個(gè)示例中,可以統(tǒng)計(jì)用戶輸入的查詢詞以及用戶最終點(diǎn)擊的查詢目標(biāo)之間的關(guān)聯(lián)關(guān)系,從而確定關(guān)聯(lián)查詢詞。

舉例來說,可以利用搜索引擎的查詢?nèi)罩緛泶_定關(guān)聯(lián)查詢詞,本領(lǐng)域技術(shù)人員還可以通過其他途徑,例如網(wǎng)頁內(nèi)容、新聞報(bào)道、視頻標(biāo)題等來獲取針對相同查詢目標(biāo)的關(guān)聯(lián)查詢詞,本發(fā)明對此不作限制。

在一個(gè)示例中,可以將每條關(guān)聯(lián)查詢詞作為一條語料存入語料庫,以便對關(guān)聯(lián)查詢詞進(jìn)行后續(xù)處理。其中,可以針對每個(gè)查詢目標(biāo)建立單獨(dú)的語料庫。

在一個(gè)示例中,可以通過例如語料庫來記錄一段時(shí)間內(nèi)(例如一年)統(tǒng)計(jì)得到的上述關(guān)聯(lián)查詢詞,以供后續(xù)處理。

在一個(gè)示例中,可以對獲得的關(guān)聯(lián)查詢詞進(jìn)行分詞操作,以獲得詞。可以采用本領(lǐng)域技術(shù)人員已知的分詞方法來實(shí)現(xiàn)分詞操作。舉例來說,可以采用前述方法獲取針對歌曲《是否》的相關(guān)視頻的關(guān)聯(lián)查詢詞,關(guān)聯(lián)查詢詞例如是“是否電影插曲是否電影搭錯(cuò)車”等,可以采用本領(lǐng)域技術(shù)人員已知的分詞方法對“是否電影插曲是否電影搭錯(cuò)車”進(jìn)行分詞操作,獲得“是否、電影、插曲、是否、電影、搭錯(cuò)車”等詞。以便于后續(xù)計(jì)算詞的詞向量,并根據(jù)相關(guān)的詞向量確定當(dāng)前查詢詞與文本的語義相似度,進(jìn)而確定與當(dāng)前查詢詞相匹配的查詢目標(biāo)。后文將詳細(xì)進(jìn)行描述。

在一個(gè)示例中,還可以記錄獲得的關(guān)聯(lián)查詢詞經(jīng)分詞操作后每個(gè)詞出現(xiàn)的次數(shù)。仍以上一示例中的例子為例,可以對關(guān)聯(lián)查詢詞“是否電影插曲是否電影搭錯(cuò)車”進(jìn)行分詞操作,并記錄“是否”出現(xiàn)的次數(shù)為2,“電影”出現(xiàn)的次數(shù)為2,“插曲”出現(xiàn)的次數(shù)為1,“搭錯(cuò)車”出現(xiàn)的次數(shù)為1。

詞向量的計(jì)算可以采用本領(lǐng)域技術(shù)人員已知的任何方法來實(shí)現(xiàn),例如,在一個(gè)示例中,可以根據(jù)word2vec模型計(jì)算關(guān)聯(lián)查詢詞經(jīng)分詞操作后獲得的詞的詞向量。word2vec模型一種是通過神經(jīng)網(wǎng)絡(luò)機(jī)器學(xué)習(xí)算法來訓(xùn)練N-gram語言,并在訓(xùn)練過程中計(jì)算詞所對應(yīng)的向量的方法?;谇笆鲫P(guān)聯(lián)查詢詞及分詞操作后獲得的詞,利用word2vec模型可以通過計(jì)算得到各所述詞的詞向量。

本實(shí)施例是針對“關(guān)聯(lián)查詢詞”進(jìn)行分詞并計(jì)算詞向量,因此,所計(jì)算的詞向量能夠體現(xiàn)針對相同查詢目標(biāo)的查詢詞之間的關(guān)聯(lián)性,后續(xù)再基于這些詞向量來進(jìn)行語義相似度的確定,就能使得所確定的語義相似度準(zhǔn)確性更高,提高查詢詞與查詢目標(biāo)之間的匹配度。

在一個(gè)示例中,可以根據(jù)通過上述關(guān)聯(lián)查詢詞確定的詞向量,確定當(dāng)前查詢詞中各詞的詞向量,以及與待匹配的查詢目標(biāo)相對應(yīng)的文本中包含的詞的詞向量。例如,如果當(dāng)前查詢詞為“是否”,查詢目標(biāo)(例如《是否》這首歌的MV)的標(biāo)題(即文本)為“電影插曲是否”,可以將前文得到的關(guān)聯(lián)查詢詞“是否電影插曲是否電影搭錯(cuò)車”中相應(yīng)的詞“是否“的詞向量,作為當(dāng)前查詢詞“是否”的詞向量,將“電影”、“插曲”、“是否”的詞向量,作為文本“電影插曲是否”分詞后得到的詞“電影”、“插曲”、“是否”的詞向量,以用于語義相似度的計(jì)算。舉例來說,當(dāng)用戶輸入當(dāng)前查詢詞“是否”時(shí),可以通過例如文本匹配的手段將其匹配到包含該當(dāng)前查詢詞中的詞的語料庫,再根據(jù)該語料庫中的關(guān)聯(lián)查詢詞中各詞的詞向量,確定該當(dāng)前查詢詞的各詞的詞向量。而文本中各詞的詞向量,可以事先根據(jù)各個(gè)語料庫中關(guān)聯(lián)查詢詞中各詞的詞向量進(jìn)行確定。

在一個(gè)示例中,步驟S105的一種示例性的具體實(shí)現(xiàn)方式如下:在文本中,選擇當(dāng)前查詢詞中的各詞以及位于該當(dāng)前查詢詞中各詞附近的詞,根據(jù)當(dāng)前查詢詞中各詞的詞向量,以及文本中所選擇的詞的詞向量,確定當(dāng)前查詢詞與文本的語義相似度。

在一個(gè)示例中,在文本中,選擇所述當(dāng)前查詢詞中的各詞以及位于該當(dāng)前查詢詞中各詞附近的詞可以采用如下方式進(jìn)行選擇,例如,查詢詞為Q=<a,f>,文本為S=<a,b,d,e,f,c,h,i,j,d>,在文本S中選擇查詢詞Q中的各詞以及位于查詢詞Q中各詞附近的詞,可以是選擇a和f以及a和f附近的詞,比如a,b,e,f,c,如圖2所示。再例如,查詢詞為Q=<b,f>,文本為S=<a,b,d,e,f,c,h,i,j,d>,則在文本S中所選擇的詞可以是a,b,d,e,f,c。其中,“附近”可以是根據(jù)需要選擇的附近預(yù)定數(shù)量的詞(例如左右各1-3個(gè)),本發(fā)明對此不做限制。

通過選擇文本中當(dāng)前查詢詞中的各詞以及位于該當(dāng)前查詢詞中各詞附近的詞,相當(dāng)于只選擇了文本中與當(dāng)前查詢詞關(guān)聯(lián)性最高的詞,排除了文本中與當(dāng)前查詢詞關(guān)聯(lián)性不高的一部分詞,由此可以減少后續(xù)語義相似度計(jì)算的計(jì)算量,提高計(jì)算效率,有利于針對較長文本的計(jì)算,同時(shí)也能夠排除不相關(guān)詞的干擾,提高計(jì)算精度,真正反映當(dāng)前查詢詞和文本之間在語義上的相似度。

在一個(gè)示例中,可以計(jì)算當(dāng)前查詢詞中包含的全部詞的詞向量的加權(quán)和,作為第一加權(quán)向量;計(jì)算文本中所選擇的詞的詞向量的加權(quán)和,作為第二加權(quán)向量;計(jì)算第一加權(quán)向量和第二加權(quán)向量的夾角的余弦值,作為當(dāng)前查詢詞與文本的語義相似度。

舉例來說,針對某一查詢目標(biāo),當(dāng)前查詢詞為Q=<q1,q2,…qi,…qm>,與待匹配的查詢目標(biāo)(例如多個(gè)待匹配的視頻中的一個(gè))相對應(yīng)的文本(例如視頻的標(biāo)題、簡要描述等)為S=<s1,s2,…sj,…sn>,其中,Q為當(dāng)前查詢詞;qi為查詢詞經(jīng)分詞操作后獲得的第i個(gè)詞,m為當(dāng)前查詢詞Q中詞的總個(gè)數(shù);S為與待匹配的查詢目標(biāo)相對應(yīng)的文本;sj為所述文本經(jīng)分詞操作后獲得的第j個(gè)詞,n為文本S中詞的總個(gè)數(shù),i和j為詞的序數(shù),文本中的詞可以包括查詢詞中的所有詞或者一部分詞??捎?jì)算Q中包含的全部詞q1,q2,…qi,…qm的詞向量的加權(quán)和,作為第一加權(quán)和vec(Q),計(jì)算S中如上文所選擇的詞的詞向量的加權(quán)和,作為第二加權(quán)和vec(S),計(jì)算第一加權(quán)向量和第二加權(quán)向量的夾角的余弦值,作為當(dāng)前查詢詞與所述文本的語義相似度。

本領(lǐng)域技術(shù)人員可以根據(jù)需要或者統(tǒng)計(jì)經(jīng)驗(yàn)來確定上述求加權(quán)和中使用的加權(quán)系數(shù),以下給出一種確定加權(quán)系數(shù)的示例性方式。

在一個(gè)示例中,可以根據(jù)以下公式(1),確定針對當(dāng)前查詢詞Q中的詞qi的加權(quán)系數(shù):

其中,idf(qi)為當(dāng)前查詢詞Q中的詞qi的加權(quán)系數(shù);DOC_NUM為文本的總數(shù)量;為詞qi在所述關(guān)聯(lián)查詢詞中出現(xiàn)的次數(shù)。

根據(jù)以下公式(2),確定所述第一加權(quán)向量vec(Q):

也就是對qi進(jìn)行加權(quán)求和,其中idf(qi)已利用公式(1)計(jì)算獲得,qi為前述計(jì)算得到的詞qi的詞向量。

根據(jù)以下公式(3),確定針對文本S中所選擇的詞sj的加權(quán)系數(shù):

其中,idf(sj)為文本S中所選擇的詞sj的加權(quán)系數(shù);DOC_NUM為所述文本的總數(shù)量,為詞sj在關(guān)聯(lián)查詢詞中出現(xiàn)的次數(shù)。

根據(jù)以下公式(4),確定所述第二加權(quán)向量vec(S):

也就是對sj進(jìn)行加權(quán)求和,其中idf(sj)已利用公式(3)計(jì)算獲得,sj為前述計(jì)算得到的詞sj的詞向量。k為文本S中所選擇的詞的總個(gè)數(shù)。

本領(lǐng)域技術(shù)人員可以根據(jù)需要來設(shè)置文本的總數(shù)量DOC_NUM的統(tǒng)計(jì)范圍。舉例來說,文本的總數(shù)量DOC_NUM可取決于相對應(yīng)的待匹配的查詢目標(biāo)的總數(shù)量,待匹配的查詢目標(biāo)可以從服務(wù)器中存儲的全部內(nèi)容中選取,也可以從預(yù)先通過人工或機(jī)器篩選出的待匹配的查詢目標(biāo)的集合中選取,本發(fā)明對此不做限制。的統(tǒng)計(jì)范圍也可以根據(jù)需要進(jìn)行設(shè)置,舉例來說,可以在針對同一查詢目標(biāo)的關(guān)聯(lián)查詢詞范圍內(nèi)統(tǒng)計(jì)詞qi出現(xiàn)的次數(shù),比如說,如上文所述,當(dāng)用戶輸入當(dāng)前查詢詞時(shí),可以通過例如文本匹配的手段將其匹配到包含該當(dāng)前查詢詞中的詞的語料庫,再在該語料庫中統(tǒng)計(jì)和

可以根據(jù)已計(jì)算獲得的所述第一加權(quán)向量和所述第二加權(quán)向量,通過如下計(jì)算二者的夾角的余弦值的方式來確定當(dāng)前查詢詞Q與所述文本S的語義相似度,即

similarity(Q,S)=cos(vec(Q),vec(S))

其中,similarity(表示當(dāng)前查詢詞Q與文本S的語義相似度,cos(vec(Q),vec(S))表示第一加權(quán)向量和第二加權(quán)向量的夾角的余弦值。

本領(lǐng)域技術(shù)人員還可以采用其他已知的可以計(jì)算得到當(dāng)前查詢詞與所述文本之間的語義相似度的方法來計(jì)算二者之間的語義相似度,例如通過計(jì)算第一加權(quán)向量和第二加權(quán)向量之間的歐式距離來確定語義相似度等,本發(fā)明對此不作限制。

在一個(gè)示例中,可以根據(jù)已確定的語義相似度,從所述待匹配的查詢目標(biāo)中確定與所述當(dāng)前查詢詞相匹配的查詢目標(biāo)。具體地,可以根據(jù)已確定的語義相似度,從待匹配的查詢目標(biāo)中確定語義相似度最高的一個(gè)或多個(gè)查詢目標(biāo)推薦給用戶。

實(shí)施例2

圖3示出根據(jù)本發(fā)明另一實(shí)施例的查詢目標(biāo)匹配裝置的結(jié)構(gòu)圖。該裝置可用于實(shí)現(xiàn)實(shí)施例1中方法各步驟的操作,與實(shí)施例1相對應(yīng)的示例的描述可參見實(shí)施例1,這里不再重復(fù)描述。如圖3所示,該查詢目標(biāo)匹配裝置300主要包括:

獲取模塊301,用于獲取針對相同查詢目標(biāo)的關(guān)聯(lián)查詢詞;

分詞模塊302,用于對所述關(guān)聯(lián)查詢詞進(jìn)行分詞操作,以獲得詞;

計(jì)算模塊303,用于計(jì)算各所述詞的詞向量;

詞向量確定模塊304,用于根據(jù)所述詞向量,確定當(dāng)前查詢詞中各詞的詞向量,以及與待匹配的查詢目標(biāo)相對應(yīng)的文本中包含的詞的詞向量;

相似度確定模塊305,用于根據(jù)當(dāng)前查詢詞中各詞的詞向量以及與待匹配的查詢目標(biāo)相對應(yīng)的文本中包含的詞的詞向量,確定當(dāng)前查詢詞與所述文本的語義相似度;

匹配查詢目標(biāo)確定模塊306,根據(jù)所確定的語義相似度,從所述待匹配的查詢目標(biāo)中確定與所述當(dāng)前查詢詞相匹配的查詢目標(biāo)。

在一個(gè)示例中,所述獲取模塊可以包括:第一獲取子模塊,用于獲取相同用戶連續(xù)輸入的查詢詞,作為所述關(guān)聯(lián)查詢詞。

在一個(gè)示例中,所述獲取模塊可以包括:第二獲取子模塊,用于獲取不同用戶針對相同的查詢目標(biāo)輸入的查詢詞,作為所述關(guān)聯(lián)查詢詞。

在一個(gè)示例中,所述相似度確定模塊可以包括:選擇單元,用于在所述文本中,選擇所述當(dāng)前查詢詞中的各詞以及位于所述當(dāng)前查詢詞中各詞附近的詞;確定單元,用于根據(jù)當(dāng)前查詢詞中各詞的詞向量,以及所述文本中所選擇的詞的詞向量,確定當(dāng)前查詢詞與所述文本的語義相似度。

在一個(gè)示例中,所述確定單元可以包括:第一加權(quán)向量計(jì)算單元,用于計(jì)算所述當(dāng)前查詢詞中包含的全部詞的詞向量的加權(quán)和,作為第一加權(quán)向量,第二加權(quán)向量計(jì)算單元,用于計(jì)算所述文本中所選擇的詞的詞向量的加權(quán)和,作為第二加權(quán)向量;相似度計(jì)算單元,用于計(jì)算所述第一加權(quán)向量和所述第二加權(quán)向量的夾角的余弦值,作為當(dāng)前查詢詞與所述文本的語義相似度。

在一個(gè)示例中,所述第一加權(quán)向量計(jì)算單元可以用于:

根據(jù)以下公式(1),確定針對當(dāng)前查詢詞Q中的詞qi的加權(quán)系數(shù):

其中,idf(qi)為當(dāng)前查詢詞Q中的詞qi的加權(quán)系數(shù);DOC_NUM為所述文本的總數(shù)量,為詞qi在所述關(guān)聯(lián)查詢詞中出現(xiàn)的次數(shù);

根據(jù)以下公式(2),確定所述第一加權(quán)向量vec(Q):

m為當(dāng)前查詢詞Q中詞的總個(gè)數(shù);

所述第二加權(quán)向量計(jì)算單元可以用于:

根據(jù)以下公式(3),確定針對所述文本S中所選擇的詞sj的加權(quán)系數(shù):

其中,idf(sj)為所述文本S中所選擇的詞sj的加權(quán)系數(shù);DOC_NUM為所述文本的總數(shù)量,為詞sj在所述關(guān)聯(lián)查詢詞中出現(xiàn)的次數(shù);

根據(jù)以下公式(4)確定所述第二加權(quán)向量vec(S):

k為所述文本S中所選擇的詞的總個(gè)數(shù)。

實(shí)施例3

圖4示出了本發(fā)明的另一個(gè)實(shí)施例的一種查詢目標(biāo)匹配處理設(shè)備的結(jié)構(gòu)框圖。所述查詢目標(biāo)匹配處理設(shè)備1100可以是具備計(jì)算能力的主機(jī)服務(wù)器、個(gè)人計(jì)算機(jī)PC、或者可攜帶的便攜式計(jì)算機(jī)或終端等。本發(fā)明具體實(shí)施例并不對計(jì)算節(jié)點(diǎn)的具體實(shí)現(xiàn)做限定。

所述查詢目標(biāo)匹配處理設(shè)備1100包括處理器(processor)1110、通信接口(Communications Interface)1120、存儲器(memory)1130和總線1140。其中,處理器1110、通信接口1120、以及存儲器1130通過總線1140完成相互間的通信。

通信接口1120用于與網(wǎng)絡(luò)設(shè)備通信,其中網(wǎng)絡(luò)設(shè)備包括例如虛擬機(jī)管理中心、共享存儲等。

處理器1110用于執(zhí)行程序。處理器1110可能是一個(gè)中央處理器CPU,或者是專用集成電路ASIC(Application Specific Integrated Circuit),或者是被配置成實(shí)施本發(fā)明實(shí)施例的一個(gè)或多個(gè)集成電路。

存儲器1130用于存放文件。存儲器1130可能包含高速RAM存儲器,也可能還包括非易失性存儲器(non-volatile memory),例如至少一個(gè)磁盤存儲器。存儲器1130也可以是存儲器陣列。存儲器1130還可能被分塊,并且所述塊可按一定的規(guī)則組合成虛擬卷。

在一種可能的實(shí)施方式中,上述程序可為包括計(jì)算機(jī)操作指令的程序代碼。該程序具體可用于實(shí)現(xiàn)實(shí)施例1所述的方法。

本領(lǐng)域普通技術(shù)人員可以意識到,本文所描述的實(shí)施例中的各示例性單元及算法步驟,能夠以電子硬件、或者計(jì)算機(jī)軟件和電子硬件的結(jié)合來實(shí)現(xiàn)。這些功能究竟以硬件還是軟件形式來實(shí)現(xiàn),取決于技術(shù)方案的特定應(yīng)用和設(shè)計(jì)約束條件。專業(yè)技術(shù)人員可以針對特定的應(yīng)用選擇不同的方法來實(shí)現(xiàn)所描述的功能,但是這種實(shí)現(xiàn)不應(yīng)認(rèn)為超出本發(fā)明的范圍。

如果以計(jì)算機(jī)軟件的形式來實(shí)現(xiàn)所述功能并作為獨(dú)立的產(chǎn)品銷售或使用時(shí),則在一定程度上可認(rèn)為本發(fā)明的技術(shù)方案的全部或部分(例如對現(xiàn)有技術(shù)做出貢獻(xiàn)的部分)是以計(jì)算機(jī)軟件產(chǎn)品的形式體現(xiàn)的。該計(jì)算機(jī)軟件產(chǎn)品通常存儲在計(jì)算機(jī)可讀取的非易失性存儲介質(zhì)中,包括若干指令用以使得計(jì)算機(jī)設(shè)備(可以是個(gè)人計(jì)算機(jī)、服務(wù)器、或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本發(fā)明各實(shí)施例方法的全部或部分步驟。而前述的存儲介質(zhì)包括U盤、移動(dòng)硬盤、只讀存儲器(ROM,Read-Only Memory)、隨機(jī)存取存儲器(RAM,Random Access Memory)、磁碟或者光盤等各種可以存儲程序代碼的介質(zhì)。

以上所述,僅為本發(fā)明的具體實(shí)施方式,但本發(fā)明的保護(hù)范圍并不局限于此,任何熟悉本技術(shù)領(lǐng)域的技術(shù)人員在本發(fā)明揭露的技術(shù)范圍內(nèi),可輕易想到變化或替換,都應(yīng)涵蓋在本發(fā)明的保護(hù)范圍之內(nèi)。因此,本發(fā)明的保護(hù)范圍應(yīng)以所述權(quán)利要求的保護(hù)范圍為準(zhǔn)。

當(dāng)前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1
安庆市| 遵义市| 紫阳县| 迁西县| 河津市| 孝感市| 合山市| 阿巴嘎旗| 巍山| 汽车| 和政县| 贵德县| 沛县| 遂昌县| 武清区| 吴旗县| 三门峡市| 乌恰县| 新田县| 吉首市| 咸宁市| 鱼台县| 临沭县| 夹江县| 肥西县| 桑植县| 章丘市| 自贡市| 土默特左旗| 读书| 宁河县| 东丽区| 永仁县| 辽阳市| 清苑县| 原阳县| 黄山市| 阳东县| 两当县| 教育| 永年县|