專(zhuān)利名稱(chēng):需求識(shí)別模板的自動(dòng)挖掘方法、需求識(shí)別方法及對(duì)應(yīng)裝置的制作方法
需求識(shí)別模板的自動(dòng)挖掘方法、需求識(shí)別方法及對(duì)應(yīng)裝置技術(shù)領(lǐng)域:
本發(fā)明涉及計(jì)算機(jī)技術(shù)領(lǐng)域,特別涉及一種需求識(shí)別模板的自動(dòng)挖掘方法和需求識(shí)別方法及對(duì)應(yīng)裝置。背景技術(shù):
隨著互聯(lián)網(wǎng)在全球范圍內(nèi)的迅速發(fā)展與成熟,網(wǎng)絡(luò)上的信息資源不斷豐富,信息數(shù)據(jù)量也在飛速膨脹,通過(guò)搜索引擎獲取信息已經(jīng)成為現(xiàn)代人獲取信息的主要方式。為了向用戶(hù)提供更加便捷、準(zhǔn)確地查詢(xún)服務(wù)是搜索引擎技術(shù)在當(dāng)今和未來(lái)的發(fā)展方向。
在搜索引擎技術(shù)中,對(duì)用戶(hù)的搜索需求進(jìn)行識(shí)別是提高搜索準(zhǔn)確性和有效性的重要一環(huán),特別在結(jié)構(gòu)化搜索(即垂直搜索)中作用顯著。例如,當(dāng)用戶(hù)輸入“從百度大廈到五道口怎么做公交車(chē)”的query時(shí),用戶(hù)期望得到直接從起點(diǎn)到終點(diǎn)的公交線(xiàn)路的地圖結(jié)果,因此,需要搜索引擎能夠識(shí)別出該query具有地圖類(lèi)的搜索需求,從而在地圖類(lèi)的結(jié)構(gòu)化數(shù)據(jù)庫(kù)中實(shí)現(xiàn)公交線(xiàn)路的結(jié)構(gòu)化搜索。在針對(duì)用戶(hù)輸入的query進(jìn)行需求識(shí)別時(shí),常用到的方式是基于已經(jīng)建立的需求識(shí)別模板對(duì)用戶(hù)輸入的query進(jìn)行匹配,利用匹配到的需求識(shí)別模板確定搜索需求。在現(xiàn)有技術(shù)中,需求識(shí)別模板通常采用人工配置的方式,即通過(guò)人為觀(guān)察常用的query結(jié)構(gòu),總結(jié)出常用的需求識(shí)別模板,例如對(duì)于地圖類(lèi),人工配置出 “從地名到地名怎么走”、“地名在哪”,“機(jī)構(gòu)名在什么位置”等需求識(shí)別模板,然而,這種人工配置需求識(shí)別模板的方式具有以下缺陷
其一、耗費(fèi)人力資源,建立需求識(shí)別模板的效率較低。
其二、對(duì)query的召回率較低,也就是說(shuō),能夠覆蓋到的query數(shù)量有限,適用范圍較窄。
發(fā)明內(nèi)容
本發(fā)明提供了一種需求識(shí)別模板的自動(dòng)挖掘方法、需求識(shí)別方法及對(duì)應(yīng)裝置,以便于節(jié)約人力資源,擴(kuò)大需求識(shí)別所能覆蓋到的query范圍。
具體技術(shù)方案如下
一種需求識(shí)別模板的自動(dòng)挖掘方法,該方法包括
S1、在搜索日志中確定預(yù)設(shè)類(lèi)型的網(wǎng)頁(yè)被點(diǎn)擊時(shí)對(duì)應(yīng)的query集合;
S2、從所述query集合中選擇對(duì)應(yīng)所述預(yù)設(shè)類(lèi)型的網(wǎng)頁(yè)被點(diǎn)擊的總次數(shù)超過(guò)預(yù)設(shè)次數(shù)閾值,和/或,對(duì)應(yīng)所述預(yù)設(shè)類(lèi)型的網(wǎng)頁(yè)點(diǎn)擊比超過(guò)預(yù)設(shè)點(diǎn)擊比閾值的query,將選擇的query作為所述預(yù)設(shè)類(lèi)型的種子query,其中query對(duì)應(yīng)的所述預(yù)設(shè)類(lèi)型的網(wǎng)頁(yè)點(diǎn)擊比為該query對(duì)應(yīng)所述預(yù)設(shè)類(lèi)型的網(wǎng)頁(yè)被點(diǎn)擊的總次數(shù)與該query對(duì)應(yīng)所有網(wǎng)頁(yè)被點(diǎn)擊的總次數(shù)的比值;
S3、將各種子query分別與所述預(yù)設(shè)類(lèi)型的詞典進(jìn)行匹配,將種子query中匹配到詞典的詞語(yǔ)替換成詞典中對(duì)應(yīng)詞語(yǔ)的屬性標(biāo)記后,得到所述預(yù)設(shè)類(lèi)型的模板集合,所述詞典包括詞語(yǔ)和詞語(yǔ)的屬性標(biāo)記;
S4、利用所述預(yù)設(shè)類(lèi)型的模板集合確定所述預(yù)設(shè)類(lèi)型的需求識(shí)別模板。
根據(jù)本發(fā)明一優(yōu)選實(shí)施例,所述步驟SI具體包括
確定搜索日志中網(wǎng)頁(yè)的類(lèi)型,收集所述預(yù)設(shè)類(lèi)型的網(wǎng)頁(yè),并確定所述預(yù)設(shè)類(lèi)型的 網(wǎng)頁(yè)被點(diǎn)擊時(shí)對(duì)應(yīng)的所有query構(gòu)成所述query集合;或者,
確定預(yù)設(shè)類(lèi)型的站點(diǎn),將搜索日志中屬于所述預(yù)設(shè)類(lèi)型的站點(diǎn)的網(wǎng)頁(yè)被點(diǎn)擊時(shí)對(duì) 應(yīng)的所有query構(gòu)成所述query集合。
根據(jù)本發(fā)明一優(yōu)選實(shí)施例,所述詞典中的詞語(yǔ)包括命名實(shí)體和所述預(yù)設(shè)類(lèi)型的 特征詞。
根據(jù)本發(fā)明一優(yōu)選實(shí)施例,該方法還包括
計(jì)算所述模板集合中各模板的準(zhǔn)確率和/或召回率;
其中,模板的準(zhǔn)確率為該模板所覆蓋query對(duì)應(yīng)所述預(yù)設(shè)類(lèi)型的網(wǎng)頁(yè)點(diǎn)擊比之 和與該模板所覆蓋query的數(shù)量的比值;
模板的召回率為該模板所覆蓋query的數(shù)量與所述預(yù)設(shè)類(lèi)型的種子query數(shù)量 的比值。
根據(jù)本發(fā)明一優(yōu)選實(shí)施例,所述步驟S4具體包括
將所述模板集合中的各模板確定為所述預(yù)設(shè)類(lèi)型的需求識(shí)別模板;或者,
從所述模板集合中選擇準(zhǔn)確率高于預(yù)設(shè)準(zhǔn)確率閾值,和/或,召回率高于預(yù)設(shè)召 回率閾值的模板,作為所述預(yù)設(shè)類(lèi)型的需求識(shí)別模板。
一種需求識(shí)別方法,該需求識(shí)別方法包括
Al、將待識(shí)別query分別與各預(yù)設(shè)類(lèi)型的詞典進(jìn)行匹配,將所述待識(shí)別query中匹 配到詞典的詞語(yǔ)替換成詞典中對(duì)應(yīng)詞語(yǔ)的屬性標(biāo)記,得到所述待識(shí)別query的語(yǔ)義標(biāo)注, 所述詞典包括詞語(yǔ)和詞語(yǔ)的屬性標(biāo)記;
A2、將所述待識(shí)別query的語(yǔ)義標(biāo)注分別與各預(yù)設(shè)類(lèi)型的需求識(shí)別模板進(jìn)行匹 配,利用匹配到的需求識(shí)別模板對(duì)應(yīng)的類(lèi)型確定所述待識(shí)別query的需求類(lèi)型;
其中,各預(yù)設(shè)類(lèi)型的需求識(shí)別模板是通過(guò)上述需求識(shí)別模板的自動(dòng)挖掘方法自動(dòng) 挖掘出的。
根據(jù)本發(fā)明一優(yōu)選實(shí)施例,所述詞典中的詞語(yǔ)包括命名實(shí)體和對(duì)應(yīng)預(yù)設(shè)類(lèi)型的 特征詞。
根據(jù)本發(fā)明一優(yōu)選實(shí)施例,在所述步驟Al中,如果所述待識(shí)別query中存在同一 個(gè)詞語(yǔ)匹配到多個(gè)詞典的詞語(yǔ),則利用匹配到的多個(gè)詞典的詞語(yǔ)的屬性標(biāo)記分別進(jìn)行替 換,得到多個(gè)所述待識(shí)別query的語(yǔ)義標(biāo)注。
根據(jù)本發(fā)明一優(yōu)選實(shí)施例,在所述待識(shí)別query的語(yǔ)義標(biāo)注匹配到多個(gè)需求識(shí)別 模板時(shí),在所述步驟A2中進(jìn)一步結(jié)合匹配到的各需求識(shí)別模板的準(zhǔn)確率和/或召回率確定 所述待識(shí)別query的需求類(lèi)型。
根據(jù)本發(fā)明一優(yōu)選實(shí)施例,在所述步驟A2中確定所述待識(shí)別query的需求類(lèi)型包 括
將匹配到的各需求識(shí)別模板中準(zhǔn)確率和/或召回率滿(mǎn)足預(yù)設(shè)要求的需求識(shí)別模 板對(duì)應(yīng)的需求類(lèi)型確定為所述待識(shí)別query的需求類(lèi)型;或者,
將匹配到的各需求識(shí)別模板中準(zhǔn)確率和/或召回率排在前N個(gè)的需求識(shí)別模板對(duì)應(yīng)的需求類(lèi)型確定為所述待識(shí)別query的需求類(lèi)型,所述N為預(yù)設(shè)的正整數(shù);或者,
根據(jù)匹配到的各需求識(shí)別模板的準(zhǔn)確率和/或召回率對(duì)應(yīng)的需求級(jí)別,確定所述 待識(shí)別query在各需求類(lèi)型上的需求級(jí)別。
一種需求識(shí)別模板的自動(dòng)挖掘裝置,該裝置包括
第一選擇單元,用于在搜索日志中確定預(yù)設(shè)類(lèi)型的網(wǎng)頁(yè)被點(diǎn)擊時(shí)對(duì)應(yīng)的query集
第二選擇單元,用于從所述query集合中選擇對(duì)應(yīng)所述預(yù)設(shè)類(lèi)型的網(wǎng)頁(yè)被點(diǎn)擊的 總次數(shù)超過(guò)預(yù)設(shè)次數(shù)閾值,和/或,對(duì)應(yīng)所述預(yù)設(shè)類(lèi)型的網(wǎng)頁(yè)點(diǎn)擊比超過(guò)預(yù)設(shè)點(diǎn)擊比閾值 的query,將選擇的query作為所述預(yù)設(shè)類(lèi)型的種子query,其中query對(duì)應(yīng)的所述預(yù)設(shè)類(lèi) 型的網(wǎng)頁(yè)點(diǎn)擊比為該query對(duì)應(yīng)所述預(yù)設(shè)類(lèi)型的網(wǎng)頁(yè)被點(diǎn)擊的總次數(shù)與該query對(duì)應(yīng)所 有網(wǎng)頁(yè)被點(diǎn)擊的總次數(shù)的比值;
標(biāo)記替換單元,用于將各種子query分別與所述預(yù)設(shè)類(lèi)型的詞典進(jìn)行匹配,將種 子query中匹配到詞典的詞語(yǔ)替換成詞典中對(duì)應(yīng)詞語(yǔ)的屬性標(biāo)記后,得到所述預(yù)設(shè)類(lèi)型的 模板集合,所述詞典包括詞語(yǔ)和詞語(yǔ)的屬性標(biāo)記;
模板確定單元,用于利用所述預(yù)設(shè)類(lèi)型的模板集合確定所述預(yù)設(shè)類(lèi)型的需求識(shí)別 模板。
根據(jù)本發(fā)明一優(yōu)選實(shí)施例,所述第一選擇單元具體確定搜索日志中網(wǎng)頁(yè)的類(lèi)型, 收集所述預(yù)設(shè)類(lèi)型的網(wǎng)頁(yè),并確定所述預(yù)設(shè)類(lèi)型的網(wǎng)頁(yè)被點(diǎn)擊時(shí)對(duì)應(yīng)的所有query構(gòu)成所 述query集合;或者,
確定預(yù)設(shè)類(lèi)型的站點(diǎn),將搜索日志中屬于所述預(yù)設(shè)類(lèi)型的站點(diǎn)的網(wǎng)頁(yè)被點(diǎn)擊時(shí)對(duì) 應(yīng)的所有query構(gòu)成所述query集合。
根據(jù)本發(fā)明一優(yōu)選實(shí)施例,所述詞典中的詞語(yǔ)包括命名實(shí)體和所述預(yù)設(shè)類(lèi)型的 特征詞。
根據(jù)本發(fā)明一優(yōu)選實(shí)施例,該裝置還包括權(quán)值計(jì)算單元,用于計(jì)算所述模板集合 中各模板的準(zhǔn)確率和/或召回率;
其中,模板的準(zhǔn)確率為該模板所覆蓋query對(duì)應(yīng)所述預(yù)設(shè)類(lèi)型的網(wǎng)頁(yè)點(diǎn)擊比之 和與該模板所覆蓋query的數(shù)量的比值;
模板的召回率為該模板所覆蓋query的數(shù)量與所述預(yù)設(shè)類(lèi)型的種子query數(shù)量 的比值。
根據(jù)本發(fā)明一優(yōu)選實(shí)施例,所述模板確定單元將所述模板集合中的各模板確定為 所述預(yù)設(shè)類(lèi)型的需求識(shí)別模板;或者,
從所述模板集合中選擇準(zhǔn)確率高于預(yù)設(shè)準(zhǔn)確率閾值,和/或,召回率高于預(yù)設(shè)召 回率閾值的模板,作為所述預(yù)設(shè)類(lèi)型的需求識(shí)別模板。
一種需求識(shí)別裝置,該需求識(shí)別裝置包括
語(yǔ)義標(biāo)注單元,用于將待識(shí)別query分別與各預(yù)設(shè)類(lèi)型的詞典進(jìn)行匹配,將所述 待識(shí)別query中匹配到詞典的詞語(yǔ)替換成詞典中對(duì)應(yīng)詞語(yǔ)的屬性標(biāo)記,得到所述待識(shí)別 query的語(yǔ)義標(biāo)注,所述詞典包括詞語(yǔ)和詞語(yǔ)的屬性標(biāo)記;
需求確定單元,用于將所述待識(shí)別query的語(yǔ)義標(biāo)注分別與各預(yù)設(shè)類(lèi)型的需求識(shí) 別模板進(jìn)行匹配,利用匹配到的需求識(shí)別模板對(duì)應(yīng)的類(lèi)型確定所述待識(shí)別query的需求類(lèi)型;
其中,各預(yù)設(shè)類(lèi)型的需求識(shí)別模板是通過(guò)上述需求識(shí)別模板的自動(dòng)挖掘裝置自動(dòng)挖掘出的。
根據(jù)本發(fā)明一優(yōu)選實(shí)施例,所述詞典中的詞語(yǔ)包括命名實(shí)體和對(duì)應(yīng)預(yù)設(shè)類(lèi)型的特征詞。
根據(jù)本發(fā)明一優(yōu)選實(shí)施例,所述語(yǔ)義標(biāo)注單元在所述待識(shí)別query中存在同一個(gè)詞語(yǔ)匹配到多個(gè)詞典的詞語(yǔ)時(shí),利用匹配到的多個(gè)詞典的詞語(yǔ)的屬性標(biāo)記分別進(jìn)行替換, 得到多個(gè)所述待識(shí)別query的語(yǔ)義標(biāo)注。
根據(jù)本發(fā)明一優(yōu)選實(shí)施例,所述需求確定單元在所述待識(shí)別query的語(yǔ)義標(biāo)注匹配到多個(gè)需求識(shí)別模板時(shí),結(jié)合匹配到的各需求識(shí)別模板的準(zhǔn)確率和/或召回率確定所述待識(shí)別query的需求類(lèi)型。
根據(jù)本發(fā)明一優(yōu)選實(shí)施例,所述需求確定單元在確定所述待識(shí)別query的需求類(lèi)型時(shí),將匹配到的各需求識(shí)別模板中準(zhǔn)確率和/或召回率滿(mǎn)足預(yù)設(shè)要求的需求識(shí)別模板對(duì)應(yīng)的需求類(lèi)型確定為所述待識(shí)別query的需求類(lèi)型;或者,
將匹配到的各需求識(shí)別模板中準(zhǔn)確率和/或召回率排在前N個(gè)的需求識(shí)別模板對(duì)應(yīng)的需求類(lèi)型確定為所述待識(shí)別query的需求類(lèi)型,所述N為預(yù)設(shè)的正整數(shù);或者,
根據(jù)匹配到的各需求識(shí)別模板的準(zhǔn)確率和/或召回率對(duì)應(yīng)的需求級(jí)別,確定所述待識(shí)別query在各需求類(lèi)型上的需求級(jí)別。
由以上技術(shù)方案可以看出,在本發(fā)明中,通過(guò)收集搜索日志中預(yù)設(shè)類(lèi)型的網(wǎng)頁(yè)被點(diǎn)擊時(shí)對(duì)應(yīng)的query集合得到預(yù)設(shè)類(lèi)型的種子query,并將種子query與預(yù)設(shè)類(lèi)型的詞典進(jìn)行匹配和屬性標(biāo)記替換的方式確定出預(yù)設(shè)類(lèi)型的需求識(shí)別模板,從而實(shí)現(xiàn)需求識(shí)別模板的自 動(dòng)挖掘。本發(fā)明無(wú)需人工參與,大大節(jié)約了人力資源,且由于需求識(shí)別模板的挖掘來(lái)源于搜索日志,表達(dá)更符合用戶(hù)的搜索習(xí)慣,能夠覆蓋到大量的query,提高了召回率。
圖
圖
圖
圖
圖
圖1為本發(fā)明實(shí)施例一提供的需求識(shí)別模板的挖掘方法流程圖;2為本發(fā)明實(shí)施例二提供的需求識(shí)別方法的流程圖;3為本發(fā)明實(shí)施例三提供的需求識(shí)別模板的自動(dòng)挖掘裝置結(jié)構(gòu)圖 4為本發(fā)明實(shí)施例四提供的需求識(shí)別裝置的結(jié)構(gòu)示意圖;5為本發(fā)明實(shí)施例提供的需求識(shí)別用于垂直搜索的實(shí)例圖;6為本發(fā)明實(shí)施例提供的需求識(shí)別用于信息推薦的實(shí)例圖。
具體實(shí)施方式
為了使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面結(jié)合附圖和具體實(shí)施例對(duì)本發(fā)明進(jìn)行詳細(xì)描述。
在進(jìn)行需求識(shí)別模板的挖掘時(shí),需要大量具有同一類(lèi)需求的query,利用這些 query來(lái)確定出該類(lèi)需求對(duì)應(yīng)的需求識(shí)別模板,在此,將這些具有同一類(lèi)需求的query稱(chēng)為種子query。通過(guò)對(duì)用戶(hù)的搜索行為進(jìn)行分析后發(fā)現(xiàn),用戶(hù)輸入query進(jìn)行搜索后,在搜索結(jié)果中點(diǎn)擊的網(wǎng)頁(yè)通常能夠反映出用戶(hù)的搜索需求。例如,用戶(hù)輸入query“上海大眾招聘”后,在搜索結(jié)果中大多會(huì)點(diǎn)擊一些招聘類(lèi)網(wǎng)站的網(wǎng)頁(yè),因此,可以利用用戶(hù)點(diǎn)擊的網(wǎng)頁(yè)來(lái)挖 掘種子query。下面結(jié)合實(shí)施例一對(duì)本發(fā)明提供的需求識(shí)別模板的挖掘方法進(jìn)行描述。
實(shí)施例一、
圖1為本發(fā)明實(shí)施例一提供的需求識(shí)別模板的挖掘方法流程圖,如圖1所示,該方 法包括以下步驟
步驟101 :在搜索日志中確定預(yù)設(shè)類(lèi)型的網(wǎng)頁(yè)被點(diǎn)擊時(shí)對(duì)應(yīng)的query集合。
在本步驟中,可以采用以下兩種方式
第一種通過(guò)現(xiàn)有的網(wǎng)頁(yè)類(lèi)型識(shí)別方法確定出網(wǎng)頁(yè)類(lèi)型后,收集預(yù)設(shè)類(lèi)型的網(wǎng)頁(yè), 在搜索日志中確定這些網(wǎng)頁(yè)被點(diǎn)擊時(shí)對(duì)應(yīng)的所有query構(gòu)成query集合。
其中,可以采用基于文本特征的網(wǎng)頁(yè)分類(lèi)方法,或者通過(guò)計(jì)算網(wǎng)頁(yè)文本特征向量 與預(yù)設(shè)類(lèi)型的特征向量之間相似度的方法等現(xiàn)有方式,確定出搜索日志中各網(wǎng)頁(yè)的類(lèi)型, 然后收集預(yù)設(shè)類(lèi)型的網(wǎng)頁(yè)。
第二種也可以確定出預(yù)設(shè)類(lèi)型的站點(diǎn)(site),這些站點(diǎn)的網(wǎng)頁(yè)均認(rèn)為是預(yù)設(shè) 類(lèi)型的網(wǎng)頁(yè),將搜索日志中屬于預(yù)設(shè)類(lèi)型的站點(diǎn)的網(wǎng)頁(yè)被點(diǎn)擊時(shí)對(duì)應(yīng)的所有query構(gòu)成 query集合。
例如,對(duì)于招聘類(lèi)的網(wǎng)站,可以包括chinahr.com、zhaopin. com>51 job. com、 800hr. com、yingjiesheng. com、cjol. com、baica1. com 等,在搜索日志中屬于這些站點(diǎn)的網(wǎng) 頁(yè)被點(diǎn)擊時(shí)對(duì)應(yīng)的query,認(rèn)為具有招聘類(lèi)需求,將這些query構(gòu)成query集合,作為后續(xù)抽 取招聘類(lèi)需求的模板的候選種子query。
步驟102 :從query集合中選擇對(duì)應(yīng)該預(yù)設(shè)類(lèi)型的網(wǎng)頁(yè)被點(diǎn)擊的總次數(shù)超過(guò)預(yù) 設(shè)次數(shù)閾值,和/或,對(duì)應(yīng)該類(lèi)型的網(wǎng)頁(yè)點(diǎn)擊比超過(guò)預(yù)設(shè)點(diǎn)擊比閾值的query,作為種子 query ;其中query對(duì)應(yīng)的該類(lèi)型的網(wǎng)頁(yè)點(diǎn)擊比為該query對(duì)應(yīng)該預(yù)設(shè)類(lèi)型的網(wǎng)頁(yè)被點(diǎn)擊 的總次數(shù)與該query對(duì)應(yīng)所有網(wǎng)頁(yè)被點(diǎn)擊的總次數(shù)的比值。
舉個(gè)例子,假設(shè)某query對(duì)應(yīng)招聘類(lèi)網(wǎng)頁(yè)被點(diǎn)擊的總次數(shù)為180次,該query對(duì)應(yīng) 所有網(wǎng)頁(yè)被點(diǎn)擊的總次數(shù)為500次,那么該query對(duì)應(yīng)招聘類(lèi)的網(wǎng)頁(yè)點(diǎn)擊比為180/500 = 0. 36,該網(wǎng)頁(yè)點(diǎn)擊比反映了 query屬于招聘類(lèi)需求的可能性。
query對(duì)應(yīng)預(yù)設(shè)類(lèi)型的網(wǎng)頁(yè)被點(diǎn)擊的總次數(shù)也反映了該query屬于招聘類(lèi)需求的 可能性,因此,可以將query集合中對(duì)應(yīng)該預(yù)設(shè)類(lèi)型的網(wǎng)頁(yè)被點(diǎn)擊的總次數(shù)超過(guò)預(yù)設(shè)次數(shù) 閾值的query作為種子query,也可以將query集合中對(duì)應(yīng)該類(lèi)型的網(wǎng)頁(yè)點(diǎn)擊比超過(guò)預(yù)設(shè)點(diǎn) 擊比閾值的query作為種子query,或者,將query集合中對(duì)應(yīng)該預(yù)設(shè)類(lèi)型的網(wǎng)頁(yè)被點(diǎn)擊的 總次數(shù)超過(guò)預(yù)設(shè)次數(shù)閾值并且對(duì)應(yīng)該類(lèi)型的網(wǎng)頁(yè)點(diǎn)擊比超過(guò)預(yù)設(shè)點(diǎn)擊比閾值的query作 為種子query。
以招聘類(lèi)為例,假設(shè)確定的query集合如表I所示,query集合中存在42個(gè)query, 如果從query集合中選擇對(duì)應(yīng)該預(yù)設(shè)類(lèi)型的網(wǎng)頁(yè)被點(diǎn)擊的總次數(shù)超過(guò)I并且對(duì)應(yīng)該類(lèi)型的 網(wǎng)頁(yè)點(diǎn)擊比超過(guò)0. 05的query作為種子query,則得到40個(gè)種子query。
表I
權(quán)利要求
1.一種需求識(shí)別模板的自動(dòng)挖掘方法,其特征在于,該方法包括51、在搜索日志中確定預(yù)設(shè)類(lèi)型的網(wǎng)頁(yè)被點(diǎn)擊時(shí)對(duì)應(yīng)的query集合;52、從所述query集合中選擇對(duì)應(yīng)所述預(yù)設(shè)類(lèi)型的網(wǎng)頁(yè)被點(diǎn)擊的總次數(shù)超過(guò)預(yù)設(shè)次數(shù)閾值,和/或,對(duì)應(yīng)所述預(yù)設(shè)類(lèi)型的網(wǎng)頁(yè)點(diǎn)擊比超過(guò)預(yù)設(shè)點(diǎn)擊比閾值的query,將選擇的query作為所述預(yù)設(shè)類(lèi)型的種子query,其中query對(duì)應(yīng)的所述預(yù)設(shè)類(lèi)型的網(wǎng)頁(yè)點(diǎn)擊比為該query對(duì)應(yīng)所述預(yù)設(shè)類(lèi)型的網(wǎng)頁(yè)被點(diǎn)擊的總次數(shù)與該query對(duì)應(yīng)所有網(wǎng)頁(yè)被點(diǎn)擊的總次數(shù)的比值;53、將各種子query分別與所述預(yù)設(shè)類(lèi)型的詞典進(jìn)行匹配,將種子query中匹配到詞典的詞語(yǔ)替換成詞典中對(duì)應(yīng)詞語(yǔ)的屬性標(biāo)記后,得到所述預(yù)設(shè)類(lèi)型的模板集合,所述詞典包括詞語(yǔ)和詞語(yǔ)的屬性標(biāo)記;54、利用所述預(yù)設(shè)類(lèi)型的模板集合確定所述預(yù)設(shè)類(lèi)型的需求識(shí)別模板。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述步驟SI具體包括確定搜索日志中網(wǎng)頁(yè)的類(lèi)型,收集所述預(yù)設(shè)類(lèi)型的網(wǎng)頁(yè),并確定所述預(yù)設(shè)類(lèi)型的網(wǎng)頁(yè)被點(diǎn)擊時(shí)對(duì)應(yīng)的所有query構(gòu)成所述query集合;或者,確定預(yù)設(shè)類(lèi)型的站點(diǎn),將搜索日志中屬于所述預(yù)設(shè)類(lèi)型的站點(diǎn)的網(wǎng)頁(yè)被點(diǎn)擊時(shí)對(duì)應(yīng)的所有query構(gòu)成所述query集合。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述詞典中的詞語(yǔ)包括命名實(shí)體和所述預(yù)設(shè)類(lèi)型的特征詞。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,該方法還包括計(jì)算所述模板集合中各模板的準(zhǔn)確率和/或召回率;其中,模板的準(zhǔn)確率為該模板所覆蓋query對(duì)應(yīng)所述預(yù)設(shè)類(lèi)型的網(wǎng)頁(yè)點(diǎn)擊比之和與該模板所覆蓋query的數(shù)量的比值;模板的召回率為該模板所覆蓋query的數(shù)量與所述預(yù)設(shè)類(lèi)型的種子query數(shù)量的比值。
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述步驟S4具體包括將所述模板集合中的各模板確定為所述預(yù)設(shè)類(lèi)型的需求識(shí)別模板;或者,從所述模板集合中選擇準(zhǔn)確率高于預(yù)設(shè)準(zhǔn)確率閾值,和/或,召回率高于預(yù)設(shè)召回率閾值的模板,作為所述預(yù)設(shè)類(lèi)型的需求識(shí)別模板。
6.一種需求識(shí)別方法,其特征在于,該需求識(shí)別方法包括Al、將待識(shí)別query分別與各預(yù)設(shè)類(lèi)型的詞典進(jìn)行匹配,將所述待識(shí)別query中匹配到詞典的詞語(yǔ)替換成詞典中對(duì)應(yīng)詞語(yǔ)的屬性標(biāo)記,得到所述待識(shí)別query的語(yǔ)義標(biāo)注,所述詞典包括詞語(yǔ)和詞語(yǔ)的屬性標(biāo)記;A2、將所述待識(shí)別query的語(yǔ)義標(biāo)注分別與各預(yù)設(shè)類(lèi)型的需求識(shí)別模板進(jìn)行匹配,利用匹配到的需求識(shí)別模板對(duì)應(yīng)的類(lèi)型確定所述待識(shí)別query的需求類(lèi)型;其中,各預(yù)設(shè)類(lèi)型的需求識(shí)別模板是通過(guò)如權(quán)利要求1至5任一權(quán)項(xiàng)所述的方法自動(dòng)挖掘出的。
7.根據(jù)權(quán)利要求6所述的需求識(shí)別方法,其特征在于,所述詞典中的詞語(yǔ)包括命名實(shí)體和對(duì)應(yīng)預(yù)設(shè)類(lèi)型的特征詞。
8.根據(jù)權(quán)利要求6所述的需求識(shí)別方法,其特征在于,在所述步驟Al中,如果所述待識(shí)別query中存在同一個(gè)詞語(yǔ)匹配到多個(gè)詞典的詞語(yǔ),則利用匹配到的多個(gè)詞典的詞語(yǔ)的屬性標(biāo)記分別進(jìn)行替換,得到多個(gè)所述待識(shí)別query的語(yǔ)義標(biāo)注。
9.根據(jù)權(quán)利要求6或8所述的需求識(shí)別方法,其特征在于,如果各預(yù)設(shè)類(lèi)型的需求識(shí)別模板是通過(guò)如權(quán)利要求4所述的方法挖掘出的,則在所述待識(shí)別query的語(yǔ)義標(biāo)注匹配到多個(gè)需求識(shí)別模板時(shí),在所述步驟A2中進(jìn)一步結(jié)合匹配到的各需求識(shí)別模板的準(zhǔn)確率和/或召回率確定所述待識(shí)別query的需求類(lèi)型。
10.根據(jù)權(quán)利要求9所述的需求識(shí)別方法,其特征在于,在所述步驟A2中確定所述待識(shí)別query的需求類(lèi)型包括將匹配到的各需求識(shí)別模板中準(zhǔn)確率和/或召回率滿(mǎn)足預(yù)設(shè)要求的需求識(shí)別模板對(duì)應(yīng)的需求類(lèi)型確定為所述待識(shí)別query的需求類(lèi)型;或者,將匹配到的各需求識(shí)別模板中準(zhǔn)確率和/或召回率排在前N個(gè)的需求識(shí)別模板對(duì)應(yīng)的需求類(lèi)型確定為所述待識(shí)別query的需求類(lèi)型,所述N為預(yù)設(shè)的正整數(shù);或者,根據(jù)匹配到的各需求識(shí)別模板的準(zhǔn)確率和/或召回率對(duì)應(yīng)的需求級(jí)別,確定所述待識(shí)別query在各需求類(lèi)型上的需求級(jí)別。
11.一種需求識(shí)別模板的自動(dòng)挖掘裝置,其特征在于,該裝置包括第一選擇單元,用于在搜索日志中確定預(yù)設(shè)類(lèi)型的網(wǎng)頁(yè)被點(diǎn)擊時(shí)對(duì)應(yīng)的query集合;第二選擇單元,用于從所述query集合中選擇對(duì)應(yīng)所述預(yù)設(shè)類(lèi)型的網(wǎng)頁(yè)被點(diǎn)擊的總次數(shù)超過(guò)預(yù)設(shè)次數(shù)閾值,和/或,對(duì)應(yīng)所述預(yù)設(shè)類(lèi)型的網(wǎng)頁(yè)點(diǎn)擊比超過(guò)預(yù)設(shè)點(diǎn)擊比閾值的query,將選擇的query作為所述預(yù)設(shè)類(lèi)型的種子query,其中query對(duì)應(yīng)的所述預(yù)設(shè)類(lèi)型的網(wǎng)頁(yè)點(diǎn)擊比為該query對(duì)應(yīng)所述預(yù)設(shè)類(lèi)型的網(wǎng)頁(yè)被點(diǎn)擊的總次數(shù)與該query對(duì)應(yīng)所有網(wǎng)頁(yè)被點(diǎn)擊的總次數(shù)的比值;標(biāo)記替換單元,用于將各種子query分別與所述預(yù)設(shè)類(lèi)型的詞典進(jìn)行匹配,將種子query中匹配到詞典的詞語(yǔ)替換成詞典中對(duì)應(yīng)詞語(yǔ)的屬性標(biāo)記后,得到所述預(yù)設(shè)類(lèi)型的模板集合,所述詞典包括詞語(yǔ)和詞語(yǔ)的屬性標(biāo)記;模板確定單元,用于利用所述預(yù)設(shè)類(lèi)型的模板集合確定所述預(yù)設(shè)類(lèi)型的需求識(shí)別模板。
12.根據(jù)權(quán)利要求11所述的裝置,其特征在于,所述第一選擇單元具體確定搜索日志中網(wǎng)頁(yè)的類(lèi)型,收集所述預(yù)設(shè)類(lèi)型的網(wǎng)頁(yè),并確定所述預(yù)設(shè)類(lèi)型的網(wǎng)頁(yè)被點(diǎn)擊時(shí)對(duì)應(yīng)的所有query構(gòu)成所述query集合;或者,確定預(yù)設(shè)類(lèi)型的站點(diǎn),將搜索日志中屬于所述預(yù)設(shè)類(lèi)型的站點(diǎn)的網(wǎng)頁(yè)被點(diǎn)擊時(shí)對(duì)應(yīng)的所有query構(gòu)成所述query集合。
13.根據(jù)權(quán)利要求11所述的裝置,其特征在于,所述詞典中的詞語(yǔ)包括命名實(shí)體和所述預(yù)設(shè)類(lèi)型的特征詞。
14.根據(jù)權(quán)利要求11所述的裝置,其特征在于,該裝置還包括權(quán)值計(jì)算單元,用于計(jì)算所述模板集合中各模板的準(zhǔn)確率和/或召回率;其中,模板的準(zhǔn)確率為該模板所覆蓋query對(duì)應(yīng)所述預(yù)設(shè)類(lèi)型的網(wǎng)頁(yè)點(diǎn)擊比之和與該模板所覆蓋query的數(shù)量的比值;模板的召回率為該模板所覆蓋query的數(shù)量與所述預(yù)設(shè)類(lèi)型的種子query數(shù)量的比值。
15.根據(jù)權(quán)利要求14所述的裝置,其特征在于,所述模板確定單元將所述模板集合中的各模板確定為所述預(yù)設(shè)類(lèi)型的需求識(shí)別模板;或者,從所述模板集合中選擇準(zhǔn)確率高于預(yù)設(shè)準(zhǔn)確率閾值,和/或,召回率高于預(yù)設(shè)召回率閾值的模板,作為所述預(yù)設(shè)類(lèi)型的需求識(shí)別模板。
16.一種需求識(shí)別裝置,其特征在于,該需求識(shí)別裝置包括語(yǔ)義標(biāo)注單元,用于將待識(shí)別query分別與各預(yù)設(shè)類(lèi)型的詞典進(jìn)行匹配,將所述待識(shí)別query中匹配到詞典的詞語(yǔ)替換成詞典中對(duì)應(yīng)詞語(yǔ)的屬性標(biāo)記,得到所述待識(shí)別query的語(yǔ)義標(biāo)注,所述詞典包括詞語(yǔ)和詞語(yǔ)的屬性標(biāo)記;需求確定單元,用于將所述待識(shí)別query的語(yǔ)義標(biāo)注分別與各預(yù)設(shè)類(lèi)型的需求識(shí)別模板進(jìn)行匹配,利用匹配到的需求識(shí)別模板對(duì)應(yīng)的類(lèi)型確定所述待識(shí)別query的需求類(lèi)型;其中,各預(yù)設(shè)類(lèi)型的需求識(shí)別模板是通過(guò)如權(quán)利要求11至15任一權(quán)項(xiàng)所述的裝置自動(dòng)挖掘出的。
17.根據(jù)權(quán)利要求16所述需求識(shí)別裝置,其特征在于,所述詞典中的詞語(yǔ)包括命名實(shí)體和對(duì)應(yīng)預(yù)設(shè)類(lèi)型的特征詞。
18.根據(jù)權(quán)利要求16所述需求識(shí)別裝置,其特征在于,所述語(yǔ)義標(biāo)注單元在所述待識(shí)別query中存在同一個(gè)詞語(yǔ)匹配到多個(gè)詞典的詞語(yǔ)時(shí),利用匹配到的多個(gè)詞典的詞語(yǔ)的屬性標(biāo)記分別進(jìn)行替換,得到多個(gè)所述待識(shí)別query的語(yǔ)義標(biāo)注。
19.根據(jù)權(quán)利要求16或18所述需求識(shí)別裝置,其特征在于,如果各預(yù)設(shè)類(lèi)型的需求識(shí)別模板是通過(guò)如權(quán)利要求14所述的裝置挖掘出的,則所述需求確定單元在所述待識(shí)別query的語(yǔ)義標(biāo)注匹配到多個(gè)需求識(shí)別模板時(shí),結(jié)合匹配到的各需求識(shí)別模板的準(zhǔn)確率和/或召回率確定所述待識(shí)別query的需求類(lèi)型。
20.根據(jù)權(quán)利要求19所述需求識(shí)別裝置,其特征在于,所述需求確定單元在確定所述待識(shí)別query的需求類(lèi)型時(shí),將匹配到的各需求識(shí)別模板中準(zhǔn)確率和/或召回率滿(mǎn)足預(yù)設(shè)要求的需求識(shí)別模板對(duì)應(yīng)的需求類(lèi)型確定為所述待識(shí)別query的需求類(lèi)型;或者,將匹配到的各需求識(shí)別模板中準(zhǔn)確率和/或召回率排在前N個(gè)的需求識(shí)別模板對(duì)應(yīng)的需求類(lèi)型確定為所述待識(shí)別query的需求類(lèi)型,所述N為預(yù)設(shè)的正整數(shù);或者,根據(jù)匹配到的各需求識(shí)別模板的準(zhǔn)確率和/或召回率對(duì)應(yīng)的需求級(jí)別,確定所述待識(shí)別query在各需求類(lèi)型上的需求級(jí)別。
全文摘要
本發(fā)明提供了一種需求識(shí)別模板的自動(dòng)挖掘方法、需求識(shí)別方法及對(duì)應(yīng)裝置,在搜索日志中確定預(yù)設(shè)類(lèi)型的網(wǎng)頁(yè)被點(diǎn)擊時(shí)對(duì)應(yīng)的query集合;從query集合中選擇對(duì)應(yīng)預(yù)設(shè)類(lèi)型的網(wǎng)頁(yè)被點(diǎn)擊的總次數(shù)超過(guò)預(yù)設(shè)次數(shù)閾值,和/或,對(duì)應(yīng)預(yù)設(shè)類(lèi)型的網(wǎng)頁(yè)點(diǎn)擊比超過(guò)預(yù)設(shè)點(diǎn)擊比閾值的query,將選擇的query作為預(yù)設(shè)類(lèi)型的種子query;將各種子query分別與預(yù)設(shè)類(lèi)型的詞典進(jìn)行匹配,將種子query中匹配到詞典的詞語(yǔ)替換成詞典中對(duì)應(yīng)詞語(yǔ)的屬性標(biāo)記后,得到預(yù)設(shè)類(lèi)型的模板集合;利用預(yù)設(shè)類(lèi)型的模板集合確定預(yù)設(shè)類(lèi)型的需求識(shí)別模板。通過(guò)本發(fā)明能夠節(jié)約人力資源,擴(kuò)大搜索識(shí)別所能覆蓋到的query范圍,提高召回率。
文檔編號(hào)G06F17/30GK103020083SQ20111028698
公開(kāi)日2013年4月3日 申請(qǐng)日期2011年9月23日 優(yōu)先權(quán)日2011年9月23日
發(fā)明者黃際洲, 柴春光 申請(qǐng)人:北京百度網(wǎng)訊科技有限公司