本發(fā)明涉及互聯(lián)網(wǎng)技術(shù)領(lǐng)域,特別是涉及一種網(wǎng)頁訓練的方法和裝置、搜索意圖識別的方法和裝置。
背景技術(shù):
隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,人們可以通過網(wǎng)絡(luò)使用搜索引擎檢索自己所需要的信息。如當用戶在搜索引擎里輸入“仙劍奇?zhèn)b傳”時,用戶的意圖較大可能是搜索電視劇或搜索游戲,搜索引擎需要先判斷出用戶搜索的意圖,才能使返回的搜索結(jié)果更接近用戶需要的內(nèi)容。意圖識別就是對于任意給定的查詢字符串,判斷該查詢字符串屬于的類別。
現(xiàn)有的搜索意圖識別方法,往往使用人工標注的方法對網(wǎng)頁標注類別,在進行意圖識別時,需要使用人工標注的網(wǎng)頁類別進行識別,需要人工標注每個類別的網(wǎng)頁集合,成本太高,而且人工標注的結(jié)果往往數(shù)量有限,對于點擊率少的網(wǎng)頁很有可能網(wǎng)頁的類別未知,導致意圖識別的準確率不高。
技術(shù)實現(xiàn)要素:
基于此,有必要針對上述技術(shù)問題,提供一種網(wǎng)頁訓練的方法和裝置、搜索意圖識別的方法和裝置,提高搜索意圖識別的準確率。
一種網(wǎng)頁訓練的方法,所述方法包括:
獲取人工標注類別的訓練網(wǎng)頁集合,生成所述訓練網(wǎng)頁集合中的網(wǎng)頁的網(wǎng)頁向量,具體包括:
獲取所述訓練網(wǎng)頁集合中的第一訓練網(wǎng)頁的有效歷史查詢字符串,對所述有效歷史查詢字符串進行分詞;
獲取各個分詞的有效次數(shù),所述有效次數(shù)為所述有效歷史查詢字符串中所述分詞出現(xiàn)的總次數(shù);
根據(jù)所述各個分詞的有效次數(shù)計算各個分詞的分詞權(quán)重;
根據(jù)所述各個分詞和對應的分詞權(quán)重生成所述第一訓練網(wǎng)頁的網(wǎng)頁向量;
根據(jù)所述訓練網(wǎng)頁集合中的網(wǎng)頁的人工標注類別和對應的網(wǎng)頁向量訓練生成網(wǎng)頁分類模型。
一種網(wǎng)頁訓練的裝置,所述裝置包括:
網(wǎng)頁向量生成模塊,用于獲取人工標注類別的訓練網(wǎng)頁集合,生成所述訓練網(wǎng)頁集合中的網(wǎng)頁的網(wǎng)頁向量,所述網(wǎng)頁向量生成模塊包括:
分詞單元,用于獲取所述訓練網(wǎng)頁集合中的第一訓練網(wǎng)頁的有效歷史查詢字符串,對所述有效歷史查詢字符串進行分詞;
分詞權(quán)重計算單元,用于獲取各個分詞的有效次數(shù),所述有效次數(shù)為所述有效歷史查詢字符串中所述分詞出現(xiàn)的總次數(shù),根據(jù)所述各個分詞的有效次數(shù)計算各個分詞的分詞權(quán)重;
網(wǎng)頁向量生成單元,用于根據(jù)所述各個分詞和對應的分詞權(quán)重生成所述第一訓練網(wǎng)頁的網(wǎng)頁向量;
網(wǎng)頁分類模型生成模塊,用于根據(jù)所述訓練網(wǎng)頁集合中的網(wǎng)頁的人工標注類別和對應的網(wǎng)頁向量訓練生成網(wǎng)頁分類模型。
上述網(wǎng)頁訓練的方法和裝置,通過獲取人工標注類別的訓練網(wǎng)頁集合,生成訓練網(wǎng)頁集合中的網(wǎng)頁的網(wǎng)頁向量,具體包括:獲取訓練網(wǎng)頁集合中的第一訓練網(wǎng)頁的有效歷史查詢字符串,對有效歷史查詢字符串進行分詞,獲取各個分詞的有效次數(shù),有效次數(shù)為有效歷史查詢字符串中分詞出現(xiàn)的總次數(shù),根據(jù)各個分詞的有效次數(shù)計算各個分詞的分詞權(quán)重,根據(jù)各個分詞和對應的分詞權(quán)重生成第一訓練網(wǎng)頁的網(wǎng)頁向量,根據(jù)訓練網(wǎng)頁集合中的網(wǎng)頁的人工標注類別和對應的網(wǎng)頁向量訓練生成網(wǎng)頁分類模型,通過有效歷史查詢字符串分詞后生成的網(wǎng)頁向量進行訓練,訓練成本低,效率高,且生成網(wǎng)頁分類模型后可自動對網(wǎng)頁進行標注類別,使得中長尾網(wǎng)頁也能自動得到類別,從而使得意圖識別中網(wǎng)頁類別的覆蓋率高,識別出的意圖正確率更高。
一種搜索意圖識別的方法,所述方法包括:
獲取待識別的查詢字符串,獲取所述查詢字符串對應的歷史網(wǎng)頁集合,所述歷史網(wǎng)頁集合中包括歷史通過所述查詢字符串點擊的各個網(wǎng)頁;
獲取通過上述的網(wǎng)頁訓練的方法生成的網(wǎng)頁分類模型,根據(jù)所述網(wǎng)頁分類模型得到所述歷史網(wǎng)頁集合中的網(wǎng)頁的類別;
統(tǒng)計各個類別中的網(wǎng)頁數(shù)量,根據(jù)所述各個類別中的網(wǎng)頁數(shù)量和歷史網(wǎng)頁集合中網(wǎng)頁的總數(shù)量計算得到所述查詢字符串的意圖分布;
根據(jù)所述意圖分布得到所述查詢字符串的意圖識別結(jié)果。
一種搜索意圖識別的裝置,其特征在于,所述裝置包括:
獲取模塊,用于獲取待識別的查詢字符串,獲取所述查詢字符串對應的歷史網(wǎng)頁集合,所述歷史網(wǎng)頁集合中包括歷史通過所述查詢字符串點擊的各個網(wǎng)頁;
網(wǎng)頁類別獲取模塊,用于獲取通過上述的網(wǎng)頁訓練的裝置生成的網(wǎng)頁分類模型,根據(jù)所述網(wǎng)頁分類模型得到所述歷史網(wǎng)頁集合中的網(wǎng)頁的類別;
意圖識別模塊,用于統(tǒng)計各個類別中的網(wǎng)頁數(shù)量,根據(jù)所述各個類別中的網(wǎng)頁數(shù)量和歷史網(wǎng)頁集合中網(wǎng)頁的總數(shù)量計算得到所述查詢字符串的意圖分布,根據(jù)所述意圖分布得到所述查詢字符串的意圖識別結(jié)果。
上述搜索意圖識別的方法和裝置,通過獲取待識別的查詢字符串,獲取查詢字符串對應的歷史網(wǎng)頁集合,歷史網(wǎng)頁集合中包括歷史通過查詢字符串點擊的各個網(wǎng)頁,獲取通過上述實施例的網(wǎng)頁訓練的方法生成的網(wǎng)頁分類模型,根據(jù)網(wǎng)頁分類模型得到歷史網(wǎng)頁集合中的網(wǎng)頁的類別,統(tǒng)計各個類別中的網(wǎng)頁數(shù)量,根據(jù)各個類別中的網(wǎng)頁數(shù)量和歷史網(wǎng)頁集合中網(wǎng)頁的總數(shù)量計算得到查詢字符串的意圖分布,根據(jù)意圖分布得到查詢字符串的意圖識別結(jié)果,在意圖識別時根據(jù)網(wǎng)頁分類模型自動對歷史網(wǎng)頁集合中的網(wǎng)頁的類別進行識別,比人工標注的類別的網(wǎng)頁覆蓋率大,使得中長尾網(wǎng)頁也能自動得到類別,識別出的意圖正確率更高。
附圖說明
圖1為一個實施例中網(wǎng)頁訓練的方法、搜索意圖識別的方法的應用環(huán)境圖;
圖2為一個實施例中圖1中服務器的內(nèi)部結(jié)構(gòu)圖;
圖3為一個實施例中網(wǎng)頁訓練的方法的流程圖;
圖4為一個實施例中搜索意圖識別的方法的流程圖;
圖5為一個實施例中生成字符串分類模型的流程圖;
圖6為一個實施例中網(wǎng)頁訓練的裝置的結(jié)構(gòu)框圖;
圖7為另一個實施例中網(wǎng)頁訓練的裝置的結(jié)構(gòu)框圖;
圖8為一個實施例中搜索意圖識別的裝置的結(jié)構(gòu)框圖;
圖9為另一個實施例中搜索意圖識別的裝置的結(jié)構(gòu)框圖;
圖10為再一個實施例中搜索意圖識別的裝置的結(jié)構(gòu)框圖。
具體實施方式
圖1為一個實施例中網(wǎng)頁訓練的方法、搜索意圖識別的方法運行的應用環(huán)境圖。如圖1所示,該應用環(huán)境包括終端110、服務器120,其中終端110和服務器120通過網(wǎng)絡(luò)進行通信。
終端110可為智能手機、平板電腦、筆記本電腦、臺式計算機等,但并不局限于此。終端110通過網(wǎng)絡(luò)向服務器120發(fā)送查詢字符串進行搜索,服務器120可以響應終端110發(fā)送的請求。
在一個實施例中,圖1中的服務器120的內(nèi)部結(jié)構(gòu)如圖2所示,該服務器120包括通過系統(tǒng)總線連接的處理器、存儲介質(zhì)、內(nèi)存和網(wǎng)絡(luò)接口。其中,該服務器120的存儲介質(zhì)存儲有操作系統(tǒng)、數(shù)據(jù)庫和搜索意圖識別的裝置,其中搜索意圖識別的裝置中包括有網(wǎng)頁訓練的裝置,數(shù)據(jù)庫用于存儲數(shù)據(jù),搜索意圖識別的裝置用于實現(xiàn)一種適用于服務器120的搜索意圖識別的方法,網(wǎng)頁訓練的裝置用于實現(xiàn)一種適用于服務器120的網(wǎng)頁訓練的方法。該服務器120的處理器用于提供計算和控制能力,支撐整個服務器120的運行。該服務器120的內(nèi)存為存儲介質(zhì)中的搜索意圖識別的裝置的運行提供環(huán)境。該服務器120的網(wǎng)絡(luò)接口用于與外部的終端110通過網(wǎng)絡(luò)連接通信,比如接收終端110發(fā)送的搜索請求以及向終端110返回數(shù)據(jù)等。
如圖3所示,在一個實施例中,提供了一種網(wǎng)頁訓練的方法,以應用于上述應用環(huán)境中的服務器來舉例說明,包括如下步驟:
步驟s210,獲取人工標注類別的訓練網(wǎng)頁集合,生成訓練網(wǎng)頁集合中的網(wǎng) 頁的網(wǎng)頁向量。
具體的,訓練網(wǎng)頁集合中網(wǎng)頁的數(shù)量可以根據(jù)需要自定義,為了使訓練出的網(wǎng)頁分類模型更準確,訓練網(wǎng)頁集合中網(wǎng)頁的數(shù)量要足夠多并且屬于不同的種類,種類的數(shù)量也要足夠多。訓練網(wǎng)頁集合中的網(wǎng)頁都通過人工標注了類別,如mp3.baidu.com被人工標記為音樂類,youku.com被人工標記為視頻類。生成訓練網(wǎng)頁集合中的網(wǎng)頁的網(wǎng)頁向量,可以將訓練網(wǎng)頁集合中的所有網(wǎng)頁都生成網(wǎng)頁向量,也可以根據(jù)預設(shè)條件選擇部分網(wǎng)頁生成對應的網(wǎng)頁向量,如選擇人工標注的不同的類別,從每個類別中選擇預設(shè)數(shù)量的網(wǎng)頁生成對應的網(wǎng)頁向量。
生成訓練網(wǎng)頁集合中的網(wǎng)頁的網(wǎng)頁向量的步驟具體包括:
步驟s211,獲取訓練網(wǎng)頁集合中的第一訓練網(wǎng)頁的有效歷史查詢字符串,對有效歷史查詢字符串進行分詞。
具體的,如果第一訓練網(wǎng)頁作為第一查詢字符串的搜索結(jié)果,被用戶點擊進入,則此第一查詢字符串為第一訓練網(wǎng)頁的有效歷史查詢字符串,如果第一訓練網(wǎng)頁作為第二查詢字符串的搜索結(jié)果,但是沒有被用戶點擊進入,則第二查詢字符串不是第一訓練網(wǎng)頁的有效歷史查詢字符串。第一訓練網(wǎng)頁的有效歷史查詢字符串的數(shù)量可根據(jù)需要自定義,但是為了使訓練結(jié)果有效,需要足夠多,如獲取預設(shè)時間段內(nèi)的第一訓練網(wǎng)頁的所有有效歷史查詢字符串,預設(shè)時間段可為距離當前時間較接近的時間段。對有效歷史查詢字符串進行分詞,用各個分詞表示此查詢字符串,如將“周杰倫的歌”分詞后得到“周杰倫”、“歌”,分詞的目的是更好的表示網(wǎng)頁,如果直接用查詢字符串query表示網(wǎng)頁,數(shù)據(jù)太稀疏,如查詢字符串“周杰倫的歌”和“周杰倫的歌曲”為2個不同的查詢字符串,但是將它進行分詞后得到“周杰倫”、“歌”和“周杰倫”、“歌曲”,其中都包括分詞“周杰倫”,增加了查詢字符串的相似度。
步驟s212,獲取各個分詞的有效次數(shù),有效次數(shù)為有效歷史查詢字符串中所述分詞出現(xiàn)的總次數(shù)。
具體的,如有效歷史查詢字符串進行分詞后,有30個分詞為“周杰倫”,則“周杰倫”這個分詞的有效次數(shù)為30。分詞的有效次數(shù)越大,表明通過包括 此分詞的查詢字符串進入當前訓練網(wǎng)頁的次數(shù)越多。
步驟s213,根據(jù)各個分詞的有效次數(shù)計算各個分詞的分詞權(quán)重。
具體的,分詞權(quán)重的大小與有效次數(shù)的大小成正比,具體的分詞權(quán)重計算方法可根據(jù)需要自定義。
在一個實施例中,根據(jù)公式w(qi)=log(ci+1)計算分詞qi的分詞權(quán)重w(qi),其中i為分詞的序號,ci為分詞qi的有效次數(shù)。
具體的,log函數(shù)比較平滑,且滿足分詞權(quán)重w(qi)的大小與有效次數(shù)ci的大小成正比的比例關(guān)系,能簡單方便的得到各個分詞的分詞權(quán)重。
步驟s214,根據(jù)各個分詞和對應的分詞權(quán)重生成第一訓練網(wǎng)頁的網(wǎng)頁向量。
具體的,對于當前訓練網(wǎng)頁,如果其有效歷史查詢字符串生成的分詞數(shù)量為m個,用qi表示各個分詞,其中1≤i≤m,w(qi)為分詞qi對應的分詞權(quán)重,則第一訓練網(wǎng)頁的網(wǎng)頁向量可表示為{q1:w(qi),q2:w(q2),……qm:w(qm)},生成的網(wǎng)頁向量表示第一訓練網(wǎng)頁的詞袋特征。如對于訓練網(wǎng)頁mp3.baidu.com,它的網(wǎng)頁向量為{周杰倫:5.4,歌曲:3.6,蔡依林:3.0,tfboys:10}??筛鶕?jù)網(wǎng)頁向量計算不同的網(wǎng)頁之間的相似度,如果第一網(wǎng)頁與第二網(wǎng)頁的相似度滿足預設(shè)條件,且第一網(wǎng)頁的網(wǎng)頁類別為第一類,則可以推出第二網(wǎng)頁的網(wǎng)頁類別也為第一類,如mp3.baidu.com與y.qq.com的網(wǎng)頁向量的余弦函數(shù)cosine相似度大于預設(shè)閾值,則根據(jù)mp3.baidu.com為音樂類推出y.qq.com也為音樂類。
步驟s215,獲取訓練網(wǎng)頁集合中的其它訓練網(wǎng)頁,重復以上步驟s211至步驟s214直到目標訓練網(wǎng)頁的網(wǎng)頁向量生成完畢。
具體的,目標訓練網(wǎng)頁的數(shù)量可根據(jù)需要自定義,目標訓練網(wǎng)頁可以是訓練網(wǎng)頁集合中通過預設(shè)規(guī)則篩選出來的訓練網(wǎng)頁。也可以直接將網(wǎng)頁集合中的全部訓練網(wǎng)頁作為目標訓練網(wǎng)頁。
步驟s220,根據(jù)訓練網(wǎng)頁集合中的網(wǎng)頁的人工標注類別和對應的網(wǎng)頁向量訓練生成網(wǎng)頁分類模型。
具體的,網(wǎng)頁分類模型是一種數(shù)學模型,用于對網(wǎng)頁進行分類,可以采用不同的方法訓練分類模型得到不同的網(wǎng)頁分類模型。根據(jù)需要選擇訓練方法。通過監(jiān)督學習的辦法離線訓練得到網(wǎng)頁分類模型后,對網(wǎng)頁進行在線類別預測 時使用訓練好的網(wǎng)頁分類模型進行類別預測。本實施例中通過有限數(shù)量的人工標注類別的網(wǎng)頁和生成的網(wǎng)頁向量生成網(wǎng)頁分類模型,后期可通過網(wǎng)頁分類模型實現(xiàn)網(wǎng)頁類別自動標注。同時,采用網(wǎng)頁向量作為訓練數(shù)據(jù),不需要爬取網(wǎng)頁上所有的內(nèi)容并詞袋化,進行訓練的數(shù)據(jù)成本低,訓練效率高。
在一個實施例中,網(wǎng)頁分類模型的訓練采用邏輯回歸法。
邏輯回歸(logisticregression,lr)模型在線性回歸的基礎(chǔ)上,套用了一個邏輯函數(shù),訓練出來的網(wǎng)頁分類模型正確率高。
本實施例中,通過獲取人工標注類別的訓練網(wǎng)頁集合,生成訓練網(wǎng)頁集合中的網(wǎng)頁的網(wǎng)頁向量,具體包括:獲取訓練網(wǎng)頁集合中的第一訓練網(wǎng)頁的有效歷史查詢字符串,對有效歷史查詢字符串進行分詞,獲取各個分詞的有效次數(shù),有效次數(shù)為有效歷史查詢字符串中分詞出現(xiàn)的總次數(shù),根據(jù)各個分詞的有效次數(shù)計算各個分詞的分詞權(quán)重,根據(jù)各個分詞和對應的分詞權(quán)重生成第一訓練網(wǎng)頁的網(wǎng)頁向量,根據(jù)訓練網(wǎng)頁集合中的網(wǎng)頁的人工標注類別和對應的網(wǎng)頁向量訓練生成網(wǎng)頁分類模型,通過有效歷史查詢字符串分詞后生成的網(wǎng)頁向量進行訓練,訓練成本低,效率高,且生成網(wǎng)頁分類模型后可自動對網(wǎng)頁進行標注類別,使得中長尾網(wǎng)頁也能自動得到類別,從而使得意圖識別中網(wǎng)頁類別的覆蓋率高,識別出的意圖正確率更高。
在一個實施例中,步驟s220之前,還包括:獲取訓練網(wǎng)頁集合中的網(wǎng)頁的lda特征。
具體的,lda(latentdirichletallocation,文檔主題生成模型)用于對文本進行主題聚類,網(wǎng)頁的lda特征可通過對網(wǎng)頁文本輸入lda模型得到。
步驟s220為:根據(jù)網(wǎng)頁的lda特征、人工標注類別和對應的網(wǎng)頁向量訓練生成網(wǎng)頁分類模型。
具體的,訓練網(wǎng)頁分類模型的訓練數(shù)據(jù)中增加了網(wǎng)頁的lda特征,lda特征反映了網(wǎng)頁的主題,使得訓練出的網(wǎng)頁分類模型更能準確的對網(wǎng)頁進行類別標注。
表1展示了采用不同的模型和方法進行訓練得到的網(wǎng)頁分類模型對網(wǎng)頁進行分類的準確率和召回率,其只展示了對于小說類別和各個類別綜合進行分類 時的準確率和召回率以及對于準確率和召回率綜合得到的f1,其中f1=2*準確率/(準確率+召回率)。表格中l(wèi)da表示文檔主題生成模型,lr+lda表示同時采用lr(logisticregression)邏輯回歸模型和lda特征,lr+bow+lda表示同時采用lr模型、lda特征和網(wǎng)頁向量bow(bagofwords)詞袋特征進行訓練。
表1
從表格中可以看出采用網(wǎng)頁向量采用邏輯回歸法訓練生成的網(wǎng)頁分類模型對網(wǎng)頁進行分類時正確率和召回率都有提高,并且對于準確率和召回率綜合得到的f1比其它方法要高很多,效果很好。
在一個實施例中,如圖4所示,提供了一種搜索意圖識別的方法,包括:
步驟s310,獲取待識別的查詢字符串,獲取查詢字符串對應的歷史網(wǎng)頁集合,歷史網(wǎng)頁集合中包括歷史通過所述查詢字符串點擊的各個網(wǎng)頁。
具體的,待識別的查詢字符串為終端在搜索引擎輸入的查詢字符串,獲取歷史搜索中通過此查詢字符串點擊的各個網(wǎng)頁組成的歷史網(wǎng)頁集合。
步驟s320,獲取通過上述任一項實施例的網(wǎng)頁訓練的方法生成的網(wǎng)頁分類模型,根據(jù)網(wǎng)頁分類模型得到歷史網(wǎng)頁集合中的網(wǎng)頁的類別。
具體的,通過上述實施例中的網(wǎng)頁訓練的方法生成的網(wǎng)頁分類模型自動對歷史網(wǎng)頁集合中的網(wǎng)頁進行分類。如歷史網(wǎng)頁集合為{url1,url2,……urln},其中urli(1≤i≤n)代表各個網(wǎng)頁,得到各個網(wǎng)頁的類別url1∈d1,url2∈d2,……urln∈dk,其中dj(1≤j≤s)表示類別,s為類別的總個數(shù),類別集合為{d1,d2,…… ds}。
步驟s330,統(tǒng)計各個類別中的網(wǎng)頁數(shù)量,根據(jù)各個類別中的網(wǎng)頁數(shù)量和歷史網(wǎng)頁集合中網(wǎng)頁的總數(shù)量計算得到查詢字符串的意圖分布。
具體的,統(tǒng)計各個類別中的網(wǎng)頁數(shù)量,如類別d1中包括t個網(wǎng)頁,則
步驟s340,根據(jù)意圖分布得到查詢字符串的意圖識別結(jié)果。
具體的,可將意圖分布中概率最大的類別作為查詢字符串的意圖識別結(jié)果,或按概率從大到小的順序取預設(shè)數(shù)目個類別作為查詢字符串的意圖識別結(jié)果,或?qū)⒏怕蚀笥陬A設(shè)閾值的類別作為查詢字符串的意圖識別結(jié)果。還可獲取發(fā)送查詢字符串的當前應用所對應的業(yè)務,根據(jù)業(yè)務信息和意圖分布得到查詢字符串的意圖識別結(jié)果,如發(fā)送查詢字符串的當前應用的業(yè)務信息為音樂業(yè)務,則即使意圖分布中概率最大的類別不為音樂,也可將音樂類別作為意圖識別的一個結(jié)果。
本實施例中,通過獲取待識別的查詢字符串,獲取查詢字符串對應的歷史網(wǎng)頁集合,歷史網(wǎng)頁集合中包括歷史通過查詢字符串點擊的各個網(wǎng)頁,獲取通過上述實施例的網(wǎng)頁訓練的方法生成的網(wǎng)頁分類模型,根據(jù)網(wǎng)頁分類模型得到歷史網(wǎng)頁集合中的網(wǎng)頁的類別,統(tǒng)計各個類別中的網(wǎng)頁數(shù)量,根據(jù)各個類別中的網(wǎng)頁數(shù)量和歷史網(wǎng)頁集合中網(wǎng)頁的總數(shù)量計算得到查詢字符串的意圖分布,根據(jù)意圖分布得到查詢字符串的意圖識別結(jié)果,在意圖識別時根據(jù)網(wǎng)頁分類模型自動對歷史網(wǎng)頁集合中的網(wǎng)頁的類別進行識別,比人工標注的類別的網(wǎng)頁覆蓋率大,使得中長尾網(wǎng)頁也能自動得到類別,識別出的意圖正確率更高。
在一個實施例中,步驟s340之前,還包括:獲取字符串分類模型,根據(jù)字符串分類模型得到查詢字符串的預測類別。
具體的,字符串分類模型是一種數(shù)學模型,用于對查詢字符串進行分類, 可以采用不同的方法訓練分類模型得到不同的字符串分類模型,根據(jù)需要選擇訓練方法。通過監(jiān)督學習的辦法離線訓練得到字符串分類模型后,對查詢字符串進行意圖識別時可使用訓練好的字符串分類模型進行查詢字符串的類別預測。查詢字符串的預測類別可以在查詢字符串的意圖分布不明顯時修正查詢字符串的意圖識別結(jié)果,如查詢字符串的意圖分布中類別多,且各個類別的概率都接近,且比較小,此時只根據(jù)查詢字符串的意圖分布進行識別往往結(jié)果不準確。
步驟s340為:根據(jù)意圖分布和預測類別得到查詢字符串的意圖識別結(jié)果。
具體的,可根據(jù)意圖分布中類別的多少和各個類別對應的概率,決定查詢字符串的意圖識別結(jié)果。如意圖分布中類別多且各個類別對應的概率都比較小,可直接將預測類別作為查詢字符串的意圖識別結(jié)果,或?qū)⒁鈭D分布中概率最大的類別和預測類別組合形成查詢字符串的意圖識別結(jié)果,具體的得到意圖識別結(jié)果的算法可根據(jù)需要自定義。在意圖分布得不到的情況下,如查詢字符串為一個罕見的字符串,其對應的歷史網(wǎng)頁集合中的網(wǎng)頁數(shù)量為0或非常小,導致意圖分布無法計算或得到的意圖分布只有一個類別的概率,且為100%很可能是錯誤的,此時也可直接將查詢字符串的預測類別作為查詢字符串的意圖識別結(jié)果。
在一個實施例中,如圖所示,獲取字符串分類模型的步驟之前,還包括:
步驟s410,獲取歷史查詢字符串對應的意圖分布中意圖概率最大的類別對應的查詢字符串作為類別訓練查詢字符串,其中意圖概率最大的類別包括多個不同類別。
具體的,對大量的歷史查詢字符串計算得到了意圖分布,不同的查詢字符串對應的意圖分布中意圖概率最大的類別可能不同。將意圖分布中意圖概率最大的類別對應的查詢字符串作為類別訓練查詢字符串且意圖概率最大的類別包括多個不同類別以保證訓練數(shù)據(jù)的有效性。
步驟s420,對不同類別對應的類別訓練查詢字符串提取基于詞語和/或基于字符的n元語法特征,n為大于1且小于當前提取的查詢字符串詞語長度或字符長度的整數(shù)。
具體的,如果直接用類別訓練查詢字符串訓練模型,對于比較短的查詢字符串,如長度在4個詞語左右,這種情況下特征過于稀疏,訓練模型不能得到很好的訓練結(jié)果。提取基于詞語和/或基于字符的n元語法特征,使得特征長度被擴充。對于同一查詢字符串,可進行多次提取,每次提取的元數(shù)不同,將每次提取的結(jié)果形成一個特征組合。如對于“周杰倫的歌曲”這個類別訓練查詢字符串,提取基于詞語的1-3元語法特征分別得到如下:
1元語法特征:周杰倫的歌曲
2元語法特征:周杰倫的的歌曲
3元語法特征:周杰倫的歌曲
提取基于字符的1-3元語法特征分別得到如下:
1元語法特征::周杰倫的歌曲
2元語法特征::周杰杰倫倫的的歌歌曲
3元語法特征::周杰倫杰倫的倫的歌的歌曲
對于一個長度為3個詞語的查詢字符串,提取基于字符的1-3元語法特征后其特征長度被擴充為15維以上,有效的解決了特征稀疏的問題。同時因為訓練數(shù)據(jù)足夠大,具有很好的擴展性。
步驟s430,將n元語法特征和對應的類別作為訓練數(shù)據(jù)采用分類模型進行訓練生成字符串分類模型。
具體的,使用n元語法特征和對應的類別作為訓練數(shù)據(jù),訓練數(shù)據(jù)從類別訓練查詢字符串進行了擴展,得到的字符串分類模型分類的準確性和覆蓋率都能提高。在一個實施例中,可將訓練特征映射到固定維度(例如100萬維)的向量以提高訓練的效率和減少無效的訓練數(shù)據(jù)提高訓練結(jié)果的準確性,或增加查詢字符串點擊的網(wǎng)頁的類別比例特征等增加訓練數(shù)據(jù)的覆蓋率。
表2展示了采用不同的模型和方法進行訓練得到的字符串分類模型對查詢字符串進行分類的準確率和召回率,以及對于準確率和召回率綜合得到的f1,其中f1=2*準確率/(準確率+召回率)。表格中nb(
表2
從表格中可以看出采用提取基于字符的n元語法特征訓練生成的字符串分類模型對查詢字符串進行分類時正確率和召回率都很高,且同時采用提取基于字符的n元語法特征和基于詞語的n元語法特征的正確率和召回率更高。使用了本方法的意圖識別的整體準確率相比于未使用前可從54.6%提升至85%,提升幅度達60%。
在一個實施例中,如圖6所示,提供了一種網(wǎng)頁訓練的裝置,包括:
網(wǎng)頁向量生成模塊510,用于獲取人工標注類別的訓練網(wǎng)頁集合,生成訓練網(wǎng)頁集合中的網(wǎng)頁的網(wǎng)頁向量,網(wǎng)頁向量生成模塊510包括:
分詞單元511,用于獲取訓練網(wǎng)頁集合中的第一訓練網(wǎng)頁的有效歷史查詢字符串,對有效歷史查詢字符串進行分詞。
分詞權(quán)重計算單元512,用于獲取各個分詞的有效次數(shù),有效次數(shù)為有效歷史查詢字符串中分詞出現(xiàn)的總次數(shù),根據(jù)各個分詞的有效次數(shù)計算各個分詞的分詞權(quán)重。
網(wǎng)頁向量生成單元513,用于根據(jù)各個分詞和對應的分詞權(quán)重生成第一訓練網(wǎng)頁的網(wǎng)頁向量。
網(wǎng)頁分類模型生成模塊520,用于根據(jù)訓練網(wǎng)頁集合中的網(wǎng)頁的人工標注類別和對應的網(wǎng)頁向量訓練生成網(wǎng)頁分類模型。
在一個實施例中,如圖7所示,裝置還包括:
lda特征獲取模塊530,用于獲取訓練網(wǎng)頁集合中的網(wǎng)頁的lda特征。
網(wǎng)頁分類模型生成模塊520還用于根據(jù)網(wǎng)頁的lda特征、人工標注類別和對應的網(wǎng)頁向量訓練生成網(wǎng)頁分類模型。
在一個實施例中,網(wǎng)頁分類模型的訓練采用邏輯回歸法。
在一個實施例中,分詞權(quán)重計算單元511還用于根據(jù)公式w(qi)=log(ci+1)計算分詞qi的分詞權(quán)重w(qi),其中i為分詞的序號,ci為分詞qi的有效次數(shù)。
在一個實施例中,如圖8所示,提供了一種搜索意圖識別的裝置,包括:
獲取模塊610,用于獲取待識別的查詢字符串,獲取查詢字符串對應的歷史網(wǎng)頁集合,歷史網(wǎng)頁集合中包括歷史通過查詢字符串點擊的各個網(wǎng)頁。
網(wǎng)頁類別獲取模塊620,用于獲取通過上述任實施例的網(wǎng)頁訓練的裝置生成的網(wǎng)頁分類模型,根據(jù)網(wǎng)頁分類模型得到歷史網(wǎng)頁集合中的網(wǎng)頁的類別。
意圖識別模塊630,用于統(tǒng)計各個類別中的網(wǎng)頁數(shù)量,根據(jù)各個類別中的網(wǎng)頁數(shù)量和歷史網(wǎng)頁集合中網(wǎng)頁的總數(shù)量計算得到查詢字符串的意圖分布,根據(jù)意圖分布得到查詢字符串的意圖識別結(jié)果。
在一個實施例中,如圖9所示,裝置還包括:
預測類別模塊640,用于獲取字符串分類模型,根據(jù)字符串分類模型得到查詢字符串的預測類別。
意圖識別模塊630還用于根據(jù)意圖分布和預測類別得到查詢字符串的意圖識別結(jié)果。
在一個實施例中,如圖10所示,裝置還包括:
字符串分類模型生成模塊650,用于獲取歷史查詢字符串對應的意圖分布中意圖概率最大的類別對應的查詢字符串作為類別訓練查詢字符串,其中意圖概率最大的類別包括多個不同類別,對不同類別對應的類別訓練查詢字符串提取基于詞語和/或基于字符的n元語法特征,n為大于1且小于當前提取的查詢字符串詞語長度或字符長度的整數(shù),將n元語法特征和對應的類別作為訓練數(shù)據(jù)采用分類模型進行訓練生成字符串分類模型。
本領(lǐng)域普通技術(shù)人員可以理解實現(xiàn)上述實施例方法中的全部或部分流程,是可以通過計算機程序來指令相關(guān)的硬件來完成,所述程序可存儲于一計算機可讀取存儲介質(zhì)中,如本發(fā)明實施例中,該程序可存儲于計算機系統(tǒng)的存儲介質(zhì)中,并被該計算機系統(tǒng)中的至少一個處理器執(zhí)行,以實現(xiàn)包括如上述各方法的實施例的流程。其中,所述存儲介質(zhì)可為磁碟、光盤、只讀存儲記憶體(read-onlymemory,rom)或隨機存儲記憶體(randomaccessmemory,ram)等。
以上所述實施例的各技術(shù)特征可以進行任意的組合,為使描述簡潔,未對上述實施例中的各個技術(shù)特征所有可能的組合都進行描述,然而,只要這些技術(shù)特征的組合不存在矛盾,都應當認為是本說明書記載的范圍。
以上所述實施例僅表達了本發(fā)明的幾種實施方式,其描述較為具體和詳細,但并不能因此而理解為對發(fā)明專利范圍的限制。應當指出的是,對于本領(lǐng)域的普通技術(shù)人員來說,在不脫離本發(fā)明構(gòu)思的前提下,還可以做出若干變形和改進,這些都屬于本發(fā)明的保護范圍。因此,本發(fā)明專利的保護范圍應以所附權(quán)利要求為準。