一種關鍵詞推薦方法和裝置的制造方法
【技術領域】
[0001] 本發(fā)明涉及計算機領域,具體涉及一種關鍵詞推薦方法和裝置。
【背景技術】
[0002] 在線競價廣告是一種目前廣泛存在的互聯(lián)網(wǎng)信息推薦方案,包括基于關鍵詞的信 息推薦方式?;陉P鍵詞的信息推薦方式是根據(jù)用戶在搜索引擎中輸入的關鍵詞來確定向 用戶推送的信息。用戶在網(wǎng)站內(nèi)外進行信息投放時,必須以關鍵詞為單位選擇投放,如何 獲得適合自己的關鍵詞成為關鍵操作之一。進行信息投放的用戶選擇關鍵詞后,對關鍵詞 進行出價,網(wǎng)站或信息投放平臺制定投放和扣費機制。常見的扣費機制有CPC (Cost Per Click,按照點擊扣費,信息的被點擊數(shù)越多則扣費越多),CPM (Cost Per Mille,按照信息 的千次展現(xiàn)數(shù)扣費),CPS (Cost Per Sale,按照成交金額扣費,類似于成交提成)等。
[0003] 關鍵詞推薦系統(tǒng)在互聯(lián)網(wǎng)信息投放系統(tǒng)中一直有廣泛的需求,現(xiàn)有技術方案有以 下幾類:
[0004] ?基于Offer (比如信息投放者發(fā)布的一條商品出售信息或求購信息)的抽取和組 合。主要方法是:對信息投放者發(fā)布的offer的標題、屬性等字段進行分詞、標注和權重計 算等操作,對其中預設的重要term進行抽取和組合從而得到一個關鍵詞集合,對關鍵詞集 合中關鍵詞的命中的term、term的標簽(比如,term的詞性)及term的權重進行打分。該 分數(shù)表示關鍵詞完整地表達了 offer的重要含義的程度。其中,在空間向量模型中,文本的 內(nèi)容特征常常用它所含有的基本語言單位(比如字、詞、詞組或者短語等)來表示,這些基本 的語言單位被統(tǒng)稱為文本的詞項,即term。
[0005] ?基于IR (信息檢索)系統(tǒng)的offer的關鍵詞推薦。IR系統(tǒng)是基于信息檢索技術 的一種系統(tǒng)框架,封閉的形式如圖書館檢索系統(tǒng),開放應用形式如在線搜索引擎。IR系統(tǒng)包 含倒排索引的建立系統(tǒng)、查詢的構造模塊、排序模塊等?;贗R (信息檢索)系統(tǒng)的offer 的關鍵詞推薦的主要方法包括:對信息投放者發(fā)布的offer進行分詞、標注、分詞的權重計 算等操作后,抽取重要term,查詢每個term到關鍵詞的倒排索引結構,召回與該重要term 相關的關鍵詞?;陉P鍵詞中包含的term、term的標簽及term權重對該關鍵詞進行推薦 度評分?;陉P鍵詞的推薦度評分選擇合適的關鍵詞推送給信息投放者。
[0006] 現(xiàn)有技術方案的核心是基于用戶投放信息的term級的組合,或運用了簡單的IR 系統(tǒng)去擴大關鍵詞的召回率,這些方法的缺點可能包括:
[0007] 1、關鍵詞的召回率不足
[0008] 基于offer的term的組合的方法,用戶的offer的標題和屬性均受到長度的限 制,包含的信息普遍較少,質量參差不齊,難以推薦出足夠數(shù)量的關鍵詞供用戶選擇,關鍵 詞的召回率明顯不足。而基于IR的offer的關鍵詞推薦,雖然能部分提高關鍵詞的召回率, 但是不能召回同義詞和近義詞,以及字面含義不同但潛在含義相關的關鍵詞。
[0009] 2、關鍵詞的相關性不足
[0010] 基于offer的term的組合的方法,計算關鍵詞與投放信息的相關性是按照term 的標簽、term的權重高低來進行加權計算的。由于這種方法受到詞項的權重(term weight) 的準確性和分詞工具(如AliWS)的效果的限制,不能很好的衡量投放信息與關鍵詞之間的 相關性。例如:〇ffer標題為"批發(fā)優(yōu)質籃球背心",基于offer的term的組合方法能夠推 出的詞有"批發(fā)籃球背心"、"籃球背心"、"批發(fā)背心"。但是"批發(fā)背心"這個詞已經(jīng)和原來 的offer不太相關。
[0011] 基于IR的關鍵詞推薦,能夠通過IR的排序(rank)方法解決部分相關性問題,但是 仍然不能解決同義異形關鍵詞的相關性評分。在基于IR的關鍵詞推薦方法中,關鍵詞是否 匹配投放信息判斷是根據(jù)待匹配關鍵詞包含投放信息中的分詞的個數(shù)及該分詞的權重確 定的。然而,一種可能的情形是:關鍵詞中包含投放信息中的重要分詞,基于IR的關鍵詞推 薦方法可以確定該關鍵詞與投放信息匹配,但實際上該關鍵詞與該投放信息仍然不具有相 關性。比如在進行手機供應類的投放信息和"手機電池"此類關鍵詞的相關性評價時,"手 機電池"這樣的關鍵詞表面上是存在"手機"這個重要term,且該term的權重較高。因此, 在基于IR的關鍵詞推薦方法中,"手機電池"可能會作為手機供應類的投放信息的相關關鍵 詞推薦給信息投放方。但是"手機"在手機供應類的投放信息中是作為產(chǎn)品核心詞存在的, 而在"手機電池"里卻是修飾"電池"的一個修飾詞。實際上手機供應類的投放信息與"手 機電池"的相關性并不高。因此,基于IR的關鍵詞推薦方法仍然具有推薦準確性不高的問 題。
【發(fā)明內(nèi)容】
[0012] 本發(fā)明要解決的技術問題是提供一種關鍵詞推薦方法和裝置,能提高關鍵詞與發(fā) 布信息的相關性。
[0013] 為解決上述技術問題,本發(fā)明提供了一種關鍵詞推薦方法,所述方法包括:
[0014] 接收輸入信息;
[0015] 將所述輸入信息分詞為多個詞項;
[0016] 用每個詞項查詢預先建立的倒排索引結構,所有詞項查詢所述倒排索引結構得到 的關鍵詞組成候選推薦詞集合;
[0017] 計算候選推薦詞集合中每個關鍵詞與所述輸入信息的相關性分數(shù),根據(jù)所述相關 性分數(shù)選擇一個或者多個關鍵詞作為推薦詞輸出。
[0018] 進一步地,所述相關性分數(shù)包括以下分數(shù)的一種或多種:文本相似度分,信息檢索 (IR)相關性分,類目相關性分,其中:所述文本相似度分由所述關鍵詞分詞后得到的各詞項 與所述輸入信息中的各詞項的相似度確定;所述IR相關性分由所述關鍵詞包含的輸入信 息中的詞項的個數(shù)及其權重確定;所述類目相關性分由每個關鍵詞的類目與所述輸入信息 的類目的相似度確定。
[0019] 進一步地,所述相關性分數(shù)包括文本相似度分、IR相關性分、類目相關性分中的兩 種或兩種以上時,將所包含的分數(shù)線性加權求和得到最終的相關性分數(shù)。
[0020] 進一步地,所述文本相似度分采用以下方法計算獲得:
[002