本發(fā)明涉及計(jì)算機(jī)技術(shù),具體涉及信息發(fā)布方法和信息發(fā)布系統(tǒng)。
背景技術(shù):
當(dāng)前,互聯(lián)網(wǎng)在人們的日常生活中已變得越來越重要,人們使用互聯(lián)網(wǎng)的頻率越來越高,人們的學(xué)習(xí)、生活、工作、娛樂等各種活動(dòng)均可通過互聯(lián)網(wǎng)來進(jìn)行。而通過互聯(lián)網(wǎng)來獲取信息是人們使用互聯(lián)網(wǎng)的一個(gè)重要方面。
如何通過互聯(lián)網(wǎng)向用戶發(fā)布適當(dāng)?shù)幕蛘哒f用戶所需要的信息成為了當(dāng)前研究的熱點(diǎn)。例如,當(dāng)用戶利用搜索引擎搜索某個(gè)檢索詞以期望獲取關(guān)于該檢索詞的信息時(shí),該搜索引擎的運(yùn)營商可在搜索引擎界面上向用戶發(fā)布與其所輸入的檢索詞相關(guān)的廣告內(nèi)容。這一方面為用戶帶來了方便,另一方面也為相關(guān)廠商帶來的商機(jī)。
在現(xiàn)有技術(shù)中,搜索引擎的廣告發(fā)布主要有兩種方式。一種是檢索詞匹配,即利用用戶輸入的檢索詞,在所有廣告的描述性語句中匹配輸入的檢索詞,如果有相應(yīng)的匹配廣告,即將廣告顯示在界面上。不過這種方法有自身的缺陷,即當(dāng)沒有搜索到匹配的廣告時(shí),將沒有廣告顯示給用戶。此外,針對(duì)復(fù)雜的用戶輸入,存在一定的準(zhǔn)確性問題。另外一種方法是判斷檢索詞所屬的行業(yè)類別,然后推薦該行業(yè)內(nèi)的廣告,不過在目前環(huán)境下,所有檢索詞的行業(yè)類別標(biāo)注工作都是人工進(jìn)行的,效率低下。而且對(duì)于尚未標(biāo)注行業(yè)類別的檢索詞,也將無法進(jìn)行處理。
類似地,在其他應(yīng)用場景中,也具有類似的需求。即,根據(jù)用戶輸入的內(nèi)容向用戶提供適當(dāng)?shù)幕蛴脩粜枰男畔?,以滿足用戶的相關(guān)需求。
技術(shù)實(shí)現(xiàn)要素:
有鑒于此,本發(fā)明提出了一種信息發(fā)布方法和信息發(fā)布系統(tǒng),以根據(jù)用戶輸入的檢索詞向用戶發(fā)布適當(dāng)?shù)幕蛴脩粜枰男畔ⅰ?/p>
根據(jù)本發(fā)明的一個(gè)方面,提供了一種信息發(fā)布方法,包括:對(duì)用戶輸入的檢索詞進(jìn)行擴(kuò)展;計(jì)算擴(kuò)展的結(jié)果與多個(gè)行業(yè)類別中的每個(gè)行業(yè)類別的相關(guān)度得分;以及向用戶發(fā)布與所述檢索詞具有最高相關(guān)度得分的行業(yè)類別相關(guān)聯(lián)的信息。
根據(jù)本發(fā)明的另一方面,提供了一種信息發(fā)布系統(tǒng),包括:擴(kuò)展裝置,對(duì)用戶輸入的檢索詞進(jìn)行擴(kuò)展;計(jì)算裝置,計(jì)算所述擴(kuò)展裝置的擴(kuò)展結(jié)果與多個(gè)行業(yè)類別中的每個(gè)行業(yè)類別的相關(guān)度得分;以及發(fā)布裝置,向用戶發(fā)布與所述檢索詞具有最高相關(guān)度得分的行業(yè)類別相關(guān)聯(lián)的信息。
根據(jù)本發(fā)明所提供的技術(shù)方案,可以根據(jù)用戶輸入的檢索詞向用戶發(fā)布適當(dāng)?shù)幕蛴脩粜枰男畔ⅰ?/p>
附圖說明
參照附圖來閱讀本發(fā)明的各實(shí)施方式,將更容易理解本發(fā)明的其它特征和優(yōu)點(diǎn),在此描述的附圖只是為了對(duì)本發(fā)明的實(shí)施方式進(jìn)行示意性說明的目的,而非全部可能的實(shí)施,并且不旨在限制本發(fā)明的范圍。在附圖中:
圖1示出了根據(jù)本發(fā)明一個(gè)實(shí)施方式的信息發(fā)布方法的流程圖;
圖2示出了根據(jù)本發(fā)明一個(gè)實(shí)施方式對(duì)用戶輸入的檢索詞進(jìn)行擴(kuò)展的流程圖;
圖3示出了根據(jù)本發(fā)明一個(gè)實(shí)施方式的分布式分類模型訓(xùn)練的流程圖;
圖4示出了根據(jù)本發(fā)明一個(gè)實(shí)施方式在每個(gè)計(jì)算節(jié)點(diǎn)上訓(xùn)練與一個(gè)行業(yè)類別相關(guān)的支持向量機(jī)模型的流程圖;
圖5示出了根據(jù)本發(fā)明一個(gè)實(shí)施方式的信息發(fā)布系統(tǒng)的框圖;
圖6示出了根據(jù)本發(fā)明一個(gè)實(shí)施方式的擴(kuò)展裝置的框圖;
圖7示出了根據(jù)本發(fā)明一個(gè)實(shí)施方式的計(jì)算裝置的框圖;以及
圖8示出了可用于實(shí)施根據(jù)本發(fā)明實(shí)施例的方法和系統(tǒng)的計(jì)算機(jī)的示意性框圖。
具體實(shí)施方式
現(xiàn)參照附圖對(duì)本發(fā)明的實(shí)施方式進(jìn)行詳細(xì)描述。應(yīng)注意,以下描述僅 僅是示例性的,而并不旨在限制本發(fā)明。此外,在以下描述中,將采用相同的附圖標(biāo)號(hào)表示不同附圖中的相同或相似的部件。在以下描述的不同實(shí)施方式中的不同特征,可彼此結(jié)合,以形成本發(fā)明范圍內(nèi)的其他實(shí)施方式。
圖1示出了根據(jù)本發(fā)明一個(gè)實(shí)施方式的信息發(fā)布方法的流程圖。如圖1所示,信息發(fā)布方法100包括步驟S110至S130。當(dāng)用戶搜索某個(gè)檢索詞以期望獲取關(guān)于該檢索詞的信息時(shí),在步驟S110中,對(duì)用戶輸入的檢索詞進(jìn)行擴(kuò)展,擴(kuò)展的目的是為了便于后續(xù)的計(jì)算。在得到擴(kuò)展的結(jié)果后,在步驟S120中,針對(duì)多個(gè)行業(yè)類別,計(jì)算擴(kuò)展的結(jié)果與每個(gè)行業(yè)類別的相關(guān)度得分。相關(guān)度得分表征了檢索詞與某個(gè)行業(yè)的相關(guān)程度,相關(guān)程度越高,則相關(guān)度得分越高,其具體計(jì)算方式將在下面詳述。根據(jù)計(jì)算得到的相關(guān)度得分,在步驟S130中,向用戶發(fā)布與該檢索詞具有最高相關(guān)度得分的行業(yè)類別相關(guān)聯(lián)的信息。
根據(jù)本發(fā)明的該實(shí)施方式,根據(jù)用戶輸入的檢索詞,通過對(duì)其進(jìn)行擴(kuò)展,從而能夠計(jì)算出該檢索詞與各個(gè)行業(yè)類別的相關(guān)程度。那么可認(rèn)為與該檢索詞相關(guān)程度最高的行業(yè)類別就是其所屬行業(yè)類別。由此,可向用戶發(fā)布與該行業(yè)類別相關(guān)聯(lián)的信息,這樣的信息則很有可能是用戶所需要的信息,從而既方便了用戶,又實(shí)現(xiàn)了信息的目的性發(fā)布。
圖2示出了根據(jù)本發(fā)明一個(gè)實(shí)施方式對(duì)用戶輸入的檢索詞進(jìn)行擴(kuò)展的流程圖。如圖2所示,上述步驟S110可包括子步驟S111和S112。在子步驟S111中,將用戶輸入的檢索詞作為關(guān)鍵字檢索有關(guān)該檢索詞的語料。根據(jù)一個(gè)實(shí)施例,可利用任何現(xiàn)有的搜索引擎或數(shù)據(jù)庫或本領(lǐng)域技術(shù)人員已知的其他方式檢索關(guān)鍵字的語料。所檢索到的語料可以包含短語、句子、段落和/或文章。然后,在子步驟S112中,根據(jù)所檢索到的語料生成表征該檢索詞的特征向量。該特征向量即為擴(kuò)展的結(jié)果,用于后續(xù)的計(jì)算。
根據(jù)本發(fā)明一個(gè)實(shí)施方式,表征檢索詞的特征向量可包含這樣的特征,這些特征可以表征從該檢索詞的語料中提取的文本分割結(jié)果、上下文信息和/或相鄰詞組合信息。
下面將示例性地說明表征檢索詞的特征向量所包含的特征的計(jì)算方式。假定已通過搜索引擎檢索到檢索詞的多篇語料。由于通常檢索到的結(jié)果的數(shù)量會(huì)非常多,可以選擇其中前t個(gè)檢索結(jié)果作為后續(xù)處理需要使用的語料,這是本領(lǐng)域技術(shù)人員根據(jù)實(shí)際操作中的需要可以實(shí)現(xiàn)的選擇??捎孟率奖硎緳z索詞k的語料Corpus(k):
其中表示檢索詞k的第j篇語料。上述公式中的符號(hào)Σ可表示將多篇語料結(jié)合到一起。
在得到檢索詞k的語料Corpus(k)后,可根據(jù)其生成檢索詞k的特征向量Feature(k),其中特征向量Feature(k)可包含表征從該檢索詞的語料中提取的文本分割結(jié)果、上下文信息和/或相鄰詞組合信息的特征。
根據(jù)一個(gè)實(shí)施例,可通過下式計(jì)算表征從檢索詞k的語料中提取的文本分割結(jié)果的特征f1k:
f1k=Seg(Corpus(k)) (2)
其中Seg是文本分割函數(shù)。
根據(jù)另一實(shí)施例,可通過下式計(jì)算表征從檢索詞k的語料中提取的上下文信息的特征
其中,NGram表示N-Gram算法。例如,假定N-Gram算法中的N為4,用戶輸入的檢索詞的語料中包含“連鎖酒店”四個(gè)字,那么用N-Gram算法得到的特征為“連鎖酒店”、“連鎖酒”、“鎖酒店”、“連鎖”、“鎖酒”和“酒店”。
根據(jù)又一實(shí)施例,可通過下式計(jì)算表征從檢索詞k的語料中提取的相鄰詞組合信息的特征
其中,Combination是相鄰詞組合函數(shù)。例如,用戶輸入的檢索詞的語料中包含“園區(qū)星湖街創(chuàng)意產(chǎn)業(yè)園”,利用上述公式2所得到的文本分割結(jié)果為:“園區(qū)星湖街創(chuàng)意產(chǎn)業(yè)園”,則利用公式4的相鄰詞組合函數(shù),我們可以得到以下特征:“園區(qū)星湖街”、“園區(qū)創(chuàng)意”、“園區(qū)產(chǎn)業(yè)園”、“星湖街創(chuàng)意”、“星湖街產(chǎn)業(yè)園”和“創(chuàng)意產(chǎn)業(yè)園”。
當(dāng)檢索詞k的特征向量包含表征從檢索詞k的語料中提取的文本分割結(jié)果、上下文信息和相鄰詞組合信息的特征時(shí),可用下式表示檢索詞k的特征向量:
根據(jù)本發(fā)明的一個(gè)實(shí)施方式,上述步驟S120包括分別在多個(gè)計(jì)算節(jié)點(diǎn)上利用多個(gè)支持向量機(jī)模型分別計(jì)算特征向量與多個(gè)行業(yè)類別的相關(guān)度得分,其中每個(gè)支持向量機(jī)模型均是已經(jīng)過分布式分類模型訓(xùn)練的模型。由此,采用多個(gè)計(jì)算節(jié)點(diǎn)進(jìn)行計(jì)算,在每個(gè)計(jì)算節(jié)點(diǎn)上,均由一個(gè)已經(jīng)過訓(xùn)練的支持向量機(jī)模型對(duì)檢索詞的特征向量相對(duì)于一個(gè)行業(yè)類別進(jìn)行分類計(jì)算,以得出該檢索詞是否屬于該行業(yè)類別的概率分?jǐn)?shù),作為相關(guān)度得分。這樣,避免了僅在一個(gè)計(jì)算節(jié)點(diǎn)上計(jì)算特征向量與所有行業(yè)類別的相關(guān)度得分所帶來的計(jì)算時(shí)間過長的問題。
對(duì)于支持向量機(jī)模型而言,如何利用訓(xùn)練數(shù)據(jù)對(duì)其進(jìn)行訓(xùn)練,也是本發(fā)明所需要關(guān)注的問題之一。如本領(lǐng)域技術(shù)人員所知,此處所指的支持向量機(jī)模型能夠?qū)⒁粋€(gè)檢索詞確定為屬于某個(gè)行業(yè)類別,或不屬于某個(gè)行業(yè)類別。
圖3示出了根據(jù)本發(fā)明一個(gè)實(shí)施方式的分布式分類模型訓(xùn)練的流程圖。如圖3所示,分布式分類模型訓(xùn)練300包括步驟S310和S320。在步驟S310中,將訓(xùn)練數(shù)據(jù)分別發(fā)送至多個(gè)計(jì)算節(jié)點(diǎn)。根據(jù)一個(gè)實(shí)施例,訓(xùn)練數(shù)據(jù)包括已標(biāo)記行業(yè)類別的多個(gè)預(yù)設(shè)的關(guān)鍵字的特征向量。由于已知關(guān)鍵字的行業(yè)類別,因此可以利用訓(xùn)練數(shù)據(jù)在每個(gè)計(jì)算節(jié)點(diǎn)上對(duì)每個(gè)支持向量機(jī)模型進(jìn)行訓(xùn)練,以使其達(dá)到正確分類的目的。
在步驟S320中,在每個(gè)計(jì)算節(jié)點(diǎn)上,利用接收到的訓(xùn)練數(shù)據(jù)訓(xùn)練與一個(gè)行業(yè)類別相關(guān)的支持向量機(jī)模型。這樣,在每個(gè)計(jì)算節(jié)點(diǎn)上,均訓(xùn)練了一個(gè)支持向量機(jī)模型,用于對(duì)檢索詞是否屬于一個(gè)行業(yè)類別的概率進(jìn)行計(jì)算,以得到相關(guān)度得分。
與以上關(guān)于用戶輸入的檢索詞的相關(guān)描述類似,在訓(xùn)練數(shù)據(jù)中,已標(biāo)記行業(yè)類別的每個(gè)預(yù)設(shè)的關(guān)鍵字的特征向量均可包含表征從該預(yù)設(shè)的關(guān)鍵字的語料中提取的文本分割結(jié)果、上下文信息和/或相鄰詞組合信息的特征。而且,每個(gè)預(yù)設(shè)的關(guān)鍵字的語料可包括檢索到的與該預(yù)設(shè)的關(guān)鍵字相關(guān)的語料的至少一部分。
對(duì)于已知行業(yè)類別的預(yù)設(shè)的關(guān)鍵字,其特征向量也可根據(jù)上述公式1-5中的一個(gè)或多個(gè)來計(jì)算得到,在此不再詳述。但對(duì)于多個(gè)已知行業(yè)類別的關(guān)鍵字而言,其特征向量的維度可能不同,為了便于對(duì)支持向量機(jī)模型的訓(xùn)練,可在訓(xùn)練前先統(tǒng)一所有關(guān)鍵詞的特征向量維度。根據(jù)本發(fā)明的 一個(gè)實(shí)施例,可通過下式來統(tǒng)一多個(gè)關(guān)鍵詞pi的特征向量維度:
其中我們采用向量D來表示每一個(gè)關(guān)鍵詞的特征。
圖4示出了根據(jù)本發(fā)明一個(gè)實(shí)施方式在每個(gè)計(jì)算節(jié)點(diǎn)上訓(xùn)練與一個(gè)行業(yè)類別相關(guān)的支持向量機(jī)模型的流程圖。如圖4所示,上述步驟S320包括子步驟S321和S322。在子步驟S321中,在每個(gè)計(jì)算節(jié)點(diǎn)上將接收到的訓(xùn)練數(shù)據(jù)分割成多個(gè)數(shù)據(jù)段。隨后,在子步驟S322中,在每個(gè)計(jì)算節(jié)點(diǎn)上順序處理多個(gè)數(shù)據(jù)段,以訓(xùn)練支持向量機(jī)模型。對(duì)于數(shù)據(jù)量較大的訓(xùn)練數(shù)據(jù),在一個(gè)計(jì)算節(jié)點(diǎn)上,可能在計(jì)算時(shí)會(huì)發(fā)生內(nèi)存溢出的問題。對(duì)此,如上所述,將訓(xùn)練數(shù)據(jù)分割成多個(gè)數(shù)據(jù)段,并順序處理這些數(shù)據(jù)段,由此可解決上述問題。此外,可以理解,在對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行分割時(shí),處于數(shù)據(jù)分割面附近的訓(xùn)練數(shù)據(jù)樣本通常更能夠反映一個(gè)支持向量機(jī)模型的特性。根據(jù)本發(fā)明的一個(gè)實(shí)施方式,上述子步驟S322可包括:在每個(gè)計(jì)算節(jié)點(diǎn)上處理完每個(gè)數(shù)據(jù)段后,存儲(chǔ)該數(shù)據(jù)段中最接近數(shù)據(jù)分割面的數(shù)據(jù)樣本,并且在處理下一個(gè)數(shù)據(jù)段時(shí),將所存儲(chǔ)的數(shù)據(jù)樣本添加至該下一個(gè)數(shù)據(jù)段進(jìn)行處理。這樣,就能夠在下一個(gè)數(shù)據(jù)段再次利用該鄰近數(shù)據(jù)分割面的訓(xùn)練數(shù)據(jù)樣本,從而能夠獲得更好的訓(xùn)練效果。
圖5示出了根據(jù)本發(fā)明一個(gè)實(shí)施方式的信息發(fā)布系統(tǒng)的框圖。如圖5所示,信息發(fā)布系統(tǒng)500可包括擴(kuò)展裝置510、計(jì)算裝置520和發(fā)布裝置530。擴(kuò)展裝置510可對(duì)用戶輸入的檢索詞進(jìn)行擴(kuò)展。計(jì)算裝置520可計(jì)算擴(kuò)展裝置510的擴(kuò)展結(jié)果與多個(gè)行業(yè)類別中的每個(gè)行業(yè)類別的相關(guān)度得分。發(fā)布裝置530可向用戶發(fā)布與其輸入的檢索詞具有最高相關(guān)度得分的行業(yè)類別相關(guān)聯(lián)的信息。
圖6示出了根據(jù)本發(fā)明一個(gè)實(shí)施方式的擴(kuò)展裝置的框圖。如圖6所示,擴(kuò)展裝置510可包括檢索單元511和生成單元512。檢索單元511可將用戶輸入的檢索詞作為關(guān)鍵字檢索有關(guān)該檢索詞的語料。生成單元512可根據(jù)檢索詞的語料生成表征該檢索詞的特征向量,以作為擴(kuò)展的結(jié)果。
根據(jù)本發(fā)明的一個(gè)實(shí)施方式,生成單元512所生成的特征向量可包含表征從檢索詞的語料中提取的文本分割結(jié)果、上下文信息和/或相鄰詞組合信息的特征。
可利用上述公式1-5中的一個(gè)或多個(gè)計(jì)算表征檢索詞的特征向量所包含的特征,其計(jì)算過程在此不再詳述。
圖7示出了根據(jù)本發(fā)明一個(gè)實(shí)施方式的計(jì)算裝置的框圖。如圖7所示,計(jì)算裝置520可包括多個(gè)計(jì)算節(jié)點(diǎn)521-1至521-n以及分發(fā)單元522。分發(fā)單元522可將訓(xùn)練數(shù)據(jù)分別發(fā)送至計(jì)算節(jié)點(diǎn)521-1至521-n,而每個(gè)計(jì)算節(jié)點(diǎn)利用從分發(fā)單元522接收到的訓(xùn)練數(shù)據(jù),訓(xùn)練與一個(gè)行業(yè)類別相關(guān)的支持向量機(jī)模型,并利用已經(jīng)過訓(xùn)練的支持向量機(jī)模型計(jì)算特征向量與該行業(yè)類別的相關(guān)度得分。根據(jù)本發(fā)明的一個(gè)實(shí)施例,訓(xùn)練數(shù)據(jù)包括已標(biāo)記行業(yè)類別的多個(gè)預(yù)設(shè)的關(guān)鍵字的特征向量。
根據(jù)本發(fā)明的一個(gè)實(shí)施方式,在訓(xùn)練數(shù)據(jù)中,已標(biāo)記行業(yè)類別的每個(gè)預(yù)設(shè)的關(guān)鍵字的特征向量均可包含表征從該預(yù)設(shè)的關(guān)鍵字的語料中提取的文本分割結(jié)果、上下文信息和/或相鄰詞組合信息的特征。而且,每個(gè)預(yù)設(shè)的關(guān)鍵字的語料可包括檢索到的與該預(yù)設(shè)的關(guān)鍵字相關(guān)的語料的至少一部分。
對(duì)于已知行業(yè)類別的預(yù)設(shè)的關(guān)鍵字,其特征向量也可根據(jù)上述公式1-5中的一個(gè)或多個(gè)來計(jì)算得到,在此不再詳述。但對(duì)于多個(gè)已知行業(yè)類別的關(guān)鍵字而言,其特征向量的維度可能不同,為了便于對(duì)支持向量機(jī)模型的訓(xùn)練,可利用上述公式6在訓(xùn)練前先統(tǒng)一所有關(guān)鍵詞的特征向量維度。
根據(jù)本發(fā)明的一個(gè)實(shí)施方式,計(jì)算節(jié)點(diǎn)521-1至521-n中的每個(gè)均包括:數(shù)據(jù)分割模塊,其用于將從分發(fā)單元522接收到的訓(xùn)練數(shù)據(jù)分割成多個(gè)數(shù)據(jù)段,每個(gè)計(jì)算節(jié)點(diǎn)順序處理這些數(shù)據(jù)段,以訓(xùn)練支持向量機(jī)模型。
根據(jù)本發(fā)明的一個(gè)實(shí)施方式,每個(gè)計(jì)算節(jié)點(diǎn)在處理完已分割的多個(gè)數(shù)據(jù)段中的每個(gè)數(shù)據(jù)段后,可存儲(chǔ)該數(shù)據(jù)段中最接近數(shù)據(jù)分割面的數(shù)據(jù)樣本,并且在處理下一個(gè)數(shù)據(jù)段時(shí),將所存儲(chǔ)的數(shù)據(jù)樣本添加至下一個(gè)數(shù)據(jù)段進(jìn)行處理。
另外,這里尚需指出的是,上述系統(tǒng)中各個(gè)組成部件可以通過軟件、固件、硬件或其組合的方式進(jìn)行配置。配置可使用的具體手段或方式為本領(lǐng)域技術(shù)人員所熟知,在此不再贅述。在通過軟件或固件實(shí)現(xiàn)的情況下,從存儲(chǔ)介質(zhì)或網(wǎng)絡(luò)向具有專用硬件結(jié)構(gòu)的計(jì)算機(jī)(例如圖8所示的通用計(jì)算機(jī)800)安裝構(gòu)成該軟件的程序,該計(jì)算機(jī)在安裝有各種程序時(shí),能夠執(zhí)行各種功能等。
圖8示出了可用于實(shí)施根據(jù)本發(fā)明實(shí)施例的方法和系統(tǒng)的計(jì)算機(jī)的示意性框圖。
在圖8中,中央處理單元(CPU)801根據(jù)只讀存儲(chǔ)器(ROM)802中存儲(chǔ)的程序或從存儲(chǔ)部分808加載到隨機(jī)存取存儲(chǔ)器(RAM)803的程序執(zhí)行各種處理。在RAM 803中,還根據(jù)需要存儲(chǔ)當(dāng)CPU 801執(zhí)行各種處理等等時(shí)所需的數(shù)據(jù)。CPU 801、ROM 802和RAM 803經(jīng)由總線804彼此連接。輸入/輸出接口805也連接到總線804。
下述部件連接到輸入/輸出接口805:輸入部分806(包括鍵盤、鼠標(biāo)等等)、輸出部分807(包括顯示器,比如陰極射線管(CRT)、液晶顯示器(LCD)等,和揚(yáng)聲器等)、存儲(chǔ)部分808(包括硬盤等)、通信部分809(包括網(wǎng)絡(luò)接口卡比如LAN卡、調(diào)制解調(diào)器等)。通信部分809經(jīng)由網(wǎng)絡(luò)比如因特網(wǎng)執(zhí)行通信處理。根據(jù)需要,驅(qū)動(dòng)器810也可連接到輸入/輸出接口805??刹鹦督橘|(zhì)811比如磁盤、光盤、磁光盤、半導(dǎo)體存儲(chǔ)器等等可以根據(jù)需要被安裝在驅(qū)動(dòng)器810上,使得從中讀出的計(jì)算機(jī)程序根據(jù)需要被安裝到存儲(chǔ)部分808中。
在通過軟件實(shí)現(xiàn)上述系列處理的情況下,從網(wǎng)絡(luò)比如因特網(wǎng)或存儲(chǔ)介質(zhì)比如可拆卸介質(zhì)811安裝構(gòu)成軟件的程序。
本領(lǐng)域的技術(shù)人員應(yīng)當(dāng)理解,這種存儲(chǔ)介質(zhì)不局限于圖8所示的其中存儲(chǔ)有程序、與設(shè)備相分離地分發(fā)以向用戶提供程序的可拆卸介質(zhì)811??刹鹦督橘|(zhì)811的例子包含磁盤(包含軟盤(注冊商標(biāo)))、光盤(包含光盤只讀存儲(chǔ)器(CD-ROM)和數(shù)字通用盤(DVD))、磁光盤(包含迷你盤(MD)(注冊商標(biāo)))和半導(dǎo)體存儲(chǔ)器?;蛘撸鎯?chǔ)介質(zhì)可以是ROM 802、存儲(chǔ)部分808中包含的硬盤等等,其中存有程序,并且與包含它們的設(shè)備一起被分發(fā)給用戶。
本發(fā)明還提出一種存儲(chǔ)有機(jī)器可讀取的指令代碼的程序產(chǎn)品。所述指令代碼由機(jī)器讀取并執(zhí)行時(shí),可執(zhí)行上述根據(jù)本發(fā)明實(shí)施方式的方法。
相應(yīng)地,用于承載上述存儲(chǔ)有機(jī)器可讀取的指令代碼的程序產(chǎn)品的存儲(chǔ)介質(zhì)也包括在本發(fā)明的范圍內(nèi)。所述存儲(chǔ)介質(zhì)包括但不限于軟盤、光盤、磁光盤、存儲(chǔ)卡、存儲(chǔ)棒等等。
應(yīng)當(dāng)注意,本發(fā)明的方法不限于按照說明書中描述的時(shí)間順序來執(zhí)行,也可以按照其他的次序順序地、并行地或獨(dú)立地執(zhí)行。因此,本說明書中描述的方法的執(zhí)行順序不對(duì)本發(fā)明的技術(shù)范圍構(gòu)成限制。
以上對(duì)本發(fā)明各實(shí)施方式的描述是為了更好地理解本發(fā)明,其僅僅是示例性的,而非旨在對(duì)本發(fā)明進(jìn)行限制。應(yīng)注意,在以上描述中,針對(duì)一 種實(shí)施方式描述和/或示出的特征可以以相同或類似的方式在一個(gè)或更多個(gè)其它實(shí)施方式中使用,與其它實(shí)施方式中的特征相組合,或替代其它實(shí)施方式中的特征。本領(lǐng)域技術(shù)人員可以理解,在不脫離本發(fā)明的發(fā)明構(gòu)思的情況下,針對(duì)以上所描述的實(shí)施方式進(jìn)行的各種變化和修改,均屬于本發(fā)明的范圍內(nèi)。
綜上,在根據(jù)本發(fā)明的實(shí)施例中,本發(fā)明提供了如下技術(shù)方案。
方案1.一種信息發(fā)布方法,包括:
對(duì)用戶輸入的檢索詞進(jìn)行擴(kuò)展;
計(jì)算擴(kuò)展的結(jié)果與多個(gè)行業(yè)類別中的每個(gè)行業(yè)類別的相關(guān)度得分;以及
向用戶發(fā)布與所述檢索詞具有最高相關(guān)度得分的行業(yè)類別相關(guān)聯(lián)的信息。
方案2.如方案1所述的方法,其中對(duì)用戶輸入的檢索詞進(jìn)行擴(kuò)展的步驟包括:
將所述檢索詞作為關(guān)鍵字檢索有關(guān)所述檢索詞的語料;以及
根據(jù)所述檢索詞的語料生成表征所述檢索詞的特征向量,作為所述擴(kuò)展的結(jié)果。
方案3.如方案2所述的方法,其中所述檢索詞的特征向量包含表征從所述檢索詞的語料中提取的文本分割結(jié)果、上下文信息和/或相鄰詞組合信息的特征。
方案4.如方案3所述的方法,
其中表征從所述檢索詞的語料中提取的文本分割結(jié)果的特征通過下式計(jì)算:
f1k=Seg(Corpus(k))
其中,Seg是文本分割函數(shù),Corpus(k)表示檢索詞k的語料,
其中表征從所述檢索詞的語料中提取的上下文信息的特征通過下式計(jì)算:
其中,NGram表示N-Gram算法,Corpus(k)表示檢索詞k的語料,并且
其中表征從所述檢索詞的語料中提取的相鄰詞組合信息的特征通過下式計(jì)算:
其中,Combination是相鄰詞組合函數(shù)。
方案5.如方案2-4中任一項(xiàng)所述的方法,其中計(jì)算擴(kuò)展的結(jié)果與多個(gè)行業(yè)類別中的每個(gè)行業(yè)類別的相關(guān)度得分的步驟包括:分別在多個(gè)計(jì)算節(jié)點(diǎn)上利用已經(jīng)過分布式分類模型訓(xùn)練的多個(gè)支持向量機(jī)模型分別計(jì)算所述特征向量與所述多個(gè)行業(yè)類別的相關(guān)度得分,并且
其中,所述分布式分類模型訓(xùn)練包括:
將訓(xùn)練數(shù)據(jù)分別發(fā)送至所述多個(gè)計(jì)算節(jié)點(diǎn);以及
利用所述訓(xùn)練數(shù)據(jù)在每個(gè)計(jì)算節(jié)點(diǎn)上訓(xùn)練與一個(gè)行業(yè)類別相關(guān)的支持向量機(jī)模型。
方案6.如方案5所述的方法,其中所述訓(xùn)練數(shù)據(jù)包括已標(biāo)記行業(yè)類別的多個(gè)預(yù)設(shè)的關(guān)鍵字的特征向量。
方案7.如方案6所述的方法,其中已標(biāo)記行業(yè)類別的每個(gè)預(yù)設(shè)的關(guān)鍵字的特征向量包含表征從該預(yù)設(shè)的關(guān)鍵字的語料中提取的文本分割結(jié)果、上下文信息和/或相鄰詞組合信息的特征。
方案8.如方案7所述的方法,其中每個(gè)預(yù)設(shè)的關(guān)鍵字的語料包括檢索到的與該預(yù)設(shè)的關(guān)鍵字相關(guān)的語料的至少一部分。
方案9.如方案6-8中任一項(xiàng)所述的方法,其中利用所述訓(xùn)練數(shù)據(jù)在每個(gè)計(jì)算節(jié)點(diǎn)上訓(xùn)練與一個(gè)行業(yè)類別相關(guān)的支持向量機(jī)模型的步驟包括:
在每個(gè)計(jì)算節(jié)點(diǎn)上將接收到的所述訓(xùn)練數(shù)據(jù)分割成多個(gè)數(shù)據(jù)段;以及
在每個(gè)計(jì)算節(jié)點(diǎn)上順序處理所述多個(gè)數(shù)據(jù)段,以訓(xùn)練支持向量機(jī)模型。
方案10.如方案9所述的方法,其中在每個(gè)計(jì)算節(jié)點(diǎn)上順序處理所述多個(gè)數(shù)據(jù)段的步驟包括:
在每個(gè)計(jì)算節(jié)點(diǎn)上處理完所述多個(gè)數(shù)據(jù)段中的每個(gè)數(shù)據(jù)段后,存儲(chǔ)該數(shù)據(jù)段中最接近數(shù)據(jù)分割面的數(shù)據(jù)樣本,并且在處理下一個(gè)數(shù)據(jù)段時(shí),將所存儲(chǔ)的數(shù)據(jù)樣本添加至所述下一個(gè)數(shù)據(jù)段進(jìn)行處理。
方案11.一種信息發(fā)布系統(tǒng),包括:
擴(kuò)展裝置,對(duì)用戶輸入的檢索詞進(jìn)行擴(kuò)展;
計(jì)算裝置,計(jì)算所述擴(kuò)展裝置的擴(kuò)展結(jié)果與多個(gè)行業(yè)類別中的每個(gè)行業(yè)類別的相關(guān)度得分;以及
發(fā)布裝置,向用戶發(fā)布與所述檢索詞具有最高相關(guān)度得分的行業(yè)類別相關(guān)聯(lián)的信息。
方案12.如方案11所述的系統(tǒng),其中所述擴(kuò)展裝置包括:
檢索單元,將所述檢索詞作為關(guān)鍵字檢索有關(guān)所述檢索詞的語料;以及
生成單元,根據(jù)所述檢索詞的語料生成表征所述檢索詞的特征向量,作為所述擴(kuò)展的結(jié)果。
方案13.如方案12所述的系統(tǒng),其中所述生成單元所生成的特征向量包含表征從所述檢索詞的語料中提取的文本分割結(jié)果、上下文信息和/或相鄰詞組合信息的特征。
方案14.如方案13所述的系統(tǒng),
其中所述生成單元通過下式計(jì)算表征從所述檢索詞的語料中提取的文本分割結(jié)果的特征:
f1k=Seg(Corpus(k))
其中,Seg是文本分割函數(shù),Corpus(k)表示檢索詞k的語料,
其中所述生成單元通過下式計(jì)算表征從所述檢索詞的語料中提取的上下文信息的特征:
其中,NGram表示N-Gram算法,Corpus(k)表示檢索詞k的語料,并且
其中所述生成單元通過下式計(jì)算表征從所述檢索詞的語料中提取的相鄰詞組合信息的特征:
其中,Combination是相鄰詞組合函數(shù)。
方案15.如方案12-14中任一項(xiàng)所述的系統(tǒng),其中所述計(jì)算裝置包括:
多個(gè)計(jì)算節(jié)點(diǎn);
分發(fā)單元,將訓(xùn)練數(shù)據(jù)分別發(fā)送至所述多個(gè)計(jì)算節(jié)點(diǎn),所述多個(gè)計(jì)算節(jié)點(diǎn)中的每個(gè)計(jì)算節(jié)點(diǎn)利用從所述分發(fā)單元接收到的訓(xùn)練數(shù)據(jù),訓(xùn)練與一個(gè)行業(yè)類別相關(guān)的支持向量機(jī)模型,并利用已經(jīng)過訓(xùn)練的支持向量機(jī)模型計(jì)算特征向量與所述一個(gè)行業(yè)類別的相關(guān)度得分。
方案16.如方案15所述的系統(tǒng),其中所述訓(xùn)練數(shù)據(jù)包括已標(biāo)記行業(yè)類別的多個(gè)預(yù)設(shè)的關(guān)鍵字的特征向量。
方案17.如方案16所述的系統(tǒng),其中已標(biāo)記行業(yè)類別的每個(gè)預(yù)設(shè)的關(guān)鍵字的特征向量包含表征從該預(yù)設(shè)的關(guān)鍵字的語料中提取的文本分割結(jié)果、上下文信息和/或相鄰詞組合信息的特征。
方案18.如方案17所述的系統(tǒng),其中每個(gè)預(yù)設(shè)的關(guān)鍵字的語料包括檢索到的與該預(yù)設(shè)的關(guān)鍵字相關(guān)的語料的至少一部分。
方案19.如方案16-18中任一項(xiàng)所述的系統(tǒng),其中每個(gè)計(jì)算節(jié)點(diǎn)均包括:數(shù)據(jù)分割模塊,用于將接收到的訓(xùn)練數(shù)據(jù)分割成多個(gè)數(shù)據(jù)段,每個(gè)計(jì)算節(jié)點(diǎn)順序處理所述多個(gè)數(shù)據(jù)段,以訓(xùn)練支持向量機(jī)模型。
方案20.如方案19所述的系統(tǒng),其中每個(gè)計(jì)算節(jié)點(diǎn)在處理完所述多個(gè)數(shù)據(jù)段中的每個(gè)數(shù)據(jù)段后,存儲(chǔ)該數(shù)據(jù)段中最接近數(shù)據(jù)分割面的數(shù)據(jù)樣本,并且在處理下一個(gè)數(shù)據(jù)段時(shí),將所存儲(chǔ)的數(shù)據(jù)樣本添加至所述下一個(gè)數(shù)據(jù)段進(jìn)行處理。