1.一種信息發(fā)布方法,包括:
對用戶輸入的檢索詞進(jìn)行擴展;
計算擴展的結(jié)果與多個行業(yè)類別中的每個行業(yè)類別的相關(guān)度得分;以及
向用戶發(fā)布與所述檢索詞具有最高相關(guān)度得分的行業(yè)類別相關(guān)聯(lián)的信息。
2.如權(quán)利要求1所述的方法,其中對用戶輸入的檢索詞進(jìn)行擴展的步驟包括:
將所述檢索詞作為關(guān)鍵字檢索有關(guān)所述檢索詞的語料;以及
根據(jù)所述檢索詞的語料生成表征所述檢索詞的特征向量,作為所述擴展的結(jié)果。
3.如權(quán)利要求2所述的方法,其中所述檢索詞的特征向量包含表征從所述檢索詞的語料中提取的文本分割結(jié)果、上下文信息和/或相鄰詞組合信息的特征。
4.如權(quán)利要求3所述的方法,
其中表征從所述檢索詞的語料中提取的文本分割結(jié)果的特征通過下式計算:
f1k=Seg(Corpus(k))
其中,Seg是文本分割函數(shù),Corpus(k)表示檢索詞k的語料,
其中表征從所述檢索詞的語料中提取的上下文信息的特征通過下式計算:
其中,NGram表示N-Gram算法,Corpus(k)表示檢索詞k的語料,并且
其中表征從所述檢索詞的語料中提取的相鄰詞組合信息的特征通過下式計算:
f3k=Combination(f1k)
其中,Combination是相鄰詞組合函數(shù)。
5.如權(quán)利要求2至4中任一項所述的方法,其中計算擴展的結(jié)果與多個行業(yè)類別中的每個行業(yè)類別的相關(guān)度得分的步驟包括:分別在多個計算節(jié)點上利用已經(jīng)過分布式分類模型訓(xùn)練的多個支持向量機模型分別計算所述特征向量與所述多個行業(yè)類別的相關(guān)度得分,并且
其中,所述分布式分類模型訓(xùn)練包括:
將訓(xùn)練數(shù)據(jù)分別發(fā)送至所述多個計算節(jié)點;以及
利用所述訓(xùn)練數(shù)據(jù)在每個計算節(jié)點上訓(xùn)練與一個行業(yè)類別相關(guān)的支持向量機模型。
6.如權(quán)利要求5所述的方法,其中所述訓(xùn)練數(shù)據(jù)包括已標(biāo)記行業(yè)類別的多個預(yù)設(shè)的關(guān)鍵字的特征向量。
7.如權(quán)利要求6所述的方法,其中已標(biāo)記行業(yè)類別的每個預(yù)設(shè)的關(guān)鍵字的特征向量包含表征從該預(yù)設(shè)的關(guān)鍵字的語料中提取的文本分割結(jié)果、上下文信息和/或相鄰詞組合信息的特征。
8.如權(quán)利要求6或7所述的方法,其中利用所述訓(xùn)練數(shù)據(jù)在每個計算節(jié)點上訓(xùn)練與一個行業(yè)類別相關(guān)的支持向量機模型的步驟包括:
在每個計算節(jié)點上將接收到的所述訓(xùn)練數(shù)據(jù)分割成多個數(shù)據(jù)段;以及
在每個計算節(jié)點上順序處理所述多個數(shù)據(jù)段,以訓(xùn)練支持向量機模型。
9.如權(quán)利要求8所述的方法,其中在每個計算節(jié)點上順序處理所述多個數(shù)據(jù)段的步驟包括:
在每個計算節(jié)點上處理完所述多個數(shù)據(jù)段中的每個數(shù)據(jù)段后,存儲該數(shù)據(jù)段中最接近數(shù)據(jù)分割面的數(shù)據(jù)樣本,并且在處理下一個數(shù)據(jù)段時,將所存儲的數(shù)據(jù)樣本添加至所述下一個數(shù)據(jù)段進(jìn)行處理。
10.一種信息發(fā)布系統(tǒng),包括:
擴展裝置,對用戶輸入的檢索詞進(jìn)行擴展;
計算裝置,計算所述擴展裝置的擴展結(jié)果與多個行業(yè)類別中的每個行業(yè)類別的相關(guān)度得分;以及
發(fā)布裝置,向用戶發(fā)布與所述檢索詞具有最高相關(guān)度得分的行業(yè)類別相關(guān)聯(lián)的信息。