欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種特征詞提取方法及裝置與流程

文檔序號:12597527閱讀:204來源:國知局
一種特征詞提取方法及裝置與流程
本發(fā)明涉及推薦系統(tǒng)領(lǐng)域,尤其涉及一種特征詞提取方法及裝置。
背景技術(shù)
:如今已經(jīng)進入了一個數(shù)據(jù)爆炸的時代,隨著互聯(lián)網(wǎng)的發(fā)展,Web已經(jīng)變成數(shù)據(jù)分享的平臺。人們在海量的數(shù)據(jù)中找到需要的信息,變得越來越難,推薦系統(tǒng)則應(yīng)運而生。推薦系統(tǒng)主要使用基于協(xié)同過濾的推薦方法或基于內(nèi)容的推薦方法。協(xié)同過濾是一種基于一組興趣相同的用戶或項目進行的推薦,它根據(jù)鄰居用戶(與目標(biāo)用戶興趣相似的用戶)的偏好信息產(chǎn)生對目標(biāo)用戶的推薦列表。在新聞推薦中,常采用基于內(nèi)容的推薦方法。如圖1所示,為現(xiàn)有技術(shù)中推薦系統(tǒng)基于內(nèi)容進行信息推薦的流程圖,其具體包括以下步驟:步驟S101:收集用戶消費數(shù)據(jù);步驟S102:從用戶消費數(shù)據(jù)中提取用戶在預(yù)設(shè)時間段內(nèi)消費的特征詞;步驟S103:計算每個特征詞的IUF(InverseUserFrequency:逆向用戶數(shù)頻率);步驟S104:計算每個特征詞的TF(termfrequency:詞頻);步驟S105:計算用戶針對每個特征詞的偏好權(quán)重,該偏好權(quán)重具體計算公式為:IUF*TF。采用現(xiàn)有技術(shù)的方案,能夠提取出熱點類特征詞,但是對于非熱點類的特征詞的提取則不夠準(zhǔn)確,往往會遺漏。因為非熱點類特征詞的相關(guān)內(nèi)容少、PV(pageview:頁面瀏覽量)少,從而容易被遺漏掉。技術(shù)實現(xiàn)要素:本發(fā)明提供一種特征詞提取方法及裝置,以解決現(xiàn)有技術(shù)中對于非熱點類特征詞提取不夠準(zhǔn)確的技術(shù)問題。第一方面,本發(fā)明實施例提供一種特征詞提取方法,包括:獲取預(yù)設(shè)時間段內(nèi)第一用戶所訪問的文檔中包含的M個特征詞,M為正整數(shù);確定所述預(yù)設(shè)時間段內(nèi)特征詞i出現(xiàn)的總文檔數(shù),i為1至M的整數(shù);確定所述預(yù)設(shè)時間段內(nèi)所述第一用戶訪問的包含所述特征詞i的第i文檔數(shù);至少基于所述總文檔數(shù)、所述第i文檔數(shù)從所述M個特征詞中提取出N個特征詞以用于表征所述第一用戶的興趣,N為小于等于M的正整數(shù)??蛇x的,在所述至少基于所述總文檔數(shù)、所述第i文檔數(shù)從所述M個特征詞中提取出N個特征詞之前,所述方法還包括:確定在所述預(yù)設(shè)時間段內(nèi)訪問特征詞i的所有用戶數(shù)的倒數(shù)值;所述至少基于所述總文檔數(shù)、所述第i文檔數(shù)從所述M個特征詞中提取出N個特征詞,具體為:至少基于所述總文檔數(shù)、所述第i文檔數(shù)、所述倒數(shù)值從所述M個特征詞中提取出所述N個特征詞??蛇x的,所述至少基于所述總文檔數(shù)、所述第i文檔數(shù)、所述倒數(shù)值從所述M個特征詞中提取出N個特征詞,具體包括:至少基于所述總文檔數(shù)、所述第i文檔數(shù)、所述倒數(shù)值確定各個特征詞i的興趣權(quán)重;從所述M個特征詞中通過所述興趣權(quán)重提取出所述N個特征詞??蛇x的,所述興趣權(quán)重通過以下公式計算獲得:weight(i)=IUF(i)*dftotaldf]]>其中,IUF(i)表示所述倒數(shù)值;df表示所述第一用戶訪問的包含所述特征詞i的第i文檔數(shù);totaldf表示所述特征詞i出現(xiàn)的總文檔數(shù)??蛇x的,所述方法還包括:確定所述第一用戶訪問特征詞i的訪問方式權(quán)重;至少基于所述總文檔數(shù)、所述第i文檔數(shù)、所述倒數(shù)值和所述訪問方式權(quán)重通過以下公式確定各個特征詞i的興趣權(quán)重:weight(i)=IUF(i)*dftotaldf*access(i)]]>其中,IUF(i)表示所述倒數(shù)值;df表示所述第一用戶訪問的包含所述特征詞i的第i文檔數(shù);totaldf表示所述特征詞i出現(xiàn)的總文檔數(shù);access(i)表示所述第一用戶訪問特征詞i的訪問方式權(quán)重??蛇x的,從所述M個特征詞中通過所述興趣權(quán)重提取出所述N個特征詞,具體為:從所述M個特征詞中提取出興趣權(quán)重高的前N個特征詞作為所述N個特征詞;或分別計算特征詞i在多個所述預(yù)設(shè)時間段內(nèi)的興趣權(quán)重,將計算得到的多個興趣權(quán)重進行加和,從所述M個特征詞中提取出所述加和的和值位于前N位的特征詞作為所述N個特征詞??蛇x的,在所述至少基于所述總文檔數(shù)、所述第i文檔數(shù)從所述M個特征詞中提取出N個特征詞之后,所述方法還包括:從所述N個特征詞中去除滿足預(yù)設(shè)規(guī)則的特征詞??蛇x的,所述從所述N個特征詞中去除滿足預(yù)設(shè)規(guī)則的特征詞,具體包括:從所述N個特征詞中去除所述第一用戶的訪問天數(shù)小于預(yù)設(shè)天數(shù)的特征詞;和/或從所述N個特征詞中去除所述第一用戶的訪問次數(shù)小于預(yù)設(shè)次數(shù)的特征詞。第二方面,本發(fā)明實施例提供一種特征詞提取裝置,包括:獲取模塊,用于獲取預(yù)設(shè)時間段內(nèi)第一用戶所訪問的文檔中包含的M個特征詞,M為正整數(shù);第一確定模塊,用于確定所述預(yù)設(shè)時間段內(nèi)特征詞i出現(xiàn)的總文檔數(shù),i為1至M的整數(shù);第二確定模塊,用于確定所述預(yù)設(shè)時間段內(nèi)所述第一用戶訪問的包含所述特征詞i的第i文檔數(shù);提取模塊,用于至少基于所述總文檔數(shù)、所述第i文檔數(shù)從所述M個特征詞中提取出N個特征詞以用于表征所述第一用戶的興趣,N為小于等于M的正整數(shù)??蛇x的,所述裝置還包括:第三確定模塊,用于確定在所述預(yù)設(shè)時間段內(nèi)訪問特征詞i的所有用戶數(shù)的倒數(shù)值;所述提取模塊,具體用于:至少基于所述總文檔數(shù)、所述第i文檔數(shù)、所述倒數(shù)值從所述M個特征詞中提取出所述N個特征詞??蛇x的,所述提取模塊,具體包括:第一確定單元,用于至少基于所述總文檔數(shù)、所述第i文檔數(shù)、所述倒數(shù)值確定各個特征詞i的興趣權(quán)重;提取單元,用于從所述M個特征詞中通過所述興趣權(quán)重提取出所述N個特征詞??蛇x的,所述提取單元,具體用于:從所述M個特征詞中提取出興趣權(quán)重高的前N個特征詞作為所述N個特征詞;或分別計算特征詞i在多個所述預(yù)設(shè)時間段內(nèi)的興趣權(quán)重,將計算得到的多個興趣權(quán)重進行加和,從所述M個特征詞中提取出所述加和的和值位于前N位的特征詞作為所述N個特征詞??蛇x的,所述裝置還包括:去除模塊,用于從所述N個特征詞中去除滿足預(yù)設(shè)規(guī)則的特征詞。本發(fā)明有益效果如下:由于在本發(fā)明實施例中,首先獲取預(yù)設(shè)時間段內(nèi)第一用戶所訪問的文檔中包含的M個特征詞,M為正整數(shù);然后確定預(yù)設(shè)時間段內(nèi)特征詞i出現(xiàn)的總文檔數(shù),i為1至M的整數(shù);接著確定預(yù)設(shè)時間段內(nèi)第一用戶訪問的包含特征詞i的第i文檔數(shù);最后至少基于總文檔數(shù)、第i文檔數(shù)從M個特征詞中提取出N個特征詞以用于表征第一用戶的興趣,N為小于等于M的正整數(shù)。也就是在從M個特征詞中提取出N個特征詞時,會考慮每個特征詞出現(xiàn)的總文檔數(shù)、第一用戶訪問對應(yīng)特征詞所對應(yīng)的文檔數(shù),從而對于非熱點的特征詞也能夠進行準(zhǔn)確的提取,從而能夠提高非熱點類特征詞作為用戶興趣的召回率。附圖說明圖1為現(xiàn)有技術(shù)中提取用戶的偏好權(quán)重的流程圖;圖2為本發(fā)明實施例中特征詞提取方法的流程圖;圖3為本發(fā)明實施例特征詞提取方法中從M個特征詞中提取出N個特征詞的流程圖;圖4為本發(fā)明實施例中特征詞提取裝置的結(jié)構(gòu)圖。具體實施方式本發(fā)明提供一種特征詞提取方法及裝置,以解決現(xiàn)有技術(shù)中對于非熱點類特征詞提取不夠準(zhǔn)確的技術(shù)問題。本申請實施例中的技術(shù)方案為解決上述的技術(shù)問題,總體思路如下:首先獲取預(yù)設(shè)時間段內(nèi)第一用戶所訪問的文檔中包含的M個特征詞,M為正整數(shù);然后確定預(yù)設(shè)時間段內(nèi)特征詞i出現(xiàn)的總文檔數(shù),i為1至M的整數(shù);接著確定預(yù)設(shè)時間段內(nèi)第一用戶訪問的包含特征詞i的第i文檔數(shù);最后 至少基于總文檔數(shù)、第i文檔數(shù)從M個特征詞中提取出N個特征詞以用于表征第一用戶的興趣,N為小于等于M的正整數(shù)。也就是在從M個特征詞中提取出N個特征詞時,會考慮每個特征詞出現(xiàn)的總文檔數(shù)、第一用戶訪問對應(yīng)特征詞所對應(yīng)的文檔數(shù),從而對于非熱點的特征詞也能夠進行準(zhǔn)確的提取,從而能夠提高非熱點類特征詞作為用戶興趣的召回率。為了更好的理解上述技術(shù)方案,下面通過附圖以及具體實施例對本發(fā)明技術(shù)方案做詳細(xì)的說明,應(yīng)當(dāng)理解本發(fā)明實施例以及實施例中的具體特征是對本發(fā)明技術(shù)方案的詳細(xì)的說明,而不是對本發(fā)明技術(shù)方案的限定,在不沖突的情況下,本發(fā)明實施例以及實施例中的技術(shù)特征可以相互組合。第一方面,本發(fā)明實施例提供一種特征詞提取方法,請參考圖2,包括:步驟S201:獲取預(yù)設(shè)時間段內(nèi)第一用戶所訪問的文檔中包含的M個特征詞,M為正整數(shù);步驟S202:確定預(yù)設(shè)時間段內(nèi)特征詞i出現(xiàn)的總文檔數(shù);步驟S203:確定預(yù)設(shè)時間段內(nèi)第一用戶訪問的包含特征詞i的第i文檔數(shù);步驟S204:至少基于總文檔數(shù)、第i文檔數(shù)從M個特征詞中提取出N個特征詞以用于表征第一用戶的興趣,N為小于等于M的正整數(shù)。步驟S201中,所述預(yù)設(shè)時間段例如為:1天、半天、1周等等,可以根據(jù)實際需求設(shè)置不同的所述預(yù)設(shè)時間段,對此本發(fā)明實施例不再詳細(xì)列舉,并且不做限制。其中,可以以預(yù)設(shè)時間段(例如:天)為單位對用戶所訪問的數(shù)據(jù)進行分析,進而抽取其中所包含的特征詞。其中,在對用戶所訪問的數(shù)據(jù)進行分析時,為了提高分析速率,可以僅僅分析用戶所訪問的數(shù)據(jù)的標(biāo)題;而為了提高分析的全面性,則還可以分析數(shù)據(jù)的摘要、全文等等。步驟S202中,可以針對所有用戶,搜集整理所有用戶所訪問的文檔,然后判斷每篇文檔中是否包含特征詞i,進而獲得預(yù)設(shè)時間段內(nèi)特征詞i出現(xiàn)的總文檔數(shù)。步驟S203中,可以搜集獲得第一用戶所訪問的文檔,然后判斷每篇文檔中是否包含特征詞i,進而獲得預(yù)設(shè)時間段內(nèi)第一用戶訪問的包含特征詞i的第i文檔數(shù)。步驟S204中,所提取的N個特征詞往往表征用戶的興趣特征。其中,可以基于多種參數(shù)從M個特征詞中提取出N個特征詞,下面列舉其中的四種進行介紹,當(dāng)然,在具體實施過程中,不限于以下四種情況。第一種,至少基于總文檔數(shù)、第i文檔數(shù)從M個特征詞中提取出N個特征詞,具體為:基于總文檔數(shù)、第i文檔數(shù)從M個特征詞中提取出N個特征詞。第二種,在至少基于總文檔數(shù)、第i文檔數(shù)從M個特征詞中提取出N個特征詞之前,方法還包括:確定在所述預(yù)設(shè)時間段內(nèi)訪問特征詞i的所有用戶數(shù)的倒數(shù)值;至少基于總文檔數(shù)、第i文檔數(shù)從M個特征詞中提取出N個特征詞,具體為:基于總文檔數(shù)、第i文檔數(shù)、倒數(shù)值從M個特征詞中提取出N個特征詞。舉例來說,可以統(tǒng)計每個用戶所訪問的特征詞,然后逐一判斷每個用戶所訪問的特征詞中是否包含特征詞i,進而可以獲取訪問特征詞i的所有用戶數(shù),然后對訪問特征詞i的所有用戶數(shù)取倒數(shù),就可以獲得在所述預(yù)設(shè)時間段內(nèi)訪問特征詞i的用戶數(shù)的倒數(shù)值。由于在上述方案中,在從M個特征詞中篩選出N個特征詞時,需要考慮到訪問每個特征詞的用戶數(shù)的倒數(shù)值,從而所確定出的N個特征詞更加準(zhǔn)確。第三種,在基于總文檔數(shù)、第i文檔數(shù)從M個特征詞中提取出N個特征詞之前,方法還包括:確定第一用戶訪問第i關(guān)鍵詞的訪問方式權(quán)重;至少基于總文檔數(shù)、第i文檔數(shù)從M個特征詞中提取出N個特征詞,具體包括:基于總文檔數(shù)、第i文檔數(shù)和訪問方式權(quán)重,從M個特征詞中篩選出N 個特征詞。舉例來說,在統(tǒng)計第一用戶所訪問的特征詞i的文檔數(shù)的同時,還可以統(tǒng)計第一用戶訪問特征詞i所對應(yīng)的文檔的訪問方式,該訪問方式例如為:通過收藏夾訪問、通過關(guān)鍵詞訪問、通過熱點新聞訪問等等,針對不同的訪問方式可以設(shè)置不同的權(quán)重,例如:通過收藏夾訪問的權(quán)重為0.5、通過關(guān)鍵詞訪問的權(quán)重為0.3、通過熱點新聞訪問的權(quán)重為0.2,當(dāng)然也可以根據(jù)實際需求設(shè)置其他的權(quán)重,本發(fā)明實施例不再詳細(xì)列舉,并且不作限制。然后確定出第一用戶訪問特征詞i時,每種訪問途徑所對應(yīng)的訪問次數(shù),例如如表1所示:表1訪問途徑收藏夾關(guān)鍵詞熱點新聞次數(shù)10125則將對應(yīng)的訪問次數(shù)按照訪問方式的權(quán)重進行加和,就可以獲得第一用戶訪問特征詞i的訪問方式權(quán)重,例如,所獲得的訪問方式權(quán)重為:access(i)=10*0.5+12*0.3+5*0.2=9.6………………………………[1]當(dāng)然,在具體實施過程中,基于訪問次數(shù)和每種訪問途徑的權(quán)重不同,從而所獲得權(quán)重值也不同,對此本發(fā)明實施例不再詳細(xì)列舉,并且不作限制。由于在上述方案中,在從M個特征詞中提取出N個特征詞時,需要考慮第一用戶訪問特征詞i所對應(yīng)的文檔的訪問方式,而不用的訪問方式往往表征用戶的喜好程度也不同,故而通過該方案能夠更加準(zhǔn)確的提取出特征詞。第四種,在基于總文檔數(shù)、第i文檔數(shù)從M個特征詞中提取出N個特征詞之前,方法還包括:確定在所述預(yù)設(shè)時間段內(nèi)訪問特征詞i的用戶數(shù)的倒數(shù)值;確定第一用戶訪問特征詞i的訪問方式權(quán)重;至少基于總文檔數(shù)、第i文檔數(shù)、倒數(shù)值和訪問方式權(quán)重確定各個特征詞i的興趣權(quán)重。由于在上述方案中,在計算獲得興趣權(quán)重時需要考慮特征詞i出現(xiàn)的總文 檔數(shù)的倒數(shù),故而可以提高第一用戶長尾興趣所對應(yīng)的特征詞的召回率。作為進一步的優(yōu)選實施例,步驟S204中至少基于總文檔數(shù)、第i文檔數(shù)從M個特征詞中提取出N個特征詞,請參考圖3,具體包括:步驟S301:至少基于總文檔數(shù)、第i文檔數(shù)確定M個特征詞中每個特征詞的興趣權(quán)重;步驟S302:從M個特征詞中通過興趣權(quán)重篩選出N個特征詞。步驟S301中基于從M個特征詞中提取出N個特征詞的參數(shù)不同,計算興趣權(quán)重的方式也不同,下面基于前面所列舉的四種參數(shù)分別進行介紹。第一種,興趣權(quán)重通過以下公式計算獲得:weight(i)=dftotaldf...[2]]]>其中,df表示第一用戶訪問的包含所述特征詞i的第i文檔數(shù);totaldf表示特征詞i出現(xiàn)的總文檔數(shù)。第二種,興趣權(quán)重通過以下公式計算獲得:weight(i)=IUF(i)*dftotaldf...[3]]]>其中,IUF(i)表示倒數(shù)值;df表示第一用戶訪問的包含所述特征詞i的第i文檔數(shù);totaldf表示特征詞i出現(xiàn)的總文檔數(shù)。第三種,興趣權(quán)重通過以下公式計算獲得:weight(i)=dftotaldf*access(i)...[4]]]>其中,df表示第一用戶訪問的包含所述特征詞i的第i文檔數(shù);totaldf表示特征詞i出現(xiàn)的總文檔數(shù);access(i)表示特征詞i的訪問方式權(quán)重。第四種,興趣權(quán)重通過以下公式計算獲得:weight(i)=IUF(i)*dftotaldf*access(i)...[5]]]>其中,IUF(i)表示倒數(shù)值;df表示第一用戶訪問的包含所述特征詞i的第i文檔數(shù);totaldf表示特征詞i出現(xiàn)的總文檔數(shù);access(i)表示特征詞的訪問方式權(quán)重。步驟S302中,在通過興趣權(quán)重篩選出N個特征詞時,又可以采用多種方式,下面列舉其中的兩種進行介紹,當(dāng)然,在具體實施過程中,不限于以下兩種情況。第一種,從M個特征詞中通過興趣權(quán)重篩選出N個特征詞,具體為:從M個特征詞中篩選出興趣權(quán)重高的前N個特征詞作為所述N個特征詞。舉例來說,可以計算出M個特征詞中每個特征詞的興趣權(quán)重,然后將其按照從高到低的順序排列,最后篩選出位于前N位的特征詞,通過該方案所篩選出的興趣權(quán)重能夠較好的反映出第一用戶的當(dāng)前興趣。第二種,從M個特征詞中通過興趣權(quán)重篩選出N個特征詞,具體為:分別計算特征詞i在多個所述預(yù)設(shè)時間段內(nèi)的興趣權(quán)重,將計算得到的多個興趣權(quán)重進行加和,從所述M個特征詞中提取出所述加和的和值位于前N位的特征詞作為所述N個特征詞。舉例來說,多個預(yù)設(shè)時間段例如為:3個、5個等等,其中在每個預(yù)設(shè)時間段內(nèi)針對每個特征詞都會計算興趣權(quán)重,然后獲得多個興趣權(quán)重,進而可以針對每個特征詞的在多個預(yù)設(shè)時間段內(nèi)的興趣權(quán)重求和獲得和值;然后將和值按照從高到底的順序排列,進而篩選出位于前N位的特征詞,作為反應(yīng)第一用戶的興趣特征的N個特征詞。通過上述方案能夠保證所提取出的特征詞不受熱點事件的影響,能夠較好的反應(yīng)第一用戶的興趣特征;例如:如果第一用戶在特征詞i的非熱點時間內(nèi),也會訪問特征詞i,則其興趣權(quán)重相較于在非熱點時間沒有訪問特征詞i的用戶會高,進而其綜合的興趣權(quán)重的和值也會較高,而其他用戶僅僅在特征詞i的熱點時間會訪問特征詞i,但是由于其在非熱點事件不會訪問,所以其綜合的興趣權(quán)重的和值也不會太 高,從而能夠排除熱點事件的干擾。作為進一步的優(yōu)選實施例,在基于步驟S204篩選出N個特征詞之后,方法還包括:從N個特征詞中去除滿足預(yù)設(shè)規(guī)則的特征詞。其中,可以通過多種預(yù)設(shè)規(guī)則對N個特征詞進行篩選,下面列舉其中的兩種預(yù)設(shè)規(guī)則,當(dāng)然,在具體實施過程中,不限于以下兩種情況。第一種,從N個特征詞中去除第一用戶的訪問天數(shù)小于預(yù)設(shè)天數(shù)的特征詞。舉例來說,在獲得N個特征詞之后,可以統(tǒng)計某一預(yù)設(shè)時間段(例如:1個月、3個月、半年等等),第一用戶訪問每個特征詞的訪問天數(shù),如果訪問天數(shù)不小于預(yù)設(shè)天數(shù),則說明第一用戶對對應(yīng)的特征詞比較感興趣,如果訪問天數(shù)小于預(yù)設(shè)天數(shù),則說明第一用戶對對應(yīng)的特征詞不太感興趣,故而需要將對應(yīng)的特征詞從N個特征詞中去除,可以根據(jù)實際需求設(shè)置不同的預(yù)設(shè)天數(shù),例如:3天、5天等等,本發(fā)明實施例不再詳細(xì)列舉并且不作限制。第二種,從N個特征詞中去除第一用戶的訪問次數(shù)小于預(yù)設(shè)次數(shù)的特征詞。舉例來說,在獲得N個特征詞之后,可以統(tǒng)計某一預(yù)設(shè)時間段(例如:1個月、3個月、半年等等),第一用戶訪問每個特征詞的訪問次數(shù),如果訪問次數(shù)不小于預(yù)設(shè)次數(shù),則說明第一用戶對對應(yīng)的特征詞比較感興趣,如果訪問次數(shù)小于預(yù)設(shè)次數(shù),則說明第一用戶對對應(yīng)的特征詞不太感興趣,故而需要將對應(yīng)的特征詞從N個特征詞中去除,可以根據(jù)實際需求設(shè)置不同的預(yù)設(shè)次數(shù),例如:3天、5天等等,本發(fā)明實施例不再詳細(xì)列舉并且不作限制。優(yōu)選的,本發(fā)明中的特征詞為實體詞。通常情況下,實體詞指的是能夠用于描述用戶興趣的特征詞。其中,實體詞通常具備以下條件:①名詞;②指代明確;③非大眾;④非小眾,下面將對上述四種條件分別進行介紹。①名詞:通常情況下,用戶興趣特征中的關(guān)鍵詞基本上都是名詞,如:汽車、電影、體育,但并非所有名詞均適合用作描述用戶興趣,如:人們、集團、 友情。通常情況下,實體詞主要包括專有名詞、個體名詞和物質(zhì)名詞,而集體名詞、抽象名詞基本不是實體詞。②指代明確:漢語是一個靈活百變的語言,往往一個詞包含有多個含義,如蘋果(食物/數(shù)碼產(chǎn)品)、火箭(航天器/nba球隊),用作用戶興趣必須要指代明確,所以在本發(fā)明實施例中將所有特征詞分成若干類別,單獨為每個類別抽取實體詞。結(jié)合類別實體詞指代便明確了,如:美食.蘋果和數(shù)碼.蘋果、軍事.火箭和nba.火箭。③非大眾:抽象名詞、集體名詞是人們對于名詞基于已有知識的劃分,但對于計算機卻無法識別,也無法反應(yīng)用戶的興趣特征,而從大量新聞?wù)Z料中發(fā)現(xiàn)這類詞分布廣出現(xiàn)頻率高,故而可以通過這種分布特征去除;④非小眾:此處的小眾指的是滿足上述條件后各垂直類別內(nèi)部出現(xiàn)頻率很低的特征詞。去除此部分詞的原因不是因為小眾詞一定不是實體詞,而是因為該類詞數(shù)據(jù)采樣不足,引入該類詞同時會引入更多的噪音。第二方面,基于同一發(fā)明構(gòu)思,本發(fā)明實施例提供一種特征詞提取裝置,請參考圖4,包括:獲取模塊40,用于獲取預(yù)設(shè)時間段內(nèi)第一用戶所訪問的文檔中包含的M個特征詞,M為正整數(shù);第一確定模塊41,用于確定所述預(yù)設(shè)時間段內(nèi)特征詞i出現(xiàn)的總文檔數(shù),i為1至M的整數(shù);第二確定模塊42,用于確定所述預(yù)設(shè)時間段內(nèi)所述第一用戶訪問的包含所述特征詞i的第i文檔數(shù);提取模塊43,用于至少基于所述總文檔數(shù)、所述第i文檔數(shù)從所述M個特征詞中提取出N個特征詞以用于表征所述第一用戶的興趣,N為小于等于M的正整數(shù)??蛇x的,所述裝置還包括:第三確定模塊,用于確定在所述預(yù)設(shè)時間段內(nèi)訪問特征詞i的所有用戶數(shù) 的倒數(shù)值;所述提取模塊43,具體用于:至少基于所述總文檔數(shù)、所述第i文檔數(shù)、所述倒數(shù)值從所述M個特征詞中提取出所述N個特征詞??蛇x的,所述提取模塊43,具體包括:第一確定單元,用于至少基于所述總文檔數(shù)、所述第i文檔數(shù)、所述倒數(shù)值確定各個特征詞i的興趣權(quán)重;提取單元,用于從所述M個特征詞中通過所述興趣權(quán)重提取出所述N個特征詞??蛇x的,所述第一確定單元用于通過以下公式計算獲得所述興趣權(quán)重:weight(i)=IUF(i)*dftotaldf]]>其中,IUF(i)表示所述倒數(shù)值;df表示所述第一用戶訪問的包含所述特征詞i的第i文檔數(shù);totaldf表示所述特征詞i出現(xiàn)的總文檔數(shù)。可選的,所述裝置還包括:第四確定模塊,用于確定所述第一用戶訪問特征詞i的訪問方式權(quán)重;第五確定模塊,用于至少基于所述總文檔數(shù)、所述第i文檔數(shù)、所述倒數(shù)值和所述訪問方式權(quán)重通過以下公式確定各個特征詞i的興趣權(quán)重:weight(i)=IUF(i)*dftotaldf*access(i)]]>其中,IUF(i)表示所述倒數(shù)值;df表示所述第一用戶訪問的包含所述特征詞i的第i文檔數(shù);totaldf表示所述特征詞i出現(xiàn)的總文檔數(shù);access(i)表示所述第一用戶訪問特征詞i的訪問方式權(quán)重??蛇x的,所述提取單元,具體用于:從所述M個特征詞中提取出興趣權(quán)重高的前N個特征詞作為所述N個特 征詞;或分別計算特征詞i在多個所述預(yù)設(shè)時間段內(nèi)的興趣權(quán)重,將計算得到的多個興趣權(quán)重進行加和,從所述M個特征詞中提取出所述加和的和值位于前N位的特征詞作為所述N個特征詞??蛇x的,所述裝置還包括:去除模塊,用于從所述N個特征詞中去除滿足預(yù)設(shè)規(guī)則的特征詞??蛇x的,所述去除模塊,具體用于:從所述N個特征詞中去除所述第一用戶的訪問天數(shù)小于預(yù)設(shè)天數(shù)的特征詞;和/或從所述N個特征詞中去除所述第一用戶的訪問次數(shù)小于預(yù)設(shè)次數(shù)的特征詞。本發(fā)明一個或多個實施例,至少具有以下有益效果:由于在本發(fā)明實施例中,首先獲取預(yù)設(shè)時間段內(nèi)第一用戶所訪問的文檔中包含的M個特征詞,M為正整數(shù);然后確定預(yù)設(shè)時間段內(nèi)特征詞i出現(xiàn)的總文檔數(shù),i為1至M的整數(shù);接著確定預(yù)設(shè)時間段內(nèi)第一用戶訪問的包含特征詞i的第i文檔數(shù);最后至少基于總文檔數(shù)、第i文檔數(shù)從M個特征詞中提取出N個特征詞以用于表征第一用戶的興趣,N為小于等于M的正整數(shù)。也就是在從M個特征詞中提取出N個特征詞時,會考慮每個特征詞出現(xiàn)的總文檔數(shù)、第一用戶訪問對應(yīng)特征詞所對應(yīng)的文檔數(shù),從而對于非熱點的特征詞也能夠進行準(zhǔn)確的提取,從而能夠提高非熱點類特征詞作為用戶興趣的召回率。本領(lǐng)域內(nèi)的技術(shù)人員應(yīng)明白,本發(fā)明的實施例可提供為方法、系統(tǒng)、或計算機程序產(chǎn)品。因此,本發(fā)明可采用完全硬件實施例、完全軟件實施例、或結(jié)合軟件和硬件方面的實施例的形式。而且,本發(fā)明可采用在一個或多個其中包含有計算機可用程序代碼的計算機可用存儲介質(zhì)(包括但不限于磁盤存儲器、CD-ROM、光學(xué)存儲器等)上實施的計算機程序產(chǎn)品的形式。本發(fā)明是參照根據(jù)本發(fā)明實施例的方法、設(shè)備(系統(tǒng))、和計算機程序產(chǎn) 品的流程圖和/或方框圖來描述的。應(yīng)理解可由計算機程序指令實現(xiàn)流程圖和/或方框圖中的每一流程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結(jié)合??商峁┻@些計算機程序指令到通用計算機、專用計算機、嵌入式處理機或其他可編程數(shù)據(jù)處理設(shè)備的嵌入式控制器以產(chǎn)生一個機器,使得通過計算機或其他可編程數(shù)據(jù)處理設(shè)備的嵌入式控制器執(zhí)行的指令產(chǎn)生用于實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的裝置。這些計算機程序指令也可存儲在能引導(dǎo)計算機或其他可編程數(shù)據(jù)處理設(shè)備以特定方式工作的計算機可讀存儲器中,使得存儲在該計算機可讀存儲器中的指令產(chǎn)生包括指令裝置的制造品,該指令裝置實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能。這些計算機程序指令也可裝載到計算機或其他可編程數(shù)據(jù)處理設(shè)備上,使得在計算機或其他可編程設(shè)備上執(zhí)行一系列操作步驟以產(chǎn)生計算機實現(xiàn)的處理,從而在計算機或其他可編程設(shè)備上執(zhí)行的指令提供用于實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的步驟。盡管已描述了本發(fā)明的優(yōu)選實施例,但本領(lǐng)域內(nèi)的技術(shù)人員一旦得知了基本創(chuàng)造性概念,則可對這些實施例作出另外的變更和修改。所以,所附權(quán)利要求意欲解釋為包括優(yōu)選實施例以及落入本發(fā)明范圍的所有變更和修改。顯然,本領(lǐng)域的技術(shù)人員可以對本發(fā)明實施例進行各種改動和變型而不脫離本發(fā)明實施例的精神和范圍。這樣,倘若本發(fā)明實施例的這些修改和變型屬于本發(fā)明權(quán)利要求及其等同技術(shù)的范圍之內(nèi),則本發(fā)明也意圖包含這些改動和變型在內(nèi)。當(dāng)前第1頁1 2 3 
當(dāng)前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
修文县| 车致| 闸北区| 安陆市| 宜阳县| 西华县| 青海省| 潞城市| 开江县| 宁阳县| 瑞昌市| 长顺县| 永城市| 华容县| 临安市| 漾濞| 海南省| 于都县| 新绛县| 临沂市| 黔东| 常熟市| 英吉沙县| 广饶县| 白水县| 富蕴县| 邳州市| 乃东县| 新巴尔虎右旗| 万载县| 通榆县| 广丰县| 平顶山市| 宁安市| 张家港市| 青龙| 定州市| 太仓市| 平泉县| 宁国市| 会同县|