欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種實體詞挖掘方法、信息推薦方法及裝置與流程

文檔序號:12363953閱讀:224來源:國知局
一種實體詞挖掘方法、信息推薦方法及裝置與流程

本發(fā)明涉及數(shù)據(jù)挖掘領(lǐng)域,尤其涉及一種實體詞挖掘方法、信息推薦方法及裝置。



背景技術(shù):

在過去的十幾年里個性化的發(fā)展如火如荼,其原因很簡單——互聯(lián)網(wǎng)上信息的爆炸式增長與人們有限的信息需求之間不可調(diào)和的矛盾愈演愈烈。隨之個性化推薦應(yīng)運而生被應(yīng)用到各個領(lǐng)域:購物、新聞閱讀甚至各種應(yīng)用app(Application:應(yīng)用程序)等等。其中,個性化推薦是指計算機通過各種技術(shù)手段將此時此刻用戶最想看到的信息推薦給用戶。

現(xiàn)有技術(shù)中,為了確定用戶的興趣特征,往往會建立標簽庫,請參考圖1,標簽庫的建立包括以下步驟:

步驟S101:收集大量的文檔;

步驟S102:采用人工方式對標簽庫中的用戶興趣相關(guān)的詞設(shè)置標簽;

步驟S103:生成包含標簽的文檔,基于該文檔建立標簽庫,標簽庫中則包含用戶的興趣特征。

然而,現(xiàn)有技術(shù)中通過人工打標的方式獲得用戶的興趣特征時至少存在以下技術(shù)問題:

①導(dǎo)致大量的人力資源的浪費;

②由于打標的結(jié)果取決于人員的素質(zhì),故而所獲得用戶的興趣特征的質(zhì)量存在不準確性;

②由于標簽庫需要人工進行編輯,故而不符合互聯(lián)網(wǎng)發(fā)展的方向,同時這種方法需要一定時間的積累。



技術(shù)實現(xiàn)要素:

本發(fā)明提供一種實體詞挖掘方法、信息推薦方法及裝置,以解決現(xiàn)有技術(shù)中只能通過人工打標方式獲得用戶興趣特征的技術(shù)問題。

第一方面,本發(fā)明實施例提供一種實體詞挖掘方法,包括:

從特征詞語料中獲取出M個特征詞,M為正整數(shù);

計算出所述M個特征詞中每個特征詞的稀缺度、每個特征詞的各類間分布以及每個特征詞的類內(nèi)出現(xiàn)次數(shù);

基于所述稀缺度、所述各類間分布以及所述類內(nèi)出現(xiàn)次數(shù),將所述M個特征詞中的N1個特征詞確定為實體詞,N1為正整數(shù)。

可選的,所述基于所述稀缺度、所述各類間分布以及所述類內(nèi)出現(xiàn)次數(shù),將所述M個特征詞中的N1個特征詞確定為實體詞,具體包括:

基于所述稀缺度、所述各類間分布以及所述類內(nèi)出現(xiàn)次數(shù),判斷所述M個特征詞中的每個特征詞是否滿足第一預(yù)設(shè)規(guī)則;

當對應(yīng)特征詞滿足第一預(yù)設(shè)規(guī)則時,將對應(yīng)特征詞確定為實體詞,其中,所述滿足第一預(yù)設(shè)規(guī)則具體為:對應(yīng)特征詞的所述稀缺度大于預(yù)設(shè)稀缺度值、所述各類間分布大于預(yù)設(shè)類間分布值以及所述類內(nèi)出現(xiàn)次數(shù)大于預(yù)設(shè)次數(shù)。

可選的,所述基于所述稀缺度、所述各類間分布以及所述類內(nèi)出現(xiàn)次數(shù),將所述M個特征詞中的N1個特征詞確定為實體詞,具體包括:

基于所述類內(nèi)出現(xiàn)次數(shù)確定對應(yīng)特征詞的類內(nèi)戰(zhàn)勝比;

基于所述稀缺度、所述各類間分布以及所述類內(nèi)戰(zhàn)勝比,判斷所述M個特征詞中的每個特征詞是否滿足第二預(yù)設(shè)規(guī)則;

當對應(yīng)特征詞滿足第二預(yù)設(shè)規(guī)則時,將對應(yīng)特征詞確定為實體詞,其中,所述滿足第二預(yù)設(shè)規(guī)則具體為:對應(yīng)特征詞的所述稀缺度大于預(yù)設(shè)稀缺度值、所述各類間分布大于預(yù)設(shè)類間分布值以及所述類內(nèi)戰(zhàn)勝比大于預(yù)設(shè)戰(zhàn)勝比。

可選的,所述類內(nèi)戰(zhàn)勝比通過以下公式計算獲得:

<mrow> <msub> <mi>Defeat</mi> <mi>ij</mi> </msub> <mo>=</mo> <mfrac> <mrow> <msub> <mi>WordCount</mi> <mi>j</mi> </msub> <mo>-</mo> <msub> <mi>Order</mi> <mi>i</mi> </msub> </mrow> <msub> <mi>WordCount</mi> <mi>j</mi> </msub> </mfrac> </mrow>

其中Defeatij表示特征詞i在類別j內(nèi)的戰(zhàn)勝比;

WordCountj表示所述類別j下的特征詞總數(shù);

Orderi表示所述特征詞i在所述類別j內(nèi)按照出現(xiàn)次數(shù)由高到低降序排列的序號。

可選的,在所述將所述M個特征詞中的N1個特征詞確定為實體詞之后,所述方法還包括:

將所述實體詞加入實體詞庫;

確定出所述M個特征詞中沒有加入所述實體詞庫的N2個特征詞,N2為正整數(shù);

從所述N2個特征詞中獲取出滿足第三預(yù)設(shè)規(guī)則的至少一個特征詞加入所述實體詞庫。

可選的,所述從所述N2個特征詞中獲取出滿足第三預(yù)設(shè)規(guī)則的至少一個特征詞加入所述實體詞庫,具體包括:

計算現(xiàn)存的第一數(shù)據(jù)庫中每個類別與所述實體詞庫中任一類別的相似度;

獲取所述相似度大于預(yù)設(shè)閾值的第一數(shù)據(jù)庫中的類別作為參考類別;

從所述N2個特征詞中獲取位于所述參考類別的特征詞加入所述實體詞庫。

可選的,所述從所述N2個特征詞中獲取出滿足第三預(yù)設(shè)規(guī)則的至少一個特征詞加入所述實體詞庫,具體包括:

使用所述實體詞庫中所包含的實體詞所對應(yīng)的特征詞語料作為訓(xùn)練語料,確定出條件隨機場模型;

通過所述條件隨機場模型確定出所述至少一個特征詞。

可選的,所述方法還包括:

逐個判斷所述確定出的實體詞是否滿足第四預(yù)設(shè)條件;

在對應(yīng)實體詞滿足所述第四預(yù)設(shè)條件時,為對應(yīng)實體詞設(shè)置標記信息。

可選的,所述逐個判斷所述確定出的實體詞是否滿足第四預(yù)設(shè)條件,具體為:

判斷每個實體詞是否為站點名稱;和/或

判斷每個實體詞是否為黑名單詞。

可選的,所述判斷每個實體詞是否為站點名稱,具體包括:

計算獲得對應(yīng)實體詞的value1=dDF/tDF,其中dDF表示正文語料中包含對應(yīng)實體詞的文檔數(shù),tDF表示標題語料中包含對應(yīng)實體詞的文檔數(shù);

通過對應(yīng)實體詞的value1和tDF判斷對應(yīng)實體詞是否為所述站點名稱。

可選的,所述判斷每個實體詞是否為黑名單詞,具體為:

計算獲得對應(yīng)實體詞的value2=dTF/tDF,其中dTF表示正文語料中對應(yīng)實體詞出現(xiàn)的總次數(shù),tDF表示標題語料中包含對應(yīng)實體詞的文檔數(shù);

通過對應(yīng)實體詞的value2和tDF判斷對應(yīng)實體詞是否為所述黑名單詞。

第三方面,本發(fā)明實施例提供一種信息推薦方法,包括:

確定用戶的用戶興趣模型;

通過本發(fā)明實施例第一方面中所介紹的實體詞挖掘方法所挖掘出的實體詞對信息進行組織;

確定所述信息中對應(yīng)所述用戶興趣模型的推薦信息,并將所述推薦信息提供給所述用戶。

可選的,所述確定用戶的用戶興趣模型,具體包括:

判斷建立所述用戶興趣模型的每個實體詞是否包含標記信息;

如果建立所述用戶興趣模型的實體詞包含所述標記信息,則在確定所述用戶興趣模型時,設(shè)置包含所述標記信息的實體詞的權(quán)重小于不包含所述標記信息的實體詞的權(quán)重。

第三方面,本發(fā)明實施例提供一種實體詞挖掘裝置,包括:

第一獲取模塊,用于從特征詞語料中獲取出M個特征詞,M為正整數(shù);

計算模塊,用于計算出所述M個特征詞中每個特征詞的稀缺度、每個特 征詞的各類間分布以及每個特征詞的類內(nèi)出現(xiàn)次數(shù);

第一確定模塊,用于基于所述稀缺度、所述各類間分布以及所述類內(nèi)出現(xiàn)次數(shù),將所述M個特征詞中的N1個特征詞確定為實體詞,N1為正整數(shù)。

可選的,所述第一確定模塊,具體包括:

第一判斷單元,用于基于所述稀缺度、所述各類間分布以及所述類內(nèi)出現(xiàn)次數(shù),判斷所述M個特征詞中的每個特征詞是否滿足第一預(yù)設(shè)規(guī)則;

第一確定單元,用于當對應(yīng)特征詞滿足第一預(yù)設(shè)規(guī)則時,將對應(yīng)特征詞確定為實體詞,其中,所述滿足第一預(yù)設(shè)規(guī)則具體為:對應(yīng)特征詞的所述稀缺度大于預(yù)設(shè)稀缺度值、所述各類間分布大于預(yù)設(shè)類間分布值以及所述類內(nèi)出現(xiàn)次數(shù)大于預(yù)設(shè)次數(shù)。

可選的,所述第一確定模塊,具體包括:

第二確定單元,用于基于所述類內(nèi)出現(xiàn)次數(shù)確定對應(yīng)特征詞的類內(nèi)戰(zhàn)勝比;

第二判斷單元,用于基于所述稀缺度、所述各類間分布以及所述類內(nèi)戰(zhàn)勝比,判斷所述M個特征詞中的每個特征詞是否滿足第二預(yù)設(shè)規(guī)則;

第三確定單元,用于當對應(yīng)特征詞滿足第二預(yù)設(shè)規(guī)則時,將對應(yīng)特征詞確定為實體詞,其中,所述滿足第二預(yù)設(shè)規(guī)則具體為:對應(yīng)特征詞的所述稀缺度大于預(yù)設(shè)稀缺度值、所述各類間分布大于預(yù)設(shè)類間分布值以及所述類內(nèi)戰(zhàn)勝比大于預(yù)設(shè)戰(zhàn)勝比。

可選的,所述裝置還包括:

加入模塊,用于在將所述M個特征詞中的N1個特征詞確定為實體詞之后,將所述實體詞加入實體詞庫;

第二確定模塊,用于確定出所述M個特征詞中沒有加入所述實體詞庫的N2個特征詞,N2為正整數(shù);

第二獲取模塊,用于從所述N2個特征詞中獲取出滿足第三預(yù)設(shè)規(guī)則的至少一個特征詞加入所述實體詞庫。

第四方面,本發(fā)明實施例提供一種信息推薦裝置,包括:

模型確定模塊,用于確定用戶的用戶興趣模型;

組織模塊,用于通過本發(fā)明實施例第一方面中所介紹的實體詞挖掘方法所挖掘出的實體詞對信息進行組織;

推薦模塊,用于確定所述信息中對應(yīng)所述用戶興趣模型的推薦信息,并將所述推薦信息提供給所述用戶。

本發(fā)明有益效果如下:

由于在本發(fā)明實施例中,首先從特征詞語料中獲取出M個特征詞,M為正整數(shù);然后計算出M個特征詞中每個特征詞的稀缺度、每個特征詞的各類間分布以及每個特征詞的類內(nèi)出現(xiàn)次數(shù);最后,基于稀缺度、各類間分布以及類內(nèi)出現(xiàn)次數(shù),將M個特征詞中的N1個特征詞確定為實體詞,N1為正整數(shù)。也就是該方案結(jié)合特征詞自身稀缺度、特征詞在大數(shù)據(jù)上的類間分布特性和特征詞的類內(nèi)出現(xiàn)次數(shù)等眾多屬性實現(xiàn)了實體詞自動挖掘的機制,進而可以獲得分布單一,稀缺度較高的特征詞作為實體詞,而基于實體詞可以反映出用戶的興趣特征,也就是不需要通過人工打標方式就可以確定用戶的興趣特征,從而達到了降低人力資源的浪費的技術(shù)效果;

并且,該方案采用每個特征詞的稀缺度、特征詞各類間分布以及特征詞的類內(nèi)出現(xiàn)次數(shù)來確定對應(yīng)的特征詞是否為實體詞,也就是確定實體詞的方式不依賴人員的素質(zhì),因此所確定的實體詞能夠更加準確的反應(yīng)用戶的興趣特征;

并且,該方案不需要人工編輯,故而更符合互聯(lián)網(wǎng)的發(fā)展方向,并且不需要長時間的積累,進而降低了獲取用戶的興趣模型的時間。

附圖說明

圖1為現(xiàn)有技術(shù)中設(shè)置標簽庫的流程圖;

圖2為本發(fā)明實施例第一方面的實體詞挖掘方法的流程圖;

圖3為本發(fā)明實施例第一方面的實體詞挖掘方法中基于稀缺度、各類間分布以及類內(nèi)戰(zhàn)勝比,將M個特征詞中的N1個特征詞加入實體詞庫的流程圖;

圖4為本發(fā)明實施例第一方面的實體詞挖掘方法中將低頻特征詞加入實體詞庫的流程圖;

圖5為本發(fā)明實施例第一方面的實體詞挖掘方法中為對應(yīng)實體詞設(shè)置標記信息的流程圖;

圖6為本發(fā)明實施例第二方面的信息推薦方法的邏輯框圖;

圖7為本發(fā)明實施例第三方面的實體詞挖掘裝置的結(jié)構(gòu)圖;

圖8為本發(fā)明實施例第四方面的信息推薦裝置的結(jié)構(gòu)圖。

具體實施方式

本發(fā)明提供一種實體詞挖掘方法、信息推薦方法及裝置,以解決現(xiàn)有技術(shù)中只能通過人工打標方式獲得用戶興趣特征的技術(shù)問題。

本申請實施例中的技術(shù)方案為解決上述的技術(shù)問題,總體思路如下:

首先從特征詞語料中獲取出M個特征詞,M為正整數(shù);然后計算出M個特征詞中每個特征詞的稀缺度、每個特征詞的各類間分布以及每個特征詞的類內(nèi)出現(xiàn)次數(shù);最后,基于稀缺度、各類間分布以及類內(nèi)出現(xiàn)次數(shù),將M個特征詞中的N1個特征詞確定為實體詞,N1為正整數(shù)。也就是該方案結(jié)合特征詞自身稀缺度、特征詞在大數(shù)據(jù)上的類間分布特性和特征詞的類內(nèi)出現(xiàn)次數(shù)等眾多屬性實現(xiàn)了實體詞自動挖掘的機制,進而可以獲得分布單一,稀缺度較高的特征詞作為實體詞,而基于實體詞可以反映出用戶的興趣特征,也就是不需要通過人工打標方式就可以確定用戶的興趣特征,從而達到了降低人力資源的浪費的技術(shù)效果;

并且,該方案采用每個特征詞的稀缺度、特征詞各類間分布以及特征詞的類內(nèi)出現(xiàn)次數(shù)來確定對應(yīng)的特征詞是否為實體詞,也就是確定實體詞的方式不依賴人員的素質(zhì),因此所確定的實體詞能夠更加準確的反應(yīng)用戶的興趣特征;

并且,該方案不需要人工編輯,故而更符合互聯(lián)網(wǎng)的發(fā)展方向,并且不需要長時間的積累,進而降低了獲取用戶的興趣模型的時間。

為了更好的理解上述技術(shù)方案,下面通過附圖以及具體實施例對本發(fā)明技術(shù)方案做詳細的說明,應(yīng)當理解本發(fā)明實施例以及實施例中的具體特征是對本發(fā)明技術(shù)方案的詳細的說明,而不是對本發(fā)明技術(shù)方案的限定,在不沖突的情況下,本發(fā)明實施例以及實施例中的技術(shù)特征可以相互組合。

第一方面,本發(fā)明實施例提供一種實體詞挖掘方法,請參考圖2,該方法包括:

步驟S201:從特征詞語料中獲取出M個特征詞,M為正整數(shù);

步驟S202:計算出M個特征詞中每個特征詞的稀缺度、每個特征詞的各類間分布以及每個特征詞的類內(nèi)出現(xiàn)次數(shù);

步驟S203:基于稀缺度、各類間分布以及類內(nèi)出現(xiàn)次數(shù),將M個特征詞中的N1個特征詞確定為實體詞,N1為正整數(shù)。

舉例來說,該方法可以應(yīng)用于手機、平板電腦、個人電腦等等。

步驟S201中,可以首先獲取特征詞語料,特征詞語料例如為:新聞?wù)Z料、文檔語料、書籍語料等等,可以基于不同的應(yīng)用場景采用不同的特征詞語料,例如:如果該實體詞庫在后期用于文檔推薦,則特征詞語料至少包括文檔語料;如果該實體詞庫在后續(xù)用于新聞推薦,則特征詞語料至少包括新聞?wù)Z料;如果該實體詞庫在后期用于書籍推薦,則特征詞語料至少包括書籍語料等等,其中特征詞語料包含標題語料和正文語料中的至少一種語料。

以特征詞語料是新聞?wù)Z料為例,則可以首先建立新聞類別體系,然后生成對應(yīng)類別體系的分類器,例如:可以將新聞分為體育、娛樂、財經(jīng)、汽車等總共46(當然也可以為其他值,例如:20、40等等)個大類,而針對這46個類別構(gòu)建基于url(Uniform Resource Locator:統(tǒng)一資源定位符)的分類器;

然后收集獲得大量的新聞作為新聞?wù)Z料,在獲得新聞?wù)Z料之后,可以對新聞?wù)Z料進行分詞及詞性標注等等,其中例如可以通過開源分詞工具包IKAnalyzer實現(xiàn)分詞及詞性標注,當然也可以采用其他工具,對此本發(fā)明實施例不作限制。在對特征詞語料進行分詞和詞性標注之后,就可以從特征詞語料 中提取出名詞以及沒有標注詞性的詞語作為M個特征詞,另外,可以針對特征詞設(shè)置多個不同的類別,并針對每個類別分別獲得特征詞,然后基于每個類別對應(yīng)的特征詞分別獲取對應(yīng)類別下的實體詞。

另外,在對特征詞語料進行分詞和詞性標注之前,可以對新聞?wù)Z料進行一些預(yù)處理,例如:對標題語料、正文語料的去重、標題語料中無用信息的去除等等。

步驟S202中,可以使用TFIDF值作為特征詞的稀缺度,公式如下:

<mrow> <msub> <mi>tfidf</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> </msub> <mo>=</mo> <msub> <mi>tf</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> </msub> <mo>*</mo> <msub> <mi>idf</mi> <mi>i</mi> </msub> <mo>=</mo> <mfrac> <msub> <mi>n</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> </msub> <mrow> <msub> <mi>&Sigma;</mi> <mrow> <mi>knkj</mi> <mo>*</mo> </mrow> </msub> <mi>log</mi> <mrow> <mo>(</mo> <mfrac> <mrow> <mo>|</mo> <mi>D</mi> <mo>|</mo> </mrow> <mrow> <mo>|</mo> <mo>{</mo> <mi>j</mi> <mo>:</mo> <msub> <mi>t</mi> <mi>i</mi> </msub> <mo>&Element;</mo> <msub> <mi>d</mi> <mi>j</mi> </msub> <mo>}</mo> <mo>|</mo> <mo>+</mo> <mn>1</mn> </mrow> </mfrac> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>.</mo> <mo>.</mo> <mo>.</mo> <mo>[</mo> <mn>1</mn> <mo>]</mo> </mrow>

<mrow> <msub> <mi>tfidf</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> </msub> <mo>=</mo> <msub> <mi>tf</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> </msub> <mo>*</mo> <mi>id</mi> <msub> <mi>f</mi> <mi>i</mi> </msub> <mo>=</mo> <mfrac> <msub> <mi>n</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> </msub> <mrow> <msub> <mi>&Sigma;</mi> <mi>k</mi> </msub> <msub> <mi>n</mi> <mrow> <mi>k</mi> <mo>,</mo> <mi>j</mi> </mrow> </msub> </mrow> </mfrac> <mo>*</mo> <mi>log</mi> <mrow> <mo>(</mo> <mfrac> <mrow> <mo>|</mo> <mi>D</mi> <mo>|</mo> </mrow> <mrow> <mo>|</mo> <mo>{</mo> <mi>j</mi> <mo>:</mo> <msub> <mi>t</mi> <mi>i</mi> </msub> <mo>&Element;</mo> <msub> <mi>d</mi> <mi>j</mi> </msub> <mo>}</mo> <mo>|</mo> <mo>+</mo> <mn>1</mn> </mrow> </mfrac> <mo>)</mo> </mrow> </mrow>

其中,TFIDF(Term Frequency Inverse Document Frequency)主要由TF(Term Frequency:文檔頻率)和IDF(Inverse Document Frequency:逆向文檔頻率)兩部分組成;

在上述公式[1]中,ni,j為該特征詞在文檔dj中出現(xiàn)次數(shù),而∑knk,j則是文檔dj中所有特征詞的出現(xiàn)次數(shù)之和,|D|表示語料庫中文件總數(shù),|{j:ti∈dj}|為包含特征詞ti的文檔數(shù)目。

步驟S202中,可以通過以下公式獲得特征詞各類間分布Distributeij

<mrow> <msub> <mi>Distribute</mi> <mi>ij</mi> </msub> <mo>=</mo> <mfrac> <msub> <mi>W</mi> <mi>ij</mi> </msub> <mrow> <msub> <mi>&Sigma;</mi> <mi>j</mi> </msub> <msub> <mi>W</mi> <mi>ij</mi> </msub> </mrow> </mfrac> <mo>.</mo> <mo>.</mo> <mo>.</mo> <mo>[</mo> <mn>2</mn> <mo>]</mo> </mrow>

其中,Distributeij表示特征詞i分布在類別j下的百分比;

Wij表示特征詞i在類別j下的出現(xiàn)次數(shù);

ΣjWij表示特征詞i在所有類別下出現(xiàn)的總次數(shù)。

步驟S202中,可以統(tǒng)計特征詞語料中每個特征詞的出現(xiàn)次數(shù),進而可以確定出特征詞i在類別j下的出現(xiàn)次數(shù)以及特征詞i在所有類別下出現(xiàn)的總次數(shù),其 中出現(xiàn)次數(shù)可以為一個特定的數(shù)量,也可以為一個比例(例如:某個特征詞的數(shù)量除以特征詞總數(shù)),對此本發(fā)明實施例不作限制。

步驟S203中,實體詞指的是能夠明確的描述用戶興趣的特征詞。其中,實體詞通常具備以下條件:①名詞;②指代明確;③非大眾;④非小眾,下面將對上述四種條件分別進行介紹。

①名詞:通常情況下,用戶興趣特征中的關(guān)鍵詞基本上都是名詞,如:汽車、電影、體育,但并非所有名詞均適合用作描述用戶興趣,如:人們、集團、友情。通常情況下,實體詞主要包括專有名詞、個體名詞和物質(zhì)名詞,而集體名詞、抽象名詞基本不是實體詞;

②指代明確:漢語是一個靈活百變的語言,往往一個詞包含有多個含義,如蘋果(食物/數(shù)碼產(chǎn)品)、火箭(航天器/nba球隊),用作用戶興趣必須要指代明確,所以在本發(fā)明實施例中將所有特征詞分成若干類別,單獨為每個類別抽取實體詞。結(jié)合類別實體詞指代便明確了,如:美食.蘋果和數(shù)碼.蘋果、軍事.火箭和nba.火箭;

③非大眾:抽象名詞、集體名詞是人們對于名詞基于已有知識的劃分,但對于計算機卻無法識別,也無法反應(yīng)用戶的興趣特征,而從大量新聞?wù)Z料中發(fā)現(xiàn)這類詞分布廣出現(xiàn)頻率高,故而可以通過這種分布特征去除;

④非小眾:此處的小眾指的是滿足上述條件后各垂直類別內(nèi)部出現(xiàn)頻率很低的特征詞。去除此部分詞的原因不是因為小眾詞一定不是實體詞,而是因為該類詞數(shù)據(jù)采樣不足,引入該類詞同時會引入更多的噪音。

步驟S203中,可以通過多種方式將N1個特征詞確定為實體詞,下面列舉其中的兩種方式進行介紹,當然,在具體實施過程中,不限于以下兩種方式。

第一種,基于稀缺度、各類間分布以及類內(nèi)出現(xiàn)次數(shù),將M個特征詞中的N1個特征詞確定為實體詞,具體包括:

基于稀缺度、各類間分布以及類內(nèi)出現(xiàn)次數(shù),判斷M個特征詞中的每個 特征詞是否滿足第一預(yù)設(shè)規(guī)則;

當對應(yīng)特征詞滿足第一預(yù)設(shè)規(guī)則時,將對應(yīng)特征詞確定為實體詞,其中,滿足第一預(yù)設(shè)規(guī)則具體為:對應(yīng)特征詞的稀缺度大于預(yù)設(shè)稀缺度值、各類間分布大于預(yù)設(shè)類間分布值以及類內(nèi)出現(xiàn)次數(shù)大于預(yù)設(shè)次數(shù)。

舉例來說,可以預(yù)先針對每個類別下的實體詞分別設(shè)置對應(yīng)的預(yù)設(shè)稀缺度閾值、預(yù)設(shè)類間分布值以及預(yù)設(shè)出現(xiàn)次數(shù),進而可以針對M個特征詞中的每個特征詞分別進行以下判斷:

判斷對應(yīng)特征詞的稀缺度是否大于預(yù)設(shè)稀缺度閾值;

判斷對應(yīng)特征詞的特征詞各類間分布是否大于預(yù)設(shè)類間分布值;

判斷對應(yīng)特征詞的特征詞類出現(xiàn)次數(shù)是否大于預(yù)設(shè)出現(xiàn)次數(shù)。

如果上述三個判斷過程的判斷結(jié)果都為是的話,則說明對應(yīng)的特征詞為實體詞。

第二種,基于稀缺度、特征詞各類間分布以及特征詞類內(nèi)出現(xiàn)次數(shù),將M個特征詞中的N1個特征詞加入實體詞庫,請參考圖3,具體包括:

步驟S301:基于類內(nèi)出現(xiàn)次數(shù)確定對應(yīng)特征詞的類內(nèi)戰(zhàn)勝比;

步驟S302:基于稀缺度、特征詞各類間分布以及特征詞類內(nèi)戰(zhàn)勝比,判斷M個特征詞中的每個特征詞是否滿足第二預(yù)設(shè)規(guī)則;

步驟S303:當對應(yīng)特征詞滿足第二預(yù)設(shè)規(guī)則時,將對應(yīng)特征詞確定為實體詞,其中,滿足第二預(yù)設(shè)規(guī)則具體為:對應(yīng)特征詞的稀缺度大于預(yù)設(shè)稀缺度值、各類間分布大于預(yù)設(shè)類間分布值以及類內(nèi)戰(zhàn)勝比大于預(yù)設(shè)戰(zhàn)勝比。

步驟S301中可以通過以下公式獲得特征詞類內(nèi)戰(zhàn)勝比:

<mrow> <msub> <mi>Defeat</mi> <mi>ij</mi> </msub> <mo>=</mo> <mfrac> <mrow> <msub> <mi>WordCount</mi> <mi>j</mi> </msub> <mo>-</mo> <msub> <mi>Order</mi> <mi>i</mi> </msub> </mrow> <msub> <mi>WordCount</mi> <mi>j</mi> </msub> </mfrac> <mo>.</mo> <mo>.</mo> <mo>.</mo> <mo>[</mo> <mn>3</mn> <mo>]</mo> </mrow>

其中Defeatij表示特征詞i在類別j內(nèi)的戰(zhàn)勝比;

WordCountj表示類別j下的特征詞總數(shù);

Orderi表示特征詞i在類別j內(nèi)出現(xiàn)次數(shù)由高到低降序排列的序號。

步驟S302中,可以預(yù)先針對每個類別下的實體詞分別設(shè)置對應(yīng)的預(yù)設(shè)稀缺度閾值、預(yù)設(shè)類間分布值以及預(yù)設(shè)戰(zhàn)勝比值,進而在步驟S302中,針對每個特征詞,可以分別進行以下判斷:

判斷對應(yīng)特征詞的稀缺度是否大于預(yù)設(shè)稀缺度閾值;

判斷對應(yīng)特征詞的特征詞各類間分布是否大于預(yù)設(shè)類間分布值;

判斷對應(yīng)特征詞的特征詞類內(nèi)戰(zhàn)勝比是否大于預(yù)設(shè)戰(zhàn)勝比值。

如果上述三個判斷過程的判斷結(jié)果都為是的話,則說明對應(yīng)的特征詞為實體詞,

舉例來說,假設(shè)預(yù)設(shè)稀缺度值、預(yù)設(shè)類間分布值、預(yù)設(shè)戰(zhàn)勝比值分別為:0.5、0.7、0.6,以“林書豪nba 0.68270.8925 0.9948”為例,則說明特征詞“林書豪”自身的稀缺度是0.6827;特征詞“林書豪”有89.25%概率分布在nba類別;在nba類內(nèi)戰(zhàn)勝了該類別下的99.48%的特征詞,故而特征詞“林書豪“的稀缺度大于0.5,特征詞各類間分布大于0.7,特征詞類內(nèi)戰(zhàn)勝比大于0.6,從而可以確定出“林書豪”為nba類別下的實體詞。

其中,如果對應(yīng)特征詞的稀缺度大于預(yù)設(shè)稀缺度閾值,并且特征詞各類間分布大于預(yù)設(shè)類間分布值,則說明對應(yīng)的特征詞大部分符合上述實體詞的條件③,也即:非大眾;如果對應(yīng)特征詞的特征詞類內(nèi)戰(zhàn)勝比大于預(yù)設(shè)戰(zhàn)勝比值,則說明對應(yīng)的特征詞符合上述實體詞的條件④,也即:非小眾;而在選取特征詞時,選取的是名詞以及詞性不明的詞,故而符合上述實體詞的條件①;另外,由于針對每個類別分別獲得對應(yīng)的特征詞,故而不會存在一個特征詞包含多個含義的情況,也就是符合上述實體詞的條件②,由此可見,基于上述方案所獲取的實體詞,能夠滿足實體詞的以上四種條件,故而能夠較好的反應(yīng)用戶的興趣特征。

作為進一步的優(yōu)選實施例,在基于步驟S203將M個特征詞中的N1個特征詞確定為實體詞之后,請參考圖4,方法還包括:

步驟S401:將實體詞加入實體詞庫;

步驟S402:確定出M個特征詞中沒有加入實體詞庫的N2個特征詞,N2為正整數(shù);

步驟S403:從N2個特征詞中獲取出滿足第三預(yù)設(shè)規(guī)則的至少一個特征詞加入實體詞庫。

通常情況下,基于步驟S201至步驟S203所獲得的實體詞為數(shù)量較少的高頻詞(也就是出現(xiàn)頻率高于預(yù)設(shè)頻率的詞),而剩下的低頻詞(也即出現(xiàn)頻率低于預(yù)設(shè)頻率的詞)通常會包含有用的名詞(專有名詞、物質(zhì)名詞等)與無用的名詞(抽象名詞、集體名詞等),而有用的名詞則為實體詞。故而可以基于以上步驟S402至步驟S403獲取剩下的N2個特征詞中的實體詞,并將其加入實體詞庫。

步驟S402中,直接從M個特征詞中去除被加入實體詞庫的實體詞,就可以獲得剩下的N2個特征詞。

步驟S403中,可以通過多種方式獲得滿足第三預(yù)設(shè)規(guī)則的至少一個特征詞,下面列舉其中的兩種獲得方式進行介紹,當然,在具體實施過程中,不限于以下兩種情況。

第一種,從N2個特征詞中獲取出滿足第三預(yù)設(shè)規(guī)則的至少一個特征詞加入實體詞庫,具體包括:

判斷現(xiàn)存的第一數(shù)據(jù)庫中每個類別與實體詞庫中任一類別的相似度值是否大于預(yù)設(shè)閾值;

獲取所述相似度大于預(yù)設(shè)閾值的第一數(shù)據(jù)庫中的類別作為參考類別;

從所述N2個特征詞中獲取位于所述參考類別的特征詞加入所述實體詞庫。舉例來說,現(xiàn)存的第一數(shù)據(jù)庫例如為:知立方數(shù)據(jù)庫、百科數(shù)據(jù)庫等等。

其中,可以通過以下公式計算兩個類別的相似度值:

<mrow> <mi>similarity</mi> <mo>=</mo> <mi>cos</mi> <mrow> <mo>(</mo> <mi>&theta;</mi> <mo>)</mo> </mrow> <mfrac> <mrow> <mi>A</mi> <mo>&CenterDot;</mo> <mi>B</mi> </mrow> <mrow> <mo>|</mo> <mo>|</mo> <mi>A</mi> <mo>|</mo> <mo>|</mo> <mo>|</mo> <mo>|</mo> <mi>B</mi> <mo>|</mo> <mo>|</mo> </mrow> </mfrac> <mo>=</mo> <mfrac> <mrow> <munderover> <mi>&Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <msub> <mi>A</mi> <mi>i</mi> </msub> <mo>&times;</mo> <msub> <mi>B</mi> <mi>i</mi> </msub> </mrow> <mrow> <msqrt> <munderover> <mi>&Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <msup> <mrow> <mo>(</mo> <msub> <mi>A</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mn>2</mn> </msup> </msqrt> <mo>&times;</mo> <msqrt> <munderover> <mi>&Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <msup> <mrow> <mo>(</mo> <msub> <mi>B</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mn>2</mn> </msup> </msqrt> </mrow> </mfrac> <mo>.</mo> <mo>.</mo> <mo>.</mo> <mo>[</mo> <mn>4</mn> <mo>]</mo> </mrow>

其中,A表示第一類別的特征向量,B表示第二類別的特征向量。

舉例來說,假設(shè)共有以下5個特征詞:

0 科比

1 韋德

2 湖人

3 北京隊

4 朱芳雨

其中,現(xiàn)存的第一數(shù)據(jù)庫(例如:數(shù)據(jù)庫A)的類別nba下包含以下特征詞:科比、韋德、湖人,則其對應(yīng)的特征向量A=(1,1,1,0,0);

實體詞庫(例如:數(shù)據(jù)庫B)的類別籃球運動員下包含以下特征詞:科比、韋德、朱芳雨,則其對應(yīng)的特征向量B=(1,1,0,0,1);

從而,

假設(shè)從第一數(shù)據(jù)庫中確定出以下的參考類別:“人物”、“籃球運動員”、“運動員”,則首先確定出第一數(shù)據(jù)庫中這三個參考類別下所包含的特征詞,然后逐一判斷N2個特征詞中是否存在與這三個參考類別下的特征詞相同的特征詞,如果存在的話,則將對應(yīng)的特征詞加入實體詞庫。

第二種,從N2個特征詞中獲取出滿足第三預(yù)設(shè)規(guī)則的至少一個特征詞加入實體詞庫,具體包括:使用實體詞庫中所包含的實體詞所對應(yīng)的特征詞語料作為訓(xùn)練語料,確定出條件隨機場模型;通過條件隨機場模型確定出至少一個特征詞。

舉例來說,可以利用高頻實體詞作為訓(xùn)練語料,利用互信息抽取實體詞在句子中的前后信息特征,并利用詞性、國內(nèi)外姓氏、常用人名、常用地名、常用機構(gòu)名和實體詞的前后信息特征等特征訓(xùn)練條件隨機場模型。

其中,在訓(xùn)練條件隨機場模型時可以以國內(nèi)外姓氏、常用人名、常用地名、常用機構(gòu)名作為實體詞內(nèi)部特征;實體詞前后信息(也即:國內(nèi)外姓氏、常用人名、常用地名、常用機構(gòu)名的前后綴)作為外部特征;特征 詞出現(xiàn)在標題中的位置;特征詞的詞性等作為條件隨機場訓(xùn)練特征,訓(xùn)練出人名地名機構(gòu)名識別模型,該人名地名機構(gòu)名識別模型即為條件隨機場模型,進而基于該條件隨機場模型可以識別出人名、地名、機構(gòu)名等等。

通過上述方案能夠識別出隸屬多個類別比較熱門的實體詞,從而達到了所獲取的實體詞更加全面的技術(shù)效果。

作為進一步的優(yōu)選實施例,請參考圖5,方法還包括:

步驟S501:逐個判斷確定出的實體詞是否滿足第四預(yù)設(shè)條件;

步驟S502:在對應(yīng)實體詞滿足第四預(yù)設(shè)條件時,為對應(yīng)實體詞設(shè)置標記信息。

步驟S501中,第四預(yù)設(shè)條件可以為預(yù)設(shè)的多種條件,下面列舉其中的兩種進行介紹,當然,在具體實施過程中,不限于以下兩種條件,另外,在不沖突的情況下,以下兩種條件可以組合使用。

第一種,判斷實體詞庫中的每個實體詞是否滿足第四預(yù)設(shè)條件,具體為:判斷每個實體詞是否為站點名稱。通常情況下,在實體詞為站點名稱時,其往往只能反映用戶瀏覽網(wǎng)頁的情況下,而并不一定能反映用戶的興趣特征,故而需要給對應(yīng)實體詞設(shè)置標記信息,以在后續(xù)使用實體詞庫時能夠?qū)ζ溥M行特殊處理。

作為進一步的優(yōu)選實施例,判斷每個實體詞是否為站點名稱,具體包括:計算獲得對應(yīng)實體詞的value1=dDF/tDF,其中dDF表示正文語料中包含對應(yīng)實體詞的文檔數(shù),tDF表示標題語料中包含對應(yīng)實體詞的文檔數(shù);通過對應(yīng)實體詞的value1和tDF判斷對應(yīng)實體詞是否為站點名稱。

舉例來說,可以針對所有的正文語料進行搜索,進而確定出正文語料中包含對應(yīng)實體詞的文檔數(shù)dDF;然后針對所有的標題語料進行搜索,進而確定出標題語料中包含對應(yīng)實體詞的文檔數(shù)tDF,然后通過dDF/tDF就可以獲得value1。

通常情況下,tDF和value1滿足以下任一條件時,則說明對應(yīng)實體詞為站 點名稱:

①當tDF大于等于2000且value1小于0.06

②當tDF大于1500小于2000時且value1小于0.04

③當tDF大于1000小于1500時且value1小于0.002

④當value1小于0.001

第二種,判斷實體詞庫中的每個實體詞是否滿足第四預(yù)設(shè)條件,具體為:判斷每個實體詞是否為黑名單詞。

作為進一步的優(yōu)選實施例,判斷每個實體詞是否為黑名單詞,具體包括:計算獲得對應(yīng)實體詞的value2=dTF/tDF,其中dTF表示正文語料中對應(yīng)實體詞出現(xiàn)的總次數(shù),tDF表示標題語料中包含對應(yīng)實體詞的文檔數(shù);通過對應(yīng)實體詞的value2和tDF判斷對應(yīng)實體詞是否為黑名單詞。

通常情況下,tDF和value2滿足以下任一條件時,則說明對應(yīng)實體詞為黑名單詞:

①tDF大于等于4000且value2大于4;

②tDF大于等于2000且value2大于5;

③tDF大于等于100且value2大于10;

④tDF大于等于5且value2大于20。

步驟S502中,針對不同的實體詞可以設(shè)置不同的標記信息,例如:針對站點名稱,其標記為“站點名稱”,針對黑名單詞,其標記為“黑名單”,其中在后續(xù)使用時,基于不同的標記信息對對實體詞的使用方式也不同。

另外,在確定對應(yīng)的實體詞為黑名單詞之后,還可以將其從實體詞庫中去除。

而在獲得包含很多實體詞的實體詞庫之后,就可以將實體詞庫中的實體詞寫入線上的數(shù)據(jù)庫,例如:KV庫(使用鍵值Key-Value存儲的數(shù)據(jù)庫),進而投入使用。

第二方面,基于同一發(fā)明構(gòu)思,本發(fā)明實施例提供一種信息推薦方法,請 參考圖6,包括:

步驟S601:確定用戶的用戶興趣模型;

步驟S602:通過本發(fā)明實施例第一方面中所介紹的實體詞挖掘方法所挖掘出的實體詞對信息進行組織;

步驟S603:確定信息中對應(yīng)用戶興趣模型的推薦信息,并將推薦信息提供給用戶。

步驟S601中,可以通過多種數(shù)據(jù)確定用戶興趣模型,下面列舉其中的三種進行介紹,當然,在具體實施過程中,不限于以下三種情況,另外,在不沖突的情況下,以下三種情況可以組合使用。

第一種,請繼續(xù)參考圖6,確定用戶的用戶興趣模型具體包括:

步驟S601a:基于用戶的用戶瀏覽行為數(shù)據(jù)確定第一類實體詞,將第一類實體詞加入用戶興趣模型。

舉例來說,可以先獲取用戶的瀏覽行為數(shù)據(jù),然后從用戶瀏覽行為數(shù)據(jù)中提取出多個實體詞,并將這多個實體詞加入用戶興趣模型。

第二種,請繼續(xù)參考圖6,確定用戶的用戶興趣模型具體包括:

步驟S601b:基于用戶的用戶輸入所產(chǎn)生數(shù)據(jù)確定第二類實體詞,將第二類實體詞加入用戶興趣模型。

舉例來說,可以先獲取用戶的輸入行為數(shù)據(jù),然后從用戶輸入行為數(shù)據(jù)中提取出多個實體詞,并將這多個實體詞加入用戶興趣模型。

第三種,請繼續(xù)參考圖6,確定用戶的用戶興趣模型具體包括:

步驟S601c:基于用戶的標簽信息確定第三類關(guān)鍵詞,將第三類關(guān)鍵詞加入用戶興趣模型。

舉例來說,可以獲得用戶的標簽信息,例如:微博標簽、微信標簽等等,其中該標簽信息即可以為用戶自己設(shè)置的標簽信息,又可以為其他用戶設(shè)置的標簽信息,然后從標簽信息中提取出多個實體詞,并將這多個實體詞加入用戶興趣模型。

步驟S602中,可以以實體詞作為新聞組織方式,將新聞源組織成若干興趣新聞桶,例如:每一個實體詞建立一個桶,用戶存儲與該興趣相關(guān)的新聞。

步驟S603中,可以獲取用戶興趣模型中所包含的實體詞,然后通過用戶興趣模型所包含的實體詞在新聞桶內(nèi)查找實體詞相同的信息作為推薦信息,并提供給用戶。

以信息為新聞為例,則可以將用戶興趣模型以及新聞索引輸入推薦系統(tǒng),推薦系統(tǒng)則可以從新聞索引中獲得用戶興趣模型中的實體詞所對應(yīng)的新聞索引,然后將這些新聞索引所對應(yīng)的新聞推薦給用戶。

作為進一步的優(yōu)選實施例,還是以信息為新聞為例,則通過上述步驟S601-S603獲得的推薦新聞(也即:推薦信息)可以為非熱點新聞,而該方案還可以進一步的包括以下步驟:

步驟S604:根據(jù)全部用戶瀏覽包含實體詞的標題的條數(shù)作為實體詞pv,統(tǒng)計分析每日實體詞pv變化情況抽取每日熱詞,進而獲得每日熱點新聞,然后將每日熱點新聞提供給所有用戶。

作為進一步的優(yōu)選實施例,步驟S601中確定用戶的用戶興趣模型,具體包括:

判斷建立用戶興趣模型的每個實體詞是否包含標記信息;

在建立興趣模型中的實體詞包含標記信息時,在確定用戶興趣模型時,設(shè)置包含標記信息的實體詞的權(quán)重小于不包含標記信息的實體詞的權(quán)重。

具體來講,也就是在建立用戶興趣模型時,包含標記信息的實體詞的權(quán)重和不包含標記信息的實體詞的權(quán)重并不相同,例如:包含標記信息的實體詞的權(quán)重為0.5、0.6等等,而不包含標記信息的實體詞的權(quán)重則為0.8、0.9等等。另外,針對實體詞的不同標記信息其權(quán)重也不同,例如:如果標記信息為站點名稱,則其權(quán)重可能高于標記信息為黑名單的實體詞,對于標記信息為黑名單詞的實體詞,其在計算用戶興趣模型時,可能權(quán)重很低(例如:0.1、0.2),甚至直接不予采用(也即權(quán)重為0)。

另外,在本發(fā)明實施例第一方面挖掘?qū)嶓w詞時,也可以將黑名單詞從實體詞庫中去除,從而在確定用戶興趣模型時對于黑名單詞不予考慮。

第三方面,基于同一發(fā)明構(gòu)思,本發(fā)明實施例提供一種實體詞挖掘裝置,請參考圖7,包括:

第一獲取模塊70,用于從特征詞語料中獲取出M個特征詞,M為正整數(shù);

計算模塊71,用于計算出M個特征詞中每個特征詞的稀缺度、每個特征詞的各類間分布以及每個特征詞的類內(nèi)出現(xiàn)次數(shù);

第一確定模塊72,用于基于稀缺度、各類間分布以及類內(nèi)出現(xiàn)次數(shù),將M個特征詞中的N1個特征詞確定為實體詞,N1為正整數(shù)。

可選的,第一確定模塊72,具體包括:

第一判斷單元,用于基于稀缺度、各類間分布以及類內(nèi)出現(xiàn)次數(shù),判斷M個特征詞中的每個特征詞是否滿足第一預(yù)設(shè)規(guī)則;

第一確定單元,用于當對應(yīng)特征詞滿足第一預(yù)設(shè)規(guī)則時,將對應(yīng)特征詞確定為實體詞,其中,滿足第一預(yù)設(shè)規(guī)則具體為:對應(yīng)特征詞的稀缺度大于預(yù)設(shè)稀缺度值、各類間分布大于預(yù)設(shè)類間分布值以及類內(nèi)出現(xiàn)次數(shù)大于預(yù)設(shè)次數(shù)。

可選的,第一確定模塊72,具體包括:

第二確定單元,用于基于類內(nèi)出現(xiàn)次數(shù)確定對應(yīng)特征詞的類內(nèi)戰(zhàn)勝比;

第二判斷單元,用于基于稀缺度、各類間分布以及類內(nèi)戰(zhàn)勝比,判斷M個特征詞中的每個特征詞是否滿足第二預(yù)設(shè)規(guī)則;

第三確定單元,用于當對應(yīng)特征詞滿足第二預(yù)設(shè)規(guī)則時,將對應(yīng)特征詞確定為實體詞,其中,滿足第二預(yù)設(shè)規(guī)則具體為:對應(yīng)特征詞的稀缺度大于預(yù)設(shè)稀缺度值、各類間分布大于預(yù)設(shè)類間分布值以及類內(nèi)戰(zhàn)勝比大于預(yù)設(shè)戰(zhàn)勝比。

可選的,第二確定單元,具體用于通過以下公式計算獲得類內(nèi)戰(zhàn)勝比:

<mrow> <msub> <mi>Defeat</mi> <mi>ij</mi> </msub> <mo>=</mo> <mfrac> <mrow> <msub> <mi>WordCount</mi> <mi>j</mi> </msub> <mo>-</mo> <msub> <mi>Order</mi> <mi>i</mi> </msub> </mrow> <msub> <mi>WordCount</mi> <mi>j</mi> </msub> </mfrac> </mrow>

其中Defeatij表示特征詞i在類別j內(nèi)的戰(zhàn)勝比;

WordCountj表示類別j下的特征詞總數(shù);

Orderi表示特征詞i在類別j內(nèi)按照出現(xiàn)次數(shù)由高到低降序排列的序號。

可選的,裝置還包括:

加入模塊,用于在將M個特征詞中的N1個特征詞確定為實體詞之后,將實體詞加入實體詞庫;

第二確定模塊,用于確定出M個特征詞中沒有加入實體詞庫的N2個特征詞,N2為正整數(shù);

第二獲取模塊,用于從N2個特征詞中獲取出滿足第三預(yù)設(shè)規(guī)則的至少一個特征詞加入實體詞庫。

可選的,第二獲取模塊,具體包括:

第一計算單元,用于計算現(xiàn)存的第一數(shù)據(jù)庫中每個類別與實體詞庫中任一類別的相似度;

第一獲取單元,用于獲取相似度大于預(yù)設(shè)閾值的第一數(shù)據(jù)庫中的類別作為參考類別;

第二獲取單元,用于從N2個特征詞中獲取位于參考類別的特征詞加入實體詞庫。

可選的,第二獲取模塊,具體包括:

第四確定單元,用于使用實體詞庫中所包含的實體詞所對應(yīng)的特征詞語料作為訓(xùn)練語料,確定出條件隨機場模型;

第五確定單元,用于通過條件隨機場模型確定出至少一個特征詞。

可選的,裝置還包括:

判斷模塊,用于逐個判斷確定出的實體詞是否滿足第四預(yù)設(shè)條件;

標記模塊,用于在對應(yīng)實體詞滿足第四預(yù)設(shè)條件時,為對應(yīng)實體詞設(shè)置標記信息。

可選的,判斷模塊,具體用于:

判斷每個實體詞是否為站點名稱;和/或

判斷每個實體詞是否為黑名單詞。

可選的,判斷模塊,具體包括:

第二計算單元,用于計算獲得對應(yīng)實體詞的value1=dDF/tDF,其中dDF表示正文語料中包含對應(yīng)實體詞的文檔數(shù),tDF表示標題語料中包含對應(yīng)實體詞的文檔數(shù);

第三判斷單元,用于通過對應(yīng)實體詞的value1和tDF判斷對應(yīng)實體詞是否為站點名稱。

可選的,判斷模塊,具體包括:

第三計算單元,用于計算獲得對應(yīng)實體詞的value2=dTF/tDF,其中dTF表示正文語料中對應(yīng)實體詞出現(xiàn)的總次數(shù),tDF表示標題語料中包含對應(yīng)實體詞的文檔數(shù);

第四判斷單元,用于通過對應(yīng)實體詞的value2和tDF判斷對應(yīng)實體詞是否為黑名單詞。

由于本發(fā)明實施例第三方面所介紹的實體詞挖掘裝置為本發(fā)明實施例第一方面所介紹的實體詞挖掘方法所采用的裝置,故而基于本發(fā)明實施例第一方面所介紹的實體詞挖掘方法,本領(lǐng)域所屬技術(shù)人員能夠了解該裝置的具體結(jié)構(gòu)及變形,故而在此不再贅述,凡是實施本發(fā)明第一方面所介紹的實體詞挖掘方法所采用的裝置都屬于本發(fā)明所欲保護的范圍。

第四方面,基于同一發(fā)明構(gòu)思,本發(fā)明實施例提供一種信息推薦裝置,請參考圖8,包括:

模型確定模塊80,用于確定用戶的用戶興趣模型;

組織模塊81,用于通過本發(fā)明實施例第一方面中所介紹的實體詞挖掘方法所挖掘出的實體詞對信息進行組織;

推薦模塊82,用于確定信息中對應(yīng)用戶興趣模型的推薦信息,并將推薦信息提供給用戶。

可選的,模型確定模塊80,具體包括:

第五判斷單元,用于判斷建立用戶興趣模型的每個實體詞是否包含標記信息;

設(shè)置單元,用于如果建立用戶興趣模型的實體詞包含標記信息,則在確定用戶興趣模型時,設(shè)置包含標記信息的實體詞的權(quán)重小于不包含標記信息的實體詞的權(quán)重。

由于本發(fā)明實施例第四方面所介紹的信息推薦裝置為本發(fā)明實施例第二方面所介紹的信息推薦方法所采用的裝置,故而基于本發(fā)明實施例第二方面所介紹的信息推薦方法,本領(lǐng)域所屬技術(shù)人員能夠了解該裝置的具體結(jié)構(gòu)及變形,故而在此不再贅述,凡是實施本發(fā)明第二方面所介紹的信息推薦方法所采用的裝置都屬于本發(fā)明所欲保護的范圍。

本發(fā)明一個或多個實施例,至少具有以下有益效果:

由于在本發(fā)明實施例中,首先從特征詞語料中獲取出M個特征詞,M為正整數(shù);然后計算出M個特征詞中每個特征詞的稀缺度、每個特征詞的各類間分布以及每個特征詞的類內(nèi)出現(xiàn)次數(shù);最后,基于稀缺度、各類間分布以及類內(nèi)出現(xiàn)次數(shù),將M個特征詞中的N1個特征詞確定為實體詞,N1為正整數(shù)。也就是該方案結(jié)合特征詞自身稀缺度、特征詞在大數(shù)據(jù)上的類間分布特性和特征詞的類內(nèi)出現(xiàn)次數(shù)等眾多屬性實現(xiàn)了實體詞自動挖掘的機制,進而可以獲得分布單一,稀缺度較高的特征詞作為實體詞,而基于實體詞可以反映出用戶的興趣特征,也就是不需要通過人工打標方式就可以確定用戶的興趣特征,從而達到了降低人力資源的浪費的技術(shù)效果;

并且,該方案采用每個特征詞的稀缺度、特征詞各類間分布以及特征詞類內(nèi)出現(xiàn)次數(shù)來確定對應(yīng)的特征詞是否為實體詞,也就是確定實體詞的方式不依賴人員的素質(zhì),因此所確定的實體詞能夠更加準確的反應(yīng)用戶的興趣特征;

并且,該方案不需要人工編輯,故而更符合互聯(lián)網(wǎng)的發(fā)展方向,并且不需要長時間的積累,進而降低了獲取用戶的興趣模型的時間。

本領(lǐng)域內(nèi)的技術(shù)人員應(yīng)明白,本發(fā)明的實施例可提供為方法、系統(tǒng)、或計 算機程序產(chǎn)品。因此,本發(fā)明可采用完全硬件實施例、完全軟件實施例、或結(jié)合軟件和硬件方面的實施例的形式。而且,本發(fā)明可采用在一個或多個其中包含有計算機可用程序代碼的計算機可用存儲介質(zhì)(包括但不限于磁盤存儲器、CD-ROM、光學(xué)存儲器等)上實施的計算機程序產(chǎn)品的形式。

本發(fā)明是參照根據(jù)本發(fā)明實施例的方法、設(shè)備(系統(tǒng))、和計算機程序產(chǎn)品的流程圖和/或方框圖來描述的。應(yīng)理解可由計算機程序指令實現(xiàn)流程圖和/或方框圖中的每一流程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結(jié)合。可提供這些計算機程序指令到通用計算機、專用計算機、嵌入式處理機或其他可編程數(shù)據(jù)處理設(shè)備的嵌入式控制器以產(chǎn)生一個機器,使得通過計算機或其他可編程數(shù)據(jù)處理設(shè)備的嵌入式控制器執(zhí)行的指令產(chǎn)生用于實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的裝置。

這些計算機程序指令也可存儲在能引導(dǎo)計算機或其他可編程數(shù)據(jù)處理設(shè)備以特定方式工作的計算機可讀存儲器中,使得存儲在該計算機可讀存儲器中的指令產(chǎn)生包括指令裝置的制造品,該指令裝置實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能。

這些計算機程序指令也可裝載到計算機或其他可編程數(shù)據(jù)處理設(shè)備上,使得在計算機或其他可編程設(shè)備上執(zhí)行一系列操作步驟以產(chǎn)生計算機實現(xiàn)的處理,從而在計算機或其他可編程設(shè)備上執(zhí)行的指令提供用于實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的步驟。

盡管已描述了本發(fā)明的優(yōu)選實施例,但本領(lǐng)域內(nèi)的技術(shù)人員一旦得知了基本創(chuàng)造性概念,則可對這些實施例作出另外的變更和修改。所以,所附權(quán)利要求意欲解釋為包括優(yōu)選實施例以及落入本發(fā)明范圍的所有變更和修改。

顯然,本領(lǐng)域的技術(shù)人員可以對本發(fā)明實施例進行各種改動和變型而不脫離本發(fā)明實施例的精神和范圍。這樣,倘若本發(fā)明實施例的這些修改和變型屬于本發(fā)明權(quán)利要求及其等同技術(shù)的范圍之內(nèi),則本發(fā)明也意圖包含這些改動和 變型在內(nèi)。

當前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
金门县| 海阳市| 台北县| 大城县| 江华| 监利县| 中超| 北京市| 沙河市| 黄龙县| 台中县| 万荣县| 海兴县| 达尔| 中西区| 山丹县| 新丰县| 兖州市| 集安市| 海晏县| 梁山县| 宜都市| 嘉祥县| 成武县| 义马市| 西充县| 时尚| 大埔县| 会东县| 巴彦淖尔市| 鄂托克前旗| 贺州市| 湖口县| 方正县| 平凉市| 九龙城区| 阿克苏市| 松溪县| 南华县| 胶南市| 沛县|