獲取信息的方法和裝置制造方法
【專利摘要】本發(fā)明公開(kāi)了一種獲取信息的方法和裝置,屬于信息【技術(shù)領(lǐng)域】。所述方法包括:獲取指定用戶在當(dāng)前時(shí)間段內(nèi)的相關(guān)信息,并對(duì)所述相關(guān)信息進(jìn)行預(yù)處理,得到所述相關(guān)信息的相關(guān)詞,其中所述相關(guān)信息包括:所述指定用戶發(fā)表的或是轉(zhuǎn)發(fā)的相關(guān)信息;確定所述相關(guān)信息的相關(guān)詞的關(guān)注值;根據(jù)所述相關(guān)詞的關(guān)注值得到所述相關(guān)信息中的關(guān)鍵詞;根據(jù)所述得到的所述指定用戶的相關(guān)信息中的關(guān)鍵詞,獲取所述指定用戶關(guān)注的信息。
【專利說(shuō)明】獲取信息的方法和裝置
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及微博【技術(shù)領(lǐng)域】,特別涉及一種獲取信息的方法和裝置。
【背景技術(shù)】
[0002]微博是一個(gè)基于用戶關(guān)系的信息分享、傳播以及獲取平臺(tái),用戶可以通過(guò)WEB、WAP以及各種客戶端組建個(gè)人社區(qū),以140字左右的文字更新信息,并實(shí)現(xiàn)即時(shí)分享。在微博上,用戶既可以作為觀眾,瀏覽感興趣的信息,也可以作為發(fā)布者,在微博上發(fā)布內(nèi)容供別人瀏覽。微博最大的特點(diǎn)就是發(fā)布信息快速,信息傳播的速度快?;谖⒉┑奶攸c(diǎn),越來(lái)越多的用戶參與到微博平臺(tái)中,其中包括明星或是其它知名人士,微博平臺(tái)為這種特殊人群設(shè)置了名人微博。由于名人的聽(tīng)眾會(huì)很多,名人微博中的關(guān)注的話題很可能成為信息,所以怎樣快速挖掘名人微博中的信息是需要解決的問(wèn)題。
【發(fā)明內(nèi)容】
[0003]為了能夠快速挖掘出名人微博中的信息,本發(fā)明實(shí)施例提供了一種獲取信息的方法和裝置。所述技術(shù)方案如下:
[0004]一方面,提供了一種獲取信息的方法,所述方法包括:
[0005]獲取指定用戶在當(dāng)前時(shí)間段內(nèi)的相關(guān)信息,并對(duì)所述相關(guān)信息進(jìn)行預(yù)處理,得到所述相關(guān)信息的相關(guān)詞,其中,所述相關(guān)信息包括:所述指定用戶發(fā)表的或是轉(zhuǎn)發(fā)的相關(guān)信息;
[0006]確定所述相關(guān)信息的相關(guān)詞的關(guān)注值;
[0007]根據(jù)所述相關(guān)詞的關(guān)注值得到所述相關(guān)信息中的關(guān)鍵詞;
[0008]根據(jù)所述得到的關(guān)鍵詞,獲取所述指定用戶關(guān)注的信息。
[0009]另一方面,提供了一種獲取信息的裝置,所述裝置包括:
[0010]預(yù)處理模塊,用于獲取指定用戶在當(dāng)前時(shí)間段內(nèi)的相關(guān)信息,并對(duì)所述相關(guān)信息進(jìn)行預(yù)處理,得到所述相關(guān)信息的相關(guān)詞,其中,所述相關(guān)信息包括:所述指定用戶發(fā)表的或是轉(zhuǎn)發(fā)的相關(guān)信息;
[0011]確定模塊,用于確定所述相關(guān)信息的相關(guān)詞的關(guān)注值;
[0012]第一獲取模塊,用于根據(jù)所述相關(guān)詞的關(guān)注值得到所述相關(guān)信息中的關(guān)鍵詞;
[0013]第二獲取模塊,用于根據(jù)所述得到的所述關(guān)鍵詞,獲取所述指定用戶關(guān)注的信息。
[0014]本發(fā)明實(shí)施例提供的技術(shù)方案帶來(lái)的有益效果是:獲取指定用戶在當(dāng)前時(shí)間段內(nèi)的相關(guān)信息,并對(duì)所述相關(guān)信息進(jìn)行預(yù)處理,得到所述相關(guān)信息的相關(guān)詞,其中所述相關(guān)信息包括所述指定用戶發(fā)表的或是轉(zhuǎn)發(fā)的相關(guān)信息;確定所述相關(guān)信息的相關(guān)詞的關(guān)注值;根據(jù)所述相關(guān)詞的關(guān)注值得到所述相關(guān)信息中的關(guān)鍵詞;根據(jù)所述得到的關(guān)鍵詞,獲取所述指定用戶關(guān)注的信息。從而能夠快速挖掘名人微博中的信息。
【專利附圖】
【附圖說(shuō)明】[0015]為了更清楚地說(shuō)明本發(fā)明實(shí)施例中的技術(shù)方案,下面將對(duì)實(shí)施例描述中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見(jiàn)地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
[0016]圖1是本發(fā)明實(shí)施例一中提供的一種獲取信息的方法流程圖;
[0017]圖2是本發(fā)明實(shí)施例二中提供的一種獲取信息的方法流程圖;
[0018]圖3是本發(fā)明實(shí)施例三中提供的一種獲取信息的裝置結(jié)構(gòu)示意圖;
[0019]圖4是本發(fā)明實(shí)施例三中提供的另一種獲取信息的裝置結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0020]為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合附圖對(duì)本發(fā)明實(shí)施方式作進(jìn)一步地詳細(xì)描述。
[0021]實(shí)施例一
[0022]參見(jiàn)圖1,本實(shí)施例中提供了一種獲取信息的方法,包括:
[0023]101、獲取指定用戶在當(dāng)前時(shí)間段內(nèi)的相關(guān)信息,并對(duì)所述相關(guān)信息進(jìn)行預(yù)處理,得到所述相關(guān)信息的相關(guān)詞,其中,所述相關(guān)信息包括所述指定用戶發(fā)表的或是轉(zhuǎn)發(fā)的相關(guān)信息;
[0024]102、確定所述相關(guān)信息的相關(guān)詞的關(guān)注值;
[0025]103、根據(jù)所述相關(guān)詞的關(guān)注值得到所述相關(guān)信息中的關(guān)鍵詞;
[0026]104、根據(jù)所述得到的關(guān)鍵詞,獲取所述指定用戶關(guān)注的信息。
[0027]本實(shí)施例的有益效果是:獲取指定用戶在當(dāng)前時(shí)間段內(nèi)的相關(guān)信息,并對(duì)所述相關(guān)信息進(jìn)行預(yù)處理,得到所述相關(guān)信息的相關(guān)詞,其中所述相關(guān)信息包括所述指定用戶發(fā)表的或是轉(zhuǎn)發(fā)的相關(guān)信息;確定所述相關(guān)信息的相關(guān)詞的關(guān)注值;根據(jù)所述相關(guān)詞的關(guān)注值得到所述相關(guān)信息中的關(guān)鍵詞;根據(jù)所述得到的關(guān)鍵詞,獲取所述指定用戶關(guān)注的信息。從而能夠快速挖掘名人微博中的信息。
[0028]實(shí)施例二
[0029]本發(fā)明實(shí)施例提供了一種獲取信息的方法,參見(jiàn)圖2,方法流程包括:
[0030]201、獲取指定用戶在當(dāng)前時(shí)間段內(nèi)的相關(guān)信息。
[0031]本實(shí)施例中,指定用戶包括明星或是其他在微博上進(jìn)行了名人認(rèn)證的知名人士。其中,當(dāng)前時(shí)間段是指當(dāng)前時(shí)間到當(dāng)前時(shí)間之前的一段時(shí)間,例如,當(dāng)前時(shí)間為11點(diǎn),則當(dāng)前時(shí)間段可以為10點(diǎn)到11點(diǎn),或是10:30到11點(diǎn),其中當(dāng)前時(shí)間段可以按小時(shí)計(jì)算也可以按其他單位計(jì)算,對(duì)此本實(shí)施例不做具體限定。所述相關(guān)信息包括所述指定用戶發(fā)表的或是轉(zhuǎn)發(fā)的相關(guān)信息,例如,用戶發(fā)表或轉(zhuǎn)發(fā)的博文等,對(duì)此本實(shí)施例不做具體限定。
[0032]202、對(duì)所述相關(guān)信息進(jìn)行預(yù)處理,得到所述相關(guān)信息的相關(guān)詞。
[0033]本實(shí)施例中,對(duì)所述相關(guān)信息進(jìn)行預(yù)處理,得到所述相關(guān)信息的相關(guān)詞,包括:對(duì)所述相關(guān)信息進(jìn)行預(yù)處理,以去除所述相關(guān)信息中的標(biāo)點(diǎn)符號(hào)、不可見(jiàn)字符和顯示亂碼的字符;將所述預(yù)處理后的相關(guān)信息進(jìn)行分詞處理;將所述分詞后的相關(guān)信息與預(yù)設(shè)的詞表進(jìn)行匹配,過(guò)濾掉所述分詞后的相關(guān)信息中的指定詞語(yǔ),得到所述相關(guān)信息的相關(guān)詞。
[0034]本實(shí)施例中,對(duì)相關(guān)信息進(jìn)行預(yù)處理,保留數(shù)字、漢字、英文或其他國(guó)家的語(yǔ)言文字,去除標(biāo)點(diǎn)符號(hào)和火星文、偏旁部首等等不可見(jiàn)字符或亂碼。指定詞語(yǔ)包括但不限于:副詞、語(yǔ)助詞、臟話、色情詞、政治敏感詞及其他無(wú)意義常用詞。分詞指的是中文分詞(ChineseWord Segmentation),是將一個(gè)漢字序列切分成一個(gè)一個(gè)單獨(dú)的詞。其中,預(yù)先設(shè)置詞表庫(kù),該詞表庫(kù)中包括上述指定詞語(yǔ),在對(duì)相關(guān)信息進(jìn)行分詞后,通過(guò)與預(yù)設(shè)的詞表進(jìn)行匹配,進(jìn)一步刪除指定詞語(yǔ),得到相關(guān)信息的相關(guān)詞。相關(guān)詞的詞匯包括:形容詞、區(qū)別詞、名詞、人名、地名、機(jī)構(gòu)團(tuán)體、其他專名、處所詞、時(shí)間詞、動(dòng)詞、動(dòng)名詞等。
[0035]203、確定所述相關(guān)信息的相關(guān)詞的關(guān)注值,并根據(jù)所述相關(guān)詞的關(guān)注值得到所述相關(guān)信息中的關(guān)鍵詞。
[0036]本實(shí)施例中的關(guān)鍵詞是指網(wǎng)絡(luò)中的熱門詞匯。關(guān)鍵詞作為一種詞匯現(xiàn)象,反映了一個(gè)國(guó)家、一個(gè)地區(qū)在某個(gè)時(shí)期人們普遍關(guān)注的問(wèn)題和事物,具有時(shí)間特征,反映一個(gè)特定時(shí)段的熱點(diǎn)話題及民生問(wèn)題等。
[0037]本實(shí)施例中為提取關(guān)鍵詞,需要先計(jì)算分詞后的相關(guān)詞的關(guān)注值,然后按照預(yù)設(shè)的規(guī)則提取出關(guān)鍵詞。其中所述確定所述相關(guān)信息的相關(guān)詞的關(guān)注值,包括:分別確定所述相關(guān)詞在所述當(dāng)前時(shí)間段內(nèi)的出現(xiàn)頻率和所述相關(guān)詞的歷史出現(xiàn)頻率;根據(jù)所述相關(guān)詞在所述當(dāng)前時(shí)間段內(nèi)的出現(xiàn)頻率和所述相關(guān)詞的歷史出現(xiàn)頻率,得到所述相關(guān)詞的相對(duì)變化率;根據(jù)所述相關(guān)詞的相對(duì)變化率得到所述相關(guān)詞的關(guān)注值。
[0038]其中,相關(guān)詞在當(dāng)前時(shí)間段內(nèi)的出現(xiàn)頻率(qv) =當(dāng)前時(shí)間段內(nèi)相關(guān)詞出現(xiàn)總次數(shù)/當(dāng)前時(shí)間段內(nèi)微博的相關(guān)信息總數(shù)。
[0039]本實(shí)施例中,為了減少各時(shí)段和不同星期之間的差異,相關(guān)詞的歷史出現(xiàn)頻率通過(guò)相關(guān)詞在同時(shí)段內(nèi)的第一出現(xiàn)頻率(H_SCOre)、在同一星期內(nèi)的第二出現(xiàn)頻率(W_socre)和在預(yù)設(shè)時(shí)間段內(nèi)全天出現(xiàn)的第三出現(xiàn)頻率(A_score)得到,即hist=a* (H_score) + β * (W_socre) + Y * (A_score)。公式中 a、β、Y 為系數(shù),并且 a + β + Y =1。
·[0040]其中,同一時(shí)間段是指在所述當(dāng)前時(shí)間段之前的預(yù)設(shè)時(shí)間段內(nèi)且與所述當(dāng)前時(shí)間段相同小時(shí)區(qū)間,例如,當(dāng)前時(shí)間段位10點(diǎn)到11點(diǎn),則同一時(shí)間段是指I到η天前的10點(diǎn)到11點(diǎn)的數(shù)據(jù),其中η為預(yù)設(shè)時(shí)間段,可以為I天,2天,3天等。score= Yi h_qv(i)l η,h_qv⑴為第i天前和當(dāng)前時(shí)間段統(tǒng)計(jì)時(shí)間相同小時(shí)區(qū)間的詞匯出現(xiàn)頻率。
[0041]同一星期是指在所述預(yù)設(shè)時(shí)間段內(nèi)與所述當(dāng)前時(shí)間段相差七天的日期且與所述
當(dāng)前時(shí)間段相同小時(shí)區(qū)間,即 7*n天前(n=l,2,3......XW—SOCTe=^'=i79v(7*7')h ^qv(7*i)
為第i天前當(dāng)天該詞匯的出現(xiàn)頻率??傮w是指過(guò)去預(yù)設(shè)時(shí)間段內(nèi),全天的數(shù)量即I到η天前的數(shù)值(n=l,2,3……),A—socre= ΣΙ^ΜΟ/iciv⑴為第i天前當(dāng)天該詞匯的出現(xiàn)頻率。
[0042]則相關(guān)詞k的歷史出現(xiàn)頻率為:Hist ( k ) = a *+ ρ
[0043]根據(jù)上述相關(guān)詞k在當(dāng)前時(shí)間段內(nèi)的出現(xiàn)頻率qv (k)和歷史出現(xiàn)頻率Hist (k),計(jì)算相關(guān)詞k的相對(duì)變化率Hot_score (K) =qv (k)/Hist (k)。
[0044]本實(shí)施例中,在得到相關(guān)詞的相對(duì)變化率后一種根據(jù)所述相關(guān)詞的相對(duì)變化率得到所述相關(guān)詞的關(guān)注值,包括:
[0045]根據(jù)所述相關(guān)詞的相對(duì)變化率分別得到所述相關(guān)詞在歷史上不是關(guān)鍵詞的歷史頻率和所述相關(guān)詞在歷史上是關(guān)鍵詞的歷史頻率;
[0046]根據(jù)所述相關(guān)詞的相對(duì)變化率、所述相關(guān)詞在歷史上不是關(guān)鍵詞的歷史頻率和所述相關(guān)詞在歷史上是關(guān)鍵詞的歷史頻率,得到所述相關(guān)詞的關(guān)注值。
[0047]為使本領(lǐng)域技術(shù)人員更加清楚的理解本發(fā)明提供的第一種根據(jù)所述相關(guān)詞的相對(duì)變化率得到所述相關(guān)詞的關(guān)注值,現(xiàn)作如下說(shuō)明:
[0048]如果單詞K在歷史的η-1天中有d-Ι天不是關(guān)鍵詞,取歷史中(d_l)天的數(shù)據(jù),按照前述計(jì)算Hist (k)的方案,得到不是關(guān)鍵詞的歷史頻率Hist (k)d-l,是關(guān)鍵詞的歷史頻率Hist (k) n-d,則根據(jù)binomial (伯努利)分布可知,在第η天不是關(guān)鍵詞出現(xiàn)的概率為:
[0049]P ( ξ =n) normal=C (n, d)*Hist (k) cTd* (1_ρ) ~ (n_d),其中 C(n,d)=n!/(d!*(n_d) !);
[0050]在第n天是關(guān)鍵詞出現(xiàn)的概率為:
[0051]P ( ξ =n) hot=C (n, n_d) *Hist (k) n_cT (n_d) * (l_p) ~d,其中 C (n, n-d) =n! /((n-d) !*d!);
[0052]則得到的相關(guān)詞的關(guān)注值為:
[0053]Final socre (K) =Hot_score(K)*P(ξ =n)normal/P(ξ=n)hot。
[0054]其中Final_socre越大,表示該詞的關(guān)注值越高。本實(shí)施例中,進(jìn)一步地,將關(guān)注值較高的相關(guān)詞作為關(guān)鍵詞。
[0055]本實(shí)施例中可選地,在得到相關(guān)詞的相對(duì)變化率后另一種根據(jù)所述相關(guān)詞的相對(duì)變化率得到所述相關(guān)詞的關(guān)注值,包括:根據(jù)神經(jīng)元的非線性作用函數(shù)sigmoid對(duì)所述相關(guān)詞的相對(duì)變化率進(jìn)行二項(xiàng)區(qū)分,得到所述相關(guān)詞的關(guān)注值。
[0056]為使本領(lǐng)域技術(shù)人員更加清楚的理解本發(fā)明提供的第二種根據(jù)所述相關(guān)詞的相對(duì)變化率得到所述相關(guān)詞的關(guān)注值的方法,現(xiàn)作如下說(shuō)明:
[0057]用sigmoid對(duì)相關(guān)詞k的相對(duì)變化率進(jìn)行二項(xiàng)區(qū)分:
[0058]f (x)=l/(l_e_TX),其中 x=Hot_score(K), τ 為參數(shù),τ 取值大于 O 小于 I,例如,τ =0.01,0.05……,具體的τ可以根據(jù)數(shù)據(jù)源進(jìn)行調(diào)節(jié)以有利于使sigmoid后的數(shù)值趨向于(0,1)分布,則 Finale_SCOre(K)=l/(l-e-TH<rt-SCOTe(K))。錯(cuò)誤!未找到引用源。
[0059]得到各相關(guān)詞的關(guān)注值之后,將Finale_SCOre(K)大于η的相關(guān)詞作為關(guān)鍵詞。其中η e (0.5,I)。n的取值,可以根據(jù)實(shí)驗(yàn)數(shù)據(jù)或經(jīng)驗(yàn)獲取,對(duì)此本實(shí)施例不做具體限定。
[0060]進(jìn)一步地,本實(shí)施例中,根據(jù)所述相關(guān)詞的關(guān)注值得到所述指定用戶的相關(guān)信息中的關(guān)鍵詞,包括:將所述相關(guān)詞的關(guān)注值與第一預(yù)設(shè)閾值進(jìn)行比較,將所述相關(guān)詞的關(guān)注值大于所述第一預(yù)設(shè)閾值的相關(guān)詞作為關(guān)鍵詞。對(duì)于第一種確定相關(guān)詞的關(guān)注值的方法,可以設(shè)定第一預(yù)設(shè)閾值,將關(guān)注值高于第一預(yù)設(shè)閾值的相關(guān)詞作為關(guān)鍵詞,而對(duì)于第二種確定相關(guān)詞的關(guān)注值的方法,n即為第一預(yù)設(shè)閾值,將Finale_SCOre(K)大于η的相關(guān)詞作為關(guān)鍵詞。
[0061]值得說(shuō)明的是,從第二種確定關(guān)注值的方法可以看出,如果取值時(shí)間范圍過(guò)短,例如單詞K在歷史的n天中都是關(guān)鍵詞,但呈下降趨勢(shì)時(shí),該方法會(huì)無(wú)法識(shí)別出關(guān)鍵詞K,因此第二種方法需要取值的時(shí)間范圍需要足夠長(zhǎng)。[0062]204、根據(jù)所述得到的所述指定用戶的相關(guān)信息中的關(guān)鍵詞,獲取所述指定用戶關(guān)
注的信息。
[0063]本實(shí)施例中,在獲得指定用戶的相關(guān)信息中的關(guān)鍵詞后,對(duì)所述關(guān)鍵詞進(jìn)行可讀性擴(kuò)展,得到用戶關(guān)注的信息,其中用戶關(guān)注的信息包括但不限于:網(wǎng)絡(luò)上或是微博上的熱門話題。具體的,一種所述根據(jù)所述確定得到的所述指定用戶的相關(guān)信息中的關(guān)鍵詞,獲取所述指定用戶關(guān)注的信息,包括:
[0064]將所述關(guān)鍵詞與預(yù)設(shè)話題進(jìn)行匹配,找到能夠與所述預(yù)設(shè)話題匹配的關(guān)鍵詞;
[0065]確定所述關(guān)鍵詞中能夠與所述預(yù)設(shè)話題相匹配的關(guān)鍵詞與所述預(yù)設(shè)話題的分值;
[0066]根據(jù)所述關(guān)鍵詞中能夠與所述預(yù)設(shè)話題相匹配的關(guān)鍵詞與所述預(yù)設(shè)話題的分值得到所述指定用戶關(guān)注的信息。
[0067]為使本領(lǐng)域技術(shù)人員更加清楚的理解本發(fā)明提供的第一種根據(jù)所述確定得到的所述指定用戶的相關(guān)信息中的關(guān)鍵詞,獲取所述指定用戶關(guān)注的信息的方法,現(xiàn)作如下說(shuō)明:
[0068]其中預(yù)設(shè)話題包括但不限于:搜索的query詞,處理后的新聞標(biāo)題(包括對(duì)長(zhǎng)度進(jìn)行處理,縮短長(zhǎng)度),微博話題等。
[0069]用預(yù)設(shè)話題和關(guān)鍵詞進(jìn)行匹配并找到能夠和預(yù)設(shè)話題匹配的關(guān)鍵詞Match,可選地,還可以進(jìn)一步找到不能夠與預(yù)設(shè)話題匹配的關(guān)鍵詞lost和預(yù)設(shè)話題中除去所述關(guān)鍵詞之后的其它詞語(yǔ)surplus,分別確定這些關(guān)鍵詞與預(yù)設(shè)話題的分值。例如,已有關(guān)于某個(gè)熱點(diǎn)的關(guān)鍵詞集合{ “哈爾濱”,“陽(yáng)明灘”,“大橋”},現(xiàn)在有一個(gè)話題的描述是“陽(yáng)明灘大橋坍塌”,這里包含 “陽(yáng)明灘”,“大橋”,則這兩個(gè)詞就是上述能夠與話題匹配的詞,這個(gè)詞被稱為Match,這里沒(méi)有包含“哈爾濱”這個(gè)關(guān)鍵詞,則這個(gè)詞被成為lost ;假如“坍塌”也是關(guān)鍵詞,則“陽(yáng)明灘大橋坍塌”包含的關(guān)鍵詞集合為{“陽(yáng)明灘”,“大橋”,“坍塌”},那么這里的“坍塌”就是比上述已有關(guān)于某個(gè)熱點(diǎn)的關(guān)鍵詞集合{ “哈爾濱”,“陽(yáng)明灘”,“大橋”}多余的詞,就是文中所述的surplus。其中,
[0070]Match_score(topick)= ^"=imaicMHm_score(i)), topick 表示第 K 個(gè)預(yù)設(shè)話題,
match (Hot_score(i))表示篩選出Hot_score (i)中能夠和預(yù)設(shè)話題匹配上的關(guān)鍵詞的關(guān)注值,Match_score (topick)表示能夠匹配上的關(guān)鍵詞與話題的分值;
[0071]1stscore(1pick)= - V", losl(Ho/ _ score(i)),表示篩選出 Hot_score(i)中預(yù)設(shè)
話題和話題聚類后的關(guān)鍵詞進(jìn)行比較,聚類后的關(guān)鍵詞中無(wú)法和預(yù)設(shè)話題匹配上的關(guān)鍵詞的關(guān)注值,lost_score(topick)表示無(wú)法和預(yù)設(shè)話題匹配上的關(guān)鍵詞與預(yù)設(shè)話題的分值;
[0072]Surplus score(topick)= ^surpIus(M)/-5表示篩選出 Hot_score(i)
中預(yù)設(shè)話題和話題聚類后的關(guān)鍵詞進(jìn)行比較,預(yù)設(shè)話題中包含的多余的關(guān)鍵詞的分?jǐn)?shù),surplus_score (topick)表示根據(jù)預(yù)設(shè)話題中多余的關(guān)鍵詞計(jì)算出來(lái)的分值;
[0073]則用戶關(guān)注的信息topic_score (k) = a *Match_score (topick) + β *lost_score (topick) + y *surplus_score (topick),其中,公式中 α、β、y 為系數(shù),并且α +β + Y =1。
[0074]值得說(shuō)明的是,可以通過(guò)關(guān)鍵詞對(duì)微博進(jìn)行相似度計(jì)算并聚類,也可以不聚類,以上公示中的lost_score (topick)和surplus_score (topick)只有先對(duì)話題進(jìn)行聚類后才需要計(jì)算,在不聚類時(shí),也可以不計(jì)算lost_score和surplus_score的分值,此時(shí)α=1, β =O,Y =0,topic_score(k)=Match_score(topick)。
[0075]可選地,本實(shí)施例中另一種根據(jù)所述確定得到的所述指定用戶的相關(guān)信息中的關(guān)鍵詞,獲取所述指定用戶關(guān)注的信息,包括:
[0076]根據(jù)所述關(guān)鍵詞對(duì)所述指定用戶的微博的相關(guān)信息進(jìn)行聚類,將所述微博中關(guān)鍵詞相似度高的劃為同一類;
[0077]確定所述聚類后的微博的相關(guān)信息的公共子集,其中,所述公共子集包含所述關(guān)鍵詞且所述公共子集的長(zhǎng)度小于或等于第二預(yù)設(shè)閾值;
[0078]根據(jù)所述關(guān)鍵詞的關(guān)注值確定所述公共子集的分?jǐn)?shù);
[0079]根據(jù)所述公共子集的分?jǐn)?shù)得到所述指定用戶關(guān)注的信息。
[0080]上述根據(jù)關(guān)鍵詞對(duì)微博的相關(guān)信息進(jìn)行聚類,包含微博關(guān)鍵詞相似度高的歸為同一類,然后,計(jì)算聚類后的微博的公共子集,公共子集需包含關(guān)鍵詞并且長(zhǎng)度不能超過(guò)一定的限制,即不能過(guò)第二預(yù)設(shè)閾值,公共子集的分?jǐn)?shù)為關(guān)鍵詞分?jǐn)?shù)的累加,優(yōu)選地,把計(jì)算出來(lái)的公共子集按照分?jǐn)?shù)進(jìn)行排序,取分?jǐn)?shù)排在前面的公共子集作為用戶關(guān)注的信息。其中,進(jìn)行聚類的微博的相關(guān)信息是指定用戶在指定時(shí)間內(nèi)發(fā)表或轉(zhuǎn)發(fā)的相關(guān)信息,其中指定時(shí)間可以是當(dāng)前時(shí)間段,或是也可以是最近幾個(gè)小時(shí)或最近一天之等,對(duì)此本實(shí)施例不做具體限定。
[0081]為使本領(lǐng)域技術(shù)人員更加清楚的理解本發(fā)明提供的第二種根據(jù)所述確定得到的所述指定用戶的相關(guān)信息中的關(guān)鍵詞,獲取所述指定用戶關(guān)注的信息的方法,現(xiàn)作如下說(shuō)明:
[0082]為了減少計(jì)算量,利用關(guān)鍵詞先對(duì)微博的相關(guān)信息進(jìn)行聚類,其中可以采用SVM、K-凝聚聚類等算法進(jìn)行聚類,對(duì)于具體采用哪種聚類方法本實(shí)施例不做具體限定。
[0083]給定微博的相關(guān)信息對(duì)象Ix1, x2,……xn}和固定整數(shù)k,微博的相關(guān)信息聚類問(wèn)題可轉(zhuǎn)化為極小化如下的價(jià)值函數(shù):
[0084]
【權(quán)利要求】
1.一種獲取信息的方法,其特征在于,所述方法包括: 獲取指定用戶在當(dāng)前時(shí)間段內(nèi)的相關(guān)信息,并對(duì)所述相關(guān)信息進(jìn)行預(yù)處理,得到所述相關(guān)信息的相關(guān)詞,其中,所述相關(guān)信息包括:所述指定用戶發(fā)表的或是轉(zhuǎn)發(fā)的相關(guān)信息;確定所述相關(guān)信息的相關(guān)詞的關(guān)注值; 根據(jù)所述相關(guān)詞的關(guān)注值得到所述相關(guān)信息中的關(guān)鍵詞; 根據(jù)所述得到的關(guān)鍵詞,獲取所述指定用戶關(guān)注的信息。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述對(duì)所述相關(guān)信息進(jìn)行預(yù)處理,得到所述相關(guān)信息的相關(guān)詞,包括: 對(duì)所述相關(guān)信息進(jìn)行預(yù)處理,以去除所述相關(guān)信息中的標(biāo)點(diǎn)符號(hào)、不可見(jiàn)字符和顯示亂碼的字符; 將所述預(yù)處理后的相關(guān)信息進(jìn)行分詞處理; 將所述分詞后的相關(guān)信息與預(yù)設(shè)的詞表進(jìn)行匹配,過(guò)濾掉所述分詞后的相關(guān)信息中的指定詞語(yǔ),得到所述相關(guān)信息的相關(guān)詞。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述確定所述相關(guān)信息的相關(guān)詞的關(guān)注值,包括: 分別確定所述相關(guān)詞在所述當(dāng)前時(shí)間段內(nèi)的出現(xiàn)頻率和所述相關(guān)詞的歷史出現(xiàn)頻率; 根據(jù)所述相關(guān)詞在所述當(dāng)前·時(shí)間段內(nèi)的出現(xiàn)頻率和所述相關(guān)詞的歷史出現(xiàn)頻率,得到所述相關(guān)詞的相對(duì)變化率; 根據(jù)所述相關(guān)詞的相對(duì)變化率得到所述相關(guān)詞的關(guān)注值。
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述確定所述相關(guān)詞的歷史出現(xiàn)頻率,包括: 分別確定所述相關(guān)詞的第一出現(xiàn)頻率、第二出現(xiàn)頻率和第三出現(xiàn)頻率,其中,所述第一出現(xiàn)頻率是指所述相關(guān)詞在所述當(dāng)前時(shí)間段之前的預(yù)設(shè)時(shí)間段內(nèi)且與所述當(dāng)前時(shí)間段相同小時(shí)區(qū)間內(nèi)出現(xiàn)的頻率,所述第二出現(xiàn)頻率是指所述相關(guān)詞在所述預(yù)設(shè)時(shí)間段內(nèi)與所述當(dāng)前時(shí)間段相差七天的日期且與所述當(dāng)前時(shí)間段相同小時(shí)區(qū)間內(nèi)的出現(xiàn)頻率,所述第三出現(xiàn)頻率是指所述相關(guān)詞在所述預(yù)設(shè)時(shí)間段內(nèi)全天出現(xiàn)的頻率; 根據(jù)所述第一出現(xiàn)頻率、所述第二出現(xiàn)頻率和所述第三出現(xiàn)頻率得到所述相關(guān)詞的歷史出現(xiàn)頻率。
5.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述根據(jù)所述相關(guān)詞的相對(duì)變化率得到所述相關(guān)詞的關(guān)注值,包括: 根據(jù)所述相關(guān)詞的相對(duì)變化率分別得到所述相關(guān)詞在歷史上不是關(guān)鍵詞的歷史頻率和所述相關(guān)詞在歷史上是關(guān)鍵詞的歷史頻率; 根據(jù)所述相關(guān)詞的相對(duì)變化率、所述相關(guān)詞在歷史上不是關(guān)鍵詞的歷史頻率和所述相關(guān)詞在歷史上是關(guān)鍵詞的歷史頻率,得到所述相關(guān)詞的關(guān)注值。
6.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述根據(jù)所述相關(guān)詞的相對(duì)變化率得到所述相關(guān)詞的關(guān)注值,包括: 根據(jù)神經(jīng)元的非線性作用函數(shù)sigmoid對(duì)所述相關(guān)詞的相對(duì)變化率進(jìn)行二項(xiàng)區(qū)分,得到所述相關(guān)詞的關(guān)注值。
7.根據(jù)權(quán)利要求1所述的方法,其特征在于,根據(jù)所述相關(guān)詞的關(guān)注值得到所述相關(guān)Ih息中的關(guān)鍵詞,包括: 將所述相關(guān)詞的關(guān)注值與第一預(yù)設(shè)閾值進(jìn)行比較,將所述相關(guān)詞的關(guān)注值大于所述第一預(yù)設(shè)閾值的相關(guān)詞作為關(guān)鍵詞。
8.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述得到的關(guān)鍵詞,獲取所述指定用戶關(guān)注的信息,包括: 將所述關(guān)鍵詞與預(yù)設(shè)話題進(jìn)行匹配,找到能夠與所述預(yù)設(shè)話題匹配的關(guān)鍵詞; 根據(jù)所述能夠與所述預(yù)設(shè)話題匹配的關(guān)鍵詞的關(guān)注值確定所述關(guān)鍵詞中能夠與所述預(yù)設(shè)話題相匹配的關(guān)鍵詞與所述預(yù)設(shè)話題的分值; 根據(jù)所述關(guān)鍵詞中能夠與所述預(yù)設(shè)話題相匹配的關(guān)鍵詞與所述預(yù)設(shè)話題的分值得到所述指定用戶關(guān)注的信息。
9.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述得到的關(guān)鍵詞,獲取所述指定用戶關(guān)注的信息,包括: 根據(jù)所述關(guān)鍵詞對(duì)所述指定用戶的微博的相關(guān)信息進(jìn)行聚類,將所述微博的相關(guān)信息中關(guān)鍵詞相似度聞的劃為同一類; 確定所述聚類后的微博的相關(guān)信息的公共子集,其中,所述公共子集包含所述關(guān)鍵詞且所述公共子集的長(zhǎng)度小于或等于第二預(yù)設(shè)閾值; 根據(jù)所述關(guān)鍵詞的關(guān)注值確定所述公共子集的分?jǐn)?shù); 根據(jù)所述公共子集的分?jǐn)?shù)得到所述指定用戶關(guān)注的信息。
10.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述得到的關(guān)鍵詞,獲取所述指定用戶關(guān)注的信息之后,還包括: 根據(jù)所述指定用戶關(guān)注的信息中包含的關(guān)鍵詞的關(guān)注值的由高到低,對(duì)所述指定用戶關(guān)注的信息進(jìn)行排序并輸出所述排序后的指定用戶關(guān)注的信息。
11.根據(jù)權(quán)利要求10所述的方法,其特征在于,所述根據(jù)所述指定用戶關(guān)注的信息中包含的關(guān)鍵詞的關(guān)注值的由高到低,對(duì)所述指定用戶關(guān)注的信息進(jìn)行排序之前,還包括: 確定所述指定用戶關(guān)注的信息的語(yǔ)義相似度,以刪除所述指定用戶關(guān)注的信息中產(chǎn)生偏移的話題及所述偏移的話題與相關(guān)信息的對(duì)應(yīng)關(guān)系。
12.根據(jù)權(quán)利要求11所述的方法,其特征在于,所述確定所述指定用戶關(guān)注的信息的語(yǔ)義相似度,以刪除所述指定用戶關(guān)注的信息中產(chǎn)生偏移的話題及對(duì)應(yīng)關(guān)系,包括: 將所述指定用戶關(guān)注的信息按順序進(jìn)行剪裁,得到所述指定用戶關(guān)注的信息的多個(gè)子集; 將所述指定用戶關(guān)注的信息的多個(gè)子集分別與所述指定用戶關(guān)注的信息所在的相關(guān)信息進(jìn)行匹配,保存所述能夠包含在所述指定用戶關(guān)注的信息所在的相關(guān)信息的子集,刪除所述不能夠包含在所述指定用戶關(guān)注的信息所在的相關(guān)信息的子集;或, 將所述指定用戶關(guān)注的信息拆分成有序的單詞序列,將所述單詞序列作為所述指定用戶關(guān)注的信息的描述向量和所述指定用戶關(guān)注的信息所在的相關(guān)信息進(jìn)行相似度計(jì)算,以刪除所述指定用戶關(guān)注的信息中產(chǎn)生偏移的話題及對(duì)應(yīng)關(guān)系。
13.一種獲取信息的裝置,其特征在于,所述裝置包括: 預(yù)處理模塊,用于獲取指定用戶在當(dāng)前時(shí)間段內(nèi)的相關(guān)信息,并對(duì)所述相關(guān)信息進(jìn)行預(yù)處理,得到所述相關(guān)信息的相關(guān)詞,其中,所述相關(guān)信息包括:所述指定用戶發(fā)表的或是轉(zhuǎn)發(fā)的相關(guān)信息; 確定模塊,用于確定所述相關(guān)信息的相關(guān)詞的關(guān)注值; 第一獲取模塊,用于根據(jù)所述相關(guān)詞的關(guān)注值得到所述相關(guān)信息中的關(guān)鍵詞; 第二獲取模塊,用于根據(jù)所述得到的關(guān)鍵詞,獲取所述指定用戶關(guān)注的信息。
14.根據(jù)權(quán)利要求13所述的裝置,其特征在于,所述預(yù)處理模塊,包括: 刪除單元,用于對(duì)所述相關(guān)信息進(jìn)行預(yù)處理,以去除所述相關(guān)信息中的標(biāo)點(diǎn)符號(hào)、不可見(jiàn)字符和顯示亂碼的字符; 分詞單元,用于將所述預(yù)處理后的相關(guān)信息進(jìn)行分詞處理; 過(guò)慮單元,用于將所述分詞后的相關(guān)信息與預(yù)設(shè)的詞表進(jìn)行匹配,過(guò)濾掉所述分詞后的相關(guān)信息中的指定詞語(yǔ),得到所述相關(guān)信息的相關(guān)詞。
15.根據(jù)權(quán)利要求13所述的裝置,其特征在于,所述確定模塊,包括: 確定單元,用于分別確定所述相關(guān)詞在所述當(dāng)前時(shí)間段內(nèi)的出現(xiàn)頻率和所述相關(guān)詞的歷史出現(xiàn)頻率; 第一獲取單元,用于根據(jù)所述相關(guān)詞在所述當(dāng)前時(shí)間段內(nèi)的出現(xiàn)頻率和所述相關(guān)詞的歷史出現(xiàn)頻率,得到所述相關(guān)詞的相對(duì)變化率; 第二獲取單元,用于根據(jù)所述相關(guān)詞的相對(duì)變化率得到所述相關(guān)詞的關(guān)注值?!?br>
16.根據(jù)權(quán)利要求15所述的裝置,其特征在于,所述確定單元,包括: 確定子單元,用于分別確定所述相關(guān)詞的第一出現(xiàn)頻率、第二出現(xiàn)頻率和第三出現(xiàn)頻率,其中,所述第一出現(xiàn)頻率是指所述相關(guān)詞在所述當(dāng)前時(shí)間段之前的預(yù)設(shè)時(shí)間段內(nèi)且與所述當(dāng)前時(shí)間段相同小時(shí)區(qū)間內(nèi)出現(xiàn)的頻率,所述第二出現(xiàn)頻率是指所述相關(guān)詞在所述預(yù)設(shè)時(shí)間段內(nèi)與所述當(dāng)前時(shí)間段相差七天的日期且與所述當(dāng)前時(shí)間段相同小時(shí)區(qū)間內(nèi)的出現(xiàn)頻率,所述第三出現(xiàn)頻率是指所述相關(guān)詞在所述預(yù)設(shè)時(shí)間段內(nèi)全天出現(xiàn)的頻率;根據(jù)所述第一出現(xiàn)頻率、所述第二出現(xiàn)頻率和所述第三出現(xiàn)頻率得到所述相關(guān)詞的歷史出現(xiàn)頻率。
17.根據(jù)權(quán)利要求15所述的裝置,其特征在于,所述第一獲取單元,包括: 第一獲取子單元,用于根據(jù)所述相關(guān)詞的相對(duì)變化率分別得到所述相關(guān)詞在歷史上不是關(guān)鍵詞的歷史頻率和所述相關(guān)詞在歷史上是關(guān)鍵詞的歷史頻率;根據(jù)所述相關(guān)詞的相對(duì)變化率、所述相關(guān)詞在歷史上不是關(guān)鍵詞的歷史頻率和所述相關(guān)詞在歷史上是關(guān)鍵詞的歷史頻率,得到所述相關(guān)詞的關(guān)注值。
18.根據(jù)權(quán)利要求15所述的裝置,其特征在于,所述第一獲取單元,包括: 第二獲取子單元,用于根據(jù)神經(jīng)元的非線性作用函數(shù)sigmoid對(duì)所述相關(guān)詞的相對(duì)變化率進(jìn)行二項(xiàng)區(qū)分,得到所述相關(guān)詞的關(guān)注值。
19.根據(jù)權(quán)利要求13所述的裝置,其特征在于,第一獲取模塊具體用于: 將所述相關(guān)詞的關(guān)注值與第一預(yù)設(shè)閾值進(jìn)行比較,將所述相關(guān)詞的關(guān)注值大于所述第一預(yù)設(shè)閾值的相關(guān)詞作為關(guān)鍵詞。
20.根據(jù)權(quán)利要求13所述的裝置,其特征在于,所述第二獲取模塊,包括: 匹配單元,用于將所述關(guān)鍵詞與預(yù)設(shè)話題進(jìn)行匹配,找到能夠與所述預(yù)設(shè)話題匹配的關(guān)鍵詞;第一確定單元,用于根據(jù)所述能夠與所述預(yù)設(shè)話題匹配的關(guān)鍵詞的關(guān)注值確定所述關(guān)鍵詞中能夠與所述預(yù)設(shè)話題相匹配的關(guān)鍵詞與所述預(yù)設(shè)話題的分值; 第一獲取單元,用于根據(jù)所述關(guān)鍵詞中能夠與所述預(yù)設(shè)話題相匹配的關(guān)鍵詞與所述預(yù)設(shè)話題的分值得到所述指定用戶關(guān)注的信息。
21.根據(jù)權(quán)利要求13所述的裝置,其特征在于,所述第二獲取模塊,包括: 聚類單元,用于根據(jù)所述關(guān)鍵詞對(duì)所述指定用戶的微博的相關(guān)信息進(jìn)行聚類,將所述微博中關(guān)鍵詞相似度高的劃為同一類; 第二確定單元,用于確定所述聚類后的微博的相關(guān)信息的公共子集,其中,所述公共子集包含所述關(guān)鍵詞且所述公共子集的長(zhǎng)度小于或等于第二預(yù)設(shè)閾值; 第三確定單元,用于根據(jù)所述關(guān)鍵詞的關(guān)注值確定所述公共子集的分?jǐn)?shù); 第二獲取單元,用于根據(jù)所述公共子集的分?jǐn)?shù)得到所述指定用戶關(guān)注的信息。
22.根據(jù)權(quán)利要求13所述的裝置,其特征在于,所述裝置還包括: 輸出模塊,用于在所述第二獲取模塊獲取所述指定用戶關(guān)注的信息之后,根據(jù)所述指定用戶關(guān)注的信息中包含的關(guān)鍵詞的關(guān)注值的由高到低,對(duì)所述指定用戶關(guān)注的信息進(jìn)行排序并輸出所述排序后的指定用戶關(guān)注的信息。
23.根據(jù)權(quán)利要求22所述的裝置,其特征在于,所述裝置還包括: 語(yǔ)義回歸模塊,用于在所述輸出模塊對(duì)所述指定用戶關(guān)注的信息進(jìn)行排序之前,確定所述指定用戶關(guān)注的信息的語(yǔ)義相似度,以刪除所述指定用戶關(guān)注的信息中產(chǎn)生偏移的話題及所述偏移的話題與相關(guān)信息的對(duì)應(yīng)關(guān)系。
24.根據(jù)權(quán)利要求23所述的裝置,其特征在于,所述語(yǔ)義回歸模塊,包括: 第一處理單元,用于將所述指定用戶關(guān)注的信息按順序進(jìn)行剪裁,得到所述指定用戶關(guān)注的信息的多個(gè)子集;將所述指定用戶關(guān)注的信息的多個(gè)子集分別與所述指定用戶關(guān)注的信息所在的相關(guān)信息進(jìn)行匹配,保存所述能夠包含在所述指定用戶關(guān)注的信息所在的相關(guān)信息的子集,刪除所述不能夠包含在所述指定用戶關(guān)注的信息所在的相關(guān)信息的子集;或, 第二處理單元,用于將所述指定用戶關(guān)注的信息拆分成有序的單詞序列,將所述單詞序列作為所述指定用戶關(guān)注的信息的描述向量和所述指定用戶關(guān)注的信息所在的相關(guān)信息進(jìn)行相似度計(jì)算,以刪除所 述指定用戶關(guān)注的信息中產(chǎn)生偏移的話題及對(duì)應(yīng)關(guān)系。
【文檔編號(hào)】G06F17/30GK103853763SQ201210509047
【公開(kāi)日】2014年6月11日 申請(qǐng)日期:2012年12月3日 優(yōu)先權(quán)日:2012年12月3日
【發(fā)明者】程剛, 潘璇, 莊子明, 李鶴, 王谷丹, 周霄驍, 劉新鳴, 蘆方 申請(qǐng)人:騰訊科技(深圳)有限公司