專利名稱:消息處理方法及其系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明總體上涉及消息處理技術(shù)領(lǐng)域,特別地,涉及一種消息處理方法及系統(tǒng)
背景技術(shù):
隨著互聯(lián)網(wǎng)、通訊設(shè)施以及平民媒體的發(fā)展,人們面對著越來越多的信息。人們需要相關(guān)技術(shù)手段分析這些信息,用以為用戶提供更多有用的信息。以現(xiàn)在方興未艾的微博或者任何其他支持移動終端的社交網(wǎng)絡(luò)服務(wù)為例,如Twitter (推特)、新浪微博等, Twitter的數(shù)據(jù)特點(diǎn)在于一般用戶可以將其短消息發(fā)送到Twitter服務(wù)器上,而該短消息的讀者用戶可以對該短消息進(jìn)行評論。從2009后期開始,讀者用戶可以對其它的讀者用戶的短消息進(jìn)行跟隨(follow up)。所有的消息用戶都通過Twitter網(wǎng)站接收或者發(fā)送 Twitter消息,目前全球Twitter用戶超過1億,而且現(xiàn)在仍然以每天增加30萬用戶的速度在成長,并且近20%的用戶是通過手機(jī)登陸Twitter網(wǎng)站。Twitter消息的數(shù)據(jù)能夠包括定位信息,比如 GPS (Global Positioning System)坐標(biāo),微博服務(wù) API (Application Programming Interface應(yīng)用程序接口)等,另外由于Twitter用戶往往是利用Twitter發(fā)送當(dāng)前情景的相關(guān)信息與其它Twitter用戶進(jìn)行分享,因此Twitter的數(shù)據(jù)具有很強(qiáng)的及時性。
發(fā)明內(nèi)容
本發(fā)明提供一種消息處理方法及其系統(tǒng)。本發(fā)明一方面提供一種消息處理方法,包括獲取消息以及消息的定位信息;根據(jù)所述消息的定位信息聚類所述消息,獲得消息聚類;抽取消息聚類中消息的內(nèi)容中的地址;以及基于消息聚類中消息的內(nèi)容獲得所述地址的分類器。優(yōu)選地,本發(fā)明的消息處理方法還包括接收不包含地址的消息以及該消息的定位信息;根據(jù)該消息的定位信息確定該消息所屬的消息聚類;以及遍歷該消息聚類中的地址的分類器以確定與該消息相關(guān)聯(lián)的地址。本發(fā)明另一方面提供一種消息處理系統(tǒng),包括獲取裝置,用于獲取消息以及消息的定位信息;聚類裝置,用于根據(jù)所述消息的定位信息聚類所述消息,獲得消息聚類;抽取裝置,用于抽取消息聚類中的消息的內(nèi)容中的地址;以及分類訓(xùn)練裝置,用于基于消息聚類中的消息的內(nèi)容獲得所述地址的分類器。本發(fā)明的相關(guān)具體實施方式
通過充分利用相關(guān)消息的定位信息等和及時性特點(diǎn), 便捷地為消息用戶提供相關(guān)細(xì)致地址信息,并且可以進(jìn)一步實現(xiàn)與地址信息相關(guān)的消息管理,挖掘和搜索,并且可以基于此實現(xiàn)出一系列商業(yè)智能程序,為管理決策提供有用信息。
為了對本發(fā)明實施例的特征和優(yōu)點(diǎn)進(jìn)行詳細(xì)說明,將參照以下附圖。如果可能的話,在附圖和描述中使用相同或者類似的參考標(biāo)號以指代相同或者類似的部分。其中
圖1示出了本發(fā)明的消息處理方法的第一實施方式;圖2示出了本發(fā)明的消息處理方法的第二實施方式;圖3,4示出了本發(fā)明的消息處理方法的第三實施方式;圖5示出了本發(fā)明的消息處理方法的第四實施方式;圖6示出了本發(fā)明的消息處理系統(tǒng)的框架具體實施例方式現(xiàn)在將參考本發(fā)明的示例性實施例進(jìn)行詳細(xì)的描述,在附圖中圖解說明了所述實施例的示例,其中相同的參考數(shù)字始終指示相同的元件。應(yīng)當(dāng)理解,本發(fā)明并不限于所公開的示例實施例。還應(yīng)當(dāng)理解,并非所述方法和設(shè)備的每個特征對于實施任一權(quán)利要求所要求保護(hù)的本發(fā)明都是必要的。此外,在整個公開中,當(dāng)顯示或描述處理或方法時,方法的步驟可以以任何順序或者同時執(zhí)行,除非從上下文中能清楚一個步驟依賴于先執(zhí)行的另一步驟。此外,步驟之間可以有顯著的時間間隔。下面根據(jù)圖1詳細(xì)闡述本發(fā)明的第一具體實施方式
。在步驟101中,獲取消息以及消息的定位信息。其中所述消息可以是微博消息或者其他支持移動終端的社交網(wǎng)絡(luò)服務(wù)中的消息。值得注意的是,雖然這里以微博消息為例,但這并不表明本發(fā)明限于此類型消息。這類消息包括有內(nèi)容體,內(nèi)容體中包括有消息的內(nèi)容,比如“我在美嘉歡樂影城看電影” 為該消息的具體內(nèi)容。另外隨消息發(fā)送的,一般還附有該發(fā)送該消息的定位信息,所述定位信息可以是GPS坐標(biāo),微博服務(wù)API中之一。還可以接收包括隨消息發(fā)送的其它信息,比如消息發(fā)送時間,服務(wù)器接收消息的時間等,獲得這些信息,可以為本發(fā)明的具體實施方式
使用。獲取消息以及消息的定位信息的方式可以通過多種途徑,比如可以由消息服務(wù)器主動定時分批推送,或者利用網(wǎng)絡(luò)爬蟲從消息服務(wù)器自動收集消息,并及時對收集的消息進(jìn)行更新,或者直接在消息服務(wù)器部署本發(fā)明的方法或者系統(tǒng)的方式來獲取。在步驟103中,根據(jù)所述消息的定位信息聚類所述消息,獲得消息聚類。利用每條消息所帶有的定位信息,就可以利用聚類技術(shù)對所獲得的消息進(jìn)行聚類??梢岳没诰嚯x的聚類技術(shù),比如K-Means算法、AP (Affinity Propagation)算法(K-Means 算法具體可參見文獻(xiàn) J. B. MacQueen (1967) “ Some Methods for classification andAnalysis of Multivariate Observations,Proceedings of 5~th Berke1eySymposium on Mathematical Statistics and Probability" ,Berkeley,University of California Press, 1 :281-297, APClustering by Passing Messages Between Data Points. Brendan J. Frey and Delbert Dueck,University of Toronto Science 315, 972-976, February 2007),將消息聚集成不同的消息聚類。比如利用相關(guān)聚類技術(shù),發(fā)現(xiàn)有來自某GPS位置一定半徑范圍區(qū)域有大量的消息,優(yōu)選地,存在有GPS坐標(biāo)與較大地區(qū)的相對應(yīng)關(guān)系,通過這種對應(yīng)關(guān)系,確定該GPS位置一定半徑范圍區(qū)域正好對應(yīng)于中關(guān)村地區(qū), 則可以定義該GPS位置一定半徑范圍內(nèi)大量的消息聚集成的消息聚類為中關(guān)村地區(qū)消息聚類。當(dāng)然也可以通過其它方式來命名相關(guān)消息聚類,比如中心GPS位置,或者唯一序列號等。獲得相關(guān)消息聚類和對應(yīng)的消息,就可以進(jìn)行各種處理,比如存儲所述消息聚類和對應(yīng)的消息到消息數(shù)據(jù)庫109中,或者對消息聚類和對應(yīng)消息建立索引等。其中建立索引的方法可以利用現(xiàn)有的各種建立索引的方法,比如BaiDu,Google等搜索引擎建立索引的方法。
在步驟105中,抽取消息聚類中的消息的內(nèi)容中的地址。對各個消息聚類中對應(yīng)的消息分別進(jìn)行地址抽取。這里可以使用自然語言理解中的地址實體識別技術(shù),具體可
Tjong Kim Sang, Ε. F. and DeMeulder, F. 2003. Introduction to the CoNLL-2003 shared task language-independent named entity recognition. In Proceedings of theSeventh Conference on Natural Language Learning At HLT-NAACL2003-Volume 4 (Edmonton, Canada). Human Language TechnologyConference. Association for Computational Linguistics,Morristown,NJ, 142-147.等。比如對于一條消息“我在美嘉歡樂影城看電影”這樣的一條無結(jié)構(gòu)的自然語言,使用實體識別技術(shù),就可以標(biāo)識出“美嘉歡樂影城”是一個地址。優(yōu)選地,一般由于地址被消息提及的頻度的不同,可以考慮對包含抽取的地址的消息進(jìn)行計數(shù),并對抽取的地址根據(jù)包含該地址的消息的計數(shù)進(jìn)行排序;并將低于計數(shù)閾值的地址刪除。比如在該消息聚類中,某地址僅被少數(shù)幾條消息(比如3條) 提及,則可以考慮將其從抽取后的地址隊列中刪除。在步驟107中,基于消息聚類中的消息的內(nèi)容獲得所述地址的分類器。如果從步驟105中獲得了 N個地址(其中N為大于1的整數(shù)),則分別利用該消息聚類中提及到這 N個地址的消息的內(nèi)容作為訓(xùn)練樣本,基于Support Vector Machine模型(具體可參見 SupportVector Machines and other kernel-based learning methods JohnShawe-Taylor & Nello Cristianini-Cambridge University Press, 2000)、Maximal Entropy 模型(具體可參見 A maximum entropyapproach to natural language processing AL Berger, VJD Pietra,SAD Pietra-Computational linguistics, 1996)或者其它現(xiàn)有適用的學(xué)習(xí)模型等,就可以得到N個地址分別對應(yīng)的分類器。獲得N個地址分別對應(yīng)的分類器,就可以繼續(xù)進(jìn)行各種后續(xù)處理,比如存儲N個地址分別對應(yīng)的分類器,或者對消息聚類和N個地址分別對應(yīng)的分類器建立索引等。下面舉出基于消息聚類中的消息的內(nèi)容獲得所述地址的分類器的一個簡單的例子例如,在一個消息聚類中,有四條消息(僅為示例性幫助本領(lǐng)域技術(shù)人員理解本具體實施方式
),1. “我在美嘉歡樂影城一邊看電影,一邊吃爆米花”,2. “電影不錯,爆米花也很好”,3.家樂福在搞促銷,酸奶十元三瓶,4.酸奶促銷后還是很劃算的,經(jīng)過地址實體抽取,消息1、3都包含地址信息,“美嘉歡樂影城”和“家樂?!?,可以按兩個地址使用消息1、3中的信息構(gòu)建兩個分類器,“電影”,“爆米花”,“酸奶”,“促銷”等詞語可以被選做訓(xùn)練分類器的特征。則當(dāng)類似于消息2、4消息中包含這樣的特征,就可以以很大的置信度將2分到“美嘉歡樂影城”,將4分到“家樂?!???梢詫⑾嚓P(guān)地址分類器存儲到消息數(shù)據(jù)庫109中。這些處理結(jié)果將有利于本發(fā)明后面的具體實施方式
。圖2示出了本發(fā)明的第二具體實施方式
。在步驟201中,接收不包含地址的消息以及該消息的定位信息。有時消息用戶在一個地區(qū)想找一個獨(dú)特的地方,但其對周圍的情況并非十分了解,甚至該地區(qū)的名稱也無法準(zhǔn)確輸入,具體比如該用戶想了解中關(guān)村地區(qū)最熱門的電影院的情況,在這種情況下,該用戶可以向消息服務(wù)器發(fā)送類似于“請推薦本地區(qū)熱門電影院”的消息。消息服務(wù)器接收該不包括具體地址的消息以及發(fā)送該消息的地點(diǎn)的定位信息。
6
在步驟203中,根據(jù)該消息的定位信息確定該消息所屬的消息聚類。其中,利用該消息的定位信息,基于在上面具體實施方式
中已經(jīng)存儲在數(shù)據(jù)庫109中的消息聚類,確定出該消息所屬的消息聚類??梢愿鶕?jù)該消息的定位位置(比如GPS位置)是否落在該消息聚類的地區(qū)范圍內(nèi)(比如GPS位置范圍)來確定該消息所屬的消息聚類。比如根據(jù)消息的定位消息定位出消息用戶處于中關(guān)村消息聚類區(qū)。在步驟205中,遍歷該消息聚類中的地址的分類器以確定與該消息相關(guān)聯(lián)的地址?;谠撓⒌膬?nèi)容,利用所獲得的消息聚類中的地址的分類器分別計算該消息的置信度(confidence score),選擇置信度最高的分類器所對應(yīng)的地址,并將該地址作為與該消息相關(guān)聯(lián)的地址。在使用分類器時,輸出結(jié)果會有一個量化的置信度,比如判斷一條消息是否與某地址相關(guān)聯(lián),如果返回值為1,表示完全相關(guān),返回值為0,表示完全無關(guān)。例如,根據(jù)上述消息用戶輸入的消息的內(nèi)容“請推薦本地區(qū)熱門電影院”,遍歷“美嘉歡樂影城”的分類器和“家樂?!钡姆诸惼?,就得到了 “美嘉歡樂影城”和“家樂?!睂τ谠撓⒌闹眯哦仁纠缘胤謩e為0. 95和0. 15,則就可以將“美嘉歡樂影城”作為與消息用戶的消息相關(guān)聯(lián)的地址并推薦給消息用戶。優(yōu)選地,還可以設(shè)定置信度的閾值,如果遍歷所有的分類器所獲得的置信度都低于閾值,則返回空地址,表明沒有相關(guān)地址與該消息進(jìn)行關(guān)聯(lián)。優(yōu)選地,還將與該地址相關(guān)聯(lián)的信息通過分類整理發(fā)送和呈現(xiàn)給用戶,并且用戶可以進(jìn)一步與所呈現(xiàn)的消息的發(fā)送者進(jìn)一步進(jìn)行聯(lián)系,以獲得他人的及時建議。上述第二具體實施方式
的另一種優(yōu)選方式可以針對任何內(nèi)容中不包括地址信息的消息,比如已經(jīng)存儲在消息數(shù)據(jù)庫109中不包括地址的消息,可以只執(zhí)行上述步驟203、 205,優(yōu)選地將得到的相關(guān)聯(lián)的地址與該消息建立索引。圖3、4則示出了本發(fā)明的第三具體實施方法。在步驟301中,接收來自消息用戶的包含地址的查詢請求。用戶在其查詢請求中可以包括對相關(guān)地址的查詢,比如輸入查詢“美嘉歡樂影城”。在步驟303中,查詢與所述查詢請求的地址相關(guān)的消息,并按照主題分類查詢到的消息。其中,通過上面的具體實施方式
形成了消息數(shù)據(jù)庫109,在該數(shù)據(jù)庫中,存儲了消息以及相關(guān)地址的索引,響應(yīng)于接收到用戶包含地址的查詢請求,根據(jù)相關(guān)索引檢索獲得與用戶需要查詢的地址相關(guān)的消息,基于K-means聚類算法,或者話題模型,如LDA模型等 (具體參見 Blei, David M. ;Ng, Andrew Y. ; Jordan, Michael I ;Lafferty, John (January 2003). " Latent Dirichlet allocation" .Journalof Machine Learning Research 3: pp. 993-1022. doi :10. 1162/jmlr. 2003. 3. 4-5. 993.http://jmlr. csail. mit. edu/papers/v3/blei03a. html.)分類查詢到的消息。在步驟305中,向用戶發(fā)送分類后的的消息。優(yōu)選地,還可以包括如圖3步驟307 所示的對檢索到的相關(guān)消息進(jìn)行時間過濾,從而為用戶提供最為及時的消息。進(jìn)行時間過濾包括進(jìn)行兩種時間過濾??梢砸婚_始對檢索到的相關(guān)消息進(jìn)行發(fā)送時間過濾,比如根據(jù)消息的發(fā)送時間,例如可以摒棄對于用戶檢索前4個小時前發(fā)送的消息。但有時一些消息雖然是用戶檢索前4個小時內(nèi)發(fā)送的,但是其討論的是以前的事情,比如消息A寫到“我前
天在XXX咖啡店喝了一杯不錯的咖啡......”,因此要真正做到向用戶推送及時消息,則需
要消息實時過濾方法。圖4示出了本發(fā)明的一種消息實時過濾方法。其中通過大量的正向?qū)嵗?比如“我正在XXX咖啡店喝咖啡”)和反向?qū)嵗?比如“我前一陣曾在XXX咖啡店喝過咖啡”)基于上述基于Support VectorMachine模型、Maximal Entropy模型等進(jìn)行訓(xùn)練
7得到實時分類器,在訓(xùn)練的時候,先對正向?qū)嵗头聪驅(qū)嵗械奈谋具M(jìn)行分詞,每個詞語作為一個特征去訓(xùn)練分類器,在這個例子中,“正在”,“前一陣”都是很有區(qū)分度的特征,從而得到實時分類器。在得到實時分類器后,則可以將消息輸入到該實時分類器,判斷該消息是否具有實時性對于不具有實時性的消息,則可以摒棄該消息而不推送給用戶,如此就確保了消息的及時性。由于類似于微博等消息的即時性和更新的頻繁性,一個微博可以被看成一個社會傳感器,提供這個用戶及其周邊環(huán)境的即時信息。通過本發(fā)明的上述相關(guān)具體實施方式
,可以推斷確定微博發(fā)布的地址,從而可以綜合地理地址信息對用戶行為進(jìn)行分析,提供給分析決策程序。基于上述原理,圖5示出了本發(fā)明的第四具體實施方式
。在步驟501中,接收消息,消息相關(guān)時間以及消息的定位信息。消息相關(guān)時間可以是消息發(fā)送時間,或者消息服務(wù)器接收消息的時間,或者其它類型的時間戳;在步驟503中,根據(jù)上面的具體實施方式
,確定與消息相關(guān)聯(lián)的地址。其中,對于消息本身包含了地址,可以抽取該地址作為該消息的關(guān)聯(lián)地址,而對于沒有地址信息的,則可以根據(jù)上述第二具體實施方式
的方法預(yù)測出其地址。優(yōu)選地,可以對于收到的消息在預(yù)處理中采用時間過濾的方法,從而確保所處理的消息是用戶討論其正在當(dāng)前的地址從事的事情,以進(jìn)一步保證地址的及時性。在步驟505 中,根據(jù)消息用戶,消息相關(guān)時間以及與之相關(guān)聯(lián)的地址建立索引,其中消息內(nèi)容中具有地址的作為該消息的相關(guān)聯(lián)的地址。消息用戶可以用移動終端的唯一號來表征,移動終端的唯一號可以是比如手機(jī)號、移動終端硬件序列號等。其中的索引如圖5所示,包括消息用戶 i在時間j處于地址k,比如圖5的下圖示出一個消息用戶在16:00時在H&M服裝店試衣、 17:00時在KFC(肯德基)用餐、1800時在Megabox (美嘉歡樂影城)看電影和2000在 Carrefour (家樂福超市)購物。優(yōu)選地,該索引與具體的消息相關(guān)聯(lián)。優(yōu)選地,將所獲得索引存儲在消息數(shù)據(jù)庫109中,從而為后續(xù)的具體應(yīng)用提供基礎(chǔ)數(shù)據(jù)。下面詳細(xì)介紹本發(fā)明的第五、六具體實施方式
。在一些熱點(diǎn)地區(qū),比如商業(yè)中心, 交通樞紐等,需要了解人流的隨時間在不同地址的密集情況或者遷徙情況。這可以通過分析多個消息用戶在消息相關(guān)時間與相關(guān)聯(lián)的地址之間的聯(lián)系,以獲得相關(guān)聯(lián)的地址或者相關(guān)聯(lián)的地址之間的相關(guān)信息。并利用所述相關(guān)信息,進(jìn)行相關(guān)管理。本發(fā)明的第五具體實施方式
用于了解消息用戶在不同地址的密集度。其中,可以獲得多個消息用戶以及消息相關(guān)時間、相關(guān)聯(lián)的地址。這可以通過檢索存儲在消息數(shù)據(jù)庫 109中根據(jù)消息,消息用戶、消息相關(guān)時間以及與之相關(guān)聯(lián)的地址建立的索引而得到。在獲得了上述信息的基礎(chǔ)上,可以對指定時間段分別統(tǒng)計在相關(guān)聯(lián)的地址各個消息用戶出現(xiàn)的次數(shù)。比如,在下午13:00-18:00時間段,在地址-美嘉歡樂影城共有1,000個消息用戶在此活動。如此,對于不同的地址,就得到了不同的消息用戶聚集度,通過不同地址的不同的消息用戶聚集度的比較,就可以確定不同的熱點(diǎn)地址。找到了熱點(diǎn)地址,就可以幫助管理者更有效地管理相關(guān)地區(qū)。比如,如果熱點(diǎn)地址是一段時間內(nèi)這個商圈同種類商家中最為熱門的商家,就可以進(jìn)行有針對性的廣告投放等行為;如果熱點(diǎn)地址在某時段是交通熱點(diǎn),則管理者可以考慮利用該信息進(jìn)行道路改造、增加分流或者增加其它安全措施等。另外也可以將這些信息作為網(wǎng)絡(luò)服務(wù)內(nèi)容向消息用戶推送等。本發(fā)明的第六具體實施方式
用于了解消息用戶在不同地址的遷徙情況。其中,通過消息數(shù)據(jù)庫109中的所述索引獲得多個消息用戶以及對應(yīng)的消息相關(guān)時間、相關(guān)聯(lián)的地址。將同一個消息用戶的不同時間不同地址關(guān)聯(lián)起來,就可以得到一個消息用戶在一定的時間段中的路徑,這是一個時序數(shù)據(jù)。對不同消息用戶進(jìn)行分析就得到了多條帶時間信息的路徑,就可以找到在規(guī)定時間段中的最熱門的路徑。這可以幫助管理者更有效地管理相關(guān)地區(qū)。比如,如果熱點(diǎn)路徑是熱門的商家之間的聯(lián)系路徑,則可以基于路徑信息提供以下商業(yè)智能應(yīng)用商圈規(guī)劃,根據(jù)大量用戶去各個地址的先后順序,可以對商圈進(jìn)行規(guī)劃,使得用戶所需行走的時間最短;廣告投放,找出大量用戶去某家店鋪最有可能經(jīng)過的路徑,競爭對手可以在這條路徑上投放廣告,或者開店;如果熱點(diǎn)路徑是交通熱點(diǎn)路徑,則管理者可以考慮利用該信息進(jìn)行道路改造、增加分流或者增加其它安全措施等。另外也可以考慮將這些信息作為網(wǎng)絡(luò)服務(wù)內(nèi)容向消息用戶推送等。下面結(jié)合圖6詳細(xì)介紹本發(fā)明的第七具體實施方式
。本發(fā)明的第七具體實施方式
提供一種消息處理系統(tǒng)。該消息處理系統(tǒng)包括獲取裝置601,其用于獲取消息以及消息的定位信息;聚類裝置603,其用于根據(jù)所述消息的定位信息聚類所述消息,獲得消息聚類;抽取裝置605,其用于抽取消息聚類中的消息的內(nèi)容中的地址;以及分類訓(xùn)練裝置607,其用于基于消息聚類中的消息的內(nèi)容獲得所述地址的分類器。其中上述相關(guān)系統(tǒng)和裝置所涉及的方法已經(jīng)在上面進(jìn)行了詳細(xì)的解釋,在此不再贅述。優(yōu)選地,可以將所獲得消息聚類、地址的分類器等存儲在消息數(shù)據(jù)庫109中,以及對消息聚類、地址以及相關(guān)聯(lián)的分類器建立索引并將索引存儲在消息數(shù)據(jù)庫109中。優(yōu)選地,抽取裝置605還包括用于對包含抽取的地址的消息進(jìn)行計數(shù)的裝置;用于對抽取的地址根據(jù)包含該地址的消息的計數(shù)進(jìn)行排序的裝置;以及用于將低于計數(shù)閾值的地址刪除的裝置。優(yōu)選地,所述消息處理系統(tǒng)還包括用于接收不包含地址的消息以及該消息的定位信息的裝置;用于根據(jù)該消息的定位信息確定該消息所屬的消息聚類的裝置;以及用于遍歷該消息聚類中的地址的分類器以確定與該消息相關(guān)聯(lián)的地址的裝置。優(yōu)選地,所述用于遍歷該消息聚類中的地址的分類器以確定與該消息相關(guān)聯(lián)的地址的裝置包括用于將通過該消息聚類中的地址的分類器獲得的置信度高的地址確定為與該消息相關(guān)聯(lián)的地址的裝置。優(yōu)選地,所述消息處理系統(tǒng)還包括用于根據(jù)消息以及與之相關(guān)聯(lián)的地址建立索引的裝置,其中如果消息的內(nèi)容中具有地址,則將該地址作為該消息的相關(guān)聯(lián)的地址。優(yōu)選地,所述消息處理系統(tǒng)還包括用于接收來自消息用戶的包含地址的查詢請求的裝置;用于查詢與所述查詢請求的地址相關(guān)的消息,并按照主題分類查詢到的消息的裝置;以及用于向用戶發(fā)送分類后的消息的裝置。優(yōu)選地,用于所述按照主題分類查詢到的與所述查詢請求的地址相關(guān)的消息的裝置還包括用于對查詢到的消息進(jìn)行實時過濾的裝置。優(yōu)選地,所述消息處理系統(tǒng)還包括根據(jù)消息用戶、消息相關(guān)時間以及與之相關(guān)聯(lián)的地址建立索引,如果消息的內(nèi)容中具有地址,則將該地址作為該消息的相關(guān)聯(lián)的地址。優(yōu)選地,所述消息處理系統(tǒng)還包括用于分析多個消息用戶在消息相關(guān)時間與相關(guān)聯(lián)的地址之間的聯(lián)系,以獲得消息用戶、消息相關(guān)時間以及相關(guān)聯(lián)的地址之間的相關(guān)信息的裝置。優(yōu)選地,所述消息用戶、消息相關(guān)時間以及相關(guān)聯(lián)的地址之間的相關(guān)信息包括以下至少之一在相關(guān)聯(lián)的地址的消息用戶人數(shù)隨消息相關(guān)時間的變化;消息用戶在相關(guān)聯(lián)的地址之間隨消息相關(guān)時間的遷徙情況。另外,根據(jù)本發(fā)明的消息處理方法還可以通過計算機(jī)程序產(chǎn)品來實施,該計算機(jī)程序產(chǎn)品包括用于當(dāng)在計算機(jī)上運(yùn)行所述計算機(jī)程序產(chǎn)品時執(zhí)行以實施本發(fā)明的仿真方法的軟件代碼部分。還可以通過在計算機(jī)可讀記錄介質(zhì)中記錄一計算機(jī)程序來實施本發(fā)明,該計算機(jī)程序包括用于當(dāng)在計算機(jī)上運(yùn)行所述計算機(jī)程序時執(zhí)行以實施根據(jù)本發(fā)明的仿真方法的軟件代碼部分。即,根據(jù)本發(fā)明的仿真方法的過程能夠以計算機(jī)可讀介質(zhì)中的指令的形式和各種其它形式分發(fā),而不管實際用來執(zhí)行分發(fā)的信號承載介質(zhì)的特定類型。計算機(jī)可讀介質(zhì)的例子包括諸如EPROM、ROM、磁帶、紙、軟盤、硬盤驅(qū)動器、RAM和⑶-ROM的介質(zhì)以及諸如數(shù)字和模擬通信鏈路的傳輸型介質(zhì)。盡管參考本發(fā)明的優(yōu)選實施例具體展示和描述了本發(fā)明,但是本領(lǐng)域一般技術(shù)人員應(yīng)該明白,在不脫離所附權(quán)利要求限定的本發(fā)明的精神和范圍的情況下,可以對其進(jìn)行形式和細(xì)節(jié)上的各種修改。
權(quán)利要求
1.一種消息處理方法,包括 獲取消息以及消息的定位信息;根據(jù)所述消息的定位信息聚類所述消息,獲得消息聚類; 抽取消息聚類中消息的內(nèi)容中的地址;以及基于消息聚類中消息的內(nèi)容獲得所述地址的分類器。
2.如權(quán)利要求1所述的方法,其中抽取消息聚類中消息的內(nèi)容中的地址還包括 對包含抽取的地址的消息進(jìn)行計數(shù);對抽取的地址根據(jù)包含該地址的消息的計數(shù)進(jìn)行排序;以及刪除低于計數(shù)閾值的地址。
3.如權(quán)利要求1所述的方法,還包括針對消息的內(nèi)容中不包含地址的消息,根據(jù)該消息的定位信息確定該消息所屬的消息聚類;遍歷該消息聚類中的地址的分類器以確定與該消息相關(guān)聯(lián)的地址。
4.如權(quán)利要求3所述的方法,其中所述遍歷該消息聚類中的地址的分類器以確定與該消息相關(guān)聯(lián)的地址包括將通過該消息聚類中的地址的分類器獲得的置信度高的地址確定為與該消息相關(guān)聯(lián)的地址。
5.如權(quán)利要求3-4任一項所述的方法,還包括根據(jù)消息以及與之相關(guān)聯(lián)的地址建立索引,其中如果消息的內(nèi)容中具有地址,則將該地址作為該消息的相關(guān)聯(lián)的地址。
6.如權(quán)利要求5所述的方法,還包括 接收來自消息用戶的包含地址的查詢請求;查詢與所述查詢請求的地址相關(guān)的消息,并按照主題分類查詢到的消息;以及向消息用戶發(fā)送分類后的消息。
7.如權(quán)利要求6所述的方法,其中所述按照主題分類查詢到的消息還包括對查詢到的消息進(jìn)行實時過濾。
8.如權(quán)利要求3-4任一項所述的方法,還包括根據(jù)消息用戶、消息相關(guān)時間以及與之相關(guān)聯(lián)的地址建立索引,如果消息的內(nèi)容中具有地址,則將該地址作為該消息的相關(guān)聯(lián)的地址。
9.如權(quán)利要求8所述的方法,還包括分析多個消息用戶在消息相關(guān)時間與相關(guān)聯(lián)的地址之間的聯(lián)系,以獲得消息用戶、消息相關(guān)時間以及相關(guān)聯(lián)的地址之間的相關(guān)信息。
10.如權(quán)利要求9所述的方法,其中所述消息用戶、消息相關(guān)時間以及相關(guān)聯(lián)的地址之間的相關(guān)信息包括以下至少之一在相關(guān)聯(lián)的地址的消息用戶人數(shù)隨消息相關(guān)時間的變化; 消息用戶在相關(guān)聯(lián)的地址之間隨消息相關(guān)時間的遷徙情況。
11.如權(quán)利要求1所述的方法,所述定位信息包括GPS坐標(biāo),微博服務(wù)API中之一。
12.如權(quán)利要求1所述的方法,其中所述消息為微博消息。
13.一種消息處理系統(tǒng),包括獲取裝置,用于獲取消息以及消息的定位信息; 聚類裝置,用于根據(jù)所述消息的定位信息聚類所述消息,獲得消息聚類; 抽取裝置,用于抽取消息聚類中消息的內(nèi)容中的地址;以及分類訓(xùn)練裝置,用于基于消息聚類中消息的內(nèi)容獲得所述地址的分類器。
14.如權(quán)利要求13所述的系統(tǒng),其中抽取裝置還包括 用于對包含抽取的地址的消息進(jìn)行計數(shù)的裝置;用于對抽取的地址根據(jù)包含該地址的消息的計數(shù)進(jìn)行排序的裝置;以及用于將低于計數(shù)閾值的地址刪除的裝置。
15.如權(quán)利要求13所述的系統(tǒng),還包括用于針對不包含地址的消息,根據(jù)該消息的定位信息確定該消息所屬的消息聚類的裝置;以及用于遍歷該消息聚類中的地址的分類器以確定與該消息相關(guān)聯(lián)的地址的裝置。
16.如權(quán)利要求15所述的系統(tǒng),其中所述用于遍歷該消息聚類中的地址的分類器以確定與該消息相關(guān)聯(lián)的地址的裝置包括用于將通過該消息聚類中的地址的分類器獲得的置信度高的地址確定為與該消息相關(guān)聯(lián)的地址的裝置。
17.如權(quán)利要求13-16任一項所述的系統(tǒng),還包括用于根據(jù)消息以及與之相關(guān)聯(lián)的地址建立索引的裝置,其中如果消息的內(nèi)容中具有地址,則將該地址作為該消息的相關(guān)聯(lián)的地址。
18.如權(quán)利要求17所述的系統(tǒng),還包括用于接收來自消息用戶的包含地址的查詢請求的裝置;用于查詢與所述查詢請求的地址相關(guān)的消息、并按照主題分類查詢到的消息的裝置;以及用于向消息用戶發(fā)送分類后的消息的裝置。
19.如權(quán)利要求18所述的系統(tǒng),其中用于查詢與所述查詢請求的地址相關(guān)的消息、并按照主題分類查詢到的消息的裝置還包括用于對查詢到的消息進(jìn)行實時過濾的裝置。
20.如權(quán)利要求1-4任一項所述的方法,還包括根據(jù)消息用戶、消息相關(guān)時間以及與之相關(guān)聯(lián)的地址建立索引,如果消息的內(nèi)容中具有地址,則將該地址作為該消息的相關(guān)聯(lián)的地址。
21.如權(quán)利要求20所述的系統(tǒng),還包括用于分析多個消息用戶在消息相關(guān)時間與相關(guān)聯(lián)的地址之間的聯(lián)系,以獲得消息用戶、消息相關(guān)時間以及相關(guān)聯(lián)的地址之間的相關(guān)信息的裝置。
22.如權(quán)利要求21所述的系統(tǒng),其中所述消息用戶、消息相關(guān)時間以及相關(guān)聯(lián)的地址之間的相關(guān)信息包括以下至少之一在相關(guān)聯(lián)的地址的消息用戶人數(shù)隨消息相關(guān)時間的變化; 消息用戶在相關(guān)聯(lián)的地址之間隨消息相關(guān)時間的遷徙情況。
全文摘要
本發(fā)明提供一種消息處理方法和系統(tǒng)。其中所述消息處理方法包括獲取消息以及消息的定位信息;根據(jù)所述消息的定位信息聚類所述消息,獲得消息聚類;抽取消息聚類中消息的內(nèi)容中的地址;以及基于消息聚類中消息的內(nèi)容獲得所述地址的分類器。通過充分利用相關(guān)消息的定位信息等和及時性特點(diǎn),便捷地為消息用戶提供相關(guān)細(xì)致地址信息,并為管理決策提供有用信息。
文檔編號H04W4/12GK102348171SQ201010243659
公開日2012年2月8日 申請日期2010年7月29日 優(yōu)先權(quán)日2010年7月29日
發(fā)明者吳賢, 張俐, 蘇中, 蔡柯柯, 郭宏蕾 申請人:國際商業(yè)機(jī)器公司