專利名稱:微博概括的制作方法
微博概括技術(shù)領(lǐng)域
本公開涉及可應(yīng)用于博客或微博以便以縮短的形式呈現(xiàn)被判定為有用的信息的概括技術(shù)。
背景技術(shù):
許多公眾意見通過萬維網(wǎng)(World Wide Web)來表達。常常,這些意見在所謂的博客或微博中表達。博客(網(wǎng)絡(luò)日志(web log)的縮寫)通常用來提供評論、事件描述或諸如圖片或視頻等其他材料。微博是博客形式的廣播媒體,并且與傳統(tǒng)博客的區(qū)別在于其內(nèi)容在實際和總計的文件大小二者上通常更小。
博客或者微博通常能夠包含許多信息。這些信息能夠讓許多不同的個人感興趣。 然而,因為博客和微博的龐大數(shù)量,這些信息可能經(jīng)常被混淆或者完全地丟失。發(fā)明內(nèi)容
提供本發(fā)明內(nèi)容是為了以簡化形式來介紹選擇的概念,下面在具體實施方式
中會進一步描述選擇的概念。本發(fā)明內(nèi)容并非旨在標識所要求保護的主題的關(guān)鍵特征或必要特征。
各實施例提供了可應(yīng)用于博客或微博的以縮短的形式來呈現(xiàn)確定為有用的信息的概括技術(shù)。在一個或更多個實施例中,一種方法被用來從諸如免費文本等各種資源中來自動獲取一組概念。這些所獲取的概念然后用來指導(dǎo)聚類處理。通過合并情感和詞的頻率, 簇被排名并且隨后被概括。
參考附圖對具體實施方式
進行描述。圖中,附圖標記最左邊的數(shù)字標識該附圖標記首次出現(xiàn)的圖。在說明書和附圖中的不同實例中使用相同附圖標記可表示相似或相同項。
圖I示出根據(jù)一個或更多個實施例的示例性實施方式的環(huán)境。
圖2更詳細地示出圖I所示的示例性實施方式的系統(tǒng)。
圖3示出了根據(jù)一個或更多個實施例的示例性學(xué)習(xí)組件。
圖4示出了根據(jù)一個或更多個實施例的示例性上位詞樹(hypernymtree)。
圖5示出了根據(jù)一個或更多個實施例的示例性概括組件。
圖6為描述根據(jù)一個或更多個實施例的方法中的步驟的流程圖。
圖7示出了可用來實施這里描述的各實施例的示例性計算裝置。
具體實施方式
鍵
各實施例提供了可用于博客或微博的以縮短形式呈現(xiàn)被確定為有用的信息的概括技術(shù)。該技術(shù)可用于博客或任意大小的博客類型的入口。在至少一些實施例中,該技術(shù)可用于通常具有1000個或更少的字符的入口。在至少一些實施例中,該技術(shù)可用于具有140 個或更少的字符的微博。這包括可以只有幾個句子長的微博。這樣的微博的一個示例叫做 “推特(tweets)”。該概括技術(shù)可用于廣泛的入口類型。
在一個或更多個實施例中,一種方法用來從諸如免費文本等各種資源中來自動獲取一組概念。然后,這些所獲取的概念用來指導(dǎo)聚類處理。通過合并情感和詞的頻率,簇被排名并且隨后被概括。
為了說明該概括技術(shù),利用了與公司相關(guān)的微博形式的入口類型。這些微博通常提及公司名稱,并且可以包含與所提及的公司相關(guān)的意見的表達。經(jīng)常,這些微博并不是有意的評論并且可包括從關(guān)于新聞文章的討論到與特定公司相關(guān)的職位招聘和廣告等各種觀點。這使得自動判斷微博中表達的情感更加困難。在該情況下,各種方法被用來獲取一組商業(yè)概念,該商業(yè)概念然后被用于指導(dǎo)聚類處理(clustering process),其中,簇 (cluster)被排名并被概括。
在下述討論中,首先描述可操作地使用這里描述的技術(shù)的示例性環(huán)境。然后描述可在該示例性環(huán)境以及其他環(huán)境中使用的各實施例的示例說明。相應(yīng)地,該示例性環(huán)境并不限于執(zhí)行所描述的實施例并且所描述的實施例也不限于在該示例性環(huán)境中實施。
示例件運行環(huán)塏
圖I所示為可操作地使用本文檔描述的技術(shù)的示例性實施方式中的環(huán)境100。所圖示的環(huán)境100包括可以以多種方法配置的計算裝置102的示例。比如,計算裝置102可配置為例如關(guān)于圖2而進一步描述的傳統(tǒng)計算機(比如臺式個人計算機和筆記本計算機等)、 移動站、娛樂裝置、通信地耦合到電視機的機頂盒、無線電話、上網(wǎng)本(netbook)、游戲控制臺和手持裝置等。因此,計算裝置102可以涉及從具有實質(zhì)的存儲器和處理器資源的完整資源裝置(比如個人電腦、游戲操作臺)到具有有限的存儲器和/或處理資源的低資源裝置 (比如傳統(tǒng)置頂盒、手持游戲控制臺)。計算裝置102也包括使計算裝置102執(zhí)行下面描述的一個或更多個操作的軟件。
計算裝置102包括學(xué)習(xí)組件103和概括組件104。
學(xué)習(xí)組件103代表在一個或更多個實施例中,使得能夠自動學(xué)習(xí)如商業(yè)概念等概念的功能。需要理解和明白的是,這里描述的技術(shù)可在包括(以舉例方式且不作限制)運動團隊、娛樂、科學(xué)研究、政治、公共事務(wù)問題和/或?qū)W生生活(這里僅提到了一些)的其他領(lǐng)域?qū)嵤T谏虡I(yè)背景中,學(xué)習(xí)組件103能夠預(yù)先學(xué)習(xí)通用的且與許多公司(如果不是絕大多數(shù)或全部的公司)相關(guān)的商業(yè)概念。這些概念然后用作可能的簇。微博隨后映射到這些概念。 比如,與公司相關(guān)的概念可包括“人”、“產(chǎn)品”、“資產(chǎn)”和“事件”。這些概念的每一個能夠用來對微博聚類。在下述方法中,所有的公司將具有同一組的可能的簇,但就特定日子的微博中哪些概念有更多的量來說是變化的。自動學(xué)習(xí)過程可在離線過程中進行,該離線過程利用如新聞文章(這里只是舉例,而并非限制)等各種資源。使用該方法,與公司相關(guān)的概念可應(yīng)用到所有類型的公司,而不考慮該公司是技術(shù)相關(guān)的公司還是零售業(yè),這在下面的描述中將變得明顯。
概括組件104代表使簇能夠通過情感和熵(entropy)來排名的功能性。這使得討論相同話題的簇比包括多樣內(nèi)容的簇能排名更高。比如,在公司CEO辭職的特定日子,許多用戶可討論該事件,且因此該公司的“人”簇會在該特定日子有同質(zhì)的內(nèi)容。這種同質(zhì)性 (homogeneity)會與該公司產(chǎn)品簇形成對比,比如,人們可能正在談?wù)摬煌a(chǎn)品。此外,該簇的情感值(sentiment value)也被考慮在內(nèi)。熵量度提供了判斷同質(zhì)性的途徑。在所示出并描述的實施例中,情感與詞語頻度被合并,以計算熵量度,隨后該熵量度被用來對簇排名,這在下面會變得明顯。一旦簇已被排名,概括組件104可對簇進行概括。
計算裝置102還包括姿勢模塊105,姿勢模塊105可通過一個或更多個手指來執(zhí)行姿勢識別,且使得執(zhí)行對應(yīng)于該姿勢的操作。姿勢可由模塊105以多種不同的方式來識別。如,姿勢模塊105可配置為識別觸摸輸入,比如用戶手106a的手指接近采用了觸摸屏功能的計算裝置102的顯示裝置108。模塊105可用來識別單指姿勢和底座姿勢(bezel gesture)、多指/同一手的姿勢和底座姿勢和/或多指/不同手的姿勢和底座姿勢。
計算裝置102還可配置為檢測并區(qū)分觸摸輸入(比如由用戶手106a的一個或更多個手指提供的)和觸筆輸入(比如由觸筆116提供的)。可用多種方法執(zhí)行該區(qū)分,比如相對于顯示屏108被觸筆116接觸的量,檢測顯示裝置108被用戶的手106a的手指接觸的量。
因此,通過識別和平衡(leverage)觸筆和觸摸輸入之間的劃分和不同類型的觸摸輸入,姿勢模塊105可支持多種不同的姿勢技術(shù)。
圖2示出了示例性系統(tǒng)200,該系統(tǒng)示出了學(xué)習(xí)組件103、概括組件104和姿勢模塊105,示例性系統(tǒng)200在多個裝置通過中央計算裝置互聯(lián)的環(huán)境中實施。雖然圖2示出了學(xué)習(xí)組件103和概括組件104位于計算裝置102上,但是,要認識和理解的是,這些組件也可分布在其他計算裝置之間(比如,如虛線所示,分布在平臺210上,作為網(wǎng)絡(luò)服務(wù)212的部分)。中央計算裝置可在多個裝置本地,或可位于遠離多個裝置的位置。在一個實施例中, 中央計算裝置是“云”服務(wù)器農(nóng)場(“cloud” server farm),其包括通過網(wǎng)絡(luò)、互聯(lián)網(wǎng)或其他方式連接到多個裝置的一個或更多個服務(wù)器計算機。
在一個實施例中,該互聯(lián)體系結(jié)構(gòu)使得功能性能夠在多個裝置上傳遞,以向多個裝置的使用者提供相同且無縫的體驗。多個裝置中的每一個可具有不同的物理要求和能力,且中央計算裝置利用平臺將是適應(yīng)于該裝置而又對所有裝置共同的體驗傳遞給該裝置。在一個實施例中,目標裝置的“類”被創(chuàng)建,且體驗適應(yīng)于裝置的一般類。裝置的類可由裝置的物理性質(zhì)、用法或其他普通特性來定義。比如,如前所述,計算裝置102可以用針對諸如移動裝置202、計算機204以及電視206使用的多種不同的方式而配置。這些配置的每一個通常具有相應(yīng)的屏幕尺寸,并且因此,在該示例性系統(tǒng)200中,計算裝置102可被配置為這些裝置類中的一個。比如,計算裝置102可采用包括移動電話、音樂播放器、游戲裝置等裝置的移動202類。計算裝置102還可采用包括個人計算機、筆記本計算機、上網(wǎng)本等裝置的計算機204類。電視206配置包括涉及在休閑的環(huán)境中的顯示器(比如電視、機頂盒、游戲控制臺等)的裝置配置。因此,這里描述的技術(shù)可由這些不同的計算機裝置102配置所支持,并且不限于下述的特定實施例。
云208被示出為包括用于網(wǎng)絡(luò)服務(wù)212的平臺210。平臺210對云208的硬件(比如服務(wù)器)和軟件資源的基本的功能性進行抽象,并因此可作為“云操作系統(tǒng)”。比如,平臺 210可以對資源進行抽象以將計算裝置102與其他計算裝置連接。平臺210還可用于對資源的縮放抽象,以便為所遇到的對經(jīng)由平臺210實施的網(wǎng)絡(luò)服務(wù)212的需求提供相應(yīng)的尺度級。還提出了多個其他示例,諸如對服務(wù)器農(nóng)場中服務(wù)器的負載平衡和防止惡意方(比如垃圾信息、病毒以及其他惡意軟件)的保護等。
這樣,云208作為屬于可為計算裝置102通過因特網(wǎng)或其他網(wǎng)絡(luò)而得到的軟件和硬件資源的策略的一部分而被包括。比如,學(xué)習(xí)組件103和概括組件104可在計算裝置102 上并且通過支持網(wǎng)絡(luò)服務(wù)212的平臺210來部分地實施。
由姿勢模塊支持的姿勢技術(shù)可利用移動配置202中的觸摸屏功能性、計算機204 配置的跟蹤板功能性來檢測,由作為支持不涉及與特定輸入裝置的接觸的自然用戶界面 (natural user interface, NUI)的一部分的照相機所檢測,等等。進一步地,檢測和識別標識特定姿勢的輸入操作的執(zhí)行可分布于整個系統(tǒng)200,如由計算裝置102和/或云208的平臺210所支持的網(wǎng)絡(luò)服務(wù)212執(zhí)行。
通常這里所描述的任何功能可用軟件、固件、硬件(比如固定邏輯電路)、手動處理或這些實施的組合而實施。這里所用的術(shù)語“模塊”、“功能性”和“邏輯”通常代表軟件、固件、硬件或其組合。在軟件實施的情況下,當在處理器(比如CPU或多個CPU)上或由處理器執(zhí)行時,模塊、功能性或邏輯代表執(zhí)行所指定的任務(wù)的程序代碼。該程序代碼可存儲在一個或更多個計算機可讀存儲器裝置中。下述姿勢技術(shù)的特性與平臺無關(guān),意思是該技術(shù)可在具有多個處理器的多個商業(yè)計算平臺上實施。
在下面的討論中,各個部分描述了各示例性實施例。標題為“示例性學(xué)習(xí)組件”的部分描述根據(jù)一個或多個實施例的示例性學(xué)習(xí)組件。接著,標題為“示例性概括組件”的部分描述根據(jù)一個或多個實施例的示例性概括組件。接下來,標題為“示例性方法”的部分描述了根據(jù)一個或多個實施例的示例性方法。最后,標題為“示例性裝置”的部分描述了可被用來實施一個或多個實施例的示例性裝置的各方面。
已經(jīng)描述了能夠在其中對微博進行概括的示例性運行環(huán)境,現(xiàn)在考慮討論根據(jù)一個或多個實施例的示例性實施方式。
示例件學(xué)習(xí)組件
圖3描述了根據(jù)一個或更多個實施例的示例性學(xué)習(xí)組件103。在該示例中,學(xué)習(xí)組件103包括詞查找組件300、詞典302、詞映射組件304和概念存儲裝置306。
詞查找組件300代表處理多個資源并計算個體詞與公司名稱一起出現(xiàn)的頻率的量度的功能性。這可以用任何適合的方式來執(zhí)行,下面提供了適合方式的示例。這些詞然后用來構(gòu)建詞典302。在一個或更多個實施例中,詞典302包含被發(fā)現(xiàn)一般與公司相關(guān)的名ο
詞典302代表包含由詞查找組件300標識的詞(如名詞)的功能性。出現(xiàn)在詞典 302中的詞隨后由詞映射組件304處理。
詞映射組件304代表處理或映射在詞典302中出現(xiàn)的詞以根據(jù)這些詞來創(chuàng)建更廣義的概念的功能性。任何適合的技術(shù)可用于將詞典300中出現(xiàn)的詞映射到更廣義的概念, 下面提供其示例。
概念存儲裝置306被配置為存儲所定義的用于如下所述的對微博進行概括的各概念。
在操作中,且與一個特定的實施示例相關(guān)地,學(xué)習(xí)組件103能夠如下所述地運行。
如上面所指出的,由詞查找組件300處理多個資源,以創(chuàng)建由詞典302所表示的詞列表。在該特定的實施示例中,詞典包含一般與公司相關(guān)的名詞。比如,公司通常有CEO、 執(zhí)行者、辦公室、職員、顧客和產(chǎn)品。由于公司經(jīng)常在新聞中被討論,因此,從新聞?wù)Z料(news corpus)中自動學(xué)習(xí)這些名詞和其他名詞。
在一個示例中,全年的紐約時報新聞文章被用作分析。每一篇新聞文章可對應(yīng)一個文件。文件被自動分配部分語言標簽,并用例如人、組織和/或位置提及等命名實體來標記。出現(xiàn)在文章中的組織或公司提及被標簽標記為“公司”,并用一般的記號“COMPANY”來替代。接下來,預(yù)定義的詞窗被用來在所有公司提及之前和之后選擇詞,作為候選者wi,并為每個候選者計算關(guān)聯(lián)量度??刹捎萌魏芜m合大小的預(yù)定義的窗。在本實施方式示例中, 使用20個詞的預(yù)定義窗。關(guān)聯(lián)量度反映詞與公司名稱一起出現(xiàn)的頻率。任何適合類型的技術(shù)可用來計算該關(guān)聯(lián)量度。在所示出和描述的實施例中,稱為互信息的技術(shù)被用來測量共現(xiàn)(co-occurrence)。在本示例中,特定詞的互信息或關(guān)聯(lián)量度可計算如下
MhwiXOMPANY) = log})(Wi)/;(( OMPAM)
這里Wi和COMPANY是兩個離散隨機變量,p (wi,COMPANY)是Wi和COMPANY的聯(lián)合概率分布函數(shù);P (Wi)和P (COMPANY)分別是Wi和COMPANY的邊緣概率分布函數(shù)。
在該特定示例中,取該排名中前幾千個名詞,并且編輯公司詞典(如詞典302)。
接下來,如上面所指出的,根據(jù)在詞典302中出現(xiàn)的詞創(chuàng)建更廣義的概念。這是通過使用詞映射組件304完成的。在該具體的特別示例中,通過利用所謂的上位詞路徑來推導(dǎo)出更廣義的概念。任何利用上位詞路徑的適合的方法可被使用。在一個特定示例中使用了 WordNet,—種在其中按層級來組織詞的英語語言的詞匯數(shù)據(jù)庫。從WordNet中可獲取詞的更一般的概念。例如“執(zhí)行者”是“人”以及“狗”是“動物”。在該示出和描述的實施例中,檢查在詞典302中的每個公司詞的上位詞路徑,并記錄在多個不同級出現(xiàn)的詞。在至少某些實施例中,來自上位詞路徑的更高級的更一般的詞被記錄。作為示例,考慮圖4。
在圖4中,出現(xiàn)了兩個名詞“商業(yè)廣告”和“傳單”。這些名詞被映射到出現(xiàn)在多個不同層級內(nèi)的語義標簽。在示出的示例中,這些名詞映射到所示出的上位詞樹中的相同的選擇級,并相應(yīng)地,被分組在“通信-消息-促銷”語義標簽下。在不脫離所要求保護的主題的精神和范圍下,可以利用任何合適數(shù)量的級。在該特定示例中,利用出現(xiàn)在如虛線矩形所示的級3、4和5處的語義標簽。出現(xiàn)在該級的集合的語義標簽構(gòu)成比原始詞更一般的概念。然而,更一般的概念并不過于一般。由于標簽更一般,因此,多個詞被映射到同一簇,從而形成隨后存儲在概念存儲裝置306中的“概念”。因此,概念由語義標簽和映射到其的詞來定義。
如上所述,對詞典302中的名詞的處理產(chǎn)生多個不同的概念。這些概念可相當?shù)夭煌?,且可被直觀地理解為與業(yè)務(wù)相關(guān)。這些概念然后可被重命名,以給予其信息更豐富的名字。比如,(以舉例的方式且不作限制)概念的示例包括“人”、“事件”、“資產(chǎn)”、“組織”和 “通信”等。在概念存儲裝置306中的每個概念還包括映射到該概念的詞。比如,概念“人” 包含如“執(zhí)行者”、“CE0”、“顧客”以及“分析者”等詞。在示出的和描述的實施例中,上述處理可離線完成。
已經(jīng)根據(jù)一個或更多個實施例考慮了示例性學(xué)習(xí)組件以及概念存儲裝置如何構(gòu)建,現(xiàn)在考慮討論根據(jù)一個或更多個實施例可利用該概念存儲裝置執(zhí)行概括處理的示例性概括組件。
示例性概括組件
圖5示出了根據(jù)一個或更多個實施例的示例性概括組件104。在該示例中,概括組件包括聚類組件500、情感預(yù)測組件502、簇排名組件504和簇概括組件506。
聚類組件500代表根據(jù)來自特定公司的微博和來自概念存儲裝置的概念二者的輸入來形成各個簇的功能性。
情感預(yù)測組件502代表為各微博計算情感值的功能性。可以用任何適合的方式計算情感值,在下面提供其示例。
簇排名組件504代表使用由情感預(yù)測組件502計算的情感值對來自聚類組件500 的各個簇排名的功能性。下面僅提供了如何完成該功能的一個示例。
簇概括組件506代表提供對每個簇的精確的簇概括的功能性。下面僅提供了如何完成該功能的一個示例。
在操作中,概括組件104可如下操作。來自概念存儲裝置的每個概念代表微博的可能的簇。為了對來自一個特定公司的微博聚類,每條微博由聚類組件500分配給來自概念存儲裝置306的可能概念中的一個。作為第一步,針對每個概念為微博計算成員分數(shù)。這樣,如果有10條微博和10個概念,則計算出總共100個成員分數(shù)。成員分數(shù)可以用任何適合的方式來計算。在示出和描述的實施例中,檢查出現(xiàn)在微博中的詞,并且記錄作為簇中的任何先前詞(prior word)的直接匹配(direct matches)的那些詞。這些詞被稱為該簇的 “精確匹配(exact matches)”。在該特定示例WordNet中,然后,嘗試將剩余的非精確匹配的詞映射到該簇使用的語義標簽。即剩余的非精確匹配的詞通過使用上位詞路徑來抽象, 以確認所述非精確匹配的詞中任一個在其上位詞路徑中是否具有簇的語義標簽作為子字符串。這些詞被稱為“模糊匹配(fuzzy matches)”。針對 微博-簇對的成員分數(shù)(score) 由下式來計算
分數(shù)=λ · I精確匹配I+ (1-λ) · I模糊匹配
這里λ是O和I之間的值,并給予精確匹配更高的權(quán)重。接著,微博分配給具有最高分數(shù)的簇,從而將每條微博只分配給一個簇。來自微博的具有精確或模糊匹配的詞被存儲作為對應(yīng)的所分配簇的“映射詞”。對于多于一個簇,一個微博可能相同的成員分數(shù)。 在這些情況下,可使用任何適合的啟發(fā)式方法來處理該關(guān)系,并將每條微博分配給特定簇, 如(舉例且不做限制)將微博隨機分配給簇中的一個,分配給當前形成的簇中較大的一個或分配給較小的一個。
利用如上所述的聚類組件500,已經(jīng)用其相關(guān)的微博和映射詞形成了簇,現(xiàn)在可由簇排名組件504對簇進行排名??苫貞洠嘏琶M件504利用有關(guān)由情感預(yù)測組件502所計算的所分配的微博的情感值和映射詞的統(tǒng)計對各個簇進行排名。特別地,在本示例中,利用對每個簇的映射詞的熵量度對簇進行排名。如果某些映射詞在簇中有很高的概率,則其指示被廣泛討論的子話題。另一方面,如果映射詞寬泛地變化而沒有明顯占多數(shù)的詞,則其是包括多樣的子話題的簇,且因此不太重要。進一步地,在運算中,具有情感的映射詞與沒有情感的映射詞相比被給予更高的權(quán)重。這可以用適當?shù)姆绞絹韴?zhí)行。在示出和說明的實施例中,這可按以下來執(zhí)行。
考慮具有某些映射詞的簇Gp映射詞Wi的概率由下式給出
權(quán)利要求
1.一種方法,該方法包括 處理(600)多個資源以構(gòu)建詞典,所述詞典配置為使得能夠概括多條微博; 使用(602)所述詞典創(chuàng)建概念,至少一些個體概念包括含有多個詞的語義標簽; 將多條微博分配(604)給多個所述概念以有效地形成潛在簇; 計算(606)每個微博/簇對的成員分數(shù);以及 使用(606)所述成員分數(shù)將微博分配給簇。
2.如權(quán)利要求I所述的方法,其中所述處理多個資源包括使用共現(xiàn)技術(shù)來構(gòu)建所述詞典。
3.如權(quán)利要求I所述的方法,其中所述微博包括與公司相關(guān)的微博。
4.如權(quán)利要求I所述的方法,其中處理多個資源以構(gòu)建詞典包括 構(gòu)建含有與公司相關(guān)的名詞的詞典; 使用預(yù)定義的詞窗口在與公司相關(guān)的提及之前和之后選詞;以及 為至少一些個體詞計算關(guān)聯(lián)量度,所述關(guān)聯(lián)量度反映所述詞與公司提及一起出現(xiàn)的頻率。
5.如權(quán)利要求I所述的方法,其中使用所述詞典創(chuàng)建概念包括利用上位詞路徑,所述語義標簽含有來自所述上位詞路徑的多個詞,該多個詞出現(xiàn)在所述上位詞路徑的不同層級。
6.—種或更多種計算機可讀存儲介質(zhì),所述計算機可讀介質(zhì)包含計算機可讀指令,當被執(zhí)行時,所述計算機指令實施包括以下的方法 利用與各簇相關(guān)的映射詞上的熵量度來對各個簇排名(608),所述熵量度合并與所述映射詞相關(guān)的情感值,所述簇與要被概括的微博相關(guān);以及概括(610)每個簇的內(nèi)容。
7.如權(quán)利要求6所述的一種或更多種計算機可讀存儲介質(zhì),其中所述概括包括根據(jù)概率量度選擇一個或更多個句子,所述概率量度合并與所述一個或更多個句子中出現(xiàn)的詞相關(guān)的情感度。
8.如權(quán)利要求6所述的一種或更多種計算機可讀存儲介質(zhì),其中所述微博與一個或更多個公司相關(guān)。
9.如權(quán)利要求6所述的一種或更多種計算機可讀存儲介質(zhì),其中所述排名包括計算映射詞的概率,其中映射詞的概率合并相關(guān)情感值,情感值與微博被分成肯定、否定或中性類別的分類相關(guān)。
10.如權(quán)利要求6所述的一種或更多種計算機可讀存儲介質(zhì),其中所述排名包括 計算映射詞的概率,其中映射詞的概率合并相關(guān)情感值;以及 計算將與簇的映射詞相關(guān)的概率考慮在內(nèi)的熵量度。
全文摘要
公開了微博概括。各實施例提供了概括技術(shù),該概括技術(shù)可應(yīng)用于博客或微博以便以縮短的形式呈現(xiàn)被判定為有用的信息。在一個或更多個實施例中,一種方法用來從諸如免費文本等各種資源中自動獲取概念組。這些所獲取的概念然后用來指導(dǎo)聚類處理。對簇進行排名,并隨后通過合并詞的頻率和情感來概括簇。
文檔編號G06F17/30GK102982124SQ20121045357
公開日2013年3月20日 申請日期2012年11月13日 優(yōu)先權(quán)日2011年11月14日
發(fā)明者安妮·路易斯, 托德·紐曼 申請人:微軟公司