一種基于非負(fù)矩陣分解的事件分析方法與系統(tǒng)的制作方法

文檔序號(hào)：6628210閱讀：491來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種基于非負(fù)矩陣分解的事件分析方法與系統(tǒng)的制作方法
【專利摘要】本發(fā)明提供一種基于非負(fù)矩陣分解的事件分析方法與系統(tǒng)，該方法包括：獲取包括至少一個(gè)數(shù)據(jù)文本的待處理數(shù)據(jù)；分別對(duì)每個(gè)數(shù)據(jù)文本進(jìn)行分詞處理，得到與待處理數(shù)據(jù)對(duì)應(yīng)的文本空間矩陣；對(duì)文本空間矩陣進(jìn)行非負(fù)矩陣分解，根據(jù)分解得到的基矩陣確定待處理數(shù)據(jù)中包含的各個(gè)事件以及分別用于描述各個(gè)事件的關(guān)鍵詞，并根據(jù)分解得到的系數(shù)矩陣確定分別與各個(gè)事件對(duì)應(yīng)的數(shù)據(jù)文本。通過(guò)構(gòu)造待處理數(shù)據(jù)的文本空間矩陣，并對(duì)該文本空間矩陣進(jìn)行非負(fù)矩陣分解，從而將一個(gè)規(guī)模龐大的矩陣分解成為兩個(gè)規(guī)模較小的矩陣，并且保證分解前后矩陣元素的非負(fù)性，在保證事件挖掘結(jié)果的準(zhǔn)確性的同時(shí)，通過(guò)降維找到待處理數(shù)據(jù)中包含的事件，計(jì)算簡(jiǎn)便，可擴(kuò)展性較好。
【專利說(shuō)明】—種基于非負(fù)矩陣分解的事件分析方法與系統(tǒng)

【技術(shù)領(lǐng)域】
[0001]本發(fā)明屬于數(shù)據(jù)挖掘【技術(shù)領(lǐng)域】，尤其是涉及一種基于非負(fù)矩陣分解的事件分析方法與系統(tǒng)。

【背景技術(shù)】
[0002]隨著互聯(lián)網(wǎng)技術(shù)的蓬勃發(fā)展，越來(lái)越多的用戶通過(guò)比如論壇、微博等社交網(wǎng)絡(luò)平臺(tái)來(lái)發(fā)布各種新聞或者發(fā)表個(gè)人對(duì)一些社會(huì)現(xiàn)象的意見(jiàn)，從而導(dǎo)致互聯(lián)網(wǎng)上的各種數(shù)據(jù)信息也呈現(xiàn)出爆炸式增長(zhǎng)，如何對(duì)海量的數(shù)據(jù)信息進(jìn)行有效的事件挖掘是各搜索引擎一個(gè)主要研究的問(wèn)題。
[0003]現(xiàn)有的一種數(shù)據(jù)挖掘的方式是采用層次式的聚類方式，對(duì)給定數(shù)據(jù)對(duì)象集合進(jìn)行層次的分解，直到某種截止條件滿足為止。具體又可分為:凝聚的層次聚類:一種自底向上的策略，首先將每個(gè)數(shù)據(jù)對(duì)象作為一個(gè)原子簇，然后以數(shù)據(jù)對(duì)象間的相似性為依據(jù)合并這些原子簇為越來(lái)越大的簇，直到某個(gè)截止條件被滿足。分裂的層次聚類:采用自頂向下的策略，它首先將所有數(shù)據(jù)對(duì)象置于一個(gè)簇中，然后逐漸細(xì)分為越來(lái)越小的簇，直到達(dá)到了某個(gè)截止條件。
[0004]但是，由于層次聚類的方式本身的特性決定了其具有較高的計(jì)算復(fù)雜度，使得可擴(kuò)展性受限，不適于應(yīng)用在海量數(shù)據(jù)的事件挖掘中。

【發(fā)明內(nèi)容】

[0005]針對(duì)上述存在的問(wèn)題，本發(fā)明提供一種基于非負(fù)矩陣分解的事件分析方法與系統(tǒng)，用以克服現(xiàn)有技術(shù)中的層次聚類方式導(dǎo)致較高的計(jì)算復(fù)雜度和較差的可擴(kuò)展性的缺陷。
[0006]本發(fā)明提供了一種基于非負(fù)矩陣分解的事件分析方法，包括:
[0007]獲取待處理數(shù)據(jù)，所述待處理數(shù)據(jù)中包括至少一個(gè)數(shù)據(jù)文本；
[0008]分別對(duì)所述至少一個(gè)數(shù)據(jù)文本中的每個(gè)數(shù)據(jù)文本進(jìn)行分詞處理，得到與所述待處理數(shù)據(jù)對(duì)應(yīng)的文本空間矩陣，所述文本空間矩陣描述了所述至少一個(gè)數(shù)據(jù)文本中所包含的詞語(yǔ)信息；
[0009]對(duì)所述文本空間矩陣進(jìn)行非負(fù)矩陣分解，根據(jù)分解得到的基矩陣確定所述待處理數(shù)據(jù)中包含的各個(gè)事件以及分別用于描述所述各個(gè)事件的關(guān)鍵詞，并根據(jù)分解得到的系數(shù)矩陣確定分別與所述各個(gè)事件對(duì)應(yīng)的數(shù)據(jù)文本。
[0010]本發(fā)明提供了一種基于非負(fù)矩陣分解的事件分析系統(tǒng)，包括:
[0011]獲取模塊，用于獲取待處理數(shù)據(jù)，所述待處理數(shù)據(jù)中包括至少一個(gè)數(shù)據(jù)文本；
[0012]處理模塊，用于分別對(duì)所述至少一個(gè)數(shù)據(jù)文本中的每個(gè)數(shù)據(jù)文本進(jìn)行分詞處理，得到與所述待處理數(shù)據(jù)對(duì)應(yīng)的文本空間矩陣，所述文本空間矩陣描述了所述至少一個(gè)數(shù)據(jù)文本中所包含的詞語(yǔ)信息；
[0013]計(jì)算模塊，用于對(duì)所述文本空間矩陣進(jìn)行非負(fù)矩陣分解，根據(jù)分解得到的基矩陣確定所述待處理數(shù)據(jù)中包含的各個(gè)事件以及分別用于描述所述各個(gè)事件的關(guān)鍵詞，并根據(jù)分解得到的系數(shù)矩陣確定分別與所述各個(gè)事件對(duì)應(yīng)的數(shù)據(jù)文本。
[0014]本發(fā)明提供的基于非負(fù)矩陣分解的事件分析方法與系統(tǒng)，在獲取到包含多個(gè)數(shù)據(jù)文本的待處理數(shù)據(jù)后，以詞語(yǔ)為單位，對(duì)該多個(gè)數(shù)據(jù)文本分別進(jìn)行分詞處理，從而得到用于描述該待處理數(shù)據(jù)中包含的多個(gè)數(shù)據(jù)文件信息以及該多個(gè)數(shù)據(jù)文件信息中包含的所有詞語(yǔ)的文本空間矩陣。進(jìn)而，在該文本空間矩陣進(jìn)行非負(fù)矩陣分解，根據(jù)分解得到的基矩陣得到待處理數(shù)據(jù)中包含的各個(gè)事件以及分別用于描述所述各個(gè)事件的關(guān)鍵詞，并根據(jù)分解得到的系數(shù)矩陣確定分別與每個(gè)事件對(duì)應(yīng)的數(shù)據(jù)文本，即包含該事件的數(shù)據(jù)文本。通過(guò)構(gòu)造待處理數(shù)據(jù)的文本空間矩陣，并對(duì)該文本空間矩陣進(jìn)行非負(fù)矩陣分解，從而將一個(gè)規(guī)模龐大的矩陣分解成為兩個(gè)規(guī)模較小的矩陣，并且保證分解前后矩陣元素的非負(fù)性，即在分解前后同一位置上的元素為正數(shù)，在保證事件挖掘結(jié)果的準(zhǔn)確性的同時(shí)，通過(guò)降維找到待處理數(shù)據(jù)中包含的事件，計(jì)算簡(jiǎn)便，可擴(kuò)展性較好。

【專利附圖】

【附圖說(shuō)明】
[0015]圖1為本發(fā)明基于非負(fù)矩陣分解的事件分析方法實(shí)施例一的流程圖；
[0016]圖2為本發(fā)明基于非負(fù)矩陣分解的事件分析方法實(shí)施例二的流程圖；
[0017]圖3為本發(fā)明基于非負(fù)矩陣分解的事件分析系統(tǒng)實(shí)施例一的結(jié)構(gòu)示意圖；
[0018]圖4為本發(fā)明基于非負(fù)矩陣分解的事件分析系統(tǒng)實(shí)施例二的結(jié)構(gòu)示意圖。

【具體實(shí)施方式】
[0019]圖1為本發(fā)明基于非負(fù)矩陣分解的事件分析方法實(shí)施例一的流程圖，如圖1所示，該方法包括:
[0020]步驟101、獲取待處理數(shù)據(jù)，所述待處理數(shù)據(jù)中包括至少一個(gè)數(shù)據(jù)文本；
[0021]步驟102、分別對(duì)所述至少一個(gè)數(shù)據(jù)文本中的每個(gè)數(shù)據(jù)文本進(jìn)行分詞處理，得到與所述待處理數(shù)據(jù)對(duì)應(yīng)的文本空間矩陣，所述文本空間矩陣描述了所述至少一個(gè)數(shù)據(jù)文本中所包含的詞語(yǔ)信息；
[0022]步驟103、對(duì)所述文本空間矩陣進(jìn)行非負(fù)矩陣分解，根據(jù)分解得到的基矩陣確定所述待處理數(shù)據(jù)中包含的各個(gè)事件以及分別用于描述所述各個(gè)事件的關(guān)鍵詞，并根據(jù)分解得到的系數(shù)矩陣確定分別與所述各個(gè)事件對(duì)應(yīng)的數(shù)據(jù)文本。
[0023]本實(shí)施例提供的所述方法可以適用于對(duì)互聯(lián)網(wǎng)上的各種應(yīng)用所產(chǎn)生的海量數(shù)據(jù)進(jìn)行事件挖掘處理，尤其適用于諸如微博、論壇等社交網(wǎng)絡(luò)，該方法可以由一處理設(shè)備來(lái)執(zhí)行，該處理設(shè)備例如可以為某中應(yīng)用的管理平臺(tái)。
[0024]以微博為例，每天都會(huì)有大量的各種各樣的數(shù)據(jù)信息在微博上進(jìn)行傳播，為了便于廣大普遍用戶能夠在海量的微博數(shù)據(jù)中快速有效地搜索到自身需要的信息，或者為了使普通用戶、政府機(jī)構(gòu)等用戶能夠及時(shí)獲知社會(huì)熱點(diǎn)，都需要對(duì)海量的微博數(shù)據(jù)進(jìn)行事件挖掘。值得說(shuō)明的是，本實(shí)施例中主要是針對(duì)文本類型的數(shù)據(jù)信息進(jìn)行處理，稱之為數(shù)據(jù)文本。而且，本實(shí)施例中所述的事件，并非一般意義上的某件完整的事情或新聞，而是指用一些關(guān)鍵詞表征的詞語(yǔ)集合，一個(gè)事件中包含的關(guān)鍵詞往往具有一定的關(guān)聯(lián)，比如這些關(guān)鍵詞同時(shí)在很多條數(shù)據(jù)文本中都同時(shí)出現(xiàn)過(guò)，因此，這些關(guān)鍵詞也一定程度上反映了當(dāng)前微博中的關(guān)注熱點(diǎn)。
[0025]具體來(lái)說(shuō)，當(dāng)處理設(shè)備獲得了比如某一天的微博數(shù)據(jù)即待處理數(shù)據(jù)后，對(duì)該待處理數(shù)據(jù)中包含的每個(gè)數(shù)據(jù)文本進(jìn)行分詞處理，比如采用現(xiàn)有的NLPIR漢語(yǔ)分詞系統(tǒng)對(duì)每個(gè)數(shù)據(jù)文件進(jìn)行分詞處理，從而將每個(gè)數(shù)據(jù)文本按照詞語(yǔ)為單位進(jìn)行劃分，得到每個(gè)數(shù)據(jù)文本中包含的各個(gè)詞語(yǔ)。通過(guò)對(duì)待處理數(shù)據(jù)中的每個(gè)數(shù)據(jù)文本都進(jìn)行分詞處理，從而能夠得到待處理數(shù)據(jù)中包含的所有詞語(yǔ)，從而構(gòu)造由待處理數(shù)據(jù)中的所有數(shù)據(jù)文本和所有詞語(yǔ)組成的文本空間矩陣，該矩陣中的每個(gè)列向量表示的是該列向量對(duì)應(yīng)的數(shù)據(jù)文本中所包含的各個(gè)詞語(yǔ)。
[0026]進(jìn)而，對(duì)該文本空間矩陣進(jìn)行非負(fù)矩陣分解，其中，非負(fù)矩陣分解是現(xiàn)有技術(shù)中的現(xiàn)有矩陣分解方法，不做贅述。非負(fù)矩陣分解的結(jié)果是得到兩個(gè)矩陣，分別為基矩陣和系數(shù)矩陣。值得說(shuō)明的是，由于文本空間矩陣是一個(gè)規(guī)模龐大的矩陣，直接對(duì)該矩陣進(jìn)行處理將會(huì)導(dǎo)致非常大的運(yùn)算量，而將其分解為兩個(gè)較小的矩陣，使得基于該兩個(gè)較小的矩陣進(jìn)行的處理的運(yùn)算量大大降低。而且，非負(fù)矩陣分解得到的基矩陣和系數(shù)矩陣的乘積是該文本空間矩陣的近似表達(dá)，分解的結(jié)果保證了在同一位置上的元素，在分解前后的誤差值為正數(shù)，從而使分解后的元素具有與分解前該元素基本等同的表達(dá)。從而，根據(jù)分解得到的基矩陣確定所述待處理數(shù)據(jù)中包含的各個(gè)事件以及分別用于描述所述各個(gè)事件的關(guān)鍵詞，并根據(jù)分解得到的系數(shù)矩陣確定分別與所述各個(gè)事件對(duì)應(yīng)的數(shù)據(jù)文本。也就是說(shuō)，分解得到的基矩陣中列向量的個(gè)數(shù)為該待處理數(shù)據(jù)中包含的事件的個(gè)數(shù)，而每個(gè)列向量中包含的各個(gè)詞語(yǔ)即構(gòu)成該事件的關(guān)鍵詞；系數(shù)矩陣中的每個(gè)行向量表征了一個(gè)事件，該行向量中的各個(gè)數(shù)據(jù)文本表示了包含對(duì)應(yīng)的該事件即該事件中各關(guān)鍵詞的數(shù)據(jù)文本集合。因此,通過(guò)基矩陣和系數(shù)矩陣可以獲知待處理數(shù)據(jù)中包含了多少事件，每個(gè)事件中包含的關(guān)鍵詞是什么，以及分別包含每個(gè)事件的關(guān)鍵詞的數(shù)據(jù)文本有哪些。
[0027]本實(shí)施例中，在獲取到包含多個(gè)數(shù)據(jù)文本的待處理數(shù)據(jù)后，以詞語(yǔ)為單位，對(duì)該多個(gè)數(shù)據(jù)文本分別進(jìn)行分詞處理，從而得到用于描述該待處理數(shù)據(jù)中包含的多個(gè)數(shù)據(jù)文件信息以及該多個(gè)數(shù)據(jù)文件信息中包含的所有詞語(yǔ)的文本空間矩陣。進(jìn)而，在該文本空間矩陣進(jìn)行非負(fù)矩陣分解，根據(jù)分解得到的基矩陣得到待處理數(shù)據(jù)中包含的各個(gè)事件以及分別用于描述所述各個(gè)事件的關(guān)鍵詞，并根據(jù)分解得到的系數(shù)矩陣確定分別與每個(gè)事件對(duì)應(yīng)的數(shù)據(jù)文本，即包含該事件的數(shù)據(jù)文本。通過(guò)構(gòu)造待處理數(shù)據(jù)的文本空間矩陣，并對(duì)該文本空間矩陣進(jìn)行非負(fù)矩陣分解，從而將一個(gè)規(guī)模龐大的矩陣分解成為兩個(gè)規(guī)模較小的矩陣，并且保證分解前后矩陣元素的非負(fù)性，即分解得到的兩個(gè)矩陣中每一個(gè)元素都是非負(fù)值，在保證事件挖掘結(jié)果的準(zhǔn)確性的同時(shí)，將大矩陣轉(zhuǎn)變?yōu)閮蓚€(gè)小矩陣，通過(guò)降維找到待處理數(shù)據(jù)中包含的事件，計(jì)算簡(jiǎn)便，可擴(kuò)展性較好。
[0028]圖2為本發(fā)明基于非負(fù)矩陣分解的事件分析方法實(shí)施例二的流程圖，如圖2所示，本實(shí)施例提供的所述方法包括如下步驟:
[0029]步驟201、獲取待處理數(shù)據(jù)，所述待處理數(shù)據(jù)中包括至少一個(gè)數(shù)據(jù)文本；
[0030]步驟202、對(duì)所述每個(gè)數(shù)據(jù)文本進(jìn)行語(yǔ)義解析，確定所述每個(gè)數(shù)據(jù)文本中包含的名詞和動(dòng)詞；
[0031]步驟203、對(duì)確定出的所述名詞和動(dòng)詞進(jìn)行標(biāo)注，并根據(jù)如下公式確定每個(gè)所述名詞和動(dòng)詞的權(quán)重值，得到與所述待處理數(shù)據(jù)對(duì)應(yīng)的文本空間矩陣Amxn:
[0032]R(w) = (w在所述M個(gè)詞語(yǔ)中的出現(xiàn)次數(shù))Xlog(數(shù)據(jù)文本總數(shù)N/包含w的數(shù)據(jù)文本數(shù)量)。
[0033]其中，w為任一個(gè)所述名詞或動(dòng)詞，R(W)為w的權(quán)重值
[0034]本實(shí)施例中，對(duì)待處理數(shù)據(jù)中的每個(gè)數(shù)據(jù)文件進(jìn)行語(yǔ)義解析，以確定每個(gè)數(shù)據(jù)文本中包含了哪些詞語(yǔ)，由于每個(gè)數(shù)據(jù)文本中包含的詞語(yǔ)種類眾多，其中比如會(huì)有些諸如“了”、“的”等沒(méi)有實(shí)際意義的詞語(yǔ)，統(tǒng)稱為虛詞，也會(huì)存在比如“城管”、“襲擊”等具有實(shí)際意義的名詞或者動(dòng)詞，因此，為了區(qū)別不同詞語(yǔ)在每個(gè)數(shù)據(jù)文本中的重要性，在對(duì)每個(gè)數(shù)據(jù)文本進(jìn)行語(yǔ)義解析之后，選擇出該數(shù)據(jù)文本中包含的名詞和動(dòng)詞，并為這些名詞和動(dòng)詞賦值較高的權(quán)重值，而為虛詞賦值較低的權(quán)重值。其中，可以根據(jù)每個(gè)名詞和動(dòng)詞的在待處理數(shù)據(jù)中的出現(xiàn)次數(shù)分別確定每個(gè)名詞和動(dòng)詞的權(quán)重值
[0035]步驟204、對(duì)所述文本空間矩陣Amxn進(jìn)行非負(fù)矩陣分解，得到基矩陣WMXK，和系數(shù)矩陣Hkxn，所述K為所述待處理數(shù)據(jù)中包含的事件總數(shù)；
[0036]步驟205、確定所述基矩陣Wmxk中的每個(gè)列向量表征一個(gè)第一事件，每個(gè)列向量中包含的目標(biāo)詞語(yǔ)為描述對(duì)應(yīng)的第一事件的關(guān)鍵詞，所述目標(biāo)詞語(yǔ)為所述列向量包含的詞語(yǔ)中權(quán)重值由大到小排列排在前面的第一預(yù)設(shè)數(shù)量的名詞和動(dòng)詞；
[0037]步驟206、確定所述系數(shù)矩陣Hkxn中的每個(gè)行向量表征一個(gè)第二事件，每個(gè)行向量中所包含的數(shù)據(jù)文本為與所述行向量表征的第二事件對(duì)應(yīng)的數(shù)據(jù)文本。
[0038]在對(duì)每個(gè)數(shù)據(jù)文本中包含的名詞和動(dòng)詞賦值較高權(quán)重值的情況下，在對(duì)文本空間矩陣進(jìn)行非負(fù)矩陣分解后，基矩陣中每個(gè)列向量中包含的詞語(yǔ)便是具有不同權(quán)重值的詞語(yǔ)，這些詞語(yǔ)中既有較高權(quán)重值的名詞和動(dòng)詞，也有較低權(quán)重值的虛詞，可選的，可以確定這些較高權(quán)重值即權(quán)重值大于一定閾值的名詞和動(dòng)詞作為該列向量對(duì)應(yīng)的事件的關(guān)鍵詞。但是，很有可能這些名詞和動(dòng)詞的數(shù)量仍舊比較大，如果需要將事件挖掘的結(jié)果進(jìn)行呈現(xiàn)，將如此數(shù)量的關(guān)鍵詞進(jìn)行呈現(xiàn)將導(dǎo)致較低的用戶體驗(yàn)。因此，本實(shí)施例中，對(duì)基矩陣中每個(gè)列向量中包含的詞語(yǔ)按照權(quán)重值由大到小的順序進(jìn)行排列，選取排在前面的預(yù)設(shè)數(shù)量的詞語(yǔ)作為其對(duì)應(yīng)的事件的關(guān)鍵詞。值得說(shuō)明的是，從大到小的排列順序僅是一種舉例，還可以從小到大排序，相應(yīng)的，選擇排在后面的預(yù)設(shè)數(shù)據(jù)的詞語(yǔ)。
[0039]步驟207、分別以所述各個(gè)事件中的每個(gè)事件作為待處理事件，從所述待處理事件對(duì)應(yīng)的關(guān)鍵詞中選取第二預(yù)設(shè)數(shù)量的關(guān)鍵詞作為所述待處理事件的標(biāo)識(shí)，確定所述待處理事件對(duì)應(yīng)的數(shù)據(jù)文本的數(shù)量占所述待處理數(shù)據(jù)的數(shù)據(jù)文本總數(shù)的比例；
[0040]步驟208、根據(jù)所述標(biāo)識(shí)和所述比例，采用如下呈現(xiàn)方式中的任一種方式呈現(xiàn)所述待處理事件:表格、餅狀圖、柱狀圖、折線圖、詞云。
[0041]本實(shí)施例中，為了方便不同用戶能夠直觀地了解事件挖掘的結(jié)果，S卩比較直觀地了解到當(dāng)前微博中的關(guān)注熱點(diǎn)，可以將事件挖掘的結(jié)果進(jìn)行可視化呈現(xiàn)。為此，需要對(duì)事件挖掘結(jié)果進(jìn)行簡(jiǎn)單的分析或處理，比如:為了保證可視化效果，可以針對(duì)每個(gè)事件，從該事件包含的關(guān)鍵詞中進(jìn)一步再選取一定數(shù)量的關(guān)鍵詞作為該事件的標(biāo)識(shí)。作為事件標(biāo)識(shí)的關(guān)鍵詞既可以在該事件的關(guān)鍵詞中隨機(jī)選取，也可以按照各關(guān)鍵詞的權(quán)重值來(lái)選取權(quán)重值較大的。再比如:為了更直觀地了解每個(gè)事件在待處理數(shù)據(jù)中的重要程度或者關(guān)注熱度，可以統(tǒng)計(jì)確定每個(gè)事件對(duì)應(yīng)的數(shù)據(jù)文本占待處理數(shù)據(jù)的數(shù)據(jù)文本總數(shù)的比例。
[0042]進(jìn)而，根據(jù)上述標(biāo)識(shí)和所述比例，采用如下呈現(xiàn)方式中的任一種方式呈現(xiàn)所述待處理事件:表格、餅狀圖、柱狀圖、折線圖、詞云。比如:表格中可以顯示每個(gè)事件的標(biāo)識(shí)，對(duì)應(yīng)的數(shù)據(jù)文本數(shù)量，以及對(duì)應(yīng)的數(shù)據(jù)文本所占比例；詞云中可以根據(jù)不同事件的數(shù)據(jù)文本所占比例的大小來(lái)確定每個(gè)事件的標(biāo)識(shí)將被顯示的字體大小，等等。
[0043]圖3為本發(fā)明基于非負(fù)矩陣分解的事件分析系統(tǒng)實(shí)施例一的結(jié)構(gòu)示意圖，如圖3所示，該系統(tǒng)包括:
[0044]獲取模塊11，用于獲取待處理數(shù)據(jù)，所述待處理數(shù)據(jù)中包括至少一個(gè)數(shù)據(jù)文本；
[0045]處理模塊12，用于分別對(duì)所述至少一個(gè)數(shù)據(jù)文本中的每個(gè)數(shù)據(jù)文本進(jìn)行分詞處理，得到與所述待處理數(shù)據(jù)對(duì)應(yīng)的文本空間矩陣，所述文本空間矩陣描述了所述至少一個(gè)數(shù)據(jù)文本中所包含的詞語(yǔ)信息；
[0046]計(jì)算模塊13，用于對(duì)所述文本空間矩陣進(jìn)行非負(fù)矩陣分解，根據(jù)分解得到的基矩陣確定所述待處理數(shù)據(jù)中包含的各個(gè)事件以及分別用于描述所述各個(gè)事件的關(guān)鍵詞，并根據(jù)分解得到的系數(shù)矩陣確定分別與所述各個(gè)事件對(duì)應(yīng)的數(shù)據(jù)文本。
[0047]本實(shí)施例的系統(tǒng)可以用于執(zhí)行圖1所示方法實(shí)施例的技術(shù)方案，其實(shí)現(xiàn)原理和技術(shù)效果類似，此處不再贅述。
[0048]圖4為本發(fā)明基于非負(fù)矩陣分解的事件分析系統(tǒng)實(shí)施例二的結(jié)構(gòu)示意圖，如圖4所示，本實(shí)施例提供的所述系統(tǒng)在圖3所示實(shí)施例的基礎(chǔ)上,所述待處理數(shù)據(jù)中包括N個(gè)數(shù)據(jù)文本，所述N個(gè)數(shù)據(jù)文本中包含的詞語(yǔ)總數(shù)為M，所述文本空間矩陣Amxn為MXN維矩陣，所述N的取值為大于或等于I的整數(shù)；
[0049]所述計(jì)算模塊13，包括:
[0050]計(jì)算單元131，用于對(duì)所述文本空間矩陣Amxn進(jìn)行非負(fù)矩陣分解，得到基矩陣Wmxk，和系數(shù)矩陣Hkxn，所述K為所述待處理數(shù)據(jù)中包含的事件總數(shù)；
[0051]確定單元132，用于確定所述基矩陣Wmxk中的每個(gè)列向量表征一個(gè)第一事件，每個(gè)列向量中包含的詞語(yǔ)為描述對(duì)應(yīng)的第一事件的關(guān)鍵詞；
[0052]所述確定單元132，還用于確定所述系數(shù)矩陣Hkxn中的每個(gè)行向量表征一個(gè)第二事件，每個(gè)行向量中所包含的數(shù)據(jù)文本為與所述行向量表征的第二事件對(duì)應(yīng)的數(shù)據(jù)文本。
[0053]進(jìn)一步地，所述處理模塊12，包括:
[0054]解析單元121，用于對(duì)所述每個(gè)數(shù)據(jù)文本進(jìn)行語(yǔ)義解析，確定所述每個(gè)數(shù)據(jù)文本中包含的名詞和動(dòng)詞；
[0055]標(biāo)記單元122，用于對(duì)確定出的所述名詞和動(dòng)詞進(jìn)行標(biāo)注，并根據(jù)如下公式確定每個(gè)所述名詞和動(dòng)詞的權(quán)重值:
[0056]R(w) = (w在所述M個(gè)詞語(yǔ)中的出現(xiàn)次數(shù))Xlog(數(shù)據(jù)文本總數(shù)N/包含w的數(shù)據(jù)文本數(shù)量)；
[0057]其中，w為任一個(gè)所述名詞或動(dòng)詞，R(W)為w的權(quán)重值。
[0058]具體地，所述確定單元132，具體用于:
[0059]確定所述基矩陣Wmxk中的每個(gè)列向量表征一個(gè)第一事件，每個(gè)列向量中包含的目標(biāo)詞語(yǔ)為描述對(duì)應(yīng)的第一事件的關(guān)鍵詞，所述目標(biāo)詞語(yǔ)為所述列向量包含的詞語(yǔ)中權(quán)重值由大到小排列排在前面的第一預(yù)設(shè)數(shù)量的名詞和動(dòng)詞。
[0060]進(jìn)一步地,所述系統(tǒng)還包括:
[0061]分析模塊21，用于分別以所述各個(gè)事件中的每個(gè)事件作為待處理事件，從所述待處理事件對(duì)應(yīng)的關(guān)鍵詞中選取第二預(yù)設(shè)數(shù)量的關(guān)鍵詞作為所述待處理事件的標(biāo)識(shí)；
[0062]所述分析模塊21，還用于確定所述待處理事件對(duì)應(yīng)的數(shù)據(jù)文本的數(shù)量占所述待處理數(shù)據(jù)的數(shù)據(jù)文本總數(shù)的比例；
[0063]呈現(xiàn)模塊22，用于根據(jù)所述標(biāo)識(shí)和所述比例，采用如下呈現(xiàn)方式中的任一種方式呈現(xiàn)所述待處理事件:
[0064]表格、餅狀圖、柱狀圖、折線圖、詞云。
[0065]本實(shí)施例的系統(tǒng)可以用于執(zhí)行圖2所不方法實(shí)施例的技術(shù)方案,其實(shí)現(xiàn)原理和技術(shù)效果類似，此處不再贅述。
[0066]本領(lǐng)域普通技術(shù)人員可以理解:實(shí)現(xiàn)上述方法實(shí)施例的全部或部分步驟可以通過(guò)程序指令相關(guān)的硬件來(lái)完成，前述的程序可以存儲(chǔ)于一計(jì)算機(jī)可讀取存儲(chǔ)介質(zhì)中，該程序在執(zhí)行時(shí)，執(zhí)行包括上述方法實(shí)施例的步驟；而前述的存儲(chǔ)介質(zhì)包括:R0M、RAM、磁碟或者光盤等各種可以存儲(chǔ)程序代碼的介質(zhì)。
[0067]最后應(yīng)說(shuō)明的是:以上各實(shí)施例僅用以說(shuō)明本發(fā)明的技術(shù)方案，而非對(duì)其限制；盡管參照前述各實(shí)施例對(duì)本發(fā)明進(jìn)行了詳細(xì)的說(shuō)明，本領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng)理解:其依然可以對(duì)前述各實(shí)施例所記載的技術(shù)方案進(jìn)行修改，或者對(duì)其中部分或者全部技術(shù)特征進(jìn)行等同替換；而這些修改或者替換，并不使相應(yīng)技術(shù)方案的本質(zhì)脫離本發(fā)明各實(shí)施例技術(shù)方案的范圍。
【權(quán)利要求】
1.一種基于非負(fù)矩陣分解的事件分析方法，其特征在于，包括: 獲取待處理數(shù)據(jù)，所述待處理數(shù)據(jù)中包括至少一個(gè)數(shù)據(jù)文本；分別對(duì)所述至少一個(gè)數(shù)據(jù)文本中的每個(gè)數(shù)據(jù)文本進(jìn)行分詞處理，得到與所述待處理數(shù)據(jù)對(duì)應(yīng)的文本空間矩陣，所述文本空間矩陣描述了所述至少一個(gè)數(shù)據(jù)文本中所包含的詞語(yǔ)信息；對(duì)所述文本空間矩陣進(jìn)行非負(fù)矩陣分解，根據(jù)分解得到的基矩陣確定所述待處理數(shù)據(jù)中包含的各個(gè)事件以及分別用于描述所述各個(gè)事件的關(guān)鍵詞，并根據(jù)分解得到的系數(shù)矩陣確定分別與所述各個(gè)事件對(duì)應(yīng)的數(shù)據(jù)文本。
2.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述待處理數(shù)據(jù)中包括N個(gè)數(shù)據(jù)文本，所述N個(gè)數(shù)據(jù)文本中包含的詞語(yǔ)總數(shù)為M，所述文本空間矩陣Amxn為MXN維矩陣，所述N的取值為大于或等于I的整數(shù)；所述對(duì)所述文本空間矩陣進(jìn)行非負(fù)矩陣分解，根據(jù)分解得到的基矩陣確定所述待處理數(shù)據(jù)中包含的各個(gè)事件以及分別用于描述所述各個(gè)事件的關(guān)鍵詞，并根據(jù)分解得到的系數(shù)矩陣確定分別與所述各個(gè)事件對(duì)應(yīng)的數(shù)據(jù)文本，包括: 對(duì)所述文本空間矩陣Amxn進(jìn)行非負(fù)矩陣分解，得到基矩陣WMXK，和系數(shù)矩陣Hkxn,所述K為所述待處理數(shù)據(jù)中包含的事件總數(shù)；確定所述基矩陣Wmxk中的每個(gè)列向量表征一個(gè)第一事件，每個(gè)列向量中包含的詞語(yǔ)為描述對(duì)應(yīng)的第一事件的關(guān)鍵詞；確定所述系數(shù)矩陣Hkxn中的每個(gè)行向量表征一個(gè)第二事件，每個(gè)行向量中所包含的數(shù)據(jù)文本為與所述行向量表征的第二事件對(duì)應(yīng)的數(shù)據(jù)文本。
3.根據(jù)權(quán)利要求2所述的方法，其特征在于，所述分別對(duì)所述至少一個(gè)數(shù)據(jù)文本中的每個(gè)數(shù)據(jù)文本進(jìn)行分詞處理，包括: 對(duì)所述每個(gè)數(shù)據(jù)文本進(jìn)行語(yǔ)義解析，確定所述每個(gè)數(shù)據(jù)文本中包含的名詞和動(dòng)詞；對(duì)確定出的所述名詞和動(dòng)詞進(jìn)行標(biāo)注，并根據(jù)如下公式確定每個(gè)所述名詞和動(dòng)詞的權(quán)重值: R(w) = (w在所述M個(gè)詞語(yǔ)中的出現(xiàn)次數(shù))Xlog(數(shù)據(jù)文本總數(shù)N/包含w的數(shù)據(jù)文本數(shù)量)；其中，w為任一個(gè)所述名詞或動(dòng)詞，R(W)為w的權(quán)重值。
4.根據(jù)權(quán)利要求3所述的方法，其特征在于，所述確定所述基矩陣Wmxk中的每個(gè)列向量表征一個(gè)第一事件，每個(gè)列向量中包含的詞語(yǔ)為描述對(duì)應(yīng)的第一事件的關(guān)鍵詞，包括: 確定所述基矩陣Wmxk中的每個(gè)列向量表征一個(gè)第一事件，每個(gè)列向量中包含的目標(biāo)詞語(yǔ)為描述對(duì)應(yīng)的第一事件的關(guān)鍵詞，所述目標(biāo)詞語(yǔ)為所述列向量包含的詞語(yǔ)中權(quán)重值由大到小排列排在前面的第一預(yù)設(shè)數(shù)量的名詞和動(dòng)詞。
5.根據(jù)權(quán)利要求1至4中任一項(xiàng)所述的方法，其特征在于，所述對(duì)所述文本空間矩陣進(jìn)行非負(fù)矩陣分解，根據(jù)分解得到的基矩陣確定所述待處理數(shù)據(jù)中包含的各個(gè)事件以及分別用于描述所述各個(gè)事件的關(guān)鍵詞，并根據(jù)分解得到的系數(shù)矩陣確定分別與所述各個(gè)事件對(duì)應(yīng)的數(shù)據(jù)文本之后，還包括: 分別以所述各個(gè)事件中的每個(gè)事件作為待處理事件，從所述待處理事件對(duì)應(yīng)的關(guān)鍵詞中選取第二預(yù)設(shè)數(shù)量的關(guān)鍵詞作為所述待處理事件的標(biāo)識(shí)；確定所述待處理事件對(duì)應(yīng)的數(shù)據(jù)文本的數(shù)量占所述待處理數(shù)據(jù)的數(shù)據(jù)文本總數(shù)的比例；根據(jù)所述標(biāo)識(shí)和所述比例，采用如下呈現(xiàn)方式中的任一種方式呈現(xiàn)所述待處理事件: 表格、餅狀圖、柱狀圖、折線圖、詞云。
6.一種基于非負(fù)矩陣分解的事件分析系統(tǒng)，其特征在于，包括: 獲取模塊，用于獲取待處理數(shù)據(jù)，所述待處理數(shù)據(jù)中包括至少一個(gè)數(shù)據(jù)文本；處理模塊，用于分別對(duì)所述至少一個(gè)數(shù)據(jù)文本中的每個(gè)數(shù)據(jù)文本進(jìn)行分詞處理，得到與所述待處理數(shù)據(jù)對(duì)應(yīng)的文本空間矩陣，所述文本空間矩陣描述了所述至少一個(gè)數(shù)據(jù)文本中所包含的詞語(yǔ)信息；計(jì)算模塊，用于對(duì)所述文本空間矩陣進(jìn)行非負(fù)矩陣分解，根據(jù)分解得到的基矩陣確定所述待處理數(shù)據(jù)中包含的各個(gè)事件以及分別用于描述所述各個(gè)事件的關(guān)鍵詞，并根據(jù)分解得到的系數(shù)矩陣確定分別與所述各個(gè)事件對(duì)應(yīng)的數(shù)據(jù)文本。
7.根據(jù)權(quán)利要求6所述的系統(tǒng)，其特征在于，所述待處理數(shù)據(jù)中包括N個(gè)數(shù)據(jù)文本，所述N個(gè)數(shù)據(jù)文本中包含的詞語(yǔ)總數(shù)為M，所述文本空間矩陣Amxn為MXN維矩陣，所述N的取值為大于或等于I的整數(shù)；所述計(jì)算模塊，包括: 計(jì)算單元，用于對(duì)所述文本空間矩陣Amxn進(jìn)行非負(fù)矩陣分解，得到基矩陣WMXK，和系數(shù)矩陣Hkxn，所述K為所述待處理數(shù)據(jù)中包含的事件總數(shù)；確定單元，用于確定所述基矩陣Wmxk中的每個(gè)列向量表征一個(gè)第一事件，每個(gè)列向量中包含的詞語(yǔ)為描述對(duì)應(yīng)的第一事件的關(guān)鍵詞；所述確定單元，還用于確定所述系數(shù)矩陣Hkxn中的每個(gè)行向量表征一個(gè)第二事件，每個(gè)行向量中所包含的數(shù)據(jù)文本為與所述行向量表征的第二事件對(duì)應(yīng)的數(shù)據(jù)文本。
8.根據(jù)權(quán)利要求7所述的系統(tǒng)，其特征在于，所述處理模塊，包括: 解析單元，用于對(duì)所述每個(gè)數(shù)據(jù)文本進(jìn)行語(yǔ)義解析，確定所述每個(gè)數(shù)據(jù)文本中包含的名詞和動(dòng)詞；標(biāo)記單元，用于對(duì)確定出的所述名詞和動(dòng)詞進(jìn)行標(biāo)注，并根據(jù)如下公式確定每個(gè)所述名詞和動(dòng)詞的權(quán)重值: R(w) = (w在所述M個(gè)詞語(yǔ)中的出現(xiàn)次數(shù))Xlog(數(shù)據(jù)文本總數(shù)N/包含w的數(shù)據(jù)文本數(shù)量)；其中，w為任一個(gè)所述名詞或動(dòng)詞，R(W)為w的權(quán)重值。
9.根據(jù)權(quán)利要求8所述的系統(tǒng)，其特征在于，所述確定單元，具體用于: 確定所述基矩陣Wmxk中的每個(gè)列向量表征一個(gè)第一事件，每個(gè)列向量中包含的目標(biāo)詞語(yǔ)為描述對(duì)應(yīng)的第一事件的關(guān)鍵詞，所述目標(biāo)詞語(yǔ)為所述列向量包含的詞語(yǔ)中權(quán)重值由大到小排列排在前面的第一預(yù)設(shè)數(shù)量的名詞和動(dòng)詞。
10.根據(jù)權(quán)利要求6至9中任一項(xiàng)所述的系統(tǒng)，其特征在于，還包括: 分析模塊，用于分別以所述各個(gè)事件中的每個(gè)事件作為待處理事件，從所述待處理事件對(duì)應(yīng)的關(guān)鍵詞中選取第二預(yù)設(shè)數(shù)量的關(guān)鍵詞作為所述待處理事件的標(biāo)識(shí)；所述分析模塊，還用于確定所述待處理事件對(duì)應(yīng)的數(shù)據(jù)文本的數(shù)量占所述待處理數(shù)據(jù)的數(shù)據(jù)文本總數(shù)的比例；呈現(xiàn)模塊，用于根據(jù)所述標(biāo)識(shí)和所述比例，采用如下呈現(xiàn)方式中的任一種方式呈現(xiàn)所述待處理事件: 表格、餅狀圖、柱狀圖、折線圖、詞云。
【文檔編號(hào)】G06F17/30GK104281663SQ201410495959
【公開(kāi)日】2015年1月14日申請(qǐng)日期:2014年9月24日優(yōu)先權(quán)日:2014年9月24日
【發(fā)明者】張日崇, 邰振贏, 于偉仁, 劉俊偉, 李建欣申請(qǐng)人:北京航空航天大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：張日崇;邰振贏;于偉仁;劉俊偉;李建欣
技術(shù)所有人：北京航空航天大學(xué)
我是此專利的發(fā)明人

上一篇：一種大容量緩存及其快速檢索方法、構(gòu)建方法
上一篇：多媒體歌詞信息顯示方法及裝置制造方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

網(wǎng)絡(luò)的矩陣分析方法相關(guān)技術(shù)

非負(fù)矩陣分解相關(guān)技術(shù)

非負(fù)矩陣分解算法相關(guān)技術(shù)

非負(fù)矩陣分解的意義相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于非負(fù)矩陣分解的事件分析方法與系統(tǒng)的制作方法