欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種文本數據的聚類方法、裝置和系統(tǒng)與流程

文檔序號:11774596閱讀:191來源:國知局
一種文本數據的聚類方法、裝置和系統(tǒng)與流程

本發(fā)明涉及計算機領域,具體地,涉及一種文本數據的聚類方法、裝置和系統(tǒng)。



背景技術:

spark分布式框架是ucberkeleyamplab(加州大學伯克利分校的amp實驗室)所開源的通用分布式框架,是一種與hadoop相似的開源集群計算環(huán)境,相比較于hadoop使用硬盤存儲中間數據,spark分布式框架啟用了內存分布數據集,除了能夠提供交互式查詢外,還可以優(yōu)化迭代工作負載。

目前常用的對文本進行劃分的方法是聚類方法,例如k-means算法,由于k-means算法中種子節(jié)點的選取具有隨機性,所以對相同的文本數據分別進行數次聚類,每次聚類的結果不一定一致,因此k-means算法針對文本數據的聚類結果具有隨機性和不可控性。此外,k-means算法對海量文本數據進行聚類的效果不是很理想。



技術實現(xiàn)要素:

本發(fā)明的實施例提供一種文本數據的聚類方法、裝置和系統(tǒng),以有效解決如何對海量文本數據進行聚類的問題。

為達到上述目的,本發(fā)明的實施例提供一種文本數據的聚類方法。所述方法包括:子節(jié)點接收主節(jié)點針對海量文本數據進行拆分得到的待聚類的文本子集合;所述子節(jié)點將所述文本子集合中的每個文本分別與所有子節(jié)點的文本子集合中的每個文本進行文本相似度的比對,得到文本對的相似關系集合;所述子節(jié)點將所述相似關系集合發(fā)送至所述主節(jié)點,以使得所述主節(jié)點根據所有子節(jié)點發(fā)送的所述相似關系集合對所述海量文本數據進行聚類,得到所述海量文本數據的聚類結果。

可選地,所述子節(jié)點將所述文本子集合中的每個文本分別與所有子節(jié)點的文本子集合中的每個文本進行文本相似度的比對,得到文本對的相似關系集合,包括:針對所述待聚類的文本子集合中的每個文本,所述子節(jié)點分別向所有子節(jié)點發(fā)送文本相似度的比對請求,以使得每個子節(jié)點將所述比對請求中包含的比對文本分別與自身的文本子集合中的每個文本進行比對。

可選地,所述每個子節(jié)點將所述比對請求中包含的比對文本分別與自身的文本子集合中的每個文本進行比對,包括:所述每個子節(jié)點對所述比對文本進行處理,得到與所述比對文本對應的第一句子集合;所述每個子節(jié)點對自身的文本子集合中的每個文本進行處理,得到與所述每個文本對應的第二句子集合;所述每個子節(jié)點將所述第一句子集合中的每個句子分別所述第二句子集合中的每個句子進行比對,得到每對句子具有相同詞語的個數;所述每個子節(jié)點根據每對句子具有相同詞語的個數確定得到所述比對文本與所述第二句子集合對應的文本具有相同詞語的個數最多的結果;所述每個子節(jié)點根據所述結果確定相同詞語的個數在兩個文本中所占的比例,從而得到兩個文本的文本相似度。

可選地,在得到兩個文本的文本相似度之后,所述方法還包括:所述每個子節(jié)點將所述兩個文本的文本相似度與預設閾值進行比較,得到比較結果;所述每個子節(jié)點在根據所述比較結果判斷所述兩個文本的文本相似度大于所述預設閾值時,向發(fā)送所述比對請求的子節(jié)點返回相似的文本對。

可選地,所述每個子節(jié)點對所述比對文本進行處理,得到與所述比對文本對應的第一句子集合,包括:所述每個子節(jié)點對所述比對文本進行分句,得到分句后的比對文本;所述每個子節(jié)點對分句后的比對文本中的每個句子進行分詞,得到所述比對文本對應的第一句子集合。

可選地,所述主節(jié)點根據所有子節(jié)點發(fā)送的所述相似關系集合對所述海量文本數據進行聚類,得到所述海量文本數據的聚類結果,包括:所述主節(jié)點根據所有子節(jié)點發(fā)送的所述相似關系集合構建基于文本相似關系的拓撲圖;所述主節(jié)點對所述拓撲圖進行連通圖聚類,得到所述海量文本數據的聚類結果。

可選地,所述主節(jié)點根據所有子節(jié)點發(fā)送的所述相似關系集合構建基于文本相似關系的拓撲圖,包括:所述主節(jié)點將每個所述相似關系集合中每個文本對的兩個文本分別作為節(jié)點,并將所述兩個文本的文本相似度作為連接兩個節(jié)點的邊的邊長,構建基于文本相似關系的拓撲圖。

可選地,在得到所述海量文本數據的聚類結果之后,所述方法還包括:所述主節(jié)點根據每個類簇對應的連通圖的節(jié)點數量和邊的數量計算得到每個類簇的聚合度;當存在聚合度小于第一預設值的類簇時,所述主節(jié)點去除每個所述相似關系集合中文本相似度小于第二預設值的文本對,并根據去除后的每個相似關系集合對所述海量文本數據重新進行連通圖聚類,得到所述海量文本數據的聚類結果。

相應地,本發(fā)明實施例還提供一種文本數據的聚類裝置。所述裝置包括:接收模塊,用于接收主節(jié)點針對海量文本數據進行拆分得到的待聚類的文本子集合;比對模塊,用于將所述文本子集合中的每個文本分別與所有子節(jié)點的文本子集合中的每個文本進行文本相似度的比對,得到文本對的相似關系集合;發(fā)送模塊,用于將所述相似關系集合發(fā)送至所述主節(jié)點,以使得所述主節(jié)點根據所有子節(jié)點發(fā)送的所述相似關系集合對所述海量文本數據進行聚類,得到所述海量文本數據的聚類結果。

相應地,本發(fā)明實施例還提供一種文本數據的聚類系統(tǒng)。所述系統(tǒng)包括:主節(jié)點以及與所述主節(jié)點連接的至少一個子節(jié)點;所述主節(jié)點,用于將海量文本數據進行拆分,得到至少一個待聚類的文本子集合,并將所述至少一個待聚類的文本子集合分別分發(fā)至所述至少一個子節(jié)點;所述至少一個子節(jié)點,分別用于執(zhí)行文本數據的聚類方法;所述主節(jié)點,還用于接收所述至少一個子節(jié)點分別發(fā)送的相似關系集合,并根據所述相似關系集合對所述海量文本數據進行聚類,得到所述海量文本數據的聚類結果。

本發(fā)明實施例的文本數據的聚類方法、裝置和系統(tǒng),子節(jié)點接收主節(jié)點針對海量文本數據進行拆分得到的待聚類的文本子集合,并將所述文本子集合中的每個文本分別與所有子節(jié)點的文本子集合中的每個文本進行文本相似度的比對,得到文本對的相似關系集合,再將所述相似關系集合發(fā)送至所述主節(jié)點,以使得所述主節(jié)點根據所有子節(jié)點發(fā)送的所述相似關系集合對所述海量文本數據進行聚類,得到所述海量文本數據的聚類結果,能夠對海量文本數據進行分布式聚類,從而獲得對海量文本數據進行聚類的能力。

附圖說明

為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術中的技術方案,下面將對實施例或現(xiàn)有技術描述中所需要使用的附圖作簡單地介紹。顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于本領域普通技術人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據這些圖獲得其他的附圖。

圖1是本發(fā)明一實施例提供的文本數據的聚類方法的流程圖;

圖2是本發(fā)明另一實施例提供的文本數據的聚類方法的流程圖;

圖3是本發(fā)明另一實施例提供的文本數據的聚類方法的示意圖;

圖4是本發(fā)明一實施例提供的文本數據的聚類裝置的結構示意圖;

圖5是本發(fā)明一實施例提供的文本數據的聚類系統(tǒng)的結構示意圖。

具體實施方式

以下結合附圖對本發(fā)明的具體實施方式進行詳細說明。應當理解的是,此處所描述的具體實施方式僅用于說明和解釋本發(fā)明,并不用于限制本發(fā)明。

圖1是本發(fā)明一實施例提供的文本數據的聚類方法的流程圖。如圖1所示,本發(fā)明一實施例提供的文本數據的聚類方法包括:

在步驟s101中,子節(jié)點接收主節(jié)點針對海量文本數據進行拆分得到的待聚類的文本子集合。

在對海量文本數據執(zhí)行分布式聚類任務時,主節(jié)點先對海量文本數據中每個文本進行編號,使得每個文本對應唯一的標識信息,這樣便可得到待聚類的文本集合。然后,主節(jié)點將待聚類的文本集合拆分為多個待聚類的文本子集合,并將每個待聚類的文本子集合分發(fā)至每個子節(jié)點。其中,待聚類的文本子集合包括多個文本以及多個文本中每個文本的編號。

在步驟s102中,所述子節(jié)點將所述文本子集合中的每個文本分別與所有子節(jié)點的文本子集合中的每個文本進行文本相似度的比對,得到文本對的相似關系集合。

在具體的實施方式中,子節(jié)點不僅需要將自身的文本子集合中的文本與自身的文本子集合中的其它文本進行比對,而且還需要將自身的文本子集合中的文本與其它子節(jié)點的文本子集合中的每個文本進行比對。其中,文本對的相似關系集合包括多個文本對、每個文本對中每個文本的編號以及每個文本對的文本相似度。

在步驟s103中,所述子節(jié)點將所述相似關系集合發(fā)送至所述主節(jié)點,以使得所述主節(jié)點根據所有子節(jié)點發(fā)送的所述相似關系集合對所述海量文本數據進行聚類,得到所述海量文本數據的聚類結果。

在具體的實施方式中,所述主節(jié)點接收所有子節(jié)點分別發(fā)送的所述相似關系集合,并根據所有子節(jié)點發(fā)送的所述相似關系集合對所述海量文本數據進行聚類,得到所述海量文本數據的聚類結果。

在本實施例中,子節(jié)點接收主節(jié)點針對海量文本數據進行拆分得到的待聚類的文本子集合,并將所述文本子集合中的每個文本分別與所有子節(jié)點的文本子集合中的每個文本進行文本相似度的比對,得到文本對的相似關系集合,再將所述相似關系集合發(fā)送至所述主節(jié)點,以使得所述主節(jié)點根據所有子節(jié)點發(fā)送的所述相似關系集合對所述海量文本數據進行聚類,得到所述海量文本數據的聚類結果,能夠對海量文本數據進行分布式聚類,從而獲得對海量文本數據進行聚類的能力。

圖2是本發(fā)明另一實施例提供的文本數據的聚類方法的流程圖。如圖2所示,本發(fā)明另一實施例提供的文本數據的聚類方法包括:

在步驟s201中,子節(jié)點接收主節(jié)點針對海量文本數據進行拆分得到的待聚類的文本子集合。

由于該步驟s201與上述步驟s101相同,在此不再贅述。

在步驟s202中,針對所述待聚類的文本子集合中的每個文本,所述子節(jié)點分別向所有子節(jié)點發(fā)送文本相似度的比對請求,以使得每個子節(jié)點將所述比對請求中包含的比對文本分別與自身的文本子集合中的每個文本進行比對。

在具體的實施方式中,對于某個待聚類的文本子集合中的每個文本而言,與該文本子集合對應的子節(jié)點分別向每個子節(jié)點發(fā)送文本相似度的比對請求,以使得每個子節(jié)點將所述比對請求中包含的比對文本分別與自身的文本子集合中的每個文本進行比對。其中,所述比對請求包含相應的比對文本。

其中,所述每個子節(jié)點將所述比對請求中包含的比對文本分別與自身的文本子集合中的每個文本進行比對,包括:所述每個子節(jié)點對所述比對文本進行處理,得到與所述比對文本對應的第一句子集合;所述每個子節(jié)點對自身的文本子集合中的每個文本進行處理,得到與所述每個文本對應的第二句子集合;所述每個子節(jié)點將所述第一句子集合中的每個句子分別所述第二句子集合中的每個句子進行比對,得到每對句子具有相同詞語的個數;所述每個子節(jié)點根據每對句子具有相同詞語的個數確定得到所述比對文本與所述第二句子集合對應的文本具有相同詞語的個數最多的結果;所述每個子節(jié)點根據所述結果確定相同詞語的個數在兩個文本中所占的比例,從而得到兩個文本的文本相似度。

具體地,所述每個子節(jié)點對所述比對文本進行處理,得到與所述比對文本對應的第一句子集合,包括:所述每個子節(jié)點對所述比對文本進行分句,得到分句后的比對文本;所述每個子節(jié)點對分句后的比對文本中的每個句子進行分詞,得到所述比對文本對應的第一句子集合。所述每個子節(jié)點對自身的文本子集合中的每個文本進行處理,得到與所述每個文本對應的第二句子集合,包括:所述每個子節(jié)點對自身的文本子集合中的每個文本進行分句,得到每個分句后的文本;所述每個子節(jié)點對每個分句后的文本中的每個句子進行分詞,得到與所述每個文本對應的第二句子集合。所述每個子節(jié)點根據每對句子具有相同詞語的個數確定得到所述比對文本與所述第二句子集合對應的文本具有相同詞語的個數最多的結果,包括:所述每個子節(jié)點根據每對句子具有相同詞語的個數確定所述比對文本與所述第二句子集合對應的文本的每對句子具有相同詞語的個數最多;根據所述比對文本與所述第二句子集合對應的文本的每對句子具有相同詞語的個數最多的結果得到所述比對文本與所述第二句子集合對應的文本具有相同詞語的個數最多的結果。所述每個子節(jié)點根據所述結果確定相同詞語的個數在兩個文本中所占的比例,從而得到兩個文本的文本相似度,包括:所述每個子節(jié)點根據所述結果確定相同詞語的個數在比對文本中所占的第一比例以及相同詞語的個數在被比對文本中所占的第二比例;計算第一比例和第二比例的平均值,從而得到兩個文本的文本相似度。所述每個子節(jié)點根據所述結果確定相同詞語的個數在兩個文本中所占的比例,從而得到兩個文本的文本相似度,包括:所述每個子節(jié)點根據所述結果確定相同詞語的個數在比對文本和被比對文本中所占的比例,從而得到兩個文本的文本相似度。

在得到兩個文本的文本相似度之后,所述方法還包括:所述每個子節(jié)點將所述兩個文本的文本相似度與預設閾值進行比較,得到比較結果;所述每個子節(jié)點在根據所述比較結果判斷所述兩個文本的文本相似度大于所述預設閾值時,向發(fā)送所述比對請求的子節(jié)點返回相似的文本對。其中,本領域技術人員可根據實際需求測試得到所述預設閾值。

在步驟s203中,所述子節(jié)點將所述相似關系集合發(fā)送至所述主節(jié)點,以使得所述主節(jié)點根據所有子節(jié)點發(fā)送的所述相似關系集合對所述海量文本數據進行聚類,得到所述海量文本數據的聚類結果。

在具體的實施方式中,所述主節(jié)點根據所有子節(jié)點發(fā)送的所述相似關系集合對所述海量文本數據進行聚類,得到所述海量文本數據的聚類結果,包括:所述主節(jié)點根據所有子節(jié)點發(fā)送的所述相似關系集合構建基于文本相似關系的拓撲圖;所述主節(jié)點對所述拓撲圖進行連通圖聚類,得到所述海量文本數據的聚類結果。籍此,能夠獲得海量文本數據的穩(wěn)定的聚類結果。

其中,所述主節(jié)點根據所有子節(jié)點發(fā)送的所述相似關系集合構建基于文本相似關系的拓撲圖,包括:所述主節(jié)點將每個所述相似關系集合中每個文本對的兩個文本分別作為節(jié)點,并將所述兩個文本的文本相似度作為連接兩個節(jié)點的邊的邊長,構建基于文本相似關系的拓撲圖。連通圖聚類指的是拓撲圖中的每個連通圖可作為一個類簇。

優(yōu)選地,在得到所述海量文本數據的聚類結果之后,所述方法還包括:所述主節(jié)點根據每個類簇對應的連通圖的節(jié)點數量和邊的數量計算得到每個類簇的聚合度;當存在聚合度小于第一預設值的類簇時,所述主節(jié)點去除每個所述相似關系集合中文本相似度小于第二預設值的文本對,并根據去除后的每個相似關系集合對所述海量文本數據重新進行連通圖聚類,得到所述海量文本數據的聚類結果。籍此,在基于連通圖聚類的基礎上做了聚合度檢驗的優(yōu)化,提高了海量文本數據的聚類的準確度。

其中,將每個類簇對應的連通圖的邊的數量除以每個類簇對應的連通圖的節(jié)點數量,便可得到每個類簇的聚合度。本領域技術人員可根據實際需求測試得到所述第一預設值和所述第二預設值。

在本實施例中,子節(jié)點接收主節(jié)點針對海量文本數據進行拆分得到的待聚類的文本子集合,并針對所述待聚類的文本子集合中的每個文本,所述子節(jié)點分別向所有子節(jié)點發(fā)送文本相似度的比對請求,以使得每個子節(jié)點將所述比對請求中包含的比對文本分別與自身的文本子集合中的每個文本進行比對,得到相似關系集合,再將所述相似關系集合發(fā)送至所述主節(jié)點,以使得所述主節(jié)點根據所有子節(jié)點發(fā)送的所述相似關系集合對所述海量文本數據進行聚類,得到所述海量文本數據的聚類結果,能夠對海量文本數據進行分布式聚類,能夠實現(xiàn)對單節(jié)點無法處理的海量文本數據進行聚類處理。

圖3是本發(fā)明另一實施例提供的文本數據的聚類方法的示意圖。如圖3所示,spark分布式集群由一個主節(jié)點和數個子節(jié)點組成。在執(zhí)行分布式聚類任務時,主節(jié)點先將進行聚類的海量文本數據進行編號,每篇文本對應一個唯一的標識,這里將得到的待聚類的文本集合記為t。主節(jié)點將待聚類的文本集合t拆分為數塊,并平均分發(fā)至每個子節(jié)點。每個子節(jié)點上的文本子集合記為ti,其中,i為子節(jié)點的序號。在每個子節(jié)點部署了用來比對文本相似程度的比對庫,每個子節(jié)點在接收到文本子集合ti后先將ti中的所有文本和其標識上傳至比對庫中,作為后續(xù)比對的樣例文本。子節(jié)點的工作原理如下:將上傳到比對庫里的樣例文本進行預處理,先將每篇文本以句子為單位進行分句,再對每個句子進行分詞處理,獲得該篇文本的句子集合aj,其中j為樣例文本的編號。當子節(jié)點接收到比對請求后,對傳入的比對文本進行預處理獲得句子集合b。將b與所有的樣例文本進行依次比對,具體的比對方法為:先對兩個集合做笛卡爾積,將兩個集合中的句子元素進行兩兩比對,確定每對句子元素之間具有相同詞語的個數最多;在所有的比對結果中選擇重合度最高的結果來確定兩個集合中哪些詞語是重合的;根據重合的詞語在兩篇文本中的所占比例,確定兩篇文本的文本相似度。根據傳入的參數閾值p,子節(jié)點返回與比對文本相似度大于p的樣例文本的標識。每個子節(jié)點將ti中的每篇文本作為比對文本,向所有的子節(jié)點發(fā)送相似比對請求,獲得與該文本相似的所有文本的標識的集合,并將根據相似文本對的標識生成文本相似關系集合{(a,b)},其中(a,b)表示標識為a的文本和標識為b的文本具有相似關系。以文本的標識作為節(jié)點,文本對的文本相似度作為邊的邊長,構建基于文本相似關系的拓撲圖。對該拓撲圖進行連通圖聚類,將拓撲圖中的每一個連通圖作為一個類簇,連通圖中節(jié)點的標識即為該類中所屬文本的標識。對聚類結果進行分析,計算每個類簇的聚合度,對那些聚合度不高的類,去除相似關系集合中相似度較低的文本對并重新進行連通圖聚類。聚合度計算方法如下:由聚類方法已經知道每一個類簇對應有一個連通圖,我們根據連通圖中所包含的邊的數量比上連通圖中包含的節(jié)點數,獲得該類簇的聚合度。

在具體的實施方式中,首先部署spark分布式環(huán)境,本發(fā)明實施例是基于spark分布式架構實現(xiàn)的,在實施本發(fā)明實施例前,需要先在集群中部署spark環(huán)境。本發(fā)明實施例是用scala語言編寫的,應用介質為編譯后的jar包。部署本發(fā)明實施例時。需要將jar包提交至集群中的主節(jié)點所在服務器上。其中,本發(fā)明實施例涉及兩種調用方式,分別如下:

1)通過在主節(jié)點用命令行進行調用,或者通過其他方式運行shell命令進行調用。命令格式如下:

(spark的安裝路徑)/spark-submit--master(spark主節(jié)點的端口地址)--classcn.com.trs.clustering.graphx.simclusterdriver(jar包所在位置)(調用參數)

該調用方式的作用是使得安裝有spark分布式架構的主節(jié)點調用本發(fā)明實施例提供的文本數據的聚類方法。

2)通過在工程中引入jar包,通過scala代碼或者java代碼以調用功能接口的方式進行調用。聚類接口如下:

simcluster.cluster(sc:sparkcontext,rdd_rec:rdd[array[string]],ckmhost:string,ckmusername:string,ckmpassword:string,cluclassnum:integer,clumembernum:integer,threshold:float):rdd[(array[string],array[array[string]])]

其中,參數說明如下:sc表示spark上下文;rdd_rec表示需要聚類的數據rdd,每條數據為一個array[string],此array中第一個元素為id字段值,第二個元素為正文字段值,第三個元素為標題字段值,后續(xù)元素為需要展示的其他字段值;ckmhost表示所有子節(jié)點地址,用分號隔開;ckmusername表示比對庫的登錄用戶名;ckmpassword表示比對庫登錄密碼;cluclassnum表示最大聚類數,設為0時返回所有類;clumembernum表示最少成員數,只返回成員數大于等于該值的類;threshold表示相似度值,該值為1到0之間的一個值,該值越大則類成員之間的相似度越大。聚類接口會將互相之間文本相似度大于該值的文本聚為一類。返回值說明如下:返回值為(array[string],array[array[string]])的rdd結構,每條數據作為一個類,其中key為作為類代表的成員,value為該類的所有成員。每個成員為一個array[string],該數組的數據排序與傳入時數據的字段值排序相同。

該調用方式的作用是使得計算機上的工程項目能夠調用本發(fā)明實施例提供的文本數據的聚類方法。

對于方法實施例,為了簡單描述,故將其都表述為一系列的動作組合,但是本領域技術人員應該知悉,本發(fā)明實施例并不受所描述的動作順序的限制,因為依據本發(fā)明實施例,某些步驟可以采用其他順序或者同時進行。其次,本領域技術人員也應該知悉,說明書中所描述的實施例均屬于優(yōu)選實施例,所涉及的動作并不一定是本發(fā)明實施例所必須的。

圖4是本發(fā)明一實施例提供的文本數據的聚類裝置的結構示意圖。如圖4所示,本發(fā)明一實施例提供的文本數據的聚類裝置包括:接收模塊301,用于接收主節(jié)點針對海量文本數據進行拆分得到的待聚類的文本子集合;比對模塊302,用于將所述文本子集合中的每個文本分別與所有子節(jié)點的文本子集合中的每個文本進行文本相似度的比對,得到文本對的相似關系集合;發(fā)送模塊303,用于將所述相似關系集合發(fā)送至所述主節(jié)點,以使得所述主節(jié)點根據所有子節(jié)點發(fā)送的所述相似關系集合對所述海量文本數據進行聚類,得到所述海量文本數據的聚類結果。

在本發(fā)明實施例中,接收模塊301接收主節(jié)點針對海量文本數據進行拆分得到的待聚類的文本子集合,比對模塊302將所述文本子集合中的每個文本分別與所有子節(jié)點的文本子集合中的每個文本進行文本相似度的比對,得到文本對的相似關系集合,發(fā)送模塊303將所述相似關系集合發(fā)送至所述主節(jié)點,以使得所述主節(jié)點根據所有子節(jié)點發(fā)送的所述相似關系集合對所述海量文本數據進行聚類,得到所述海量文本數據的聚類結果,能夠對海量文本數據進行分布式聚類,能夠實現(xiàn)對單節(jié)點無法處理的海量文本數據進行聚類處理。

需要說明的是,對于本發(fā)明實施例提供的文本數據的聚類裝置還涉及的具體細節(jié)已在本發(fā)明實施例提供的文本數據的聚類方法中作了詳細的說明,在此不在贅述。

圖5是本發(fā)明一實施例提供的文本數據的聚類系統(tǒng)的結構示意圖。如圖5所示,本發(fā)明一實施例提供的文本數據的聚類系統(tǒng)包括:主節(jié)點402以及與所述主節(jié)點連接的至少一個子節(jié)點401;所述主節(jié)點402,用于將海量文本數據進行拆分,得到至少一個待聚類的文本子集合,并將所述至少一個待聚類的文本子集合分別分發(fā)至所述至少一個子節(jié)點;所述至少一個子節(jié)點401,分別用于執(zhí)行上述實施例提供的文本數據的聚類方法;所述主節(jié)點402,還用于接收所述至少一個子節(jié)點分別發(fā)送的相似關系集合,并根據所述相似關系集合對所述海量文本數據進行聚類,得到所述海量文本數據的聚類結果。

在本實施例中,主節(jié)點將海量文本數據進行拆分,得到至少一個待聚類的文本子集合,并將所述至少一個待聚類的文本子集合分別分發(fā)至至少一個子節(jié)點,至少一個子節(jié)點分別用于執(zhí)行上述實施例提供的文本數據的聚類方法,得到至少一個相似關系集合,主節(jié)點接收所述至少一個子節(jié)點分別發(fā)送的相似關系集合,并根據所述相似關系集合對所述海量文本數據進行聚類,得到所述海量文本數據的聚類結果,能夠對海量文本數據進行分布式聚類,能夠實現(xiàn)對單節(jié)點無法處理的海量文本數據進行聚類處理。

需要說明的是,對于本發(fā)明實施例提供的文本數據的聚類系統(tǒng)還涉及的具體細節(jié)已在本發(fā)明實施例提供的文本數據的聚類方法中作了詳細的說明,在此不在贅述。

應當注意的是,在本發(fā)明的系統(tǒng)的各個部件中,根據其要實現(xiàn)的功能而對其中的部件進行了邏輯劃分,但是,本發(fā)明不受限于此,可以根據需要對各個部件進行重新劃分或者組合,例如,可以將一些部件組合為單個部件,或者可以將一些部件進一步分解為更多的子部件。

本發(fā)明的各個部件實施例可以以硬件實現(xiàn),或者以在一個或者多個處理器上運行的軟件模塊實現(xiàn),或者以它們的組合實現(xiàn)。本領域的技術人員應當理解,可以在實踐中使用微處理器或者數字信號處理器(dsp)來實現(xiàn)根據本發(fā)明實施例的系統(tǒng)中的一些或者全部部件的一些或者全部功能。本發(fā)明還可以實現(xiàn)為用于執(zhí)行這里所描述的方法的一部分或者全部的設備或者裝置程序(例如,計算機程序和計算機程序產品)。這樣的實現(xiàn)本發(fā)明的程序可以存儲在計算機可讀介質上,或者可以具有一個或者多個信號的形式。這樣的信號可以從因特網網站上下載得到,或者在載體信號上提供,或者以任何其他形式提供。

應該注意的是上述實施例對本發(fā)明進行說明而不是對本發(fā)明進行限制,并且本領域技術人員在不脫離所附權利要求的范圍的情況下可設計出替換實施例。在權利要求中,不應將位于括號之間的任何參考符號構造成對權利要求的限制。單詞“包含”不排除存在未列在權利要求中的元件或步驟。位于元件之前的單詞“一”或“一個”不排除存在多個這樣的元件。本發(fā)明可以借助于包括有若干不同元件的硬件以及借助于適當編程的計算機來實現(xiàn)。在列舉了若干裝置的單元權利要求中,這些裝置中的若干個可以是通過同一個硬件項來具體體現(xiàn)。單詞第一、第二、以及第三等的使用不表示任何順序??蓪⑦@些單詞解釋為名稱。

以上實施方式僅適于說明本發(fā)明,而并非對本發(fā)明的限制,有關技術領域的普通技術人員,在不脫離本發(fā)明的精神和范圍的情況下,還可以做出各種變化和變型,因此所有等同的技術方案也屬于本發(fā)明的范疇,本發(fā)明的專利保護范圍應由權利要求限定。

當前第1頁1 2 
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
林口县| 宁安市| 巴里| 莱西市| 金坛市| 封开县| 宝丰县| 保亭| 抚顺县| 聊城市| 遂平县| 呼和浩特市| 伊宁县| 平南县| 共和县| 邢台市| 濮阳县| 枣阳市| 凌源市| 南涧| 泊头市| 金溪县| 永州市| 奉化市| 五原县| 竹北市| 嘉兴市| 教育| 宜君县| 南城县| 张家界市| 岗巴县| 怀柔区| 华容县| 金溪县| 西乌珠穆沁旗| 会泽县| 九台市| 佛学| 乌兰县| 南靖县|