信息管理方法和裝置制造方法

文檔序號：6635557閱讀：224來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

信息管理方法和裝置制造方法
【專利摘要】信息管理方法和裝置。本發(fā)明提出一種文本聚類方法，所述方法包括：計算輸入的預(yù)設(shè)數(shù)量的搜索文檔與數(shù)據(jù)庫中的文檔的相似度；將數(shù)據(jù)庫中與所述搜索文檔的相似度達(dá)到閾值的文檔分別進(jìn)行聚類得到第一集合簇；將所述第一集合簇中同一文檔下的集合進(jìn)行聚類，得到聚類結(jié)果。本發(fā)明一改傳統(tǒng)的聚類思路，不指定初始聚類中心的個數(shù)，不進(jìn)行初始劃分，而是通過搜索的方式完成聚類，因此通用性更強；同時本發(fā)明在聚類過程中不需要對聚類中心進(jìn)行不斷的調(diào)整，因此開銷小，可擴展性更好。
【專利說明】信息管理方法和裝置

【技術(shù)領(lǐng)域】
[0001] 本公開涉及視頻【技術(shù)領(lǐng)域】，尤其用戶文本聚類方法和裝置。

【背景技術(shù)】
[0002] 聚類分析，是數(shù)據(jù)挖掘的主要任務(wù)之一。所謂數(shù)據(jù)挖掘，通常與計算機科學(xué)相關(guān)，通過統(tǒng)計、在線分析處理、情報檢索、機器學(xué)習(xí)、和模式識別等諸多方法，從大量的數(shù)據(jù)中通過算法搜索隱藏于其中的信息。
[0003] 目前，數(shù)據(jù)挖掘領(lǐng)域常用的聚類算法為K-MEANS算法，K-MEANS算法通過從N個文檔隨機選取K個文檔作為質(zhì)也，對剩余的每個文檔測量其到每個質(zhì)也的距離，并把它歸類到最近的質(zhì)也，然后再重新計算已經(jīng)得到的各個類的質(zhì)也，然后不斷重復(fù)該一過程，直至新的質(zhì)也與原質(zhì)也相等或小于指定閥值時，算法結(jié)束。
[0004] 然而，在K-means算法中，K值用于描述初始聚類中也的個數(shù)，為預(yù)先指定的值，通常難W估計，因此并不能預(yù)先獲知給定的數(shù)據(jù)集應(yīng)該聚類成多少個類別才最合適。其次，在 K-means算法中，需要根據(jù)初始聚類中也來確定一個初始劃分，然后對初始劃分進(jìn)行優(yōu)化，因此初始聚類中也的選擇對聚類結(jié)果有較大的影響，一旦初始值選擇的不好，可能無法得到有效的聚類結(jié)果。另外，K-MEANS算法需要不斷地進(jìn)行樣本分類調(diào)整，不斷地計算調(diào)整后的新的聚類中也，因此當(dāng)數(shù)據(jù)量非常大時，算法的時間開銷非常大。

【發(fā)明內(nèi)容】

[0005] 為克服相關(guān)技術(shù)中存在的問題，本公開提供一種文本聚類方法和裝置。
[0006] 根據(jù)本公開實施例的第一方面，提供一種文本聚類方法，所述方法包括：
[0007] 計算輸入的預(yù)設(shè)數(shù)量的搜索文檔與數(shù)據(jù)庫中的文檔的相似度；
[0008] 將數(shù)據(jù)庫中與所述搜索文檔的相似度達(dá)到闊值的文檔分別進(jìn)行聚類得到第一集合簇；
[0009] 將所述第一集合簇中同一文檔下的集合進(jìn)行聚類，得到聚類結(jié)果。
[0010] 可選的，所述計算輸入的預(yù)設(shè)數(shù)量的搜索文檔與數(shù)據(jù)庫中的文檔的相似度包括：
[0011] 對所述搜索文檔W及所述數(shù)據(jù)庫中的文檔進(jìn)行文字切分；
[0012] 根據(jù)預(yù)設(shè)算法分別計算文字切分后的所述搜索文檔與所述數(shù)據(jù)庫中的文檔的相似度。
[0013] 可選的，所述對所述搜索文檔W及所述數(shù)據(jù)庫中的文檔進(jìn)行文字切分包括：
[0014] 采用單字切分或者單字切分與詞組切分結(jié)合的方式對所述搜索文檔W及所述數(shù) 據(jù)庫中的文檔進(jìn)行文字切分。
[0015] 可選的，所述將所述第一集合簇中同一文檔下的集合進(jìn)行聚類包括：
[0016] 將所述第一集合簇中包含同一搜索文檔的集合分別進(jìn)行聚類，得到第二集合簇；
[0017] 將所述第二集合簇中同一文檔下的集合進(jìn)行聚類。
[0018] 可選的，所述將所述第二集合簇中同一文檔下的集合進(jìn)行聚類包括：
[0019] 統(tǒng)計所述第二集合簇中各集合之間的相同元素數(shù)；
[0020] 分別計算所述各集合中所述相同元素數(shù)占集合簇中元素總數(shù)的比值；
[0021] 將所述第二集合簇中具有相同元素，并且所述比值達(dá)到闊值的集合作為同一文檔下的集合進(jìn)行聚類。
[0022] 可選的，所述方法還包括：
[0023] 對所述聚類結(jié)果進(jìn)行去重處理。
[0024] 可選的，所述方法還包括：
[0025] 當(dāng)所述聚類結(jié)果中包含所述第一集合簇中的所有集合時，停止針對所述第一集合簇的聚類。
[0026] 根據(jù)本公開實施例的第二方面，提供一種文本聚類裝置，所述裝置包括：
[0027] 計算模塊，用于計算輸入的預(yù)設(shè)數(shù)量的搜索文檔與數(shù)據(jù)庫中的文檔的相似度；
[0028] 第一聚類模塊，用于將數(shù)據(jù)庫中與所述搜索文檔的相似度達(dá)到闊值的文檔分別進(jìn) 行聚類得到第一集合簇；
[0029] 第二聚類模塊，用于將所述第一集合簇中同一文檔下的集合進(jìn)行聚類，得到聚類結(jié)果。
[0030] 可選的，所述計算模塊包括：
[0031] 切分子模塊，用于對所述搜索文檔W及所述數(shù)據(jù)庫中的文檔進(jìn)行文字切分；
[0032] 計算子模塊，用于根據(jù)預(yù)設(shè)算法分別計算文字切分后的所述搜索文檔與所述數(shù)據(jù) 庫中的文檔的相似度。
[0033] 可選的，所述切分子模塊包括：
[0034] 文字切分子模塊，用于采用單字切分或者單字切分與詞組切分結(jié)合的方式對所述搜索文檔W及所述數(shù)據(jù)庫中的文檔進(jìn)行文字切分。
[00巧]可選的，所述第二聚類模塊包括：
[0036] 第一聚類子模塊，用于將所述第一集合簇中包含同一搜索文檔的集合分別進(jìn)行聚類，得到第二集合簇；
[0037] 第二聚類子模塊，用于將所述第二集合簇中同一文檔下的集合進(jìn)行聚類。
[0038] 可選的，所述第二聚類子模塊包括：
[0039] 元素統(tǒng)計子模塊，用于統(tǒng)計所述第二集合簇中各集合之間的相同元素數(shù)；
[0040] 比值計算子模塊，用于分別計算所述各集合中相同元素數(shù)占集合簇中元素總數(shù)的比值；
[0041] 元素聚類子模塊，用于將所述第二集合簇中具有相同元素，并且所述比值達(dá)到闊值的集合作為同一文檔下的集合進(jìn)行聚類。
[0042] 可選的，所述裝置還包括：
[0043] 去重模塊，用于對所述聚類結(jié)果進(jìn)行去重處理。
[0044] 可選的，所述裝置還包括：
[0045] 停止模塊，用于在所述聚類結(jié)果中包含所述第一集合簇中的所有集合時，停止針對所述第一集合簇的聚類。
[0046] 根據(jù)本公開實施例的第H方面，提供一種文本聚類裝置，包括：
[0047] 處理器；
[0048] 用于存儲處理器可執(zhí)行指令的存儲器；
[0049] 其中，所述處理器被配置為：
[0050] 計算輸入的搜索文檔與數(shù)據(jù)庫中的文檔的相似度；
[0051] 當(dāng)所述搜索文檔為多個時，將數(shù)據(jù)庫中與所述搜索文檔的相似度達(dá)到闊值的文檔分別進(jìn)行聚類得到第一集合簇；
[0052] 將所述第一集合簇中同一文檔下的集合進(jìn)行聚類，得到聚類結(jié)果
[0053] 本公開的實施例提供的技術(shù)方案可W包括W下有益效果：
[0054] 本公開的W上實施例中，提出一種新的聚類方法，通過計算輸入的預(yù)設(shè)數(shù)量的搜索文檔與數(shù)據(jù)庫中的文檔的相似度，將數(shù)據(jù)庫中與搜索文檔的相似度達(dá)到闊值的文檔分別進(jìn)行聚類得到第一集合簇，然后再對第一集合簇中同一文檔下的集合進(jìn)行聚類得到聚類結(jié) 果。本公開一改傳統(tǒng)的聚類思路，不指定初始聚類中也的個數(shù)，不進(jìn)行初始劃分，而是通過搜索的方式完成聚類，因此通用性更強；同時本公開在聚類過程中不需要對聚類中也進(jìn)行不斷的調(diào)整，因此開銷小，可擴展性更好。
[0055] 應(yīng)當(dāng)理解的是，W上的一般描述和后文的細(xì)節(jié)描述僅是示例性和解釋性的，并不能限制本公開。

【專利附圖】

【附圖說明】
[0056] 此處的附圖被并入說明書中并構(gòu)成本說明書的一部分，示出了符合本公開的實施例，并與說明書一起用于解釋本公開的原理。
[0057] 圖1是根據(jù)一示例性實施例示出的一種文本聚類方法的流程示意圖；
[0058] 圖2是根據(jù)一示例性實施例示出的另一種文本聚類方法的流程示意圖；
[0059] 圖3是根據(jù)一示例性實施例示出的對數(shù)據(jù)庫中的文檔進(jìn)行初步聚類的示意圖；
[0060] 圖4是根據(jù)一示例性實施例示出的一種文本聚類裝置的示意框圖；
[0061] 圖5是根據(jù)一示例性實施例示出的另一種文本聚類裝置的示意框圖；
[0062] 圖6是根據(jù)一示例性實施例示出的另一種文本聚類裝置的示意框圖；
[0063] 圖7是根據(jù)一示例性實施例示出的另一種文本聚類裝置的示意框圖；
[0064] 圖8是根據(jù)一示例性實施例示出的另一種文本聚類裝置的示意框圖；
[0065] 圖9是根據(jù)一示例性實施例示出的另一種文本聚類裝置的示意框圖；
[0066] 圖10是根據(jù)一示例性實施例示出的另一種文本聚類裝置的示意框圖；
[0067] 圖11是根據(jù)一示例性實施例示出的一種用于文本聚類裝置的一結(jié)構(gòu)示意圖。

【具體實施方式】
[0068] 該里將詳細(xì)地對示例性實施例進(jìn)行說明，其示例表示在附圖中。下面的描述涉及附圖時，除非另有表示，不同附圖中的相同數(shù)字表示相同或相似的要素。W下示例性實施例中所描述的實施方式并不代表與本公開相一致的所有實施方式。相反，它們僅是與如所附權(quán)利要求書中所詳述的、本公開的一些方面相一致的裝置和方法的例子。
[0069] 在本公開使用的術(shù)語是僅僅出于描述特定實施例的目的，而非旨在限制本公開。在本公開和所附權(quán)利要求書中所使用的單數(shù)形式的"一種"、"所述"和"該"也旨在包括多數(shù)形式，除非上下文清楚地表示其他含義。還應(yīng)當(dāng)理解，本文中使用的術(shù)語"和/或"是指并包含一個或多個相關(guān)聯(lián)的列出項目的任何或所有可能組合。
[0070] 應(yīng)當(dāng)理解，盡管在本公開可能采用術(shù)語第一、第二、第H等來描述各種信息，但該些信息不應(yīng)限于該些術(shù)語。該些術(shù)語僅用來將同一類型的信息彼此區(qū)分開。例如，在不脫離本公開范圍的情況下，第一信息也可W被稱為第二信息，類似地，第二信息也可W被稱為第一信息。取決于語境，如在此所使用的詞語"如果"可W被解釋成為"在……時"或"當(dāng)…… 時"或"響應(yīng)于確定"。
[0071] 如圖1所示，圖1是根據(jù)一示例性實施例示出的一種文本聚類方法，該方法用于服務(wù)端中，所述服務(wù)端可W是服務(wù)器，所述方法包括W下步驟：
[0072] 在步驟101中，計算輸入的預(yù)設(shè)數(shù)量的搜索文檔與數(shù)據(jù)庫中的文檔的相似度；
[0073] 在本實施例中，輸入的搜索文檔的數(shù)量取決于服務(wù)端實際的性能，例如，在實現(xiàn)時如果輸入的搜索文檔的數(shù)量超過某闊值，會造成服務(wù)端在后續(xù)的計算相似度的過程中整體性能下降的話，那么在設(shè)置輸入的搜索文檔的數(shù)量時，盡可能將搜索文檔的數(shù)量限制在該闊值W內(nèi)。
[0074] 服務(wù)端在計算輸入的搜索文檔與數(shù)據(jù)庫中的文檔的相似度之前，通常會對輸入的搜索文檔W及數(shù)據(jù)庫中的文檔進(jìn)行中文分詞。中文分詞是自然語言處理的基本過程，通常可W基于一定的規(guī)則或者通過統(tǒng)計的方式進(jìn)行分詞。
[00巧]然而在實際應(yīng)用中，對于一些短文本，基于規(guī)則或者通過統(tǒng)計的方式進(jìn)行分詞，處理意義不大，而且由于在本實施例中分詞后的搜索文檔后續(xù)要進(jìn)行相似度計算，而基于規(guī)則或者統(tǒng)計的方式對輸入的短文本進(jìn)行分詞，通常會因為上下文的關(guān)系引起切分上的不同，因此基于規(guī)則或者統(tǒng)計的方式對搜索文檔進(jìn)行分詞，對后續(xù)的相似度計算影響很大。因此，在本實施例中，服務(wù)器可W采用單字切分或者采用單字切分與詞組切分相結(jié)合的方式對輸入的搜索文檔進(jìn)行文字切分.
[0076] 在本實施例中，對于文字切分后的文檔，可W進(jìn)行索引存儲，W方便后續(xù)的快速檢索。其中對文字切分后的文檔進(jìn)行索引存儲，可W參考現(xiàn)有實現(xiàn)中的介紹，例如，可W采用 B+tree的方式對文字切分后的文檔進(jìn)行索引存儲，在公開中不再進(jìn)行詳述。
[0077] 在本實施例中，服務(wù)端在計算輸入的搜索文檔與本地數(shù)據(jù)庫中的文檔的相似度時，可W基于特定的相似度算法來進(jìn)行；例如，在實現(xiàn)時，所述相似度計算所采用的相似度算法可W是基于LCS的相似度算法或BM25算法。
[0078] 在步驟102中，將數(shù)據(jù)庫中與所述搜索文檔的相似度達(dá)到闊值的文檔分別進(jìn)行聚類得到第一集合簇；
[0079] 在本實施例中，在完成了相似度計算后，可W基于相似度的計算結(jié)果對數(shù)據(jù)庫中的文檔進(jìn)行初步的聚類。在實現(xiàn)時，可W基于相似度的計算結(jié)果進(jìn)行闊值化處理，在已經(jīng)索引存儲的數(shù)據(jù)中進(jìn)行快速檢索，將數(shù)據(jù)庫中與輸入的搜索文檔的相似度達(dá)到闊值的文檔分別進(jìn)行聚類最終形成一個第一集合簇。
[0080] 例如，假設(shè)輸入的搜索文檔分別為query 1、query2和query3，文檔ID分別為 1001、1033和1338,所述闊值為85%，此時可W在已經(jīng)索引存儲的數(shù)據(jù)中進(jìn)行快速檢索，輸出的文檔即為數(shù)據(jù)庫中分別與queryl、query2和query3的相似度達(dá)到85%的文檔集合。假設(shè)數(shù)據(jù)庫中與queryl的相似度達(dá)到85 %的文檔ID的集合為Sl = [1001,1031,2098， 7896,8876];與query2的相似度達(dá)到85 %的文檔ID的集合為S2 = [1033,1868, 2768， 8896,8976];與query2的相似度達(dá)到85 %的文檔ID的集合為S3 = [1338,1878, 2798， 8196,8076];那么所述第一集合簇則為一個包括集合Sl?S3的集合簇，Sl?S3中的任意一個集合都是該集合簇中的元素。
[0081] 在本實施例中，所述第一集合簇中的內(nèi)容，即為服務(wù)端根據(jù)輸入的搜索文檔對數(shù) 據(jù)庫中的文檔進(jìn)行聚類后形成的初步聚類結(jié)果。
[0082] 在步驟103中，將所述第一集合簇中同一文檔下的集合進(jìn)行聚類，得到聚類結(jié)果。
[0083] 在本實施例中，對于所述第一集合簇中的內(nèi)容，可W由服務(wù)端進(jìn)行統(tǒng)計聚類，形成最終的聚類結(jié)果。在實現(xiàn)時，服務(wù)端可W對所述第一集合簇中包含同一搜索文檔的集合再次分別進(jìn)行聚類，形成一個第二集合簇。
[0084] 例如，假設(shè)第一集合簇包括集合S1、S2-Sn，輸入的搜索文檔分別為queryl、 query2,文檔ID分別為1033和1338 ;假設(shè)此時：
[0085] Sl = [1001,1031,2098,7896,8876]
[0086] S2 = [1033,1868,2768,8896,8976]
[0087] S3 = [1338,1878,2798,8196,8076]
[0088] ......
[0089] 那么服務(wù)端將第一集合簇中分別包含搜索文檔1031的集合再次聚類后可W得到集合1031 = [S 1，S8, S9.其中該集合表示文檔ID為1031的文檔在集合分別在Sl、 S8、S9等集合中出現(xiàn)過；服務(wù)端將第一集合簇中分別包含搜索文檔1033的集合再次聚類后得到集合1033 = [S2, S10, S21...];其中該集合表示文檔ID為1033的文檔在集合分別在 S2、S10、S21等集合中出現(xiàn)過。此時所述第二集合簇則為一個包括上述集合1031和1033 的集合簇，集合1031和1033中的任意一個集合都是該集合簇中的元素。
[0090] 在本實施例中，對于所述第二集合簇中的內(nèi)容，還可W由服務(wù)端將第二集合簇中隸屬于同一文檔下的集合進(jìn)行再次聚類，生成最終的聚合結(jié)果。其中，在判斷所述第二集合簇中的集合是否隸屬于同一文檔下，可W基于第二集合簇中各集合之間的相同元素數(shù)占元素總數(shù)的比值來判斷。在實現(xiàn)時，服務(wù)端可W逐個統(tǒng)計所述第二集合簇中的集合與該集合簇中的其它集合的相同元素數(shù)，然后計算各集合中統(tǒng)計出的相同元素數(shù)占當(dāng)前集合簇中元素總數(shù)的比值，在進(jìn)行聚類時，可W將具有相同元素數(shù)，并且上述比值達(dá)到闊值的集合作為同一文檔下的集合進(jìn)行聚類。其中，所述元素總數(shù)，在實現(xiàn)時也可W為第二集合簇中單個集合的元素總數(shù)，在本公開不進(jìn)行特別限定。
[0091] 例如，假設(shè)所述第二集合簇包含100U1031兩個集合，其中：
[0092] 1001 = [SI, S2, S3, S8]
[0093] 1031 = [SI, S2, S3, S9, S11]
[0094] 服務(wù)端在進(jìn)行相同元素數(shù)計算時，集合1001與集合1031的相同元素數(shù)為3,集合簇中元素總數(shù)為6 (不重復(fù)的元素數(shù)），此時相同元素數(shù)占集合簇中元素總數(shù)的比值為0. 5 ; 假設(shè)此時闊值為0. 5,所述相同元素數(shù)占集合簇中元素總數(shù)的比值達(dá)到了闊值，此時可W認(rèn) 為集合1001U031為同一文檔下的集合，因此可W對集合1001、和1031進(jìn)行聚類，最終形成聚類結(jié)果 Xl = [SI, S2, S3, S8, S9, S11]。
[0095] 在本實施例中，由于最終的聚類結(jié)果中，各集合之間可能會存在相同的文本，因此為了防止聚類結(jié)果中的兀余數(shù)據(jù)對信息造成干擾，還可W對聚類結(jié)果進(jìn)行去重處理，去除聚類結(jié)果中兀余的內(nèi)容。
[0096] 例如，假設(shè)最終形成聚類結(jié)果Xl = [S 1，S2];假設(shè)該聚類結(jié)果中Sl = [1001， 1031，1033,10：34,1035] ;S2 = [1001，1031，1036,1037,103引，此時 Sl 和 S2 具有相同的文本1001和1031，因此對聚類結(jié)果Xl進(jìn)行去重處理后Xl = [1001，1031，1033,1034,1035， 1036,1037,103引。
[0097] 通過W上描述可知，本公開提出了一種新的聚類方法，通過計算輸入的預(yù)設(shè)數(shù)量的搜索文檔與數(shù)據(jù)庫中的文檔的相似度，將數(shù)據(jù)庫中與搜索文檔的相似度達(dá)到闊值的文檔分別進(jìn)行聚類得到第一集合簇，然后再對第一集合簇中同一文檔下的集合進(jìn)行聚類得到聚類結(jié)果。本公開一改傳統(tǒng)的聚類思路，不指定初始聚類中也的個數(shù)，不進(jìn)行初始劃分，而是通過搜索的方式完成聚類，因此通用性更強；同時本公開在聚類過程中不需要對聚類中也進(jìn)行不斷的調(diào)整，完全基于搜索文檔與數(shù)據(jù)庫中文檔的相似度進(jìn)行初步聚類，并在此初步聚類的基礎(chǔ)上，再對同一文檔下的數(shù)據(jù)進(jìn)行聚類，因此開銷小，可擴展性更好。
[0098] 如圖2所示，圖2是根據(jù)一示例性實施例示出的一種文本聚類方法，該方法用于服務(wù)端中，所述服務(wù)端可W是服務(wù)器，所述方法包括W下步驟：
[0099] 在步驟201中，計算輸入的預(yù)設(shè)數(shù)量的搜索文檔與數(shù)據(jù)庫中的文檔的相似度；
[0100] 在本實施例中，輸入的搜索文檔的數(shù)量取決于服務(wù)端實際的性能，例如，在實現(xiàn)時如果輸入的搜索文檔的數(shù)量超過某闊值，會造成服務(wù)端在后續(xù)的計算相似度的過程中整體性能下降的話，那么在設(shè)置輸入的搜索文檔的數(shù)量時，盡可能將搜索文檔的數(shù)量限制在該闊值W內(nèi)。
[0101] 在本實施例中，服務(wù)端在計算輸入的搜索文檔與數(shù)據(jù)庫中的文檔的相似度之前，通常會對輸入的搜索文檔W及數(shù)據(jù)庫中的文檔進(jìn)行中文分詞。中文分詞是自然語言處理的基本過程，通?？蒞基于一定的規(guī)則或者通過統(tǒng)計的方式進(jìn)行分詞。
[0102] 然而在實際應(yīng)用中，對于一些短文本，基于規(guī)則或者通過統(tǒng)計的方式進(jìn)行分詞，處理意義不大，而且由于在本實施例中分詞后的搜索文檔后續(xù)要進(jìn)行相似度計算，而基于規(guī)則或者統(tǒng)計的方式對輸入的短文本進(jìn)行分詞，通常會因為上下文的關(guān)系引起切分上的不同，因此基于規(guī)則或者統(tǒng)計的方式對搜索文檔進(jìn)行分詞，對后續(xù)的相似度計算影響很大。
[0103] 例如，假設(shè)輸入的搜索文檔分別為"北京市海淀區(qū)清河鎮(zhèn)批發(fā)市場"和"北京海淀清河批發(fā)市場"，采用基于規(guī)則或者通過統(tǒng)計的方式進(jìn)行分詞，搜索文檔"北京市海淀區(qū)清河鎮(zhèn)批發(fā)市場"的切分結(jié)果是"北京市海淀區(qū)清河鎮(zhèn)批發(fā)市場";搜索文檔"北京海淀清河批發(fā)市場"的切分結(jié)果是"北京海淀清河批發(fā)市場"，對于上述兩種切分結(jié)果，在計算相似度時，由于分詞后類似于"北京市"和"北京"會被認(rèn)為是不相似的詞組，因此W上兩種切分結(jié) 果計算出的相似度僅為0. 25,而通過對比后發(fā)現(xiàn)W上兩種切分結(jié)果在語義表達(dá)上為完全相同的兩個文本。
[0104] 因此，在本實施例中，服務(wù)器可W采用單字切分的方式對輸入的搜索文檔進(jìn)行文字切分；例如，仍W輸入的搜索文檔分別為"北京市海淀區(qū)清河鎮(zhèn)批發(fā)市場"和"北京海淀清河批發(fā)市場"為例，采用單字切分后，搜索文檔"北京市海淀區(qū)清河鎮(zhèn)批發(fā)市場"的切分結(jié) 果是"北京市海淀區(qū)清河鎮(zhèn)批發(fā)市場";搜索文檔"北京海淀清河批發(fā)市場"的切分結(jié)果可能是"北京海淀清河批發(fā)市場"，對于上述兩種切分結(jié)果，在計算相似度時，是通過比較單字的相似度來進(jìn)行的，因此上述兩種切分結(jié)果中，"北、京、海、淀、清、河、批、發(fā)、市、場"等10個單字均可認(rèn)為是相似的文本，因此最終計算出的相似度，遠(yuǎn)高于對采用基于規(guī)則或者通過統(tǒng) 計的方式進(jìn)行分詞后的切分結(jié)果進(jìn)行相似度計算得出的相似度。可見，采用單字切分的方式對搜索文檔進(jìn)行文字切分，可W最大程度的避免因為上下文的關(guān)系引起切分上的不同對最終計算出的相似度的影響。
[0105] 當(dāng)然，在實際應(yīng)用中，如果想要進(jìn)一步提升文字切分的準(zhǔn)確性，還可W采用單字切分與詞組切分相結(jié)合的方式對所述搜索文檔進(jìn)行文字切分，即在對搜索文檔進(jìn)行文字切分時，對一些詞組和非詞組的單字均可W進(jìn)行單獨切分。例如，假設(shè)搜索文檔為"北京市海淀區(qū)清河鎮(zhèn)批發(fā)市場"，采用單字切分與詞組切分相結(jié)合的方式進(jìn)行文字切分的結(jié)果可W是 "北京市海淀區(qū)清河鎮(zhèn)批發(fā)市場"，即在切分時將詞組和非詞組的單字均進(jìn)行單獨切分。
[0106] 在本實施例中，對于文字切分后的文檔，可W進(jìn)行索引存儲，W方便后續(xù)的快速檢索。其中對文字切分后的文檔進(jìn)行索引存儲，可W參考現(xiàn)有實現(xiàn)中的介紹，例如，可W采用 B+tree的方式對文字切分后的文檔進(jìn)行索引存儲，在公開中不再進(jìn)行詳述。
[0107] 在本實施例中，服務(wù)端在計算輸入的搜索文檔與本地數(shù)據(jù)庫中的文檔的相似度時，可W基于特定的相似度算法來進(jìn)行；例如，在實現(xiàn)時，所述相似度計算所采用的相似度算法可W是基于LCS的相似度算法或BM25算法。
[0108] 其中，所述LCS是指是指最長公共子序列。一個序列，如果是兩個或多個已知序列的子序列，且是所有子序列中最長的，則為最長公共子序列。當(dāng)所述輸入的搜索文檔為短文本時，LCS可W作為其相似度的一個衡量。
[0109] 例如，假設(shè)需要基于LCS來計算"北京海淀清河批發(fā)市場"和文檔"北京海淀清河海鮮市場"該兩個文檔的相似度，如果均采用單字切分，那么該兩個文檔的最長公共子序列則為"北京海淀清河市場"，一共8個單字，在求相似度時，可W用最長公共子序列的單字?jǐn)?shù) 8除W該兩個文檔的單字總數(shù)12,最終求出的相似度為0. 67。
[0110] 所述BM25算法，是搜索引擎用來對搜索文檔和匹配文檔（即數(shù)據(jù)庫中的文檔）進(jìn) 行相關(guān)度計算和排序的排序函數(shù)。由于在本公開中，后續(xù)在做檢索的時，需要考慮到排序的問題，因此，BM25是一個很好的相似度算法。
[011。 BM25算法的具體計算公式如下，假設(shè)給定一個包含ql，q2…qn的搜索文檔Q，一個匹配文檔D，
[0112]

【權(quán)利要求】
1. 一種文本聚類方法，其特征在于，所述方法包括：計算輸入的預(yù)設(shè)數(shù)量的搜索文檔與數(shù)據(jù)庫中的文檔的相似度；將數(shù)據(jù)庫中與所述搜索文檔的相似度達(dá)到閾值的文檔分別進(jìn)行聚類得到第一集合簇；將所述第一集合簇中同一文檔下的集合進(jìn)行聚類，得到聚類結(jié)果。
2. 如權(quán)利要求1所述的方法，其特征在于，所述計算輸入的預(yù)設(shè)數(shù)量的搜索文檔與數(shù) 據(jù)庫中的文檔的相似度包括：對所述搜索文檔以及所述數(shù)據(jù)庫中的文檔進(jìn)行文字切分；根據(jù)預(yù)設(shè)算法分別計算文字切分后的所述搜索文檔與所述數(shù)據(jù)庫中的文檔的相似度。
3. 如權(quán)利要求3所述的方法，其特征在于，所述對所述搜索文檔以及所述數(shù)據(jù)庫中的文檔進(jìn)行文字切分包括：采用單字切分或者單字切分與詞組切分結(jié)合的方式對所述搜索文檔以及所述數(shù)據(jù)庫中的文檔進(jìn)行文字切分。
4. 如權(quán)利要求1所述的方法，其特征在于，所述將所述第一集合簇中同一文檔下的集合進(jìn)行聚類包括：將所述第一集合簇中包含同一搜索文檔的集合分別進(jìn)行聚類，得到第二集合簇；將所述第二集合簇中同一文檔下的集合進(jìn)行聚類。
5. 如權(quán)利要求4所述的方法，其特征在于，所述將所述第二集合簇中同一文檔下的集合進(jìn)行聚類包括：統(tǒng)計所述第二集合簇中各集合之間的相同元素數(shù)；分別計算所述各集合中所述相同元素數(shù)占集合簇中元素總數(shù)的比值；將所述第二集合簇中具有相同元素，并且所述比值達(dá)到閾值的集合作為同一文檔下的集合進(jìn)行聚類。
6. 如權(quán)利要求1所述的方法，其特征在于，所述方法還包括：對所述聚類結(jié)果進(jìn)行去重處理。
7. 如權(quán)利要求1所述的方法，其特征在于，所述方法還包括：當(dāng)所述聚類結(jié)果中包含所述第一集合簇中的所有集合時，停止針對所述第一集合簇的聚類。
8. -種文本聚類裝置，其特征在于，所述裝置包括：計算模塊，用于計算輸入的預(yù)設(shè)數(shù)量的搜索文檔與數(shù)據(jù)庫中的文檔的相似度；第一聚類模塊，用于將數(shù)據(jù)庫中與所述搜索文檔的相似度達(dá)到閾值的文檔分別進(jìn)行聚類得到第一集合簇；第二聚類模塊，用于將所述第一集合簇中同一文檔下的集合進(jìn)行聚類，得到聚類結(jié)果。
9. 如權(quán)利要求8所述的裝置，其特征在于，所述計算模塊包括：切分子模塊，用于對所述搜索文檔以及所述數(shù)據(jù)庫中的文檔進(jìn)行文字切分；計算子模塊，用于根據(jù)預(yù)設(shè)算法分別計算文字切分后的所述搜索文檔與所述數(shù)據(jù)庫中的文檔的相似度。
10. 如權(quán)利要求9所述的裝置，其特征在于，所述切分子模塊包括：文字切分子模塊，用于采用單字切分或者單字切分與詞組切分結(jié)合的方式對所述搜索文檔以及所述數(shù)據(jù)庫中的文檔進(jìn)行文字切分。
11. 如權(quán)利要求8所述的裝置，其特征在于，所述第二聚類模塊包括：第一聚類子模塊，用于將所述第一集合簇中包含同一搜索文檔的集合分別進(jìn)行聚類，得到第二集合簇；第二聚類子模塊，用于將所述第二集合簇中同一文檔下的集合進(jìn)行聚類。
12. 如權(quán)利要求11所述的裝置，其特征在于，所述第二聚類子模塊包括：元素統(tǒng)計子模塊，用于統(tǒng)計所述第二集合簇中各集合之間的相同元素數(shù)；比值計算子模塊，用于分別計算所述各集合中相同元素數(shù)占集合簇中元素總數(shù)的比值；元素聚類子模塊，用于將所述第二集合簇中具有相同元素，并且所述比值達(dá)到閾值的集合作為同一文檔下的集合進(jìn)行聚類。
13. 如權(quán)利要求8所述的裝置，其特征在于，所述裝置還包括：去重模塊，用于對所述聚類結(jié)果進(jìn)行去重處理。
14. 如權(quán)利要求8所述的裝置，其特征在于，所述裝置還包括：停止模塊，用于在所述聚類結(jié)果中包含所述第一集合簇中的所有集合時，停止針對所述第一集合簇的聚類。
15. -種文本聚類裝置，其特征在于，包括：處理器；用于存儲處理器可執(zhí)行指令的存儲器；其中，所述處理器被配置為：計算輸入的搜索文檔與數(shù)據(jù)庫中的文檔的相似度；當(dāng)所述搜索文檔為多個時，將數(shù)據(jù)庫中與所述搜索文檔的相似度達(dá)到閾值的文檔分別進(jìn)行聚類得到第一集合簇；將所述第一集合簇中同一文檔下的集合進(jìn)行聚類，得到聚類結(jié)果。
【文檔編號】G06F17/30GK104331510SQ201410682157
【公開日】2015年2月4日申請日期:2014年11月24日優(yōu)先權(quán)日:2014年11月24日
【發(fā)明者】于亮, 王海洲, 韓愛君申請人:小米科技有限責(zé)任公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：于亮;王海洲;韓愛君
技術(shù)所有人：小米科技有限責(zé)任公司
我是此專利的發(fā)明人

上一篇：基于多方向字典學(xué)習(xí)的極化sar圖像壓縮方法
上一篇：一種sar圖像配準(zhǔn)方法及裝置制造方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進(jìn)行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

信息管理的方法相關(guān)技術(shù)

信息管理方法相關(guān)技術(shù)

信息管理工作方法相關(guān)技術(shù)

信息管理和信息系統(tǒng)相關(guān)技術(shù)

創(chuàng)智和宇信息管理平臺相關(guān)技術(shù)

計劃統(tǒng)計和信息管理相關(guān)技術(shù)

信息管理和知識管理相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

信息管理方法和裝置制造方法