信息管理方法和裝置制造方法
【專利摘要】信息管理方法和裝置。本發(fā)明提出一種文本聚類方法,所述方法包括:計算輸入的預(yù)設(shè)數(shù)量的搜索文檔與數(shù)據(jù)庫中的文檔的相似度;將數(shù)據(jù)庫中與所述搜索文檔的相似度達(dá)到閾值的文檔分別進(jìn)行聚類得到第一集合簇;將所述第一集合簇中同一文檔下的集合進(jìn)行聚類,得到聚類結(jié)果。本發(fā)明一改傳統(tǒng)的聚類思路,不指定初始聚類中心的個數(shù),不進(jìn)行初始劃分,而是通過搜索的方式完成聚類,因此通用性更強;同時本發(fā)明在聚類過程中不需要對聚類中心進(jìn)行不斷的調(diào)整,因此開銷小,可擴展性更好。
【專利說明】信息管理方法和裝置
【技術(shù)領(lǐng)域】
[0001] 本公開涉及視頻【技術(shù)領(lǐng)域】,尤其用戶文本聚類方法和裝置。
【背景技術(shù)】
[0002] 聚類分析,是數(shù)據(jù)挖掘的主要任務(wù)之一。所謂數(shù)據(jù)挖掘,通常與計算機科學(xué)相關(guān), 通過統(tǒng)計、在線分析處理、情報檢索、機器學(xué)習(xí)、和模式識別等諸多方法,從大量的數(shù)據(jù)中通 過算法搜索隱藏于其中的信息。
[0003] 目前,數(shù)據(jù)挖掘領(lǐng)域常用的聚類算法為K-MEANS算法,K-MEANS算法通過從N個文 檔隨機選取K個文檔作為質(zhì)也,對剩余的每個文檔測量其到每個質(zhì)也的距離,并把它歸類 到最近的質(zhì)也,然后再重新計算已經(jīng)得到的各個類的質(zhì)也,然后不斷重復(fù)該一過程,直至新 的質(zhì)也與原質(zhì)也相等或小于指定閥值時,算法結(jié)束。
[0004] 然而,在K-means算法中,K值用于描述初始聚類中也的個數(shù),為預(yù)先指定的值,通 常難W估計,因此并不能預(yù)先獲知給定的數(shù)據(jù)集應(yīng)該聚類成多少個類別才最合適。其次,在 K-means算法中,需要根據(jù)初始聚類中也來確定一個初始劃分,然后對初始劃分進(jìn)行優(yōu)化, 因此初始聚類中也的選擇對聚類結(jié)果有較大的影響,一旦初始值選擇的不好,可能無法得 到有效的聚類結(jié)果。另外,K-MEANS算法需要不斷地進(jìn)行樣本分類調(diào)整,不斷地計算調(diào)整后 的新的聚類中也,因此當(dāng)數(shù)據(jù)量非常大時,算法的時間開銷非常大。
【發(fā)明內(nèi)容】
[0005] 為克服相關(guān)技術(shù)中存在的問題,本公開提供一種文本聚類方法和裝置。
[0006] 根據(jù)本公開實施例的第一方面,提供一種文本聚類方法,所述方法包括:
[0007] 計算輸入的預(yù)設(shè)數(shù)量的搜索文檔與數(shù)據(jù)庫中的文檔的相似度;
[0008] 將數(shù)據(jù)庫中與所述搜索文檔的相似度達(dá)到闊值的文檔分別進(jìn)行聚類得到第一集 合簇;
[0009] 將所述第一集合簇中同一文檔下的集合進(jìn)行聚類,得到聚類結(jié)果。
[0010] 可選的,所述計算輸入的預(yù)設(shè)數(shù)量的搜索文檔與數(shù)據(jù)庫中的文檔的相似度包括:
[0011] 對所述搜索文檔W及所述數(shù)據(jù)庫中的文檔進(jìn)行文字切分;
[0012] 根據(jù)預(yù)設(shè)算法分別計算文字切分后的所述搜索文檔與所述數(shù)據(jù)庫中的文檔的相 似度。
[0013] 可選的,所述對所述搜索文檔W及所述數(shù)據(jù)庫中的文檔進(jìn)行文字切分包括:
[0014] 采用單字切分或者單字切分與詞組切分結(jié)合的方式對所述搜索文檔W及所述數(shù) 據(jù)庫中的文檔進(jìn)行文字切分。
[0015] 可選的,所述將所述第一集合簇中同一文檔下的集合進(jìn)行聚類包括:
[0016] 將所述第一集合簇中包含同一搜索文檔的集合分別進(jìn)行聚類,得到第二集合簇;
[0017] 將所述第二集合簇中同一文檔下的集合進(jìn)行聚類。
[0018] 可選的,所述將所述第二集合簇中同一文檔下的集合進(jìn)行聚類包括:
[0019] 統(tǒng)計所述第二集合簇中各集合之間的相同元素數(shù);
[0020] 分別計算所述各集合中所述相同元素數(shù)占集合簇中元素總數(shù)的比值;
[0021] 將所述第二集合簇中具有相同元素,并且所述比值達(dá)到闊值的集合作為同一文檔 下的集合進(jìn)行聚類。
[0022] 可選的,所述方法還包括:
[0023] 對所述聚類結(jié)果進(jìn)行去重處理。
[0024] 可選的,所述方法還包括:
[0025] 當(dāng)所述聚類結(jié)果中包含所述第一集合簇中的所有集合時,停止針對所述第一集合 簇的聚類。
[0026] 根據(jù)本公開實施例的第二方面,提供一種文本聚類裝置,所述裝置包括:
[0027] 計算模塊,用于計算輸入的預(yù)設(shè)數(shù)量的搜索文檔與數(shù)據(jù)庫中的文檔的相似度;
[0028] 第一聚類模塊,用于將數(shù)據(jù)庫中與所述搜索文檔的相似度達(dá)到闊值的文檔分別進(jìn) 行聚類得到第一集合簇;
[0029] 第二聚類模塊,用于將所述第一集合簇中同一文檔下的集合進(jìn)行聚類,得到聚類 結(jié)果。
[0030] 可選的,所述計算模塊包括:
[0031] 切分子模塊,用于對所述搜索文檔W及所述數(shù)據(jù)庫中的文檔進(jìn)行文字切分;
[0032] 計算子模塊,用于根據(jù)預(yù)設(shè)算法分別計算文字切分后的所述搜索文檔與所述數(shù)據(jù) 庫中的文檔的相似度。
[0033] 可選的,所述切分子模塊包括:
[0034] 文字切分子模塊,用于采用單字切分或者單字切分與詞組切分結(jié)合的方式對所述 搜索文檔W及所述數(shù)據(jù)庫中的文檔進(jìn)行文字切分。
[00巧]可選的,所述第二聚類模塊包括:
[0036] 第一聚類子模塊,用于將所述第一集合簇中包含同一搜索文檔的集合分別進(jìn)行聚 類,得到第二集合簇;
[0037] 第二聚類子模塊,用于將所述第二集合簇中同一文檔下的集合進(jìn)行聚類。
[0038] 可選的,所述第二聚類子模塊包括:
[0039] 元素統(tǒng)計子模塊,用于統(tǒng)計所述第二集合簇中各集合之間的相同元素數(shù);
[0040] 比值計算子模塊,用于分別計算所述各集合中相同元素數(shù)占集合簇中元素總數(shù)的 比值;
[0041] 元素聚類子模塊,用于將所述第二集合簇中具有相同元素,并且所述比值達(dá)到闊 值的集合作為同一文檔下的集合進(jìn)行聚類。
[0042] 可選的,所述裝置還包括:
[0043] 去重模塊,用于對所述聚類結(jié)果進(jìn)行去重處理。
[0044] 可選的,所述裝置還包括:
[0045] 停止模塊,用于在所述聚類結(jié)果中包含所述第一集合簇中的所有集合時,停止針 對所述第一集合簇的聚類。
[0046] 根據(jù)本公開實施例的第H方面,提供一種文本聚類裝置,包括:
[0047] 處理器;
[0048] 用于存儲處理器可執(zhí)行指令的存儲器;
[0049] 其中,所述處理器被配置為:
[0050] 計算輸入的搜索文檔與數(shù)據(jù)庫中的文檔的相似度;
[0051] 當(dāng)所述搜索文檔為多個時,將數(shù)據(jù)庫中與所述搜索文檔的相似度達(dá)到闊值的文檔 分別進(jìn)行聚類得到第一集合簇;
[0052] 將所述第一集合簇中同一文檔下的集合進(jìn)行聚類,得到聚類結(jié)果
[0053] 本公開的實施例提供的技術(shù)方案可W包括W下有益效果:
[0054] 本公開的W上實施例中,提出一種新的聚類方法,通過計算輸入的預(yù)設(shè)數(shù)量的搜 索文檔與數(shù)據(jù)庫中的文檔的相似度,將數(shù)據(jù)庫中與搜索文檔的相似度達(dá)到闊值的文檔分別 進(jìn)行聚類得到第一集合簇,然后再對第一集合簇中同一文檔下的集合進(jìn)行聚類得到聚類結(jié) 果。本公開一改傳統(tǒng)的聚類思路,不指定初始聚類中也的個數(shù),不進(jìn)行初始劃分,而是通過 搜索的方式完成聚類,因此通用性更強;同時本公開在聚類過程中不需要對聚類中也進(jìn)行 不斷的調(diào)整,因此開銷小,可擴展性更好。
[0055] 應(yīng)當(dāng)理解的是,W上的一般描述和后文的細(xì)節(jié)描述僅是示例性和解釋性的,并不 能限制本公開。
【專利附圖】
【附圖說明】
[0056] 此處的附圖被并入說明書中并構(gòu)成本說明書的一部分,示出了符合本公開的實施 例,并與說明書一起用于解釋本公開的原理。
[0057] 圖1是根據(jù)一示例性實施例示出的一種文本聚類方法的流程示意圖;
[0058] 圖2是根據(jù)一示例性實施例示出的另一種文本聚類方法的流程示意圖;
[0059] 圖3是根據(jù)一示例性實施例示出的對數(shù)據(jù)庫中的文檔進(jìn)行初步聚類的示意圖;
[0060] 圖4是根據(jù)一示例性實施例示出的一種文本聚類裝置的示意框圖;
[0061] 圖5是根據(jù)一示例性實施例示出的另一種文本聚類裝置的示意框圖;
[0062] 圖6是根據(jù)一示例性實施例示出的另一種文本聚類裝置的示意框圖;
[0063] 圖7是根據(jù)一示例性實施例示出的另一種文本聚類裝置的示意框圖;
[0064] 圖8是根據(jù)一示例性實施例示出的另一種文本聚類裝置的示意框圖;
[0065] 圖9是根據(jù)一示例性實施例示出的另一種文本聚類裝置的示意框圖;
[0066] 圖10是根據(jù)一示例性實施例示出的另一種文本聚類裝置的示意框圖;
[0067] 圖11是根據(jù)一示例性實施例示出的一種用于文本聚類裝置的一結(jié)構(gòu)示意圖。
【具體實施方式】
[0068] 該里將詳細(xì)地對示例性實施例進(jìn)行說明,其示例表示在附圖中。下面的描述涉及 附圖時,除非另有表示,不同附圖中的相同數(shù)字表示相同或相似的要素。W下示例性實施例 中所描述的實施方式并不代表與本公開相一致的所有實施方式。相反,它們僅是與如所附 權(quán)利要求書中所詳述的、本公開的一些方面相一致的裝置和方法的例子。
[0069] 在本公開使用的術(shù)語是僅僅出于描述特定實施例的目的,而非旨在限制本公開。 在本公開和所附權(quán)利要求書中所使用的單數(shù)形式的"一種"、"所述"和"該"也旨在包括多 數(shù)形式,除非上下文清楚地表示其他含義。還應(yīng)當(dāng)理解,本文中使用的術(shù)語"和/或"是指 并包含一個或多個相關(guān)聯(lián)的列出項目的任何或所有可能組合。
[0070] 應(yīng)當(dāng)理解,盡管在本公開可能采用術(shù)語第一、第二、第H等來描述各種信息,但該 些信息不應(yīng)限于該些術(shù)語。該些術(shù)語僅用來將同一類型的信息彼此區(qū)分開。例如,在不脫離 本公開范圍的情況下,第一信息也可W被稱為第二信息,類似地,第二信息也可W被稱為第 一信息。取決于語境,如在此所使用的詞語"如果"可W被解釋成為"在……時"或"當(dāng)…… 時"或"響應(yīng)于確定"。
[0071] 如圖1所示,圖1是根據(jù)一示例性實施例示出的一種文本聚類方法,該方法用于服 務(wù)端中,所述服務(wù)端可W是服務(wù)器,所述方法包括W下步驟:
[0072] 在步驟101中,計算輸入的預(yù)設(shè)數(shù)量的搜索文檔與數(shù)據(jù)庫中的文檔的相似度;
[0073] 在本實施例中,輸入的搜索文檔的數(shù)量取決于服務(wù)端實際的性能,例如,在實現(xiàn)時 如果輸入的搜索文檔的數(shù)量超過某闊值,會造成服務(wù)端在后續(xù)的計算相似度的過程中整體 性能下降的話,那么在設(shè)置輸入的搜索文檔的數(shù)量時,盡可能將搜索文檔的數(shù)量限制在該 闊值W內(nèi)。
[0074] 服務(wù)端在計算輸入的搜索文檔與數(shù)據(jù)庫中的文檔的相似度之前,通常會對輸入的 搜索文檔W及數(shù)據(jù)庫中的文檔進(jìn)行中文分詞。中文分詞是自然語言處理的基本過程,通常 可W基于一定的規(guī)則或者通過統(tǒng)計的方式進(jìn)行分詞。
[00巧]然而在實際應(yīng)用中,對于一些短文本,基于規(guī)則或者通過統(tǒng)計的方式進(jìn)行分詞, 處理意義不大,而且由于在本實施例中分詞后的搜索文檔后續(xù)要進(jìn)行相似度計算,而基于 規(guī)則或者統(tǒng)計的方式對輸入的短文本進(jìn)行分詞,通常會因為上下文的關(guān)系引起切分上的不 同,因此基于規(guī)則或者統(tǒng)計的方式對搜索文檔進(jìn)行分詞,對后續(xù)的相似度計算影響很大。因 此,在本實施例中,服務(wù)器可W采用單字切分或者采用單字切分與詞組切分相結(jié)合的方式 對輸入的搜索文檔進(jìn)行文字切分.
[0076] 在本實施例中,對于文字切分后的文檔,可W進(jìn)行索引存儲,W方便后續(xù)的快速檢 索。其中對文字切分后的文檔進(jìn)行索引存儲,可W參考現(xiàn)有實現(xiàn)中的介紹,例如,可W采用 B+tree的方式對文字切分后的文檔進(jìn)行索引存儲,在公開中不再進(jìn)行詳述。
[0077] 在本實施例中,服務(wù)端在計算輸入的搜索文檔與本地數(shù)據(jù)庫中的文檔的相似度 時,可W基于特定的相似度算法來進(jìn)行;例如,在實現(xiàn)時,所述相似度計算所采用的相似度 算法可W是基于LCS的相似度算法或BM25算法。
[0078] 在步驟102中,將數(shù)據(jù)庫中與所述搜索文檔的相似度達(dá)到闊值的文檔分別進(jìn)行聚 類得到第一集合簇;
[0079] 在本實施例中,在完成了相似度計算后,可W基于相似度的計算結(jié)果對數(shù)據(jù)庫中 的文檔進(jìn)行初步的聚類。在實現(xiàn)時,可W基于相似度的計算結(jié)果進(jìn)行闊值化處理,在已經(jīng)索 引存儲的數(shù)據(jù)中進(jìn)行快速檢索,將數(shù)據(jù)庫中與輸入的搜索文檔的相似度達(dá)到闊值的文檔分 別進(jìn)行聚類最終形成一個第一集合簇。
[0080] 例如,假設(shè)輸入的搜索文檔分別為query 1、query2和query3,文檔ID分別為 1001、1033和1338,所述闊值為85%,此時可W在已經(jīng)索引存儲的數(shù)據(jù)中進(jìn)行快速檢索,輸 出的文檔即為數(shù)據(jù)庫中分別與queryl、query2和query3的相似度達(dá)到85%的文檔集合。 假設(shè)數(shù)據(jù)庫中與queryl的相似度達(dá)到85 %的文檔ID的集合為Sl = [1001,1031,2098, 7896,8876];與query2的相似度達(dá)到85 %的文檔ID的集合為S2 = [1033,1868, 2768, 8896,8976];與query2的相似度達(dá)到85 %的文檔ID的集合為S3 = [1338,1878, 2798, 8196,8076];那么所述第一集合簇則為一個包括集合Sl?S3的集合簇,Sl?S3中的任意 一個集合都是該集合簇中的元素。
[0081] 在本實施例中,所述第一集合簇中的內(nèi)容,即為服務(wù)端根據(jù)輸入的搜索文檔對數(shù) 據(jù)庫中的文檔進(jìn)行聚類后形成的初步聚類結(jié)果。
[0082] 在步驟103中,將所述第一集合簇中同一文檔下的集合進(jìn)行聚類,得到聚類結(jié)果。
[0083] 在本實施例中,對于所述第一集合簇中的內(nèi)容,可W由服務(wù)端進(jìn)行統(tǒng)計聚類,形成 最終的聚類結(jié)果。在實現(xiàn)時,服務(wù)端可W對所述第一集合簇中包含同一搜索文檔的集合再 次分別進(jìn)行聚類,形成一個第二集合簇。
[0084] 例如,假設(shè)第一集合簇包括集合S1、S2-Sn,輸入的搜索文檔分別為queryl、 query2,文檔ID分別為1033和1338 ;假設(shè)此時:
[0085] Sl = [1001,1031,2098,7896,8876]
[0086] S2 = [1033,1868,2768,8896,8976]
[0087] S3 = [1338,1878,2798,8196,8076]
[0088] ......
[0089] 那么服務(wù)端將第一集合簇中分別包含搜索文檔1031的集合再次聚類后可W得到 集合1031 = [S 1,S8, S9.其中該集合表示文檔ID為1031的文檔在集合分別在Sl、 S8、S9等集合中出現(xiàn)過;服務(wù)端將第一集合簇中分別包含搜索文檔1033的集合再次聚類后 得到集合1033 = [S2, S10, S21...];其中該集合表示文檔ID為1033的文檔在集合分別在 S2、S10、S21等集合中出現(xiàn)過。此時所述第二集合簇則為一個包括上述集合1031和1033 的集合簇,集合1031和1033中的任意一個集合都是該集合簇中的元素。
[0090] 在本實施例中,對于所述第二集合簇中的內(nèi)容,還可W由服務(wù)端將第二集合簇中 隸屬于同一文檔下的集合進(jìn)行再次聚類,生成最終的聚合結(jié)果。其中,在判斷所述第二集合 簇中的集合是否隸屬于同一文檔下,可W基于第二集合簇中各集合之間的相同元素數(shù)占元 素總數(shù)的比值來判斷。在實現(xiàn)時,服務(wù)端可W逐個統(tǒng)計所述第二集合簇中的集合與該集合 簇中的其它集合的相同元素數(shù),然后計算各集合中統(tǒng)計出的相同元素數(shù)占當(dāng)前集合簇中元 素總數(shù)的比值,在進(jìn)行聚類時,可W將具有相同元素數(shù),并且上述比值達(dá)到闊值的集合作為 同一文檔下的集合進(jìn)行聚類。其中,所述元素總數(shù),在實現(xiàn)時也可W為第二集合簇中單個集 合的元素總數(shù),在本公開不進(jìn)行特別限定。
[0091] 例如,假設(shè)所述第二集合簇包含100U1031兩個集合,其中:
[0092] 1001 = [SI, S2, S3, S8]
[0093] 1031 = [SI, S2, S3, S9, S11]
[0094] 服務(wù)端在進(jìn)行相同元素數(shù)計算時,集合1001與集合1031的相同元素數(shù)為3,集合 簇中元素總數(shù)為6 (不重復(fù)的元素數(shù)),此時相同元素數(shù)占集合簇中元素總數(shù)的比值為0. 5 ; 假設(shè)此時闊值為0. 5,所述相同元素數(shù)占集合簇中元素總數(shù)的比值達(dá)到了闊值,此時可W認(rèn) 為集合1001U031為同一文檔下的集合,因此可W對集合1001、和1031進(jìn)行聚類,最終形成 聚類結(jié)果 Xl = [SI, S2, S3, S8, S9, S11]。
[0095] 在本實施例中,由于最終的聚類結(jié)果中,各集合之間可能會存在相同的文本,因此 為了防止聚類結(jié)果中的兀余數(shù)據(jù)對信息造成干擾,還可W對聚類結(jié)果進(jìn)行去重處理,去除 聚類結(jié)果中兀余的內(nèi)容。
[0096] 例如,假設(shè)最終形成聚類結(jié)果Xl = [S 1,S2];假設(shè)該聚類結(jié)果中Sl = [1001, 1031,1033,10:34,1035] ;S2 = [1001,1031,1036,1037,103引,此時 Sl 和 S2 具有相同的文 本1001和1031,因此對聚類結(jié)果Xl進(jìn)行去重處理后Xl = [1001,1031,1033,1034,1035, 1036,1037,103引。
[0097] 通過W上描述可知,本公開提出了一種新的聚類方法,通過計算輸入的預(yù)設(shè)數(shù)量 的搜索文檔與數(shù)據(jù)庫中的文檔的相似度,將數(shù)據(jù)庫中與搜索文檔的相似度達(dá)到闊值的文檔 分別進(jìn)行聚類得到第一集合簇,然后再對第一集合簇中同一文檔下的集合進(jìn)行聚類得到聚 類結(jié)果。本公開一改傳統(tǒng)的聚類思路,不指定初始聚類中也的個數(shù),不進(jìn)行初始劃分,而是 通過搜索的方式完成聚類,因此通用性更強;同時本公開在聚類過程中不需要對聚類中也 進(jìn)行不斷的調(diào)整,完全基于搜索文檔與數(shù)據(jù)庫中文檔的相似度進(jìn)行初步聚類,并在此初步 聚類的基礎(chǔ)上,再對同一文檔下的數(shù)據(jù)進(jìn)行聚類,因此開銷小,可擴展性更好。
[0098] 如圖2所示,圖2是根據(jù)一示例性實施例示出的一種文本聚類方法,該方法用于服 務(wù)端中,所述服務(wù)端可W是服務(wù)器,所述方法包括W下步驟:
[0099] 在步驟201中,計算輸入的預(yù)設(shè)數(shù)量的搜索文檔與數(shù)據(jù)庫中的文檔的相似度;
[0100] 在本實施例中,輸入的搜索文檔的數(shù)量取決于服務(wù)端實際的性能,例如,在實現(xiàn)時 如果輸入的搜索文檔的數(shù)量超過某闊值,會造成服務(wù)端在后續(xù)的計算相似度的過程中整體 性能下降的話,那么在設(shè)置輸入的搜索文檔的數(shù)量時,盡可能將搜索文檔的數(shù)量限制在該 闊值W內(nèi)。
[0101] 在本實施例中,服務(wù)端在計算輸入的搜索文檔與數(shù)據(jù)庫中的文檔的相似度之前, 通常會對輸入的搜索文檔W及數(shù)據(jù)庫中的文檔進(jìn)行中文分詞。中文分詞是自然語言處理的 基本過程,通??蒞基于一定的規(guī)則或者通過統(tǒng)計的方式進(jìn)行分詞。
[0102] 然而在實際應(yīng)用中,對于一些短文本,基于規(guī)則或者通過統(tǒng)計的方式進(jìn)行分詞, 處理意義不大,而且由于在本實施例中分詞后的搜索文檔后續(xù)要進(jìn)行相似度計算,而基于 規(guī)則或者統(tǒng)計的方式對輸入的短文本進(jìn)行分詞,通常會因為上下文的關(guān)系引起切分上的不 同,因此基于規(guī)則或者統(tǒng)計的方式對搜索文檔進(jìn)行分詞,對后續(xù)的相似度計算影響很大。
[0103] 例如,假設(shè)輸入的搜索文檔分別為"北京市海淀區(qū)清河鎮(zhèn)批發(fā)市場"和"北京海淀 清河批發(fā)市場",采用基于規(guī)則或者通過統(tǒng)計的方式進(jìn)行分詞,搜索文檔"北京市海淀區(qū)清 河鎮(zhèn)批發(fā)市場"的切分結(jié)果是"北京市海淀區(qū)清河鎮(zhèn)批發(fā)市場";搜索文檔"北京海淀清河 批發(fā)市場"的切分結(jié)果是"北京海淀清河批發(fā)市場",對于上述兩種切分結(jié)果,在計算相似度 時,由于分詞后類似于"北京市"和"北京"會被認(rèn)為是不相似的詞組,因此W上兩種切分結(jié) 果計算出的相似度僅為0. 25,而通過對比后發(fā)現(xiàn)W上兩種切分結(jié)果在語義表達(dá)上為完全相 同的兩個文本。
[0104] 因此,在本實施例中,服務(wù)器可W采用單字切分的方式對輸入的搜索文檔進(jìn)行文 字切分;例如,仍W輸入的搜索文檔分別為"北京市海淀區(qū)清河鎮(zhèn)批發(fā)市場"和"北京海淀 清河批發(fā)市場"為例,采用單字切分后,搜索文檔"北京市海淀區(qū)清河鎮(zhèn)批發(fā)市場"的切分結(jié) 果是"北京市海淀區(qū)清河鎮(zhèn)批發(fā)市場";搜索文檔"北京海淀清河批發(fā)市場"的切分結(jié)果可能 是"北京海淀清河批發(fā)市場",對于上述兩種切分結(jié)果,在計算相似度時,是通過比較單字的 相似度來進(jìn)行的,因此上述兩種切分結(jié)果中,"北、京、海、淀、清、河、批、發(fā)、市、場"等10個單 字均可認(rèn)為是相似的文本,因此最終計算出的相似度,遠(yuǎn)高于對采用基于規(guī)則或者通過統(tǒng) 計的方式進(jìn)行分詞后的切分結(jié)果進(jìn)行相似度計算得出的相似度。可見,采用單字切分的方 式對搜索文檔進(jìn)行文字切分,可W最大程度的避免因為上下文的關(guān)系引起切分上的不同對 最終計算出的相似度的影響。
[0105] 當(dāng)然,在實際應(yīng)用中,如果想要進(jìn)一步提升文字切分的準(zhǔn)確性,還可W采用單字切 分與詞組切分相結(jié)合的方式對所述搜索文檔進(jìn)行文字切分,即在對搜索文檔進(jìn)行文字切分 時,對一些詞組和非詞組的單字均可W進(jìn)行單獨切分。例如,假設(shè)搜索文檔為"北京市海淀 區(qū)清河鎮(zhèn)批發(fā)市場",采用單字切分與詞組切分相結(jié)合的方式進(jìn)行文字切分的結(jié)果可W是 "北京市海淀區(qū)清河鎮(zhèn)批發(fā)市場",即在切分時將詞組和非詞組的單字均進(jìn)行單獨切分。
[0106] 在本實施例中,對于文字切分后的文檔,可W進(jìn)行索引存儲,W方便后續(xù)的快速檢 索。其中對文字切分后的文檔進(jìn)行索引存儲,可W參考現(xiàn)有實現(xiàn)中的介紹,例如,可W采用 B+tree的方式對文字切分后的文檔進(jìn)行索引存儲,在公開中不再進(jìn)行詳述。
[0107] 在本實施例中,服務(wù)端在計算輸入的搜索文檔與本地數(shù)據(jù)庫中的文檔的相似度 時,可W基于特定的相似度算法來進(jìn)行;例如,在實現(xiàn)時,所述相似度計算所采用的相似度 算法可W是基于LCS的相似度算法或BM25算法。
[0108] 其中,所述LCS是指是指最長公共子序列。一個序列,如果是兩個或多個已知序列 的子序列,且是所有子序列中最長的,則為最長公共子序列。當(dāng)所述輸入的搜索文檔為短文 本時,LCS可W作為其相似度的一個衡量。
[0109] 例如,假設(shè)需要基于LCS來計算"北京海淀清河批發(fā)市場"和文檔"北京海淀清河 海鮮市場"該兩個文檔的相似度,如果均采用單字切分,那么該兩個文檔的最長公共子序列 則為"北京海淀清河市場",一共8個單字,在求相似度時,可W用最長公共子序列的單字?jǐn)?shù) 8除W該兩個文檔的單字總數(shù)12,最終求出的相似度為0. 67。
[0110] 所述BM25算法,是搜索引擎用來對搜索文檔和匹配文檔(即數(shù)據(jù)庫中的文檔)進(jìn) 行相關(guān)度計算和排序的排序函數(shù)。由于在本公開中,后續(xù)在做檢索的時,需要考慮到排序的 問題,因此,BM25是一個很好的相似度算法。
[011。 BM25算法的具體計算公式如下,假設(shè)給定一個包含ql,q2…qn的搜索文檔Q,一個 匹配文檔D,
[0112]
【權(quán)利要求】
1. 一種文本聚類方法,其特征在于,所述方法包括: 計算輸入的預(yù)設(shè)數(shù)量的搜索文檔與數(shù)據(jù)庫中的文檔的相似度; 將數(shù)據(jù)庫中與所述搜索文檔的相似度達(dá)到閾值的文檔分別進(jìn)行聚類得到第一集合 簇; 將所述第一集合簇中同一文檔下的集合進(jìn)行聚類,得到聚類結(jié)果。
2. 如權(quán)利要求1所述的方法,其特征在于,所述計算輸入的預(yù)設(shè)數(shù)量的搜索文檔與數(shù) 據(jù)庫中的文檔的相似度包括: 對所述搜索文檔以及所述數(shù)據(jù)庫中的文檔進(jìn)行文字切分; 根據(jù)預(yù)設(shè)算法分別計算文字切分后的所述搜索文檔與所述數(shù)據(jù)庫中的文檔的相似度。
3. 如權(quán)利要求3所述的方法,其特征在于,所述對所述搜索文檔以及所述數(shù)據(jù)庫中的 文檔進(jìn)行文字切分包括: 采用單字切分或者單字切分與詞組切分結(jié)合的方式對所述搜索文檔以及所述數(shù)據(jù)庫 中的文檔進(jìn)行文字切分。
4. 如權(quán)利要求1所述的方法,其特征在于,所述將所述第一集合簇中同一文檔下的集 合進(jìn)行聚類包括: 將所述第一集合簇中包含同一搜索文檔的集合分別進(jìn)行聚類,得到第二集合簇; 將所述第二集合簇中同一文檔下的集合進(jìn)行聚類。
5. 如權(quán)利要求4所述的方法,其特征在于,所述將所述第二集合簇中同一文檔下的集 合進(jìn)行聚類包括: 統(tǒng)計所述第二集合簇中各集合之間的相同元素數(shù); 分別計算所述各集合中所述相同元素數(shù)占集合簇中元素總數(shù)的比值; 將所述第二集合簇中具有相同元素,并且所述比值達(dá)到閾值的集合作為同一文檔下的 集合進(jìn)行聚類。
6. 如權(quán)利要求1所述的方法,其特征在于,所述方法還包括: 對所述聚類結(jié)果進(jìn)行去重處理。
7. 如權(quán)利要求1所述的方法,其特征在于,所述方法還包括: 當(dāng)所述聚類結(jié)果中包含所述第一集合簇中的所有集合時,停止針對所述第一集合簇的 聚類。
8. -種文本聚類裝置,其特征在于,所述裝置包括: 計算模塊,用于計算輸入的預(yù)設(shè)數(shù)量的搜索文檔與數(shù)據(jù)庫中的文檔的相似度; 第一聚類模塊,用于將數(shù)據(jù)庫中與所述搜索文檔的相似度達(dá)到閾值的文檔分別進(jìn)行聚 類得到第一集合簇; 第二聚類模塊,用于將所述第一集合簇中同一文檔下的集合進(jìn)行聚類,得到聚類結(jié)果。
9. 如權(quán)利要求8所述的裝置,其特征在于,所述計算模塊包括: 切分子模塊,用于對所述搜索文檔以及所述數(shù)據(jù)庫中的文檔進(jìn)行文字切分; 計算子模塊,用于根據(jù)預(yù)設(shè)算法分別計算文字切分后的所述搜索文檔與所述數(shù)據(jù)庫中 的文檔的相似度。
10. 如權(quán)利要求9所述的裝置,其特征在于,所述切分子模塊包括: 文字切分子模塊,用于采用單字切分或者單字切分與詞組切分結(jié)合的方式對所述搜索 文檔以及所述數(shù)據(jù)庫中的文檔進(jìn)行文字切分。
11. 如權(quán)利要求8所述的裝置,其特征在于,所述第二聚類模塊包括: 第一聚類子模塊,用于將所述第一集合簇中包含同一搜索文檔的集合分別進(jìn)行聚類, 得到第二集合簇; 第二聚類子模塊,用于將所述第二集合簇中同一文檔下的集合進(jìn)行聚類。
12. 如權(quán)利要求11所述的裝置,其特征在于,所述第二聚類子模塊包括: 元素統(tǒng)計子模塊,用于統(tǒng)計所述第二集合簇中各集合之間的相同元素數(shù); 比值計算子模塊,用于分別計算所述各集合中相同元素數(shù)占集合簇中元素總數(shù)的比 值; 元素聚類子模塊,用于將所述第二集合簇中具有相同元素,并且所述比值達(dá)到閾值的 集合作為同一文檔下的集合進(jìn)行聚類。
13. 如權(quán)利要求8所述的裝置,其特征在于,所述裝置還包括: 去重模塊,用于對所述聚類結(jié)果進(jìn)行去重處理。
14. 如權(quán)利要求8所述的裝置,其特征在于,所述裝置還包括: 停止模塊,用于在所述聚類結(jié)果中包含所述第一集合簇中的所有集合時,停止針對所 述第一集合簇的聚類。
15. -種文本聚類裝置,其特征在于,包括: 處理器; 用于存儲處理器可執(zhí)行指令的存儲器; 其中,所述處理器被配置為: 計算輸入的搜索文檔與數(shù)據(jù)庫中的文檔的相似度; 當(dāng)所述搜索文檔為多個時,將數(shù)據(jù)庫中與所述搜索文檔的相似度達(dá)到閾值的文檔分別 進(jìn)行聚類得到第一集合簇; 將所述第一集合簇中同一文檔下的集合進(jìn)行聚類,得到聚類結(jié)果。
【文檔編號】G06F17/30GK104331510SQ201410682157
【公開日】2015年2月4日 申請日期:2014年11月24日 優(yōu)先權(quán)日:2014年11月24日
【發(fā)明者】于亮, 王海洲, 韓愛君 申請人:小米科技有限責(zé)任公司