本申請涉及提案處理,特別是涉及一種基于降維聚類的提案合案的方法、裝置、設備和介質(zhì)。
背景技術:
1、提案工作中,經(jīng)常會出現(xiàn)多名人員針對類似問題提出相似建議的情況。如果不加處理,會出現(xiàn)辦理單位重復勞動、疲于奔命等問題,而提案合案能夠避免重復提案,提升提案整體質(zhì)量,因此在提案工作中具有重要意義。
2、現(xiàn)有技術中,提案合案方式為人工處理等傳統(tǒng)方式或者程序篩選相似提案輔助合案。
3、但是,這兩種處理方式仍然需要大量人工參與,誤判率高,效率較低。
技術實現(xiàn)思路
1、基于此,有必要針對上述技術問題,提供一種基于降維聚類的提案合案的方法、裝置、設備和介質(zhì),能夠?qū)崿F(xiàn)全程自動化處理提案合案,并提高合案的準確性。
2、一種基于降維聚類的提案合案的方法,包括:
3、獲取提案庫的數(shù)據(jù),并構建提案集;
4、對提案集的每篇提案,進行預處理,并得到每篇提案的文檔向量,以構建所有提案的特征矩陣;對所有提案的特征矩陣,進行降維處理,并采用dbscan算法對所有提案進行聚類,得到多個聚類組;
5、對每個聚類組,采用nmf算法對每篇提案進行質(zhì)量分析,得到每篇提案的質(zhì)量系數(shù);
6、根據(jù)每篇提案的質(zhì)量系數(shù),對每個聚類組的所有提案進行合案。
7、在一個實施例中,對提案集的每篇提案,進行預處理,并得到每篇提案的文檔向量,以構建所有提案的特征矩陣,包括:
8、對提案集的每篇提案,進行預處理,并采用jieba分詞模型,進行分詞,得到多個提案詞;
9、根據(jù)多個提案詞,采用fasttext預訓練模型,得到多個詞向量;
10、根據(jù)多個詞向量,對提案進行表示,得到每一篇提案的文檔向量;
11、根據(jù)每一篇提案的文檔向量,構建所有提案的特征矩陣。
12、在一個實施例中,對所有提案的特征矩陣,進行降維處理,并采用dbscan算法對所有提案進行聚類,得到多個聚類組,包括:
13、對所有提案的特征矩陣,進行降維處理,得到所有提案的降維矩陣;
14、根據(jù)降維矩陣,確定相似度閾值和最小樣本數(shù)目;對于每篇提案,計算歐氏距離;根據(jù)歐氏距離、相似度閾值以及最小樣本數(shù)目,確定核心提案;
15、從核心提案開始,使用歐氏距離來擴展聚類,得到多個聚類組。
16、在一個實施例中,對所有提案的特征矩陣,進行降維處理,得到所有提案的降維矩陣,包括:
17、對所有提案的特征矩陣,引入pca技術,計算特征矩陣的協(xié)方差矩陣;
18、對協(xié)方差矩陣進行特征值分解,得到特征值和相應的特征向量;
19、選擇最大的多個特征值對應的特征向量,構成特征向量矩陣;
20、根據(jù)特征向量矩陣,構造投影矩陣,并將提案集投影到降維后的特征空間,從而完成降維處理,得到所有提案的降維矩陣。
21、在一個實施例中,對每個聚類組,采用nmf算法對每篇提案進行質(zhì)量分析,得到每篇提案的質(zhì)量系數(shù),包括:
22、對每個聚類組,構建每篇提案的文檔-詞項矩陣;
23、使用nmf算法,對文檔-詞項矩陣進行分解,得到文檔-主題矩陣和主題-詞項矩陣;
24、根據(jù)預設標準,設置每篇提案的系數(shù)比例,并結合文檔-主題矩陣和主題-詞項矩陣,對每篇提案進行質(zhì)量分析,得到每篇提案的質(zhì)量系數(shù)。
25、在一個實施例中,預設標準包括:
26、主題一致性、主題多樣性、關鍵詞突出性以及文檔連貫性。
27、在一個實施例中,根據(jù)每篇提案的質(zhì)量系數(shù),對每個聚類組的所有提案進行合案,包括:
28、以每個聚類組中質(zhì)量系數(shù)最高的提案為主合提案,其它提案為相似提案;
29、根據(jù)主合提案和相似提案,對每個聚類組的所有提案進行合案。
30、一種基于降維聚類的提案合案的裝置,包括:
31、獲取模塊,用于獲取提案庫的數(shù)據(jù),并構建提案集;
32、處理模塊,用于對提案集的每篇提案,進行預處理,并得到每篇提案的文檔向量,以構建所有提案的特征矩陣;對所有提案的特征矩陣,進行降維處理,并采用dbscan算法對所有提案進行聚類,得到多個聚類組;
33、分析模塊,用于對每個聚類組,采用nmf算法對每篇提案進行質(zhì)量分析,得到每篇提案的質(zhì)量系數(shù);
34、合案模塊,用于根據(jù)每篇提案的質(zhì)量系數(shù),對每個聚類組的所有提案進行合案。
35、一種計算機設備,包括存儲器和處理器,所述存儲器存儲有計算機程序,所述處理器執(zhí)行所述計算機程序時實現(xiàn)以下步驟:
36、獲取提案庫的數(shù)據(jù),并構建提案集;
37、對提案集的每篇提案,進行預處理,并得到每篇提案的文檔向量,以構建所有提案的特征矩陣;對所有提案的特征矩陣,進行降維處理,并采用dbscan算法對所有提案進行聚類,得到多個聚類組;
38、對每個聚類組,采用nmf算法對每篇提案進行質(zhì)量分析,得到每篇提案的質(zhì)量系數(shù);
39、根據(jù)每篇提案的質(zhì)量系數(shù),對每個聚類組的所有提案進行合案。
40、一種計算機可讀存儲介質(zhì),其上存儲有計算機程序,所述計算機程序被處理器執(zhí)行時實現(xiàn)以下步驟:
41、獲取提案庫的數(shù)據(jù),并構建提案集;
42、對提案集的每篇提案,進行預處理,并得到每篇提案的文檔向量,以構建所有提案的特征矩陣;對所有提案的特征矩陣,進行降維處理,并采用dbscan算法對所有提案進行聚類,得到多個聚類組;
43、對每個聚類組,采用nmf算法對每篇提案進行質(zhì)量分析,得到每篇提案的質(zhì)量系數(shù);
44、根據(jù)每篇提案的質(zhì)量系數(shù),對每個聚類組的所有提案進行合案。
45、上述基于降維聚類的提案合案的方法,是一種結合dbscan算法及nmf算法實現(xiàn)提案合案的方法,通過一系列的數(shù)據(jù)預處理、精準聚類、提案質(zhì)量分析,實現(xiàn)自動化合案,幫助提案工作高效開展。與現(xiàn)有技術相比,本申請對dbscan算法進行改進以對提案進行聚類,無需預設簇(即聚類)的數(shù)量,即無需人工參與預設聚類數(shù)量,提高了聚類的效率和準確率;采用pca技術,對高維的提案特征矩陣進行降維,能夠減少特征的維度,保留數(shù)據(jù)中最重要的方差成分;使用網(wǎng)格搜索確定最優(yōu)參數(shù),能夠更準確地識別不同提案文檔中的相似性,從而提高聚類的準確性;聚類完成后,結合nmf算法選出主合提案,能夠?qū)⒁粋€非負的文檔-詞項矩陣分解為代表文檔的矩陣和代表詞項的矩陣,以非負約束促進了文檔主題的清晰解釋性,能夠更好地識別提案內(nèi)容并進行質(zhì)量分析,能夠?qū)崿F(xiàn)全程自動化處理提案合案,解決了重復處理提案的問題,節(jié)省時間和資源。
1.一種基于降維聚類的提案合案的方法,其特征在于,包括:
2.根據(jù)權利要求1所述的一種基于降維聚類的提案合案的方法,其特征在于,對提案集的每篇提案,進行預處理,并得到每篇提案的文檔向量,以構建所有提案的特征矩陣,包括:
3.根據(jù)權利要求1或2所述的一種基于降維聚類的提案合案的方法,其特征在于,對所有提案的特征矩陣,進行降維處理,并采用dbscan算法對所有提案進行聚類,得到多個聚類組,包括:
4.根據(jù)權利要求3所述的一種基于降維聚類的提案合案的方法,其特征在于,對所有提案的特征矩陣,進行降維處理,得到所有提案的降維矩陣,包括:
5.根據(jù)權利要求1或2所述的一種基于降維聚類的提案合案的方法,其特征在于,對每個聚類組,采用nmf算法對每篇提案進行質(zhì)量分析,得到每篇提案的質(zhì)量系數(shù),包括:
6.根據(jù)權利要求5所述的一種基于降維聚類的提案合案的方法,其特征在于,預設標準包括:
7.根據(jù)權利要求1或2所述的一種基于降維聚類的提案合案的方法,其特征在于,根據(jù)每篇提案的質(zhì)量系數(shù),對每個聚類組的所有提案進行合案,包括:
8.一種基于降維聚類的提案合案的裝置,其特征在于,包括:
9.一種計算機設備,包括存儲器和處理器,所述存儲器存儲有計算機程序,其特征在于,所述處理器執(zhí)行所述計算機程序時實現(xiàn)權利要求1至7中任一項所述方法的步驟。
10.一種計算機可讀存儲介質(zhì),其上存儲有計算機程序,其特征在于,所述計算機程序被處理器執(zhí)行時實現(xiàn)權利要求1至7中任一項所述的方法的步驟。