欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種文本信息提取的方法及系統(tǒng)的制作方法

文檔序號:6635827閱讀:329來源:國知局
一種文本信息提取的方法及系統(tǒng)的制作方法
【專利摘要】本申請?zhí)峁┝艘环N文本信息提取的方法,該方法包括:確定目標對象;對所述目標對象進行預(yù)處理;根據(jù)所述預(yù)處理結(jié)果,構(gòu)建隱含語義分析LSA,將所述目標對象數(shù)字化;使用k-means聚類算法對所述數(shù)字化后的目標對象進行聚類,得到至少一個聚類簇;利用基于LSA的算法對各個所述聚類簇中的信息進行信息提取,并將所述提取出來的信息組合在一起,能夠準確的提取微博摘要。本申請還提供了一種文本信息提取的系統(tǒng),同樣能夠準確的提取微博摘要。
【專利說明】一種文本信息提取的方法及系統(tǒng)

【技術(shù)領(lǐng)域】
[0001] 本申請涉及信息領(lǐng)域,特別涉及一種文本信息提取的方法及系統(tǒng)。

【背景技術(shù)】
[0002] 隨著技術(shù)的發(fā)展,人們對微博信息的提取方式越來越關(guān)注。
[0003] 現(xiàn)有的對微博信息做摘要的方法中,大多數(shù)都是基于空間向量模型(VSM)對微博 文本的表示方法進行微博摘要提取的,這種方法提取的摘要不夠準確。
[0004] 因此,如何準確的提取微博摘要是本領(lǐng)域技術(shù)人員目前需要解決的技術(shù)問題。


【發(fā)明內(nèi)容】

[0005] 本申請所要解決的技術(shù)問題是提供一種文本信息提取的方法及系統(tǒng),解決了現(xiàn)有 技術(shù)中提取的微博摘要不夠準確的問題。
[0006] 其具體方案如下:
[0007] -種文本信息提取的方法,該方法包括:
[0008] 確定目標對象;
[0009] 對所述目標對象進行預(yù)處理;
[0010] 根據(jù)所述預(yù)處理結(jié)果,構(gòu)建隱含語義分析LSA,將所述目標對象數(shù)字化;
[0011] 使用k-means聚類算法對所述數(shù)字化后的目標對象進行聚類,得到至少一個聚類 簇;
[0012] 利用基于LSA的算法對各個所述聚類簇中的信息進行信息提取,并將所述提取出 來的信息組合在一起。
[0013] 上述的方法,優(yōu)選的,
[0014] 所述對目標對象進行預(yù)處理包括:
[0015] 利用預(yù)設(shè)的分詞工具對所述目標對象進行分詞;
[0016] 當判斷所述分詞后的詞是否已停用時,去除所述停用的詞;
[0017] 當判斷所述詞的出現(xiàn)頻率超過預(yù)設(shè)閾值時,確定所述詞為特征詞。
[0018] 上述的方法,優(yōu)選的,
[0019] 所述構(gòu)建隱含語義分析LSA包括:
[0020] 根據(jù)所述預(yù)處理結(jié)果,構(gòu)建特征詞-文本矩陣;
[0021] 利用預(yù)設(shè)方法對所述矩陣進行奇異值分解處理,得到所述隱含語義空間;
[0022] 選取最大的k個奇異值,對所述特征詞-文本矩陣進行降維,得到所述特征詞-文 本矩陣的近似矩陣,得到降維后的所述隱含語義空間。
[0023] 上述的方法,優(yōu)選的,
[0024] 所述使用k-means聚類算法對數(shù)字化后的目標對象進行聚類包括:
[0025] 確定k個聚類初始中心點;
[0026] 根據(jù)第一預(yù)設(shè)算法確定所述目標對象所屬于的類;
[0027] 根據(jù)第二預(yù)設(shè)算法確定所述類的中心,并將所述類的中心確定為所述聚類的初始 中心點,直到所述類的中心收斂為止。
[0028] 上述的方法,優(yōu)選的,
[0029] 所述利用基于LSA的算法對聚類后的信息進行信息提取包括:
[0030] 在所述聚類后的各個聚類簇中,依據(jù)預(yù)設(shè)的規(guī)則挑選滿足預(yù)設(shè)條件的所述目標對 象;
[0031] 將所述滿足預(yù)設(shè)條件的目標對象進行預(yù)處理,并構(gòu)建特征詞-文本矩陣,得到隱 含語義空間;
[0032] 在所述隱含語義空間中選取k個最大的奇異值;
[0033] 根據(jù)所述k個最大的奇異值和所述特征詞-文本矩陣確定所述特征詞-文本矩陣 的近似矩陣;
[0034] 根據(jù)所述特征詞-文本矩陣的近似矩陣,計算相似度矩陣;
[0035] 歸一化所述相似度矩陣;
[0036] 在所述相似度矩陣中,選出滿足預(yù)設(shè)閾值范圍的相似度值;
[0037] 根據(jù)所述相似度值,提取出對應(yīng)的信息,并將所述提取出來的信息組合在一起。
[0038] 一種文本信息提取的系統(tǒng),該系統(tǒng)包括:
[0039] 第一確定單元,用于確定目標對象;
[0040] 預(yù)處理單元,用于對所述目標對象進行預(yù)處理;
[0041] 第一構(gòu)建單元,用于根據(jù)所述預(yù)處理結(jié)果,構(gòu)建隱含語義分析LSA,將所述目標對 象數(shù)字化;
[0042] 聚類單元,用于使用k-means聚類算法對所述數(shù)字化后的目標對象進行聚類,得 到至少一個聚類簇;
[0043] 第一提取單元,用于利用基于LSA的算法對各個所述聚類簇中的信息進行信息提 取,并將所述提取出來的信息組合在一起。
[0044] 上述的系統(tǒng),優(yōu)選的,
[0045] 所述預(yù)處理單元包括:
[0046] 分詞單元,用于利用預(yù)設(shè)的分詞工具對所述目標對象進行分詞;
[0047] 去除單元,用于當判斷所述分詞后的詞是否已停用時,去除所述停用的詞;
[0048] 第二確定單元,用于當判斷所述詞的出現(xiàn)頻率超過預(yù)設(shè)閾值時,確定所述詞為特 征詞。
[0049] 上述的系統(tǒng),優(yōu)選的,
[0050] 所述第一構(gòu)建單元包括:
[0051] 第二構(gòu)建單元,用于根據(jù)所述預(yù)處理結(jié)果,構(gòu)建特征詞-文本矩陣;
[0052] 分解單元,用于利用預(yù)設(shè)方法對所述矩陣進行奇異值分解處理,得到所述隱含語 義空間;
[0053] 降維單元,用于選取最大的k個奇異值,對所述特征詞-文本矩陣進行降維,得到 所述特征詞-文本矩陣的近似矩陣,得到降維后的所述隱含語義空間。
[0054] 上述的系統(tǒng),優(yōu)選的,
[0055] 所述聚類單元包括:
[0056] 第三確定單元,用于確定k個聚類初始中心點;
[0057] 第四確定單元,用于根據(jù)第一預(yù)設(shè)算法確定所述目標對象所屬于的類;
[0058] 第五確定單元,用于根據(jù)第二預(yù)設(shè)算法確定所述類的中心,并將所述類的中心確 定為所述聚類的初始中心點,直到所述類的中心收斂為止。
[0059] 上述的系統(tǒng),優(yōu)選的,
[0060] 所述第一提取單元包括:
[0061] 挑選單元,用于在所述聚類后的各個聚類簇中,依據(jù)預(yù)設(shè)的規(guī)則挑選滿足預(yù)設(shè)條 件的所述目標對象;
[0062] 第三構(gòu)建單元,用于將所述滿足預(yù)設(shè)條件的目標對象進行預(yù)處理,并構(gòu)建特征 詞-文本矩陣,得到隱含語義空間;
[0063] 選取單元,用于在所述隱含語義空間中選取k個最大的奇異值;
[0064] 第六確定單元,用于根據(jù)所述k個最大的奇異值和所述特征詞-文本矩陣確定所 述特征詞-文本矩陣的近似矩陣;
[0065] 計算單元,用于根據(jù)所述特征詞-文本矩陣的近似矩陣,計算相似度矩陣;
[0066] 歸一化單元,用于歸一化所述相似度矩陣;
[0067] 第七確定單元,用于在所述相似度矩陣中,確定滿足預(yù)設(shè)閾值范圍的相似度值;
[0068] 第二提取單元,用于根據(jù)所述相似度值,提取出對應(yīng)的信息,并將所述提取出來的 信息組合在一起。
[0069] 本申請?zhí)峁┑囊环N文本信息提取的方法中,首先確定目標對象;然后對所述目標 對象進行預(yù)處理;根據(jù)所述預(yù)處理結(jié)果,構(gòu)建隱含語義分析LSA,將所述目標對象數(shù)字化; 使用k-means聚類算法對所述數(shù)字化后的目標對象進行聚類,得到至少一個聚類簇;利用 基于LSA的算法對各個所述聚類簇中的信息進行信息提取,并將所述提取出來的信息組合 在一起。對經(jīng)過LSA處理后的所述目標對象進行聚類,使得聚類后的結(jié)果更加準確,然后再 使用LSA算法對聚類后的信息進行信息提取,使得提取出來的信息更加接近真實的信息, 更加準確。

【專利附圖】

【附圖說明】
[0070] 為了更清楚地說明本申請實施例中的技術(shù)方案,下面將對實施例描述中所需要使 用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本申請的一些實施例,對于 本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動性的前提下,還可以根據(jù)這些附圖獲得其 他的附圖。
[0071] 圖1是本申請的一種文本信息提取的方法實施例1的流程圖;
[0072] 圖2是本申請的一種文本信息提取的方法實施例2的流程圖;
[0073] 圖3是本申請的一種文本信息提取的方法實施例3的流程圖;
[0074] 圖4是本申請的一種文本信息提取的方法實施例4的流程圖;
[0075] 圖5是本申請的一種文本信息提取的方法實施例5的流程圖;
[0076] 圖6是本申請的一種文本信息提取的系統(tǒng)實施例1的結(jié)構(gòu)示意圖;
[0077] 圖7是本申請的一種文本信息提取的系統(tǒng)實施例2的結(jié)構(gòu)示意圖;
[0078] 圖8是本申請的一種文本信息提取的系統(tǒng)實施例3的結(jié)構(gòu)示意圖;
[0079] 圖9是本申請的一種文本信息提取的系統(tǒng)實施例4的結(jié)構(gòu)示意圖;
[0080] 圖10是本申請的一種文本信息提取的系統(tǒng)實施例5的結(jié)構(gòu)示意圖。

【具體實施方式】
[0081] 本發(fā)明的核心是提供一種文本信息提取的方法及系統(tǒng),解決了現(xiàn)有技術(shù)中提取的 微博摘要不夠準確的問題。
[0082] 下面將結(jié)合本申請實施例中的附圖,對本申請實施例中的技術(shù)方案進行清楚、完 整地描述,顯然,所描述的實施例僅僅是本申請一部分實施例,而不是全部的實施例。基于 本申請中的實施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他 實施例,都屬于本申請保護的范圍。
[0083] 由于微博上有很多信息,這些信息過于龐大復(fù)雜,要從這些成千上萬條的微博中 得到自己想要的信息,非常困難,這時就需要從這些微博中提取出一些重要的有代表性的 信息作為文摘,使用戶可以通過簡短的文摘大致了解一段很大的微博的內(nèi)容,這樣可以提 高交流溝通的實效,微博應(yīng)用可以把用戶關(guān)注的信息簡要的提供給用戶,可以加快用戶閱 讀速度,通過閱讀信息的文摘而不是博文本身,可以更快的獲取事件的原由和發(fā)展,或者是 其他用戶的意見和評論。
[0084] 本申請引入隱含語義分析LSA方法來表示中文微博數(shù)據(jù),用k-means方法對其進 行聚類,然后用基于LSA的算法結(jié)合微博文本的特點及微博特有的評論數(shù)、轉(zhuǎn)發(fā)數(shù)和粉絲 數(shù)等特有的屬性來進行信息提取,產(chǎn)生微博文摘。具體的實現(xiàn)方式如下面各個實施例。
[0085] 參考圖1,示出了本申請一種文本信息提取的方法實施例1的流程圖,可以包括以 下步驟:
[0086] 步驟SlOl :確定目標對象。
[0087] 用戶選取需要了解信息的微博,作為目標對象。
[0088] 步驟S102 :對所述目標對象進行預(yù)處理。
[0089] 本申請中,對整個微博先用ICTCLAS分詞工具進行中文分詞,過濾停用詞,選取出 現(xiàn)頻率超過一定閾值的詞作為特征詞。
[0090] 在經(jīng)過預(yù)處理后的微博中查找信息時,簡單、方便且效率高。
[0091] 步驟S103:根據(jù)所述預(yù)處理結(jié)果,構(gòu)建隱含語義分析LSA,將所述目標對象數(shù)字 化。
[0092] 所述隱含語義分析LSA是一種用于自動地實現(xiàn)知識提取和表示的理論和方法,它 通過對大量的文本集合進行統(tǒng)計分析,從中提取出詞語的上下文使用含義,通過建立概念 空間的方式來獲得對詞語和文檔的語義理解和語義聯(lián)系。
[0093] 其基本思想是,將有特征詞和微博文檔組成的矩陣經(jīng)過奇異值分解,降維到新的 正交矩陣,從而轉(zhuǎn)換到潛在的語義空間。
[0094] 本申請中,以所述特征詞的個數(shù)為行數(shù),整個微博的條數(shù)為列數(shù),構(gòu)成一個矩陣A, 其中行表示特征詞,列表示句子,表示第i個詞在第j句的權(quán)重。
[0095] A-般是一個高維的稀疏矩陣。權(quán)重%的計算,本申請中采用常用的TF-IDF算 法,歸一化的TF-IDF公式如下:

【權(quán)利要求】
1. 一種文本信息提取的方法,其特征在于,該方法包括: 確定目標對象; 對所述目標對象進行預(yù)處理; 根據(jù)所述預(yù)處理結(jié)果,構(gòu)建隱含語義分析LSA,將所述目標對象數(shù)字化; 使用k-means聚類算法對所述數(shù)字化后的目標對象進行聚類,得到至少一個聚類簇; 利用基于LSA的算法對各個所述聚類簇中的信息進行信息提取,并將所述提取出來的 信息組合在一起。
2. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述對目標對象進行預(yù)處理包括: 利用預(yù)設(shè)的分詞工具對所述目標對象進行分詞; 當判斷所述分詞后的詞是否已停用時,去除所述停用的詞; 當判斷所述詞的出現(xiàn)頻率超過預(yù)設(shè)閾值時,確定所述詞為特征詞。
3. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述構(gòu)建隱含語義分析LSA包括: 根據(jù)所述預(yù)處理結(jié)果,構(gòu)建特征詞-文本矩陣; 利用預(yù)設(shè)方法對所述矩陣進行奇異值分解處理,得到所述隱含語義空間; 選取最大的k個奇異值,對所述特征詞-文本矩陣進行降維,得到所述特征詞-文本矩 陣的近似矩陣,得到降維后的所述隱含語義空間。
4. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述使用k-means聚類算法對數(shù)字化后的 目標對象進行聚類包括: 確定k個聚類初始中心點; 根據(jù)第一預(yù)設(shè)算法確定所述目標對象所屬于的類; 根據(jù)第二預(yù)設(shè)算法確定所述類的中心,并將所述類的中心確定為所述聚類的初始中心 點,直到所述類的中心收斂為止。
5. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述利用基于LSA的算法對聚類后的信息 進行信息提取包括: 在所述聚類后的各個聚類簇中,依據(jù)預(yù)設(shè)的規(guī)則挑選滿足預(yù)設(shè)條件的所述目標對象; 將所述滿足預(yù)設(shè)條件的目標對象進行預(yù)處理,并構(gòu)建特征詞-文本矩陣,得到隱含語 義空間; 在所述隱含語義空間中選取k個最大的奇異值; 根據(jù)所述k個最大的奇異值和所述特征詞-文本矩陣確定所述特征詞-文本矩陣的近 似矩陣; 根據(jù)所述特征詞-文本矩陣的近似矩陣,計算相似度矩陣; 歸一化所述相似度矩陣; 在所述相似度矩陣中,選出滿足預(yù)設(shè)閾值范圍的相似度值; 根據(jù)所述相似度值,提取出對應(yīng)的信息,并將所述提取出來的信息組合在一起。
6. -種文本信息提取的系統(tǒng),其特征在于,該系統(tǒng)包括: 第一確定單元,用于確定目標對象; 預(yù)處理單元,用于對所述目標對象進行預(yù)處理; 第一構(gòu)建單元,用于根據(jù)所述預(yù)處理結(jié)果,構(gòu)建隱含語義分析LSA,將所述目標對象數(shù) 字化; 聚類單元,用于使用k-means聚類算法對所述數(shù)字化后的目標對象進行聚類,得到至 少一個聚類簇; 第一提取單元,用于利用基于LSA的算法對各個所述聚類簇中的信息進行信息提取, 并將所述提取出來的信息組合在一起。
7. 根據(jù)權(quán)利要求6所述的系統(tǒng),其特征在于,所述預(yù)處理單元包括: 分詞單元,用于利用預(yù)設(shè)的分詞工具對所述目標對象進行分詞; 去除單元,用于當判斷所述分詞后的詞是否已停用時,去除所述停用的詞; 第二確定單元,用于當判斷所述詞的出現(xiàn)頻率超過預(yù)設(shè)閾值時,確定所述詞為特征詞。
8. 根據(jù)權(quán)利要求6所述的系統(tǒng),其特征在于,所述第一構(gòu)建單元包括: 第二構(gòu)建單元,用于根據(jù)所述預(yù)處理結(jié)果,構(gòu)建特征詞-文本矩陣; 分解單元,用于利用預(yù)設(shè)方法對所述矩陣進行奇異值分解處理,得到所述隱含語義空 間; 降維單元,用于選取最大的k個奇異值,對所述特征詞-文本矩陣進行降維,得到所述 特征詞-文本矩陣的近似矩陣,得到降維后的所述隱含語義空間。
9. 根據(jù)權(quán)利要求6所述的系統(tǒng),其特征在于,所述聚類單元包括: 第三確定單元,用于確定k個聚類初始中心點; 第四確定單元,用于根據(jù)第一預(yù)設(shè)算法確定所述目標對象所屬于的類; 第五確定單元,用于根據(jù)第二預(yù)設(shè)算法確定所述類的中心,并將所述類的中心確定為 所述聚類的初始中心點,直到所述類的中心收斂為止。
10. 根據(jù)權(quán)利要求6所述的系統(tǒng),其特征在于,所述第一提取單元包括: 挑選單元,用于在所述聚類后的各個聚類簇中,依據(jù)預(yù)設(shè)的規(guī)則挑選滿足預(yù)設(shè)條件的 所述目標對象; 第三構(gòu)建單元,用于將所述滿足預(yù)設(shè)條件的目標對象進行預(yù)處理,并構(gòu)建特征詞-文 本矩陣,得到隱含語義空間; 選取單元,用于在所述隱含語義空間中選取k個最大的奇異值; 第六確定單元,用于根據(jù)所述k個最大的奇異值和所述特征詞-文本矩陣確定所述特 征詞-文本矩陣的近似矩陣; 計算單元,用于根據(jù)所述特征詞-文本矩陣的近似矩陣,計算相似度矩陣; 歸一化單元,用于歸一化所述相似度矩陣; 第七確定單元,用于在所述相似度矩陣中,確定滿足預(yù)設(shè)閾值范圍的相似度值; 第二提取單元,用于根據(jù)所述相似度值,提取出對應(yīng)的信息,并將所述提取出來的信息 組合在一起。
【文檔編號】G06F17/27GK104408033SQ201410690788
【公開日】2015年3月11日 申請日期:2014年11月25日 優(yōu)先權(quán)日:2014年11月25日
【發(fā)明者】楊樹強, 束陽雪, 黃鴻杰, 金松昌, 陳志坤, 尹洪, 薛竹君, 蔣千越, 賈焰, 周斌, 韓偉紅, 李愛平 申請人:中國人民解放軍國防科學(xué)技術(shù)大學(xué)
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
常山县| 东丽区| 嘉禾县| 临夏县| 璧山县| 平山县| 梧州市| 和政县| 封丘县| 绍兴县| 济阳县| 柳林县| 长沙县| 德化县| 游戏| 林甸县| 洛阳市| 黄冈市| 广汉市| 延川县| 元氏县| 霍山县| 探索| 泾川县| 碌曲县| 安达市| 普定县| 怀远县| 逊克县| 正安县| 嘉义县| 廉江市| 天祝| 浦城县| 海口市| 阿坝县| 景洪市| 保山市| 屏边| 合山市| 惠水县|