欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于形態(tài)和語義相似度的對話短文本聚類方法

文檔序號:6548110閱讀:769來源:國知局
一種基于形態(tài)和語義相似度的對話短文本聚類方法
【專利摘要】本發(fā)明公開了一種基于形態(tài)和語義相似度的對話短文本聚類方法,其中形態(tài)相似度采用字符串編輯距離相似度,語義相似度基于HowNet和WordNet知識庫;在計算短文本相似度的時候引入短文本和詞語的權重值。本發(fā)明在一定程度上解決對話短文本中包含一些不規(guī)整、輸入錯誤噪音信息以及同義詞、語義鴻溝的問題,從而相對與基于詞袋向量的聚類方法有較大的提升。
【專利說明】一種基于形態(tài)和語義相似度的對話短文本聚類方法
【技術領域】
[0001]本發(fā)明屬于短文本聚類【技術領域】,涉及一種基于字符串編輯距離相似度與詞語語義相似度的對話短文本聚類方法。
【背景技術】
[0002]隨著移動通信和移動互聯網的飛速發(fā)展,出現各種人機智能對話系統,例如Sir1、google now、小i機器人等。以小i機器人為例,用戶數已超過I億,每年有100億次的對話訪問并產生大量有價值的對話文本數據,這些數據是用戶興趣挖掘和智能對話系統知識庫改進的重要數據源。針對這些對話文本數據進行聚類分析可以將相似的對話文本聚集起來并形成若干個重要的聚類中心,從而可以提高挖掘用戶興趣并提煉出知識來更新和完善知識庫效率。因此針對對話文本的聚類算法研究具有廣闊的應用場景和巨大的價值。
[0003]這類對話文本是一種特殊的短文本,通常只有一兩句話,甚至只有幾個詞語或指令。對話短文本具有以下特點:
[0004](I)特征信息少,只包含少量的詞。
[0005](2)主題單一,一個對話短文本通常只討論一件事情。
[0006](3)形式不規(guī)則,口語化特征明顯。
[0007](4)同義詞、大小寫字母混用以及輸入錯誤現象突出。
[0008]由于對話短文本的這些特點,從而導致基于詞袋向量的傳統聚類算法不能很好處理這類文本數據。為了解決短文本的信息稀疏性,不少學者也提出相應的方法。一種常用的方法是利用相關的長文本作為輔助數據來擴充短文本的信息。例如Sahami等將短文本輸入搜索引擎獲取返回的最相關的文本集合,這些文本數據作為相應短文本的輔助數據信息,這種方法在一定程度上較好的解決了短文本的信息稀疏性,但是需要大量的外部輔助數據,從而導致應用場景受到很大的限制。另一種常用的方法是利用知識庫擴展詞的特征表示,例如Hu等利用WordNet或Wikipedia知識庫解決特征信息稀疏性的問題,這種方法可以從語義層面補充特征信息,但對于口語化、錯誤噪音嚴重的短文本也不能較好處理。

【發(fā)明內容】

[0009]本發(fā)明的目的是針對現有聚類技術對智能對話系統產生的對話短文本聚類處理能力存在的缺陷而提出的一種形態(tài)和語義相似度相結合的短文本聚類方法(FS-STC),其中形態(tài)相似度采用字符串編輯距離相似度,語義相似度基于HowNet或WordNet知識庫的詞語語義相似度。
[0010]實現本發(fā)明目的的具體技術方案是:
[0011]一種基于形態(tài)和語義相似度的對話短文本聚類方法,該方法包括以下具體步驟:
[0012]步驟S1:對于中文短文本采用分詞工具進行分詞處理,然后利用正則匹配與字符串替換來過濾掉無效字符、連續(xù)空格、大小寫混用噪音信息;對于英文短文本采用詞干提取工具進行預處理;[0013]步驟S2:利用TF-1DF和TextRank方法進行關鍵詞提取來獲取候選關鍵詞以及對應的權重值;將去除噪音的短文本和關鍵詞集合相結合起來形成帶有權重值的格式化短文本;根據帶有權重的格式化短文本定義一種新的短文本和類中心的表示方式;
[0014]步驟S3:聚類開始的時候,類中心集合為空;當第一個對話短文本輸入之后,發(fā)現類中心集合為空,則以當前短文本為基礎建立一個類中心,并加入類中心集合;當第二個短文本輸入之后,遍歷類中心集合發(fā)現存在一個類中心,根據短文本和類中心的表示方式,結合形態(tài)和語義因素來計算當前短文本與類中心的相似度距離D ;形態(tài)因素采用編輯距離相似度;語義因素采用知網、同義詞林和WordNet知識庫的詞語語義相似度;如果D小于閾值T,則將該對話短文本加入該類中心并更新該類中心;否則從類中心集合中取下一個類中心進行同樣判斷,當遍歷完了類中心集合之后依舊沒有符合要求的類中心,則需要以該短文本為基礎建立一個新的類中心并加入類中心集合;依次循環(huán)上述過程,直到所有對話短文本完成聚類;最終的類中心集合則為所需聚類結果,每個對話短文本與最終類中心集合中哪個類中心的相似度距離最小,則該對話短文本就屬于這個類。
[0015]所述步驟SI中新的對話短文本與類中心的表示方式為:
[0016]i )短文本ST由原始短文本RST、規(guī)整化字符串文本FST和關鍵詞集合KWL三部分組成,其短文本 ST 的數學描述為:ST = {RST, FST/WT, KffL = [KW1M1,...,KWiMi,...]},WT表示FST的權重,Wti表示KWi的權重;
[0017]ii )類中心Center由類標號CID、類權重CWT、類成員數目CMN、原始短文本集合CRSTL、規(guī)整化字符串文本集合CFSTL和關鍵詞集合CKWL組成,其類中心Center的數學描述為:
[0018]Center = {CID, CWT, CMN, CRSTL = [RST1,..., RSTi,...],
[0019]CFSTL = [FSlVWT1,...,FSTj/WTj,...], CKffL = [Kff1Zwt1,...,Kffk/wtk,
WTj表示FSTj的權重,Wtk表示KWk的權重。
[0020]所述步驟S3中結合形態(tài)和語義因素來計算當前短文本與類中心的相似度距離D是:
[0021]基于ST、Center表示形式,結合編輯距離相似度和詞語語義相似度來計算短文本相似度Simi,相似度距離D = 1-Simi,其中編輯距離相似度表示為FSimi,詞語語義相似度表示為SSimi ;
[0022]D = 1- Sm,, = 1- (c * FSimi + (1-r) * SSimi ),(c e「O,丨1),其中 0 為編輯距離相似度的
權重因子,即形態(tài)因素在相似度計算中所占比例;Simi (STA, STb)表示STa和STb的相似度,FSimi (STA.FST, STb.FST)表示規(guī)整化文本字符串的編輯距離相似度,SSimi (STA.KWL, STb.KffL)表示STa和STb的語義相似度;
[0023]FSimi (STA.FST, STB.FST) = Levenshtein (STA.FST, STB.FST) (I)
【權利要求】
1.一種基于形態(tài)和語義相似度的對話短文本聚類方法,其特征在于該方法包括以下具體步驟: 步驟S1:對于中文短文本采用分詞工具進行分詞處理,然后利用正則匹配與字符串替換來過濾掉無效字符、連續(xù)空格、大小寫混用噪音信息;對于英文短文本采用詞干提取工具進行預處理; 步驟S2:利用TF-1DF和TextRank方法進行關鍵詞提取來獲取候選關鍵詞以及對應的權重值;將去除噪音的短文本和關鍵詞集合相結合起來形成帶有權重值的格式化短文本;根據帶有權重的格式化短文本定義一種新的短文本和類中心的表示方式; 步驟S3:聚類開始的時候,類中心集合為空;當第一個對話短文本輸入之后,發(fā)現類中心集合為空,則以當前短文本為基礎建立一個類中心,并加入類中心集合;當第二個短文本輸入之后,遍歷類中心集合發(fā)現存在一個類中心,根據短文本和類中心的表示方式,結合形態(tài)和語義因素來計算當前短文本與類中心的相似度距離D ;形態(tài)因素采用編輯距離相似度;語義因素采用知網、同義詞林和WordNet知識庫的詞語語義相似度;如果D小于閾值T,則將該對話短文本加入該類中心并更新該類中心;否則從類中心集合中取下一個類中心進行同樣判斷,當遍歷完了類中心集合之后依舊沒有符合要求的類中心,則需要以該短文本為基礎建立一個新的類中心并加入類中心集合;依次循環(huán)上述過程,直到所有對話短文本完成聚類;最終的類中心集合則為所需聚類結果,每個對話短文本與最終類中心集合中哪個類中心的相似度距離最小,則該對話短文本就屬于這個類。
2.根據權利要求1所述的方法,其特征在于所述步驟SI中新的對話短文本與類中心的表不方式為: i )短文本ST由原始短文本RST、規(guī)整化字符串文本FST和關鍵詞集合KWL三部分組成,其短文本 ST 的數學描述為:ST = {RST, FST/WT, KffL = [KW1M1,...,KWiMi,...]},WT表示FST的權重,Wti表示KWi的權重; ? )類中心Center由類標號CID、類權重CWT、類成員數目CMN、原始短文本集合CRSTL、規(guī)整化字符串文本集合CFSTL和關鍵詞集合CKWL組成,其類中心Center的數學描述為:
Center = {CID, CWT, CMN, CRSTL = [RST1,..., RSTi,...],
CFSTL = [FST1ZTT1,...,FSTj/WTj,...],CKffL = [Kff1Zwt1,...,Kffk/wtk,...]},WTj 表示FSTj的權重,Wtk表示KWk的權重。
3.根據權利要求1所述的方法,其特征在于所述步驟S3中結合形態(tài)和語義因素來計算當前短文本與類中心的相似度距離D,具體包括: 基于ST、Center表示形式,結合編輯距離相似度和詞語語義相似度來計算短文本相似度Simi,相似度距離D = Ι-Simi,其中編輯距離相似度表示為FSimi,詞語語義相似度表示為 SSimi ;
D = 1- Simi = 1- (r * FSimi + (1- r)* SSimi ),0 e「O,I〗),其中 3 為編輯距離相似度的權重因子,即形態(tài)因素在相似度計算中所占比例;Simi(STA,STb)表示STa和STb的相似度,FSimi (STA.FST, STb.FST)表示規(guī)整化文本字符串的編輯距離相似度,SSimi (STA.KffL, STb.KffL)表示STa和STb的語義相似度;
FSimi (STA.FST, STb.FST) = Levenshtein (STA.FST, STB.FST) (I)
【文檔編號】G06F17/30GK104008166SQ201410235900
【公開日】2014年8月27日 申請日期:2014年5月30日 優(yōu)先權日:2014年5月30日
【發(fā)明者】胡琴敏, 陳國梁, 楊河彬, 羅念, 鐘哲凡, 裴逸鈞 申請人:華東師范大學
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
古交市| 义马市| 昌宁县| 堆龙德庆县| 云梦县| 宜都市| 江都市| 禄丰县| 枣阳市| 乐至县| 瑞丽市| 安图县| 安溪县| 临海市| 岱山县| 城市| 平凉市| 武鸣县| 濉溪县| 定州市| 乡城县| 和硕县| 新兴县| 景德镇市| 通道| 无锡市| 宾阳县| 南陵县| 承德市| 富民县| 水富县| 濉溪县| 太白县| 阳新县| 东台市| 济阳县| 灌云县| 定远县| SHOW| 玉林市| 浦县|