本發(fā)明涉及一種數(shù)據(jù)處理方法和裝置,特別是涉及一種語(yǔ)料數(shù)據(jù)的處理方法和裝置。
背景技術(shù):
在語(yǔ)言處理的自動(dòng)問(wèn)答領(lǐng)域中,需要對(duì)以語(yǔ)言為載體的問(wèn)題進(jìn)行確定,進(jìn)而建立問(wèn)題與答案的對(duì)應(yīng)關(guān)系,建立相似問(wèn)題的問(wèn)題集,即問(wèn)題集的聚合是確定“問(wèn)題-答案”業(yè)務(wù)邏輯的基礎(chǔ)技術(shù)和重要步驟。
在問(wèn)題集的聚合處理過(guò)程中,現(xiàn)有技術(shù)采用自動(dòng)聚類(lèi),對(duì)相似問(wèn)題語(yǔ)句進(jìn)行聚類(lèi)形成不同的問(wèn)題集。在聚類(lèi)過(guò)程中需要確定聚類(lèi)中心的數(shù)量和初始位置,以反映聚類(lèi)中心的類(lèi)間相異度。然后進(jìn)行聚類(lèi)的迭代過(guò)程,直至聚類(lèi)中心位置確定或達(dá)到預(yù)設(shè)精度或迭代次數(shù)。
由于問(wèn)題集中存在一些特征分布稀疏不均勻的問(wèn)題語(yǔ)句數(shù)據(jù),使得聚類(lèi)區(qū)域的大小和形狀不規(guī)整,因此使得類(lèi)間相異度量難于確定,聚類(lèi)中心數(shù)量和初始位置無(wú)法優(yōu)化。這就造成進(jìn)行大樣本的問(wèn)題集的聚類(lèi)時(shí),對(duì)噪聲問(wèn)題和離群孤立問(wèn)題語(yǔ)句數(shù)據(jù)較敏感,使得少量數(shù)據(jù)對(duì)聚類(lèi)結(jié)果產(chǎn)生較大影響,往往不能形成問(wèn)題集的最優(yōu)聚類(lèi)。
技術(shù)實(shí)現(xiàn)要素:
有鑒于此,本發(fā)明實(shí)施例提供了一種數(shù)據(jù)的聚類(lèi)方法和聚類(lèi)裝置,用于解決現(xiàn)有問(wèn)題集聚類(lèi)過(guò)程中,受初始條件影響聚類(lèi)效果差的技術(shù)問(wèn)題。
本發(fā)明實(shí)施例的數(shù)據(jù)的聚類(lèi)方法包括:
獲取待處理數(shù)據(jù),所述待處理數(shù)據(jù)包括測(cè)試數(shù)據(jù)和非測(cè)試數(shù)據(jù);
對(duì)測(cè)試數(shù)據(jù)進(jìn)行第一分類(lèi)處理,得到第一分類(lèi)結(jié)果;
采用初始預(yù)設(shè)值對(duì)測(cè)試數(shù)據(jù)進(jìn)行第二分類(lèi)處理,得到第二分類(lèi)結(jié)果,所述第二分類(lèi)處理包括:分別獲取第M句數(shù)據(jù)的句向量與已聚類(lèi)的L個(gè)信息組的句向量平均值之間的最大相似度值,當(dāng)所述最大相似度值大于所述初始預(yù)設(shè)值時(shí),將第M句數(shù)據(jù)聚類(lèi)到所述最大相似度值對(duì)應(yīng)的信息組中;當(dāng)所述最大相似度值小于所述初始預(yù)設(shè)值時(shí),將第M句數(shù)據(jù)作為第L+1個(gè)信息組,所述L小于或等于M-1;
比較所述第二分類(lèi)結(jié)果和所述第一分類(lèi)結(jié)果,當(dāng)以第一分類(lèi)結(jié)果為標(biāo)準(zhǔn)得到第二分類(lèi)結(jié)果的準(zhǔn)確率大于或等于閾值時(shí),將所述初始預(yù)設(shè)值作為目標(biāo)預(yù)設(shè)值;當(dāng)以第一分類(lèi)結(jié)果為標(biāo)準(zhǔn)得到第二分類(lèi)結(jié)果的準(zhǔn)確率小于閾值時(shí),不斷調(diào)整所述初始預(yù)設(shè)值,直至將所述初始預(yù)設(shè)值調(diào)整為目標(biāo)預(yù)設(shè)值時(shí)得到新的第二分類(lèi)結(jié)果的準(zhǔn)確率大于或等于閾值;
采用目標(biāo)預(yù)設(shè)值對(duì)非測(cè)試數(shù)據(jù)進(jìn)行第二分類(lèi)處理。
本發(fā)明實(shí)施例的數(shù)據(jù)的聚類(lèi)裝置包括:
數(shù)據(jù)獲取模塊,用于獲取待處理數(shù)據(jù),將待處理數(shù)據(jù)劃分為測(cè)試數(shù)據(jù)和非測(cè)試數(shù)據(jù);
第一分類(lèi)模塊,用于對(duì)測(cè)試數(shù)據(jù)進(jìn)行第一分類(lèi)處理,得到第一分類(lèi)結(jié)果;
第二分類(lèi)模塊,用于采用初始預(yù)設(shè)值對(duì)測(cè)試數(shù)據(jù)進(jìn)行第二分類(lèi)處理,得到第二分類(lèi)結(jié)果,用于采用目標(biāo)預(yù)設(shè)值對(duì)非測(cè)試數(shù)據(jù)進(jìn)行分類(lèi)處理;進(jìn)一步用于分別獲取第M句數(shù)據(jù)的句向量與已聚類(lèi)的L個(gè)信息組的句向量平均值之間的最大相似度值,當(dāng)所述最大相似度值大于所述初始預(yù)設(shè)值時(shí),將第M句數(shù)據(jù)聚類(lèi)到所述最大相似度值對(duì)應(yīng)的信息組中;當(dāng)所述最大相似度值小于所述初始預(yù)設(shè)值時(shí),將第M句數(shù)據(jù)作為第L+1個(gè)信息組,所述L小于或等于M-1;
參數(shù)確定模塊,用于比較第二分類(lèi)結(jié)果和第一分類(lèi)結(jié)果,當(dāng)以第一分類(lèi)結(jié)果為標(biāo)準(zhǔn)得到第二分類(lèi)結(jié)果的準(zhǔn)確率大于或等于閾值時(shí),將初始預(yù)設(shè)值作為目標(biāo)預(yù)設(shè)值;當(dāng)以第一分類(lèi)結(jié)果為標(biāo)準(zhǔn)得到第二分類(lèi)結(jié)果的準(zhǔn)確率小于閾值時(shí),不斷調(diào)整初始預(yù)設(shè)值,直至將初始預(yù)設(shè)值調(diào)整為目標(biāo)預(yù)設(shè)值時(shí)得到新的第二分類(lèi)結(jié)果的準(zhǔn)確率大于或等于閾值。
本發(fā)明的聚類(lèi)方法和聚類(lèi)裝置將向量化的語(yǔ)料數(shù)據(jù)中的測(cè)試數(shù)據(jù)用于半監(jiān)督學(xué)習(xí)的聚類(lèi)和自動(dòng)聚類(lèi),并根據(jù)半監(jiān)督學(xué)習(xí)的聚類(lèi)結(jié)果調(diào)整自動(dòng)聚類(lèi)算法的初始預(yù)設(shè)值形成目標(biāo)預(yù)設(shè)值,使得自動(dòng)聚類(lèi)算法的聚類(lèi)結(jié)果與半監(jiān)督學(xué)習(xí)的聚類(lèi)結(jié)果滿足趨同。這樣利用采用目標(biāo)預(yù)設(shè)值的自動(dòng)聚類(lèi)算法對(duì)向量化的語(yǔ)料數(shù)據(jù)中的非測(cè)試數(shù)據(jù)進(jìn)行聚類(lèi),可以有效提高初始分類(lèi)數(shù)據(jù)的準(zhǔn)確性,改善聚類(lèi)模型的聚類(lèi)中心的初始參數(shù),使得類(lèi)間相異度獲得保證,聚類(lèi)中心位置也可以很好的確定聚類(lèi)模型的穩(wěn)定性。使得實(shí)際應(yīng)用中問(wèn)題集的聚類(lèi)效果準(zhǔn)確,問(wèn)題有效分組。
附圖說(shuō)明
圖1為本發(fā)明的數(shù)據(jù)的聚類(lèi)方法一實(shí)施例的流程圖。
圖2為本發(fā)明的數(shù)據(jù)的聚類(lèi)方法一實(shí)施例的第二分類(lèi)處理的流程圖。
圖3為本發(fā)明的數(shù)據(jù)的聚類(lèi)裝置一實(shí)施例的架構(gòu)示意圖。
具體實(shí)施方式
下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例。基于本發(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒(méi)有作出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
圖紙中的步驟編號(hào)僅用于作為該步驟的附圖標(biāo)記,不表示執(zhí)行順序。
圖1為本發(fā)明的數(shù)據(jù)的聚類(lèi)方法一實(shí)施例的流程圖。如圖1所示,包括:
步驟100:獲取待處理數(shù)據(jù),所述待處理數(shù)據(jù)包括測(cè)試數(shù)據(jù)和非測(cè)試數(shù)據(jù)。
在本發(fā)明一實(shí)施例的數(shù)據(jù)的聚類(lèi)方法中,待處理數(shù)據(jù)為矢量化數(shù)據(jù),如問(wèn)題集或背景集中的語(yǔ)句語(yǔ)料。
本實(shí)施例從待處理數(shù)據(jù)中任意選取部分作為測(cè)試數(shù)據(jù),剩余部分作為非測(cè)試數(shù)據(jù),其中測(cè)試數(shù)據(jù)的數(shù)量遠(yuǎn)小于非測(cè)試數(shù)據(jù)的數(shù)量。
步驟200:對(duì)測(cè)試數(shù)據(jù)進(jìn)行第一分類(lèi)處理,得到第一分類(lèi)結(jié)果。
在本發(fā)明一實(shí)施例的數(shù)據(jù)的聚類(lèi)方法中,第一分類(lèi)處理采用單純的人工分類(lèi)或半監(jiān)督學(xué)習(xí)的人工分類(lèi)。需要說(shuō)明的是,在本發(fā)明的其它實(shí)施例中,第一分類(lèi)處理還可以采用其它非人工的方式完成,只要第一分類(lèi)處理與第二分類(lèi)處理的方式不同且第一分類(lèi)結(jié)果的準(zhǔn)確率在可以接受的范圍內(nèi)即可,其不限制本發(fā)明的保護(hù)范圍。
步驟300:采用初始預(yù)設(shè)值對(duì)測(cè)試數(shù)據(jù)進(jìn)行第二分類(lèi)處理,得到第二分類(lèi)結(jié)果。
在本發(fā)明一實(shí)施例的數(shù)據(jù)的聚類(lèi)方法中,第二分類(lèi)處理包括:
分別獲取第M句數(shù)據(jù)的句向量與已聚類(lèi)的L個(gè)信息組的句向量平均值之間的最大相似度值,當(dāng)所述最大相似度值大于所述初始預(yù)設(shè)值時(shí),將第M句數(shù)據(jù)聚類(lèi)到所述最大相似度值對(duì)應(yīng)的信息組中;當(dāng)所述最大相似度值小于所述初始預(yù)設(shè)值時(shí),將第M句數(shù)據(jù)作為第L+1個(gè)信息組,L值小于或等于M-1。
本實(shí)施例中的第二分類(lèi)處理,每個(gè)句數(shù)據(jù)的句向量分別與每個(gè)信息組的句向量平均值比較相似度,通過(guò)對(duì)初始預(yù)設(shè)值調(diào)整可以改變處理過(guò)程中第M句數(shù)據(jù)的聚類(lèi)方向和L個(gè)信息組的L值,有利于使得第二分類(lèi)處理可以根據(jù)要求進(jìn)行高效調(diào)整。
步驟400:比較所述第二分類(lèi)結(jié)果和所述第一分類(lèi)結(jié)果,當(dāng)以第一分類(lèi)結(jié)果為標(biāo)準(zhǔn)得到第二分類(lèi)結(jié)果的準(zhǔn)確率大于或等于閾值時(shí),將所述初始預(yù)設(shè)值作為目標(biāo)預(yù)設(shè)值;當(dāng)以第一分類(lèi)結(jié)果為標(biāo)準(zhǔn)得到第二分類(lèi)結(jié)果的準(zhǔn)確率小于閾值時(shí),不斷調(diào)整所述初始預(yù)設(shè)值,直至將所述初始預(yù)設(shè)值調(diào)整為目標(biāo)預(yù)設(shè)值時(shí)得到新的第二分類(lèi)結(jié)果的準(zhǔn)確率大于或等于閾值。
步驟500:采用目標(biāo)預(yù)設(shè)值對(duì)非測(cè)試數(shù)據(jù)進(jìn)行第二分類(lèi)處理。
本發(fā)明實(shí)施例的數(shù)據(jù)的聚類(lèi)方法分別利用高可靠性分類(lèi)方法(第一種分類(lèi)處理)和高效率分類(lèi)方法(第二種分類(lèi)處理)對(duì)同一組測(cè)試數(shù)據(jù)進(jìn)行分類(lèi),利用高可靠性的第一種分類(lèi)處理的結(jié)果為標(biāo)準(zhǔn),通過(guò)修改高效率的第二種分類(lèi)處理的初始預(yù)設(shè)值,使得第二種分類(lèi)處理的結(jié)果最后與第一種分類(lèi)處理的結(jié)果相同或趨同,形成第二種分類(lèi)處理方法的目標(biāo)預(yù)設(shè)值,并利用獲得的高效率分類(lèi)方法處理大量的非測(cè)試數(shù)據(jù)以獲得處理效率。有效結(jié)合了準(zhǔn)確率和效率,避免了現(xiàn)有聚類(lèi)方法中初始預(yù)設(shè)值使用隨機(jī)或偽隨機(jī)機(jī)制進(jìn)行確定,提高了聚類(lèi)效果穩(wěn)定性。
圖2為本發(fā)明的數(shù)據(jù)的聚類(lèi)方法一實(shí)施例的第二分類(lèi)處理的流程圖。如圖2所示包括:
步驟310:獲取T個(gè)句向量QT,其中T≥M,M≥2;
步驟320:初始K值、中心點(diǎn)PK-1、以及聚類(lèi)問(wèn)題集{K,[PK-1]},其中,K表示聚類(lèi)的類(lèi)別數(shù),K的初始值為1,中心點(diǎn)PK-1的初始值為P0,P0=Q1,Q1表示第1個(gè)句向量,聚類(lèi)問(wèn)題集的初始值為{1,[Q1]};
步驟330:依次對(duì)剩下的T-1個(gè)句向量進(jìn)行聚類(lèi),計(jì)算當(dāng)前句向量與每個(gè)聚類(lèi)問(wèn)題集的中心點(diǎn)的相似度,當(dāng)相似度大于或等于預(yù)設(shè)值時(shí)執(zhí)行步驟340,當(dāng)相似度小于預(yù)設(shè)值時(shí)執(zhí)行步驟360;
步驟340:如果當(dāng)前句向量與某個(gè)聚類(lèi)問(wèn)題集的中心點(diǎn)的相似度大于或等于預(yù)設(shè)值,則將當(dāng)前句向量聚類(lèi)到相應(yīng)的聚類(lèi)問(wèn)題集中,保持K值不變,將相應(yīng)的中心點(diǎn)更新為聚類(lèi)問(wèn)題集中所有句向量的向量平均值,形成相應(yīng)的聚類(lèi)問(wèn)題集為{K,[句向量的向量平均值]},然后執(zhí)行步驟380;
步驟360:如果當(dāng)前句向量與所有聚類(lèi)問(wèn)題集中的中心點(diǎn)的相似度均小于預(yù)設(shè)值,則令K=K+1,增加新的中心點(diǎn),所述新的中心點(diǎn)的值為當(dāng)前句向量,增加新的聚類(lèi)問(wèn)題集{K,[當(dāng)前句向量]},然后執(zhí)行步驟380;
步驟380:將下一個(gè)句向量作為當(dāng)前句向量,跳轉(zhuǎn)至步驟330。
以一組具體句數(shù)據(jù)為例,第二分類(lèi)處理如下:
假設(shè)初始分類(lèi)數(shù)據(jù)中包括三個(gè)問(wèn)題語(yǔ)料的句向量Q1、Q2、Q3。
首先初始聚類(lèi)中心數(shù)量K為1,第一初始聚類(lèi)中心P0采用Q1,第一初始聚類(lèi)中心P0的位置向量為聚類(lèi)問(wèn)題集為{1,[Q1]}。
在隨后的句向量依次聚類(lèi)過(guò)程中,計(jì)算Q2與第一初始聚類(lèi)中心P0的語(yǔ)義相似度:
若相似度大于或等于0.9(根據(jù)需求設(shè)定預(yù)設(shè)值為0.9),則認(rèn)為Q2和Q1屬于同一個(gè)類(lèi),此時(shí)初始聚類(lèi)中心數(shù)量K=1不變,P0更新為和的向量平均值,聚類(lèi)問(wèn)題集為{1,[Q1,Q2]}。再計(jì)算Q3與第一初始聚類(lèi)中心P0的語(yǔ)義相似度,若與第一初始聚類(lèi)中心P0相似度大于或等于0.9,則認(rèn)為Q3和第一初始聚類(lèi)中心P0屬于同一個(gè)類(lèi),P0更新為和的向量平均值,聚類(lèi)問(wèn)題集為{1,[Q1,Q2,Q3]}。
當(dāng)計(jì)算Q2與第一初始聚類(lèi)中心P0的語(yǔ)義相似度:
若相似度小于預(yù)設(shè)值0.9,則Q2和第一初始聚類(lèi)中心P0屬于不同的類(lèi),形成新的初始聚類(lèi)中心P1采用Q2,初始聚類(lèi)中心數(shù)量K=2,第二初始聚類(lèi)中心P1的位置向量為兩個(gè)聚類(lèi)問(wèn)題集為{1,[Q1]},{2,[Q2]};
再計(jì)算Q3與第一初始聚類(lèi)中心P0和第二初始聚類(lèi)中心P1的語(yǔ)義相似度:
若與第二初始聚類(lèi)中心P1相似度大于預(yù)設(shè)值0.9,則認(rèn)為Q3和Q2屬于同一個(gè)類(lèi),此時(shí)初始聚類(lèi)中心數(shù)量K=2不變,P1更新為和的向量平均值,聚類(lèi)問(wèn)題集為{1,[Q1]}、{2,[Q2,Q3]};
若Q3與第一初始聚類(lèi)中心P0和第二初始聚類(lèi)中心P1的語(yǔ)義相似度都小于0.9,則Q3屬于不同的類(lèi),形成新的初始聚類(lèi)中心P2采用Q3,初始聚類(lèi)中心數(shù)量K=3,第三初始聚類(lèi)中心P2的位置向量為Q3的向量,聚類(lèi)問(wèn)題集為{1,[Q1]},{2,[Q2]},{3,[Q3]}。
在上述實(shí)施例的基礎(chǔ)上,本發(fā)明一實(shí)施例的數(shù)據(jù)的聚類(lèi)方法中,對(duì)測(cè)試數(shù)據(jù)進(jìn)行第一分類(lèi)處理得到的第一分類(lèi)結(jié)果中分類(lèi)數(shù)目與對(duì)測(cè)試數(shù)據(jù)進(jìn)行第二分類(lèi)處理得到的第二分類(lèi)結(jié)果中分類(lèi)數(shù)目相同。
本實(shí)施例中將第一分類(lèi)結(jié)果中分類(lèi)數(shù)目作為第二分類(lèi)處理得到的第二分類(lèi)結(jié)果的約束條件,以保證第二分類(lèi)處理的類(lèi)間相異度獲得保證。利用第一分類(lèi)結(jié)果確定的分類(lèi)數(shù)目在形成使得第二分類(lèi)結(jié)果具有第一分類(lèi)中參數(shù)選擇的優(yōu)勢(shì),在進(jìn)行后續(xù)的非測(cè)試數(shù)據(jù)的聚類(lèi)時(shí),可以使得非測(cè)試數(shù)據(jù)在第二分類(lèi)結(jié)果的基礎(chǔ)上完成聚類(lèi),使得聚類(lèi)結(jié)果的分類(lèi)準(zhǔn)確性得到保證。
在上述實(shí)施例的基礎(chǔ)上,本發(fā)明一實(shí)施例的數(shù)據(jù)的聚類(lèi)方法中,對(duì)測(cè)試數(shù)據(jù)進(jìn)行第一分類(lèi)處理得到的第一分類(lèi)結(jié)果中各分類(lèi)的中心點(diǎn)與對(duì)測(cè)試數(shù)據(jù)進(jìn)行第二分類(lèi)處理得到的第二分類(lèi)結(jié)果中各分類(lèi)的中心點(diǎn)也可以相同,即第二分類(lèi)處理中各個(gè)信息組的中心點(diǎn)保持不變。
本實(shí)施例中將第一分類(lèi)結(jié)果中各信息組的句向量平均值作為第二分類(lèi)處理得到的第二分類(lèi)結(jié)果的約束條件,以保證第二分類(lèi)處理的穩(wěn)定性獲得保證。利用第一分類(lèi)結(jié)果確定的分類(lèi)數(shù)目在形成使得第二分類(lèi)結(jié)果具有第一分類(lèi)中參數(shù)選擇的優(yōu)勢(shì),在進(jìn)行后續(xù)的非測(cè)試數(shù)據(jù)的聚類(lèi)時(shí),通過(guò)第二分類(lèi)結(jié)果的信息組的分類(lèi)數(shù)目和中心點(diǎn),可以使得非測(cè)試數(shù)據(jù)在第二分類(lèi)結(jié)果的基礎(chǔ)上完成聚類(lèi),使得聚類(lèi)結(jié)果的分類(lèi)準(zhǔn)確性得到進(jìn)一步保證。
在上述實(shí)施例的基礎(chǔ)上,本發(fā)明一實(shí)施例的數(shù)據(jù)的聚類(lèi)方法中,對(duì)測(cè)試數(shù)據(jù)進(jìn)行所述第二分類(lèi)處理得到的所述第二分類(lèi)結(jié)果中各分類(lèi)的中心點(diǎn)動(dòng)態(tài)變化。利用第一分類(lèi)結(jié)果確定的分類(lèi)數(shù)目在形成使得第二分類(lèi)結(jié)果具有第一分類(lèi)中參數(shù)選擇的優(yōu)勢(shì),在進(jìn)行后續(xù)的非測(cè)試數(shù)據(jù)的聚類(lèi)時(shí),結(jié)合動(dòng)態(tài)變化的信息組的中心點(diǎn),避免出現(xiàn)聚類(lèi)的偶然性。
本實(shí)施例中中心點(diǎn)位置隨著聚類(lèi)數(shù)據(jù)的增加而動(dòng)態(tài)變化,在最終形成確定的第二分類(lèi)處理的各分類(lèi)的中心點(diǎn)時(shí),可以克服第二分類(lèi)處理的中心點(diǎn)初始值的選取精度對(duì)聚類(lèi)算法穩(wěn)定性的影響,隨著聚類(lèi)數(shù)據(jù)的增加,中心點(diǎn)會(huì)逐步趨近使所在分類(lèi)最穩(wěn)定的位置。
本發(fā)明一實(shí)施例的數(shù)據(jù)的聚類(lèi)方法中,第M句數(shù)據(jù)的句向量通過(guò)以下方式獲得:
步驟50:對(duì)第M句數(shù)據(jù)進(jìn)行預(yù)處理和分詞處理,得到第M句數(shù)據(jù)的特征詞;
步驟60:獲取特征詞的詞向量,并根據(jù)詞向量獲取第M句數(shù)據(jù)的句向量。
在本發(fā)明一實(shí)施例的數(shù)據(jù)的聚類(lèi)方法中,步驟50中的預(yù)處理和分詞處理具體包括如下處理:去除問(wèn)句信息中的無(wú)效格式,并將其余問(wèn)句信息的格式統(tǒng)一為文本格式,過(guò)濾敏感詞、和/或臟詞所對(duì)應(yīng)的問(wèn)句信息,將過(guò)濾后的問(wèn)句信息按照標(biāo)點(diǎn)劃分為多行,并根據(jù)分詞詞典對(duì)問(wèn)句信息進(jìn)行分詞處理,得到問(wèn)句信息的原始特征詞,過(guò)濾原始特征詞中的停用詞,得到問(wèn)句信息的特征詞。在實(shí)際應(yīng)用中,上述標(biāo)點(diǎn)可以是問(wèn)號(hào)、嘆號(hào)、分號(hào)或句號(hào),也就是說(shuō),可以將過(guò)濾后的文本數(shù)據(jù)按照問(wèn)號(hào)、嘆號(hào)、分號(hào)或句號(hào)劃分為多行。
在本發(fā)明一實(shí)施例中,進(jìn)行了分詞處理得到問(wèn)句信息的特征詞,還可以進(jìn)一步對(duì)該特征詞進(jìn)行過(guò)濾處理,具體地,過(guò)濾處理采用以下任一種或兩種方式:
方式一:根據(jù)詞性對(duì)特征詞進(jìn)行過(guò)濾,保留名詞、動(dòng)詞以及形容詞;
方式二:根據(jù)頻次對(duì)特征詞進(jìn)行過(guò)濾,保留頻次大于頻次閾值的特征詞,其中,頻次是指特征詞在語(yǔ)料數(shù)據(jù)中出現(xiàn)的頻率或者次數(shù)。
優(yōu)選地,在步驟50之后,可以通過(guò)新詞發(fā)現(xiàn)方法獲取問(wèn)句信息中的新詞,并根據(jù)新詞重新進(jìn)行分詞處理,此外,還可以通過(guò)同義詞發(fā)現(xiàn)方法從問(wèn)句信息中獲取語(yǔ)義相同的詞語(yǔ),以用于后續(xù)的相似度值計(jì)算。例如,后續(xù)在進(jìn)行相似度計(jì)算時(shí),如果通過(guò)同義詞發(fā)現(xiàn)方法確認(rèn)兩個(gè)詞為同義詞,則會(huì)提高最后的語(yǔ)義相似度值的準(zhǔn)確率。
具體地,分詞處理可以采用字典雙向最大匹配法、viterbi方法、HMM方法和CRF方法中的一種或多種進(jìn)行。新詞發(fā)現(xiàn)方法具體可以包括:互信息、共現(xiàn)概率、信息熵等方法,利用新詞發(fā)現(xiàn)方法可以獲取新的詞語(yǔ),根據(jù)獲取的信的詞語(yǔ)可以更新分詞詞典,那么在進(jìn)行分詞處理時(shí),可以根據(jù)更新后的分詞詞典進(jìn)行分詞,增加了分詞處理的準(zhǔn)確率。同義詞發(fā)現(xiàn)方法具體可以包括:W2V和編輯距離等方法,利用同義詞發(fā)現(xiàn)方法可以發(fā)現(xiàn)具有相同含義的詞語(yǔ),例如:通過(guò)同義詞發(fā)現(xiàn)方法發(fā)現(xiàn)組合詞、簡(jiǎn)化詞是同義詞,那么后續(xù)進(jìn)行語(yǔ)義相似度值計(jì)算時(shí),根據(jù)發(fā)現(xiàn)的同義詞就可以提高語(yǔ)義相似度值計(jì)算的準(zhǔn)確率。
需要說(shuō)明的是,在本發(fā)明實(shí)施例中,進(jìn)行預(yù)處理和分詞后得到的特征詞盡量保持詞的順序不變,從而保證后續(xù)計(jì)算詞向量和句向量的準(zhǔn)確性。
在本發(fā)明一實(shí)施例的數(shù)據(jù)的聚類(lèi)方法中,步驟60中的獲取特征詞的詞向量的方式包括:
將進(jìn)行過(guò)濾處理之前問(wèn)句信息的特征詞輸入向量模型,獲取向量模型輸出的特征詞的詞向量;從詞向量中獲取與過(guò)濾處理后保留的特征詞相對(duì)應(yīng)的詞向量。
其中,在實(shí)際應(yīng)用中,上述向量模型可以包括:word2vector模型。
在本發(fā)明一實(shí)施例的數(shù)據(jù)的聚類(lèi)方法中,步驟60中的根據(jù)詞向量獲取第M句數(shù)據(jù)的句向量采用以下方式中的一種:
方式一:將單個(gè)問(wèn)句信息中的所有特征詞的詞向量進(jìn)行矢量疊加并取平均值,獲取問(wèn)句信息的句向量;
方式二:根據(jù)特征詞的個(gè)數(shù)和詞向量的維度、以及相應(yīng)問(wèn)句信息中出現(xiàn)的特征詞的詞向量,獲取該問(wèn)句信息的句向量,其中,句向量的維度是特征詞的個(gè)數(shù)與詞向量的維度的乘積,句向量的維度值為:未在相應(yīng)問(wèn)句信息中出現(xiàn)的特征詞所對(duì)應(yīng)的維度值為0,在相應(yīng)問(wèn)句信息中出現(xiàn)的特征詞所對(duì)應(yīng)的維度值為該特征詞的詞向量;
方式三:根據(jù)特征詞的個(gè)數(shù)、以及相應(yīng)問(wèn)句信息中出現(xiàn)的特征詞的TF-IDF值,獲取該問(wèn)句信息的句向量,其中,句向量的維度是特征詞的個(gè)數(shù),句向量的維度值為:未在相應(yīng)問(wèn)句信息中出現(xiàn)的特征詞的維度值為0,在相應(yīng)問(wèn)句信息中出現(xiàn)的特征詞的維度值為該特征詞的TF-IDF值。
在方式三中,特征詞的TF-IDF值通過(guò)以下方式獲?。?/p>
1、將語(yǔ)料數(shù)據(jù)中包括的問(wèn)句總數(shù)目除以包含特征詞的問(wèn)句的數(shù)目,將得到的商取對(duì)數(shù)得到特征詞的IDF值;
2、計(jì)算特征詞在對(duì)應(yīng)問(wèn)句中出現(xiàn)的頻率,確定TF值;
3、將TF值乘以IDF值得到特征詞的TF-IDF值。
與本發(fā)明實(shí)施例的聚類(lèi)方法相應(yīng)的,還包括本發(fā)明實(shí)施例的數(shù)據(jù)的聚類(lèi)裝置。
圖3為本發(fā)明實(shí)施例的數(shù)據(jù)的聚類(lèi)裝置的架構(gòu)示意圖。如圖3所示包括:
數(shù)據(jù)獲取模塊710,用于獲取待處理數(shù)據(jù),將待處理數(shù)據(jù)劃分為測(cè)試數(shù)據(jù)和非測(cè)試數(shù)據(jù);
第一分類(lèi)模塊720,用于對(duì)測(cè)試數(shù)據(jù)進(jìn)行第一分類(lèi)處理,得到第一分類(lèi)結(jié)果;
第二分類(lèi)模塊730,用于采用初始預(yù)設(shè)值對(duì)測(cè)試數(shù)據(jù)進(jìn)行第二分類(lèi)處理,得到第二分類(lèi)結(jié)果,用于采用目標(biāo)預(yù)設(shè)值對(duì)非測(cè)試數(shù)據(jù)進(jìn)行分類(lèi)處理;
上述第二分類(lèi)模塊730,進(jìn)一步用于分別獲取第M句數(shù)據(jù)的句向量與已聚類(lèi)的L個(gè)信息組的句向量平均值之間的最大相似度值,當(dāng)所述最大相似度值大于所述初始預(yù)設(shè)值時(shí),將第M句數(shù)據(jù)聚類(lèi)到所述最大相似度值對(duì)應(yīng)的信息組中;當(dāng)所述最大相似度值小于所述初始預(yù)設(shè)值時(shí),將第M句數(shù)據(jù)作為第L+1個(gè)信息組;L值小于或等于M-1;
參數(shù)確定模塊740,用于比較第二分類(lèi)結(jié)果和第一分類(lèi)結(jié)果,當(dāng)以第一分類(lèi)結(jié)果為標(biāo)準(zhǔn)得到第二分類(lèi)結(jié)果的準(zhǔn)確率大于或等于閾值時(shí),將初始預(yù)設(shè)值作為目標(biāo)預(yù)設(shè)值;當(dāng)以第一分類(lèi)結(jié)果為標(biāo)準(zhǔn)得到第二分類(lèi)結(jié)果的準(zhǔn)確率小于閾值時(shí),不斷調(diào)整初始預(yù)設(shè)值,直至將初始預(yù)設(shè)值調(diào)整為目標(biāo)預(yù)設(shè)值時(shí)得到新的第二分類(lèi)結(jié)果的準(zhǔn)確率大于或等于閾值。
上述第一分類(lèi)裝置720包括人工分類(lèi)子模塊721,用于采用人工分類(lèi)進(jìn)行第一分類(lèi)處理。
上述第二分類(lèi)模塊730的一個(gè)實(shí)施例中包括:
第一調(diào)整子模塊737,用于將測(cè)試數(shù)據(jù)進(jìn)行第一分類(lèi)處理得到的第一分類(lèi)結(jié)果中的分類(lèi)數(shù)目與對(duì)測(cè)試數(shù)據(jù)進(jìn)行第二分類(lèi)處理得到的第二分類(lèi)結(jié)果中的分類(lèi)數(shù)目相同。
上述第二分類(lèi)模塊730的一個(gè)實(shí)施例中包括:
第二調(diào)整子模塊738,用于將測(cè)試數(shù)據(jù)進(jìn)行第一分類(lèi)處理得到的第一分類(lèi)結(jié)果中各分類(lèi)的中心點(diǎn)與對(duì)測(cè)試數(shù)據(jù)進(jìn)行第二分類(lèi)處理得到的第二分類(lèi)結(jié)果中各分類(lèi)的中心點(diǎn)相同。
上述第二分類(lèi)模塊730的一個(gè)實(shí)施例中包括:
第三調(diào)整子模塊739,用于將第二分類(lèi)結(jié)果的信息組數(shù)目由第一分類(lèi)結(jié)果決定,對(duì)測(cè)試數(shù)據(jù)進(jìn)行第二分類(lèi)處理得到的第二分類(lèi)結(jié)果中各分類(lèi)的信息組的中心點(diǎn)根據(jù)第一分類(lèi)結(jié)果固定,或者在第二分類(lèi)處理中動(dòng)態(tài)調(diào)整。
本發(fā)明一實(shí)施例的數(shù)據(jù)的聚類(lèi)裝置中還包括:
語(yǔ)句處理模塊650,用于對(duì)第M句數(shù)據(jù)進(jìn)行預(yù)處理和分詞處理,得到第M句數(shù)據(jù)的特征詞;
句向量處理模塊660,用于獲取特征詞的詞向量,并根據(jù)詞向量獲取第M句數(shù)據(jù)的句向量。
本發(fā)明一實(shí)施例的數(shù)據(jù)的聚類(lèi)裝置中還包括以下一種或兩種:
詞性過(guò)濾模塊670,用于根據(jù)詞性對(duì)所述特征詞進(jìn)行過(guò)濾,保留名詞、動(dòng)詞以及形容詞;
詞頻過(guò)濾模塊680,用于根據(jù)頻次對(duì)所述特征詞進(jìn)行過(guò)濾,保留頻次大于頻次閾值的特征詞。
上述第二分類(lèi)模塊730包括:
句向量獲取子模塊731,用于獲取T個(gè)句向量QT;
聚類(lèi)初始子模塊732,用于初始K值、中心點(diǎn)PK-1、以及聚類(lèi)問(wèn)題集{K,[PK-1]},其中,K表示聚類(lèi)的類(lèi)別數(shù),K的初始值為1,中心點(diǎn)PK-1的初始值為P0,P0=Q1,Q1表示第1個(gè)句向量,聚類(lèi)問(wèn)題集的初始值為{1,[Q1]};
聚類(lèi)比較子模塊733,用于依次對(duì)剩下的QT進(jìn)行聚類(lèi),計(jì)算當(dāng)前句向量與每個(gè)聚類(lèi)問(wèn)題集的中心點(diǎn)的相似度;
第一判斷子模塊734,用于當(dāng)前句向量與某個(gè)聚類(lèi)問(wèn)題集的中心點(diǎn)的相似度大于或等于預(yù)設(shè)值,則將當(dāng)前句向量聚類(lèi)到相應(yīng)的聚類(lèi)問(wèn)題集中,保持K值不變,將相應(yīng)的中心點(diǎn)更新為聚類(lèi)問(wèn)題集中所有句向量的向量平均值,形成相應(yīng)的聚類(lèi)問(wèn)題集為{K,[句向量的向量平均值]};
第二判斷子模塊736,用于當(dāng)前句向量與所有聚類(lèi)問(wèn)題集中的中心點(diǎn)的相似度均小于預(yù)設(shè)值,則令K=K+1,增加新的中心點(diǎn),所述新的中心點(diǎn)的值為當(dāng)前句向量,增加新的聚類(lèi)問(wèn)題集{K,[當(dāng)前句向量]}。
本發(fā)明實(shí)施例中數(shù)據(jù)的聚類(lèi)裝置的具體實(shí)現(xiàn)和有益效果可參見(jiàn)數(shù)據(jù)的聚類(lèi)方法,在此不再贅述。
以上所述僅為本發(fā)明的較佳實(shí)施例而已,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。