數(shù)據(jù)的處理方法及裝置、知識圖譜的制作方法
【專利摘要】一種數(shù)據(jù)的處理方法及裝置、知識圖譜。所述方法包括:通過關(guān)鍵詞篩選操作從所有領(lǐng)域語料數(shù)據(jù)對應(yīng)的詞語中篩選出一個或多個第一級關(guān)鍵詞,并將每條所述領(lǐng)域語料數(shù)據(jù)匹配到所述第一級關(guān)鍵詞;通過關(guān)鍵詞篩選操作從每個第一級關(guān)鍵詞對應(yīng)的領(lǐng)域語料數(shù)據(jù)中篩選出一個或多個第二級關(guān)鍵詞,并將所述領(lǐng)域語料數(shù)據(jù)匹配到所述第二級關(guān)鍵詞;不斷重復(fù)上述篩選及匹配的過程,直至篩選出第M級關(guān)鍵詞,并將所述領(lǐng)域語料數(shù)據(jù)匹配到所述第M級關(guān)鍵詞,M大于或等于2;將所述第M級關(guān)鍵詞對應(yīng)的領(lǐng)域語料數(shù)據(jù)按照語義進(jìn)行文本聚類。應(yīng)用所述方法對數(shù)據(jù)進(jìn)行處理,從處理后的數(shù)據(jù)中可以更加快速、準(zhǔn)確地查找到用戶需要的內(nèi)容。
【專利說明】
數(shù)據(jù)的處理方法及裝置、知識圖譜
技術(shù)領(lǐng)域
[0001]本發(fā)明涉及數(shù)據(jù)處理領(lǐng)域,具體涉及一種數(shù)據(jù)的處理方法及裝置、知識圖譜。
【背景技術(shù)】
[0002]數(shù)據(jù)處理是系統(tǒng)工程和自動控制的基本環(huán)節(jié),貫穿于社會生產(chǎn)和社會生活的各個領(lǐng)域,廣泛應(yīng)用于知識圖譜以及知識庫的建立過程中。數(shù)據(jù)處理技術(shù)的發(fā)展及其應(yīng)用的廣度和深度,極大地影響著人類社會發(fā)展的進(jìn)程。
[0003]例如,在智能交互領(lǐng)域,通常需要對語料數(shù)據(jù)進(jìn)行處理,以形成相應(yīng)的知識庫,進(jìn)而可以在接收到用戶的輸入后,根據(jù)用戶的輸入,從知識庫中搜索相應(yīng)的內(nèi)容并反饋至用戶。
[0004]然而,采用現(xiàn)有的數(shù)據(jù)處理方法對數(shù)據(jù)進(jìn)行處理時(shí),利用處理后的數(shù)據(jù)無法快速、準(zhǔn)確地查找到用戶需要的內(nèi)容,難以滿足用戶的需求。
【發(fā)明內(nèi)容】
[0005]本發(fā)明解決的是如何對數(shù)據(jù)進(jìn)行處理,以從處理后的數(shù)據(jù)中快速、準(zhǔn)確地查找到用戶需要的內(nèi)容。
[0006]為解決上述問題,本發(fā)明提供一種數(shù)據(jù)的處理方法,所述方法包括:
[0007]獲取原始語料數(shù)據(jù);對所述原始語料數(shù)據(jù)執(zhí)行過濾操作,以得到與目標(biāo)領(lǐng)域相關(guān)的領(lǐng)域語料數(shù)據(jù);對所述領(lǐng)域語料數(shù)據(jù)執(zhí)行分詞操作,以得到與每條領(lǐng)域語料數(shù)據(jù)對應(yīng)的一個或多個詞語;通過關(guān)鍵詞篩選操作從所有領(lǐng)域語料數(shù)據(jù)對應(yīng)的詞語中篩選出一個或多個第一級關(guān)鍵詞,并將每條所述領(lǐng)域語料數(shù)據(jù)匹配到所述第一級關(guān)鍵詞;通過關(guān)鍵詞篩選操作從每個第一級關(guān)鍵詞對應(yīng)的領(lǐng)域語料數(shù)據(jù)中篩選出一個或多個第二級關(guān)鍵詞,并將所述領(lǐng)域語料數(shù)據(jù)匹配到所述第二級關(guān)鍵詞;不斷重復(fù)上述篩選及匹配的過程,直至篩選出第M級關(guān)鍵詞,并將所述領(lǐng)域語料數(shù)據(jù)匹配到所述第M級關(guān)鍵詞,M大于或等于2;將所述第M級關(guān)鍵詞對應(yīng)的領(lǐng)域語料數(shù)據(jù)按照語義進(jìn)行文本聚類。
[0008]可選地,所述過濾操作采用分類器實(shí)現(xiàn)。
[0009]可選地,所述關(guān)鍵詞篩選操作包括采用N種不同方法獲取N組關(guān)鍵詞,每組中每個關(guān)鍵詞對應(yīng)一個權(quán)重值,提取N組關(guān)鍵詞的交集,并提取其余關(guān)鍵詞中權(quán)重值大于預(yù)設(shè)閾值的關(guān)鍵詞,將提取的所有關(guān)鍵詞作為篩選出的關(guān)鍵詞,N大于或等于I。
[0010]可選地,獲取關(guān)鍵詞的方法包括以下方法中的一種或多種的組合:LDA主題模型分析方法、textrank方法、互信息方法和tf idf方法。
[0011]可選地,所述文本聚類包括:計(jì)算每個第M級關(guān)鍵詞對應(yīng)的兩兩領(lǐng)域語料數(shù)據(jù)之間的語義距離和/或語義相似度,并采用Kmeans聚類方法或/和Canopy聚類方法將每個第M級關(guān)鍵詞對應(yīng)的領(lǐng)域語料數(shù)據(jù)按照語義相關(guān)性進(jìn)行排列。
[0012]可選地,所述方法還包括:根據(jù)篩選出的關(guān)鍵詞以及文本聚類結(jié)果形成知識圖譜。
[0013]可選地,所述方法還包括:當(dāng)獲取新的語料數(shù)據(jù)時(shí),對所述新的語料數(shù)據(jù)執(zhí)行過濾操作,當(dāng)所述新的語料數(shù)據(jù)為與目標(biāo)領(lǐng)域相關(guān)的領(lǐng)域語料數(shù)據(jù)時(shí),對所述新的語料數(shù)據(jù)進(jìn)行分詞操作以及關(guān)鍵詞篩選操作,以使所述新的語料數(shù)據(jù)匹配到已有的第M級關(guān)鍵詞,并根據(jù)語義相關(guān)性將所述新的語料數(shù)據(jù)聚類到合適位置。
[0014]本發(fā)明實(shí)施例還提供了一種知識圖譜,所述知識圖譜包括M級關(guān)鍵詞,每級關(guān)鍵詞包括一個或多個關(guān)鍵詞,還包括多個語料數(shù)據(jù),所述語料數(shù)據(jù)按照語義相關(guān)性匹配在相應(yīng)的第M級關(guān)鍵詞上。
[0015]本發(fā)明實(shí)施例還提供了一種數(shù)據(jù)的處理裝置,所述裝置包括:獲取單元,適于獲取原始語料數(shù)據(jù);過濾單元,適于對所述原始語料數(shù)據(jù)執(zhí)行過濾操作,以得到與目標(biāo)領(lǐng)域相關(guān)的領(lǐng)域語料數(shù)據(jù);分詞單元,適于對所述領(lǐng)域語料數(shù)據(jù)執(zhí)行分詞操作,以得到與每條領(lǐng)域語料數(shù)據(jù)對應(yīng)的一個或多個詞語;篩選單元,適于通過關(guān)鍵詞篩選操作從所有領(lǐng)域語料數(shù)據(jù)對應(yīng)的詞語中篩選出一個或多個第一級關(guān)鍵詞,并將每條所述領(lǐng)域語料數(shù)據(jù)匹配到所述第一級關(guān)鍵詞;以及通過關(guān)鍵詞篩選操作從每個所述第一級關(guān)鍵詞對應(yīng)的領(lǐng)域語料數(shù)據(jù)中篩選出一個或多個第二級關(guān)鍵詞,并將所述領(lǐng)域語料數(shù)據(jù)匹配到所述第二級關(guān)鍵詞;不斷重復(fù)上述篩選及匹配的過程,直至篩選出第M級關(guān)鍵詞,并將所述領(lǐng)域語料數(shù)據(jù)匹配到第M級關(guān)鍵詞,M大于或等于2;聚類單元,適于將所述第M級關(guān)鍵詞對應(yīng)的領(lǐng)域語料數(shù)據(jù)按照語義進(jìn)行文本聚類。
[0016]可選地,所述過濾單元采用分類器實(shí)現(xiàn)所述過濾操作。
[0017]可選地,所述篩選單元適于采用如下方法執(zhí)行所述關(guān)鍵詞篩選操作:采用N種不同方式獲取N組關(guān)鍵詞,每組中每個關(guān)鍵詞對應(yīng)一個權(quán)重值,提取N組關(guān)鍵詞的交集,并提取其余關(guān)鍵詞中權(quán)重值大于預(yù)設(shè)閾值的關(guān)鍵詞,將提取的所有關(guān)鍵詞作為篩選出的關(guān)鍵詞,N大于或等于I。
[0018]可選地,所述篩選單元獲取關(guān)鍵詞的方法包括以下方法中的一種或多種的組合:LDA主題模型分析方法、textrank方法、互信息方法和tf idf方法。
[0019]可選地,所述聚類單元包括:計(jì)算子單元,適于計(jì)算每個第M級關(guān)鍵詞對應(yīng)的兩兩領(lǐng)域語料數(shù)據(jù)之間的語義距離和/或語義相似度;聚類子單元,適于采用Kmeans聚類方法或/和Canopy聚類方法將每個第M級關(guān)鍵詞對應(yīng)的領(lǐng)域語料數(shù)據(jù)按照語義相關(guān)性進(jìn)行排列。
[0020]可選地,所述裝置還包括:知識圖譜建立單元,適于根據(jù)篩選出的關(guān)鍵詞以及文本聚類結(jié)果形成知識圖譜。
[0021 ]可選地,所述裝置還包括:更新單元,適于當(dāng)所述獲取單元獲取到新的語料數(shù)據(jù)時(shí),控制所述過濾單元對所述新的語料數(shù)據(jù)執(zhí)行過濾操作;當(dāng)所述新的語料數(shù)據(jù)為與目標(biāo)領(lǐng)域相關(guān)的領(lǐng)域語料數(shù)據(jù)時(shí),分別控制所述分詞單元及所述篩選單元對所述新的語料數(shù)據(jù)進(jìn)行分詞操作以及對關(guān)鍵詞篩選操作,以使所述新的語料數(shù)據(jù)匹配到已有的第M級關(guān)鍵詞;并由所述聚類單元根據(jù)語義相關(guān)性將所述新的語料數(shù)據(jù)聚類到合適位置。
[0022]與現(xiàn)有技術(shù)相比,本發(fā)明的技術(shù)方案具有以下優(yōu)點(diǎn):
[0023]采用上述數(shù)據(jù)處理方法,在對領(lǐng)域語料數(shù)據(jù)進(jìn)行分詞后,通過M輪的關(guān)鍵詞篩選及匹配操作,可以將所述領(lǐng)域語料數(shù)據(jù)分為M個層次。由于M大于或等于2,也就是說,利用上述數(shù)據(jù)處理方法對獲取的數(shù)據(jù)分層次處理,因此可以更加快速地查找到用戶需要的內(nèi)容。并且,由于每一輪篩選出的關(guān)鍵詞更能體現(xiàn)所對應(yīng)的語料數(shù)據(jù)的特征,因此經(jīng)M輪關(guān)鍵詞篩選后得到的聚類結(jié)果,可以最大限度地使得同知識點(diǎn)的語料數(shù)據(jù)聚在一起,從而可以提高從處理后的數(shù)據(jù)中查找到用戶需要內(nèi)容的準(zhǔn)確性。
[0024]進(jìn)一步地,采用N種不同方式獲取N組關(guān)鍵詞,并在每組中每個關(guān)鍵詞設(shè)置一個權(quán)重值,通過提取N組關(guān)鍵詞的交集,以及提取其余關(guān)鍵詞中權(quán)重值大于預(yù)設(shè)閾值的關(guān)鍵詞,并將提取的所有關(guān)鍵詞作為篩選出的關(guān)鍵詞,可以使得所提取出的關(guān)鍵詞更加準(zhǔn)確地體現(xiàn)所對應(yīng)的語料數(shù)據(jù)的特征,從而可以進(jìn)一步提高從處理后的數(shù)據(jù)中查找到用戶需要內(nèi)容的準(zhǔn)確性。
[0025]而根據(jù)篩選出的關(guān)鍵詞以及文本聚類的結(jié)果形成知識圖譜,由于所形成的知識圖譜中包含原始語料數(shù)據(jù),因此利用該知識圖譜可以更加便于對數(shù)據(jù)進(jìn)行整理。
【附圖說明】
[0026]圖1是本發(fā)明實(shí)施例中一種數(shù)據(jù)處理方法的流程圖;
[0027]圖2是本發(fā)明實(shí)施例中一種知識圖譜的示意圖;
[0028]圖3是本發(fā)明實(shí)施例中一種兩級關(guān)鍵詞下語料數(shù)據(jù)的示意圖;
[0029]圖4是本發(fā)明實(shí)施例中一種數(shù)據(jù)處理裝置的結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0030]目前,在對原始語料數(shù)據(jù)進(jìn)行處理時(shí),通常先對原始語料數(shù)據(jù)執(zhí)行過濾操作,再對過濾操作后的語料數(shù)據(jù)執(zhí)行分詞操作,然后,對分詞操作后的各語料數(shù)據(jù)分別執(zhí)行向量化操作,最后根據(jù)向量化操作的結(jié)果進(jìn)行文本聚類。
[0031]然而,利用上述數(shù)據(jù)處理方法處理后的數(shù)據(jù)層次不清晰,在根據(jù)用戶要求進(jìn)行查找時(shí),很難快速地查找到所需的內(nèi)容。并且,常常出現(xiàn)屬于同一知識點(diǎn)的語料數(shù)據(jù)卻由于句法不同被聚至不同的類中,聚類結(jié)果無法直接體現(xiàn)語料數(shù)據(jù)的特征,最終導(dǎo)致根據(jù)用戶要求進(jìn)行查找時(shí),很難準(zhǔn)確地查找到所需的內(nèi)容。
[0032]針對上述問題,本發(fā)明實(shí)施例提供了一種數(shù)據(jù)的處理方法,所述方法在對領(lǐng)域語料數(shù)據(jù)進(jìn)行分詞后,通過M輪的關(guān)鍵詞篩選及匹配操作,可以將所述領(lǐng)域語料數(shù)據(jù)分為M個層次。由于M大于或等于2,也就是說,從利用上述數(shù)據(jù)處理方法對獲取的數(shù)據(jù)分層次處理,因此可以更加快速地查找到用戶需要的內(nèi)容。另外,由于每一輪篩選出的關(guān)鍵詞更能體現(xiàn)所對應(yīng)的語料數(shù)據(jù)的特征,因此經(jīng)M輪關(guān)鍵詞篩選后得到的聚類結(jié)果,可以最大限度地使得同知識點(diǎn)的語料數(shù)據(jù)聚在一起,從而可以提高從處理后的數(shù)據(jù)中查找到用戶需要內(nèi)容的準(zhǔn)確性。
[0033]為使本發(fā)明的上述目的、特征和優(yōu)點(diǎn)能夠更為明顯易懂,下面結(jié)合附圖對本發(fā)明的具體實(shí)施例作詳細(xì)地說明。
[0034]參照圖1,本發(fā)明實(shí)施例提供了一種數(shù)據(jù)的處理方法,所述方法可以包括如下步驟:
[0035]步驟11,獲取原始語料數(shù)據(jù)。
[0036]在具體實(shí)施中,可以通過多種方式獲取原始語料數(shù)據(jù)。例如,可以從網(wǎng)頁中爬取原始語料數(shù)據(jù),也可以將整理后的交互日志作為原始語料數(shù)據(jù),還可以將用戶提供的數(shù)據(jù)作為原始語料數(shù)據(jù)。當(dāng)然,也可以同時(shí)通過上述兩種或三種方式獲取原始語料數(shù)據(jù)。
[0037]步驟12,對所述原始語料數(shù)據(jù)執(zhí)行過濾操作,以得到與目標(biāo)領(lǐng)域相關(guān)的領(lǐng)域語料數(shù)據(jù)。
[0038]在具體實(shí)施中,獲取原始語料數(shù)據(jù)后,可以先基于大數(shù)據(jù)平臺如spark平臺對所述原始語料數(shù)據(jù)進(jìn)行切割,對所述原始語料數(shù)據(jù)進(jìn)行初步過濾操作,過濾無用的句子,比如,臟話、未知字符過多以及標(biāo)點(diǎn)符號過多等句子。然后,可以再利用分類器對切割后的語料數(shù)據(jù)進(jìn)行再次過濾,篩選出與目標(biāo)領(lǐng)域相關(guān)的領(lǐng)域語料數(shù)據(jù)。例如,當(dāng)所述目標(biāo)領(lǐng)域?yàn)榉康禺a(chǎn)領(lǐng)域時(shí),利用所述分類器可以過濾除如體育領(lǐng)域、游戲領(lǐng)域等房地產(chǎn)領(lǐng)域外的語料數(shù)據(jù),最終得到與房地產(chǎn)領(lǐng)域相關(guān)的領(lǐng)域語料數(shù)據(jù)。
[0039]步驟13,對所述領(lǐng)域語料數(shù)據(jù)進(jìn)行分詞操作,以得到與每條領(lǐng)域語料數(shù)據(jù)對應(yīng)的一個或多個詞語。
[0040]在具體實(shí)施中,可以采用多種方法對所述領(lǐng)域語料數(shù)據(jù)進(jìn)行分詞操作。
[0041]在本發(fā)明的一實(shí)施例中,為了提高分詞結(jié)果的準(zhǔn)確性,在對每條領(lǐng)域語料數(shù)據(jù)進(jìn)行分詞操作時(shí),可以先基于預(yù)先獲取到的該領(lǐng)域的詞語,對該條領(lǐng)域語料數(shù)據(jù)進(jìn)行首次分詞。接著,可以基于分詞結(jié)果,對該條領(lǐng)域語料數(shù)據(jù)執(zhí)行詞性標(biāo)注操作。然后,可以再對詞性標(biāo)注后的領(lǐng)域語料數(shù)據(jù)分別執(zhí)行命名實(shí)體識別操作及新詞發(fā)現(xiàn)操作,最后基于命名實(shí)體識別操作及新詞發(fā)現(xiàn)操作的結(jié)果,更新所述預(yù)先獲取到的該領(lǐng)域的詞語,最終基于更新后的所述預(yù)先獲取到的該領(lǐng)域的詞語,對該條領(lǐng)域語料數(shù)據(jù)重新進(jìn)行分詞,并將重新進(jìn)行分詞的結(jié)果作為對該條領(lǐng)域語料數(shù)據(jù)進(jìn)行分詞后的結(jié)果。
[0042]對所述領(lǐng)域語料數(shù)據(jù)中的每條領(lǐng)域數(shù)據(jù)均按照上述方法進(jìn)行分詞,可以分別獲得與每條領(lǐng)域語料數(shù)據(jù)對應(yīng)的一個或多個詞語。
[0043]其中,所述詞性標(biāo)注操作,即確定首次分詞后的每個詞是名詞、動詞、形容詞或其他詞性的操作。所謂命名實(shí)體識別操作,即識別領(lǐng)域語料數(shù)據(jù)中具有特定意義的實(shí)體的操作,包括人名、地名、機(jī)構(gòu)名、專有名詞等。所謂新詞發(fā)現(xiàn)操作,即識別超出所述預(yù)先獲取到的該領(lǐng)域詞語范圍的詞語的操作。
[0044]步驟14,基于所有領(lǐng)域語料數(shù)據(jù)對應(yīng)的詞語,執(zhí)行第i輪關(guān)鍵詞篩選操作,
M,M多 2。
[0045]在具體實(shí)施中,i的初始值為I。在第I輪,可以通過關(guān)鍵詞篩選操作從所有領(lǐng)域語料數(shù)據(jù)對應(yīng)的詞語中篩選出一個或多個第一級關(guān)鍵詞,并將每條所述領(lǐng)域語料數(shù)據(jù)匹配到所述第一級關(guān)鍵詞。
[0046]在第2輪,可以通過關(guān)鍵詞篩選操作從每個第一級關(guān)鍵詞對應(yīng)的領(lǐng)域語料數(shù)據(jù)中篩選出一個或多個第二級關(guān)鍵詞,并將所述領(lǐng)域語料數(shù)據(jù)匹配到所述第二級關(guān)鍵詞。
[0047]……
[0048]在第i輪,可以通過關(guān)鍵詞篩選操作從每個第1-Ι級關(guān)鍵詞對應(yīng)的領(lǐng)域語料數(shù)據(jù)中篩選出一個或多個第i級關(guān)鍵詞,并將所述領(lǐng)域語料數(shù)據(jù)匹配到所述第i級關(guān)鍵詞。
[0049]……
[0050]在第M輪,可以通過關(guān)鍵詞篩選操作從每個第M-1級關(guān)鍵詞對應(yīng)的領(lǐng)域語料數(shù)據(jù)中篩選出多個第M級關(guān)鍵詞,并將所述領(lǐng)域語料數(shù)據(jù)匹配到所述第M級關(guān)鍵詞。
[0051]需要說明的是,在具體實(shí)施中,M是預(yù)設(shè)的層級數(shù)目,M的值可以根據(jù)實(shí)際情況設(shè)置,比如,原始語料數(shù)據(jù)的條數(shù)、具體關(guān)鍵詞的篩選方法等??梢岳斫獾氖?,M的值越大,處理后的數(shù)據(jù)層次越清晰,同一知識點(diǎn)的語料數(shù)據(jù)聚在一起的可能性也就越大,但數(shù)據(jù)處理的復(fù)雜度也就越高,具體實(shí)現(xiàn)的代價(jià)也就越大。
[0052]在具體實(shí)施中,相鄰兩級的關(guān)鍵詞之間存在一定的聯(lián)系。下一級的關(guān)鍵詞可以為相鄰的上一級關(guān)鍵詞的屬性、特征、功能、型號等信息,還可以為相鄰的上一級關(guān)鍵詞的狀態(tài)、價(jià)格、步驟等信息,當(dāng)然還可以為其它信息。
[0053]例如,如圖2所示,在汽車領(lǐng)域,“通用汽車數(shù)據(jù)集”可以為第一級關(guān)鍵詞,“空調(diào)”、“車輛”、“補(bǔ)貼”等通用汽車的組成部分及補(bǔ)助政策可以為第二級關(guān)鍵詞。從匹配至第二級關(guān)鍵詞“補(bǔ)貼”的語料數(shù)據(jù)中,可以根據(jù)補(bǔ)貼的享受對象、發(fā)放信息以及具體補(bǔ)貼的月份等,提取到“享受”、“發(fā)放”以及“月份”等多個第三級關(guān)鍵詞。
[0054]在本發(fā)明的一實(shí)施例中,為了更加準(zhǔn)確地篩選出關(guān)鍵詞,在執(zhí)行關(guān)鍵詞篩選操作時(shí),可以分別采用N種不同方法對同一目標(biāo)對象執(zhí)行關(guān)鍵詞篩選操作,獲取N組關(guān)鍵詞,并令每組中每個關(guān)鍵詞對應(yīng)一個權(quán)重值,提取N組關(guān)鍵詞的交集,以及提取其余關(guān)鍵詞中權(quán)重值大于預(yù)設(shè)閾值的關(guān)鍵詞,將提取的所有關(guān)鍵詞作為篩選出的關(guān)鍵詞,I。
[0055]其中,N組關(guān)鍵詞的交集是最能體現(xiàn)所對應(yīng)的領(lǐng)域語料數(shù)據(jù)特征的關(guān)鍵詞,其余關(guān)鍵詞中權(quán)重值大于預(yù)設(shè)閾值的關(guān)鍵詞是較能體現(xiàn)所對應(yīng)的領(lǐng)域語料數(shù)據(jù)特征的關(guān)鍵詞。各種方法提取的關(guān)鍵詞中,每個關(guān)鍵詞對應(yīng)的權(quán)重值可以根據(jù)該方法所提取到的關(guān)鍵詞的準(zhǔn)確性,以及該關(guān)鍵詞對該條語料數(shù)據(jù)的重要性等因素進(jìn)行設(shè)置。所述預(yù)設(shè)閾值可以根據(jù)該關(guān)鍵詞對該條語料數(shù)據(jù)的重要性等因素進(jìn)行設(shè)置。
[0056]例如,針對同一條語料數(shù)據(jù),利用tfidf方法獲得一組關(guān)鍵詞A、B及C,利用LDA主題模型分析方法獲得另一組關(guān)鍵詞A、B、D及E。其中,A和B為利用tfidf方法及LDA主題模型分析方法獲得的兩組關(guān)鍵詞的交集,C、D及E為除交集外的其余關(guān)鍵詞。
[0057]設(shè)置利用tfidf方法獲得一組關(guān)鍵詞A、B及C的權(quán)重值分別為xl、x2及x3,利用LDA主題模型分析方法獲得另一組關(guān)鍵詞A、B、D及E的權(quán)重值分別為yl、y2、y3及y4,預(yù)設(shè)閾值為
a。其中,Xl>X2>X3>a,yl>y2>y3>a>y4。采用本發(fā)明實(shí)施例中的關(guān)鍵詞提取方法,最終該語料數(shù)據(jù)的關(guān)鍵詞包括:A、B、C及D。
[0058]在具體實(shí)施中,獲取關(guān)鍵詞的方法可以為LDA主題模型分析方法、textrank方法、互信息方法或tfidf方法中的任意一種方法,也可以為上述方法中的兩種或兩種以上方法的組合。其中,LDA主題模型分析方法主要通過各語料數(shù)據(jù)之間的語義關(guān)聯(lián)提取關(guān)鍵詞;textrank方法通過對語料數(shù)據(jù)中各詞語的位置設(shè)置相應(yīng)的權(quán)重,并計(jì)算各詞語對應(yīng)的候選值分值來提取關(guān)鍵詞;互信息方法主要通過度量兩個詞語之間的相互性來提取關(guān)鍵詞;tfidf方法主要通過評估一字詞對所在領(lǐng)域語料數(shù)據(jù)的重要程度來提取關(guān)鍵詞。
[0059]步驟15,判斷i是否等于M。
[0060]也就是說,判斷是否獲取到第M級關(guān)鍵詞。
[0061]當(dāng)[時(shí),執(zhí)行步驟16,否則執(zhí)行步驟17。
[0062]步驟16,執(zhí)行下一輪關(guān)鍵詞篩選操作,即i++。
[0063]也就是說,當(dāng)i#M時(shí),執(zhí)行下一輪關(guān)鍵詞篩選操作。
[0064]步驟17,將所述第M級關(guān)鍵詞對應(yīng)的領(lǐng)域語料數(shù)據(jù)按照語義進(jìn)行文本聚類。
[0065]在本發(fā)明的一實(shí)施例中,獲取到第M級關(guān)鍵詞后,可以利用每個第M級關(guān)鍵詞對應(yīng)的兩兩領(lǐng)域語料數(shù)據(jù)之間的語義相關(guān)性進(jìn)行文本聚類。
[0066]具體地,可以通過計(jì)算每個第M級關(guān)鍵詞對應(yīng)的兩兩領(lǐng)域語料數(shù)據(jù)之間的語義距離或語義相似度,再根據(jù)計(jì)算結(jié)果將每個第M級關(guān)鍵詞對應(yīng)的領(lǐng)域語料數(shù)據(jù)按照語義相關(guān)性進(jìn)行排列,即語義越相關(guān)的數(shù)據(jù)排列的越近,而語義越不相關(guān)的數(shù)據(jù)則排列的越遠(yuǎn)。當(dāng)然,也可以同時(shí)計(jì)算每個第M級關(guān)鍵詞對應(yīng)的兩兩領(lǐng)域語料數(shù)據(jù)之間的語義距離及語義相似度,再根據(jù)計(jì)算結(jié)果將每個第M級關(guān)鍵詞對應(yīng)的領(lǐng)域語料數(shù)據(jù)按照語義相關(guān)性進(jìn)行排列。
[0067]在根據(jù)計(jì)算結(jié)果將每個第M級關(guān)鍵詞對應(yīng)的領(lǐng)域語料數(shù)據(jù)按照語義相關(guān)性進(jìn)行排列時(shí),可以采用Kmeans聚類方法進(jìn)行排列,也可以采用Canopy聚類方法進(jìn)行排列,還可以同時(shí)采用上述兩種聚類方法進(jìn)行排列。當(dāng)然,還可以采用其它聚類方法進(jìn)行排列,具體不受限制。其中,Kmeans聚類方法以及Canopy聚類方法均是基于距離的聚類方法,Canopy聚類方法是基于Kmeans聚類方法的一種補(bǔ)充聚類方法。
[0068]需要說明的是,在具體實(shí)施中,同一條語料數(shù)據(jù)中可以同時(shí)包括多個關(guān)鍵詞,因此同一條語料數(shù)據(jù)可以同時(shí)匹配多個不同的關(guān)鍵詞,最終同一條語料數(shù)據(jù)可以同時(shí)被聚類在不同關(guān)鍵詞的不同位置。在具體實(shí)施中,所述數(shù)據(jù)處理方法還可以包括:根據(jù)篩選出的關(guān)鍵詞以及文本聚類結(jié)果形成知識圖譜。通過形成知識圖譜,可視化地描述及顯示所述原始語料數(shù)據(jù)對應(yīng)的知識資源之間的相互聯(lián)系。
[0069]需要說明的是,本發(fā)明實(shí)施例中所述知識圖譜的表現(xiàn)形式并不限于圖2中示出的表現(xiàn)形式,還可以采用其它表現(xiàn)形式顯示所述知識圖譜,例如,表格、圖形等。
[0070]相對于現(xiàn)有技術(shù)中的知識圖譜,本發(fā)明實(shí)施例中的知識圖譜不僅包括對原始語料數(shù)據(jù)進(jìn)行篩選后得到的各級關(guān)鍵詞,還包括原始語料數(shù)據(jù)本身。例如,在圖2所示的汽車領(lǐng)域的知識圖譜中,第三級關(guān)鍵詞“國家”對應(yīng)的語料數(shù)據(jù)可以包括“是否有3000元國家節(jié)能補(bǔ)貼”,以及“英朗GT享受國家節(jié)能補(bǔ)貼”。利用本發(fā)明實(shí)施中的知識圖譜,可以更加便于數(shù)據(jù)管理人員對數(shù)據(jù)進(jìn)行整理,比如構(gòu)建相應(yīng)的知識庫。
[0071 ]在具體實(shí)施中,所述數(shù)據(jù)處理方法還可以包括:當(dāng)獲取新的語料數(shù)據(jù)時(shí),對所述新的語料數(shù)據(jù)執(zhí)行過濾操作,當(dāng)所述新的語料數(shù)據(jù)為與目標(biāo)領(lǐng)域相關(guān)的領(lǐng)域語料數(shù)據(jù)時(shí),對所述新的語料數(shù)據(jù)進(jìn)行分詞操作以及關(guān)鍵詞篩選操作,以使所述新的語料數(shù)據(jù)匹配到已有的第M級關(guān)鍵詞,并根據(jù)語義相關(guān)性將所述新的語料數(shù)據(jù)聚類到合適位置。
[0072]參照圖3,以所述新的語料數(shù)據(jù)為“儀表盤亮度如何調(diào)節(jié)”、M= 2為例,分詞操作后,可以將該語料數(shù)據(jù)映射到tfidf模型中,分別得到第一級關(guān)鍵詞“儀表”以及第二級關(guān)鍵詞“亮度”,進(jìn)而將該語料數(shù)據(jù)匹配到儀表-亮度下對應(yīng)的知識點(diǎn),再分別計(jì)算該語料數(shù)據(jù)與所匹配的知識點(diǎn)中各語料數(shù)據(jù)之間的語義距離或語義相似度,再根據(jù)計(jì)算結(jié)果找到該語料數(shù)據(jù)應(yīng)屬的聚類(如圖中灰色背景區(qū)域所示),最后將該語料數(shù)據(jù)歸入至所屬的聚類。
[0073]由上述內(nèi)容可以看出,本發(fā)明實(shí)施例中所述數(shù)據(jù)處理方法,在對領(lǐng)域語料數(shù)據(jù)進(jìn)行分詞后,通過M輪的關(guān)鍵詞篩選及匹配操作,可以將所述領(lǐng)域語料數(shù)據(jù)分為M個層次,按層次對所述領(lǐng)域數(shù)據(jù)進(jìn)行處理,不僅可以更加快速地查找到用戶需要的內(nèi)容,而且可以提高從處理后的數(shù)據(jù)中查找到用戶需要內(nèi)容的準(zhǔn)確性。
[0074]參照圖2,本發(fā)明實(shí)施例還提供了一種知識圖譜,所述知識圖譜可以包括M級關(guān)鍵詞,每級關(guān)鍵詞包括一個或多個關(guān)鍵詞。除此之外,所述知識圖譜還可以包括多個語料數(shù)據(jù),所述語料數(shù)據(jù)按照語義相關(guān)性匹配在相應(yīng)的第M級關(guān)鍵詞上。
[0075]為了便于理解和實(shí)施本發(fā)明的實(shí)施例,下面對上述數(shù)據(jù)處理方法對應(yīng)的裝置進(jìn)行詳細(xì)介紹。
[0076]參照圖4,本發(fā)明實(shí)施例提供了一種數(shù)據(jù)的處理裝置40,所述裝置40可以包括:獲取單元41,過濾單元42,分詞單元43,篩選單元44以及聚類單元45。其中:
[0077]所述獲取單元41,適于獲取原始語料數(shù)據(jù);
[0078]所述過濾單元42,適于對所述原始語料數(shù)據(jù)執(zhí)行過濾操作,以得到與目標(biāo)領(lǐng)域相關(guān)的領(lǐng)域語料數(shù)據(jù);
[0079]所述分詞單元43,適于對所述領(lǐng)域語料數(shù)據(jù)執(zhí)行分詞操作,以得到與每條領(lǐng)域語料數(shù)據(jù)對應(yīng)的一個或多個詞語;
[0080]所述篩選單元44,適于通過關(guān)鍵詞篩選操作從所有領(lǐng)域語料數(shù)據(jù)對應(yīng)的詞語中篩選出一個或多個第一級關(guān)鍵詞,并將每條所述領(lǐng)域語料數(shù)據(jù)匹配到所述第一級關(guān)鍵詞;以及通過關(guān)鍵詞篩選操作從每個所述第一級關(guān)鍵詞對應(yīng)的領(lǐng)域語料數(shù)據(jù)中篩選出一個或多個第二級關(guān)鍵詞,并將所述領(lǐng)域語料數(shù)據(jù)匹配到所述第二級關(guān)鍵詞;不斷重復(fù)上述篩選及匹配的過程,直至篩選出第M級關(guān)鍵詞,并將所述領(lǐng)域語料數(shù)據(jù)匹配到第M級關(guān)鍵詞,M大于或等于2;
[0081]所述聚類單元45,適于將所述第M級關(guān)鍵詞對應(yīng)的領(lǐng)域語料數(shù)據(jù)按照語義進(jìn)行文本聚類。
[0082]在具體實(shí)施中,所述過濾單元42可以采用分類器實(shí)現(xiàn)所述過濾操作。
[0083]在具體實(shí)施中,所述篩選單元44適于采用如下方法執(zhí)行所述關(guān)鍵詞篩選操作:采用N種不同方式獲取N組關(guān)鍵詞,每組中每個關(guān)鍵詞對應(yīng)一個權(quán)重值,提取N組關(guān)鍵詞的交集,并提取其余關(guān)鍵詞中權(quán)重值大于預(yù)設(shè)閾值的關(guān)鍵詞,將提取的所有關(guān)鍵詞作為篩選出的關(guān)鍵詞,N大于或等于I。
[0084]在具體實(shí)施中,所述篩選單元44獲取關(guān)鍵詞的方法包括以下方法中的一種或多種的組合:LDA主題模型分析方法、textrank方法、互信息方法和tfidf?方法。
[0085]在具體實(shí)施中,所述聚類單元45可以包括:計(jì)算子單元451以及聚類子單元452。其中:
[0086]所述計(jì)算子單元451,適于計(jì)算每個第M級關(guān)鍵詞對應(yīng)的兩兩領(lǐng)域語料數(shù)據(jù)之間的語義距離和/或語義相似度;
[0087]所述聚類子單元452,適于采用Kmeans聚類方法或/和Canopy聚類方法將每個第M級關(guān)鍵詞對應(yīng)的領(lǐng)域語料數(shù)據(jù)按照語義相關(guān)性進(jìn)行排列。
[0088]在具體實(shí)施中,所述裝置還可以包括:知識圖譜建立單元46,適于根據(jù)篩選出的關(guān)鍵詞以及文本聚類結(jié)果形成知識圖譜。
[0089]在具體實(shí)施中,所述裝置還可以包括:更新單元47,適于當(dāng)所述獲取單元41獲取到新的語料數(shù)據(jù)時(shí),控制所述過濾單元42對所述新的語料數(shù)據(jù)執(zhí)行過濾操作,當(dāng)所述新的語料數(shù)據(jù)為與目標(biāo)領(lǐng)域相關(guān)的領(lǐng)域語料數(shù)據(jù)時(shí),分別控制所述分詞單元43及所述篩選單元44對所述新的語料數(shù)據(jù)進(jìn)行分詞操作以及對關(guān)鍵詞篩選操作,以使所述新的語料數(shù)據(jù)匹配到已有的第M級關(guān)鍵詞,并由所述聚類單元45根據(jù)語義相關(guān)性將所述新的語料數(shù)據(jù)聚類到合適位置。
[0090]本領(lǐng)域普通技術(shù)人員可以理解上述實(shí)施例的各種方法中的全部或部分步驟是可以通過程序來指令相關(guān)的硬件來完成,該程序可以存儲于一計(jì)算機(jī)可讀存儲介質(zhì)中,存儲介質(zhì)可以包括:R0M、RAM、磁盤或光盤等。
[0091]雖然本發(fā)明披露如上,但本發(fā)明并非限定于此。任何本領(lǐng)域技術(shù)人員,在不脫離本發(fā)明的精神和范圍內(nèi),均可作各種更動與修改,因此本發(fā)明的保護(hù)范圍應(yīng)當(dāng)以權(quán)利要求所限定的范圍為準(zhǔn)。
【主權(quán)項(xiàng)】
1.一種數(shù)據(jù)的處理方法,其特征在于,包括: 獲取原始語料數(shù)據(jù); 對所述原始語料數(shù)據(jù)執(zhí)行過濾操作,以得到與目標(biāo)領(lǐng)域相關(guān)的領(lǐng)域語料數(shù)據(jù); 對所述領(lǐng)域語料數(shù)據(jù)執(zhí)行分詞操作,以得到與每條領(lǐng)域語料數(shù)據(jù)對應(yīng)的一個或多個詞語; 通過關(guān)鍵詞篩選操作從所有領(lǐng)域語料數(shù)據(jù)對應(yīng)的詞語中篩選出一個或多個第一級關(guān)鍵詞,并將每條所述領(lǐng)域語料數(shù)據(jù)匹配到所述第一級關(guān)鍵詞; 通過關(guān)鍵詞篩選操作從每個第一級關(guān)鍵詞對應(yīng)的領(lǐng)域語料數(shù)據(jù)中篩選出一個或多個第二級關(guān)鍵詞,并將所述領(lǐng)域語料數(shù)據(jù)匹配到所述第二級關(guān)鍵詞; 不斷重復(fù)上述篩選及匹配的過程,直至篩選出第M級關(guān)鍵詞,并將所述領(lǐng)域語料數(shù)據(jù)匹配到所述第M級關(guān)鍵詞,M大于或等于2; 將所述第M級關(guān)鍵詞對應(yīng)的領(lǐng)域語料數(shù)據(jù)按照語義進(jìn)行文本聚類。2.如權(quán)利要求1所述的數(shù)據(jù)的處理方法,其特征在于,所述過濾操作采用分類器實(shí)現(xiàn)。3.如權(quán)利要求1所述的數(shù)據(jù)的處理方法,其特征在于,所述關(guān)鍵詞篩選操作包括采用N種不同方法獲取N組關(guān)鍵詞,每組中每個關(guān)鍵詞對應(yīng)一個權(quán)重值,提取N組關(guān)鍵詞的交集,并提取其余關(guān)鍵詞中權(quán)重值大于預(yù)設(shè)閾值的關(guān)鍵詞,將提取的所有關(guān)鍵詞作為篩選出的關(guān)鍵詞,N大于或等于I。4.如權(quán)利要求3所述的數(shù)據(jù)的處理方法,其特征在于,獲取關(guān)鍵詞的方法包括以下方法中的一種或多種的組合:LDA主題模型分析方法、textrank方法、互信息方法和tfidf?方法。5.如權(quán)利要求1所述的數(shù)據(jù)的處理方法,其特征在于,所述文本聚類包括:計(jì)算每個第M級關(guān)鍵詞對應(yīng)的兩兩領(lǐng)域語料數(shù)據(jù)之間的語義距離和/或語義相似度,并采用Kmeans聚類方法或/和Canopy聚類方法將每個第M級關(guān)鍵詞對應(yīng)的領(lǐng)域語料數(shù)據(jù)按照語義相關(guān)性進(jìn)行排列。6.如權(quán)利要求1所述的數(shù)據(jù)的處理方法,其特征在于,還包括:根據(jù)篩選出的關(guān)鍵詞以及文本聚類結(jié)果形成知識圖譜。7.如權(quán)利要求1所述的數(shù)據(jù)的處理方法,其特征在于,還包括:當(dāng)獲取新的語料數(shù)據(jù)時(shí),對所述新的語料數(shù)據(jù)執(zhí)行過濾操作,當(dāng)所述新的語料數(shù)據(jù)為與目標(biāo)領(lǐng)域相關(guān)的領(lǐng)域語料數(shù)據(jù)時(shí),對所述新的語料數(shù)據(jù)進(jìn)行分詞操作以及關(guān)鍵詞篩選操作,以使所述新的語料數(shù)據(jù)匹配到已有的第M級關(guān)鍵詞,并根據(jù)語義相關(guān)性將所述新的語料數(shù)據(jù)聚類到合適位置。8.一種知識圖譜,包括M級關(guān)鍵詞,每級關(guān)鍵詞包括一個或多個關(guān)鍵詞,其特征在于,還包括多個語料數(shù)據(jù),所述語料數(shù)據(jù)按照語義相關(guān)性匹配在相應(yīng)的第M級關(guān)鍵詞上。9.一種數(shù)據(jù)的處理裝置,其特征在于,包括: 獲取單元,適于獲取原始語料數(shù)據(jù); 過濾單元,適于對所述原始語料數(shù)據(jù)執(zhí)行過濾操作,以得到與目標(biāo)領(lǐng)域相關(guān)的領(lǐng)域語料數(shù)據(jù); 分詞單元,適于對所述領(lǐng)域語料數(shù)據(jù)執(zhí)行分詞操作,以得到與每條領(lǐng)域語料數(shù)據(jù)對應(yīng)的一個或多個詞語; 篩選單元,適于通過關(guān)鍵詞篩選操作從所有領(lǐng)域語料數(shù)據(jù)對應(yīng)的詞語中篩選出一個或多個第一級關(guān)鍵詞,并將每條所述領(lǐng)域語料數(shù)據(jù)匹配到所述第一級關(guān)鍵詞;以及通過關(guān)鍵詞篩選操作從每個所述第一級關(guān)鍵詞對應(yīng)的領(lǐng)域語料數(shù)據(jù)中篩選出一個或多個第二級關(guān)鍵詞,并將所述領(lǐng)域語料數(shù)據(jù)匹配到所述第二級關(guān)鍵詞;不斷重復(fù)上述篩選及匹配的過程,直至篩選出第M級關(guān)鍵詞,并將所述領(lǐng)域語料數(shù)據(jù)匹配到第M級關(guān)鍵詞,M大于或等于2; 聚類單元,適于將所述第M級關(guān)鍵詞對應(yīng)的領(lǐng)域語料數(shù)據(jù)按照語義進(jìn)行文本聚類。10.如權(quán)利要求9所述的數(shù)據(jù)的處理裝置,其特征在于,所述過濾單元采用分類器實(shí)現(xiàn)所述過濾操作。11.如權(quán)利要求9所述的數(shù)據(jù)的處理裝置,其特征在于,所述篩選單元適于采用如下方法執(zhí)行所述關(guān)鍵詞篩選操作:采用N種不同方式獲取N組關(guān)鍵詞,每組中每個關(guān)鍵詞對應(yīng)一個權(quán)重值,提取N組關(guān)鍵詞的交集,并提取其余關(guān)鍵詞中權(quán)重值大于預(yù)設(shè)閾值的關(guān)鍵詞,將提取的所有關(guān)鍵詞作為篩選出的關(guān)鍵詞,N大于或等于I。12.如權(quán)利要求11所述的數(shù)據(jù)的處理裝置,其特征在于,所述篩選單元獲取關(guān)鍵詞的方法包括以下方法中的一種或多種的組合:LDA主題模型分析方法、textrank方法、互信息方法和tfidf方法。13.如權(quán)利要求9所述的數(shù)據(jù)的處理裝置,其特征在于,所述聚類單元包括: 計(jì)算子單元,適于計(jì)算每個第M級關(guān)鍵詞對應(yīng)的兩兩領(lǐng)域語料數(shù)據(jù)之間的語義距離和/或語義相似度; 聚類子單元,適于采用Kmeans聚類方法或/和Canopy聚類方法將每個第M級關(guān)鍵詞對應(yīng)的領(lǐng)域語料數(shù)據(jù)按照語義相關(guān)性進(jìn)行排列。14.如權(quán)利要求9所述的數(shù)據(jù)的處理裝置,其特征在于,還包括: 知識圖譜建立單元,適于根據(jù)篩選出的關(guān)鍵詞以及文本聚類結(jié)果形成知識圖譜。15.如權(quán)利要求9所述的數(shù)據(jù)的處理裝置,其特征在于,還包括: 更新單元,適于當(dāng)所述獲取單元獲取到新的語料數(shù)據(jù)時(shí),控制所述過濾單元對所述新的語料數(shù)據(jù)執(zhí)行過濾操作;當(dāng)所述新的語料數(shù)據(jù)為與目標(biāo)領(lǐng)域相關(guān)的領(lǐng)域語料數(shù)據(jù)時(shí),分別控制所述分詞單元及所述篩選單元對所述新的語料數(shù)據(jù)進(jìn)行分詞操作以及對關(guān)鍵詞篩選操作,以使所述新的語料數(shù)據(jù)匹配到已有的第M級關(guān)鍵詞;并由所述聚類單元根據(jù)語義相關(guān)性將所述新的語料數(shù)據(jù)聚類到合適位置。
【文檔編號】G06F17/30GK105893551SQ201610200663
【公開日】2016年8月24日
【申請日】2016年3月31日
【發(fā)明人】白楊, 劉焱, 朱頻頻
【申請人】上海智臻智能網(wǎng)絡(luò)科技股份有限公司