欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

基于商品評(píng)論文檔集的概念層次創(chuàng)建方法與流程

文檔序號(hào):12014824閱讀:267來源:國(guó)知局
基于商品評(píng)論文檔集的概念層次創(chuàng)建方法與流程
本發(fā)明涉及語(yǔ)義挖掘領(lǐng)域,尤其涉及基于商品評(píng)論文檔集的概念層次創(chuàng)建方法。

背景技術(shù):
隨著社交網(wǎng)絡(luò)和電子商務(wù)的迅速發(fā)展,網(wǎng)絡(luò)和信息系統(tǒng)中產(chǎn)生了大量評(píng)論數(shù)據(jù)。面對(duì)龐大的數(shù)據(jù)集,人們一般難以快速找到其感興趣的內(nèi)容,如電子商務(wù)系統(tǒng)用戶往往需要閱讀某一產(chǎn)品大量的用戶評(píng)論,才能對(duì)其某項(xiàng)性能做出相對(duì)準(zhǔn)確的評(píng)價(jià)。由于概念層次能提供數(shù)據(jù)之間的內(nèi)在相關(guān)性,所以其能大幅提高人們分析數(shù)據(jù)集的效率,發(fā)掘其內(nèi)在價(jià)值,在信息檢索、文本分類、自動(dòng)問答等領(lǐng)域有著廣闊的應(yīng)用空間。概念層次是一個(gè)分類表,以等級(jí)方式對(duì)概念進(jìn)行分類,是本體的一種特殊形式,其僅包含子類關(guān)系。構(gòu)建針對(duì)特定文檔集的概念分類通常包含3個(gè)步驟:1)提取出對(duì)于該文檔集來說是最具代表性和相關(guān)性的概念;2)在確認(rèn)這些概念后,發(fā)掘出這些概念之間的語(yǔ)義關(guān)系;3)通過概念之間的語(yǔ)義關(guān)系將其有效的組織起來。一般獲得文檔集關(guān)鍵概念和語(yǔ)義關(guān)系之后需要通過恰當(dāng)?shù)姆椒ㄈド勺罱K的層次結(jié)構(gòu)。在語(yǔ)義關(guān)系比較明顯的情況下,可以采用推理的方法去生成最終結(jié)構(gòu),但此類方法對(duì)于文本本身數(shù)量和質(zhì)量要求較高,在評(píng)論數(shù)據(jù)中無法滿足。而其他情況下,則一般采取根據(jù)語(yǔ)義距離進(jìn)行層次聚類的方法。公開號(hào)為1669029A的專利文獻(xiàn)公開了一種可自一文件集合中自動(dòng)搜尋概念并自動(dòng)生成一概念層次結(jié)構(gòu)的方法、系統(tǒng)及計(jì)算機(jī)程序。該方法包括:自文件集合中抽取特征字符;利用統(tǒng)計(jì)方法計(jì)算特征字符間的相似度;提煉特征字符的分布頻率以使上述相似度計(jì)算趨于精確;對(duì)特征字符進(jìn)行語(yǔ)義排歧以解決意義分歧的問題;以經(jīng)提煉的分布頻率及語(yǔ)義排歧后的特征字符為基礎(chǔ),重新計(jì)算特征字符的相似度。經(jīng)再次計(jì)算所得的相似度可反映各特征字符間的實(shí)際相似程度,藉此,可將相關(guān)的特征字符進(jìn)行聚類形成不同的概念,所得概念排列為一個(gè)概念層次結(jié)構(gòu)。該概念層次結(jié)構(gòu)可自動(dòng)對(duì)某一待檢索的特定概念產(chǎn)生詢問并返回與該概念相關(guān)的文件。層次聚類是一種常用的數(shù)據(jù)聚類方法,其根據(jù)一定標(biāo)準(zhǔn)對(duì)數(shù)據(jù)進(jìn)行層次分解。基本層次聚類方法一般以二叉樹的形式輸出最終結(jié)果,但這樣的知識(shí)表達(dá)方式對(duì)于很多應(yīng)用場(chǎng)景來說顯得不恰當(dāng)。例如在電視機(jī)評(píng)論數(shù)據(jù)中有液晶電視、等離子電視和OLED電視三個(gè)概念,較符合人類認(rèn)知的概念分類應(yīng)該將這三個(gè)概念合并到同一個(gè)節(jié)點(diǎn)下,但通過基本層次聚類算法無法實(shí)現(xiàn)。

技術(shù)實(shí)現(xiàn)要素:
為了能夠?qū)?shù)據(jù)實(shí)現(xiàn)符合人類認(rèn)知的聚類,本發(fā)明提出了一種基于商品評(píng)論文檔集的概念層次創(chuàng)建方法。一種基于商品評(píng)論文檔集的概念層次創(chuàng)建方法,包括如下步驟:步驟1,對(duì)初始的文檔集進(jìn)行預(yù)處理,得到文檔矩陣以及關(guān)鍵詞表;步驟2,根據(jù)文檔矩陣以及關(guān)鍵詞表建立主題模型,并將每個(gè)主題下相關(guān)度最高的k個(gè)名詞作為關(guān)鍵概念;步驟3,對(duì)關(guān)鍵概念進(jìn)行語(yǔ)義關(guān)系提取,得到關(guān)鍵概念的距離矩陣;步驟4,根據(jù)距離矩陣進(jìn)行多路凝聚聚類,得到概念層次。k的取值由用戶根據(jù)需要來確定,一般取值范圍在10-15。在概念層次生成時(shí),使用多路凝聚層次聚類組織概念節(jié)點(diǎn),從而構(gòu)建多叉樹形式的概念分類。對(duì)初始的文檔集進(jìn)行預(yù)處理的步驟如下:步驟1-1,從初始的文檔集提取具有評(píng)論數(shù)據(jù)的內(nèi)容;步驟1-2,對(duì)所提取內(nèi)容進(jìn)行去停用詞和索引處理;步驟1-3,根據(jù)索引中詞的出現(xiàn)頻率對(duì)內(nèi)容進(jìn)行過濾,并生成相應(yīng)的文檔矩陣和關(guān)鍵詞表。某些情況下,一些常見詞在文檔和用戶需求進(jìn)行匹配時(shí)價(jià)值并不大,需要徹底從詞匯表中去除,這類詞稱為停用詞。常用的生成停用詞表的方法就是將詞項(xiàng)按照在文檔集中出現(xiàn)的頻率從高到低排列,然后手工選擇那些語(yǔ)義內(nèi)容與文檔主題關(guān)系不大的高頻詞作為停用詞。停用詞表中的每個(gè)詞將在索引過程中被忽略。使用停用詞表可以大大減小系統(tǒng)所需要存儲(chǔ)的倒排記錄表的數(shù)目。采用分詞器進(jìn)行索引處理。步驟2中,主題模型的建立方法為:步驟2-1,從文檔矩陣中得到主題-詞矩陣;步驟2-2,由關(guān)鍵詞表得到關(guān)鍵名詞鏈表,主題-詞矩陣及關(guān)鍵名詞鏈表構(gòu)成主題模型。其中,關(guān)鍵概念來自于關(guān)鍵名詞鏈表。主題模型通過詞項(xiàng)在文檔集的共現(xiàn)信息抽取出語(yǔ)義相關(guān)的主題集合,并能夠?qū)⒃~項(xiàng)空間中的文檔變換到主題空間,得到文檔在低維空間中的表達(dá)。步驟2-1中,得到主題-詞矩陣的步驟如下:步驟2-11,讀取文檔矩陣,并通過預(yù)設(shè)的參數(shù)得到初始的主題模型,并從初始的主題模型得到抽樣的文檔集,其中預(yù)設(shè)的參數(shù)為文檔-主題分布的分布參數(shù)以及主題-詞分布的分布參數(shù);步驟2-12,根據(jù)抽樣的文檔集與文檔矩陣的分布差異來對(duì)主題模型進(jìn)行調(diào)整;步驟2-13,將步驟2-12重復(fù)8000至12000次,從所得的主題模型得到主題-詞分布矩陣,將每個(gè)主題下的詞按出現(xiàn)概率大小進(jìn)行排序,從而得到主題-詞矩陣。其中利用初始的主題模型進(jìn)行調(diào)整過程為:根據(jù)文檔-主題分布抽樣生成文檔-主題矩陣。根據(jù)所得的文檔-主題矩陣以及主題-詞分布抽樣生成文檔-詞分布抽樣生成文檔-詞分布。計(jì)算目前參數(shù)設(shè)置下初始文檔集出現(xiàn)的概率。從初始主題模型中得到抽樣的文檔集,將抽樣的文檔集與初始的文檔集進(jìn)行對(duì)比,根據(jù)兩者之間的差異對(duì)預(yù)設(shè)參數(shù)進(jìn)行調(diào)整。在步驟2-13中,將每個(gè)主題下的詞按出現(xiàn)概率大小進(jìn)行排序時(shí),出現(xiàn)概率越大,次序越靠前。步驟2-2中,得到關(guān)鍵名詞鏈表的步驟如下:步驟2-21,讀取關(guān)鍵詞表,并建立一個(gè)初始的關(guān)鍵名詞鏈表,由關(guān)鍵詞表向該關(guān)鍵名詞鏈表輸入所有關(guān)鍵詞,并去除重復(fù)的關(guān)鍵詞;步驟2-22,對(duì)于每個(gè)關(guān)鍵詞,判定所述關(guān)鍵詞在各個(gè)句子中的詞性,統(tǒng)計(jì)各個(gè)詞性出現(xiàn)的概率,選擇出現(xiàn)概率最大的詞性作為該詞在整個(gè)文檔集中的詞性;步驟2-23,將所有名詞詞性的關(guān)鍵詞作為關(guān)鍵概念儲(chǔ)存于關(guān)鍵名詞鏈表中。其中,在步驟2-22中,利用索引閱讀器找到含有該關(guān)鍵詞的句子,采用分詞器分析該關(guān)鍵詞在各個(gè)句子中的詞性并進(jìn)行統(tǒng)計(jì)。步驟3中,語(yǔ)義關(guān)系提取的步驟如下:步驟3-1,將全部關(guān)鍵概念組成一個(gè)關(guān)鍵概念集合;步驟3-2,遍歷各個(gè)句子,若包含關(guān)鍵概念,則將其寫入一個(gè)文件中;步驟3-3,對(duì)所有關(guān)鍵概念進(jìn)行語(yǔ)義消歧;步驟3-4,對(duì)于語(yǔ)義消歧后的每一個(gè)關(guān)鍵概念,統(tǒng)計(jì)其所有語(yǔ)義ID在初始的文檔集出現(xiàn)次數(shù),將出現(xiàn)次數(shù)最多的語(yǔ)義作為其在初始的文檔集中的語(yǔ)義;步驟3-5,根據(jù)步驟3-4中所得到的語(yǔ)義計(jì)算詞典語(yǔ)義距離;步驟3-6,根據(jù)所有關(guān)鍵概念對(duì)在初始文檔中出現(xiàn)的相關(guān)性計(jì)算其統(tǒng)計(jì)語(yǔ)義距離;步驟3-7,將詞典語(yǔ)義距離和統(tǒng)計(jì)語(yǔ)義距離進(jìn)行結(jié)合得到語(yǔ)義距離,所有關(guān)鍵概念兩兩之間的語(yǔ)義距離所形成的矩陣作為最終的語(yǔ)義距離矩陣。其中,一個(gè)關(guān)鍵概念的語(yǔ)義ID為該關(guān)鍵概念所表達(dá)的語(yǔ)義在語(yǔ)義詞典中的唯一標(biāo)識(shí)。其中,兩個(gè)關(guān)鍵概念之間的詞典語(yǔ)義距離表示為:其中,n為正實(shí)數(shù),用于調(diào)整帶深度的詞典語(yǔ)義距離,d是兩個(gè)關(guān)鍵概念的公共祖先概念在語(yǔ)義詞典中的深度,BSD(c1,c2,T)是兩個(gè)關(guān)鍵概念在語(yǔ)義詞典中的最短距離。兩個(gè)關(guān)鍵概念之間的統(tǒng)計(jì)語(yǔ)義距離表示為:其中和為關(guān)鍵概念c1和c2所對(duì)應(yīng)的上下文向量,和為對(duì)應(yīng)的上下文向量的模。步驟3-3中,對(duì)各個(gè)關(guān)鍵概念的語(yǔ)義消歧方法如下:步驟a),讀取該關(guān)鍵概念在同義詞詞林的所有語(yǔ)義ID;步驟b),根據(jù)語(yǔ)義ID在同義詞詞林中的頂級(jí)分類進(jìn)行過濾;步驟c),獲取所有語(yǔ)義ID的同義詞集;步驟d),統(tǒng)計(jì)各個(gè)同義詞在初始的文檔集中出現(xiàn)的次數(shù),選擇出現(xiàn)次數(shù)最多的語(yǔ)義ID作為該關(guān)鍵概念的語(yǔ)義ID。由于同一詞語(yǔ)可能存在一詞多義的情況,因此通過語(yǔ)義消歧方法確定該詞語(yǔ)在文檔集中的語(yǔ)義。步驟3-7中,將關(guān)鍵概念的詞典語(yǔ)義距離和統(tǒng)計(jì)語(yǔ)義距離進(jìn)行結(jié)合的公式為:其中c1和c2為關(guān)鍵概念,T為語(yǔ)義詞典中包含c1和c2的概念樹,SSD(c1,c2,T)為歸一化后的詞典語(yǔ)義距離,CD(c1,c2)為歸一化后的統(tǒng)計(jì)語(yǔ)義距離。其中,歸一化后的詞典語(yǔ)義距離SDD(c1,c2,T)表達(dá)式為:Dmax是基本詞典語(yǔ)義距離的可能最大值,其中基本語(yǔ)義距離為兩個(gè)概念節(jié)點(diǎn)在概念樹上的最短距離BSD(c1,c2,T),詞典語(yǔ)義距離在此基礎(chǔ)上考慮其他因素。歸一化后的統(tǒng)計(jì)語(yǔ)義距離CD(c1,c2)表達(dá)式為:CD(c1,c2)=1-CS(c1,c2)。步驟4中,多路凝聚聚類的方法為:步驟4-1,輸入所有的關(guān)鍵概念的語(yǔ)義距離矩陣,每個(gè)關(guān)鍵概念作為一個(gè)概念節(jié)點(diǎn);步驟4-2,從語(yǔ)義距離矩陣中選取語(yǔ)義距離最小的兩個(gè)概念節(jié)點(diǎn),將兩個(gè)概念節(jié)點(diǎn)合并成新的概念節(jié)點(diǎn);步驟4-3,從關(guān)鍵概念集合中刪除掉已合并的概念節(jié)點(diǎn),加入合并后的概念節(jié)點(diǎn),并且更新語(yǔ)義距離矩陣;步驟4-4,重復(fù)步驟4-2至4-3直到所有概念節(jié)點(diǎn)都已合并到同一個(gè)概念節(jié)點(diǎn)下,得到最終概念層次;步驟4-5,以XML形式輸出最終的概念層次。與傳統(tǒng)層次聚類算法不同的是,多路凝聚層次聚類算法在合并兩個(gè)聚類時(shí)有三種不同的合并操作,而傳統(tǒng)層次聚類只有一種。額外的合并操作使得輸出多叉樹成為可能。本發(fā)明針對(duì)使用基本層次聚類算法只能輸出二叉樹的問題,提出了一種自動(dòng)的基于商品評(píng)論文檔集的概念層次構(gòu)建方法,在概念層次生成時(shí)使用多路凝聚層次聚類來組織概念節(jié)點(diǎn),從而構(gòu)建多叉樹形式的概念層次。本發(fā)明的優(yōu)點(diǎn)包括:(1)在提取語(yǔ)義關(guān)系時(shí)結(jié)合了語(yǔ)義詞典中的信息和商品評(píng)論文檔集中的統(tǒng)計(jì)特征,計(jì)算出的語(yǔ)義關(guān)系更加健壯和真實(shí);(2)使用多路凝聚聚類算法生成最終的概念層次,突破了傳統(tǒng)凝聚聚類只能生成二叉樹的限制;(3)一種完全自動(dòng)化的構(gòu)建方法,在概念層次構(gòu)建過程中無需任何人工干預(yù)。附圖說明圖1為本發(fā)明一個(gè)實(shí)施例的方法流程圖;圖2為對(duì)文檔內(nèi)容進(jìn)行去停用詞和索引處理的流程圖;圖3為文檔集矩陣和關(guān)鍵詞表生成過程;圖4為主題-詞提取流程圖;圖5為名詞提取流程圖;圖6為語(yǔ)義消歧流程圖;圖7a為多路凝聚前的示意圖;圖7b至7d為多路凝聚聚類3種情況的示意圖;圖8為關(guān)鍵詞表的一個(gè)示例圖;圖9為文檔矩陣的一個(gè)示例圖。具體實(shí)施方式現(xiàn)結(jié)合附圖和實(shí)施例對(duì)本發(fā)明進(jìn)行詳細(xì)的解釋,本發(fā)明方法的流程圖如圖1所示。該方法分為對(duì)商品評(píng)論文檔集進(jìn)行預(yù)處理、主題模型建模、語(yǔ)義關(guān)系提取和多路凝聚聚類四個(gè)階段。步驟1,數(shù)據(jù)預(yù)處理階段的主要步驟包括:1)從網(wǎng)頁(yè)形式的原始商品評(píng)論文檔集中提取出商品評(píng)論數(shù)據(jù)的內(nèi)容;原始商品評(píng)論文檔集中可能存在很多無意義的信息,比如各種tag或者一些界面元素,這些在進(jìn)行概念提取時(shí)都是不需要的,因此需要根據(jù)特定的模式把評(píng)論內(nèi)容從原始信息中提取出來,以減小概念提取時(shí)的計(jì)算量和主題模型的可解釋性。2)對(duì)商品評(píng)論數(shù)據(jù)的內(nèi)容進(jìn)行去停用詞和索引等處理;處理過程如圖2所示,系統(tǒng)首先根據(jù)輸入讀取停用詞和用戶字典中的詞,接著初始化一個(gè)分詞器,該分詞器支持停用詞過濾和用戶字典功能。然后根據(jù)文件夾地址讀取文檔集內(nèi)容,對(duì)于每一篇文檔的內(nèi)容生成倒排索引,最后將索引保存到輸入的索引保存位置中。3)根據(jù)在索引中出現(xiàn)的頻率對(duì)評(píng)論中的詞進(jìn)行過濾,并且生成相應(yīng)的關(guān)鍵詞表和文檔矩陣;處理過程如圖3所示,用戶輸入包括:索引文件夾地址、關(guān)鍵詞出現(xiàn)頻率的上限和下限,以及輸出的文件夾,輸出則為詞表文件和文檔矩陣文件。處理過程:首先根據(jù)索引文件夾地址讀取索引的文檔內(nèi)容;接著生成一個(gè)與文檔數(shù)目長(zhǎng)度相同的鏈表a,初始化詞語(yǔ)ID為0(即a(0)),然后開始遍歷索引中的每一個(gè)詞語(yǔ)。索引方式為:對(duì)于每一個(gè)詞語(yǔ),首先統(tǒng)計(jì)其在整個(gè)文檔集中出現(xiàn)的次數(shù),如果超過關(guān)鍵詞的次數(shù)限制,就對(duì)下一個(gè)詞語(yǔ)進(jìn)行索引;否則,在關(guān)鍵詞表中寫入:ID、詞語(yǔ)和以及詞語(yǔ)出現(xiàn)的次數(shù),接著在文檔集中遍歷其所有位置,如果出現(xiàn)在文檔1中,則在關(guān)鍵詞表的a(1)中添加一個(gè)ID,遍歷完所有位置后ID+1,進(jìn)入下一個(gè)詞語(yǔ)的索引。遍歷完所有詞語(yǔ)之后,將所得的文檔矩陣寫入到輸出文件夾內(nèi)的文檔矩陣文件(即目標(biāo)位置)中。生成的關(guān)鍵詞表如圖8所示。輸出的關(guān)鍵詞表的格式為每一行分為3個(gè)部分,中間用空格隔開,第一個(gè)部分是詞語(yǔ),第二個(gè)部分是詞語(yǔ)所對(duì)應(yīng)的詞語(yǔ)ID,第三個(gè)部分是相應(yīng)詞語(yǔ)出現(xiàn)的總次數(shù)。文檔矩陣如圖9所示,文檔矩陣中每一行代表一個(gè)文檔,每個(gè)文檔由一串詞語(yǔ)的ID組成,詞語(yǔ)之間用空格隔開,每行第一個(gè)元素表示文檔所包含不重復(fù)的詞語(yǔ)ID數(shù),后面各個(gè)部分由詞語(yǔ)ID和詞語(yǔ)ID的出現(xiàn)次數(shù)組成,不同詞語(yǔ)ID之間用“:”符號(hào)隔開。在得到文檔矩陣和關(guān)鍵詞表之后進(jìn)入步驟2。步驟2,根據(jù)文檔矩陣建立主題模型。主題模型建模階段包括主題-詞提取和名詞提取兩個(gè)子階段。在進(jìn)行主題詞提取的處理之前首先由用戶輸入:關(guān)鍵詞表地址、文檔矩陣地址、預(yù)定義的文檔主題數(shù)目和輸出結(jié)果的地址;接著進(jìn)行處理,具體處理過程如圖4所示,主要步驟包括:步驟2-11,讀取文檔矩陣,并通過預(yù)設(shè)的參數(shù)得到初始的主題模型,并從初始的主題模型得到抽樣的文檔集,其中預(yù)設(shè)的參數(shù)為文檔-主題分布的分布參數(shù)以及主題-詞分布的分布參數(shù);步驟2-12,根據(jù)抽樣的文檔集與文檔矩陣的分布差異來對(duì)主題模型進(jìn)行調(diào)整;對(duì)于文檔矩陣中的每一篇文檔,對(duì)應(yīng)的抽樣文檔生成過程如下:對(duì)于每篇文檔di中的每一個(gè)詞,從該詞對(duì)應(yīng)的主題分布Θi抽樣出一個(gè)主題zk;對(duì)于每個(gè)主題zk,從其對(duì)應(yīng)的詞語(yǔ)分布中抽樣出一個(gè)詞wij,重復(fù)上述步驟直到遍歷完文檔dj中的所有詞語(yǔ)。步驟2-13,根據(jù)新的模型重復(fù)步驟2-12,直到達(dá)到預(yù)設(shè)的次數(shù),本發(fā)明實(shí)施例中設(shè)置為10000次;步驟2-14,輸出主題-詞矩陣。在得到主題-詞矩陣之后,進(jìn)行名詞提取,得到關(guān)鍵名詞鏈表。提取名詞的處理過程如圖5所示,方法如下:首先由用戶輸入:關(guān)鍵詞文件地址、倒排索引文件夾地址以及輸出結(jié)果地址。輸出為一個(gè)只包含關(guān)鍵名詞的文件。處理過程如下:首先讀取所有的關(guān)鍵詞,并且去掉重復(fù)的詞;接著初始化索引閱讀器,然后對(duì)于每一個(gè)關(guān)鍵詞,根據(jù)索引找出包含該關(guān)鍵詞的句子,使用分詞器對(duì)句子進(jìn)行分詞,找出該關(guān)鍵詞在句子中的詞性,統(tǒng)計(jì)各種詞性出現(xiàn)的概率,選擇出現(xiàn)概率最大的詞性作為該關(guān)鍵詞在整個(gè)文檔集中的詞性,并且將詞性為名詞的關(guān)鍵詞加入到一個(gè)鏈表(名詞鏈表)中,遍歷完所有的關(guān)鍵詞后得到的鏈表即為關(guān)鍵名詞鏈表,最后將關(guān)鍵名詞鏈表輸出到輸出結(jié)果地址中。其中關(guān)鍵名詞鏈表中的所有名詞均為關(guān)鍵概念。在得到關(guān)鍵名詞鏈表之后,進(jìn)入步驟3,對(duì)關(guān)鍵概念進(jìn)行語(yǔ)義關(guān)系提取。語(yǔ)義關(guān)系提取階段過程如圖6所示,主要步驟包括:步驟3-1,將所有的關(guān)鍵概念輸入到一個(gè)集合中;步驟3-2,遍歷所有的句子,對(duì)于每個(gè)句子而言,如果其包含關(guān)鍵概念,則將其寫入到一個(gè)文件中;步驟3-3,對(duì)所有的句子進(jìn)行語(yǔ)義消歧;步驟3-4,對(duì)于每一個(gè)關(guān)鍵概念,統(tǒng)計(jì)其所有語(yǔ)義ID的出現(xiàn)次數(shù),將出現(xiàn)次數(shù)最多的語(yǔ)義ID作為該關(guān)鍵概念在文檔集中的語(yǔ)義;步驟3-5,根據(jù)步驟3-4中所得到的語(yǔ)義ID計(jì)算詞典語(yǔ)義距離。為計(jì)算兩個(gè)關(guān)鍵概念之間的語(yǔ)義距離,需借助語(yǔ)義詞典中的上位詞關(guān)系。通過這些關(guān)系,可能找到兩個(gè)被標(biāo)記概念的公共祖先概念。對(duì)于兩個(gè)概念c1、c2,如果在語(yǔ)義詞典中可以找到其公共祖先概念c3,那么兩個(gè)概念詞之間帶深度的語(yǔ)義距離表示為:c1和c2分別為兩個(gè)關(guān)鍵概念,T為在語(yǔ)義詞典中包含c1和c2的概念樹,n為一個(gè)正實(shí)數(shù),用于調(diào)整帶深度的語(yǔ)義距離,d為兩個(gè)關(guān)鍵概念的公共祖先概念在語(yǔ)義詞典中的深度,BSD(c1,c2,T)是兩個(gè)關(guān)鍵概念在語(yǔ)義詞典中的最短距離。步驟3-6,根據(jù)所有關(guān)鍵概念對(duì)在商品評(píng)論文檔集中出現(xiàn)的相關(guān)性計(jì)算關(guān)鍵概念的統(tǒng)計(jì)語(yǔ)義距離;使用所有主題詞作為關(guān)鍵概念的上下文,用其與關(guān)鍵概念出現(xiàn)次數(shù)的相關(guān)性作為上下文向量的特征,該特征表示為:tfk(w1)是w1在文檔dk中的詞頻,tfavg(w1)是整個(gè)文檔集中tfk(w1)的平均值,tfstd(w1)是tfk(w1)所有值的標(biāo)準(zhǔn)差。假設(shè)c1和c2是兩個(gè)概念的上下文向量,那么其統(tǒng)計(jì)語(yǔ)義的余弦距離(即統(tǒng)計(jì)語(yǔ)義距離)表示為:步驟3-7,結(jié)合兩種語(yǔ)義距離的結(jié)果,作為最終的語(yǔ)義距離并輸出記錄所有關(guān)鍵概念語(yǔ)義距離的距離矩陣。為了結(jié)合兩種距離,首先將其進(jìn)行歸一化:CD(c1,c2)=1-CS(c1,c2)Dmax是基本詞典語(yǔ)義距離的可能最大值。歸一化之后,兩個(gè)關(guān)鍵概念的語(yǔ)義距離表示為:所有關(guān)鍵概念的語(yǔ)義距離組成關(guān)鍵概念。在得到關(guān)鍵概念的語(yǔ)義距離之后,進(jìn)行步驟4,對(duì)關(guān)鍵概念進(jìn)行多路凝聚聚類。多路凝聚聚類階段主要包含以下步驟:步驟4-1,輸入所有關(guān)鍵概念的距離矩陣;步驟4-2,選取語(yǔ)義距離最小的兩個(gè)關(guān)鍵概念,并根據(jù)其間各種指標(biāo)的相似性選取合適的合并操作;與傳統(tǒng)的層次聚類算法不同的是,多路凝聚聚類算法在合并兩個(gè)聚類時(shí)有三種不同的合并操作,而傳統(tǒng)層次聚類只有一種。額外的合并操作使得輸出多叉樹成為可能。假設(shè)需合并的兩個(gè)聚類為聚類A和聚類B,如圖7a所示,則對(duì)應(yīng)三種情況為:1)聚類A和聚類B變成一個(gè)新聚類C的子類,如圖7b所示。這種情況一般發(fā)生于兩個(gè)聚類之間的距離大于特定閾值時(shí)。該情況下的合并與傳統(tǒng)凝聚層次聚類中的情況一樣。2)聚類A和聚類B的子類變?yōu)橐粋€(gè)新聚類C的子類,如圖7c。這種情況發(fā)生于兩個(gè)聚類之間的距離小于閾值并且其子類平均距離相似,這說明兩個(gè)聚類的語(yǔ)義接近且具有相近的密度。3)一個(gè)聚類變?yōu)榱硪粋€(gè)聚類的子類,如圖7d所示,圖中聚類B變?yōu)榫垲怉的子類。這種情況說明兩個(gè)聚類具有較小的距離但是兩者的語(yǔ)義密度并不相似。這種情況下則將較大密度的聚類作為另外一個(gè)聚類的子類。因?yàn)樽宇惼骄嚯x越小,說明子類之間的關(guān)系越緊密,密度越大,而在概念分類中,越往上子類之間的距離越大。在本發(fā)明中,每個(gè)聚類為一個(gè)概念節(jié)點(diǎn)。為計(jì)算聚類間的語(yǔ)義距離及其密度的相似性,需引入以下幾個(gè)概念:①平均節(jié)點(diǎn)距離。對(duì)于兩個(gè)概念c1和c2,其平均節(jié)點(diǎn)距離為:ci和cj是對(duì)應(yīng)概念節(jié)點(diǎn)的葉節(jié)點(diǎn),m和n分別為c1和c2概念下葉節(jié)點(diǎn)的數(shù)目,SDD(ci,cj)為葉節(jié)點(diǎn)ci和cj之間的語(yǔ)義距離。②子節(jié)點(diǎn)距離。對(duì)于一個(gè)概念節(jié)點(diǎn)c1,其子節(jié)點(diǎn)距離為:ci和cj是概念節(jié)點(diǎn)c1的直接子節(jié)點(diǎn)。③平均子節(jié)點(diǎn)距離。對(duì)于一個(gè)概念節(jié)點(diǎn)c1,其平均子節(jié)點(diǎn)距離為:擴(kuò)展到兩個(gè)概念節(jié)點(diǎn)c1和c2的情況,則兩個(gè)概念節(jié)點(diǎn)的平均子節(jié)點(diǎn)距離為:m和n分別為概念節(jié)點(diǎn)c1和c2的直接子節(jié)點(diǎn)的數(shù)目。④節(jié)點(diǎn)距離差異。對(duì)于兩個(gè)概念節(jié)點(diǎn)c1、c2的節(jié)點(diǎn)距離差異為:DC(c1,c2)=NCDavg(c1,c2)-CCDavg(c1,c2)⑤節(jié)點(diǎn)密度差異。對(duì)于兩個(gè)概念節(jié)點(diǎn)c1、c2,則節(jié)點(diǎn)密度差異為:每一次迭代過程算法都會(huì)選取平均節(jié)點(diǎn)距離最小的兩個(gè)節(jié)點(diǎn)進(jìn)行合并。假設(shè)這兩個(gè)節(jié)點(diǎn)為概念節(jié)點(diǎn)c1和c2,如果DC(c1,c2)>τ,那么這兩個(gè)概念節(jié)點(diǎn)將會(huì)按照第一種情況進(jìn)行合并。τ就是第一種情況里的閾值,大于τ說明兩個(gè)聚類間的差距仍然過大。如果差距不大,則比較兩個(gè)概念節(jié)點(diǎn)的平均子節(jié)點(diǎn)概念距離。如果滿足DCD(c1,c2)<σ-1,則算法轉(zhuǎn)入第二種情況,否則轉(zhuǎn)入第三種情況。步驟4-3,從關(guān)鍵概念集合中刪除掉已合并的關(guān)鍵概念,加入合并后的概念節(jié)點(diǎn),并且更新距離矩陣;步驟4-4,重復(fù)步驟4-2至4-3,直到所有概念節(jié)點(diǎn)都已合并到同一個(gè)概念節(jié)點(diǎn)下;步驟4-5,以XML形式輸出最終的概念層次。本發(fā)明方法使用多路凝聚聚類算法生成最終的概念層次,突破了傳統(tǒng)凝聚聚類只能生成二叉樹的限制。
當(dāng)前第1頁(yè)1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
田阳县| 普洱| 长白| 宣化县| 收藏| 教育| 敖汉旗| 广平县| 勃利县| 温宿县| 汶上县| 石景山区| 丰原市| 吉安县| 德钦县| 电白县| 高陵县| 额敏县| 鹤岗市| 莆田市| 安义县| 襄汾县| 冕宁县| 鹤壁市| 塔河县| 武冈市| 敦化市| 扶风县| 涿州市| 广灵县| 龙陵县| 寻甸| 水富县| 随州市| 广河县| 化德县| 永修县| 巴里| 莆田市| 仲巴县| 图们市|