技術(shù)特征:1.一種基于商品評論文檔集的概念層次創(chuàng)建方法,其特征在于,包括如下步驟:步驟1,對初始的文檔集進(jìn)行預(yù)處理,得到文檔矩陣以及關(guān)鍵詞表;步驟2,根據(jù)文檔矩陣以及關(guān)鍵詞表建立主題模型,并將每個主題下相關(guān)度最高的k個名詞作為關(guān)鍵概念;步驟3,對關(guān)鍵概念進(jìn)行語義關(guān)系提取,得到關(guān)鍵概念的距離矩陣;步驟4,根據(jù)距離矩陣進(jìn)行多路凝聚聚類,得到概念層次;其中,所述步驟3中,語義關(guān)系提取的步驟如下:步驟3-1,將全部關(guān)鍵概念組成一個關(guān)鍵概念集合;步驟3-2,遍歷各個句子,若包含關(guān)鍵概念,則將其寫入一個文件中;步驟3-3,對所有關(guān)鍵概念進(jìn)行語義消歧;步驟3-4,對于語義消歧后的每一個關(guān)鍵概念,統(tǒng)計其所有語義ID在初始的文檔集出現(xiàn)次數(shù),將出現(xiàn)次數(shù)最多的語義作為其在初始的文檔集中的語義;步驟3-5,根據(jù)步驟3-4中所得到的語義計算詞典語義距離;步驟3-6,根據(jù)所有關(guān)鍵概念對在初始文檔中出現(xiàn)的相關(guān)性計算其統(tǒng)計語義距離;步驟3-7,將詞典語義距離和統(tǒng)計語義距離進(jìn)行結(jié)合得到語義距離,所有關(guān)鍵概念兩兩之間的語義距離所形成的矩陣作為最終的語義距離矩陣。2.如權(quán)利要求1所述基于商品評論文檔集的概念層次創(chuàng)建方法,其特征在于,對初始的文檔集進(jìn)行預(yù)處理的步驟如下:步驟1-1,從初始的文檔集提取具有評論數(shù)據(jù)的內(nèi)容;步驟1-2,對所提取內(nèi)容進(jìn)行去停用詞和索引處理;步驟1-3,根據(jù)索引中詞的出現(xiàn)頻率對內(nèi)容進(jìn)行過濾,并生成相應(yīng)的文檔矩陣和關(guān)鍵詞表。3.如權(quán)利要求1所述基于商品評論文檔集的概念層次創(chuàng)建方法,其特征在于,步驟2中,主題模型的建立方法為:步驟2-1,從文檔矩陣中得到主題-詞矩陣;步驟2-2,由關(guān)鍵詞表得到關(guān)鍵名詞鏈表,主題-詞矩陣及關(guān)鍵名詞鏈表構(gòu)成主題模型。4.如權(quán)利要求3所述基于商品評論文檔集的概念層次創(chuàng)建方法,其特征在于,步驟2-1中,得到主題-詞矩陣的步驟如下:步驟2-11,讀取文檔矩陣,并通過預(yù)設(shè)的參數(shù)得到初始的主題模型,并從初始的主題模型得到抽樣的文檔集,其中預(yù)設(shè)的參數(shù)為文檔-主題分布的分布參數(shù)以及主題-詞分布的分布參數(shù);步驟2-12,根據(jù)抽樣的文檔集與文檔矩陣的分布差異來對主題模型進(jìn)行調(diào)整;步驟2-13,將步驟2-12重復(fù)8000至12000次,從所得的主題模型得到主題-詞分布矩陣,將每個主題下的詞按出現(xiàn)概率大小進(jìn)行排序,從而得到主題-詞矩陣。5.如權(quán)利要求3所述基于商品評論文檔集的概念層次創(chuàng)建方法,其特征在于,步驟2-2中,得到關(guān)鍵名詞鏈表的步驟如下:步驟2-21,讀取關(guān)鍵詞表,并建立一個初始的關(guān)鍵名詞鏈表,由關(guān)鍵詞表向該關(guān)鍵名詞鏈表輸入所有關(guān)鍵詞,并去除重復(fù)的關(guān)鍵詞;步驟2-22,對于每個關(guān)鍵詞,判定所述關(guān)鍵詞在各個句子中的詞性,統(tǒng)計各個詞性出現(xiàn)的概率,選擇出現(xiàn)概率最大的詞性作為該詞在整個文檔集中的詞性;步驟2-23,將所有名詞詞性的關(guān)鍵詞作為關(guān)鍵概念儲存于關(guān)鍵名詞鏈表中。6.如權(quán)利要求1所述基于商品評論文檔集的概念層次創(chuàng)建方法,其特征在于,步驟3-3中,對各個關(guān)鍵概念的語義消歧方法如下:步驟a),讀取該關(guān)鍵概念在同義詞詞林的所有語義ID;步驟b),根據(jù)語義ID在同義詞詞林中的頂級分類進(jìn)行過濾;步驟c),獲取所有語義ID的同義詞集;步驟d),統(tǒng)計各個同義詞在初始的文檔集中出現(xiàn)的次數(shù),選擇出現(xiàn)次數(shù)最多的語義ID作為該關(guān)鍵概念的語義ID。7.如權(quán)利要求1所述基于商品評論文檔集的概念層次創(chuàng)建方法,其特征在于,步驟3-7中,將關(guān)鍵概念的詞典語義距離和統(tǒng)計語義距離進(jìn)行結(jié)合的公式為:其中c1和c2為關(guān)鍵概念,T為語義詞典中包含c1和c2的概念樹,SSD(c1,c2,T)為歸一化后的詞典語義距離,CD(c1,c2)為歸一化后的統(tǒng)計語義距離。8.如權(quán)利要求1所述基于商品評論文檔集的概念層次創(chuàng)建方法,其特征在于,步驟4中,多路凝聚聚類的方法為:步驟4-1,輸入所有的關(guān)鍵概念的語義距離矩陣,每個關(guān)鍵概念作為一個概念節(jié)點;步驟4-2,從語義距離矩陣中選取語義距離最小的兩個概念節(jié)點,根據(jù)兩個概念節(jié)點之間距離大小將兩個概念節(jié)點合并成新的概念節(jié)點;步驟4-3,從關(guān)鍵概念集合中刪除掉已合并的概念節(jié)點,加入合并后的概念節(jié)點,并且更新語義距離矩陣;步驟4-4,重復(fù)步驟4-2至4-3直到所有概念節(jié)點都已合并到同一個概念節(jié)點下,得到最終概念層次;步驟4-5,以XML形式輸出最終的概念層次。