述網(wǎng)絡(luò)評論數(shù)據(jù)的特征信息采集方法的一種流程圖;
[0043]圖3為本發(fā)明所述網(wǎng)絡(luò)評論數(shù)據(jù)的特征信息采集裝置的一種組成示意圖;
[0044] 圖4為本發(fā)明所述網(wǎng)絡(luò)評論數(shù)據(jù)的特征信息采集裝置的一種處理示意圖;
[0045]圖5為本發(fā)明所述網(wǎng)絡(luò)評論數(shù)據(jù)的特征信息采集裝置的一種泳道處理示意圖;
[0046] 圖6為本發(fā)明所述挖掘模塊的執(zhí)行流程示意圖。
【具體實(shí)施方式】
[0047] 下面結(jié)合附圖及具體實(shí)施例對本發(fā)明再作進(jìn)一步詳細(xì)的說明。
[0048] 圖2為本發(fā)明所述網(wǎng)絡(luò)評論數(shù)據(jù)的特征信息采集方法的一種流程圖。參見圖2,本 發(fā)明所述的方法包括:
[0049] 步驟201、獲取原始的網(wǎng)絡(luò)評論數(shù)據(jù)。
[0050] 步驟202、包括后續(xù)的初始階段和遍歷階段。
[0051] 所述初始階段包括:遍歷所述網(wǎng)絡(luò)評論數(shù)據(jù)中的每一條評論,針對每條評論,查找 其中的屬性詞和情感詞(解析出其中的關(guān)鍵詞,對關(guān)鍵詞進(jìn)行詞性分類),得到初始階段所 遍歷出的所有屬性詞和情感詞,進(jìn)入后續(xù)遍歷階段;
[0052] 所述遍歷階段包括:遍歷所述網(wǎng)絡(luò)評論數(shù)據(jù)中的每一條評論,針對每條評論,根據(jù) 預(yù)先設(shè)定的窗口距離,針對上一遍歷階段的屬性詞,在該屬性詞的前后窗口距離內(nèi)查找新 的情感詞;針對上一遍歷階段的情感詞,在該情感詞的前后窗口距離內(nèi)查找新的屬性詞; 將本次遍歷出的新的屬性詞和新的情感詞與上一階段的屬性詞和情感詞合并,得到本階段 的屬性詞和情感詞;重復(fù)本遍歷階段,直到遍歷出的新的屬性詞和新的情感詞的數(shù)量少于 指定闊值時(shí)結(jié)束遍歷階段;對所得到的屬性詞和情感詞進(jìn)行配對;
[0053] 步驟203、按照所述屬性詞和情感詞的配對,建立句式庫,對每一句式對應(yīng)設(shè)置一 種特征信息;按照所述句式庫,對原始網(wǎng)絡(luò)評論數(shù)據(jù)的評論進(jìn)行句式匹配分析,得到評論對 應(yīng)句式的特征信息。
[0054] 在一種優(yōu)選實(shí)施例中,該方法進(jìn)一步包括:W指定的維度統(tǒng)計(jì)所述網(wǎng)絡(luò)評論數(shù)據(jù) 的特征信息;獲得所述網(wǎng)絡(luò)評論數(shù)據(jù)中的特征信息的分布,將所述特征信息的分布情況進(jìn) 行可視化處理,輸出至輸出設(shè)備(如顯示器、打印機(jī)、或輸出至文件生成器生成電子文件)。 陽化5] 與上述方法對應(yīng),本發(fā)明還公開了一種網(wǎng)絡(luò)評論數(shù)據(jù)的特征信息采集裝置。圖3 為本發(fā)明所述網(wǎng)絡(luò)評論數(shù)據(jù)的特征信息采集裝置的一種組成示意圖。參見圖3,該裝置包括 數(shù)據(jù)模塊301、挖掘模塊302、分析處理模塊303,其中:
[0056] 數(shù)據(jù)模塊301,獲取原始的網(wǎng)絡(luò)評論數(shù)據(jù);
[0057] 挖掘模塊302,用于執(zhí)行初始階段和遍歷階段處理;其中:
[0058] 所述初始階段包括:遍歷所述網(wǎng)絡(luò)評論數(shù)據(jù)中的每一條評論,針對每條評論,查找 其中的屬性詞和情感詞(解析出其中的關(guān)鍵詞,對關(guān)鍵詞進(jìn)行詞性分類),得到初始階段所 遍歷出的所有屬性詞和情感詞,進(jìn)入后續(xù)遍歷階段;
[0059] 所述遍歷階段包括:遍歷所述網(wǎng)絡(luò)評論數(shù)據(jù)中的每一條評論,針對每條評論,根據(jù) 預(yù)先設(shè)定的窗口距離,針對上一遍歷階段的屬性詞,在該屬性詞的前后窗口距離內(nèi)查找新 的情感詞;針對上一遍歷階段的情感詞,在該情感詞的前后窗口距離內(nèi)查找新的屬性詞; 將本次遍歷出的新的屬性詞和新的情感詞與上一階段的屬性詞和情感詞合并,得到本階段 的屬性詞和情感詞;重復(fù)本遍歷階段,直到遍歷出的新的屬性詞和新的情感詞的數(shù)量少于 指定闊值時(shí)結(jié)束遍歷階段;對所得到的屬性詞和情感詞進(jìn)行配對;
[0060] 分析處理模塊303,用于按照所述屬性詞和情感詞的配對,建立句式庫,對每一句 式對應(yīng)設(shè)置一種特征信息;按照所述句式庫,對原始網(wǎng)絡(luò)評論數(shù)據(jù)的評論進(jìn)行句式匹配分 析,得到評論對應(yīng)句式的特征信息。
[0061] 在一種優(yōu)選實(shí)施例中,所述分析處理模塊進(jìn)一步用于:W指定的維度統(tǒng)計(jì)所述網(wǎng) 絡(luò)評論數(shù)據(jù)的特征信息;獲得所述網(wǎng)絡(luò)評論數(shù)據(jù)中的特征信息的分布;所述網(wǎng)絡(luò)評論數(shù)據(jù) 的特征信息采集裝置進(jìn)一步包括可視化模,如圖4所示,用于將所述分析處理模塊得到的 特征信息的分布情況進(jìn)行可視化處理,輸出至輸出設(shè)備(如顯示器、打印機(jī)、或輸出至文件 生成器生成電子文件)。
[0062] 圖4為本發(fā)明所述網(wǎng)絡(luò)評論數(shù)據(jù)的特征信息采集裝置的一種處理示意圖。圖5為 本發(fā)明所述網(wǎng)絡(luò)評論數(shù)據(jù)的特征信息采集裝置的一種泳道處理示意圖。參見圖4和圖5,所 述數(shù)據(jù)模塊首先獲取原始的網(wǎng)絡(luò)評論數(shù)據(jù),并可W進(jìn)一步對原始的網(wǎng)絡(luò)評論數(shù)據(jù)進(jìn)行清洗 整理,并分詞。獲取原始網(wǎng)絡(luò)評論數(shù)據(jù)的具體方法例如可W通過化ve或者結(jié)構(gòu)化查詢語言 (SQL)查詢語句從現(xiàn)有的數(shù)據(jù)庫中獲取用戶評論文本數(shù)據(jù)。如果是從外部數(shù)據(jù)源獲取網(wǎng)絡(luò) 評論數(shù)據(jù),則可W通過網(wǎng)絡(luò)爬蟲軟件從網(wǎng)絡(luò)上抓取。并可W通過觀察大量的數(shù)據(jù),了解數(shù)據(jù) 后,制定一系列過濾條件,過濾掉無效或不需要的數(shù)據(jù),即對數(shù)據(jù)進(jìn)行清晰整理。并可W進(jìn) 一步對數(shù)據(jù)分詞與詞性標(biāo)注,建立專有詞庫提升分詞與詞性標(biāo)注效果。
[0063] 數(shù)據(jù)模塊獲取原始的網(wǎng)絡(luò)評論數(shù)據(jù)及進(jìn)行相關(guān)的清洗處理后,發(fā)送給挖掘模塊處 理。挖掘模塊首先執(zhí)行所述初始階段的處理,包括遍歷所述網(wǎng)絡(luò)評論數(shù)據(jù)中的每一條評論, 針對每條評論,查找其中的屬性詞和情感詞,得到初始階段所遍歷出的所有屬性詞和情感 詞。其中所述針對每條評論,查找其中的屬性詞和情感詞,的具體方式包括:針對每條評論, 進(jìn)行分詞,然后提取出其中的關(guān)鍵詞,對關(guān)鍵詞進(jìn)行詞性標(biāo)注區(qū)分是屬性詞或是情感詞。更 進(jìn)一步的,所述針對每條評論,提取出其中的關(guān)鍵詞,具體包括:使用TextRank方法,從所 述評論中挖掘提取出其中的關(guān)鍵詞。所述TextRank方法是自然語言處理領(lǐng)域中的關(guān)鍵詞 提取模塊的重要方法,其準(zhǔn)確度和不需要語言模塊的匹配特性讓其在各方面運(yùn)用。 W64] 例如在初始階段,針對某一條評論"運(yùn)部手機(jī)的信號質(zhì)量很差",還那么提取出的 屬性詞可W是"信號",提取出的情感詞可W是"差"。 陽0化]在初始階段后,挖掘模塊進(jìn)入遍歷階段的處理,其中具體包括:遍歷所述網(wǎng)絡(luò)評論 數(shù)據(jù)中的每一條評論,針對每條評論,根據(jù)預(yù)先設(shè)定的窗口距離,針對上一遍歷階段的屬性 詞,在該屬性詞的前后窗口距離內(nèi)查找新的情感詞;針對上一遍歷階段的情感詞,在該情感 詞的前后窗口距離內(nèi)查找新的屬性詞;將本次遍歷出的新的屬性詞和新的情感詞與上一階 段的屬性詞和情感詞合并,得到本階段的屬性詞和情感詞;重復(fù)本遍歷階段,直到遍歷出的 新的屬性詞和新的情感詞的數(shù)量少于指定闊值時(shí)結(jié)束遍歷階段;對所得到的屬性詞和情感 詞進(jìn)行配對。
[0066] 圖6為本發(fā)明所述挖掘模塊的執(zhí)行流程示意圖,參見圖6,所述挖掘模塊的具體執(zhí) 行流程如下:首先針對每條評論,使用TextRank算法,從所述挖掘出每句評論中的關(guān)鍵詞。 關(guān)鍵詞往往比較雜亂,因此使用詞性標(biāo)注,對關(guān)鍵詞分類。屬性詞一般都為名詞,情感詞一 般是形容詞,從而獲得初始階段的屬性詞和情感詞。由于在語義上,情感詞形容屬性詞,所 W在文本中關(guān)聯(lián)性很大,且距離較近,所W本發(fā)明通過設(shè)定窗口距離,開始進(jìn)入遍歷階段, 在初始階段的屬性詞附近找形容詞性的關(guān)鍵詞作為新的候選情感詞。同樣的在初始階段的 情感詞附近找名詞性的關(guān)鍵詞作為新的候選屬性詞。然后過濾合并候選情感詞和初始階段 情感詞作為第二階段的情感詞,同理過濾合并候選屬性詞和初始階段的屬性詞作為第二階 段的屬性詞。反復(fù)迭代所述遍歷階段,至出現(xiàn)較少的新的屬性詞和新的情感詞結(jié)束。然后 進(jìn)行所述屬性詞和情感詞配對,通過貝葉斯方法,過濾聯(lián)合概率低的配對。
[0067]例如針對上述初始階段的屬性詞"信號",在再次遍歷完每一條評論后,其窗口 距離內(nèi)查找的新的情感詞可W是"好"、"不錯(cuò)"、"牛"、"爛"等;針對上述初始階段的情感 詞"差",在再次遍歷完每一條評論后,其窗口距離內(nèi)查找的新的屬性詞可W是"質(zhì)量"、"屏 幕"、"手機(jī)"等。運(yùn)樣的遍歷階段一遍一遍地迭代,得到屬性詞和情感詞的廣度和精度都有 了保障,從而對后期的數(shù)據(jù)處理的廣度和精度提供了良好的數(shù)據(jù)基礎(chǔ)。
[0068] 所述對所得到的屬性詞和情感詞進(jìn)行配對的具體方式包括:
[0069] 步驟51、將所得到的所有屬性詞與所有情感詞進(jìn)行配對,得到一個(gè)配對集合;具 體方式是,遍歷每一個(gè)屬性詞,分別將該屬性詞與所有的情感詞進(jìn)行一一配對,得到配對集 合。
[0070] 步驟52、確定所述每一配對在原始評論數(shù)據(jù)中的出現(xiàn)概率,即通過貝葉斯方法計(jì) 算出每一配對在原始評論數(shù)據(jù)中的聯(lián)合概率,即出現(xiàn)概率。
[0071] 步驟53、將出現(xiàn)概率低于指定值的配對從所述配對集合中刪除掉。
[0072] 之后,所述分析處理模塊會W挖掘模塊獲得的屬性詞