欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

網(wǎng)絡(luò)評論數(shù)據(jù)的特征信息采集方法和裝置的制造方法

文檔序號:9432668閱讀:396來源:國知局
網(wǎng)絡(luò)評論數(shù)據(jù)的特征信息采集方法和裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本申請設(shè)及網(wǎng)絡(luò)數(shù)據(jù)處理領(lǐng)域,尤其設(shè)及一種網(wǎng)絡(luò)評論數(shù)據(jù)的特征信息采集方法 和裝置。
【背景技術(shù)】
[0002] 目前,隨著互聯(lián)網(wǎng)不斷的普及,網(wǎng)絡(luò)用戶不斷的增多,網(wǎng)民的評論觀點越來越受到 重視。小到對某件商品的評價,大到對國際形勢的評論,或多或少都體現(xiàn)出一個網(wǎng)民自己的 觀點。而大量的觀點匯聚起來,形成了輿情導向。若能準確快速的獲得輿情,對個人、企業(yè)、 公司,甚至是國家都有重要的意義。比如正火爆發(fā)展的020業(yè)務(wù),連接線上線下,分析用戶 評論,使得線下公司可W及時獲得用戶反饋信息。而指數(shù)爆炸的網(wǎng)絡(luò)信息,從根本上無法使 用人工來分析評論觀點,所W需要使用自動挖掘分析評論特征信息的方案。
[0003] 現(xiàn)有技術(shù)中,對于如何自動挖掘分析評論觀點的特征信息方案,通常為關(guān)聯(lián)規(guī)則 法。
[0004] 所述關(guān)聯(lián)規(guī)則法,通常有Apriori方法和FP-growth方法。 陽0化](l)Apriori方法是經(jīng)典的挖掘布爾關(guān)聯(lián)規(guī)則頻繁項集的方法。圖1為現(xiàn)有技術(shù) 中Apriori方法的流程示意圖;參見圖1,Apriori方法的核屯、技術(shù)方案是通過設(shè)定最小支 持度劃定界線,大于等于最小支持度的項集設(shè)定為頻繁項集。然后頻繁項集之間結(jié)合,產(chǎn)生 滿足最小支持度和最小可信度的強關(guān)聯(lián)規(guī)則。對W上得到的強關(guān)聯(lián)規(guī)則,作為初始的頻繁 項集,繼續(xù)結(jié)合獲得更大的頻繁項集。W此類推至不能再次獲得更大的頻繁項集為止。滿 足最小支持度和最小可信度的頻繁項集就是最后挖掘出來的關(guān)聯(lián)結(jié)果信息。比如如下表1 購物車數(shù)據(jù)挖掘出來關(guān)聯(lián)結(jié)果是啤酒和尿布,即客戶購買啤酒時常常會購買尿布。顯然運 種現(xiàn)有技術(shù)的方法用在挖掘分析評論中,可W挖掘出客戶類似"質(zhì)量-好,屏幕-清晰",運 種評論觀點的特征信息。
[0006]
[0007] 表 1
[0008] (2)FP-growth方法使用了數(shù)據(jù)結(jié)構(gòu)-前綴樹來挖掘關(guān)聯(lián)規(guī)則,速度比較快,內(nèi)存 消耗比較少,也是一種很優(yōu)秀的關(guān)聯(lián)挖掘算法。
[0009] 但是,現(xiàn)有技術(shù)存在W下缺點:
[0010] 對于希望采集(或者也稱之為挖掘)出結(jié)果項集較大的關(guān)聯(lián)效果比較好。所述結(jié) 果項集較大即結(jié)果有兩項W上,如"面包,牛奶,尿布,可樂"有四項。而對于評論中只挖掘 兩項,如"屬性-情感詞"運種數(shù)據(jù)的特征信息來說,其準確性的效果退化,采集出來的特征 信息不夠準確。
[0011] 在互聯(lián)網(wǎng)快速發(fā)展的信息化時代,評論文本數(shù)W億計。業(yè)界亟需一種準確的自動 挖掘分析評論數(shù)據(jù)的技術(shù)方案,來采集客戶、群眾的評論數(shù)據(jù)的特征信息,反饋給公司企 業(yè),優(yōu)化產(chǎn)品,提高產(chǎn)品和服務(wù)質(zhì)量滿可W來分析網(wǎng)民的輿情導向。

【發(fā)明內(nèi)容】

[0012] 有鑒于此,本發(fā)明的主要目的是提供一種網(wǎng)絡(luò)評論數(shù)據(jù)的特征信息采集方法和裝 置,W提高從評論數(shù)據(jù)采集出的特征信息的準確性。
[0013] 本發(fā)明的技術(shù)方案是運樣實現(xiàn)的:
[0014] 一種網(wǎng)絡(luò)評論數(shù)據(jù)的特征信息采集方法,包括:
[0015] 獲取原始的網(wǎng)絡(luò)評論數(shù)據(jù);
[0016] 初始階段,包括:遍歷所述網(wǎng)絡(luò)評論數(shù)據(jù)中的每一條評論,針對每條評論,查找 其中的屬性詞和情感詞,得到初始階段所遍歷出的所有屬性詞和情感詞,進入后續(xù)遍歷階 段;
[0017] 遍歷階段,包括:遍歷所述網(wǎng)絡(luò)評論數(shù)據(jù)中的每一條評論,針對每條評論,根據(jù)預 先設(shè)定的窗口距離,針對上一遍歷階段的屬性詞,在該屬性詞的前后窗口距離內(nèi)查找新的 情感詞;針對上一遍歷階段的情感詞,在該情感詞的前后窗口距離內(nèi)查找新的屬性詞;將 本次遍歷出的新的屬性詞和新的情感詞與上一階段的屬性詞和情感詞合并,得到本階段的 屬性詞和情感詞;重復本遍歷階段,直到遍歷出的新的屬性詞和新的情感詞的數(shù)量少于指 定闊值時結(jié)束遍歷階段;對所得到的屬性詞和情感詞進行配對;
[0018] 按照所述屬性詞和情感詞的配對,建立句式庫,對每一句式對應(yīng)設(shè)置一種特征信 息;按照所述句式庫,對原始網(wǎng)絡(luò)評論數(shù)據(jù)的評論進行句式匹配分析,得到評論對應(yīng)句式的 特征信息。
[0019] 在一種優(yōu)選實施例中,該方法進一步包括指定的維度統(tǒng)計所述網(wǎng)絡(luò)評論數(shù)據(jù) 的特征信息;獲得所述網(wǎng)絡(luò)評論數(shù)據(jù)中的特征信息的分布,將所述特征信息的分布情況進 行可視化處理,輸出至輸出設(shè)備。
[0020] 在一種優(yōu)選實施例中,所述針對每條評論,查找其中的屬性詞和情感詞,具體包 括:針對每條評論,進行分詞,然后提取出其中的關(guān)鍵詞,對關(guān)鍵詞進行詞性標注區(qū)分是屬 性詞或是情感詞。
[0021] 在一種優(yōu)選實施例中,所述針對每條評論,提取出其中的關(guān)鍵詞,具體包括:使用 TextRank方法,從所述評論中挖掘提取出其中的關(guān)鍵詞。
[0022] 在一種優(yōu)選實施例中,所述對所得到的屬性詞和情感詞進行配對,具體包括:
[0023] 將所得到的所有屬性詞與所有情感詞進行配對;
[0024] 確定所述每一配對在原始評論數(shù)據(jù)中的出現(xiàn)概率;
[0025] 將出現(xiàn)概率低于指定值的配對刪除掉。
[0026] 一種網(wǎng)絡(luò)評論數(shù)據(jù)的特征信息采集裝置,包括:
[0027] 數(shù)據(jù)模塊,獲取原始的網(wǎng)絡(luò)評論數(shù)據(jù);
[0028] 挖掘模塊,用于執(zhí)行初始階段和遍歷階段處理;其中:
[0029] 所述初始階段包括:遍歷所述網(wǎng)絡(luò)評論數(shù)據(jù)中的每一條評論,針對每條評論,查找 其中的屬性詞和情感詞,得到初始階段所遍歷出的所有屬性詞和情感詞,進入后續(xù)遍歷階 段;
[0030] 所述遍歷階段包括:遍歷所述網(wǎng)絡(luò)評論數(shù)據(jù)中的每一條評論,針對每條評論,根據(jù) 預先設(shè)定的窗口距離,針對上一遍歷階段的屬性詞,在該屬性詞的前后窗口距離內(nèi)查找新 的情感詞;針對上一遍歷階段的情感詞,在該情感詞的前后窗口距離內(nèi)查找新的屬性詞; 將本次遍歷出的新的屬性詞和新的情感詞與上一階段的屬性詞和情感詞合并,得到本階段 的屬性詞和情感詞;重復本遍歷階段,直到遍歷出的新的屬性詞和新的情感詞的數(shù)量少于 指定闊值時結(jié)束遍歷階段;對所得到的屬性詞和情感詞進行配對;
[0031] 分析處理模塊,用于按照所述屬性詞和情感詞的配對,建立句式庫,對每一句式對 應(yīng)設(shè)置一種特征信息;按照所述句式庫,對原始網(wǎng)絡(luò)評論數(shù)據(jù)的評論進行句式匹配分析,得 到評論對應(yīng)句式的特征信息。
[0032] 在一種優(yōu)選實施例中,所述分析處理模塊進一步用于:W指定的維度統(tǒng)計所述網(wǎng) 絡(luò)評論數(shù)據(jù)的特征信息;獲得所述網(wǎng)絡(luò)評論數(shù)據(jù)中的特征信息的分布;
[0033] 所述裝置進一步包括可視化模塊,用于將所述特征信息的分布情況進行可視化處 理,輸出至輸出設(shè)備。
[0034] 在一種優(yōu)選實施例中,所述挖掘模塊具體用于:針對每條評論,進行分詞,然后提 取出其中的關(guān)鍵詞,對關(guān)鍵詞進行詞性標注區(qū)分是屬性詞或是情感詞。
[0035] 在一種優(yōu)選實施例中,所述挖掘模塊具體使用TextRank方式從所述評論中挖掘 提取出其中的關(guān)鍵詞。
[0036] 在一種優(yōu)選實施例中,所述挖掘模塊對所得到的屬性詞和情感詞進行配對,具體 為:
[0037] 將所得到的所有屬性詞與所有情感詞進行配對;
[0038] 確定所述每一配對在原始評論數(shù)據(jù)中的出現(xiàn)概率;
[0039] 將出現(xiàn)概率低于指定值的配對刪除掉。
[0040] 與現(xiàn)有技術(shù)相比,本發(fā)明在獲取原始的網(wǎng)絡(luò)評論數(shù)據(jù)后,通過初始階段的遍歷得 到初始的屬性詞和情感詞,然后進入迭代的遍歷階段,針對每條評論,根據(jù)預先設(shè)定的窗口 距離,針對上一遍歷階段的屬性詞,在該屬性詞的前后窗口距離內(nèi)查找新的情感詞;針對 上一遍歷階段的情感詞,在該情感詞的前后窗口距離內(nèi)查找新的屬性詞;將本次遍歷出的 新的屬性詞和新的情感詞與上一階段的屬性詞和情感詞合并,得到本階段的屬性詞和情感 詞;重復本遍歷階段,直到遍歷出的新的屬性詞和新的情感詞的數(shù)量少于指定闊值時結(jié)束 遍歷階段;對所得到的屬性詞和情感詞進行配對;然后按照所述屬性詞和情感詞的配對, 建立句式庫,對每一句式對應(yīng)設(shè)置一種特征信息;按照所述句式庫,對原始網(wǎng)絡(luò)評論數(shù)據(jù)的 評論進行句式匹配分析,得到評論對應(yīng)句式的特征信息。本發(fā)明通過所述迭代遍歷,提高了 詞庫的豐富性和準確性,進而對后期的數(shù)據(jù)處理的廣度和精度提供了良好的數(shù)據(jù)基礎(chǔ),從 而最終提高從評論數(shù)據(jù)采集出的特征信息的準確性。
【附圖說明】 陽041] 圖1為現(xiàn)有技術(shù)中Apriori方法的流程示意圖;
[0042] 圖2為本發(fā)明所
當前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
原平市| 永丰县| 城口县| 且末县| 道真| 远安县| 宁蒗| 旅游| 龙南县| 保德县| 喀喇沁旗| 镇江市| 新密市| 吉木乃县| 察哈| 太白县| 鹤峰县| 建瓯市| 葵青区| 陆河县| 垣曲县| 阳春市| 福泉市| 莲花县| 平山县| 盈江县| 乌拉特后旗| 乌兰县| 买车| 屯留县| 图木舒克市| 丰镇市| 通化县| 乌拉特中旗| 辽宁省| 虞城县| 保山市| 冀州市| 兴宁市| 平谷区| 新沂市|