基于網(wǎng)絡(luò)評論的產(chǎn)品質(zhì)量問題發(fā)現(xiàn)及風(fēng)險評估方法
【專利摘要】本發(fā)明提供了一種基于網(wǎng)絡(luò)評論的產(chǎn)品質(zhì)量問題發(fā)現(xiàn)及風(fēng)險評估方法,包括下述步驟:步驟1,數(shù)據(jù)獲?。豪镁W(wǎng)絡(luò)爬蟲,抓取與指定產(chǎn)品相關(guān)的網(wǎng)頁,然后抽取網(wǎng)頁中的評論數(shù)據(jù),并保存到數(shù)據(jù)庫中;步驟2,質(zhì)量特征詞提?。菏紫葘υu論文本進(jìn)行預(yù)處理,然后利用條件隨機(jī)場模型從評論數(shù)據(jù)中提取質(zhì)量特征詞;步驟3,質(zhì)量問題發(fā)現(xiàn)及風(fēng)險評估:基于質(zhì)量問題描述模板統(tǒng)計(jì)產(chǎn)品的質(zhì)量問題,基于風(fēng)險評估算法對產(chǎn)品質(zhì)量的各個方面進(jìn)行風(fēng)險評估。本發(fā)明能快速有效地發(fā)現(xiàn)用戶反映的質(zhì)量問題,并對產(chǎn)品使用過程中的質(zhì)量風(fēng)險進(jìn)行實(shí)時監(jiān)督。
【專利說明】
基于網(wǎng)絡(luò)評論的產(chǎn)品質(zhì)量問題發(fā)現(xiàn)及風(fēng)險評估方法
技術(shù)領(lǐng)域:
[0001] 本發(fā)明屬于產(chǎn)品質(zhì)量管理領(lǐng)域,尤其涉及一種基于網(wǎng)絡(luò)評論的產(chǎn)品質(zhì)量問題發(fā)現(xiàn) 及風(fēng)險評估方法。
【背景技術(shù)】:
[0002] 產(chǎn)品質(zhì)量是企業(yè)的生命,是一個企業(yè)整體素質(zhì)的展示,也是一個企業(yè)綜合實(shí)力的 體現(xiàn)。傳統(tǒng)的質(zhì)量管理方法往往只注重生產(chǎn)過程中的質(zhì)量管理,產(chǎn)品的出廠意味著質(zhì)量管 理的結(jié)束。隨著全面質(zhì)量管理的興起,質(zhì)量管理的范圍擴(kuò)展到了用戶使用階段,企業(yè)致力于 發(fā)現(xiàn)用戶使用過程中的產(chǎn)品質(zhì)量問題,并將這些質(zhì)量問題反饋給設(shè)計(jì)和生產(chǎn)部門,從而改 善廣品質(zhì)量,提尚用戶體驗(yàn)。
[0003] 目前,企業(yè)主要通過售后服務(wù)部門來收集用戶使用過程中的產(chǎn)品質(zhì)量問題。很多 大型制造企業(yè)在全國設(shè)立售后服務(wù)點(diǎn),通過售后服務(wù)點(diǎn)收集用戶在使用過程中遇到的質(zhì)量 問題,并將這些質(zhì)量問題反饋給設(shè)計(jì)和生產(chǎn)部門,為產(chǎn)品的質(zhì)量改進(jìn)提供方向。但是由于資 金、人力、物力等的限制,售后服務(wù)點(diǎn)覆蓋的范圍有限,甚至有的企業(yè)根本就沒有設(shè)立售后 服務(wù)點(diǎn),所以傳統(tǒng)的通過售后服務(wù)部門來收集用戶使用過程中的產(chǎn)品質(zhì)量問題并不能完全 滿足企業(yè)的需求。
[0004] 隨著網(wǎng)絡(luò)的發(fā)展,越來越多的用戶在論壇、電商等網(wǎng)絡(luò)平臺上以評論的方式發(fā)表 自己的對某個產(chǎn)品的評價,這些評論中往往隱含著用戶在使用過程中發(fā)現(xiàn)的產(chǎn)品質(zhì)量問 題。有效利用這些評論,從中挖掘出產(chǎn)品在使用過程中的質(zhì)量問題,彌補(bǔ)了售后服務(wù)部門收 集信息不全的缺點(diǎn)。
【發(fā)明內(nèi)容】
:
[0005] 本發(fā)明的主要目的在于提供一種基于網(wǎng)絡(luò)評論的產(chǎn)品質(zhì)量問題發(fā)現(xiàn)及風(fēng)險評估 方法,是對傳統(tǒng)質(zhì)量管理方法的一種補(bǔ)充。
[0006] -種基于網(wǎng)絡(luò)評論的產(chǎn)品質(zhì)量問題發(fā)現(xiàn)及風(fēng)險評估方法,包括下述步驟:
[0007] 步驟1,數(shù)據(jù)獲取:利用網(wǎng)絡(luò)爬蟲,抓取與指定產(chǎn)品相關(guān)的論壇、電商等網(wǎng)頁,然后 抽取網(wǎng)頁中的評論數(shù)據(jù),并將評論數(shù)據(jù)保存到數(shù)據(jù)庫中;
[0008] 步驟2,質(zhì)量特征詞提取:首先對評論文本進(jìn)行分詞及詞性標(biāo)注、句法分析、情感詞 標(biāo)注三步預(yù)處理,并制定特征模板,然后訓(xùn)練條件隨機(jī)場模型,最后利用條件隨機(jī)場模型從 評論數(shù)據(jù)中提取質(zhì)量特征詞;
[0009] 步驟3,質(zhì)量問題發(fā)現(xiàn)及風(fēng)險評估:首先提出質(zhì)量問題描述模板,并基于該模板統(tǒng) 計(jì)出與每個質(zhì)量特征詞相關(guān)的質(zhì)量問題;然后提出基于質(zhì)量特征詞的風(fēng)險評估算法,利用 風(fēng)險評估算法計(jì)算每個質(zhì)量特征詞的風(fēng)險評估值。
[0010]在上述的基于網(wǎng)絡(luò)評論的產(chǎn)品質(zhì)量問題發(fā)現(xiàn)及風(fēng)險評估方法中,在所述的步驟1 中,抓取與指定產(chǎn)品相關(guān)的論壇、電商等網(wǎng)頁時,計(jì)算產(chǎn)品名與網(wǎng)頁標(biāo)題相似度的公式為:
[0011]
[0012]其中,Z是歸一化因子,Ctk是位置系數(shù),且0 <ak ,Pk是單次相似度,Pk的取值為ο 或1。
[0013] 在上述的基于網(wǎng)絡(luò)評論的產(chǎn)品質(zhì)量問題發(fā)現(xiàn)及風(fēng)險評估方法中,在所述的步驟2 中,使用情感詞詞典進(jìn)行情感詞標(biāo)注。在情感詞詞典中,詞語的情感傾向包括三類:褒義、貶 義、中性,分別用P、N、M表示,對于褒義情感詞和貶義情感詞,情感強(qiáng)度分為1、3、5、7、9五檔, 9表示強(qiáng)度最大,1為強(qiáng)度最小,對于中性情感詞,情感強(qiáng)度均為0。
[0014] 在上述的基于網(wǎng)絡(luò)評論的產(chǎn)品質(zhì)量問題發(fā)現(xiàn)及風(fēng)險評估方法中,在所述的步驟3 中,質(zhì)量問題描述模板主要分為兩類:第一類由質(zhì)量特征詞和情感詞組成,第二類由"不"字 和質(zhì)量特征詞組成。
[0015] 在上述的基于網(wǎng)絡(luò)評論的產(chǎn)品質(zhì)量問題發(fā)現(xiàn)及風(fēng)險評估方法中,在所述的步驟3 中,風(fēng)險評估算法的實(shí)現(xiàn)利用了情感詞詞典和程度副詞詞典。在程度副詞詞典中,詞語按照 情感強(qiáng)度分為四類,分別為:"極其"、"很"、"較"、"稍",對應(yīng)的情感強(qiáng)度值為4、3、2、1。
[0016] 在上述的基于網(wǎng)絡(luò)評論的產(chǎn)品質(zhì)量問題發(fā)現(xiàn)及風(fēng)險評估方法中,在所述的步驟3 中,風(fēng)險評估算法的公式如下:
[0017] V(S)=Vi(S)+V2(S)
[0018] 其中,V1(S)是在滿足第一類質(zhì)量問題描述模板的評論數(shù)據(jù)中,S的風(fēng)險評估值,V2 (S)是在滿足第二類質(zhì)量問題描述模板的評論數(shù)據(jù)中,S的風(fēng)險評估值。
[0019] 在上述的風(fēng)險評估算法的公式中,V1(S)的計(jì)算公式為:
[0020]
[0021] 其中,Vp(S)、Vn(S)、Vm(S)分別表示質(zhì)量特征詞S的褒義風(fēng)險評估值、貶義風(fēng)險評估 值、中性風(fēng)險評估值。a、b、c分別表示修飾特征詞S的褒義情感詞的個數(shù)、貶義情感詞的個 數(shù)、中性情感詞的個數(shù);Score (Psk)表示修飾特征詞S的第k個褒義情感詞的情感強(qiáng)度,Score (PAsk)表示修飾特征詞S的第k個褒義情感詞的程度副詞的情感強(qiáng)度,Sco re(Ns1)表示修飾 特征詞S的第1個貶義情感詞的情感強(qiáng)度;Pi表示修飾特征詞S的第i個中性情感詞所在的那 條評論中的褒義情感詞的個數(shù),^表示修飾特征詞S的第i個中性情感詞所在的那條評論中 的貶義情感詞的個數(shù),Sco re(Pslj)表示修飾特征詞S的第i個中性情感詞所在的那條評論中 的第j個褒義情感詞的情感強(qiáng)度。
[0022] 在上述的風(fēng)險評估算法的公式中,V2(S)的計(jì)算公式為:
[0023]
[0024] 其中,T1表示第i個模板的分值,Num1表示滿足第i個模板的評論數(shù)據(jù)出現(xiàn)的次數(shù)。
[0025] 本發(fā)明能夠自動抓取網(wǎng)絡(luò)上與指定產(chǎn)品相關(guān)的用戶評論數(shù)據(jù),并從中發(fā)現(xiàn)產(chǎn)品的 質(zhì)量問題,進(jìn)而對產(chǎn)品質(zhì)量的各個方面進(jìn)行風(fēng)險評估。利用本發(fā)明的方法,企業(yè)可以更快速 有效地發(fā)現(xiàn)用戶反映的產(chǎn)品質(zhì)量問題,并對產(chǎn)品使用過程中的質(zhì)量風(fēng)險進(jìn)行實(shí)時監(jiān)督。
【附圖說明】:
[0026]圖1是本發(fā)明的流程圖。
[0027]圖2是本發(fā)明的數(shù)據(jù)獲取流程圖。
[0028] 圖3是本發(fā)明的質(zhì)量特征詞提取流程圖。
[0029] 圖4是本發(fā)明的依存關(guān)系分析示例圖。
[0030] 圖5是本發(fā)明的質(zhì)量特征詞提取的訓(xùn)練文本示例。 圖6是本發(fā)明的質(zhì)量特征詞提取的特征模板。
【具體實(shí)施方式】:
[0031]下面結(jié)合具體附圖對本發(fā)明作進(jìn)一步的說明。
[0032] 本發(fā)明以論壇、電商等網(wǎng)絡(luò)平臺上的用戶評論為研究對象,目的是從網(wǎng)絡(luò)評論中 挖掘產(chǎn)品的質(zhì)量問題,并做出質(zhì)量風(fēng)險評估。
[0033] 基于網(wǎng)絡(luò)評論的產(chǎn)品質(zhì)量問題發(fā)現(xiàn)及風(fēng)險評估方法,包括數(shù)據(jù)獲取、質(zhì)量特征詞 提取、質(zhì)量問題發(fā)現(xiàn)及風(fēng)險評估三個步驟,如圖1所示。下面分別對這三個步驟進(jìn)行詳細(xì)的 說明。
[0034] 步驟1,數(shù)據(jù)獲取:利用網(wǎng)絡(luò)爬蟲,抓取與指定產(chǎn)品相關(guān)的論壇、電商等網(wǎng)頁,然后 抽取網(wǎng)頁中的評論數(shù)據(jù),并將評論數(shù)據(jù)保存到數(shù)據(jù)庫中。
[0035] 數(shù)據(jù)獲取的流程如圖2所示。首先,調(diào)用百度搜索接口搜索指定產(chǎn)品,得到指定頁 數(shù)的搜索結(jié)果頁,且每個搜索結(jié)果頁包含13個搜索結(jié)果;然后按照如下步驟處理每個搜索 結(jié)果頁:
[0036]步驟S101:提取第i搜索結(jié)果頁中第j個搜索結(jié)果的標(biāo)題。
[0037] 步驟S102:計(jì)算標(biāo)題相似度:利用公式(1)計(jì)算標(biāo)題和產(chǎn)品名的相似度,相似度用 Sim(標(biāo)題,產(chǎn)品名)表示,并且OS Sim(標(biāo)題,產(chǎn)品名H 1。如果相似度大于等于0.8,則繼續(xù) 下一步,否則,:i加1,返回步驟SlOl。
[0045] 在公式(1)、(2)、(3)和(4)中,m是"產(chǎn)品名"中包含的文字個數(shù),η是"標(biāo)題"中包含 的文字個數(shù),"標(biāo)題(k+1-ir表示標(biāo)題中的第k+1-l個字,"產(chǎn)品名(1)"表示產(chǎn)品名中的第1
[0038] >
[0039]
[0040]
[0041]
[0042]
[0043]
[0044] ⑷ 個字。
[0046] 步驟S103:提取第i搜索結(jié)果頁中第j個搜索結(jié)果的URL。
[0047] 步驟S104:匹配URL:根據(jù)第j個搜索結(jié)果的URL,判斷該搜索結(jié)果是否為論壇或電 商網(wǎng)站,若是,則繼續(xù)下一步,否則,j加1,返回步驟S101。
[0048] 步驟S105:網(wǎng)頁抓取與信息抽取:不同類型的網(wǎng)頁對應(yīng)的抓取與抽取策略是不同 的,所以需要對不同的網(wǎng)站制定不同的抓取與抽取模板,圖2中給出了中關(guān)村、太平洋、天極 網(wǎng)、京東、蘇寧、1號店等模板,模板的個數(shù)不限,可以進(jìn)行擴(kuò)展。
[0049]步驟S106:結(jié)束判斷:當(dāng)?shù)趇搜索結(jié)果頁的全部搜索結(jié)果都處理完后,如果在第i頁 中的13個搜索結(jié)果中,滿足標(biāo)題相似度的搜索結(jié)果個數(shù)大于10,則i+l,j = l,轉(zhuǎn)到SlOl,繼 續(xù)處理下一個搜索結(jié)果頁,否則,數(shù)據(jù)獲取工作結(jié)束。
[0050]步驟2,質(zhì)量特征詞提取:首先對評論文本進(jìn)行分詞及詞性標(biāo)注、句法分析、情感詞 標(biāo)注三步預(yù)處理,并制定特征模板,然后訓(xùn)練條件隨機(jī)場模型,最后利用條件隨機(jī)場模型從 評論數(shù)據(jù)中提取質(zhì)量特征詞。
[0051 ]本發(fā)明提供了從評論數(shù)據(jù)中提取質(zhì)量特征詞的方法,方法流程圖如圖3所示。首先 進(jìn)行分詞及詞性標(biāo)注S201、句法分析S202、情感詞標(biāo)注S203等三步預(yù)處理,得到結(jié)構(gòu)化文本 201;然后采用均勻采樣方法從文本201中取出500條評論的處理結(jié)果,人工將這500條評論 中的所有質(zhì)量特征詞標(biāo)注為"S",得到訓(xùn)練集202;然后以訓(xùn)練集202和特征模板203作為輸 入,利用條件隨機(jī)場算法訓(xùn)練出一個表征了質(zhì)量特征詞與詞語、詞性、依存關(guān)系、支配詞及 支配的情感方向之間統(tǒng)計(jì)關(guān)系的條件隨機(jī)場模型204;然后利用模型204對文本201進(jìn)行質(zhì) 量特征詞的自動標(biāo)注,得到結(jié)果集205;最后從結(jié)果集中提取標(biāo)注為S的詞語,得到質(zhì)量特征 詞集206。
[0052] 下面對S201~S204進(jìn)行詳細(xì)說明:
[0053]步驟S201,分詞及詞性標(biāo)注:質(zhì)量特征詞提取的目的是從評論數(shù)據(jù)中提取出與產(chǎn) 品質(zhì)量相關(guān)的詞語,但是由于漢語在書寫時詞與詞之間不存在空格,計(jì)算機(jī)無法直接進(jìn)行 詞語的識別,所以,要先進(jìn)行分詞處理。分詞的作用是將連續(xù)的一段文本分成一個一個的詞 語,例如,給定一句話"手機(jī)的屏幕很模糊",分詞后的結(jié)果為"手機(jī)的屏幕很模糊"。描述質(zhì) 量問題的詞語在詞性上有一定的統(tǒng)計(jì)規(guī)律,例如:質(zhì)量特征詞大部分都是名詞;副詞是質(zhì)量 特征詞的概率幾乎為零等。所以,在分詞之后,要進(jìn)行詞性標(biāo)注,標(biāo)注出每一個詞語的詞性, 上述例子的標(biāo)注結(jié)果為"手機(jī)/n的/u屏幕/n很/d模糊/a"。
[0054]步驟S202,依存關(guān)系分析:依存關(guān)系分析的理論基礎(chǔ)是依存語法,該語法認(rèn)為句子 中的述語動詞是支配其他成分的中心,而它本身卻不受其他任何成分的支配,所有的受支 配成分都以某種依存關(guān)系從屬于其支配者,依存語法直接描述詞與詞之間的關(guān)系。給定例 子"手機(jī)/n的/u屏幕/n很/d模糊/a",依存關(guān)系分析的結(jié)果如圖4所示。在依存關(guān)系分析的 結(jié)果中,詞與詞之間直接發(fā)生依存關(guān)系,構(gòu)成一個依存對,其中一個是支配詞,另一個叫從 屬詞,依存關(guān)系用一個有向弧表示,叫做依存弧,依存弧的方向?yàn)橛芍湓~指向從屬詞,每 個依存弧上有一個標(biāo)記,叫做關(guān)系類型,表示該依存對中的兩個詞之間存在什么樣的依存 關(guān)系。在本例中,屏幕是質(zhì)量特征詞,從圖4中可以看出,"屏幕"的支配詞為"模糊","屏幕" 與"模糊"之間的依存關(guān)系為"SBV",即主謂關(guān)系。
[0055] 步驟S203,情感詞標(biāo)注:經(jīng)過步驟S201、S202,得到了詞語、詞性、依存關(guān)系、支配詞 等4項(xiàng)內(nèi)容,對于"手機(jī)的屏幕很模糊"這個例子,得到的結(jié)果為圖5中表格的前5列,其中每 一行為一條記錄,每條記錄包括詞語、詞性、依存關(guān)系、支配詞等四個字段。情感詞標(biāo)注的基 礎(chǔ)是情感詞典,在情感詞典中,包含常用的情感詞,如"模糊"、"高"、"好"等。情感標(biāo)注的對 象為支配詞,利用情感詞典,標(biāo)注出支配詞是不是情感詞,是情感詞則標(biāo)記為?',不是情感 詞則標(biāo)記為"N"。情感標(biāo)注后得到了如圖5所示的結(jié)果。
[0056] 步驟S204,基于條件隨機(jī)場模型的質(zhì)量特征詞提取:基于條件隨機(jī)場的質(zhì)量特征 詞提取由兩部分構(gòu)成:訓(xùn)練和處理。在訓(xùn)練階段,首先采用均勻采樣方法從文本201中取出 500條評論的處理結(jié)果,人工將這500條評論中的所有質(zhì)量特征詞標(biāo)注為"S",得到訓(xùn)練集 202;然后考慮詞語、詞性、依存關(guān)系、支配詞及支配的情感方向等五種因素,制定出如圖6所 示的特征模板;然后以訓(xùn)練集202和特征模板203作為輸入,利用條件隨機(jī)場算法訓(xùn)練出一 個表征了質(zhì)量特征詞與詞語、詞性、依存關(guān)系、支配詞及支配的情感方向之間統(tǒng)計(jì)關(guān)系的條 件隨機(jī)場模型204;在處理階段,利用已訓(xùn)練好的模型204對文本201進(jìn)行質(zhì)量特征詞的自動 標(biāo)注,得到結(jié)果集205,然后從結(jié)果集中提取標(biāo)注為S的詞語,得到質(zhì)量特征詞集206。
[0057] 步驟3,質(zhì)量問題發(fā)現(xiàn)及風(fēng)險評估:首先提出質(zhì)量問題描述模板,并基于該模板統(tǒng) 計(jì)出與每個質(zhì)量特征詞相關(guān)的質(zhì)量問題;然后提出基于質(zhì)量特征詞的風(fēng)險評估算法,利用 風(fēng)險評估算法,計(jì)算出每個質(zhì)量特征詞的風(fēng)險評估值。
[0058] 用戶在描述質(zhì)量問題時,由于每個人的語言習(xí)慣不同,對同一個質(zhì)量問題往往多 種描述形式。本發(fā)明在分析了大量評論數(shù)據(jù)的基礎(chǔ)上,抽象出可以涵蓋大部分質(zhì)量問題描 述的模板,質(zhì)量問題描述模板主要分為兩類:第一類由質(zhì)量特征詞和情感詞組成,例如"屏 幕模糊",其中"屏幕"是質(zhì)量特征詞,"模糊"是情感詞;第二類由"不"字和質(zhì)量特征詞組成, 如"讀不了通訊錄",其中含有"不"字,"通訊錄"是質(zhì)量特征詞。質(zhì)量問題描述模板的更詳細(xì) 的分類如表1所不,其中1、2、3為第一類模板,4、5、6為第二類模板。
[0059] 表1:質(zhì)量問題描述模板詳細(xì)分類 L〇〇61 J 卜_介紹一卜風(fēng)險評佶算法。
[0062]風(fēng)險評估算法基于情感詞詞典和程度副詞詞典。本發(fā)明采用的情感詞詞典基于大 連理工的情感詞匯本體,選取了情感詞匯本體中的部分詞語,并另外加入了一些新的網(wǎng)絡(luò) 用語,還對詞語的情感分類重新進(jìn)行了劃分。在本發(fā)明的情感詞詞典中,詞語的情感傾向包 括三類:褒義、貶義、中性,分別用P、N、M表示,對于褒義情感詞和貶義情感詞,情感強(qiáng)度分為 1、3、5、7、9五檔,9表示強(qiáng)度最大,1為強(qiáng)度最小,對于中性情感詞,情感強(qiáng)度均為0。本發(fā)明采 用的程度副詞詞典基于知網(wǎng)的程度級別詞語集,從中選取了部分詞語,并另外加入了一些 常用的程度副詞。本程度副詞詞典將詞語按照情感強(qiáng)度分為四類,分別為:"極其"、"很"、 "較"、"稍",對應(yīng)的情感強(qiáng)度值為4、3、2、1。
[0063] 給定一個質(zhì)量特征詞S,它的風(fēng)險評估值記為V(S),V(S)的計(jì)算公式如下:
[0064] V(S)=Vi(S)+V2(S) (5)
[0065] 其中,V1(S)是在滿足第一類質(zhì)量問題描述模板的評論數(shù)據(jù)中,S的風(fēng)險評估值,它 的計(jì)算方法如下:
[0066] 質(zhì)量特征詞的風(fēng)險評估分為褒義風(fēng)險評估、貶義風(fēng)險評估、中性風(fēng)險評估三類。
[0067] 褒義風(fēng)險評估:在一條評論中,如果符合第一類質(zhì)量描述模板,且修飾該特征詞的 情感詞是褒義的,則要進(jìn)行褒義風(fēng)險評估的計(jì)算。先找出修飾該特征詞的情感詞,然后判斷 是否符合含有程度副詞的模板,若符合,則風(fēng)險評估為:"情感詞的情感強(qiáng)度+程度副詞的情 感強(qiáng)度";若不符合,風(fēng)險評估為:"情感詞的情感強(qiáng)度"。
[0068] 貶義風(fēng)險評估:在一條評論中,如果符合第一類質(zhì)量描述模板,且修飾該特征詞的 情感詞是貶義的,則要進(jìn)行貶義風(fēng)險評估的計(jì)算。先找出修飾該特征詞的情感詞,然后判斷 是否符合含有程度副詞的模板,若符合,則風(fēng)險評估為:"情感詞的情感強(qiáng)度+程度副詞的 情感強(qiáng)度";若不符合,風(fēng)險評估為:"情感詞的情感強(qiáng)度"。
[0069] 中性風(fēng)險評估:在一條評論中,如果符合第一類質(zhì)量描述模板,修飾該特征詞的最 近的情感詞是中性的,則要進(jìn)行中性風(fēng)險評估的計(jì)算。這時,該特征詞的風(fēng)險評估=這條評 論風(fēng)險評估=該條評論的褒義風(fēng)險評估與貶義風(fēng)險評估之差。
[0070] V1 (S)的計(jì)算公式如下:
[0071]
[0072] 其中,Ti是標(biāo)準(zhǔn)化因子:
[0073] Ti = Pi+Ni (7)
[0074] 在公式(6)、(7)中^[5(5)、¥45)、¥[?(5)分別表示質(zhì)量特征詞5的褒義風(fēng)險評估值、 貶義風(fēng)險評估值、中性風(fēng)險評估值。a、b、c分別表示修飾特征詞S的褒義情感詞的個數(shù)、貶義 情感詞的個數(shù)、中性情感詞的個數(shù);Score (Psk)表示修飾特征詞S的第k個褒義情感詞的情感 強(qiáng)度,Score(PAsk)表示修飾特征詞S的第k個褒義情感詞的程度副詞的情感強(qiáng)度,Score (Ns 1)表示修飾特征詞S的第1個貶義情感詞的情感強(qiáng)度;Pi表示修飾特征詞S的第i個中性情 感詞所在的那條評論中的褒義情感詞的個數(shù),^表示修飾特征詞S的第i個中性情感詞所在 的那條評論中的貶義情感詞的個數(shù),Sco re(Pslj)表示修飾特征詞S的第i個中性情感詞所在 的那條評論中的第j個褒義情感詞的情感強(qiáng)度。
[0075] V2(S)是在滿足第二類質(zhì)量問題描述模板的評論數(shù)據(jù)中,S的風(fēng)險評估值。它們的 計(jì)算公式如下:
[0076]
(8)
[0077] 其中,T1表示第i個模板的分值,Num1表示滿足第i個模板的評論數(shù)據(jù)出現(xiàn)的次數(shù),i 的取值范圍為4、5、6,分別對應(yīng)第4、5、6號模板。
[0078]本發(fā)明能夠自動抓取網(wǎng)絡(luò)上與指定產(chǎn)品相關(guān)的用戶評論數(shù)據(jù),并從中發(fā)現(xiàn)產(chǎn)品的 質(zhì)量問題,進(jìn)而對產(chǎn)品質(zhì)量的各個方面進(jìn)行風(fēng)險評估。利用本發(fā)明的方法,企業(yè)可以更快速 有效地發(fā)現(xiàn)用戶反映的產(chǎn)品質(zhì)量問題,并對產(chǎn)品使用過程中的質(zhì)量風(fēng)險進(jìn)行實(shí)時監(jiān)督。
【主權(quán)項(xiàng)】
1. 一種基于網(wǎng)絡(luò)評論的產(chǎn)品質(zhì)量問題發(fā)現(xiàn)及風(fēng)險評估方法,其特征在于,包括: 步驟1,數(shù)據(jù)獲取:利用網(wǎng)絡(luò)爬蟲,抓取與指定產(chǎn)品相關(guān)的論壇、電商等網(wǎng)頁,然后抽取 網(wǎng)頁中的評論數(shù)據(jù),并將評論數(shù)據(jù)保存到數(shù)據(jù)庫中; 步驟2,質(zhì)量特征詞提取:首先對評論文本進(jìn)行分詞及詞性標(biāo)注、句法分析、情感詞標(biāo)注 Ξ步預(yù)處理,并制定特征模板,然后訓(xùn)練條件隨機(jī)場模型,最后利用條件隨機(jī)場模型從評論 數(shù)據(jù)中提取質(zhì)量特征詞; 步驟3,質(zhì)量問題發(fā)現(xiàn)及風(fēng)險評估:首先提出質(zhì)量問題描述模板,并基于該模板統(tǒng)計(jì)出 與每個質(zhì)量特征詞相關(guān)的質(zhì)量問題;然后提出基于質(zhì)量特征詞的風(fēng)險評估算法,利用風(fēng)險 評估算法計(jì)算每個質(zhì)量特征詞的風(fēng)險評估值。2. 如權(quán)利要求1所述的基于網(wǎng)絡(luò)評論的產(chǎn)品質(zhì)量問題發(fā)現(xiàn)及風(fēng)險評估方法,其特征在 于:在步驟1中,抓取與指定產(chǎn)品相關(guān)的論壇、電商等網(wǎng)頁時,計(jì)算產(chǎn)品名與網(wǎng)頁標(biāo)題相似度 的公式為:其中,Z是歸一化因子,Qk是位置系數(shù),且0<ak含l,Pk是單次相似度,Pk的取值為0或1。3. 如權(quán)利要求1所述的基于網(wǎng)絡(luò)評論的產(chǎn)品質(zhì)量問題發(fā)現(xiàn)及風(fēng)險評估方法,其特征在 于:在步驟2中,使用情感詞詞典進(jìn)行情感詞標(biāo)注。4. 如權(quán)利要求3所述的基于網(wǎng)絡(luò)評論的產(chǎn)品質(zhì)量問題發(fā)現(xiàn)及風(fēng)險評估方法,其特征在 于:所述情感詞詞典中,詞語的情感傾向包括Ξ類:褒義、貶義、中性,分別用P、N、M表示,對 于褒義情感詞和貶義情感詞,情感強(qiáng)度分為1、3、5、7、9五檔,9表示強(qiáng)度最大,1為強(qiáng)度最小, 對于中性情感詞,情感強(qiáng)度均為0。5. 如權(quán)利要求1所述的基于網(wǎng)絡(luò)評論的產(chǎn)品質(zhì)量問題發(fā)現(xiàn)及風(fēng)險評估方法,其特征在 于:在步驟3中,質(zhì)量問題描述模板主要分為兩類:第一類由質(zhì)量特征詞和情感詞組成,第二 類由"不"字和質(zhì)量特征詞組成。6. 如權(quán)利要求1所述的基于網(wǎng)絡(luò)評論的產(chǎn)品質(zhì)量問題發(fā)現(xiàn)及風(fēng)險評估方法,其特征在 于:在步驟3中,風(fēng)險評估算法的實(shí)現(xiàn)利用了情感詞詞典和程度副詞詞典。7. 如權(quán)利要求6所述的基于網(wǎng)絡(luò)評論的產(chǎn)品質(zhì)量問題發(fā)現(xiàn)及風(fēng)險評估方法,其特征在 于:所述程度副詞詞典中,詞語按照情感強(qiáng)度分為四類,分別為:"極其"、"很"、"較稍", 對應(yīng)的情感強(qiáng)度值為4、3、2、1。8. 如權(quán)利要求1所述的基于網(wǎng)絡(luò)評論的產(chǎn)品質(zhì)量問題發(fā)現(xiàn)及風(fēng)險評估方法,其特征在 于:在步驟3中,風(fēng)險評估算法的公式為: V(S)=Vi(S)+V2(S) 其中,Vi(S)是在滿足第一類質(zhì)量問題描述模板的評論數(shù)據(jù)中,S的風(fēng)險評估值,V2(S)是 在滿足第二類質(zhì)量問題描述模板的評論數(shù)據(jù)中,S的風(fēng)險評估值。9. 如權(quán)利要求8所述的基于網(wǎng)絡(luò)評論的產(chǎn)品質(zhì)量問題發(fā)現(xiàn)及風(fēng)險評估方法,其特征在 于:所述風(fēng)險評估算法的公式中,Vi(S)的計(jì)算公式為:其中,Vp(S)、Vn(S)、Vm(S)分別表示質(zhì)量特征詞S的褒義風(fēng)險評估值、貶義風(fēng)險評估值、 中性風(fēng)險評估值;a、b、c分別表示修飾特征詞S的褒義情感詞的個數(shù)、貶義情感詞的個數(shù)、中 性情感詞的個數(shù);Score (Psk)表示修飾特征詞S的第k個褒義情感詞的情感強(qiáng)度,Score (PAsk)表示修飾特征詞S的第k個褒義情感詞的程度副詞的情感強(qiáng)度,Score(Nsi)表示修飾 特征詞S的第1個貶義情感詞的情感強(qiáng)度;Pi表示修飾特征詞S的第i個中性情感詞所在的那 條評論中的褒義情感詞的個數(shù),Ni表示修飾特征詞S的第i個中性情感詞所在的那條評論中 的貶義情感詞的個數(shù),Score(Psu)表示修飾特征詞S的第i個中性情感詞所在的那條評論中 的第j個褒義情感詞的情感強(qiáng)度。10.如權(quán)利要求8所述的基于網(wǎng)絡(luò)評論的產(chǎn)品質(zhì)量問題發(fā)現(xiàn)及風(fēng)險評估方法,其特征在 于:所述風(fēng)險評估算法的公式中,V2(S)的計(jì)算公式為:其中,Τι表示第i個模板的分值,Numi表示滿足第i個模板的評論數(shù)據(jù)出現(xiàn)的次數(shù)。
【文檔編號】G06Q30/00GK105844424SQ201610212917
【公開日】2016年8月10日
【申請日】2016年5月30日
【發(fā)明人】徐新勝, 朱凡凡, 林靜
【申請人】中國計(jì)量學(xué)院