本發(fā)明涉及基于文本挖掘技術的客戶投訴預警監(jiān)測分析方法,所屬領域為電力行業(yè)客戶危機管理領域。
背景技術:
隨著電力體制改革的逐步深化,電力銷售市場競爭加劇,迫切需要供電企業(yè)迅速改變傳統(tǒng)的思維方式和工作模式,進一步樹立市場化服務意識,創(chuàng)新商業(yè)化服務模式,提升定制化、個性化服務水平,贏得客戶的信任,確保市場份額。同時,隨著民眾自主意識和維權意識的不斷提升,供電企業(yè)每一次的電價調整、服務手續(xù)變更甚至故障搶修,都受到了廣大民眾的密切關注。
作為與客戶交流、溝通的重要窗口,95598客戶服務系統(tǒng)記錄了海量的客戶信息。該系統(tǒng)中的數(shù)據(jù)主要分為結構化數(shù)據(jù)和非結構化數(shù)據(jù)。目前,針對系統(tǒng)中的結構化數(shù)據(jù),系統(tǒng)通過對投訴數(shù)量、客戶的滿意度打分或問題處理時效等方面進行統(tǒng)計分析。對于客戶反饋信息非結構化數(shù)據(jù)主要是以人工抽檢梳理為主,不便于及時準確的掌握客戶關注熱點問題;且僅限于從時間、區(qū)域、業(yè)務類型等維度進行統(tǒng)計分析,使得監(jiān)測分析的精細化程度不夠;同時對投訴工單的文本數(shù)據(jù)雖然進行逐一的人工溯源分析,缺乏自動化監(jiān)測分析,且側重于事后追責,無法實現(xiàn)事前預警。
技術實現(xiàn)要素:
本發(fā)明所要解決的技術問題在于克服現(xiàn)有技術不足,提供一種基于文本挖掘技術的投訴預警監(jiān)測方法,能夠針對專業(yè)管理部門及時、準確掌握客戶反饋熱點問題,以及事前預警客戶投訴風險的要求,在客戶反饋信息紛繁復雜、表達方式靈活多樣下實現(xiàn)對客戶投訴風險度的預警,解決了目前人工梳理效率低和事后溯源追責的被動式管理問題,從而保證了對每條工單的投訴風險等級預測,便于及時開展主動服務,提升了客戶滿意度。
為解決上述技術問題,本發(fā)明采用的技術方案是:
一種基于文本挖掘技術的投訴預警監(jiān)測分析方法,包括:
步驟1,文本數(shù)據(jù)規(guī)范化步驟,將錄入的文本數(shù)據(jù)轉成統(tǒng)一規(guī)則的規(guī)范化數(shù)據(jù)模式;
步驟2,規(guī)范化數(shù)據(jù)分析預警步驟,通過建立投訴分析等級聚類模型對規(guī)范化數(shù)據(jù)模式進行分析,根據(jù)聚類結果劃分投訴風險等級,再根據(jù)風險所在等級發(fā)出相應的預警。
采用文本數(shù)據(jù)規(guī)范化步驟將文本數(shù)據(jù)轉化為結構化、標準化的規(guī)范化表達式,便于后期 處理應用;采用規(guī)范化數(shù)據(jù)分析預警步驟實現(xiàn)對客戶投訴風險等級的判定與預警,省去人工梳理和判別,有效提高了工作效率。
作為本發(fā)明的進一步限定方案,文本數(shù)據(jù)規(guī)范化步驟包括:
步驟1.1,文本初始處理步驟,對錄入的文本數(shù)據(jù)進行分詞和去噪處理,獲得各個文本數(shù)據(jù)中的關鍵詞;
步驟1.2,文本特征向量化步驟,將各個關鍵詞進行向量化并作歸一化處理,獲得由各個關鍵詞Wi在文件dj中的向量化歸一化結果建立的實數(shù)值矩陣,關鍵詞Wi在文件dj中的向量化歸一化結果為:
式中:N表示文件總數(shù)量;Ni表示包含關鍵詞Wi的文件數(shù)量;n為關鍵詞總次數(shù);Wi為第i個關鍵詞;dj表示第j個文件;tfij為關鍵詞Wi在文件dj中的詞頻;為所有關鍵詞在文件dj中的詞頻平方和;為文件總數(shù)量與包含關鍵詞Wi文件的數(shù)量比值加上調整項0.01后取對數(shù);
步驟1.3,文本數(shù)據(jù)相似性匹配步驟,根據(jù)建立的實數(shù)值矩陣,利用余弦定理計算各關鍵詞間的余弦相似度,并將余弦距離最近的文本數(shù)據(jù)進行匹配,形成近義詞詞庫;
步驟1.4,規(guī)范化數(shù)據(jù)生成步驟,將匹配好的文本數(shù)據(jù)按照設定的統(tǒng)一規(guī)范化模式生成規(guī)范化數(shù)據(jù)。
作為本發(fā)明的進一步限定方案,規(guī)范化數(shù)據(jù)分析預警步驟包括:
步驟2.1,情感傾向度計算步驟,對規(guī)范化數(shù)據(jù)進行情感判斷并劃分為積極、消極和中心三類;
步驟2.2,投訴風險等級劃分步驟,根據(jù)客戶等級、業(yè)務類型、積極傾向度以及投訴歷史參數(shù)建立投訴分析等級聚類模型,并根據(jù)聚類結果制定投訴風險等級規(guī)則;
步驟2.3,投訴分析預警步驟,根據(jù)制定的投訴風險等級規(guī)則,選擇模型變量參數(shù),利用貝葉斯分類建立分類學習模型,通過對分類學習模型的訓練實現(xiàn)對未知文本數(shù)據(jù)的投訴風險等級的預測。
作為本發(fā)明的進一步限定方案,情感傾向度計算步驟的具體工作步驟為:
(1)建立連詞和否定詞詞典庫;
(2)根據(jù)連詞和否定詞詞典庫從規(guī)范化數(shù)據(jù)中抽取連詞和否定詞,并標記相應詞在規(guī)范化數(shù)據(jù)中的位置;
(3)匹配現(xiàn)有的情感詞典庫,獲得詞匯的極性及其情感評分值;
(4)通過連詞位置,確定前句與后句所占比重,再根據(jù)否定詞位置判斷雙重否定以及鄰近詞匯的極性反轉;
(5)利用詞匯的極性及其情感評分值帶入連詞和否定詞后對規(guī)范化數(shù)據(jù)進行累加獲得情感計算評分;
(6)循環(huán)步驟(2)至(5),若情感計算評分為正則為積極,為負則為消極,否則為中心。
作為本發(fā)明的進一步限定方案,投訴風險等級規(guī)則用于根據(jù)聚類結果將投訴風險等級劃分為高危極、危險級、有投訴傾向級、一般級以及無投訴傾向級這五個風險等級。
作為本發(fā)明的進一步限定方案,在制定投訴風險等級規(guī)則需要對規(guī)則進行驗證,將驗證集數(shù)據(jù)輸入建立的分類學習模型,獲得驗證集數(shù)據(jù)中各文本數(shù)據(jù)的投訴風險等級,并將結果集與驗證集數(shù)據(jù)中對應的等級數(shù)據(jù)進行比對,計算模型預測的正確率。
本發(fā)明的有益效果在于:利用文本挖掘技術,將文本數(shù)據(jù)轉化為結構化、標準化的規(guī)范化表達式;其次對客戶反饋的文本信息進行情感分析,并計算其情感傾向度;最后利用有監(jiān)督的分類學習算法,建立投訴預警監(jiān)測模型,實現(xiàn)對客戶投訴風險等級的判定與預警。
附圖說明
圖1為規(guī)范化表達式建立流程示意圖;
圖2為本發(fā)明提出的投訴風險等級計算流程圖;
圖3為本發(fā)明提出的投訴預警模型建立步驟示意圖;
圖4為本發(fā)明提出的投訴預警模型驗證流程示意圖;
圖5為各區(qū)域工單數(shù)分布圖;
圖6為各等級工單數(shù)據(jù)分布圖。
具體實施方式
下面結合附圖,對本發(fā)明作詳細說明:
本發(fā)明一種基于文本挖掘技術的投訴預警監(jiān)測分析方法,包括文本數(shù)據(jù)規(guī)范化步驟和規(guī)范化數(shù)據(jù)分析預警步驟,其中,文本數(shù)據(jù)規(guī)范化步驟,用于將錄入的文本數(shù)據(jù)轉成統(tǒng)一規(guī)則的規(guī)范化數(shù)據(jù)模式;規(guī)范化數(shù)據(jù)分析預警步驟,用于通過建立投訴分析等級聚類模型對規(guī)范 化數(shù)據(jù)模式進行分析,根據(jù)聚類結果劃分投訴風險等級,根據(jù)風險所在等級發(fā)出相應的預警。
采用文本數(shù)據(jù)規(guī)范化步驟將文本數(shù)據(jù)轉化為結構化、標準化的規(guī)范化表達式,便于后期處理應用;采用規(guī)范化數(shù)據(jù)分析預警步驟實現(xiàn)對客戶投訴風險等級的判定與預警,省去人工梳理和判別,有效提高了工作效率。
文本數(shù)據(jù)規(guī)范化步驟包括文本初始處理步驟、文本特征向量化步驟、文本數(shù)據(jù)相似性匹配步驟以及規(guī)范化數(shù)據(jù)生成步驟。文本數(shù)據(jù)規(guī)范化步驟的具體處理步驟如圖1所示,首先將錄入的文本數(shù)據(jù)(95598工單數(shù)據(jù))進行分詞、去噪處理;接著進行向量化處理成向量矩陣、詞相關矩陣;然后進行關聯(lián)分析生成近義詞詞庫;根據(jù)業(yè)務類型和近義詞詞庫對文本數(shù)據(jù)進行規(guī)范化表達。
其中,文本初始處理步驟,用于對錄入的文本數(shù)據(jù)進行分詞和去噪處理,獲得各個文本數(shù)據(jù)中的關鍵詞;
文本特征向量化步驟,用于將各個關鍵詞進行向量化并作歸一化處理,獲得由各個關鍵詞Wi在文件dj中的向量化歸一化結果建立的實數(shù)值矩陣,關鍵詞Wi在文件dj中的向量化歸一化結果為:
式中:N表示文件總數(shù)量;Ni表示包含關鍵詞Wi的文件數(shù)量;n為關鍵詞總次數(shù);Wi為第i個關鍵詞;dj表示第j個文件;tfij為關鍵詞Wi在文件dj中的詞頻;為所有關鍵詞在文件dj中的詞頻平方和;為文件總數(shù)量與包含關鍵詞Wi文件的數(shù)量比值加上調整項0.01后取對數(shù);
文本數(shù)據(jù)相似性匹配步驟,用于根據(jù)建立的實數(shù)值矩陣,利用余弦定理計算各關鍵詞間的余弦相似度,并將余弦距離最近的文本數(shù)據(jù)進行匹配,形成近義詞詞庫;
規(guī)范化數(shù)據(jù)生成步驟,用于將匹配好的文本數(shù)據(jù)按照設定的統(tǒng)一規(guī)范化模式生成規(guī)范化數(shù)據(jù)。
作為本發(fā)明進一步公開方案,規(guī)范化數(shù)據(jù)分析預警步驟包括:
情感傾向度計算步驟,用于對規(guī)范化數(shù)據(jù)進行情感判斷并劃分為積極、消極和中心三類;
投訴風險等級劃分步驟,用于根據(jù)客戶等級、業(yè)務類型、積極傾向度以及投訴歷史參數(shù)建立投訴分析等級聚類模型,并根據(jù)聚類結果制定投訴風險等級規(guī)則;在制定投訴風險等級 規(guī)則需要對規(guī)則進行驗證,將驗證集數(shù)據(jù)輸入建立的分類學習模型,獲得驗證集數(shù)據(jù)中各文本數(shù)據(jù)的投訴風險等級,并將結果集與驗證集數(shù)據(jù)中對應的等級數(shù)據(jù)進行比對,計算模型預測的正確率;
投訴分析預警步驟,用于根據(jù)制定的投訴風險等級規(guī)則,選擇模型變量參數(shù)(如有無投訴歷史、業(yè)務類型以及客戶等級),利用貝葉斯分類建立分類學習模型,通過對分類學習模型的訓練實現(xiàn)對未知文本數(shù)據(jù)的投訴風險等級的預測。
本發(fā)明基于文本挖掘技術的投訴預警監(jiān)測分析系統(tǒng)實現(xiàn)的具體步驟為:
(一)建立規(guī)范化表達式
1、中文分詞
基于95598工單數(shù)據(jù),建立分詞語料庫和特殊符號表,對預料庫中相鄰共現(xiàn)的各個字的組合的頻度進行統(tǒng)計,計算其相關度。計算公式如下:
其中,M表示預料庫字數(shù),NA表示A在預料庫中出現(xiàn)的次數(shù),NB表示B在預料庫中出現(xiàn)的次數(shù),NAB表示AB在預料庫中一起出現(xiàn)的次數(shù)。
2、文本特征向量化
從95598工單文本內容中選擇出一部分最為有效的特征,使得新特征空間的維度往往遠小于原始空間維度,實現(xiàn)對文本特征向量的進一步凈化,并在保持原文本含義的情況下,計算最能反饋文本內容,又簡潔的特征向量。通過對文本特征項做歸一化處理,減輕了不同長度文本對文本相似度計算結果的影響。計算公式如下:
式中:N表示文件總數(shù)量;Ni表示包含關鍵詞Wi的文件數(shù)量;n為關鍵詞總次數(shù);Wi為第i個關鍵詞;dj表示第j個文件;tfij為關鍵詞Wi在文件dj中的詞頻;為所有關鍵詞在文件dj中的詞頻平方和;為文件總數(shù)量與包含關鍵詞Wi文件的數(shù)量比值加上調整項0.01后取對數(shù)。
3、根據(jù)詞向量轉換后的實數(shù)值矩陣,利用余弦定理,計算各個詞組間的余弦相似度,并將余弦距離最近的詞進行匹配,形成近義詞詞庫。
4、建立規(guī)范化表達式
結合95598系統(tǒng)業(yè)務分類,實現(xiàn)對客戶反饋文本信息的規(guī)范化表示,形如:投訴-超崔人員-態(tài)度。
(二)建立投訴預警監(jiān)測模型
1、計算情感傾向度
(1)基于大連理工大學情感詞典,以95598工單業(yè)務類別為表揚文本作為補充修改,同時建立連詞和否定詞詞典,建立情感訓練庫。
(2)從95598工單中抽取連詞和否定詞,并標記相應詞位置。
(3)匹配情感詞典,確定詞匯極性及其情感評分值,詞匯極性和情感評分值為情感詞典中現(xiàn)有的基本參數(shù)。
(4)通過連詞位置,確定前句與后句所占比重,同時根據(jù)否定詞位置判讀雙重否定,以及鄰進詞匯的極性反轉。
(5)累加工單文本情感計算評分。
(6)循環(huán)步驟(2)至(5),若為正則為積極,為負則為消極,否則為中心。
2、制定投訴風險等級
通過將工單文本數(shù)據(jù)轉換成向量化矩陣,選取客戶等級、積極傾向度、投訴歷史等參數(shù),建立投訴分析等級聚類模型,最終根據(jù)聚類結果,將投訴風險等級劃分為5類,如圖2所示。
3、建立投訴分析預警模型
將數(shù)據(jù)源分為模型訓練集和驗證集,并根據(jù)制定的投訴風險等級規(guī)則,選擇模型變量(如有無投訴歷史、業(yè)務類型、客戶等級等),利用貝葉斯分類建立分類學習模型,通過模型訓練實現(xiàn)對未知工單的投訴風險等級的預測,模型訓練的步驟如圖3所示。
4、模型驗證
如圖4所示,將驗證集數(shù)據(jù)輸入分類學習模型,通過模型預測各工單的投訴風險等級,并將結果集與驗證集中的數(shù)據(jù)進行比對,計算模型預測的正確率。
實施例
收集95598系統(tǒng)南京市8月份工單數(shù)據(jù),共計87359條。包括業(yè)務咨詢、故障報修、建議、意見、投訴、舉報等九類工單的數(shù)據(jù)。其中南京市區(qū)產生工單最多為58151條,其次為江寧區(qū)為13248條,各區(qū)域工單數(shù)分布詳見圖5。
1、8月份主動服務等級工單監(jiān)測分析
通過模型計算,將8月份南京市工單分為五類主動服務等級。其中一級工單為232條,二級工單為208條,由于一級、二級工單的主動服務等級較高,需要進行及時處理,所以以 下重點分析一級、二級工單在各區(qū)域的分布情況以及模型驗證監(jiān)測分析。各等級工單數(shù)據(jù)分布詳情見圖6:
(1)各等級工單在區(qū)域的監(jiān)測分析
根據(jù)模型監(jiān)測結果,南京市區(qū)一級、二級工單數(shù)量最多分別為109條和90條;其次為江寧區(qū)分別為66條和62條;浦口、六合、溧水相對較少,其中浦口分別為20、24條,六合分別為14、14條,溧水區(qū)分別為14、10條;高淳區(qū)最少分別為9、8條。各等級工單在區(qū)域的業(yè)務和數(shù)量分布詳見下表:
(2)一級、二級工單內容分析
根據(jù)模型監(jiān)測結果,各區(qū)域一級工單內容排名最高的為報修-無電,占比分別為江寧約占26%,浦口約占28%,市區(qū)約占22%,六合約占31%,高淳約占26%,溧水約占31%;一級工單內容排名第二的為設備-故障和報修-多戶-無電,其中江寧、浦口和南京市區(qū)排名第二的內容是設備-故障,分別占16%、18%和21%,六合、高淳和溧水排名第二的內容為報修-多戶-無電,分別占18%、19%和25%。二級工單內容在各區(qū)域的占比排名情況與第一等級類似。
2、模型預警監(jiān)測分析
在監(jiān)測周期內,利用主動服務預警模型,共預警一級、二級工單440條(投訴類工單128條,非投訴類工單312條)。經(jīng)過驗證發(fā)現(xiàn),在一級、二級非投訴類工單中有35條最終引起客戶投訴,其中有13條工單(一級工單7條,二級工單6條)直接引起客戶投訴,主要業(yè)務類型是故障報修5條、服務申請3條、業(yè)務咨詢5條;剩余22條(一級工單12條,二級工單10條)工單是通過關聯(lián)最終引起客戶投訴,共9條。在這35條工單中,業(yè)務咨詢占比最高約為54%,其次是故障報修和服務申請,分別約為34%、12%。
通過對模型預警結果的監(jiān)測分析,在實際發(fā)生的128條投訴工單中,有106條是客戶在沒有歷史行為的情況下直接進行投訴。剩余工單是客戶在投訴前有相應的故障報修、業(yè)務咨詢等歷史行為,且全部包含在本次監(jiān)測結果中。驗證了模型對監(jiān)測周期內非投訴類工單后期轉化為投訴工單的捕獲能力。
利用投訴預警模型,及時捕獲投訴風險度較的工單,便于業(yè)務部門及時開展主動服務,從而降低投訴工單數(shù)據(jù),提升客戶的滿意度。