海量文本中低占比信息識別方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及大數(shù)據(jù)處理方法,尤其涉及一種在待識別信息占比很低的海量信息中 進行信息識別的方法及裝置。
【背景技術(shù)】
[0002] 隨著互聯(lián)網(wǎng)的不斷發(fā)展,互聯(lián)網(wǎng)輿論(博客,論壇,微博、微信公眾號等)已經(jīng)取代 平面媒體,成為輿論的重要來源。針對互聯(lián)網(wǎng)的輿論分析對企業(yè)有重要作用,例如,在新產(chǎn) 品的營銷方面,通過收集互聯(lián)網(wǎng)上的情感信息并進行分析,企業(yè)可以進行更全面的客戶體 驗管理和公司反饋管理,了解群眾的需求,為公司更好地完善自己的產(chǎn)品,制定更符合用戶 的生產(chǎn)策略提供幫助,為用戶提供更好的服務(wù);而對于政府、央企等大型機構(gòu)而言,互聯(lián)網(wǎng) 輿論越來越對自身的品牌形象有重大影響,需要針對性地監(jiān)測、引導(dǎo),避免有不利于自身的 不實輿論得到廣泛傳播,這就帶來了對互聯(lián)網(wǎng)負面言論監(jiān)測的廣泛需求,特別是針對負面 輿情的識別是監(jiān)測。
[0003] -個完整的互聯(lián)網(wǎng)負面輿情監(jiān)測系統(tǒng),涉及到互聯(lián)網(wǎng)信息采集、相關(guān)性判斷、負面 傾向性分析、可視化展示等過程:
[0004] 1.互聯(lián)網(wǎng)信息采集。通過網(wǎng)絡(luò)爬蟲,從指定的新聞門戶、論壇、博客、微博等站點抓 取最新的互聯(lián)網(wǎng)輿情信息。
[0005] 2.相關(guān)性判斷。對采集到的輿情進行相關(guān)性判斷(是否與目標組織有關(guān),比如:是 否有"XX企業(yè)"有關(guān)),將不相關(guān)的信息進行丟棄處理。
[0006] 3.負面傾向性分析。對目標組織相關(guān)的互聯(lián)網(wǎng)輿情,進行傾向性判斷。傾向性包括 正面、中立和負面,其中,有價值的是負面。
[0007] 4.可視化展示。將監(jiān)測到的負面輿情以表格、圖文、報表等方式進行統(tǒng)計展示,供 輿情監(jiān)測工作人員使用。
[0008] 然而,在實踐過程中,我們發(fā)現(xiàn)將目前機器學習領(lǐng)域文本分析的成熟算法直接用 于互聯(lián)網(wǎng)負面輿情的識別的效果并不好,主要是因為互聯(lián)網(wǎng)負面輿情在所有輿情中的占比 很小,導(dǎo)致傳統(tǒng)機器學習算法難以準確識別,即:分析過程的"欠擬合"現(xiàn)象。
[0009] 例如圖1所示,根據(jù)我們運營的某大型央企輿情監(jiān)測系統(tǒng)統(tǒng)計顯示,每年采集約 1000萬條相關(guān)輿情信息,其中負面輿情每年不超過5萬條,占比小于0.5 %。而如上文所述, 傳統(tǒng)的機器學習算法采用的是模式相關(guān)性判斷方法,即將"待分析輿情"與"正面或中立輿 情模式"以及"負面輿情模式"二者進行相關(guān)性判斷,其是否被判斷為負面輿情,取決于與 "負面輿情的模式"相關(guān)性是否比較高。在"正面或中立輿情"文章占絕大多數(shù)比例情況下, 少量的負面輿情經(jīng)常難以被識別出來,通常稱這種現(xiàn)象為"欠擬合"。
[0010] 綜上所述,在互聯(lián)網(wǎng)輿情信息的負面傾向性判斷過程中,現(xiàn)有的方案存在"需要維 護詞典,且由于詞典更新無法滿足時效而導(dǎo)致誤判和漏判"以及"負面輿情占比小,傳統(tǒng)機 器學習算法直接應(yīng)用容易產(chǎn)生過擬合"等缺陷,不能很好解決負面輿情的傾向性判斷問題。 本專利提出一種利用基于傳統(tǒng)機器學習算法的綜合優(yōu)化思路,能夠解決上述問題,從而能 夠有效地用于輿情情感傾向性分析中。
【發(fā)明內(nèi)容】
[0011]為此,需要提供一種大數(shù)據(jù)中識別少量待識別信息的方法。
[0012]為實現(xiàn)上述目的,發(fā)明人提供了一種海量文本中低占比信息識別方法,包括如下 步驟,將素材信息分為訓練信息和測試信息,將所述素材信息通過特征選擇、向量化處理轉(zhuǎn) 化成可分析的數(shù)學矩陣,代入集成學習模型進行模型訓練;
[0013]所述模型訓練包括步驟,根據(jù)訓練信息構(gòu)建第一分析模型;
[0014] 將測試信息代入分析模型,對所述第一分析模型的運行效果進行評估,得到評估 值,根據(jù)評估值調(diào)整第一分析模型中各算法的訓練信息分配權(quán)重得到新的分析模型;
[0015] 將測試信息代入分析模型,對新的分析模型的運行效果進行評估,得到新的評估 值,若所述新的評估值未收斂,則根據(jù)新的評估值再次調(diào)整新的分析模型中各算法的訓練 信息分配權(quán)重得到新的分析模型,再次進行評估判斷;若新的評估值收斂,中止判斷,新的 分析模型作為優(yōu)選分析模型;
[0016] 將優(yōu)選模型部署應(yīng)用,對目標信息進行識別分析。
[0017] 優(yōu)選地,將素材信息分為訓練信息和測試信息后還包括步驟,將待識別素材額外 添加到測試信息中。
[0018] 具體地,所述目標信息或素材信息包括噪音素材和待識別素材,在目標信息中,噪 音素材與待識別素材的比值大于50。
[0019] 具體地,所述第一分析模型包括SVM、kNN、multinomial_nb、Bernoulli_nb、 NearestCentro id、Ridge算法中的至少兩種。
[0020] 一種海量文本中低占比信息識別裝置,包括素材處理模塊、模型構(gòu)建模塊、評估判 斷模塊、模型應(yīng)用模塊,
[0021] 所述素材處理模塊用于將素材信息分為訓練信息和測試信息,將所述素材信息通 過特征選擇、向量化處理轉(zhuǎn)化成可分析的數(shù)學矩陣,代入集成學習模型進行模型訓練;
[0022] 所述模型構(gòu)建模塊用于根據(jù)訓練信息構(gòu)建第一分析模型;
[0023] 所述評估判斷模塊用于將測試信息代入分析模型,對所述第一分析模型的運行效 果進行評估,得到評估值,所述模型構(gòu)建模塊還用于根據(jù)評估值調(diào)整第一分析模型中各算 法的訓練信息分配權(quán)重得到新的分析模型;
[0024] 所述評估判斷模塊還用于將測試信息代入分析模型,對新的分析模型的運行效果 進行評估,得到新的評估值;
[0025] 所述模型構(gòu)建模塊還用于在新的評估值未收斂時,則根據(jù)新的評估值再次調(diào)整新 的分析模型中各算法的訓練信息分配權(quán)重得到新的分析模型,使能評估判斷模塊再次進 行評估判斷;還用于在新的評估值收斂時,將新的分析模型作為優(yōu)選分析模型;
[0026] 所述模型應(yīng)用模塊用于將優(yōu)選模型部署應(yīng)用,對目標信息進行識別分析。
[0027]優(yōu)選地,所述素材處理模塊還用于將待識別素材額外添加到測試信息中。
[0028] 具體地,所述目標信息或素材信息包括噪音素材和待識別素材,在目標信息中,噪 音素材與待識別素材的比值大于50。
[0029] 具體地,所述第一分析模型包括SVM、kNN、multinomial_nb、Bernoulli_nb、 NearestCentro id、Ridge算法中的至少兩種。
[0030]其中,所述文本包括文字、圖片、網(wǎng)頁等多種格式實例,都適用本方法所闡述的方 案。區(qū)別于現(xiàn)有技術(shù),上述技術(shù)方案通過兩方面優(yōu)化改進,分別是采用集成分析方法替代單 個分析算法,以及針對模型訓練采用的"過采樣"技術(shù),能夠很好地減小分析過程的誤判率 和漏判率,使得互聯(lián)網(wǎng)負面輿情自動分析效果得到很大提升。
【附圖說明】
[0031 ]圖1為本發(fā)明【背景技術(shù)】所述的互聯(lián)網(wǎng)輿情示意圖;
[0032]圖2為本發(fā)明【具體實施方式】所述的負面輿情分析流程圖;
[0033]圖3為本發(fā)明【具體實施方式】所述的改進負面輿情分析流程圖;
[0034] 圖4為本發(fā)明【具體實施方式】所述的低占比信息識別方法流程圖;
[0035] 圖5為本發(fā)明【具體實施方式】所述的低占比信息識別裝置模塊圖; 圖6為本發(fā)明【具體實施方式】所述的互聯(lián)網(wǎng)負面輿情分析的系統(tǒng)。
[0036] 附圖標記說明:
[0037] 500、素材處理模塊;
[0038] 5〇2、模型構(gòu)建模塊;
[0039] 504、評估判斷模塊;
[0040] 506、模型應(yīng)用模塊。
【具體實施方式】
[0041]為詳細說明技術(shù)方案的技術(shù)內(nèi)容、構(gòu)造特征、所實現(xiàn)目的及效果,以下結(jié)合具體實 施例并配合附圖詳予說明。
[0042]這里請先看圖2,在圖2所示的某些實施例中,是一種應(yīng)用機器學習進行輿情負面 分析的基本流程,其中,所述輿情為輿論情報的示意,包括文字、圖片、網(wǎng)頁等多種格式實 例。
[0043] 流程說明如下:
[0044] 1)數(shù)據(jù)準備:從歷史互聯(lián)網(wǎng)輿情數(shù)據(jù)中,通過人工標注,形成"正面與中立"輿情數(shù) 據(jù)集,以及"負面輿情"數(shù)據(jù)集。
[0045] 2)文本特征化:這里可以結(jié)合圖4,為一種低占比信息識別方法流程示意圖,該步 驟相當于步驟S400,將素材信息進行處理:將所有輿情文本進行中文分詞、特征選擇以及向 量化處