欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

海量文本中低占比信息識(shí)別方法及裝置的制造方法_2

文檔序號(hào):9887750閱讀:來源:國(guó)知局
理(均采用成熟技術(shù)),將所有輿情文本轉(zhuǎn)變成可分析的數(shù)學(xué)矩陣;而后,將數(shù)據(jù)拆分 成"訓(xùn)練集"(占80%)和"測(cè)試集"(占20%)兩份數(shù)據(jù)集,前者用于訓(xùn)練模型,后者用于測(cè)試 模型的效果。
[0046] 3)模型訓(xùn)練及模型評(píng)估:每一次選擇一種成熟的機(jī)器學(xué)習(xí)算法(如SVM、Native-BayeS、Ridge等),基于訓(xùn)練集數(shù)據(jù),"訓(xùn)練"對(duì)應(yīng)的模型(比如SVM模型);而后,將訓(xùn)練出的各 模型利用測(cè)試集進(jìn)行評(píng)估,從而獲得各模型的效果指標(biāo)(通常用正確率、召回率兩個(gè)指標(biāo)進(jìn) 行評(píng)估)。
[0047] 4)部署應(yīng)用。將模型評(píng)估步驟中表現(xiàn)最好的模型,部署到生產(chǎn)環(huán)境中,用于對(duì)新的 輿情數(shù)據(jù)進(jìn)行情感分析。
[0048] 在圖3所示的進(jìn)一步的實(shí)施例中,在"模型訓(xùn)練"和"模型評(píng)估"階段做了兩個(gè)明顯 改進(jìn),使之更適合應(yīng)用于負(fù)面輿情分析場(chǎng)景。
[0049] 1)第一個(gè)改進(jìn)是引入"集成學(xué)習(xí)"方法。在模型訓(xùn)練階段,不是使用"一種算法",而 是聯(lián)合使用多種成熟的機(jī)器學(xué)習(xí)算法,組合構(gòu)建"集成學(xué)習(xí)"算法,解決前述單一算法在"負(fù) 面輿情占比很低"場(chǎng)景下漏判率、誤判率高的問題。
[0050] 所謂"集成學(xué)習(xí)",是指基于不同的分析算法,通過訓(xùn)練多個(gè)分析模型,然后把這些 分類模型組合起來,以達(dá)到更好的預(yù)測(cè)性能。本專利驗(yàn)證了多種有監(jiān)督分析算法,包括: SVM、kNN、multinomial-nb、Bernoulli-nb、NearestCentroid、Ridge〇
[0051] 這里說明采用了集成學(xué)習(xí)的方法流程:
[0052] a.準(zhǔn)備訓(xùn)練數(shù)據(jù)。將訓(xùn)練數(shù)據(jù)集按權(quán)重比例拆分,分配給不同算法(初始權(quán)重為分 配給每個(gè)算法相同的訓(xùn)練數(shù)據(jù)。比如5個(gè)算法參與評(píng)估,則各分配20%)。
[0053] b.構(gòu)建分析模型。采用準(zhǔn)備好的算法,基于訓(xùn)練數(shù)據(jù)集,構(gòu)建對(duì)應(yīng)的分析模型。 [0054] c.評(píng)估分析模型?;跍y(cè)試數(shù)據(jù)集,對(duì)每一個(gè)分析模型的運(yùn)行效果進(jìn)行評(píng)估,得到 評(píng)估值。
[0055] d.調(diào)整訓(xùn)練數(shù)據(jù)權(quán)重,重新運(yùn)算。根據(jù)各分析模型的評(píng)估值,調(diào)整訓(xùn)練數(shù)據(jù)集的分 配權(quán)重(運(yùn)行效果越好的算法,權(quán)重對(duì)應(yīng)越高,分配的訓(xùn)練數(shù)據(jù)越多),重新返回步驟2執(zhí)行。 直到步驟c的結(jié)果收斂(即多次分析結(jié)果的評(píng)估值趨于穩(wěn)定,不再變化)。從而,獲得每一個(gè) 分析模型的權(quán)重。
[0056] e .組合形成"集成分析算法"。按照上述收斂時(shí)的每一個(gè)分析模型權(quán)重,構(gòu)建集成 分析模型一一對(duì)一份數(shù)據(jù)進(jìn)行分析時(shí),集成模型中的每一個(gè)分析模型都參與分析、得到結(jié) 果。最終的分析結(jié)果,按照集成學(xué)習(xí)模型各算法的權(quán)重確定。
[0057]在如圖4所示的具體的實(shí)施例中,綜合了上述某些實(shí)施例的優(yōu)勢(shì),介紹一種低占比 信息識(shí)別方法,包括如下步驟,步驟S400,將素材信息分為訓(xùn)練信息和測(cè)試信息,將所述素 材信息通過特征選擇、向量化處理轉(zhuǎn)化成可分析的數(shù)學(xué)矩陣,代入集成學(xué)習(xí)模型進(jìn)行模型 訓(xùn)練;
[0058]所述模型訓(xùn)練包括步驟S402,根據(jù)訓(xùn)練信息構(gòu)建第一分析模型;
[0059]還進(jìn)行步驟S404將測(cè)試信息代入分析模型,對(duì)所述第一分析模型的運(yùn)行效果進(jìn)行 評(píng)估,得到評(píng)估值,根據(jù)評(píng)估值調(diào)整第一分析模型中各算法的訓(xùn)練信息分配權(quán)重得到新的 分析模型;
[0060]再繼續(xù)步驟S406,將測(cè)試信息代入分析模型,對(duì)新的分析模型的運(yùn)行效果進(jìn)行評(píng) 估,得到新的評(píng)估值,若所述新的評(píng)估值未收斂,則根據(jù)新的評(píng)估值再次調(diào)整新的分析模型 中各算法的訓(xùn)練信息分配權(quán)重得到新的分析模型,再次進(jìn)行評(píng)估判斷;若新的評(píng)估值收斂, 中止判斷,進(jìn)行步驟S408,將根據(jù)收斂的評(píng)估值構(gòu)建的新的分析模型作為優(yōu)選分析模型; [0061 ]最后將優(yōu)選模型部署應(yīng)用,對(duì)目標(biāo)信息進(jìn)行識(shí)別分析。所述目標(biāo)信息或素材信息 包括噪音素材和待識(shí)別素材,在目標(biāo)信息中,噪音素材與待識(shí)別素材的比值大于50,所述素 材的量綱可以為字?jǐn)?shù)、信息條數(shù)、頁(yè)面數(shù)等等。這里目標(biāo)信息以互聯(lián)網(wǎng)上的輿情信息作為例 子,一般情況下負(fù)面輿情的條數(shù)僅占二百分之一。大部分的負(fù)面輿情,即待識(shí)別素材湮沒在 了互聯(lián)網(wǎng)的信息洪流中,這些正面與中立的輿情數(shù)量過于龐大,在本實(shí)施例中被視為噪音 素材。通過上述方法,集成多種算法建立分析模型,提高了大數(shù)據(jù)大信息量中低占比的待識(shí) 別素材的識(shí)別率。有效達(dá)到了大數(shù)據(jù)中識(shí)別少量待識(shí)別信息的效果,具體可參照下文的實(shí) 驗(yàn)例。
[0062]在另一些優(yōu)選的實(shí)施例中,將素材信息分為訓(xùn)練信息和測(cè)試信息后還包括步驟, 將待識(shí)別素材額外添加到測(cè)試信息中。這樣的改進(jìn)是引入"過采樣"的手段。具體地,以互聯(lián) 網(wǎng)負(fù)面輿情為例,獨(dú)立準(zhǔn)備一些歷史負(fù)面輿情數(shù)據(jù),在模式評(píng)估和部署應(yīng)用階段,將上述負(fù) 面輿情額外加入到測(cè)試信息中,人為提高所述測(cè)試信息中負(fù)面輿情的占比,再將人為改變 了的測(cè)試信息代入到分析模型的評(píng)估、重構(gòu)建過程中,此過程稱之為"過采樣"技術(shù)。該技術(shù) 經(jīng)實(shí)驗(yàn),也確實(shí)有效地達(dá)到了提高低占比信息識(shí)別效率的效果。
[0063] 實(shí)驗(yàn)例1:
[0064] 驗(yàn)證數(shù)據(jù)。
[0065]基于某大型央企的歷史輿情采集數(shù)據(jù),篩選出以下兩份數(shù)據(jù),用于后續(xù)驗(yàn)證使用。 [0066]數(shù)據(jù)集A:歷史負(fù)面輿情,數(shù)量4406
[0067]數(shù)據(jù)集B:2015年7月份該央企的相關(guān)輿情。數(shù)量為24182,其中259篇為負(fù)面輿情。 [0068]驗(yàn)證方法
[0069]將"數(shù)據(jù)集B"中的數(shù)據(jù)中的非負(fù)面輿情和負(fù)面輿情按照8: 2進(jìn)行隨機(jī)切分,80 %作 為訓(xùn)練數(shù)據(jù)集C,20%作為測(cè)試數(shù)據(jù)集D。在實(shí)驗(yàn)過程中,進(jìn)行如下設(shè)置:
[0070] 過采用應(yīng)用。將數(shù)據(jù)集A中一定數(shù)目的負(fù)面輿情添加進(jìn)C中。
[0071] 實(shí)驗(yàn)過程中采用了多個(gè)模型,如SVm,knn等,并評(píng)測(cè)了這些模型的集成分析模 型一一表格中使用"集成學(xué)習(xí)"作為其對(duì)應(yīng)的分析模型名稱。
[0072] 所有實(shí)驗(yàn)均重復(fù)20次,所以以下所有的測(cè)試結(jié)果均為平均結(jié)果 [0073]實(shí)驗(yàn)結(jié)果
[0074]
[0075] 如表格所示,分析結(jié)果采用業(yè)界通用的準(zhǔn)確率和召回率指標(biāo)度量,兩個(gè)指標(biāo)值均 為越大越好。上述實(shí)驗(yàn)結(jié)果說明:第一,采用過擬合處理后,同一種分析模型的效果更好,并 且額外添加的負(fù)面輿情量越多,效果越好;第二,集成學(xué)習(xí)的分析效果要好于單個(gè)算法,如 svm和Ridge。這與實(shí)驗(yàn)預(yù)期是相符的,也證明了本發(fā)明方法的有效性。
[0076] 圖5所示的實(shí)施例中,展示了一種海量文本中低占比信息識(shí)別裝置,包括素材處理 模塊500、模型構(gòu)建模塊502、評(píng)估判斷模塊504、模型應(yīng)用模塊506,
[0077]所述素材處理模塊500用于將素材信息分為訓(xùn)練信息和測(cè)試信息,將所述素材信 息通過特征選擇、向量化處理轉(zhuǎn)化成可分析的數(shù)學(xué)矩陣,代入集成學(xué)習(xí)模型進(jìn)行模型訓(xùn)練; [0078]所述模型構(gòu)建模塊502用于根據(jù)訓(xùn)練信息構(gòu)建第一分析模型;
[0079] 所述評(píng)估判斷模塊504用于將測(cè)試信息代入分析模型,對(duì)所述第一分析模型的運(yùn) 行效果進(jìn)行評(píng)估,得到評(píng)估值,所述模型構(gòu)建模塊502還用于根據(jù)評(píng)估值調(diào)整第一分析模型 中各算法的訓(xùn)練信息分配權(quán)重得到新的分析模型;
[0080] 所述評(píng)估判斷模塊504還用于將測(cè)試信息代入分析模型,對(duì)新的分析模型的運(yùn)行 效果進(jìn)行評(píng)估,得到新的評(píng)估值;
[0081] 所述模型構(gòu)建模塊502還用于在新的評(píng)估值未收斂時(shí),則根據(jù)新的評(píng)估值再次調(diào) 整新的分析模型中各算法的訓(xùn)練信息分配權(quán)重得到新的分析模型,使能評(píng)估判斷模塊再次 進(jìn)行評(píng)估判斷;還用于在新的評(píng)估值收斂時(shí),將新的分析模型作為優(yōu)選分析模型;
[0082] 所述模型應(yīng)用模塊506用于將優(yōu)選模型部署應(yīng)用,對(duì)目標(biāo)信息進(jìn)行識(shí)別分析。上述 裝置有效達(dá)到了低占比信息識(shí)別的效果
[0083] 優(yōu)選地實(shí)施例中,所述素材處理模塊500還用于將待識(shí)別素材額外添加到測(cè)試信 息中。通過上述模塊設(shè)置,更好地解決了大數(shù)據(jù)低占比信息的識(shí)別問題。
[0084] 具體地,所述目標(biāo)信息或素材信息包括噪音素材和待識(shí)別素材,在目標(biāo)信息中,噪 音素材與待識(shí)別素材的比值大于50。
[0085] 具體地,所述第一分析模型包括SVM、kNN、multinomial_nb、Bernoulli_nb、 NearestCentroid、Ridge算法中的至少兩種。本發(fā)明裝置能夠在大數(shù)據(jù)背景下建立分析模 型,分析識(shí)別目標(biāo)信息中占比很低的待識(shí)別素材。
[0086]圖6提出一種基于機(jī)器學(xué)習(xí)算
當(dāng)前第2頁(yè)1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
应用必备| 博白县| 克东县| 南康市| 临沂市| 木兰县| 安康市| 滨海县| 进贤县| 庆云县| 洛扎县| 雅江县| 靖边县| 鄂伦春自治旗| 宝清县| 安国市| 石林| 苗栗县| 上虞市| 连平县| 唐海县| 商城县| 宾阳县| 乌拉特前旗| 什邡市| 肥乡县| 孟津县| 揭东县| 堆龙德庆县| 泾川县| 苏尼特右旗| 长顺县| 永川市| 望奎县| 吉林市| 嘉峪关市| 越西县| 江西省| 平邑县| 宁阳县| 陵水|