欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

Dinfo-oec文本分析挖掘方法與設(shè)備的制造方法

文檔序號(hào):9304539閱讀:1091來(lái)源:國(guó)知局
Dinfo-oec文本分析挖掘方法與設(shè)備的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及文本挖掘技術(shù)領(lǐng)域,具體涉及一種基于概念的DINF0-0EC挖掘方法以 及DINF0-0EC挖掘設(shè)備。
【背景技術(shù)】
[0002] 社會(huì)化大數(shù)據(jù)中80%是非結(jié)構(gòu)化數(shù)據(jù),非結(jié)構(gòu)化大數(shù)據(jù)處理是大數(shù)據(jù)面臨的最大 挑戰(zhàn)。結(jié)構(gòu)化數(shù)據(jù)分析不能充分挖掘發(fā)現(xiàn)大數(shù)據(jù)中的語(yǔ)義。
[0003]非結(jié)構(gòu)化文本挖掘的挑戰(zhàn)在于: 語(yǔ)言多樣性帶來(lái)的維護(hù)挑戰(zhàn):文本中的語(yǔ)言表達(dá)方式多種多樣,縮寫、簡(jiǎn)寫等不規(guī)范用 法普遍存在,需要窮舉所有語(yǔ)言表達(dá)方式,業(yè)務(wù)人員陷入語(yǔ)言表達(dá)細(xì)節(jié),維護(hù)困難。
[0004] 業(yè)務(wù)分類及規(guī)則多變化快帶來(lái)的維護(hù)挑戰(zhàn):業(yè)務(wù)分類多,分類變化快,每次分類變 化時(shí),需要把相關(guān)的所有分類的語(yǔ)言規(guī)則重新梳理,維護(hù)工作量巨大,維護(hù)效率低。
[0005] 多語(yǔ)種同步處理帶來(lái)的挑戰(zhàn):不同語(yǔ)種的挖掘需要同時(shí)分析,需要對(duì)每種語(yǔ)言單 獨(dú)建立規(guī)則,要求維護(hù)的業(yè)務(wù)人員掌握多語(yǔ)種,對(duì)維護(hù)人員要求太高。
[0006]文本中噪音大帶來(lái)的分類挑戰(zhàn):文本長(zhǎng)短不一,其中的關(guān)聯(lián)性錯(cuò)綜復(fù)雜,無(wú)法使用 關(guān)鍵詞統(tǒng)計(jì)的方法達(dá)到很好的挖掘效果。
[0007]而現(xiàn)有的技術(shù)一般采用統(tǒng)計(jì)方法進(jìn)行文本挖掘,沒(méi)有考慮到業(yè)務(wù)人員的需求,只 提供挖掘算法,給業(yè)務(wù)人員帶來(lái)了很多的困擾。文本挖掘技術(shù)面臨的問(wèn)題是,如何從一篇或 海量非結(jié)構(gòu)化文本中分析挖掘出用戶關(guān)心的有價(jià)值的信息,讓業(yè)務(wù)人員從業(yè)務(wù)角度定義挖 掘需求和挖掘規(guī)則,而無(wú)需考慮文本中語(yǔ)言表達(dá)習(xí)慣的多樣性帶來(lái)的語(yǔ)言歧義問(wèn)題。

【發(fā)明內(nèi)容】

[0008] 本發(fā)明要解決的技術(shù)問(wèn)題是如何從一篇或海量非結(jié)構(gòu)化文本中分析挖掘出用戶 關(guān)心的有價(jià)值的信息,讓業(yè)務(wù)人員從業(yè)務(wù)角度定義挖掘需求和挖掘規(guī)則,而無(wú)需考慮文本 中語(yǔ)言表達(dá)習(xí)慣的多樣性帶來(lái)的語(yǔ)言歧義問(wèn)題。為了解決上述技術(shù)問(wèn)題,本發(fā)明提供了一 種基于概念的非結(jié)構(gòu)化文本大數(shù)據(jù)分析挖掘方法及其設(shè)備。
[0009] 所述方法包括以下步驟:(1)預(yù)處理,包括斷句、分詞和命名實(shí)體識(shí)別;(2)對(duì)輸入 文本進(jìn)行概念提取和概念表達(dá)式識(shí)別;(3)依據(jù)挖掘模型中的挖掘規(guī)則,對(duì)輸入文本的概 念表達(dá)式進(jìn)行分析挖掘;(4)計(jì)算挖掘結(jié)果的可信度;(5)按可信度輸出挖掘結(jié)果;(5)挖 掘結(jié)果可視化展示。
[0010]所述方法的挖掘模型包括3棵樹(shù):(1)本體樹(shù):樹(shù)狀組織業(yè)務(wù)分類,為每個(gè)業(yè)務(wù)類 型設(shè)置挖掘結(jié)果和挖掘規(guī)則。挖掘結(jié)果包括分類、聚類、關(guān)鍵詞組合、傾向性評(píng)價(jià)等。(2)要 素樹(shù):樹(shù)狀組織業(yè)務(wù)相關(guān)的概念,是業(yè)務(wù)中經(jīng)常用到對(duì)象、工具、屬性等概念。樹(shù)的節(jié)點(diǎn)是要 素名,每個(gè)要素名可以對(duì)應(yīng)多個(gè)要素值。要素值是一個(gè)詞語(yǔ)或文字模式。(3)概念樹(shù):樹(shù)狀 組織業(yè)務(wù)無(wú)關(guān)的常用復(fù)雜概念,即用一句話或一段話表示的概念。樹(shù)的節(jié)點(diǎn)是概念名,概念 值是一句話或文字模式。
[0011] 所述方法的挖掘規(guī)則,包括3種類型:(1)CR,表示挖掘規(guī)則采用概念表達(dá)式方式。 一個(gè)挖掘規(guī)則包含n個(gè)概念表達(dá)式(n>=l)。(2)SR,表示挖掘規(guī)則采用統(tǒng)計(jì)算法。一個(gè)挖 掘規(guī)則對(duì)應(yīng)一種統(tǒng)計(jì)算法。系統(tǒng)支持KNN(K近鄰)、SVM(支持向量機(jī))分類算法。(3)UR, 表示挖掘規(guī)則用戶自定義,可定制算法。
[0012] 所述方法的概念提取過(guò)程,包括步驟:(1)從分詞結(jié)果中做概念發(fā)現(xiàn),利用同義詞 表進(jìn)行同義擴(kuò)展,利用概念樹(shù)的概念值發(fā)現(xiàn)復(fù)雜概念。(2)對(duì)發(fā)現(xiàn)的概念識(shí)別概念類型,區(qū) 分業(yè)務(wù)要素和常用概念。利用要素樹(shù)識(shí)別業(yè)務(wù)要素,利用概念樹(shù)識(shí)別常用概念類型。(3)對(duì) 概念提取結(jié)果,識(shí)別輸入文本中概念之間的語(yǔ)義關(guān)系,給出概念表達(dá)式。
[0013] 所述設(shè)備包括以下幾個(gè)單元:(1)挖掘模型建模單元,實(shí)現(xiàn)挖掘模型的建模,本 體樹(shù)、要素樹(shù)以及概念樹(shù)的管理維護(hù)等。(2)預(yù)處理單元,實(shí)現(xiàn)輸入文本的分詞與命名實(shí)體 識(shí)別等基礎(chǔ)處理。(3)概念提取與表達(dá)式識(shí)別單元,實(shí)現(xiàn)輸入文本的概念提取,概念表達(dá)式 識(shí)別。輸出概念列表和概念表達(dá)式。(4)分析挖掘單元,實(shí)現(xiàn)利用挖掘模型中的挖掘規(guī)則, 對(duì)輸入文本概念提取結(jié)果進(jìn)行挖掘,輸出挖掘結(jié)果。每個(gè)挖掘結(jié)果輸出可信度。(5)可視化 展示單元,實(shí)現(xiàn)挖掘結(jié)果的可視化展示,支持折線圖、柱狀圖、餅圖、詞匯云圖形式展示。
[0014] 本
【發(fā)明內(nèi)容】
具有以下優(yōu)點(diǎn),通過(guò)挖掘模型建模,分離業(yè)務(wù)和自然語(yǔ)言表達(dá)的多樣 性,降低業(yè)務(wù)維護(hù)投入,提高系統(tǒng)的可維護(hù)性。通過(guò)基于概念的挖掘方法,提供較高準(zhǔn)確率 的分析挖掘結(jié)果。使用DINF0-0EC非結(jié)構(gòu)化大數(shù)據(jù)分析挖掘設(shè)備,可大大提高分析挖掘的 效果。
[0015]
【附圖說(shuō)明】
[0016] 圖1是DINF0-0EC非結(jié)構(gòu)化文本大數(shù)據(jù)分析挖掘方法示意圖。
[0017] 圖2是DINF0-0EC模型示意圖。
[0018] 圖3是概念提取流程圖。
[0019] 圖4是DINF0-0EC分析挖掘設(shè)備示意圖。
[0020]
【具體實(shí)施方式】
[0021] 為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚明白,以下結(jié)合具體實(shí)施例,并參照 附圖,對(duì)本發(fā)明作進(jìn)一步的詳細(xì)說(shuō)明。
[0022] 圖1是DINF0-0EC非結(jié)構(gòu)化文本大數(shù)據(jù)分析挖掘方法示意圖,如圖1所示的 DINF0-0EC文本分析挖掘方法100的輸入是非結(jié)構(gòu)化文本111,這里所說(shuō)的"非結(jié)構(gòu)化文本" 指的是一個(gè)文本片段,包括"我要辦卡"這樣的一句話,也包括一篇文章,同時(shí),"非結(jié)構(gòu)化文 本"包括簡(jiǎn)體中文、英語(yǔ)等各種語(yǔ)言表述的文本。
[0023] 步驟S120,對(duì)非結(jié)構(gòu)化文本111進(jìn)行預(yù)處理,包括斷句處理、分詞、詞性標(biāo)注。斷句 處理是把文本111以句號(hào)斷開(kāi),分成多個(gè)句子進(jìn)行后續(xù)處理。分詞、詞性標(biāo)注把中文文本進(jìn) 行詞語(yǔ)切分處理,并給每個(gè)詞語(yǔ)標(biāo)注上其對(duì)應(yīng)的詞性,詞性包括名詞、動(dòng)詞等。
[0024] 步驟S121,對(duì)預(yù)處理后的文本111,進(jìn)行概念識(shí)別,這里的"概念"指的是文本中各 個(gè)詞匯的詞義信息,以及詞匯之間的語(yǔ)義關(guān)聯(lián)性。一個(gè)"概念"可以代表一組詞匯,也可以 一個(gè)說(shuō)法,甚至可以代表一句話。比如中文文本中"等了 2天了,還沒(méi)有收到快件",這段話 可以識(shí)別為"未及時(shí)"這一概念。概念識(shí)別的結(jié)果是文本中包含的概念集合{C1,C2,…Cn}, 概念所屬的類型,以及概念之間的語(yǔ)義關(guān)聯(lián)。語(yǔ)義關(guān)聯(lián)用邏輯關(guān)系和謂詞邏輯表達(dá)。邏輯 關(guān)系包含與、或、非操作。謂詞邏輯的形式是f(al,a2,…,an),表不al,a2,…,an之間具有 f關(guān)系。f是一個(gè)概念,比如"在…之前"。ai(i=l~n,n>=l)是一個(gè)概念。概念識(shí)別的具體 實(shí)施方法可參見(jiàn)圖2的實(shí)施例。
[0025] 步驟S122,把概念識(shí)別結(jié)果,利用DINF0-0EC模型進(jìn)行分析挖掘。按照DINF0-0EC 模型中對(duì)挖掘結(jié)果和挖掘規(guī)則的配置,對(duì)概念識(shí)別結(jié)果進(jìn)行計(jì)算,給出挖掘結(jié)果。挖掘結(jié)果 包括分類、聚類、關(guān)鍵詞組合、傾向性評(píng)價(jià)等。DINF0-0EC模型可參見(jiàn)圖2的具體實(shí)施例。
[0026] 步驟S123,對(duì)挖掘結(jié)果的可信度計(jì)算??尚哦扔?jì)算根據(jù)挖掘規(guī)則的類型不同,調(diào)用 不同的計(jì)算方法。
[0027] 對(duì)類型是CR的挖掘規(guī)則,其可信度是輸入文本中提取的概念表達(dá)式與本體樹(shù)中 挖掘規(guī)則之間的匹配度,其計(jì)算公式如下。其中n是規(guī)則中概念表達(dá)式的個(gè)數(shù)。Com(RI) 是每個(gè)概念表達(dá)式匹配概念的個(gè)數(shù),OfNo(QRI)是輸入文本中未匹配概念個(gè)數(shù),OfNo(BQRI) 是規(guī)則中概念表達(dá)式的匹配概念個(gè)數(shù)。DSC是調(diào)節(jié)權(quán)值。
[0028] 對(duì)類型是SR的挖掘規(guī)則,其可信度是統(tǒng)計(jì)算法輸出的相似度。
[0029] 步驟S124,對(duì)分析挖掘結(jié)果進(jìn)行結(jié)果輸出。按照可信度閾值定義,給出結(jié)果列表, 每個(gè)結(jié)果都帶有可信度。輸出結(jié)果是結(jié)構(gòu)化數(shù)據(jù)112。結(jié)構(gòu)化數(shù)據(jù)112包括類名、分析挖掘 結(jié)果、可信度等數(shù)據(jù)。
[0030] 下面結(jié)合一個(gè)物流例子說(shuō)明分析挖掘和可信度計(jì)算,輸入文本111:"第三方宋 先生(自稱寄方)************來(lái)電,稱其有訂msg但是沒(méi)有收到簽收短信,客號(hào)碼是: *********** 系統(tǒng)未發(fā)送。請(qǐng)跟進(jìn),客服****" 輸出結(jié)果是: 操作類_>派件異常_0.67 操作類_>派件操作不規(guī)范_〇. 6 非公司原因類-> 派件異常_〇. 5 操作類_>運(yùn)單使用或填寫不規(guī)范_〇. 43 結(jié)果中,前的"操作類"是類名,后的"派件異常"是分析挖掘結(jié)果,"_"后的 "0. 67"是可彳目度。
[0031] 步驟S125,對(duì)輸出結(jié)果進(jìn)行可視化展示。展示方式包括柱狀圖、餅圖、雷達(dá)圖等。
[0032] 圖2是DINF0-0EC模型示意圖,是結(jié)合銀行業(yè)務(wù)給出的示意圖:DINF0-0EC模型包 括3個(gè)模型樹(shù): 0 本體樹(shù)OntologyTree0 要素樹(shù)ElementTree 0 概念樹(shù)ConceptionTree。
[0033] (I)要素樹(shù)業(yè)務(wù)相關(guān)的概念,是業(yè)務(wù)中經(jīng)常用到對(duì)象、工具、屬性等概念。要素可 以樹(shù)狀組織,每個(gè)樹(shù)節(jié)點(diǎn)是一個(gè)要素,一個(gè)要素可以對(duì)應(yīng)多個(gè)要素值。
[0034] 要素定義: 0要素可以是一組詞匯 0要素可以是一種表達(dá)方式,比如"服務(wù)技能"〈="不會(huì)+安裝" 0要素的識(shí)別規(guī)則支持2種要素類型:屬性:此要素的屬性詞語(yǔ) 0動(dòng)作:此要素的動(dòng)作詞語(yǔ) 0要素的識(shí)別規(guī)則支持2種要素值類型:文本:用文本表示的詞語(yǔ) 0模式:用模式表示詞語(yǔ)的組合。比如"(寄方I寄客).{〇, 5}跟進(jìn)"表示"寄方"和 "跟進(jìn)"之間最多間隔5個(gè)漢字。
[0035] 如圖2所示,要素樹(shù)中包含"工作人員"、"渠道"等,"渠道"包含"柜臺(tái)、網(wǎng)點(diǎn)、ATM" 等要素值。
[0036] (2)概念樹(shù)是業(yè)務(wù)無(wú)關(guān)的常用概念,語(yǔ)言表達(dá)中常用的基本概念,時(shí)間、地點(diǎn)、值、 人的情緒、態(tài)度等,是基礎(chǔ)的語(yǔ)義資源,系統(tǒng)已內(nèi)置了常用8萬(wàn)多詞匯,完全覆蓋了常用詞 匯,后臺(tái)自動(dòng)更新維護(hù),概念以樹(shù)狀表示,樹(shù)節(jié)點(diǎn)就是一個(gè)概念。每個(gè)概念包含一個(gè)或多個(gè) 概念值。
[0037]概念值定義:概念可以是一組詞匯; 概念可以是一種表達(dá)方式,比如"服務(wù)技能"〈="不會(huì)+安裝" 概念值類型: 文本:用文本表示的詞語(yǔ)。一般是同義詞 模式:用模式表示詞語(yǔ)的組合。
[0038] 如圖2所示,概念樹(shù)中包含有"人的情緒""時(shí)效"等常用概念。
[0039] (3)本體樹(shù)業(yè)務(wù)本體,根據(jù)業(yè)務(wù)需求,定制業(yè)務(wù)類別、挖掘表達(dá)式、挖掘結(jié)果。本 體樹(shù)包括3部分:業(yè)務(wù)類型樹(shù)、每個(gè)業(yè)務(wù)類的挖掘結(jié)果、每個(gè)業(yè)務(wù)類挖掘結(jié)果對(duì)應(yīng)的挖掘規(guī) 則。
[0040] 業(yè)務(wù)類型樹(shù),是一個(gè)樹(shù)狀的業(yè)務(wù)分類,樹(shù)的層級(jí)不限。樹(shù)節(jié)點(diǎn)是一個(gè)具體的業(yè)務(wù)類 另|J。對(duì)樹(shù)的節(jié)點(diǎn)可以增加、刪除、修改。如圖2所示,是一個(gè)
當(dāng)前第1頁(yè)1 2 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
广州市| 玉山县| 桐庐县| 江门市| 盖州市| 交口县| 理塘县| 凤城市| 贡山| 安远县| 福泉市| 壤塘县| 红安县| 崇义县| 浦江县| 集安市| 高台县| 巴塘县| 德庆县| 海淀区| 海兴县| 两当县| 福海县| 周宁县| 砀山县| 东源县| 镇巴县| 平阴县| 尚义县| 拉萨市| 太原市| 金沙县| 克什克腾旗| 恭城| 松桃| 依安县| 漳州市| 夹江县| 和田市| 赣州市| 海宁市|