專利名稱:一種基于人機(jī)交互的機(jī)會信息動態(tài)挖掘方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種數(shù)據(jù)處理技術(shù),特別涉及一種基于人機(jī)交互的機(jī)會信息文動態(tài)挖掘方法。
背景技術(shù):
2000年日本學(xué)者Yukio Ohsawa首次提出“機(jī)會發(fā)現(xiàn)”(Chance Discovery)理論, 其目的是提供一種方法去發(fā)現(xiàn)對人的未來決策有重要影響的罕見(低頻)而且重要的事件。為了支持機(jī)會發(fā)現(xiàn)的過程,一個事件拓?fù)淇梢暬ぞ逰eyGraph被開發(fā),此工具屬于文本挖掘的知識范疇。2005年Ohsawa提出了數(shù)據(jù)結(jié)晶法(Data Crystallizaton),其目標(biāo)是揭示事件間潛在結(jié)構(gòu),包括不可見事件,向原始文本數(shù)據(jù)相應(yīng)的行中插入虛擬事件(Dummy Event)用來代表不可見事件,然后用KeyGraph處理這個新的文本數(shù)據(jù),這樣部分虛擬事件最終會作為機(jī)會節(jié)點顯示在可視化圖中,依靠人對圖中節(jié)點之間的可視化結(jié)構(gòu)來認(rèn)知這些虛擬事件, 即不可見事件。2006 年 Yoshiharu Maeno 和 Yukio Ohasawa 提出了人機(jī)交互退火方法 (Human-Computer Interactive Annealing Method)作為數(shù)據(jù)結(jié)晶法和機(jī)會發(fā)現(xiàn)過程的擴(kuò)展。盡管在機(jī)會發(fā)現(xiàn)這個新領(lǐng)域中提出了一些方法在動態(tài)變化環(huán)境中對重要不可見事件(Invisible Events)進(jìn)行有效挖掘。如數(shù)據(jù)結(jié)晶法,和人機(jī)交互退火法。但是是假設(shè)這個不可見事件已經(jīng)存在,因此將虛擬事件當(dāng)做不可見事件插入到原始文本數(shù)據(jù)中,事實上插入的虛擬數(shù)據(jù)本身沒有任何意義,而是依靠具有相關(guān)經(jīng)驗的人(專家,學(xué)者等)對含有這些虛擬數(shù)據(jù)的可視化圖進(jìn)行猜測這些虛擬節(jié)點具體意義。因此,目前存在的方法有如下技術(shù)缺陷(1)由于虛擬事件源插入到原始數(shù)據(jù)的位置具有不確定性,因此無法判斷這個虛擬數(shù)據(jù)在原始數(shù)據(jù)的缺失位置。目前方法是向處理后的文本數(shù)據(jù),即向購物籃數(shù)據(jù)中對不相同的數(shù)據(jù)行結(jié)尾添加不同單個虛擬事件。事實上是基于這些行中有數(shù)據(jù)缺失的理想假設(shè)。(2)盡管目前的方法涉及到動態(tài)人機(jī)交互,但主要支持工具仍然只是靜態(tài) KeyGraph工具。并沒有一個強(qiáng)大的系統(tǒng)軟件支持這種交互方法。事實上目前方法仍然屬于靜態(tài)挖掘方法。C3)機(jī)會發(fā)現(xiàn)這個嶄新的領(lǐng)域發(fā)展近10年,一直圍繞具有單一算法的KeyGraph工具進(jìn)行罕見且重要事件(即機(jī)會)的挖掘與可視化,主要應(yīng)用于商業(yè)。迫切需要建立全新的,真正的動態(tài)系統(tǒng)方法,以及設(shè)計和開發(fā)集成多種機(jī)會發(fā)現(xiàn)算法以及多模式可視化圖生成于一身的機(jī)會挖掘系統(tǒng)軟件。如前所述,KeyGraph算法最初是用來對文本數(shù)據(jù)關(guān)鍵詞抽取的方法。算法本身仍然存在不足,需要進(jìn)一步深化研究。
以上技術(shù)缺陷是現(xiàn)有方法技術(shù)、軟件系統(tǒng)在應(yīng)用中的缺陷,具體從數(shù)據(jù)挖掘算法來講,目前廣泛使用的KeyGraph算法還有如下不足1、所提供的數(shù)據(jù)挖掘算法不支持動態(tài)挖掘功能。盡管KeyGraph算法支持用戶插入虛擬數(shù)據(jù),但數(shù)據(jù)插入是盲目的、沒有根據(jù)的, 所以盡管可以進(jìn)行重新計算和理解,但此過程的實質(zhì)為靜態(tài)方法。2、KeyGraph算法有機(jī)會信息提取遺漏、甚至算法失效的危險KeyGraph算法中提取重要事件之前,首先計算由多個事件組成的聚類,然后根據(jù)這些聚類計算事件的Key值,計算某事件Key值時,要求此事件與聚類內(nèi)所有事件同時出現(xiàn),而在生成聚類計算時并沒有要求此聚類內(nèi)所有事件同時出現(xiàn),因此事件Key值計算時事件與聚類內(nèi)所有事件同時出現(xiàn)的要求太苛刻了。如果某個事件與聚類聯(lián)系很緊密,但沒有與聚類內(nèi)所有事件同時出現(xiàn)的情況出現(xiàn),則此重要事件很可能被遺漏,隨著此重要事件的遺漏,對應(yīng)的重要關(guān)聯(lián)關(guān)系也會被遺漏。如果多個重要事件和關(guān)聯(lián)關(guān)系都被遺漏,最終會導(dǎo)致KeyGraph算法失效。KeyGraph只側(cè)重關(guān)鍵事件的挖掘而忽略事件之間重要關(guān)系的挖掘。3、在KeyGraph算法中,機(jī)會信息僅僅是指有重要價值的事件,而不包括事件之間的關(guān)聯(lián)關(guān)系,適合文本挖掘。但對商業(yè)信息挖掘和預(yù)測而言,除了重要事件之外,還需要清楚地了解各事件之間的關(guān)聯(lián)關(guān)系,因此KeyGraph算法挖掘計算結(jié)果不夠全面。而且對重要事件挖掘的遺漏同時會導(dǎo)致重要關(guān)系的遺漏,因此KeyGraph算法更側(cè)重重要事件的挖掘而忽略重要關(guān)系的挖掘。盡管目前機(jī)會信息挖掘算法涉及到動態(tài)人機(jī)交互,但使用的主要支持工具是靜態(tài)KeyGraph工具,存在盲目性。目前的動態(tài)人機(jī)交互方法仍然不規(guī)范、不系統(tǒng)、不成熟,究其根本仍然是靜態(tài)挖掘的方法,而且沒有強(qiáng)大的軟件系統(tǒng)支持此動態(tài)方法。因為上述的缺陷造成對通信網(wǎng)絡(luò)設(shè)備終端升級的效率低下、升級出錯的種種問題。
發(fā)明內(nèi)容
有鑒于此,本發(fā)明實施例提供一種全新的、真正的、系統(tǒng)的人機(jī)交互動態(tài)挖掘方法,避免虛擬事件插入盲目性的問題;提供可支持人機(jī)交互動態(tài)挖掘方法的強(qiáng)大的系統(tǒng)平臺,此系統(tǒng)平臺包括(1)支持強(qiáng)大人機(jī)交互動態(tài)挖掘處理的場景圖顯示功能,(2)支持動態(tài)挖掘處理的機(jī)會信息挖掘算法,實現(xiàn)對有重要價值機(jī)會信息的挖掘,避免對某些文本數(shù)據(jù)挖掘失效的情況。為解決上述問題,本發(fā)明是這樣實現(xiàn)的一種基于人機(jī)交互的機(jī)會信息動態(tài)挖掘技術(shù)方案,步驟如下步驟11,即聚類生成步驟,該步驟使用聚類生成算法對原始機(jī)會信息文本數(shù)據(jù)進(jìn)行計算,得到聚類生成結(jié)果,并用場景圖顯示;步驟12,即聚類生成結(jié)果分析理解步驟,用戶在聚類生成場景圖的幫助下對計算結(jié)果進(jìn)行分析理解,對數(shù)據(jù)中各事件的關(guān)系有初步的了解;步驟13,即文本數(shù)據(jù)修正步驟,用戶在場景圖分析理解的基礎(chǔ)上,根據(jù)自己的想法對機(jī)會信息文本數(shù)據(jù)進(jìn)行修正,如增加新文本數(shù)據(jù)等;
步驟14,即新文本數(shù)據(jù)機(jī)會信息挖掘計算步驟,程序針對修正后的文本數(shù)據(jù)進(jìn)行機(jī)會信息挖掘計算,包括聚類生成計算以及事件與聚類之間關(guān)系計算,從而將各個事件、聚類和關(guān)系挖掘出來,尤其是重要事件和重要關(guān)系,并將前后兩次計算結(jié)果用場景圖動態(tài)對比顯示;步驟15,即反饋計算步驟,用戶通過對步驟14計算結(jié)果進(jìn)行理解分析,對比分析前后兩次計算結(jié)果的關(guān)聯(lián)和差異,關(guān)聯(lián)是指兩次計算結(jié)果相同的地方,包括相同的事件、相同的聚類結(jié)果、相同的機(jī)會信息挖掘結(jié)果;差異是指兩次計算結(jié)果不同的地方,包括增加的事件、減少的事件,由低頻變?yōu)楦哳l的事件、由高頻變?yōu)榈皖l的事件,增加的關(guān)聯(lián)關(guān)系、減少的關(guān)聯(lián)關(guān)系,增加的機(jī)會信息、減少的機(jī)會信息。通過對比分析判斷挖掘結(jié)果是否可正確、 可靠、充分地展示數(shù)據(jù)之間的關(guān)系并準(zhǔn)確地發(fā)現(xiàn)有重要價值的機(jī)會信息,若符合,則結(jié)束, 否則重復(fù)步驟13、步驟14和步驟15,直至獲得有價值、意義明確的文本數(shù)據(jù)和場景圖計算結(jié)果以及有重要價值的機(jī)會信息為止。所述方法能夠?qū)崿F(xiàn)人機(jī)交互地對機(jī)會文本數(shù)據(jù)進(jìn)行動態(tài)挖掘計算的功能,可以有效、準(zhǔn)確地挖掘有重要價值的機(jī)會信息元素。步驟11和14所述的信息文本數(shù)據(jù)的機(jī)會信息挖掘算法,包括一種基于信息熵的無向圖機(jī)會信息挖掘算法(無向圖法)和一種基于概率的有向圖機(jī)會信息挖掘算法(有向圖法)。此兩種算法能支持人機(jī)交互的動態(tài)挖掘方法中對文本數(shù)據(jù)的反復(fù)動態(tài)挖掘計算, 可以發(fā)現(xiàn)有重要價值的機(jī)會信息元素,并能有效的避免對某些文本數(shù)據(jù)挖掘計算失效的情況。由無向圖算法計算步驟可以看出,該算法使用信息量作為事件之間關(guān)系的衡量標(biāo)準(zhǔn),信息量的計算與概率關(guān)系密切,而概率與文本整體數(shù)據(jù)量有直接關(guān)系,這樣計算可以適應(yīng)數(shù)據(jù)的動態(tài)變化,實現(xiàn)對動態(tài)挖掘的支持;在提取重要事件時每個事件與每個聚類關(guān)系單獨(dú)計算,可以清楚的計算每個事件對每個聚類的關(guān)系強(qiáng)度,不會錯過任何一個重要關(guān)系, 有效地避免了算法挖掘失效的情況;重要事件與聚類內(nèi)事件的連接關(guān)系是此重要事件與聚類內(nèi)事件關(guān)系最強(qiáng)的幾個事件的連接,可以展示此事件與聚類的明確關(guān)系?;诟怕实挠邢驁D機(jī)會信息挖掘方法將概率理論應(yīng)用到挖掘算法中,其特征在于,所述算法是一種基于概率的挖掘算法,可發(fā)現(xiàn)有重要價值的機(jī)會信息,并能支持人機(jī)交互的動態(tài)挖掘方法中對文本數(shù)據(jù)的反復(fù)動態(tài)挖掘計算有向圖算法使用事件的概率作為事件之間關(guān)系的衡量標(biāo)準(zhǔn),概率的計算與文本整體數(shù)據(jù)量有直接關(guān)系,這樣可以計算適應(yīng)數(shù)據(jù)的動態(tài)變化,實現(xiàn)對動態(tài)挖掘的支持;不再進(jìn)行高Key值事件的提取,而是直接計算事件之間的派生關(guān)系,并提取,避免了某些文本數(shù)據(jù)挖掘失效的情況,而且得到的事件之間的關(guān)系非常清晰、明確。步驟11和步驟14所述之計算結(jié)果場景圖顯示方法,此場景圖算法是支持人機(jī)交互的文本數(shù)據(jù)動態(tài)挖掘方法的顯示方法,可以將機(jī)會信息挖掘結(jié)果清晰直觀的顯示出來。 如果是對動態(tài)修改之后文本數(shù)據(jù)計算結(jié)果的顯示,場景圖可以清晰直觀地展示兩次計算結(jié)果的關(guān)聯(lián)和差異,以幫助用戶分析和理解計算結(jié)果、文本數(shù)據(jù)內(nèi)各事件元素的關(guān)系以及動態(tài)挖掘的過程情況,從而更有效地進(jìn)一步動態(tài)修改文本數(shù)據(jù)。場景圖顯示方法集成了多種自動布局算法,場景圖自動布局出圖后用戶可根據(jù)自己的習(xí)慣進(jìn)行手動調(diào)整。算法中使用了巧妙的事件及關(guān)系表示方法,使結(jié)果的顯示美觀,方便用戶觀察分析和理解。為了使用戶更好的了解文本數(shù)據(jù)動態(tài)挖掘的過程以及文本數(shù)據(jù)動態(tài)修改后挖掘結(jié)果的變動,對文本數(shù)據(jù)元素之間的關(guān)系有更好的理解,場景圖顯示時可以顯示前后兩次計算結(jié)果,并清晰地表示二者之間的關(guān)聯(lián)和差異。我們稱此種顯示方法為動態(tài)顯示方法,通過上述場景圖顯示方式和前后兩次計算結(jié)果對比的動態(tài)顯示方式,可以清楚的展示前后兩次計算結(jié)果的聯(lián)系和差異,幫助用戶更好的理解場景圖及文本數(shù)據(jù)中事件之間關(guān)系,可以更有效地進(jìn)一步動態(tài)修改文本數(shù)據(jù)。專有名詞定義機(jī)會信息在keyGraph算法(機(jī)會發(fā)現(xiàn)算法)挖掘計算側(cè)重重要事件的挖掘,因此在KeyGraph算法中機(jī)會信息是指有重要價值的事件。而在本發(fā)明中挖掘計算的結(jié)果既包括有重要價值的事件,又包括有重要價值的關(guān)聯(lián)關(guān)系,因此本發(fā)明中使用的機(jī)會信息是指有重要價值的事件和關(guān)聯(lián)關(guān)系。事件參與挖掘計算的數(shù)據(jù)中的每一個元素都是一個事件,如普通文本數(shù)據(jù)中每一個詞組就是一個事件。重要事件所有事件經(jīng)過挖掘計算后得到的有重要價值的事件,針對本文,具體來講是能將不同聚類連接起來的、提供重要信息的事件。普通事件參與計算的所有事件,除去重要事件,其他事件為普通事件。關(guān)聯(lián)關(guān)系指兩個元素(事件與事件,或事件與聚類,或聚類與聚類)之間的關(guān)系, 通常按照一定計算方法(如互信息、平均互信息、共生概率、條件概率等)計算兩元素之間的關(guān)系值,若此關(guān)系值大于某一預(yù)先設(shè)定的閾值,則說二者之間有關(guān)聯(lián)關(guān)系,本發(fā)明中關(guān)聯(lián)關(guān)系使用連接線表示。重要關(guān)系所有計算得到的關(guān)聯(lián)關(guān)系中,有重要價值的關(guān)系為重要關(guān)系。針對本文,具體來說是指紅色虛線表示的關(guān)系,此關(guān)系可以將不同的聚類連接起來,可以表示出不同聚類潛在的關(guān)聯(lián)關(guān)系。聚類由多個事件兩兩連接得到的共生關(guān)系較緊密的事件及事件之間關(guān)聯(lián)關(guān)系的組合。場景圖用來顯示事件及事件之間關(guān)系的圖形,像場景一樣將各個聚類、事件以及關(guān)系清晰地展示出來,可幫助用戶理解各事件之間的關(guān)系。創(chuàng)生數(shù)據(jù)在對場景圖理解基礎(chǔ)之上,用戶根據(jù)自己的想法對原文本數(shù)據(jù)進(jìn)行數(shù)據(jù)修改(如添加、刪除等)的操作,通過這一操作用戶可以將自己的觀點、想法告訴計算機(jī), 是機(jī)會信息動態(tài)挖掘過程中很重要的一步人機(jī)交互操作。動態(tài)本文所述之動態(tài)是指文本數(shù)據(jù)的整個處理過程中,可以對文本進(jìn)行多次處理。每次處理時用戶可以根據(jù)對已計算的結(jié)果的理解再有針對性地修改文本,對修改后的文本重新進(jìn)行挖掘計算。這個可以多次對文本數(shù)據(jù)進(jìn)行修改和挖掘計算的過程就是動態(tài)的過程。
附圖1為本發(fā)明實施方式提供的基于人機(jī)交互的機(jī)會信息動態(tài)挖掘方法流程圖附圖2為本發(fā)明實施方式提供的felaxy系統(tǒng)啟動界面
附圖3為本發(fā)明實施方式提供的文本編輯交互界面附圖4為本發(fā)明實施方式提供的KeyGraph算法參數(shù)填寫界面附圖5為本發(fā)明實施方式提供的Undirected Graph Dynamic Method菜單附圖6為本發(fā)明實施方式提供的Undirected Graph Dynamic Method界面附圖7為本發(fā)明實施方式提供的Directed Graph Dynamic Method菜單附圖8為本發(fā)明實施方式提供的Directed Graph Dynamic Method界面附圖9為本發(fā)明實施方式提供的場景圖顯示示意圖附圖10為本發(fā)明實施方式提供的對實施例數(shù)據(jù)聚類生成計算結(jié)果附圖11為本發(fā)明實施方式提供的對實施例數(shù)據(jù)文本編輯情況圖附圖12為本發(fā)明實施方式提供的對實施例數(shù)據(jù)第一次挖掘計算結(jié)果附圖13為本發(fā)明實施方式提供的對實施例數(shù)據(jù)第二次挖掘計算結(jié)果附圖14為本發(fā)明實施方式提供的基于信息熵?zé)o向圖挖掘算法流程圖附圖15為本發(fā)明實施方式提供的無向圖法聚類生成模塊流程圖附圖16為本發(fā)明實施方式提供的無向圖法事件與聚類關(guān)系計算流程圖附圖17為本發(fā)明實施方式提供的無向圖法事件與聚類連接模塊流程圖附圖18為本發(fā)明實施方式提供的無向圖法對實施例數(shù)據(jù)計算結(jié)果附圖19為本發(fā)明實施方式提供的基于概率的有向圖挖掘算法流程圖附圖20為本發(fā)明實施方式提供的有向圖法聚類生成模塊流程圖附圖21為本發(fā)明實施方式提供的有向圖法事件派生關(guān)系計算流程圖附圖22為本發(fā)明實施方式提供的有向圖法事件派生關(guān)系方向計算流程附圖23為本發(fā)明實施方式提供的有向圖法對實施例數(shù)據(jù)計算結(jié)果附圖M為本發(fā)明實施方式提供的表示事件的點形狀確定流程附圖25為本發(fā)明實施方式提供的場景圖繪制流程圖
具體實施例方式為了使本發(fā)明的目的、技術(shù)方案和優(yōu)點更加清楚明白,以下舉具體實施例并參照附圖,對本發(fā)明進(jìn)行進(jìn)一步詳細(xì)的說明。為了實現(xiàn)基于人機(jī)交互的機(jī)會文本數(shù)據(jù)動態(tài)挖掘計算,基于前面介紹的技術(shù),本發(fā)明配套研究開發(fā)了完善的基于人機(jī)交互的機(jī)會信息動態(tài)挖掘可視化系統(tǒng)(felaxy),此軟件系統(tǒng)包括創(chuàng)新性的機(jī)會信息挖掘算法,提供了人性化的、便于使用的操作平臺,可幫助用戶更好的使用動態(tài)數(shù)據(jù)挖掘技術(shù)。如附圖1所示,一種基于人機(jī)交互的機(jī)會信息動態(tài)挖掘技術(shù)方案,包括步驟11,即聚類生成步驟,該步驟使用聚類生成算法對原始機(jī)會信息文本數(shù)據(jù)進(jìn)行計算,得到聚類生成結(jié)果,并用場景圖顯示;步驟12,即聚類生成結(jié)果分析理解步驟,用戶在聚類生成場景圖的幫助下對計算結(jié)果進(jìn)行分析理解,對數(shù)據(jù)中各事件的關(guān)系有初步的了解;步驟13,即文本數(shù)據(jù)修正步驟,用戶在場景圖分析理解的基礎(chǔ)上,根據(jù)自己的想法對機(jī)會信息文本數(shù)據(jù)進(jìn)行修正,如增加新文本數(shù)據(jù)等;步驟14,即新文本數(shù)據(jù)機(jī)會信息挖掘計算步驟,程序針對修正后的文本數(shù)據(jù)進(jìn)行機(jī)會信息挖掘計算,包括聚類生成計算以及事件與聚類之間關(guān)系計算,從而將各個事件、聚類和關(guān)系挖掘出來,尤其是重要事件和重要關(guān)系,并將前后兩次計算結(jié)果用場景圖動態(tài)對比顯示;步驟15,即反饋計算步驟,用戶通過對步驟14計算結(jié)果進(jìn)行理解分析,對比分析前后兩次計算結(jié)果的關(guān)聯(lián)和差異,關(guān)聯(lián)是指兩次計算結(jié)果相同的地方,包括相同的事件、相同的聚類結(jié)果、相同的機(jī)會信息挖掘結(jié)果;差異是指兩次計算結(jié)果不同的地方,包括增加的事件、減少的事件,由低頻變?yōu)楦哳l的事件、由高頻變?yōu)榈皖l的事件,增加的關(guān)聯(lián)關(guān)系、減少的關(guān)聯(lián)關(guān)系,增加的機(jī)會信息、減少的機(jī)會信息。通過對比分析判斷挖掘結(jié)果是否可正確、 可靠、充分地展示數(shù)據(jù)之間的關(guān)系并準(zhǔn)確地發(fā)現(xiàn)有重要價值的機(jī)會信息,若符合,則結(jié)束, 否則重復(fù)步驟13、步驟14和步驟15,直至獲得有價值、意義明確的文本數(shù)據(jù)和場景圖計算結(jié)果以及有重要價值的機(jī)會信息為止。此軟件系統(tǒng)對數(shù)據(jù)動態(tài)計算處理的流程如附圖2所示讀取文本數(shù)據(jù)之后可以選擇無向圖或有向圖方法進(jìn)行聚類生成計算,并用場景圖顯示;用戶對計算完成的聚類場景圖結(jié)果進(jìn)行分析理解之后,根據(jù)自己的想法有針對性的進(jìn)行文本數(shù)據(jù)的動態(tài)編輯;然后針對修改之后的文本數(shù)據(jù)進(jìn)行基于信息熵的無向圖挖掘計算或者基于概率的有向圖挖掘計算并生成場景圖;用戶繼續(xù)對此場景圖進(jìn)行分析理解,如果對計算結(jié)果挖掘的機(jī)會信息滿意則動態(tài)挖掘計算完成,否則可根據(jù)對場景圖理解繼續(xù)修改文本并重新進(jìn)行有向圖挖掘計算或無向圖挖掘計算并分析;如此反復(fù)直到用戶得到滿意的結(jié)果為止(具體計算步驟請參看發(fā)明內(nèi)容一節(jié))。此計算過程可以由場景圖同步動態(tài)顯示,可以清楚直觀地顯示前后兩次計算結(jié)果的關(guān)聯(lián)和差異,幫助用戶理解和分析(計算結(jié)果顯示方式請參看發(fā)明內(nèi)容一節(jié)場景圖顯示方法部分)。下面就對此系統(tǒng)的各種功能和算法技術(shù)進(jìn)行詳細(xì)的介紹。(ialaxy系統(tǒng)是界面友好的、可支持人機(jī)交機(jī)會信息動態(tài)挖掘的系統(tǒng)平臺。(ialaxy 系統(tǒng)包括的主要功能有(I)Galaxy系統(tǒng)除提供KeyGraph算法以外,還提供另外兩種創(chuàng)新性的、支持對文本數(shù)據(jù)動態(tài)挖掘計算的機(jī)會信息挖掘算法;(Wfelaxy提供對文本數(shù)據(jù)的可視化及交互編輯操作,用戶可以對文本數(shù)據(jù)進(jìn)行多次修改編輯,從而進(jìn)一步進(jìn)行動態(tài)挖掘計算;(3)felaXy對挖掘計算的結(jié)果提供美觀的場景圖顯示方式,可以清晰明顯的展示前后兩次計算結(jié)果的關(guān)聯(lián)和差異(動態(tài)計算結(jié)果),方便用戶①對比、②分析和③理解。附圖2是feilaxy系統(tǒng)啟動時主界面,菜單欄的New Project命令可以新建GLX工程,在工程中可以加載文本數(shù)據(jù)并進(jìn)行計算分析等;也可通過菜單欄的Open File命令或工具欄的打開按鈕打開JPG圖片文件,直接進(jìn)行已生成場景圖的理解、對比分析等。新建GLX工程并加載CSV文件后,CSV文本文件顯示效果如附圖3所示,在文本顯示界面的上半部分是文本顯示框,用來顯示所打開的文本結(jié)果;下半部分為文本編輯框,提供對文本的樣本數(shù)據(jù)動態(tài)添加功能,在文本框中輸入要增加的樣本數(shù)據(jù)內(nèi)容,點擊 Submit按鈕就可以將樣本數(shù)據(jù)“添加”到文本的末尾,顯示在文本顯示框中,點擊and Calculate按鈕可對已修改的文本進(jìn)行保存、重新計算并顯示在相應(yīng)的場景圖中,在動態(tài)挖掘處理過程中,每次計算前用戶都可以對文本數(shù)據(jù)進(jìn)行修改,它向計算機(jī)闡述用戶的想法,是動態(tài)挖掘處理中很重要的一步人機(jī)交互內(nèi)容,也是(Galaxy實現(xiàn)支持動態(tài)挖掘處理過程
很重要的一步。為了文本數(shù)據(jù)的安全,文本數(shù)據(jù)顯示框用不可編輯的模型,下面文本編輯框的使用只能向文本的末尾添加樣本數(shù)據(jù)。如果不只是想在文本末尾添加樣本數(shù)據(jù),而是要在其他的位置對文本數(shù)據(jù)進(jìn)行編輯(如刪除),可以點擊Edit File按鈕,使文本顯示框變?yōu)榭删庉嬆J剑绺綀D4所示,這樣就可以任意的編輯修改文本數(shù)據(jù)了。修改完成之后點擊Save and Calculate按鈕即可保存數(shù)據(jù)并重新計算,同時文本顯示框恢復(fù)為不可編輯狀態(tài)。在當(dāng)前有可以進(jìn)行挖掘計算文本數(shù)據(jù)的情況下(即工程中已加載CSV文本文件),菜單命令 KeyGraph Method、Undirected Graph Dynamic Method 禾Π Directed Graph Dynamic Method可用,提供三種數(shù)據(jù)挖掘算法=KeyGraph算法、基于信息熵的無向圖挖掘算法和基于概率的有向圖挖掘算法。其中KeyGraph算法是前面提到過的傳統(tǒng)的機(jī)會發(fā)現(xiàn)算法,無向圖算法和有向圖算法是本發(fā)明獨(dú)立、創(chuàng)新研究的可支持機(jī)會文本數(shù)據(jù)動態(tài)挖掘計算的算法。點擊KeyGraph Method菜單命令,可彈出如附圖4所示KeyGraph算法進(jìn)行數(shù)據(jù)挖掘計算時的界面,算法中設(shè)計了兩種參數(shù)填寫方式,一種是閾值填寫方式,需要填寫的參數(shù)有(1)高頻事件頻數(shù)閾值,(2)高頻事件重要關(guān)系閾值(即聚類閾值),(3)重要事件Key 閾值,(4)重要事件與高頻事件之間潛在關(guān)系閾值,( 自動布局方式;另一種參數(shù)填寫方式是個數(shù)填寫方式,需要輸入的參數(shù)有(1)識別的高頻事件個數(shù),(2)高頻事件重要關(guān)系個數(shù),(3)重要事件個數(shù),(4)重要事件與高頻事件關(guān)系個數(shù),(5)自動布局方式。這些參數(shù)將在算法介紹中詳細(xì)說明,這里不再贅述。附圖5是Undirected Graph Dynamic Method菜單命令,菜單中有兩個命令聚類生成計算命令和信息熵?zé)o向圖挖掘計算命令。聚類生成計算界面如附圖6 (a)所示,需要填寫參數(shù)有⑴可識別的聚類的個數(shù),⑵事件之間高互信息閾值,⑶事件高頻閾值,⑷自動布局模式;信息熵?zé)o向挖掘計算界面如圖6(b)所示,需要填寫的參數(shù)有(1)可識別的聚類個數(shù),(2)聚類生成計算時事件之間互信息閾值,(3)事件高頻閾值,(4)可提取的事件與聚類關(guān)系數(shù)量,(5)事件與聚類連接時可連接的聚類內(nèi)點的個數(shù),(6) layout布局方式。無向圖挖掘計算界面的參數(shù)(1)、( 、(;3)、(6)可以從聚類生成計算界面自動傳遞過來,用戶可以不用填寫。上述這些參數(shù)將在信息熵?zé)o向圖挖掘算法中詳細(xì)介紹,這里不再贅述。附圖7是Directed Graph Dynamic Method菜單命令,菜單中有兩個命令聚類生成計算命令和概率有向動態(tài)挖掘計算命令。聚類生成計算界面如附圖8(a)所示,需要填寫的參數(shù)有(1)可識別的聚類個數(shù),(2)聚類生成計算時事件之間共生概率閾值,(3)事件高頻閾值,(4) layout布局方式;概率有向動態(tài)挖掘計算界面如附圖8 (b)所示,需要填寫的參數(shù)有(1)可識別的聚類個數(shù),(2)聚類生成計算時事件之間共生概率閾值,(3)事件高頻閾值,(4)可確定的事件之間派生關(guān)系的數(shù)量,(5)派生關(guān)系事件最低頻率,(6) layout布局方式。有向動態(tài)挖掘計算界面的參數(shù)(1)、(2), (3)、(6)可以從聚類生成計算截面自動傳遞過來,用戶可以不用填寫。上述參數(shù)將在基于概率的有向圖挖掘算法中詳細(xì)介紹,這里不再贅述。場景圖顯示功能是支持人機(jī)交互的文本數(shù)據(jù)動態(tài)挖掘方法的顯示方式,可以將機(jī)會信息挖掘計算結(jié)果通過此方法清晰直觀的顯示出來。如果是對動態(tài)修改之后的文本數(shù)據(jù)計算結(jié)果的顯示,場景圖可以清晰直觀地展示兩次計算結(jié)果的關(guān)聯(lián)和差異,以幫助用戶分析和理解計算結(jié)果。場景圖顯示功能集成了 GraphViz算法(GraphViz是第三方提供的開源資源)的 11 種自動布局算法Circo、Dot、Fdp、Neato、Nop、Nopl、Nop2、Osage、Patchwork、 Sfdp, Twopi0用戶可以選擇其中一種進(jìn)行布局,出圖后用戶還可以根據(jù)自己的習(xí)慣進(jìn)行手動調(diào)整。算法中使用了巧妙的事件及關(guān)系表示方法,使結(jié)果的顯示更美觀,更方便用戶觀察分析和理解。為了支持(ialaxy軟件系統(tǒng)對機(jī)會文本動態(tài)挖掘的功能,在對動態(tài)修改之后的文本數(shù)據(jù)的計算結(jié)果顯示時,場景圖使用陰影點和線顯示前一次計算結(jié)果,用高亮點和線顯示本次計算結(jié)果,對于改變性質(zhì)的事件(由低頻事件變?yōu)楦哳l事件或有高頻事件變?yōu)榈皖l事件或新增加的事件)也用十分明顯的方式進(jìn)行標(biāo)記,清晰直觀地展示兩次計算結(jié)果的關(guān)聯(lián)和差異,以方便用戶查看這些動態(tài)變化,幫助用戶分析和理解計算結(jié)果、文本數(shù)據(jù)內(nèi)各事件元素的關(guān)系以及對文本數(shù)據(jù)動態(tài)挖掘的過程情況,從而更有針對性地、更有效地進(jìn)一步動態(tài)修改文本數(shù)據(jù)。如附圖9所示可以明顯的看出來事件t3由原來的高頻事件轉(zhuǎn)變?yōu)榈皖l事件;事件t6由原來的低頻事件變?yōu)楦哳l事件;事件t7為新增加低頻事件;事件M為新增加高頻事件;原來t6與t4以及t5之間的關(guān)系也消失了。下面使用一個文本數(shù)據(jù)例子用信息熵?zé)o向圖挖掘算法進(jìn)行計算處理,來介紹 (ialaxy系統(tǒng)基于人機(jī)交互的機(jī)會信息動態(tài)挖掘處理過程。(1)使用新建按鈕新建GLX工程,并添加相應(yīng)的CSV文本文件。初始文本數(shù)據(jù)為school, teaching buildingschool,teaching buildingteaching building, libraryteaching building, playgroundschool, teaching building, librarylibrary, playgroundschool, library, playgroundlibrary, playgroundschool, library,playgroundteacher, teachteacher, teachteach, tutorteach, tutorteacher, tutorteacher, tutorteacher, teachteacher, tutorstudent, studystudent, studystudent, studystudent, study
student, study( 使用菜單命令MI Method-Cluster Graph打開無向圖算法聚類計算對話框, 進(jìn)行初始數(shù)據(jù)聚類生成計算,參數(shù)設(shè)置為聚類個數(shù)為3,事件之間高互信息閾值為1. 53, 事件高頻閾值為5,布局模式選擇fdp。點擊Submit按鈕,即可生成如圖10所示的聚類生成關(guān)系圖。從聚類生成圖中可以得出如下信息school、teaching building、library和 playground確定為高頻事件并組成一個聚類;teacher、teach和tutor確定為高頻事件并組成一個聚類;student和study確定為高頻事件并組成一個聚類。對于上述結(jié)果可理解為school中因為有teaching building、library、 playground硬件設(shè)施,所以這四個事件聯(lián)系極為緊密;teacher的職責(zé)在于teach和 tutor,因此這三個事件聯(lián)系極為緊密;student與study聯(lián)系極為緊密。根據(jù)這個理解, 很容易想到“老師會在學(xué)校里上課”,于是可以使用lesson這個學(xué)校內(nèi)最常規(guī)的事件將 school的硬件設(shè)施與teacher聚類聯(lián)系起來。(3)因此我們可以向初始文本中添加如下文本teaching building, library,lessonschool,library,playground, lessonteacher, teach, lessonteacher, tutor, lesson文本編輯如附圖11所示。(4)點擊文本編輯窗口的Save and Calculate按鈕,會彈出信息熵?zé)o向圖動態(tài)挖掘計算界面。之前設(shè)置的聚類個數(shù)、事件之間高互信息閾值、事件高頻閾值以及布局方式參數(shù)都可以傳遞到此界面中,也允許用戶做參數(shù)調(diào)整,參數(shù)設(shè)置為聚類個數(shù)為3,事件之間高互信息閾值為1.53,事件高頻閾值為5,提取的事件與聚類之間的關(guān)系個數(shù)為5,可以與聚類連接的事件個數(shù)為5,布局方式設(shè)置為fdp。點擊submit按鈕進(jìn)行計算,場景圖結(jié)果如附圖12所示,從這個結(jié)果中可以很明顯的看出事件之間的關(guān)系在文本動態(tài)變化時關(guān)系相應(yīng)地發(fā)生了變化新添加的事件lesson作為低頻事件將school所在的聚類與teacher所在的聚類聯(lián)系起來了,這與我們在插入事件lesson時預(yù)想的是一樣的;另外,由于新增加的數(shù)據(jù)中也增加了事件school和事件playground的關(guān)聯(lián)程度,二者在新的計算結(jié)果中有直接的關(guān)聯(lián)關(guān)系。由上圖的結(jié)果,可以看出來student所在的聚類仍然是孤立的,很容易可以想到“學(xué)生需要完成學(xué)校的作業(yè)”,于是可以使用homework這個學(xué)校內(nèi)極為普遍的事件將 school禾口 student聯(lián)系起來。(5)根據(jù)上述理解和設(shè)想,我們可以繼續(xù)向文本中添加如下數(shù)據(jù)school, teaching building, homeworklibrary, playground, homeworkstudent, study, homework(6)完成文本編輯后點擊‘Save and Calculate”按鈕會彈出無向圖計算界面,參數(shù)設(shè)置如下聚類個數(shù)為3,事件之間高互信息閾值為1. 53,事件高頻閾值為5,提取的事件與聚類之間的關(guān)系個數(shù)為5,可以與聚類連接的事件個數(shù)為5,布局方式設(shè)置為fdp。點擊 submit按鈕進(jìn)行計算,場景圖結(jié)果如圖13所示,從這個結(jié)果中可以很明顯的看出事件之間的關(guān)系在文本動態(tài)變化時關(guān)系相應(yīng)地發(fā)生了變化新添加的事件homework作為低頻事件將school所在的聚類以及student所在的聚類聯(lián)系起來了,這與我們在插入homework事件時的預(yù)想是一樣的;新增加的文本之后,school與playground之間的關(guān)聯(lián)關(guān)系相對于其他關(guān)系有所減弱,在新數(shù)據(jù)計算中消失了。(7)如果對此場景圖用戶還有其他的想法的話,還可以繼續(xù)動態(tài)添加虛擬事件、重新計算,直到滿意為止,比如可以繼續(xù)添加事件將teacher所在聚類與student所在的聚類進(jìn)行連接等,這里不再演示。盡管目前機(jī)會信息挖掘算法涉及到動態(tài)人機(jī)交互,但使用的支持工具主要是靜態(tài) KeyGraph工具,存在盲目性。目前的動態(tài)人機(jī)交互方法仍然不規(guī)范、不系統(tǒng)、不成熟,而且沒有強(qiáng)大的軟件系統(tǒng)支持此方法,究其根本仍然是靜態(tài)挖掘的方法。本發(fā)明提出了全新的、真正的、系統(tǒng)的人機(jī)交互動態(tài)挖掘方法,并研發(fā)了 felaxy 人機(jī)交互機(jī)會文本數(shù)據(jù)動態(tài)挖掘可視化系統(tǒng)。此系統(tǒng)集成了創(chuàng)新性的機(jī)會信息挖掘算法以及多模式可視化場景圖顯示模式,是友好的、可支持人機(jī)交互的文本數(shù)據(jù)動態(tài)挖掘的系統(tǒng)平臺,填補(bǔ)了當(dāng)今沒有可支持人機(jī)交互動態(tài)挖掘系統(tǒng)平臺的空白。在(ialaxy系統(tǒng)中,對于文本數(shù)據(jù)挖掘計算的結(jié)果,用戶可進(jìn)行理解、分析,繼而有針對性地插入虛擬事件,進(jìn)一步進(jìn)行計算、分析,從而動態(tài)、徹底、透明地完成對文本數(shù)據(jù)的處理、分析。此系統(tǒng)中有兩項創(chuàng)新性可支持動態(tài)挖掘處理的機(jī)會信息挖掘計算算法,與 KeyGraph算法相比,兩個算法對數(shù)據(jù)文本的挖掘計算更準(zhǔn)確、有效,下面就對兩個算法做詳細(xì)介紹?;谇懊娼榻B的KeyGraph算法技術(shù)的不足,我們提出的一種可支持機(jī)會文本數(shù)據(jù)動態(tài)挖掘計算的算法一一基于信息熵的無向圖挖掘算法,此算法將信息熵的理論應(yīng)用到挖掘技術(shù)中,事件之間的關(guān)聯(lián)關(guān)系以及事件與聚類之間的關(guān)聯(lián)關(guān)系計算都運(yùn)用了信息熵的概念原理。無向圖算法用如下關(guān)鍵技術(shù)點解決了 KeyGraph算法技術(shù)中存在的問題(1)使用互信息作為評定事件之間關(guān)系的標(biāo)準(zhǔn),互信息的計算與概率密切相關(guān),概率的計算與文本的整體數(shù)據(jù)量有直接關(guān)系,這在一定程度上保證了無向圖算法支持動態(tài)計算的特性。(2)事件與聚類之間關(guān)系計算之前不再提取重要事件(高Key值事件),而是直接計算所有事件與所有聚類之間的關(guān)系,并將結(jié)果較大的事件與聚類進(jìn)行連接。直接針對每個事件與每個聚類進(jìn)行關(guān)系計算,且不要求事件與聚類內(nèi)所有事件同時出現(xiàn),可以很好地避免KeyGraph算法中由于Key值條件太苛刻導(dǎo)致重要事件無法識別甚至算法失效的情況。 同時不會錯過任何一個事件與聚類的強(qiáng)關(guān)系,既保證了重要事件的提取,又保證了重要關(guān)系的提取。另外,用信息熵的概念重新設(shè)計整個算法物理意義更加明確。無向圖算法大體處理流程框圖如附圖14所示。信息熵?zé)o向圖挖掘算法分為四個模塊聚類生成模塊、事件與聚類關(guān)系計算模塊、 事件與聚類連接模塊和計算結(jié)果場景圖顯示?;谛畔㈧氐木垲惿伤惴ň褪蔷垲惿赡K。聚類生成模塊流程圖如附圖15所示,具體算法如下
(1)根據(jù)下式3. 2-1計算任意兩事件之間的互信息值。
權(quán)利要求
1.一種基于人機(jī)交互的機(jī)會信息動態(tài)挖掘方法,所述方法包括如下步驟步驟11,聚類生成步驟,該步驟使用聚類生成算法對原始機(jī)會信息文本數(shù)據(jù)進(jìn)行計算, 得到聚類生成結(jié)果,并用場景圖顯示;步驟12,聚類生成結(jié)果分析理解步驟,用戶在所述場景圖的幫助下對計算結(jié)果進(jìn)行分析理解;步驟13,文本數(shù)據(jù)修正步驟,用戶在所述步驟12分析理解的基礎(chǔ)上對機(jī)會信息文本數(shù)據(jù)進(jìn)行修正,得到修正后的文本數(shù)據(jù);步驟14,新文本數(shù)據(jù)機(jī)會信息挖掘計算步驟,針對所述修正后的文本數(shù)據(jù)進(jìn)行關(guān)聯(lián)關(guān)系計算,挖掘各個事件、聚類和關(guān)系挖掘,并將前后兩次計算結(jié)果用場景圖對比動態(tài)顯示;步驟15,反饋計算步驟,用戶通過對步驟14計算結(jié)果進(jìn)行理解分析,對比分析前后兩次計算結(jié)果的關(guān)聯(lián)和差異,通過對比分析判斷挖掘結(jié)果是否可正確、可靠、充分地展示數(shù)據(jù)之間的關(guān)系并準(zhǔn)確地發(fā)現(xiàn)有重要價值的機(jī)會信息,若符合,則結(jié)束;否則重復(fù)步驟13、步驟 14和步驟15。
2.如權(quán)利要求1所述的信息文本數(shù)據(jù)的機(jī)會信息動態(tài)挖掘方法,其特征在于,所述步驟14中的新文本數(shù)據(jù)機(jī)會信息挖掘計算步驟為一種基于信息熵的無向圖挖掘方法,可具體包括如下步驟步驟21,事件互信息關(guān)系計算步驟,該步驟計算任意兩個事件之間的互信息,互信息計算公式如下IE(IiJj) = log2( ‘ “ +1) 1 P(Ii)^P(Ij)其中P (Ii, Ij)是事件Ii和事件Ij同時出現(xiàn)(即兩個事件出現(xiàn)在同一行)的概率,如果此互信息大于預(yù)先設(shè)定的互信息閾值,則這兩個事件確定為高互信息事件對,可以生成由多個事件組成的聚類;步驟22,對由步驟21計算生成的若干個聚類用如下式計算其信息量 Info(C) =Σ IEdi, Ij)其中Ii和Ij為聚類C中的元素事件,且屬于高互信息對,即二者互信息結(jié)果大于預(yù)先設(shè)定的閾值;用如下公式計算其信息密度InfoDensiC) J-^-Num其中Num為聚類C中事件元素的個數(shù); 用如下公式對聚類進(jìn)行量化CValue(C) = ------Info(C) + InfoDens(C)式整理可得到如下式CValue(C) =Num+1準(zhǔn)確地反應(yīng)聚類的價值;步驟23,聚類提取步驟,由步驟22計算得到每個聚類的價值,根據(jù)此價值對所有聚類排序,然后根據(jù)預(yù)先設(shè)定的提取聚類個數(shù)的參數(shù)提取出相應(yīng)的聚類,并根據(jù)聚類內(nèi)事件關(guān)聯(lián)關(guān)系進(jìn)行連接,同時刪除其余聚類及聚類內(nèi)事件元素之間的連接關(guān)系;步驟M,事件元素與聚類關(guān)系計算步驟,根據(jù)平均互信息理論,使用下式計算每一個事件元素與每一個聚類的關(guān)系
3.如權(quán)利要求1所述的信息文本數(shù)據(jù)的機(jī)會信息挖掘方法,其特征在于,所述算法是一種基于概率的有向圖挖掘算法,發(fā)現(xiàn)有重要價值的機(jī)會信息元素,并能支持人機(jī)交互的動態(tài)挖掘方法中對文本數(shù)據(jù)的反復(fù)動態(tài)挖掘計算,所述方法具體包括如下步驟 步驟31,事件共生關(guān)系計算步驟,根據(jù)下式計算任意兩個事件之間的共生關(guān)系
4.如權(quán)利要求1所述的基于人機(jī)交互的機(jī)會信息動態(tài)挖掘方法,其特征在于,所述場景圖顯示包括(1)為了了解數(shù)據(jù)元素的頻率信息,用戶可以設(shè)置頻數(shù)閾值,大于此閾值的確定為高頻點,在場景圖中用實心圓點表示;小于此閾值的確定為低頻點,用實心菱形點表示;同一聚類內(nèi)事件之間的關(guān)系表示為實線;聚類內(nèi)點與實線的顏色由聚類的編號確定,聚類顏色 RGB三色素與聚類編號的關(guān)系如下式所示;
5.如權(quán)利要求1所述的基于人機(jī)交互的機(jī)會信息動態(tài)挖掘方法,其特征在于,所述場景圖顯示具體包括(1)如果事件前一次計算為低頻、本次計算為高頻,則在點外緣加上綠色圓圈標(biāo)識,內(nèi)部實點顏色由事件所在聚類決定;如果前一次計算為高頻、本次計算為低頻,則在點外緣加上綠色菱形標(biāo)識,內(nèi)部實點顏色由事件所在聚類決定;如果前一次計算沒有此事件,本次計算為高頻事件,則在點外緣加上藍(lán)色圓圈標(biāo)識,內(nèi)部實點顏色由事件所在聚類決定;如果前一次計算沒有此事件,本次計算為低頻事件,則在點外緣加上藍(lán)色菱形標(biāo)識;前一次計算有、本次計算沒有的點,若前一次計算此點包含在聚類中,則使用灰色陰影實點顯示,否則使用紅色陰影實點顯示,點的形狀由其在前一次計算結(jié)果中頻率決定;(2)前一次計算有、本次計算沒有的關(guān)系連線,如果為聚類內(nèi)事件之間的關(guān)系連線,使用灰色陰影實線顯示;如果為事件與聚類之間的關(guān)系連線或事件之間的派生關(guān)系連線,使用紅色陰影虛線顯示。
6.如權(quán)利要求2所述的信息文本數(shù)據(jù)的機(jī)會信息動態(tài)挖掘方法,其特征在于,所述步驟11具體包括步驟21,步驟22,步驟23。
7.如權(quán)利要求1所述的信息文本數(shù)據(jù)的機(jī)會信息動態(tài)挖掘方法,其特征在于,所述對機(jī)會信息文本數(shù)據(jù)進(jìn)行修正包括增加新文本數(shù)據(jù)或刪除之前增加的文本數(shù)據(jù);所述關(guān)聯(lián)關(guān)系計算包括聚類生成計算以及事件與聚類之間關(guān)系計算;所述步驟14中挖掘各個事件、聚類和關(guān)系挖掘包括重要事件和重要關(guān)系。
8.如權(quán)利要求1所述的信息文本數(shù)據(jù)的機(jī)會信息動態(tài)挖掘方法,其特征在于,所述步驟15中判斷標(biāo)準(zhǔn)為用戶能否完全理解場景圖的意義,以及通過場景圖能否完全理解機(jī)會信息數(shù)據(jù)文本所描述的各個事件的意義和關(guān)系。
9.如權(quán)利要求2所述的信息文本數(shù)據(jù)的機(jī)會信息動態(tài)挖掘方法,其特征在于,所述步驟M中,事件元素與聚類之間的關(guān)系計算用于評價此事件與此聚類的關(guān)系強(qiáng)度,若事件I 包含在聚類C中則不必再進(jìn)行二者的關(guān)系計算。
10.如權(quán)利要求3所述的信息文本數(shù)據(jù)的機(jī)會信息動態(tài)挖掘方法,其特征在于,所述步驟34中,事件元素之間派生關(guān)系計算用于評價事件之間的派生關(guān)系,若兩個事件之間已經(jīng)同在一個聚類內(nèi),則不再進(jìn)行派生關(guān)系計算。
全文摘要
本發(fā)明公開了一種基于人機(jī)交互的機(jī)會信息動態(tài)挖掘方法,所述方法包括如下步驟聚類生成步驟,聚類生成結(jié)果分析理解步驟,文本數(shù)據(jù)修正步驟,新文本數(shù)據(jù)機(jī)會信息挖掘計算步驟,反饋計算步驟,直至獲得有價值、意義明確的文本數(shù)據(jù)和場景圖計算結(jié)果以及有重要價值的機(jī)會信息為止。所述方法能夠?qū)崿F(xiàn)人機(jī)交互地對機(jī)會文本數(shù)據(jù)進(jìn)行動態(tài)挖掘計算的功能,可以有效、準(zhǔn)確地挖掘文本數(shù)據(jù)中有重要價值的機(jī)會信息。
文檔編號G06F17/30GK102364466SQ20111029752
公開日2012年2月29日 申請日期2011年10月8日 優(yōu)先權(quán)日2011年10月8日
發(fā)明者姚佳, 龐旭林, 王浩, 韓冰, 黃健 申請人:王浩