欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

基于關(guān)聯(lián)規(guī)則挖掘技術(shù)挖掘建設(shè)法規(guī)領(lǐng)域數(shù)據(jù)的方法

文檔序號:6481460閱讀:236來源:國知局

專利名稱::基于關(guān)聯(lián)規(guī)則挖掘技術(shù)挖掘建設(shè)法規(guī)領(lǐng)域數(shù)據(jù)的方法
技術(shù)領(lǐng)域
:本發(fā)明涉及自然語言處理領(lǐng)域中對文本特征進行數(shù)據(jù)挖掘的方法,屬于國際專利分類(IPC)的子類G06F17/27,特別涉及基于關(guān)聯(lián)規(guī)則挖掘技術(shù)挖掘建設(shè)法規(guī)領(lǐng)域數(shù)據(jù)的方法。
背景技術(shù)
:建設(shè)法規(guī)數(shù)據(jù)是非結(jié)構(gòu)化數(shù)據(jù),面向建設(shè)法規(guī)數(shù)據(jù)的挖掘技術(shù)屬于文本挖掘技術(shù)的研究范疇。所謂文本挖掘(TextMining)是指利用數(shù)據(jù)挖掘技術(shù)從大量非結(jié)構(gòu)化的、異構(gòu)的文本集合中發(fā)現(xiàn)新穎的、潛在可用的及最終可以理解的知識(包括概念、模式、規(guī)則、規(guī)律、約束及可視化等形式)的過程。文本數(shù)據(jù)有比數(shù)值性的結(jié)構(gòu)化數(shù)據(jù)更加豐富復(fù)雜的內(nèi)涵,文本挖掘研究的主要任務(wù)是分析文本的內(nèi)容,發(fā)現(xiàn)文本數(shù)據(jù)集的特征、文本之間的相互關(guān)系和相互作用。采用的挖掘技術(shù)主要有分詞、特征選擇、降維、關(guān)聯(lián)分析、分類、聚類、推技術(shù)及文本自動摘要,它涉及多個交叉學(xué)科,包括機器學(xué)習(xí)、統(tǒng)計學(xué)、模式識別、數(shù)據(jù)分析和Web信息搜索等。Agrawal等,于1993年首先提出了挖掘顧客交易數(shù)據(jù)庫中項集間的關(guān)聯(lián)規(guī)則問題,以后諸多的研究人員對關(guān)聯(lián)規(guī)則的挖掘問題進行了大量的研究。他們的工作包括對原有的算法進行優(yōu)化,如引入隨機采樣、并行的思想等,以提高算法挖掘規(guī)則的效率;對關(guān)聯(lián)規(guī)則的應(yīng)用進行推廣。關(guān)聯(lián)規(guī)則挖掘在數(shù)據(jù)挖掘中是一個重要的課題,最近幾年已被業(yè)界所廣泛研究。1、關(guān)聯(lián)規(guī)則挖掘過程、分類及其相關(guān)算法1.1關(guān)聯(lián)規(guī)則挖掘的過程關(guān)聯(lián)規(guī)則挖掘過程主要包含兩個階段第一階段必須先從資料集合中找出所有的高頻項目組(Frequentltemsets),第二階段再由這些高頻項目組中產(chǎn)生關(guān)聯(lián)規(guī)貝U(AssociationRules)。關(guān)聯(lián)規(guī)則挖掘的第一階段必須從原始資料集合中,找出所有高頻項目組(Largeltemsets)。高頻的意思是指某一項目組出現(xiàn)的頻率相對于所有記錄而言,必須達到某一水平。一項目組出現(xiàn)的頻率稱為支持度(Support),以一個包含A與B兩個項目的2-itemset為例,我們可以經(jīng)由公式S叩闊A,爭原,=,=},(1)原始資料集z^含的事物總量求得包含(A,B)項目組的支持度,若支持度大于等于所設(shè)定的最小支持度(MinimumSupport)門檻值時,則(A,B)稱為高頻項目組。一個滿足最小支持度的k-itemset,則稱為高頻k-項目組(Frequentk-itemset),一般表示為Largek或Frequentk。算法并從Largek的項目組中再產(chǎn)生Largek+1,直到無法再找到更長的高頻項目組為止。關(guān)聯(lián)規(guī)則挖掘的第二階段是要產(chǎn)生關(guān)聯(lián)規(guī)則(AssociationRules)。從高頻項目組產(chǎn)生關(guān)聯(lián)規(guī)則,是利用前一步驟的高頻k-項目組來產(chǎn)生規(guī)則,在最小信賴度(MinimumConfidence)的條件門檻下,若一規(guī)則所求得的信賴度滿足最小信賴度,稱此規(guī)則為關(guān)聯(lián)規(guī)則。例如經(jīng)由高頻k-項目組(A,B〉所產(chǎn)生的規(guī)則AB,其信賴度可經(jīng)由公式r",ad、"中包含AB的事物總量。、Confidenc(AB)=丄^入-上l士仏"B"JD中包含(A,B)的事物總量求得,若信賴度大于等于最小信賴度,則稱AB為關(guān)聯(lián)規(guī)則。關(guān)聯(lián)規(guī)則挖掘通常比較適用與記錄中的指標取離散值的情況。如果原始數(shù)據(jù)庫中的指標值是取連續(xù)的數(shù)據(jù),則在關(guān)聯(lián)規(guī)則挖掘之前應(yīng)該進行適當(dāng)?shù)臄?shù)據(jù)離散化(實際上就是將某個區(qū)間的值對應(yīng)于某個值),數(shù)據(jù)的離散化是數(shù)據(jù)挖掘前的重要環(huán)節(jié),離散化的過程是否合理將直接影響關(guān)聯(lián)規(guī)則的挖掘結(jié)果。1.2關(guān)聯(lián)規(guī)則的分類按照不同情況,關(guān)聯(lián)規(guī)則可以進行分類如下-1.2.1基于規(guī)則中處理的變量的類別,關(guān)聯(lián)規(guī)則可以分為布爾型和數(shù)值型。布爾型關(guān)聯(lián)規(guī)則處理的值都是離散的、種類化的,它顯示了這些變量之間的關(guān)系;而數(shù)值型關(guān)聯(lián)規(guī)則可以和多維關(guān)聯(lián)或多層關(guān)聯(lián)規(guī)則結(jié)合起來,對數(shù)值型字段進行處理,將其進行動態(tài)的分割,或者直接對原始的數(shù)據(jù)進行處理,當(dāng)然數(shù)值型關(guān)聯(lián)規(guī)則中也可以包含種類變量。例如性別="女"=>職業(yè)="秘書",是布爾型關(guān)聯(lián)規(guī)則;性別?女"》avg(收入)=2300,涉及的收入是數(shù)值類型,所以是一個數(shù)值型關(guān)聯(lián)規(guī)則。1.2.2基于規(guī)則中數(shù)據(jù)的抽象層次,可以分為單層關(guān)聯(lián)規(guī)則和多層關(guān)聯(lián)規(guī)則。在單層的關(guān)聯(lián)規(guī)則中,所有的變量都沒有考慮到現(xiàn)實的數(shù)據(jù)是具有多個不同的層次的;而在多層的關(guān)聯(lián)規(guī)則中,對數(shù)據(jù)的多層性已經(jīng)進行了充分的考慮。例如舊M臺式機-〉Sony打印機,是一個細節(jié)數(shù)據(jù)上的單層關(guān)聯(lián)規(guī)則;臺式機-〉Sony打印機,是一個較高層次和細節(jié)層次之間的多層關(guān)聯(lián)規(guī)則。1.2.3基于規(guī)則中涉及到的數(shù)據(jù)的維數(shù),關(guān)聯(lián)規(guī)則可以分為單維的和多維的:在單維的關(guān)聯(lián)規(guī)則中,我們只涉及到數(shù)據(jù)的一個維,如用戶購買的物品;而在多維的關(guān)聯(lián)規(guī)則中,要處理的數(shù)據(jù)將會涉及多個維。換成另一句話,單維關(guān)聯(lián)規(guī)則是處理單個屬性中的一些關(guān)系;多維關(guān)聯(lián)規(guī)則是處理各個屬性之間的某些關(guān)系。例如啤酒=>尿布,這條規(guī)則只涉及到用戶的購買的物品;性別="女"=>職業(yè)="秘書",這條規(guī)則就涉及到兩個字段的信息,是兩個維上的一條關(guān)聯(lián)規(guī)則。1.3關(guān)聯(lián)規(guī)則挖掘的相關(guān)算法1.3.1Apriori算法使用候選項集找頻繁項集Apriori算法是一種最有影響的挖掘布爾關(guān)聯(lián)規(guī)則頻繁項集的算法。其核心是基于兩階段頻集思想的遞推算法。該關(guān)聯(lián)規(guī)則在分類上屬于單維、單層、布爾關(guān)聯(lián)規(guī)則。在這里,所有支持度大于最小支持度的項集稱為頻繁項集,簡稱頻集。該算法的基本思想是算法根據(jù)頻繁項集的概念,首先尋找1-頻繁項集A,利用l-頻繁項集A兩兩組合產(chǎn)生2-候選項集q,在q中尋找2-頻繁項集A,再利用2-頻繁項集^中有重疊部分的兩頻繁項集的兩兩組合產(chǎn)生3-候選項集q,依次下去直到某個C^為空。算法引入修剪技術(shù)來減少侯選集G的大小,即如果&中某個侯選集有一個)t-l子集不屬于A,則這個項集可以被修剪掉不再考慮,由此顯著地改進了生成頻繁項集算法的性能。然后利用置信度給出關(guān)聯(lián)規(guī)則。Apriori算法存在的主要缺陷是在尋找頻繁項集的過程中(1)最小支持度閾值的確定比較困難可能會導(dǎo)致大量候選集的產(chǎn)生;(2)需要重復(fù)的掃描數(shù)據(jù)庫W欠。優(yōu)點是在閾值不太低時算法是快速有效的,由此該算法在關(guān)聯(lián)分析中目前仍占據(jù)著主流地位。1.3.2基于劃分的算法Savasere等,設(shè)計了一個基于劃分的算法。這個算法先把數(shù)據(jù)庫從邏輯上分成幾個互不相交的塊,每次單獨考慮一個分塊并對它生成所有的頻集,然后把產(chǎn)生的頻集合并,用來生成所有可能的頻集,最后計算這些項集的支持度。這里分塊的大小選擇要使得每個分塊可以被放入主存,每個階段只需被掃描一次。而算法的正確性是由每一個可能的頻集至少在某一個分塊中是頻集保證的。該算法是可以高度并行的,可以把每一分塊分別分配給某一個處理器生成頻集。產(chǎn)生頻集的每一個循環(huán)結(jié)束后,處理器之間進行通信來產(chǎn)生全局的候選k-項集。通常這里的通信過程是算法執(zhí)行時間的主要瓶頸;而另一方面,每個獨立的處理器生成頻集的時間也是一個瓶頸。1.3.3FP-樹頻集算法FP-growth算法的基本思想算法采用分而治之的策略,在經(jīng)過第一遍掃描之后,把數(shù)據(jù)庫中的頻繁項集壓縮進一棵頻繁模式樹(FP-tree),同時依然保留其中的關(guān)聯(lián)信息,隨后再將FP-tree分化成一些條件庫,每個庫和一個長度為1的頻集相關(guān),然后再對這些條件庫分別進行頻繁項挖掘。該算法存在的主要缺陷是由于樹的構(gòu)建需要高的內(nèi)存和一定的時間,當(dāng)數(shù)據(jù)庫規(guī)模太大或支撐度閾值太低時,算法的執(zhí)行效率依然很低。主要優(yōu)點是(1)事務(wù)集壓縮成比原始數(shù)據(jù)集小得多的數(shù)據(jù)結(jié)構(gòu),避免三次及其以上掃描原始數(shù)據(jù)集;(2)基于FP-tree的挖掘算法采用模式增長的方法避免產(chǎn)生大量候選集;(3)利用分治策略將原來基于整個事務(wù)集的挖掘任務(wù)分解成若干個基于條件事務(wù)集的較小的挖掘任務(wù),使其搜索空間減少。FP-Growth算法目前還不能完全取代Apriori算法的地位。1.3.4其它關(guān)聯(lián)規(guī)則挖掘算法自1994年Agmwal等提出的著名關(guān)聯(lián)規(guī)則挖掘算法Apriori至今誕生了大量的相關(guān)研究成果。代表性的有1995年Skikant和Agrawal以概化關(guān)聯(lián)規(guī)則形式展開的研究,并提出了R-興趣度量,用來刪除冗余規(guī)則;Han對多層關(guān)聯(lián)規(guī)則的發(fā)現(xiàn)進行了研究;Savasere等人提出了分割數(shù)據(jù)的Partiton算法;1996年Cheung等首先研究了增量式發(fā)掘關(guān)聯(lián)規(guī)則,提出了FUP算法;Srikant和Agrawal引入了從既包含定量又包含范疇數(shù)據(jù)的大型關(guān)系表中挖掘定量關(guān)聯(lián)規(guī)則的問題;1997年Kamber提出了用量化屬性的靜態(tài)離散化和數(shù)據(jù)立方體挖掘多維關(guān)聯(lián)規(guī)則的方法;Zaki等提出了并行的關(guān)聯(lián)規(guī)則發(fā)現(xiàn)算法;基于距離的關(guān)聯(lián)規(guī)則發(fā)現(xiàn)算法首先由Miller等人提出;1998年Zaki研究了概念格上進行頻繁項集的關(guān)聯(lián)規(guī)則的挖掘方法;Bayardo等人做了最大頻繁模式挖掘研究;1999年P(guān)asquier等人提出了挖掘頻繁閉合項集的方法;基于約束的關(guān)聯(lián)規(guī)則發(fā)現(xiàn)在一些文獻中有所表述。2000年,不產(chǎn)生候選項集的FP-growth關(guān)聯(lián)規(guī)則挖掘方法誕生,關(guān)聯(lián)規(guī)則挖掘算法向水平和垂直兩個方向發(fā)展。GI.Webb等人給出了一種不需要發(fā)現(xiàn)頻繁項集,而直接找到用戶感興趣的關(guān)聯(lián)規(guī)則的經(jīng)典一步走方法。2001年Schuster給出了分布的關(guān)聯(lián)規(guī)則發(fā)現(xiàn)算法;基于用戶存取交易文法的序列關(guān)聯(lián)規(guī)則被發(fā)現(xiàn)。2002年Zaki等提出了在頻繁項目集上挖掘無冗余關(guān)聯(lián)規(guī)則的算法。2003年快速頻繁模式增長的關(guān)聯(lián)規(guī)則挖掘被研究。2004年應(yīng)用改進遺傳算法優(yōu)化關(guān)聯(lián)規(guī)則的挖掘被研究。2005年基于新關(guān)聯(lián)規(guī)則挖掘的入侵探測系統(tǒng)被研究。2006年蛋白序列中定量關(guān)聯(lián)規(guī)則的挖掘被研究。2007年在線關(guān)聯(lián)規(guī)則的產(chǎn)生被研究。圖象數(shù)據(jù)庫中空間關(guān)聯(lián)規(guī)則被挖掘。2008年應(yīng)用遺傳算法識別無需最小支持度的關(guān)聯(lián)規(guī)則,來自多數(shù)據(jù)源關(guān)聯(lián)規(guī)則的整合被提了出來;關(guān)聯(lián)規(guī)則被應(yīng)用于探測信譽卡欺詐行為和智能管理系統(tǒng)的研發(fā)中。2.關(guān)聯(lián)規(guī)則挖掘技術(shù)在國內(nèi)外的應(yīng)用就目前而言,關(guān)聯(lián)規(guī)則挖掘技術(shù)已經(jīng)被廣泛應(yīng)用在西方金融行業(yè)企業(yè)中,它可以成功預(yù)測銀行客戶需求。一旦獲得了這些信息,銀行就可以改善自身營銷?,F(xiàn)在銀行天天都在開發(fā)新的溝通客戶的方法。各銀行在自己的ATM機上就捆綁了顧客可能感興趣的本行產(chǎn)品信息,供使用本行ATM機的用戶了解。如果數(shù)據(jù)庫中顯示,某個高信用限額的客戶更換了地址,這個客戶很有可能新近購買了一棟更大的住宅,因此會有可能需要更高信用限額,更高端的新信用卡,或者需要一個住房改善貸款,這些產(chǎn)品都可以通過信用卡賬單郵寄給客戶。當(dāng)客戶打電話咨詢的時候,數(shù)據(jù)庫可以有力地幫助電話銷售代表。銷售代表的電腦屏幕上可以顯示出客戶的特點,同時也可以顯示出顧客會對什么產(chǎn)品感興趣。同時,一些知名的電子商務(wù)站點也從強大的關(guān)聯(lián)規(guī)則挖掘中的受益。這些電子購物網(wǎng)站使用關(guān)聯(lián)規(guī)則中規(guī)則進行挖掘,然后設(shè)置用戶有意要一起購買的捆綁包。也有一些購物網(wǎng)站使用它們設(shè)置相應(yīng)的交叉銷售,也就是購買某種商品的顧客會看到相關(guān)的另外一種商品的廣告。但是目前在我國,"數(shù)據(jù)海量,信息缺乏"是商業(yè)銀行在數(shù)據(jù)大集中之后普遍所面對的尷尬。目前金融業(yè)實施的大多數(shù)數(shù)據(jù)庫只能實現(xiàn)數(shù)據(jù)的錄入、查詢、統(tǒng)計等較低層次的功能,卻無法發(fā)現(xiàn)數(shù)據(jù)中存在的各種有用的信息,譬如對這些數(shù)據(jù)進行分析,發(fā)現(xiàn)其數(shù)據(jù)模式及特征,然后可能發(fā)現(xiàn)某個客戶、消費群體或組織的金融和商業(yè)興趣,并可觀察金融市場的變化趨勢??梢哉f,關(guān)聯(lián)規(guī)則挖掘的技術(shù)在我國的研究與應(yīng)用并不是很廣泛深入。大量研究從不同的角度對關(guān)聯(lián)規(guī)則做了擴展,將更多的因素集成到關(guān)聯(lián)規(guī)則挖掘方法之中,以此豐富關(guān)聯(lián)規(guī)則的應(yīng)用領(lǐng)域,拓寬支持管理決策的范圍。如考慮屬性之間的類別層次關(guān)系,時態(tài)關(guān)系,多表挖掘等。近年來圍繞關(guān)聯(lián)規(guī)則的研究主要集中于兩個方面,即擴展經(jīng)典關(guān)聯(lián)規(guī)則能夠解決問題的范圍,改善經(jīng)典關(guān)聯(lián)規(guī)則挖掘算法效率和規(guī)則興趣性。從己有的研究可見,關(guān)聯(lián)規(guī)則的問題已經(jīng)被深入和廣泛地研究,在各個研究方向上取得了一定的研究成果??傮w來講,關(guān)聯(lián)規(guī)則獲取的關(guān)鍵是頻繁項集的發(fā)現(xiàn),根據(jù)Apriori算法存在的問題采用如剪枝策略、抽樣策略、分而治之分片策略、建立頻繁模式樹的快速啟發(fā)式和搜索策略,采用充分利用硬件資源的分布、并行策略來改進關(guān)聯(lián)規(guī)則挖掘方法。在各種改進關(guān)聯(lián)規(guī)則的方法中新的問題也隨之產(chǎn)生,如抽取樣本的方法和抽樣復(fù)雜性估計問題,硬件資源使用的成本問題等等。因此,在當(dāng)前大規(guī)模數(shù)據(jù)庫處理任務(wù)下,設(shè)計擴展性好、效率高的關(guān)聯(lián)規(guī)則挖掘算法仍是目前關(guān)聯(lián)規(guī)則挖掘領(lǐng)域所面臨的一個主要問題和挑戰(zhàn)?,F(xiàn)有的關(guān)聯(lián)規(guī)則挖掘方法主要針對的是結(jié)構(gòu)化數(shù)據(jù),部分針對非結(jié)構(gòu)化數(shù)據(jù),但對領(lǐng)域文本這類非結(jié)構(gòu)化數(shù)據(jù)的關(guān)聯(lián)分析方法還僅限于蛋白序列,圖象數(shù)據(jù),入侵與探測等的關(guān)聯(lián)分析,對建設(shè)法規(guī)數(shù)據(jù)的關(guān)聯(lián)分析還鮮見。進行建設(shè)法規(guī)數(shù)據(jù)關(guān)聯(lián)分析的目的是為用戶對數(shù)據(jù)的查詢提供較高的査全10率和推薦相關(guān)聯(lián)的査詢內(nèi)容,離群數(shù)據(jù)的關(guān)聯(lián)分析對用戶尤其顯得重要。但是根據(jù)頻繁項集的定義,離群數(shù)據(jù)的特征通常是很難成為頻繁項集的,建設(shè)法規(guī)中離群數(shù)據(jù)的關(guān)聯(lián)關(guān)系不可能被發(fā)現(xiàn)。這些不足使得現(xiàn)有文本挖掘技術(shù)很難滿足用戶對建設(shè)法規(guī)數(shù)據(jù)進行査詢的實際需要。
發(fā)明內(nèi)容針對上述現(xiàn)有技術(shù)存在的缺陷或不足,本發(fā)明的目的在于,提供一種基于關(guān)聯(lián)規(guī)則挖掘技術(shù)挖掘建設(shè)法規(guī)領(lǐng)域數(shù)據(jù)的方法,該方法可對建設(shè)法規(guī)領(lǐng)域數(shù)據(jù)進行挖掘的過程中,對每一篇建設(shè)法規(guī)文本中的候選特征詞按其頻率從高到低降序排列,并對累計加總的頻率達到閾值來確定候選特征詞,輸出關(guān)聯(lián)規(guī)則,設(shè)定為用戶對數(shù)據(jù)的査詢提供較高的查全率和推薦相關(guān)聯(lián)的査詢內(nèi)容,解決了現(xiàn)有關(guān)聯(lián)分析技術(shù)不能對離群數(shù)據(jù)的關(guān)聯(lián)分析的技術(shù)難題。為了實現(xiàn)上述任務(wù),本發(fā)明采取如下的技術(shù)解決方案一種基于關(guān)聯(lián)規(guī)則挖掘技術(shù)挖掘建設(shè)法規(guī)領(lǐng)域數(shù)據(jù)的方法,具體包含以下步驟步驟一,生成建設(shè)法規(guī)文本向量空間模型,該建設(shè)法規(guī)文本向量空間模型定義為-",(",w,》,^,w,2),…,(。m;,"》(1)步驟二,生成建設(shè)法規(guī)數(shù)據(jù)向量空間模型,該建設(shè)法規(guī)數(shù)據(jù)的第/(/4+U+2,…,w)個特征詞的向量空間模型為—0",U,vJ(2)公式(1)和(2)中,t為特征詞,)t為文本向量空間分量中與同義詞和近義詞詞典中相對應(yīng),權(quán)值被賦予1的特征詞的個數(shù);^表示第/個特征詞在第7G、l,2,…,m)個文本的向量空間模型式中出現(xiàn)的情況,M^的取值為1或0,^=1表示特征詞(在第7個文本的特征中出現(xiàn),%=0表示特征詞^在第y個文本的特征中未出現(xiàn)。步驟三,將建設(shè)法規(guī)數(shù)據(jù)向量空間模型轉(zhuǎn)置得到建設(shè)法規(guī)數(shù)據(jù)特征向量空間模型,即生成了建設(shè)法規(guī)數(shù)據(jù)頻繁特征項集G,G={0"1,"2「,"}:步驟四,輸出建設(shè)法規(guī)數(shù)據(jù)關(guān)聯(lián)規(guī)則。參見圖3,輸出建設(shè)法規(guī)數(shù)據(jù)關(guān)聯(lián)規(guī)則流程包括如下步驟第(1)步,順序提取頻繁特征項集中的一對特征,計算特征間的關(guān)聯(lián)度^;第(2)步,判斷^是否大于等于0.6;若^大于等于0.6,可得關(guān)聯(lián)規(guī)則則輸出關(guān)聯(lián)規(guī)則到W3詞表中,并轉(zhuǎn)到第(4)步;第(3)步,若^小于0.6,則進行第(4)步;第(4)步,判斷是否到頻繁特征項集尾部,若是則結(jié)束,否則轉(zhuǎn)到第(1)步。對于新到來的文本,重復(fù)步驟一到步驟四,將在新的建設(shè)法規(guī)文本中存在而在特征詞集中不存在的新特征詞加入特征詞集,并對新文本進行標引,并對已有文本在新特征形成的維度上補零。所述的建設(shè)法規(guī)數(shù)據(jù)向量空間模型的生成包括如下步驟-1)動態(tài)建立建設(shè)法規(guī)數(shù)據(jù)同義詞、近義詞、上下位詞和關(guān)聯(lián)詞后控詞表;2)對每一篇建設(shè)法規(guī)文本中的同義詞、近義詞作為同一個特征詞處理,并賦權(quán)值l;3)將管理、監(jiān)督、條例、規(guī)定、辦法、通知規(guī)定為文本頻率高的詞,對每一篇建設(shè)法規(guī)文本除去文本特征詞頻率高的詞,余下的詞作為候選特征詞;4)將每一篇建設(shè)法規(guī)文本中的候選特征詞按其頻率從高到低降序排列,并進行累計加總;5)取閾值T為85%—95%,當(dāng)上個步驟累計加總的頻率達到閾值T時,對剩下的沒有進入累計加總的候選特征詞進行刪除,對保留下來的候選特征詞賦權(quán)值,權(quán)值為其相應(yīng)的頻率。6)匯總所有建設(shè)法規(guī)文本的特征詞形成建設(shè)法規(guī)數(shù)據(jù)特征詞集;7)將上個步驟形成的特征詞集用布爾賦值方法標引每篇文本,形成建設(shè)法規(guī)數(shù)據(jù)文本向量空間模型;8)對建設(shè)法規(guī)數(shù)據(jù)文本向量空間模型轉(zhuǎn)置得到建設(shè)法規(guī)數(shù)據(jù)特征向量空間模型,即頻繁特征項集G。本發(fā)明的基于關(guān)聯(lián)規(guī)則挖掘技術(shù)挖掘建設(shè)法規(guī)領(lǐng)域數(shù)據(jù)的方法,所帶來的技術(shù)效果如下(1)動態(tài)建立領(lǐng)域同義詞、近義詞等的后控詞表,用做構(gòu)建文本向量空間模型,引入了語義信息,還可將隨后的關(guān)聯(lián)詞納入其中,用做對關(guān)聯(lián)文本的査詢,提高了建設(shè)法規(guī)數(shù)據(jù)査詢的效果。(2)將同義詞、近義詞在一篇文本中作為同一個特征。一方面減少了文本向量空間的維度,另一方面考慮了特征的語義信息,且基于這樣的處理使得建設(shè)法規(guī)數(shù)據(jù)投影至2-3個垂直維度成為可能。(3)從每篇文檔中抽取特征,累積頻率達到85%的要求使得特征承載文檔的絕大部分信息,匯總形成的建設(shè)法規(guī)數(shù)據(jù)的特征集,為離群文檔的分類聚類和大規(guī)模建設(shè)法規(guī)數(shù)據(jù)的特征選擇提供了可能。上述分類聚類是文本分類(TextCategorization)是將用自然語言表示的文本,根據(jù)其內(nèi)容,自動指派到預(yù)先設(shè)定的類型集合中,使得一篇文本對應(yīng)類型集合中的一(幾)類的過程。分類方法只具有對數(shù)據(jù)的擴張性不具有對類別的擴張能力。文本聚類(TextClustering)是把一組數(shù)據(jù)按照相似性歸成若干類別,即"物以類聚"。它的目的是使得屬于同一類別的數(shù)據(jù)之間的距離盡可能的小,而不同類別上的數(shù)據(jù)間的距離盡可能的大。聚類方法不能很好地處理大多不具有數(shù)據(jù)和類別的擴張性,極個別的方法雖有所突破,但其它方面的性能又不理想。分類聚類指同時具有分類和聚類特性,且對數(shù)據(jù)和類別同時具有擴張功能的歸類過程。(4)很好地解決了離群數(shù)據(jù)的關(guān)聯(lián)分析問題;建設(shè)法規(guī)數(shù)據(jù)特征的關(guān)聯(lián)規(guī)則挖掘技術(shù)近零成本生成頻繁項集,生成關(guān)聯(lián)規(guī)則算法的時間復(fù)雜度為"f"一""—"1))。Apriori算法生成頻繁項集的簡單平均時間復(fù)雜度為0(5(2"+"-"1)),還要推出關(guān)聯(lián)規(guī)則。在同一數(shù)據(jù)集上的實驗表明產(chǎn)生關(guān)聯(lián)規(guī)則FP-Growth算法比Apriori算法效率高一個數(shù)量級。當(dāng)"很大時針對建設(shè)法規(guī)特征數(shù)據(jù),建設(shè)法規(guī)數(shù)據(jù)特征的關(guān)聯(lián)規(guī)則挖掘技術(shù)的效率遠高于Apriori算法和FP-Gmwth算法;建設(shè)法規(guī)數(shù)據(jù)特征的關(guān)聯(lián)規(guī)則挖掘技術(shù)還可簡捷地完成對新數(shù)據(jù)的擴展;=~7。這些都是現(xiàn)有技術(shù)不可比的。上述近零成本是指建設(shè)法規(guī)文檔向量空間模型屬于文本表示,關(guān)聯(lián)規(guī)則中的頻繁項集是在建設(shè)法規(guī)文檔向量空間模型構(gòu)建完成以后發(fā)生的,因此它的成本只包含建設(shè)法規(guī)數(shù)據(jù)的向量空間模型轉(zhuǎn)置得到建設(shè)法規(guī)數(shù)據(jù)特征的向量空間模型這個過程帶來的成本。圖1為建設(shè)法規(guī)數(shù)據(jù)向量空間模型的流程圖2是基于關(guān)聯(lián)規(guī)則挖掘技術(shù)挖掘建設(shè)法規(guī)領(lǐng)域數(shù)據(jù)流程圖3是生成建設(shè)法規(guī)數(shù)據(jù)關(guān)聯(lián)規(guī)則流程圖4是后控詞表的査詢流程圖。圖5是S-P降維方法將其嵌入到三維、二維流形中所形成的像圖,其中(a)是三維流形,(b)是二維流形。以下結(jié)合附圖和發(fā)明人給出的實施例對本發(fā)明作進一步的詳細說明。具體實施例方式基于關(guān)聯(lián)規(guī)則挖掘技術(shù)挖掘建設(shè)法規(guī)數(shù)據(jù)特征的基本流程是第一步生成建設(shè)法規(guī)文本向量空間模型,第二步生成建設(shè)法規(guī)數(shù)據(jù)向量空間模型第三步由建設(shè)法規(guī)數(shù)據(jù)向量空間模型轉(zhuǎn)置生成建設(shè)法規(guī)數(shù)據(jù)特征向量空間模型,即生成頻繁特征集,第四步進行建設(shè)法規(guī)數(shù)據(jù)關(guān)聯(lián)度計算并輸出關(guān)聯(lián)規(guī)則。(1)文本特征選擇文本特征選擇是指根據(jù)數(shù)據(jù)的微觀特性發(fā)現(xiàn)其表征的、帶有普遍性的、較高層次概念的、中觀和宏觀的知識,是對數(shù)據(jù)的概括、精煉和抽象。是識別潛在概念結(jié)構(gòu)的重要基礎(chǔ)。文本特征的選擇是從文本的候選特征中通過具體的實現(xiàn)技術(shù)選擇一個能表征文本特征的子集,相應(yīng)的實現(xiàn)技術(shù)有互信息、統(tǒng)計、交叉嫡、信息增益、特征強度、文檔頻次特征選擇和奇異值分解等方法,這些方法既簡捷又效果好?;バ畔⒂欣诋a(chǎn)生低頻特征,同時有利于數(shù)據(jù)的分類。/統(tǒng)計和交叉熵強調(diào)高頻文本特征,同時有利于數(shù)據(jù)的分類。但這三種方法都是先擁有了類別數(shù)據(jù)信息。信息增益反映的是特征在系統(tǒng)中承載的信息量,傾向于對高頻特征的選擇。特征強度強調(diào)具有相關(guān)性類別中的特征的出現(xiàn)。這五種方法都失去了語義信息,也因失去語義信息提高了特征選擇的速度。文檔頻次特征選擇方法排除了高頻和低頻特征,同時有利于數(shù)據(jù)的分類,適合于大規(guī)模數(shù)據(jù)集的特征選擇。奇異值分解得到的是綜合特征,考慮了語義信息,忽略了特征的可解釋性,不適合大規(guī)模數(shù)據(jù)集。在文本自動分類中,通常高頻特征項和低頻特征項對類別的區(qū)分能力較低。去除區(qū)分能力較低的高頻特征項和低頻特征可以提高分類正確率。但在信息檢索特別是建設(shè)法規(guī)檢索領(lǐng)域,文檔頻次較低的特征項往往被認為是信息含量較高的。對文本內(nèi)容的特征表示主要有布爾模型、向量空間模型、概率模型和基于知識的表示模型。因為布爾模型和向量空間模型易于理解且計算復(fù)雜度較低,所以成為文本表示的主要工具。向量空間模型是Salton于1975年提出的,該模型實現(xiàn)了非結(jié)構(gòu)化數(shù)據(jù)結(jié)構(gòu)化,隨后向量空間模型被成功地應(yīng)用于文本分類領(lǐng)域和信息檢索領(lǐng)域,是目前文本表示的主流方法。向量空間模型進行文本表示時,需要根據(jù)訓(xùn)練樣本集生成文本表示所需的文本表征詞集。然后依據(jù)文本表征詞集,對訓(xùn)練樣本集和測試樣本集中的各個文本進行索引、賦權(quán)和規(guī)范化等處理,將其轉(zhuǎn)化為機器學(xué)習(xí)所需的特征向量。(2)建設(shè)法規(guī)數(shù)據(jù)的文本特征選擇建設(shè)法規(guī)主題鮮明,行文結(jié)構(gòu)自成一體,語言規(guī)范簡潔。建設(shè)法規(guī)數(shù)據(jù)的高頻特征有一個特點,那就是在每篇文檔中總有管理(監(jiān)督)、條例、規(guī)定、辦法、通知等這樣的詞出現(xiàn)。低頻特征所處的文檔應(yīng)為離群數(shù)據(jù),但建設(shè)法規(guī)數(shù)據(jù)的任何一篇文本對于某個相應(yīng)的具體問題來講都是至關(guān)重要的,哪怕是單獨的一篇文本在分類中成一類也不允許將其按離群數(shù)據(jù)處理。面向建設(shè)法規(guī)數(shù)據(jù)信息的査詢應(yīng)有較高的查全率,不同于一般的査準率與查全率的折中,而且有研究表明從全局的角度來看較高的査全率和較高査準率是統(tǒng)一的。綜合建設(shè)法規(guī)數(shù)據(jù)及其服務(wù)要求和已有的特征選擇方法,確定建設(shè)法規(guī)數(shù)據(jù)特征選擇的基本原則文檔特征能忠實地反映出文檔的主要內(nèi)容,文檔特征要有利于文檔的査詢,采用文檔頻次特征選擇方法的基本思想。(3)數(shù)據(jù)關(guān)聯(lián)技術(shù)數(shù)據(jù)關(guān)聯(lián)是數(shù)據(jù)庫中存在的一類重要的可被發(fā)現(xiàn)的知識。若兩個或多個變量的取值之間存在某種規(guī)律性,就稱為關(guān)聯(lián)。關(guān)聯(lián)可分為簡單關(guān)聯(lián)、時序關(guān)聯(lián)、因果關(guān)聯(lián)。關(guān)聯(lián)分析的目的是找出數(shù)據(jù)庫中隱藏的關(guān)聯(lián)網(wǎng)。有時并不知道數(shù)據(jù)庫中數(shù)據(jù)的關(guān)聯(lián)函數(shù),即使知道也是不確定的,因此關(guān)聯(lián)分析生成的規(guī)則帶有可信度。關(guān)聯(lián)規(guī)則挖掘發(fā)現(xiàn)大量數(shù)據(jù)中項集之間有趣的關(guān)聯(lián)或相關(guān)聯(lián)系。參見圖1,生成建設(shè)法規(guī)數(shù)據(jù)向量空間模型的流程包括如下步驟1)動態(tài)建立建設(shè)法規(guī)數(shù)據(jù)同義詞、近義詞、上下位詞和關(guān)聯(lián)詞后控詞表(參見發(fā)明人在《計算機工程與設(shè)計》,第28巻,第12期的文章《建設(shè)法規(guī)政策知識庫中后控詞表檢索設(shè)計》)中對后控詞表的檢索設(shè)計,參見注釋一);注釋一后控詞表的檢索設(shè)計1、在情報檢索領(lǐng)域中,主要有三種檢索方法先控語言檢索、自然語言檢索和后控檢索。先控語言檢索是指通過規(guī)范化的詞表對系統(tǒng)輸入輸出進行控制,從而達到特定的檢索效果,詞表編制、維護成本高,難以跟上學(xué)科術(shù)語發(fā)展。自然語言檢索是以用戶的書面和口頭語言為基礎(chǔ),不經(jīng)任何控制,易用性好,主要用于自動標引,全文檢索等領(lǐng)域,但自然語言分散存在,影響査全率。后控檢索詞表是利用先控語言的原理和方法編制的自然語言(語詞)的檢索控制詞表,它主要是對自然語言中大量存在的等同關(guān)系、等級關(guān)系和大部分的相關(guān)關(guān)系進行控制或揭示,通過這些措施達到對自然語言檢索中的各種不利因素的事后控制。后控詞表的出發(fā)點是減輕用戶在檢索過程中的想詞負擔(dān),提高檢索系統(tǒng)的易用性,并為用戶調(diào)整檢索策略提供科學(xué)的輔助工具,增加?xùn)巳?、査準的可能性。在配備后控詞表的檢索系統(tǒng)中,用戶只要輸入已知的檢索詞,系統(tǒng)利用后控詞表自動地把同義詞、相關(guān)詞納入檢索式,在用戶和計算機對數(shù)據(jù)庫進行檢索的過程屮,后控詞表起到橋梁作用。它的作用涉及到檢索前延(選詞、確定檢索途徑、構(gòu)造檢索式)和檢索后的反饋調(diào)節(jié),即構(gòu)造和調(diào)整檢索策略。后控詞表實現(xiàn)了真正意義上的規(guī)范語言和自然語言的兼容,對用戶非常友好,且滿足了査全和査準的要求。2、后控詞表設(shè)計在"智能化建設(shè)法規(guī)政策知識庫"系統(tǒng)中,通過后控詞實現(xiàn)自然語言的智能査詢,并體現(xiàn)自然語言之間等同、相關(guān)和等級關(guān)系。具體詞表模式如下W0詞表中文停用詞表(詞,停用詞)W1A詞表建設(shè)法規(guī)主題詞表(詞,法規(guī)主題詞)W1B詞表建設(shè)法規(guī)案例主題詞表(詞,案例主題詞)W2詞表案例主題詞-用代詞表(關(guān)系,用代主題詞)W3詞表法規(guī)主題詞-相關(guān)詞表(關(guān)系,相關(guān)主題詞)W4詞表法規(guī)主題詞-上下位詞表(關(guān)系,上、下位主題詞)W5詞表法規(guī)主題詞-關(guān)聯(lián)詞表(關(guān)系,關(guān)聯(lián)主題詞)WO停用詞主要包括自然標點符號、虛詞、助詞、連詞及其它無檢索意義的詞。用來預(yù)處理用戶輸入的自然語言査詢,去掉一些無實際意義的詞匯和標點符號,提高分詞效率及査詢質(zhì)量??紤]到本系統(tǒng)査詢時有兩個重要的部分,建設(shè)法規(guī)和建設(shè)法規(guī)案例,前者為法規(guī),所用詞匯正式,后者為生活中的案例,所用詞匯相對生活化,然而二者又存在某種聯(lián)系,這不同于一般的智能查詢系統(tǒng)。因此,系統(tǒng)屮給出了兩個主題詞表,W1A為建設(shè)法規(guī)政策中常見主題詞,通常由相關(guān)部門統(tǒng)計后給定,為正式詞匯。W1B為建設(shè)法規(guī)案例中高頻率出現(xiàn)的詞,通常比較口語化,為相對正式的詞匯。這兩個詞表相對穩(wěn)定,也是査詢所依據(jù)的基本詞匯。W2中的用代詞可以分為同義詞之間、近義詞之間、泛指詞與專指詞之間、部分反義詞之間,本系統(tǒng)中主要指同義詞、近義詞之間。該詞表給出了W1B中案例主題詞的同義詞匯,主要解決自然語言的多樣性與給定有限詞匯之間的矛盾。使系統(tǒng)能夠盡可能多的識別自然語言詞匯。W3中的相關(guān)詞將W1A法規(guī)主題詞和W1B案例主題詞聯(lián)系起來。將案例主題詞中的"個性"抽取出來,形成"共性",與相應(yīng)的法規(guī)主題詞關(guān)聯(lián)起來。比如"房屋漏水"和"房屋裂縫",其中案例主題詞"漏水"和"裂縫"都與法規(guī)主題詞"質(zhì)量"相關(guān)。W3詞表中的相關(guān)關(guān)系是基于經(jīng)驗給定的。該18詞表實現(xiàn)了自然語言到正式詞匯的轉(zhuǎn)換。W4中上、下位詞主要指具有屬分關(guān)系的詞,用來實現(xiàn)上、下位主題詞登陸。W4體現(xiàn)了法規(guī)主題詞之間的上、下位,其關(guān)系為樹形結(jié)構(gòu)。W5中的關(guān)聯(lián)關(guān)系詞主要指通過關(guān)聯(lián)規(guī)則輸出的具有關(guān)聯(lián)關(guān)系的詞。主要解決系統(tǒng)査詢共現(xiàn)文檔的關(guān)聯(lián)推薦問題。3、后控詞表之間的關(guān)系對于用戶輸入的自然語言以及經(jīng)過處理生成的中間詞匯給出如下的定義定義80={自然語言}SlH自然語言的主題詞)S2二虔例主題詞hS2cWlB;83={法規(guī)主題詞},S3cWlA;54—法規(guī)主題詞S3中對應(yīng)的上、下位詞},S4ciW1A;55—法規(guī)主題詞S3中對應(yīng)的關(guān)聯(lián)詞hS5cW1A,W1B;因此可知,W2的關(guān)系可表示為/:S1—S2,/為相似關(guān)系;W3的關(guān)系可表示為g:S2—S3,g為相關(guān)關(guān)系;W4的關(guān)系可表示為/z:S3—S4,A為上、下位關(guān)系;W5的關(guān)系可表示為w:S3—S5,"為關(guān)聯(lián)關(guān)系;自然語言是最為活躍、變化最快的一種語言,具有多樣性,在W2關(guān)系上,對VaeSl,未必能夠找到beS2使得關(guān)系/(a^b成立。因此,當(dāng)自然語言主題詞在案例主題詞中沒有映射時,則根據(jù)詞面相似度進行模糊匹配,可能得到多個匹配詞匯,記為S2'二(案例主題詞l,案例主題詞2,……,案例主題詞/7};為了提高查準率,由用戶在S2'中選擇一個想要査詢的"案例主題詞歷",可確定S2^案例主題詞mh之后在W3中繼續(xù)進行相關(guān)査詢。19W3關(guān)系基于經(jīng)驗和專業(yè)知識,由標引人員給定,因此,對于VaeS2,總3beS2,使得g(a^b。W4關(guān)系基于專業(yè)知識,由標引人員給定,因此,對于VaeS3,總3beS4,使得A(a^b。W5關(guān)系基于關(guān)聯(lián)規(guī)則,由關(guān)聯(lián)規(guī)則挖掘算法給定,因此,對VaeS3,未必能夠找到beS5使得關(guān)系"(a)=b成立。4、智能化査詢的實現(xiàn)首先通過使用W0對用戶輸入的自然語言S0進行預(yù)處理及分詞,形成Sl,對S1在W1A中査找,如果為法規(guī)主題詞,即S3二S1,則直接通過上、下位詞表W4和W5進行登陸;否則將Sl重構(gòu)轉(zhuǎn)換成規(guī)范化的査詢詞匯S2和S3,在進行上、下位査詢。在使用W2進行同義詞査找時,如果不匹配,則根據(jù)詞面相似度進行模糊查詢。5、后控詞表的智能擴充后控詞表具有一定的自我擴充能力。本系統(tǒng)中設(shè)計了一個査詢知識儲備^,對每次査詢的結(jié)果進行保留(Sl、S3,法規(guī)編號,案例編號等)。隨著系統(tǒng)應(yīng)用,知識積累,可以對表中的知識進行相關(guān)度分析。如果在一次查詢活動中出現(xiàn)了新詞匯,則可以擴充到W2中,作為某個案例主題詞的同義詞,同時可以將具有最高檢索頻率的同義詞及其相關(guān)法規(guī)和案例作為知識儲備起來。當(dāng)知識庫記錄增多,可以用"關(guān)聯(lián)規(guī)則"對査詢知識儲備表進行數(shù)據(jù)挖掘,分析經(jīng)常一起出現(xiàn)的法規(guī)主題詞和案例主題詞,進而可以擴充W5詞表中的關(guān)聯(lián)關(guān)系。2)對每一篇建設(shè)法規(guī)文本中的同義詞、近義詞作為同一個特征詞處理,并賦權(quán)值1;3)將管理、監(jiān)督、條例、規(guī)定、辦法、通知規(guī)定為文本頻次高的詞,對每一篇建設(shè)法規(guī)文本除去上述規(guī)定的文本特征詞頻率高的詞,余下的詞作為候選特征詞;4)將每一篇建設(shè)法規(guī)文本中的候選特征詞按其頻率從高到低排列,并進行累計加總;5)累計加總的頻率達到閾值丁為85%—95%時,對剩下的沒有進入累計加總的候選特征詞進行刪除,對保留下來的候選特征詞賦權(quán)值,權(quán)值為其相應(yīng)的頻率。例如,如果閾值1選擇85%,文本的候選特征詞頻率按降序排列,將進行累計序列加總的候選特征詞作為該文本的特征詞,刪除剩下的該文本候選特征詞。閾值r應(yīng)參考以往的經(jīng)驗或抽樣實驗結(jié)果進行不斷的修正。6)匯總所有建設(shè)法規(guī)文本的特征詞形成建設(shè)法規(guī)數(shù)據(jù)的特征詞集;7)將上個步驟形成的特征詞集用布爾賦值方法標引每篇文本,形成建設(shè)法規(guī)數(shù)據(jù)文本向量空間模型;8)對建設(shè)法規(guī)數(shù)據(jù)文本向量空間模型轉(zhuǎn)置得到建設(shè)法規(guī)數(shù)據(jù)特征向量空間模型,即頻繁特征項集G。參見圖2,基于關(guān)聯(lián)規(guī)則挖掘技術(shù)挖掘建設(shè)法規(guī)領(lǐng)域數(shù)據(jù)的方法,具體包含以下步驟步驟一,生成建設(shè)法規(guī)文本向量空間模型該建設(shè)法規(guī)文本的向量空間模型定義為《-((,"W"),(/2,W,2),…U)(1)步驟二,生成建設(shè)法規(guī)數(shù)據(jù)向量空間模型,建設(shè)法規(guī)數(shù)據(jù)的第/(/="1,6+2,...,")個特征詞的向量空間模型為Ci,UJ(2)公式(1)和(2)中,t為特征詞,ik為文本向量空間分量中與同義詞和近義詞詞典中相對應(yīng),權(quán)值被賦予1的特征詞的個數(shù)。^表示第i個特征詞在第A7、l,2,…,m)個文本的向量空間模型式(2-8)中的情況,%的取值21為1或0,^-l表示特征詞f,在第/個文本的特征中出現(xiàn),%=0表示特征詞6在第/個文檔的特征中未出現(xiàn)。步驟三,將建設(shè)法規(guī)數(shù)據(jù)向量空間模型轉(zhuǎn)置得到建設(shè)法規(guī)數(shù)據(jù)特征向量空間模型,即生成了建設(shè)法規(guī)數(shù)據(jù)頻繁特征項集G,G=^/=yt+l,;t+2,..,"}:步驟四,參見圖3,輸出建設(shè)法規(guī)數(shù)據(jù)關(guān)聯(lián)規(guī)則。輸出建設(shè)法規(guī)數(shù)據(jù)關(guān)聯(lián)規(guī)則流程包括如下步驟第(1)步,順序提取頻繁特征項集中的一對特征,計算特征間的關(guān)聯(lián)度^;第(2)步,判斷^是否大于等于0.6;若^大于等于0.6,則輸出關(guān)聯(lián)規(guī)則到W3詞表(后控詞表中的法規(guī)主題詞——相關(guān)詞表,參見上述注釋一)中,并轉(zhuǎn)到第(4)步;第(3)步,若s,/j、于fl《則進行第(4)步;第(4)步,判斷是否到頻繁特征項集尾部,若是則結(jié)束,否則轉(zhuǎn)到第(1)步。對新到來的文本,重復(fù)步驟一至步驟四的過程,如果出現(xiàn)了在新文本中有而在特征詞集中不存在的新特征詞,將新特征詞并入特征詞集,然后對新文本進行標引,并對已有文本在新特征詞形成的維度上補零。實施例1:第一步由于各省市的建設(shè)法規(guī)數(shù)據(jù)具有很強的共性,故采用整群抽樣策略抽取了陜西省自1949年以來容量為250建設(shè)法規(guī)文本數(shù)據(jù);第二步對每一篇建設(shè)法規(guī)文本除去上述規(guī)定的文本特征詞頻率高的詞,余下的詞作為候選特征詞;第三步對每篇文本統(tǒng)計其候選特征詞并按頻率排序,當(dāng)累計頻率達到85%時截尾;第四步匯總所有文本的特征形成特征詞容量為362的特征詞集;第五步用布爾賦值方法標引每篇文檔,形成文本向量空間模型;第六步文本向量空間模型轉(zhuǎn)置得到特征向量空間模型集合;第七步從特征向量空間模型集合中順序抽取特征,應(yīng)用程序計算兩兩特征關(guān)聯(lián)度,取關(guān)聯(lián)度大于等于0.6的相關(guān)特征,獲得相關(guān)特征的關(guān)聯(lián)度結(jié)果如表l。表l相關(guān)特征及其關(guān)聯(lián)度<table>tableseeoriginaldocumentpage23</column></row><table><table>tableseeoriginaldocumentpage24</column></row><table>客運公共交通0.9客運車輛0.71429資質(zhì)等級0.61404改建新建0.71429擴建G.75公路0.6路產(chǎn)0.75超限運輸0.75安裝水箱0.71429更換0.71429高層建筑抗震0.625專項審査0.75分類0.75古遺址古城墻1文物保護0.6第八步輸出關(guān)聯(lián)規(guī)則,結(jié)果如表2。表2關(guān)聯(lián)規(guī)則表廣告^銷售,代理,交付重大事故3現(xiàn)場保護防災(zāi)^災(zāi)害,加固,恢復(fù)燃氣工程3燃氣保養(yǎng)=>客運車輛,運營商品房3預(yù)售器具-排査,整改,燃氣,燃燒器具設(shè)置權(quán)3廣告供熱^分戶控制,分戶計量古城墻3文物保護生活垃圾^無害化,減量化,市容文物保護3國家定價無害化^減量化,綜合利用水源3飲用水中介-原則,銷售條件,代理,交付增值稅3營業(yè)稅公路3路產(chǎn),超限運輸營業(yè)稅3義務(wù)歷史文化3文物保護,風(fēng)景名勝區(qū)產(chǎn)權(quán)轉(zhuǎn)移3印花稅社會穩(wěn)定3安全隱患,重大事故評標=>中標分戶控制3分戶計量,新技術(shù)公廁=>保潔房改委3補貼,公積金,租金改革轉(zhuǎn)讓3出讓公積金3租金改革,繳存照明設(shè)施3更換工程款3農(nóng)民工工資,開工城市3規(guī)劃選址3人造景點,國家定價運營-排査,整改排査3整改,調(diào)查處理,程序開標=>評標,中標產(chǎn)品稅=>增值稅,營業(yè)稅,義務(wù)修繕3異產(chǎn),毗連招標3投標,開標,評標,中標工程3施工投標3開標,評標,中標供水3水質(zhì),水資源人造景點-文物保護,國家定價水質(zhì)3監(jiān)測,水源,飲用水滑坡3防御,搶險,救災(zāi)防治=>滑坡,搶險,救災(zāi)高層建筑=>抗震,專項審査,分類白蟻3防治,限期整頓公共交通3乘坐規(guī)則,公共汽電車,客運車輛安全隱患3排査,整改中介服務(wù)3銷售條件,代理,交付異產(chǎn)3毗連25<table>tableseeoriginaldocumentpage26</column></row><table>第九步,結(jié)束。實施例中基于這樣的處理,使得建設(shè)法規(guī)數(shù)據(jù)投影示例整群抽取陜西省自1949年以來建設(shè)法規(guī)數(shù)據(jù)的250個樣本(維度為368)數(shù)據(jù)集,應(yīng)用向量模型表示,并通過S-P降維方法將其嵌入到三維、二維流形中,形成的像集如圖5(a)、(圖5(b)所示。權(quán)利要求1、基于關(guān)聯(lián)規(guī)則挖掘技術(shù)挖掘建設(shè)法規(guī)領(lǐng)域數(shù)據(jù)的方法,具體包含以下步驟步驟一,生成建設(shè)法規(guī)文本向量空間模型,該建設(shè)法規(guī)文本向量空間模型定義為di=((t1,wi1),(t2,wi2),…,(tn,win))(1)步驟二,生成建設(shè)法規(guī)數(shù)據(jù)向量空間模型,建設(shè)法規(guī)數(shù)據(jù)的第i(i=k+1,k+2,…,n)個特征詞的向量空間模型為ti=(wi1,wi2,…,wim)(2)公式(1)和(2)中,t為特征詞,k為文本向量空間分量中與同義詞和近義詞詞典中相對應(yīng),權(quán)值被賦予1的特征詞的個數(shù);wij表示第i個特征詞在第j(j=1,2,…,m)個文本的向量空間模型式中出現(xiàn)的情況,wij的取值為1或0,wij=1表示特征詞ti在第j個文本的特征中出現(xiàn),wij=0表示特征詞ti在第j個文本的特征中未出現(xiàn);步驟三,將建設(shè)法規(guī)數(shù)據(jù)向量空間模型轉(zhuǎn)置得到建設(shè)法規(guī)數(shù)據(jù)特征向量空間模型,即生成了建設(shè)法規(guī)數(shù)據(jù)頻繁特征項集G,G={ti|i=k+1,k+2,…,n};步驟四,輸出建設(shè)法規(guī)數(shù)據(jù)關(guān)聯(lián)規(guī)則,輸出建設(shè)法規(guī)數(shù)據(jù)關(guān)聯(lián)規(guī)則流程包括如下步驟第(1)步,順序提取頻繁特征項集中的一對特征,計算特征間的關(guān)聯(lián)度εij;第(2)步,判斷εij是否大于等于0.6;若εij大于等于0.6,可得關(guān)聯(lián)規(guī)則<mathsid="math0001"num="0001"><math><![CDATA[<mrow><mo>'</mo><msub><mi>t</mi><mi>i</mi></msub><mo>&DoubleRightArrow;</mo><msub><mi>t</mi><mi>j</mi></msub><mo>'</mo><mo>;</mo></mrow>]]></math>id="icf0001"file="A2009100239910002C1.tif"wi="19"he="5"top="224"left="31"img-content="drawing"img-format="tif"orientation="portrait"inline="yes"/></maths>則輸出關(guān)聯(lián)規(guī)則到W3詞表中,并轉(zhuǎn)到第(4)步;第(3)步,若εij小于0.6,則進行第(4)步;第(4)步,判斷是否到頻繁特征項集尾部,若是則結(jié)束,否則轉(zhuǎn)到第(1)步。2、如權(quán)利要求1所述的方法,其特征在于,對于新到來的文本,重復(fù)步驟一到步驟四,將在新的建設(shè)法規(guī)文本中存在而在特征詞集中不存在的新特征詞加入特征詞集,并對新文本進行標引,并對己有文本在新特征形成的維度上補零。3、如權(quán)利要求1所述的方法,其特征在于,所述的建設(shè)法規(guī)數(shù)據(jù)向量空間模型的生成包括如下步驟1)動態(tài)建立建設(shè)法規(guī)數(shù)據(jù)同義詞、近義詞、上下位詞和關(guān)聯(lián)詞后控詞表;2)對每一篇建設(shè)法規(guī)文本中的同義詞、近義詞作為同一個特征詞處理,并賦權(quán)值1;3)將管理、監(jiān)督、條例、規(guī)定、辦法、通知規(guī)定為文本頻率高的詞,對每一篇建設(shè)法規(guī)文本除去文本特征詞頻率高的詞,余下的詞作為候選特征詞;4)將每一篇建設(shè)法規(guī)文本中的候選特征詞按其頻率從高到低降序排列,并進行累計加總;5)取閾值T為85%—95%,當(dāng)上個步驟累計加總的頻率達到閾值T時,對剩下的沒有進入累計加總的候選特征詞進行刪除,對保留下來的候選特征詞賦權(quán)值,權(quán)值為其相應(yīng)的頻率。6)匯總所有建設(shè)法規(guī)文本的特征詞形成建設(shè)法規(guī)數(shù)據(jù)特征詞集;7)將上個步驟形成的特征詞集用布爾賦值方法標引每篇文本,形成建設(shè)法規(guī)數(shù)據(jù)文本向量空間模型;8)對建設(shè)法規(guī)數(shù)據(jù)文本向量空間模型轉(zhuǎn)置得到建設(shè)法規(guī)數(shù)據(jù)特征向量空間模型,即頻繁特征項集G。全文摘要本發(fā)明公開了一種基于關(guān)聯(lián)規(guī)則挖掘技術(shù)挖掘建設(shè)法規(guī)領(lǐng)域數(shù)據(jù)的方法,第一步生成建設(shè)法規(guī)文本向量空間模型,第二步生成建設(shè)法規(guī)數(shù)據(jù)向量空間模型第三步由建設(shè)法規(guī)數(shù)據(jù)向量空間模型轉(zhuǎn)置生成建設(shè)法規(guī)數(shù)據(jù)特征向量空間模型,即生成頻繁特征集,第四步進行建設(shè)法規(guī)數(shù)據(jù)關(guān)聯(lián)度計算并輸出關(guān)聯(lián)規(guī)則。該方法可對建設(shè)法規(guī)領(lǐng)域數(shù)據(jù)進行挖掘,為用戶對數(shù)據(jù)的查詢提供較高的查全率和推薦相關(guān)聯(lián)的查詢內(nèi)容,解決了現(xiàn)有關(guān)聯(lián)分析技術(shù)不能對離群數(shù)據(jù)的關(guān)聯(lián)分析的技術(shù)難題。文檔編號G06F17/30GK101655857SQ20091002399公開日2010年2月24日申請日期2009年9月18日優(yōu)先權(quán)日2009年9月18日發(fā)明者侯筱婷,蘇變萍,董麗麗,金維興申請人:西安建筑科技大學(xué)
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
抚远县| 德兴市| 聊城市| 长白| 赫章县| 图木舒克市| 江永县| 台安县| 株洲县| 汝城县| 黎城县| 星子县| 张家口市| 荆门市| 翼城县| 安塞县| 宣威市| 阿图什市| 沈丘县| 古丈县| 青海省| 长岛县| 岳阳市| 郯城县| 芒康县| 上虞市| 和平区| 云林县| 阳高县| 瑞昌市| 永春县| 桐柏县| 西林县| 凌云县| 博罗县| 长乐市| 临桂县| 金门县| 绥阳县| 二手房| 泽库县|