專利名稱:基于語(yǔ)義本體的噪聲數(shù)據(jù)清洗方法
技術(shù)領(lǐng)域:
本發(fā)明涉及數(shù)據(jù)庫(kù),語(yǔ)義搜索,信息檢索領(lǐng)域,特別是涉及一種基于語(yǔ)義本體的噪 聲數(shù)據(jù)清洗方法。
背景技術(shù):
近年來(lái),數(shù)據(jù)倉(cāng)庫(kù)需要保證數(shù)據(jù)的正確性、一致性、完整性和可靠性,然而現(xiàn)有的 業(yè)務(wù)系統(tǒng)對(duì)數(shù)據(jù)的操作存在很多的問(wèn)題,容易產(chǎn)生臟數(shù)據(jù),主要原因有濫用縮寫(xiě)詞和慣用 語(yǔ)、數(shù)據(jù)輸入錯(cuò)誤、數(shù)據(jù)中的內(nèi)嵌控制信息、相似重復(fù)記錄、相似矛盾記錄、缺省值、拼寫(xiě)變 化、不同的計(jì)量單位、過(guò)時(shí)的編碼等。這些臟數(shù)據(jù)可能導(dǎo)致操作費(fèi)用昂貴、決策制定失敗甚 至錯(cuò)誤等。因此數(shù)據(jù)提取與轉(zhuǎn)換過(guò)程中必須對(duì)臟數(shù)據(jù)進(jìn)行有效處理,確保數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù) 的質(zhì)量。這個(gè)過(guò)程一般稱作數(shù)據(jù)清洗?,F(xiàn)在市場(chǎng)上已有很多數(shù)據(jù)清洗工具。這些工具一般 由兩部分組成檢測(cè)工具和轉(zhuǎn)換工具。用戶先用檢測(cè)工具檢查數(shù)據(jù)中的錯(cuò)誤,然后編寫(xiě)腳本 或者使用提取轉(zhuǎn)換工具去轉(zhuǎn)換數(shù)據(jù),修正錯(cuò)誤并且將數(shù)據(jù)轉(zhuǎn)換成分析所需要的格式。然而 傳統(tǒng)的基于文本相似函數(shù)的數(shù)據(jù)清洗方法過(guò)于關(guān)注數(shù)據(jù)的表現(xiàn),而無(wú)法發(fā)現(xiàn)數(shù)據(jù)間語(yǔ)義上 的關(guān)聯(lián),不能分辨同義詞等數(shù)據(jù)現(xiàn)象,所以難以在數(shù)據(jù)清洗中獲得更好的性能。
發(fā)明內(nèi)容
為克服現(xiàn)有技術(shù)的無(wú)法發(fā)現(xiàn)數(shù)據(jù)間語(yǔ)義上的關(guān)聯(lián),不能分辨同義詞等數(shù)據(jù)現(xiàn)象, 難以在數(shù)據(jù)清洗中獲得好性能的缺點(diǎn),本發(fā)明提供了一種能夠發(fā)現(xiàn)數(shù)據(jù)間語(yǔ)義的關(guān)聯(lián)、能 分辨同義詞,保證在數(shù)據(jù)清洗中獲得好性能的基于語(yǔ)義本體的噪聲數(shù)據(jù)清洗方法?;谡Z(yǔ)義本體的噪聲數(shù)據(jù)清洗方法,包括以下步驟
1)、建立一個(gè)存儲(chǔ)不含噪聲的干凈數(shù)據(jù)的干凈數(shù)據(jù)庫(kù);獲取待清洗的文本數(shù)據(jù),對(duì)待清 洗數(shù)據(jù)進(jìn)行預(yù)處理以獲取結(jié)構(gòu)化數(shù)據(jù),所述的結(jié)構(gòu)化數(shù)據(jù)組成文本數(shù)據(jù)的詞的集合
(1.1)將待清洗數(shù)據(jù)進(jìn)行分詞,并將所有詞轉(zhuǎn)換為統(tǒng)一的編碼形式;
(1. 2)將具有統(tǒng)一編碼形式的數(shù)據(jù)根據(jù)數(shù)據(jù)字典消除不一致的數(shù)據(jù)、獲得標(biāo)準(zhǔn)化數(shù)
據(jù);
(1. 3)對(duì)該標(biāo)準(zhǔn)化數(shù)據(jù)進(jìn)行一致性校驗(yàn),將內(nèi)容上的明顯錯(cuò)誤進(jìn)行修改,如應(yīng)該相同的 數(shù)據(jù)是否一致或者某些屬性是否與可參考的外部數(shù)據(jù)一致; (1. 4)將完全相同的詞進(jìn)行去重操作,從而獲得結(jié)構(gòu)化數(shù)據(jù);
2)、引入知識(shí)網(wǎng)絡(luò)的語(yǔ)義概念,獲取每?jī)蓚€(gè)詞的語(yǔ)義相似度; (2. 1)分別獲取每個(gè)詞所表達(dá)的概念、和描述每個(gè)概念的義原;
(2. 2)獲取任意兩個(gè)獨(dú)立的詞,分別計(jì)算兩個(gè)詞的每個(gè)概念下的義原之間的相似度,兩 個(gè)義原的相似度用他們的語(yǔ)義距離來(lái)衡量;尋找兩個(gè)概念之間的最大義原相似度和最小義 原相似度,兩個(gè)概念之間的相似度為最大義原相似度和最小義原相似度的均值;尋找兩個(gè) 詞之間的最大概念相似度,將最大概念相似度作為兩個(gè)詞的語(yǔ)義相似度;
3)、利用兩個(gè)詞的語(yǔ)義相似度作為距離度量,使用K-means算法,對(duì)詞進(jìn)行自動(dòng)聚類,
4識(shí)別出噪聲數(shù)據(jù);
4)、在噪聲數(shù)據(jù)中尋找引起噪聲的語(yǔ)義本體,對(duì)引起噪聲的語(yǔ)義本體進(jìn)行矯正、以獲取 干凈數(shù)據(jù),將干凈數(shù)據(jù)存入干凈數(shù)據(jù)庫(kù)中。進(jìn)一步,在步驟3)和步驟5)的聚類和矯正的過(guò)程中,獲取噪聲數(shù)據(jù)關(guān)于語(yǔ)義本體 和數(shù)據(jù)屬性的分布,通過(guò)統(tǒng)計(jì)對(duì)噪聲數(shù)據(jù)的產(chǎn)生過(guò)程建模、以形成噪聲數(shù)據(jù)的產(chǎn)生原因的 分析庫(kù)。進(jìn)一步,步驟3)中進(jìn)行聚類、識(shí)別噪聲數(shù)據(jù)包含以下步驟 (3. 1)隨機(jī)獲取K個(gè)詞作為質(zhì)心,設(shè)定相似度閾值;
(3. 2)將剩余的每個(gè)詞分別測(cè)量其到各個(gè)質(zhì)心的距離,并將該詞歸入與其距離最短的 質(zhì)心的類中;
(3. 3)重新計(jì)算已經(jīng)得到的各個(gè)類的質(zhì)心;判斷新的質(zhì)心與原質(zhì)心的距離是否等于或 小于相似度閾值,若是,則進(jìn)入步驟4);若否,則返回步驟(3. 2);
(3.4)遠(yuǎn)離各個(gè)質(zhì)心而無(wú)法歸于任一質(zhì)心的類中的剩余數(shù)據(jù)即為噪聲數(shù)據(jù)。進(jìn)一步,步驟4)中尋找引起噪聲的語(yǔ)義本體,矯正噪聲數(shù)據(jù)的方法包括以下步 驟
(4. 1)、獲取一個(gè)噪聲數(shù)據(jù),判斷噪聲數(shù)據(jù)中是否有某個(gè)字段明顯偏離聚類質(zhì)心而導(dǎo)致 鼓勵(lì),若是,則認(rèn)為該字段為引起噪聲的語(yǔ)義本體;若否,則獲取該噪聲數(shù)據(jù)的所有字段,將 該噪聲數(shù)據(jù)的各個(gè)字段分別丟棄后進(jìn)行聚類,若某個(gè)字段被丟棄后,此數(shù)據(jù)點(diǎn)仍然為噪聲, 則認(rèn)為該被丟棄的字段為非噪聲語(yǔ)義本體;若某個(gè)字段被丟棄后,此數(shù)據(jù)點(diǎn)不再稱為噪聲, 則該被丟棄的字段為引起噪聲的語(yǔ)義本體;
(4. 2)去除該引起噪聲的語(yǔ)義本體,將該噪聲數(shù)據(jù)重新聚類以歸入與其距離最短的質(zhì) 心的類中;
(4. 3)將步驟(4. 2)中的質(zhì)心類中的原有的詞的語(yǔ)義本體屬性的數(shù)據(jù)值求平均,將此平 均值作為噪聲數(shù)據(jù)的語(yǔ)義本體屬性,則認(rèn)為噪聲數(shù)據(jù)被矯正形成干凈數(shù)據(jù);重復(fù)執(zhí)行步驟 (4. 1)至(4. 3)直到所有噪聲數(shù)據(jù)被矯正完成。隨著語(yǔ)義分析技術(shù)的提出,人們開(kāi)始關(guān)注數(shù)據(jù)背后潛在的語(yǔ)義內(nèi)容,于是本發(fā)明 提出了一種基于語(yǔ)義本體的數(shù)據(jù)清洗方法,在數(shù)據(jù)檢測(cè)過(guò)程中引入了語(yǔ)義概念,使得不同 的數(shù)據(jù)元之間出現(xiàn)了語(yǔ)義上的關(guān)聯(lián),從而可以使得文本的聚類更為有效,也使聚類可以得 到更為直觀的解釋,能更準(zhǔn)確地識(shí)別出噪聲數(shù)據(jù)。噪聲數(shù)據(jù)通常被認(rèn)為包含了錯(cuò)誤數(shù)據(jù)或存在偏離期望的孤點(diǎn)值,而除掉錯(cuò)誤或偏 離的那一部分以外的其它數(shù)據(jù),仍然對(duì)于數(shù)據(jù)庫(kù)是有效的。如果直接刪除噪聲數(shù)據(jù)將損失 部分有效信息,利用干凈數(shù)據(jù)對(duì)錯(cuò)誤或偏離數(shù)據(jù)進(jìn)行矯正,從而避免這種數(shù)據(jù)資源的浪費(fèi)。 而數(shù)據(jù)矯正的前提就是判斷數(shù)據(jù)到底在哪個(gè)屬性上發(fā)生了偏離,即找到引起噪聲的語(yǔ)義本 體。當(dāng)聚類產(chǎn)生的一個(gè)噪聲數(shù)據(jù)點(diǎn)中,很明顯的有某個(gè)字段與聚類中心偏離而導(dǎo)致孤 立時(shí),這一字段便可立即被判斷為引起噪聲的語(yǔ)義本體。而當(dāng)一個(gè)噪聲數(shù)據(jù)點(diǎn)中沒(méi)有明顯 的單獨(dú)偏離的一個(gè)字段時(shí),引起噪聲的語(yǔ)義本體就需要更多分析。根據(jù)“噪聲記錄去除非噪 聲屬性后的仍然是噪聲記錄”這一原則,將此噪聲數(shù)據(jù)點(diǎn)的各個(gè)字段分別丟棄后進(jìn)行聚類, 若某個(gè)字段被丟棄后,此數(shù)據(jù)點(diǎn)仍然為噪聲,則該字段非噪聲屬性;若某個(gè)字段被丟棄后,此數(shù)據(jù)點(diǎn)不再成為噪聲,則該字段即引起噪聲的語(yǔ)義本體。本發(fā)明具有能夠發(fā)現(xiàn)數(shù)據(jù)間語(yǔ)義的關(guān)聯(lián)、能分辨同義詞,保證在數(shù)據(jù)清洗中獲得 好性能的優(yōu)點(diǎn)。
圖1是本發(fā)明的流程圖。
具體實(shí)施例方式參照附圖,進(jìn)一步說(shuō)明本發(fā)明
基于語(yǔ)義本體的噪聲數(shù)據(jù)清洗方法,包括以下步驟
1)、建立一個(gè)存儲(chǔ)不含噪聲的干凈數(shù)據(jù)的干凈數(shù)據(jù)庫(kù);獲取待清洗的文本數(shù)據(jù),對(duì)待清 洗數(shù)據(jù)進(jìn)行預(yù)處理以獲取結(jié)構(gòu)化數(shù)據(jù),所述的結(jié)構(gòu)化數(shù)據(jù)組成文本數(shù)據(jù)的詞的集合
(1.1)將待清洗數(shù)據(jù)進(jìn)行分詞,并將所有詞轉(zhuǎn)換為統(tǒng)一的編碼形式;
(1. 2)將具有統(tǒng)一編碼形式的數(shù)據(jù)根據(jù)數(shù)據(jù)字典消除不一致的數(shù)據(jù)、獲得標(biāo)準(zhǔn)化數(shù)
據(jù);
(1. 3)對(duì)該標(biāo)準(zhǔn)化數(shù)據(jù)進(jìn)行一致性校驗(yàn),將內(nèi)容上的明顯錯(cuò)誤進(jìn)行修改,如應(yīng)該相同的 數(shù)據(jù)是否一致或者某些屬性是否與可參考的外部數(shù)據(jù)一致; (1. 4)將完全相同的詞進(jìn)行去重操作,從而獲得結(jié)構(gòu)化數(shù)據(jù);
2)、引入知識(shí)網(wǎng)絡(luò)的語(yǔ)義概念,獲取每?jī)蓚€(gè)詞的語(yǔ)義相似度; (2. 1)分別獲取每個(gè)詞所表達(dá)的概念、和描述每個(gè)概念的義原;
(2. 2)獲取任意兩個(gè)獨(dú)立的詞,分別計(jì)算兩個(gè)詞的每個(gè)概念下的義原之間的相似度,兩 個(gè)義原的相似度用他們的語(yǔ)義距離來(lái)衡量;尋找兩個(gè)概念之間的最大義原相似度和最小義 原相似度,兩個(gè)概念之間的相似度為最大義原相似度和最小義原相似度的均值;尋找兩個(gè) 詞之間的最大概念相似度,將最大概念相似度作為兩個(gè)詞的語(yǔ)義相似度;
3)、利用兩個(gè)詞的語(yǔ)義相似度作為距離度量,使用K-means算法,對(duì)詞進(jìn)行自動(dòng)聚類, 識(shí)別出噪聲數(shù)據(jù);
4)、在噪聲數(shù)據(jù)中尋找引起噪聲的語(yǔ)義本體,對(duì)引起噪聲的語(yǔ)義本體進(jìn)行矯正、以獲取 干凈數(shù)據(jù),將干凈數(shù)據(jù)存入干凈數(shù)據(jù)庫(kù)中。在步驟3)和步驟5)的聚類和矯正的過(guò)程中,獲取噪聲數(shù)據(jù)關(guān)于語(yǔ)義本體和數(shù)據(jù) 屬性的分布,通過(guò)統(tǒng)計(jì)對(duì)噪聲數(shù)據(jù)的產(chǎn)生過(guò)程建模、以形成噪聲數(shù)據(jù)的產(chǎn)生原因的分析庫(kù)。步驟3)中進(jìn)行聚類、識(shí)別噪聲數(shù)據(jù)包含以下步驟 (3. 1)隨機(jī)獲取K個(gè)詞作為質(zhì)心,設(shè)定相似度閾值;
(3. 2)將剩余的每個(gè)詞分別測(cè)量其到各個(gè)質(zhì)心的距離,并將該詞歸入與其距離最短的 質(zhì)心的類中;
(3. 3)重新計(jì)算已經(jīng)得到的各個(gè)類的質(zhì)心;判斷新的質(zhì)心與原質(zhì)心的距離是否等于或 小于相似度閾值,若是,則進(jìn)入步驟4);若否,則返回步驟(3. 2);
(3.4)遠(yuǎn)離各個(gè)質(zhì)心而無(wú)法歸于任一質(zhì)心的類中的剩余數(shù)據(jù)即為噪聲數(shù)據(jù)。步驟4)中尋找引起噪聲的語(yǔ)義本體,矯正噪聲數(shù)據(jù)的方法包括以下步驟
(4. 1)、獲取一個(gè)噪聲數(shù)據(jù),判斷噪聲數(shù)據(jù)中是否有某個(gè)字段明顯偏離聚類質(zhì)心而導(dǎo)致
6鼓勵(lì),若是,則認(rèn)為該字段為引起噪聲的語(yǔ)義本體;若否,則獲取該噪聲數(shù)據(jù)的所有字段,將 該噪聲數(shù)據(jù)的各個(gè)字段分別丟棄后進(jìn)行聚類,若某個(gè)字段被丟棄后,此數(shù)據(jù)點(diǎn)仍然為噪聲, 則認(rèn)為該被丟棄的字段為非噪聲語(yǔ)義本體;若某個(gè)字段被丟棄后,此數(shù)據(jù)點(diǎn)不再稱為噪聲, 則該被丟棄的字段為引起噪聲的語(yǔ)義本體;
(4. 2)去除該引起噪聲的語(yǔ)義本體,將該噪聲數(shù)據(jù)重新聚類以歸入與其距 離最短的質(zhì) 心的類中;
(4. 3)將步驟(4. 2)中的質(zhì)心類中的原有的詞的語(yǔ)義本體屬性的數(shù)據(jù)值求平均,將此平 均值作為噪聲數(shù)據(jù)的語(yǔ)義本體屬性,則認(rèn)為噪聲數(shù)據(jù)被矯正形成干凈數(shù)據(jù);重復(fù)執(zhí)行步驟 (4. 1)至(4. 3)直到所有噪聲數(shù)據(jù)被矯正完成。隨著語(yǔ)義分析技術(shù)的提出,人們開(kāi)始關(guān)注數(shù)據(jù)背后潛在的語(yǔ)義內(nèi)容,于是本發(fā)明 提出了一種基于語(yǔ)義本體的數(shù)據(jù)清洗方法,在數(shù)據(jù)檢測(cè)過(guò)程中引入了語(yǔ)義概念,使得不同 的數(shù)據(jù)元之間出現(xiàn)了語(yǔ)義上的關(guān)聯(lián),從而可以使得文本的聚類更為有效,也使聚類可以得 到更為直觀的解釋,能更準(zhǔn)確地識(shí)別出噪聲數(shù)據(jù)。噪聲數(shù)據(jù)通常被認(rèn)為包含了錯(cuò)誤數(shù)據(jù)或存在偏離期望的孤點(diǎn)值,而除掉錯(cuò)誤或偏 離的那一部分以外的其它數(shù)據(jù),仍然對(duì)于數(shù)據(jù)庫(kù)是有效的。如果直接刪除噪聲數(shù)據(jù)將損失 部分有效信息,利用干凈數(shù)據(jù)對(duì)錯(cuò)誤或偏離數(shù)據(jù)進(jìn)行矯正,從而避免這種數(shù)據(jù)資源的浪費(fèi)。 而數(shù)據(jù)矯正的前提就是判斷數(shù)據(jù)到底在哪個(gè)屬性上發(fā)生了偏離,即找到引起噪聲的語(yǔ)義本 體。當(dāng)聚類產(chǎn)生的一個(gè)噪聲數(shù)據(jù)點(diǎn)中,很明顯的有某個(gè)字段與聚類中心偏離而導(dǎo)致孤 立時(shí),這一字段便可立即被判斷為引起噪聲的語(yǔ)義本體。而當(dāng)一個(gè)噪聲數(shù)據(jù)點(diǎn)中沒(méi)有明顯 的單獨(dú)偏離的一個(gè)字段時(shí),引起噪聲的語(yǔ)義本體就需要更多分析。根據(jù)“噪聲記錄去除非噪 聲屬性后的仍然是噪聲記錄”這一原則,將此噪聲數(shù)據(jù)點(diǎn)的各個(gè)字段分別丟棄后進(jìn)行聚類, 若某個(gè)字段被丟棄后,此數(shù)據(jù)點(diǎn)仍然為噪聲,則該字段非噪聲屬性;若某個(gè)字段被丟棄后, 此數(shù)據(jù)點(diǎn)不再成為噪聲,則該字段即引起噪聲的語(yǔ)義本體。本說(shuō)明書(shū)實(shí)施例所述的內(nèi)容僅僅是對(duì)發(fā)明構(gòu)思的實(shí)現(xiàn)形式的列舉,本發(fā)明的保護(hù) 范圍不應(yīng)當(dāng)被視為僅限于實(shí)施例所陳述的具體形式,本發(fā)明的保護(hù)范圍也及于本領(lǐng)域技術(shù) 人員根據(jù)本發(fā)明構(gòu)思所能夠想到的等同技術(shù)手段。
權(quán)利要求
基于語(yǔ)義本體的噪聲數(shù)據(jù)清洗方法,包括以下步驟1)、建立一個(gè)存儲(chǔ)不含噪聲的干凈數(shù)據(jù)的干凈數(shù)據(jù)庫(kù);獲取待清洗的文本數(shù)據(jù),對(duì)待清洗數(shù)據(jù)進(jìn)行預(yù)處理以獲取結(jié)構(gòu)化數(shù)據(jù),所述的結(jié)構(gòu)化數(shù)據(jù)組成文本數(shù)據(jù)的詞的集合(1.1)將待清洗數(shù)據(jù)進(jìn)行分詞,并將所有詞轉(zhuǎn)換為統(tǒng)一的編碼形式;(1.2)將具有統(tǒng)一編碼形式的數(shù)據(jù)根據(jù)數(shù)據(jù)字典消除不一致的數(shù)據(jù)、獲得標(biāo)準(zhǔn)化數(shù)據(jù);(1.3)對(duì)該標(biāo)準(zhǔn)化數(shù)據(jù)進(jìn)行一致性校驗(yàn),將內(nèi)容上的明顯錯(cuò)誤進(jìn)行修改;(1.4)將完全相同的詞進(jìn)行去重操作,從而獲得結(jié)構(gòu)化數(shù)據(jù);2)、引入知識(shí)網(wǎng)絡(luò)的語(yǔ)義概念,獲取每?jī)蓚€(gè)詞的語(yǔ)義相似度;(2.1)分別獲取每個(gè)詞所表達(dá)的概念、和描述每個(gè)概念的義原;(2.2)獲取任意兩個(gè)獨(dú)立的詞,分別計(jì)算兩個(gè)詞的每個(gè)概念下的義原之間的相似度,兩個(gè)義原的相似度用他們的語(yǔ)義距離來(lái)衡量;尋找兩個(gè)概念之間的最大義原相似度和最小義原相似度,兩個(gè)概念之間的相似度為最大義原相似度和最小義原相似度的均值;尋找兩個(gè)詞之間的最大概念相似度,將最大概念相似度作為兩個(gè)詞的語(yǔ)義相似度;3)、利用兩個(gè)詞的語(yǔ)義相似度作為距離度量,使用K means算法,對(duì)詞進(jìn)行自動(dòng)聚類,識(shí)別出噪聲數(shù)據(jù);4)、在噪聲數(shù)據(jù)中尋找引起噪聲的語(yǔ)義本體,對(duì)引起噪聲的語(yǔ)義本體進(jìn)行矯正、以獲取干凈數(shù)據(jù),將干凈數(shù)據(jù)存入干凈數(shù)據(jù)庫(kù)中。
2.如權(quán)利要求1所述的基于語(yǔ)義本體的噪聲數(shù)據(jù)清洗方法,其特征在于在步驟3)和 步驟5)的聚類和矯正的過(guò)程中,獲取噪聲數(shù)據(jù)關(guān)于語(yǔ)義本體和數(shù)據(jù)屬性的分布,通過(guò)統(tǒng)計(jì) 對(duì)噪聲數(shù)據(jù)的產(chǎn)生過(guò)程建模、以形成噪聲數(shù)據(jù)的產(chǎn)生原因的分析庫(kù)。
3.如權(quán)利要求2所述的基于語(yǔ)義本體的噪聲數(shù)據(jù)清洗方法,其特征在于步驟3)中進(jìn) 行聚類、識(shí)別噪聲數(shù)據(jù)包含以下步驟(3. 1)隨機(jī)獲取K個(gè)詞作為質(zhì)心,設(shè)定相似度閾值;(3. 2)將剩余的每個(gè)詞分別測(cè)量其到各個(gè)質(zhì)心的距離,并將該詞歸入與其距離最短的 質(zhì)心的類中;(3. 3)重新計(jì)算已經(jīng)得到的各個(gè)類的質(zhì)心;判斷新的質(zhì)心與原質(zhì)心的距離是否等于或 小于相似度閾值,若是,則進(jìn)入步驟4);若否,則返回步驟(3. 2);(3.4)遠(yuǎn)離各個(gè)質(zhì)心而無(wú)法歸于任一質(zhì)心的類中的剩余數(shù)據(jù)即為噪聲數(shù)據(jù)。
4.如權(quán)利要求3所述的基于語(yǔ)義本體的噪聲數(shù)據(jù)清洗方法,其特征在于步驟4)中尋 找引起噪聲的語(yǔ)義本體,矯正噪聲數(shù)據(jù)的方法包括以下步驟(4. 1)、獲取一個(gè)噪聲數(shù)據(jù),判斷噪聲數(shù)據(jù)中是否有某個(gè)字段明顯偏離聚類質(zhì)心而導(dǎo)致 鼓勵(lì),若是,則認(rèn)為該字段為引起噪聲的語(yǔ)義本體;若否,則獲取該噪聲數(shù)據(jù)的所有字段,將 該噪聲數(shù)據(jù)的各個(gè)字段分別丟棄后進(jìn)行聚類,若某個(gè)字段被丟棄后,此數(shù)據(jù)點(diǎn)仍然為噪聲, 則認(rèn)為該被丟棄的字段為非噪聲語(yǔ)義本體;若某個(gè)字段被丟棄后,此數(shù)據(jù)點(diǎn)不再稱為噪聲, 則該被丟棄的字段為引起噪聲的語(yǔ)義本體;(4. 2)去除該引起噪聲的語(yǔ)義本體,將該噪聲數(shù)據(jù)重新聚類以歸入與其距離最短的質(zhì) 心的類中;(4. 3)將步驟(4. 2)中的質(zhì)心類中的原有的詞的語(yǔ)義本體屬性的數(shù)據(jù)值求平均,將此平均值作為噪聲數(shù)據(jù)的語(yǔ)義本體屬性,則認(rèn)為噪聲數(shù)據(jù)被矯正形成干凈數(shù)據(jù);重復(fù)執(zhí)行步驟 (4. 1)至(4. 3)直到所有噪聲數(shù)據(jù)被矯正完成。
全文摘要
基于語(yǔ)義本體的噪聲數(shù)據(jù)清洗方法,包括建立一個(gè)存儲(chǔ)不含噪聲的干凈數(shù)據(jù)的干凈數(shù)據(jù)庫(kù);獲取待清洗的文本數(shù)據(jù),對(duì)待清洗數(shù)據(jù)進(jìn)行預(yù)處理以獲取結(jié)構(gòu)化數(shù)據(jù),所述的結(jié)構(gòu)化數(shù)據(jù)組成文本數(shù)據(jù)的詞的集合;引入知識(shí)網(wǎng)絡(luò)的語(yǔ)義概念,獲取每?jī)蓚€(gè)詞的語(yǔ)義相似度;利用兩個(gè)詞的語(yǔ)義相似度作為距離度量,使用K-means算法,對(duì)詞進(jìn)行自動(dòng)聚類,識(shí)別出噪聲數(shù)據(jù);在噪聲數(shù)據(jù)中尋找引起噪聲的語(yǔ)義本體,對(duì)引起噪聲的語(yǔ)義本體進(jìn)行矯正、以獲取干凈數(shù)據(jù),將干凈數(shù)據(jù)存入干凈數(shù)據(jù)庫(kù)中。本發(fā)明具有能夠發(fā)現(xiàn)數(shù)據(jù)間語(yǔ)義的關(guān)聯(lián)、能分辨同義詞,保證在數(shù)據(jù)清洗中獲得好性能的優(yōu)點(diǎn)。
文檔編號(hào)G06F17/30GK101986296SQ201010522038
公開(kāi)日2011年3月16日 申請(qǐng)日期2010年10月28日 優(yōu)先權(quán)日2010年10月28日
發(fā)明者卜佳俊, 張利軍, 汪達(dá)舟, 鄭淼, 陳純 申請(qǐng)人:浙江大學(xué)