欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

航班保障數(shù)據(jù)的清理方法與流程

文檔序號(hào):11590610閱讀:345來源:國知局
本發(fā)明屬于數(shù)理統(tǒng)計(jì)和數(shù)據(jù)挖掘
技術(shù)領(lǐng)域
,涉及一種航班保障數(shù)據(jù)的清理方法。
背景技術(shù)
:國內(nèi)對(duì)于數(shù)據(jù)清洗的研究起步較晚,但是研究的范圍廣泛:指出數(shù)據(jù)清洗中的數(shù)據(jù)源主要有單數(shù)據(jù)源和多數(shù)據(jù)源,并且給出了單數(shù)據(jù)源和多數(shù)據(jù)源在實(shí)例層上錯(cuò)誤記錄的類別;從數(shù)據(jù)質(zhì)量的角度出發(fā),分析了建立基于規(guī)則庫和方法庫的可擴(kuò)展數(shù)據(jù)清理框架的必要性;在數(shù)據(jù)清洗的方法和框架方面的研究,包括基于知識(shí)的相似重復(fù)記錄清除方法、基于多種規(guī)則結(jié)合不同方法以流程方式完成清理任務(wù)的可重構(gòu)數(shù)據(jù)清理框架、基于語義規(guī)則庫的以自學(xué)習(xí)方式完成數(shù)據(jù)清理任務(wù)的開放式數(shù)據(jù)清理框架。數(shù)據(jù)清理根據(jù)具體應(yīng)用和不同數(shù)據(jù)采用相應(yīng)的數(shù)據(jù)清理方法,數(shù)據(jù)分類后對(duì)應(yīng)的清洗方法主要包括下列四種:1.缺失值的解決方法:大多數(shù)情況下,缺失值必須手工填入(即手工清理),當(dāng)然,某些缺失值可以從本數(shù)據(jù)源或其它數(shù)據(jù)源推導(dǎo)出來,因此可以用平均值、最大值、最小值或更為復(fù)雜的概率估計(jì)代替缺失值,從而達(dá)到清理的目的。2.錯(cuò)誤值的檢測及解決方法:用統(tǒng)計(jì)分析的方法識(shí)別可能的錯(cuò)誤值或異常值,如偏差分析識(shí)別不遵守分布或回歸方程的值,也可以用簡單規(guī)則庫(常識(shí)性規(guī)則、業(yè)務(wù)特定規(guī)則等)檢查數(shù)據(jù)值,或者使用不同屬性間的約束、外部的數(shù)據(jù)來檢測和清理數(shù)據(jù)。3.重復(fù)記錄的檢測及解決方法:數(shù)據(jù)庫中屬性值相同的記錄被認(rèn)為是重復(fù)記錄。通過判斷記錄間的屬性值是否相等來檢測記錄是否是重復(fù)數(shù)據(jù),并采用消重的基本方法合并或者清除。4.不一致性主要表現(xiàn)在數(shù)據(jù)源內(nèi)部及數(shù)據(jù)源之間,多數(shù)據(jù)源集成的數(shù)據(jù)可能有語義沖突,因此,針對(duì)該問題的檢測及解決方法是可定義完整性約束用于檢測不一致性,也可通過分析數(shù)據(jù)發(fā)現(xiàn)聯(lián)系,達(dá)到數(shù)據(jù)的一致性。在民航機(jī)場業(yè)務(wù)中,需要對(duì)航班保障數(shù)據(jù)進(jìn)行提純和優(yōu)化,雖然存在的多種通用的數(shù)據(jù)清洗理論和框架,由于業(yè)務(wù)領(lǐng)域的特殊性和行業(yè)保密性,且航班保障數(shù)據(jù)的數(shù)據(jù)量龐大,數(shù)據(jù)包含的信息量眾多,對(duì)航班保障數(shù)據(jù)的相似重復(fù)記錄進(jìn)行檢測困難,提純和優(yōu)化工作量大。技術(shù)實(shí)現(xiàn)要素:本發(fā)明的目的是提供一種航班保障數(shù)據(jù)的清理方法,提高了航班保障數(shù)據(jù)的準(zhǔn)確性和完整性,提高了檢測航班保障數(shù)據(jù)的相似重復(fù)記錄的效率。本發(fā)明所采用的技術(shù)方案是,航班保障數(shù)據(jù)的清理方法,包括以下步驟:步驟1、對(duì)航班保障數(shù)據(jù)進(jìn)行預(yù)處理;首先對(duì)航班保障數(shù)據(jù)進(jìn)行屬性清洗,得到停機(jī)位數(shù)據(jù),再對(duì)停機(jī)位數(shù)據(jù)進(jìn)行異常值清洗;步驟2、對(duì)停機(jī)位數(shù)據(jù)的相似重復(fù)記錄進(jìn)行清洗:步驟2.1、創(chuàng)建排序關(guān)鍵字,并計(jì)算停機(jī)位數(shù)據(jù)的鍵值;步驟2.2、按照基于聚簇索引的近鄰排序方法,對(duì)停機(jī)位數(shù)據(jù)進(jìn)行排序;步驟2.3、在排序后的數(shù)據(jù)集上滑動(dòng)可變大小的窗口,對(duì)停機(jī)位數(shù)據(jù)的相似重復(fù)記錄進(jìn)行檢測并清洗。步驟1中,對(duì)航班保障數(shù)據(jù)進(jìn)行屬性清洗具體分為:(1)對(duì)與停機(jī)位信息無關(guān)的數(shù)據(jù)的處理:予以刪除或者不予提?。?2)對(duì)停機(jī)位數(shù)據(jù)中缺失值數(shù)據(jù)的處理:缺失值數(shù)據(jù)包括主屬性缺失數(shù)據(jù)和非主屬性缺失數(shù)據(jù),將主屬性缺失數(shù)據(jù)丟棄,從數(shù)據(jù)源中重新獲取或推導(dǎo)得出非主屬性缺失數(shù)據(jù);(3)對(duì)停機(jī)位數(shù)據(jù)中違反業(yè)務(wù)規(guī)則的數(shù)據(jù)的處理:通過與數(shù)據(jù)源校對(duì),重新獲??;(4)對(duì)停機(jī)位數(shù)據(jù)中同一屬性不同表現(xiàn)形式的數(shù)據(jù)的處理:設(shè)定唯一的表現(xiàn)形式。步驟1中,采用箱型圖法判斷并剔除停機(jī)位數(shù)據(jù)中的異常值,具體過程為:將所有待清理的停機(jī)位數(shù)據(jù)設(shè)為數(shù)據(jù)集a,將數(shù)據(jù)集a等分成α×n個(gè)區(qū)間,n為區(qū)間的個(gè)數(shù),α為每個(gè)區(qū)間中停機(jī)位數(shù)據(jù)的個(gè)數(shù),β為區(qū)間的大?。浩渲校總€(gè)區(qū)間內(nèi)的所有停機(jī)位數(shù)據(jù)均構(gòu)成一個(gè)數(shù)據(jù)集,dn表示編號(hào)為n的數(shù)據(jù)集;分析停機(jī)位數(shù)據(jù)的分布特征,得到數(shù)據(jù)集a的數(shù)據(jù)集中域[i-j,i+j],其中,i-j為最小值數(shù)據(jù)集,即min{d1,d2,…,dn},i+j為最大值數(shù)據(jù)集,即max{d1,d2,…,dn};將[i-j,i+j]設(shè)為初始數(shù)據(jù)組,對(duì)初始數(shù)據(jù)組剔除離群值,得到非離群數(shù)據(jù)組[q1-3×iqr,q3+3×iqr],對(duì)[q1-3×iqr,q3+3×iqr]取非異常數(shù)據(jù)組,得到目標(biāo)數(shù)據(jù)集[q1-1.5×iqr,q3+1.5×iqr],將目標(biāo)數(shù)據(jù)集設(shè)為數(shù)據(jù)集b,其中q1表示第一分位數(shù),q3表示第三分位數(shù),iqr表示四分位間距iqr=q3-q1。步驟2.1的具體過程為:抽取停機(jī)位數(shù)據(jù)的不同的屬性作為不同的排序關(guān)鍵字;按照排序關(guān)鍵字對(duì)數(shù)據(jù)集b中的停機(jī)位數(shù)據(jù)的各個(gè)字段計(jì)算字段值,從而得到停機(jī)位數(shù)據(jù)的鍵值,停機(jī)位數(shù)據(jù)的鍵值,即為該停機(jī)位數(shù)據(jù)中字段值的集合。步驟2.2具體為:在數(shù)據(jù)集b中建立聚簇索引,按照停機(jī)位數(shù)據(jù)的鍵值,對(duì)數(shù)據(jù)集b中的停機(jī)位數(shù)據(jù)進(jìn)行排列,使得相似重復(fù)記錄排列到鄰近區(qū)域,得到數(shù)據(jù)集c。步驟2.3的具體過程為:數(shù)據(jù)集c中的每一個(gè)數(shù)據(jù)均構(gòu)成一條記錄,在數(shù)據(jù)集c上滑動(dòng)可變大小的窗口,滑動(dòng)過程中采用先進(jìn)先出策略,窗口滑動(dòng)時(shí),設(shè)當(dāng)前窗口中的記錄是第1~n條記錄,則接下來進(jìn)入窗口的記錄是第n+1條記錄,將第n+1條記錄與窗口內(nèi)的第2~n條記錄逐一進(jìn)行相似度匹配,以此來檢測第n+1條記錄是否是重復(fù)記錄,如果是重復(fù)記錄,剔除該條記錄,如不是重復(fù)記錄,則繼續(xù)向下滑動(dòng)窗口,直到完成數(shù)據(jù)集c中所有記錄的相似度匹配。步驟2.3中,相似度匹配的具體過程為:設(shè)置字段權(quán)重,由若干位專家獨(dú)立對(duì)每個(gè)字段的權(quán)重進(jìn)行打分,取同一個(gè)字段的權(quán)重的打分均值,作為該字段的字段權(quán)重,字段權(quán)值=字段權(quán)重×字段值,一條記錄的權(quán)值由該記錄中所有字段的字段權(quán)值的總和構(gòu)成;在相似度匹配的過程中,分別計(jì)算兩條待匹配記錄的權(quán)值,并進(jìn)行加合,得到兩條待匹配記錄的相似度m,將m與預(yù)設(shè)的相似度閾值n比較,如果m大于n,則兩條待匹配記錄中后進(jìn)入窗口的記錄為重復(fù)記錄,否則視為兩條不同的記錄。步驟2.3中,由停機(jī)位的使用頻度驅(qū)動(dòng)窗口的大?。航y(tǒng)計(jì)停機(jī)位的平均使用頻度mean和停機(jī)位的最大使用頻度max,采用(mean+max)/2作為窗口的大小。本發(fā)明的有益效果是:航班保障數(shù)據(jù)的清理方法,在預(yù)處理階段采用的屬性清洗方法和異常值的檢測及刪除方法,提高了航班保障數(shù)據(jù)集的準(zhǔn)確性和完整性,預(yù)處理后加載速度的顯著提升正是得益于清洗后航班保障數(shù)據(jù)集里有效性數(shù)據(jù)比重的增加;對(duì)排序方法進(jìn)行了改進(jìn),在近鄰排序方法中引入聚簇索引,提高排序速度的同時(shí),使得相似重復(fù)記錄排列到近鄰區(qū)域;滑動(dòng)可變大小的窗口,由停機(jī)位的使用頻度驅(qū)動(dòng)窗口的大小,對(duì)相似重復(fù)記錄進(jìn)行檢測并清洗,由于相似重復(fù)記錄排列盡可能多地排列到了同一個(gè)窗口中,在不影響查找重復(fù)記錄效率的情況下減少不必要的比較次數(shù)等時(shí)間內(nèi)檢測重復(fù)記錄個(gè)數(shù)大大增加,從而更好的提高檢測的效率。附圖說明圖1是數(shù)據(jù)清理的原理圖;圖2是停機(jī)位數(shù)據(jù)分布特征圖;圖3是遠(yuǎn)機(jī)位數(shù)據(jù)的集中域的箱線圖;圖4是近機(jī)位數(shù)據(jù)的集中域的箱線圖;圖5是采用基于聚簇索引的近鄰排序方法排序的流程圖;圖6是滑動(dòng)可變大小的窗口的示意圖;圖7是相似度匹配的流程圖;圖8是數(shù)據(jù)清洗前后加載時(shí)間比較圖;圖9是不同方法等時(shí)間內(nèi)檢測相似記錄的個(gè)數(shù)的比較圖。具體實(shí)施方式如圖1所示,航班保障數(shù)據(jù)的清理方法,旨在分析民航機(jī)場航班保障數(shù)據(jù)特點(diǎn)的基礎(chǔ)上,完成航班保障數(shù)據(jù)的相似重復(fù)記錄檢測中均需進(jìn)行的相關(guān)試驗(yàn),對(duì)已有的數(shù)據(jù)清洗方法進(jìn)行相應(yīng)的調(diào)整和細(xì)化,同時(shí)確定數(shù)據(jù)清洗規(guī)則和方法,從而對(duì)航班保障數(shù)據(jù)進(jìn)行提純優(yōu)化,為后續(xù)研究提供高質(zhì)量的數(shù)據(jù)。以蘭州中川機(jī)場2015、2016年度的航班保障數(shù)據(jù)為例,下面結(jié)合附圖和具體實(shí)施方式對(duì)本發(fā)明進(jìn)行詳細(xì)說明:航班保障數(shù)據(jù)的清理方法,包括以下步驟:步驟1、對(duì)航班保障數(shù)據(jù)進(jìn)行預(yù)處理;首先對(duì)航班保障數(shù)據(jù)進(jìn)行屬性清洗,得到停機(jī)位數(shù)據(jù),再對(duì)停機(jī)位數(shù)據(jù)進(jìn)行異常值清洗;步驟2、對(duì)停機(jī)位數(shù)據(jù)的相似重復(fù)記錄進(jìn)行清洗:步驟2.1、創(chuàng)建排序關(guān)鍵字,并計(jì)算停機(jī)位數(shù)據(jù)的鍵值;步驟2.2、按照基于聚簇索引的近鄰排序方法,對(duì)停機(jī)位數(shù)據(jù)進(jìn)行排序;步驟2.3、在排序后的數(shù)據(jù)集上滑動(dòng)可變大小的窗口,對(duì)停機(jī)位數(shù)據(jù)的相似重復(fù)記錄進(jìn)行檢測并清洗。步驟1中,對(duì)航班保障數(shù)據(jù)進(jìn)行屬性清洗具體分為:(1)對(duì)與停機(jī)位信息無關(guān)的數(shù)據(jù)的處理:例如:飛行高度、飛機(jī)翼展、航線、航路點(diǎn)和飛行時(shí)間信息,屬于與停機(jī)位信息無關(guān)的數(shù)據(jù),予以刪除或者不予提?。?2)對(duì)停機(jī)位數(shù)據(jù)中缺失值數(shù)據(jù)的處理:缺失值數(shù)據(jù)包括主屬性缺失數(shù)據(jù)和非主屬性缺失數(shù)據(jù),主屬性缺失會(huì)嚴(yán)重影響停機(jī)位實(shí)時(shí)狀態(tài),并且系統(tǒng)中不允許存在主屬性缺失的情況,因此當(dāng)主屬性缺失時(shí),認(rèn)為該數(shù)據(jù)是錯(cuò)誤數(shù)據(jù),將主屬性缺失數(shù)據(jù)丟棄;非主屬性缺失對(duì)停機(jī)位實(shí)時(shí)狀態(tài)影響較小,但是違背了數(shù)據(jù)的完整性規(guī)則,從數(shù)據(jù)源中重新獲取或推導(dǎo)得出非主屬性缺失數(shù)據(jù);(3)對(duì)停機(jī)位數(shù)據(jù)中違反業(yè)務(wù)規(guī)則的數(shù)據(jù)的處理:違反業(yè)務(wù)規(guī)則是指數(shù)據(jù)的屬性值本身或者數(shù)據(jù)的屬性值之間的關(guān)系違反民航機(jī)場的業(yè)務(wù)規(guī)則,例如某航班無前一站起飛時(shí)間卻存在本場落地時(shí)間,或者無本場起飛時(shí)間卻存在后一站落地時(shí)間,對(duì)于此類數(shù)據(jù),通過與數(shù)據(jù)源校對(duì),重新獲??;(4)對(duì)停機(jī)位數(shù)據(jù)中同一屬性不同表現(xiàn)形式的數(shù)據(jù)的處理:屬性值表示形式因單位或者部門而不同,例如,進(jìn)港狀態(tài)的表示形式可以有yes/no或者到達(dá)/取消,對(duì)不同表現(xiàn)形式的數(shù)據(jù)進(jìn)行統(tǒng)一化處理,設(shè)定唯一的表現(xiàn)形式。在實(shí)際情況下,停機(jī)位數(shù)據(jù)受到異常值的顯著影響,為了消除異常值對(duì)整個(gè)數(shù)據(jù)的影響,需要對(duì)異常值進(jìn)行判斷與剔除,得到符合機(jī)場停機(jī)位的實(shí)際情況的數(shù)據(jù)集。目前對(duì)異常值的判斷與剔除主要采用物理判別法和統(tǒng)計(jì)判別法兩種方法:物理判別法,是根據(jù)人們對(duì)客觀事物已有的認(rèn)識(shí),判別由于外界干擾、人為誤差等原因造成實(shí)測數(shù)據(jù)值偏離正常結(jié)果,在實(shí)驗(yàn)過程中隨時(shí)判斷和剔除。統(tǒng)計(jì)判別法,是給定一個(gè)置信概率,并確定一個(gè)置信限,凡超過此限的誤差,就認(rèn)為它不屬于隨機(jī)誤差范圍,將其視為異常值剔除。當(dāng)物理識(shí)別不易判斷時(shí),一般采用統(tǒng)計(jì)識(shí)別法。本發(fā)明根據(jù)航班保障數(shù)據(jù)的分布特征,采用統(tǒng)計(jì)識(shí)別法中的箱型圖法來判斷并剔除停機(jī)位數(shù)據(jù)中的異常值。步驟1中,采用箱型圖法判斷并剔除停機(jī)位數(shù)據(jù)中的異常值,具體過程為:將待清理的停機(jī)位數(shù)據(jù)設(shè)為數(shù)據(jù)集a,如表1所示,將數(shù)據(jù)集a等分成α×n個(gè)區(qū)間,n為區(qū)間的個(gè)數(shù),α為每個(gè)區(qū)間中停機(jī)位數(shù)據(jù)的個(gè)數(shù),β為區(qū)間的大?。浩渲校總€(gè)區(qū)間內(nèi)的所有停機(jī)位數(shù)據(jù)均構(gòu)成一個(gè)數(shù)據(jù)集,dn表示編號(hào)為n的數(shù)據(jù)集;表1.航班保障數(shù)據(jù)中停機(jī)位數(shù)據(jù)信息表序號(hào)1234.....n-1n數(shù)據(jù)d1d2d3d4.....dn-1dn對(duì)于離散程度不是特別大的數(shù)據(jù)源來說,數(shù)據(jù)自身的分布一般會(huì)集中在某一特定區(qū)域內(nèi),分析停機(jī)位數(shù)據(jù)的分布特征,如圖2所示,得到數(shù)據(jù)集a的數(shù)據(jù)集中域[i-j,i+j],其中,i-j為最小值數(shù)據(jù)集,即min{d1,d2,…,dn},i+j為最大值數(shù)據(jù)集,即max{d1,d2,…,dn};以一組停機(jī)位數(shù)據(jù)的為例,如表2所示,在實(shí)際情況下,如果直接計(jì)算停機(jī)位的實(shí)際區(qū)間,得到遠(yuǎn)機(jī)位數(shù)據(jù)集a1的區(qū)間為[70,500],近機(jī)位數(shù)據(jù)集a2的區(qū)間為[-500,60],該結(jié)果與實(shí)際情況不符,說明停機(jī)位數(shù)據(jù)集受到異常值數(shù)據(jù)的顯著影響,需要對(duì)異常值進(jìn)行判斷與剔除。表2.航班保障數(shù)據(jù)中的停機(jī)位數(shù)據(jù)(停機(jī)位編號(hào))首先,將數(shù)據(jù)集a等分為1000個(gè)區(qū)間,找到遠(yuǎn)機(jī)位數(shù)據(jù)集a1的數(shù)據(jù)集中域?yàn)閇70,160],近機(jī)位數(shù)據(jù)集a2的數(shù)據(jù)集中域?yàn)閇-9,60],然后,對(duì)取值在a1的數(shù)據(jù)集中域的停機(jī)位數(shù)據(jù)做箱型圖分析,得到圖3所示的停機(jī)位的箱線圖,對(duì)取值在a2的數(shù)據(jù)集中域的停機(jī)位數(shù)據(jù)做箱型圖分析,得到圖4所示的停機(jī)位的箱線圖。根據(jù)箱形圖結(jié)果的分析,得到遠(yuǎn)機(jī)位數(shù)據(jù)集a1的非離群數(shù)據(jù)組為[85,134],近機(jī)位數(shù)據(jù)集a2的非離群數(shù)據(jù)組為[-10.75,27.75];再計(jì)算得到遠(yuǎn)機(jī)位數(shù)據(jù)集a1的非異常數(shù)據(jù)組為[95.5,116.5],近機(jī)位數(shù)據(jù)集a2的非異常數(shù)據(jù)組為[-2.5,19.5];計(jì)算結(jié)果符合機(jī)場停機(jī)位的實(shí)際情況。因此,通過停機(jī)位數(shù)據(jù)分布特征及箱型圖的方法來識(shí)別剔除異常值數(shù)據(jù)的方式較為快捷且效果顯著,是對(duì)航班保障數(shù)據(jù)進(jìn)行清理的重要步驟。步驟2.1的具體過程為:分析機(jī)場人員操作習(xí)慣和關(guān)鍵字重要性,抽取停機(jī)位數(shù)據(jù)的不同的屬性作為不同的排序關(guān)鍵字,不同的排序關(guān)鍵字構(gòu)成排序關(guān)鍵字的組合,以抽取以下的排序關(guān)鍵字的組合為例:keycom={gate=停機(jī)位,planlt=本場計(jì)劃落地時(shí)間,actuallt=本場實(shí)際落地時(shí)間,plandt=本場計(jì)劃起飛時(shí)間,actualdt=本場實(shí)際起飛時(shí)間};按照排序關(guān)鍵字對(duì)數(shù)據(jù)集b中的停機(jī)位數(shù)據(jù)的各個(gè)字段計(jì)算字段值,從而得到停機(jī)位數(shù)據(jù)的鍵值,停機(jī)位數(shù)據(jù)的鍵值,即為該停機(jī)位數(shù)據(jù)中字段值的集合。步驟2.2具體為:在數(shù)據(jù)集b中建立聚簇索引,按照停機(jī)位數(shù)據(jù)的鍵值,對(duì)數(shù)據(jù)集b中的停機(jī)位數(shù)據(jù)進(jìn)行近鄰排列,使得相似重復(fù)記錄排列到鄰近區(qū)域,得到數(shù)據(jù)集c。如圖5所示,在本實(shí)施例中進(jìn)行3次排序,將3次排序的結(jié)果集進(jìn)行比對(duì),不一致的部分再次排序,得到最終的結(jié)果集,防止一次排序造成的偶然性誤差。步驟2.3的具體過程為:數(shù)據(jù)集c中的每一個(gè)數(shù)據(jù)均構(gòu)成一條記錄,在數(shù)據(jù)集c上滑動(dòng)可變大小的窗口,如圖6所示,滑動(dòng)過程中采用先進(jìn)先出策略,窗口滑動(dòng)時(shí),設(shè)當(dāng)前窗口中的記錄是第1~n條記錄,則接下來進(jìn)入窗口的記錄是第n+1條記錄,將第n+1條記錄與窗口內(nèi)的第2~n條記錄逐一進(jìn)行相似度匹配,以此來檢測第n+1條記錄是否是重復(fù)記錄,如果是重復(fù)記錄,剔除該條記錄,如不是重復(fù)記錄,則繼續(xù)向下滑動(dòng)窗口,直到完成數(shù)據(jù)集c中所有記錄的相似度匹配。如圖7所示,步驟2.3中,相似度匹配的具體過程為:設(shè)置字段權(quán)重,是為了準(zhǔn)確描述字段對(duì)于停機(jī)位狀態(tài)改變的影響力,根據(jù)數(shù)據(jù)集中各字段的重要程度設(shè)置不同的字段權(quán)重,通常采用的方法有以下幾種:1.主觀經(jīng)驗(yàn)法;2.主次指標(biāo)排隊(duì)分類法;3.專家打分法。本發(fā)明中,采用專家打分法設(shè)置字段權(quán)重:由若干位專家獨(dú)立對(duì)每個(gè)字段的權(quán)重進(jìn)行打分,取同一個(gè)字段的權(quán)重的打分均值,作為該字段的字段權(quán)重,字段權(quán)值=字段權(quán)重×字段值,一條記錄的權(quán)值由該記錄中所有字段的字段權(quán)值的總和構(gòu)成;在相似度匹配的過程中,分別計(jì)算兩條待匹配記錄的權(quán)值,并進(jìn)行加合,得到兩條待匹配記錄的相似度m,將m與預(yù)設(shè)的相似度閾值n比較,如果m大于n,則兩條待匹配記錄中后進(jìn)入窗口的記錄為重復(fù)記錄,否則視為兩條不同的記錄。步驟2.3中,由停機(jī)位的使用頻度驅(qū)動(dòng)窗口的大?。河捎诖翱谳^大時(shí),比較次數(shù)會(huì)增多,而有些比較是沒有必要的;當(dāng)窗口較小時(shí)可能又會(huì)遺漏重復(fù)數(shù)據(jù)的匹配;如表3所示,根據(jù)蘭州中川機(jī)場2015年度下半年以及2016年度上半年的保障數(shù)據(jù),統(tǒng)計(jì)出停機(jī)位在每個(gè)月的平均使用頻度mean。表3.每月停機(jī)位使用頻度(nm/d:第n月每天的平均值,-未投入使用)如表4所示,對(duì)停機(jī)位每個(gè)月的平均使用頻度mean上取整,計(jì)算12個(gè)月中最大使用頻度max,采用二者的平均作為窗口的大小表4.各停機(jī)位的滑動(dòng)窗口大小的決定因素(均值~最大值)近101近102近103近104近105近106近107近108近109近1104~64~64~64~64~53~54~64~64~74~6近111近112近113近114近115遠(yuǎn)1遠(yuǎn)2遠(yuǎn)3遠(yuǎn)4遠(yuǎn)54~74~64~64~64~61~21~22~21~22~2遠(yuǎn)6遠(yuǎn)7遠(yuǎn)8遠(yuǎn)9遠(yuǎn)10遠(yuǎn)11遠(yuǎn)12遠(yuǎn)13遠(yuǎn)14遠(yuǎn)152~22~22~32~21~22~22~21~21~11~1數(shù)據(jù)清洗質(zhì)量的評(píng)價(jià)標(biāo)準(zhǔn)有一致性原則、完整性原則、可用性、效率等,本發(fā)明主要考慮數(shù)據(jù)清洗的速度和對(duì)重復(fù)記錄的清洗程度,對(duì)于重復(fù)記錄主要由誤識(shí)別率和準(zhǔn)確率來衡量,如表5所示:取4組數(shù)據(jù)為例,與清洗前相比,清洗后加載速度變快,等時(shí)間內(nèi)檢測重復(fù)記錄個(gè)數(shù)大大增加。表5.清洗前和清洗后加載指標(biāo)的比較對(duì)蘭州中川機(jī)場2015年的實(shí)際保障記錄中每個(gè)月3000條的保障記錄進(jìn)行屬性清洗、異常值清洗以及相似重復(fù)記錄的檢測與剔除,計(jì)算清洗前數(shù)據(jù)加載的時(shí)間和清洗后的時(shí)間,如圖8所示,數(shù)據(jù)清洗后加載時(shí)間大大縮短。采用基于聚簇索引的近鄰排序算法,對(duì)保障記錄進(jìn)行相似度檢測。通過查看等時(shí)間內(nèi)檢測相似記錄的個(gè)數(shù),將得到的結(jié)果與直接檢索的方式比較,對(duì)比結(jié)果如圖9,并采用準(zhǔn)確率來衡量相似重復(fù)記錄檢測的效果。通過所上述方式,本發(fā)明航班保障數(shù)據(jù)的清理方法,提高了航班保障數(shù)據(jù)的準(zhǔn)確性和完整性,提高了檢測航班保障數(shù)據(jù)的相似重復(fù)記錄的效率。當(dāng)前第1頁12
當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
连江县| 杨浦区| 泽库县| 汽车| 巢湖市| 永嘉县| 禹州市| 灯塔市| 砚山县| 祁连县| 泽库县| 开平市| 高邮市| 左权县| 荥阳市| 玉屏| 疏勒县| 武胜县| 饶阳县| 株洲县| 全南县| 雷州市| 曲水县| 铅山县| 柳江县| 崇州市| 巴东县| 炉霍县| 方正县| 临江市| 思南县| 年辖:市辖区| 龙陵县| 综艺| 岚皋县| 曲周县| 班玛县| 古浪县| 通山县| 博爱县| 广宁县|