本發(fā)明屬于候鳥(niǎo)遷徙數(shù)據(jù)處理領(lǐng)域,尤其涉及一種獲取候鳥(niǎo)遷徙路徑描述的方法、裝置及服務(wù)器。
背景技術(shù):
候鳥(niǎo)是一種在的繁殖區(qū)和非繁殖區(qū)之間規(guī)律性遷徙的鳥(niǎo)類,候鳥(niǎo)在遷徙過(guò)程中會(huì)對(duì)環(huán)境和人類的生產(chǎn)生活產(chǎn)生較大影響,追蹤鳥(niǎo)類的遷徙,了解鳥(niǎo)類遷徙的規(guī)律,有助于預(yù)防流行病傳播,并為機(jī)場(chǎng)選址和航線設(shè)立提供科學(xué)依據(jù),減少鳥(niǎo)類與飛機(jī)相撞事故的發(fā)生;反過(guò)來(lái)氣候變化和人類活動(dòng)也會(huì)影響候鳥(niǎo)的遷徙和棲息地的選擇,所以,研究候鳥(niǎo)的遷徙及遷徙途中的棲息地,對(duì)保護(hù)候鳥(niǎo)種群,保護(hù)自然環(huán)境,維持物種多樣性,同樣具有重要意義。
為了了解鳥(niǎo)類的遷徙規(guī)律,國(guó)內(nèi)外研究者采用和開(kāi)發(fā)了多種方法,從不同方面開(kāi)展候鳥(niǎo)遷徙的研究工作。(1)定點(diǎn)調(diào)查是最早的鳥(niǎo)類遷徙研究方法,對(duì)鳥(niǎo)類遷徙的定點(diǎn)調(diào)查已連續(xù)開(kāi)展上百年,積累了大量的觀測(cè)資料,但無(wú)法獲得鳥(niǎo)類個(gè)體的遷徙信息,且監(jiān)測(cè)點(diǎn)地理位置分布不均,數(shù)據(jù)采集具有一定片面性;(2)環(huán)志是目前研究鳥(niǎo)類遷徙最常用、最普及的方法,其優(yōu)點(diǎn)是簡(jiǎn)便易行,適用范圍廣,但監(jiān)測(cè)的周期長(zhǎng),回收難度大,無(wú)法在短期內(nèi)取得顯著效果;(3)衛(wèi)星定位的方法,采集的數(shù)據(jù)精確,可對(duì)個(gè)體進(jìn)行連續(xù)追蹤,但其成本高昂,難以普及,數(shù)據(jù)量有限,不適用于小型鳥(niǎo)類;另外還有雷達(dá)監(jiān)測(cè)、光敏地理定位等方法,普遍存在精度低,難以普及,數(shù)據(jù)量有限等問(wèn)題。
此外,對(duì)于采集的候鳥(niǎo)遷徙數(shù)據(jù),其利用和分析也引起了國(guó)內(nèi)外研究者的重視。早期鳥(niǎo)類數(shù)據(jù)分析,只需要憑借生物學(xué)家在gis中標(biāo)注出軌跡點(diǎn)或利用人工統(tǒng)計(jì)出分布點(diǎn)的數(shù)目,進(jìn)而得到候鳥(niǎo)的遷徙地和遷徙路線,但該方法需要通過(guò)手工標(biāo)注才能發(fā)現(xiàn)候鳥(niǎo)的遷徙路線,且無(wú)法處理候鳥(niǎo)的空間位置信息。
而且,觀鳥(niǎo)數(shù)據(jù)均存在觀鳥(niǎo)數(shù)量分布不均,第一,觀測(cè)記錄的數(shù)量在地域上分布不均;第二,觀測(cè)記錄的數(shù)量在時(shí)間上分布不均;第三,觀測(cè)記錄的數(shù)量在種類上分布不均;不能真實(shí)反映不同種類、不同地域、不同時(shí)期鳥(niǎo)類的分布狀況。
國(guó)內(nèi)外研究人員對(duì)候鳥(niǎo)遷徙規(guī)律進(jìn)行了大量研究,也取得了一定進(jìn)展,但上述研究仍存在大量問(wèn)題尚未解決,集中體現(xiàn)在:1)采集的數(shù)據(jù)普遍存在不夠全面、精度較低、數(shù)據(jù)量有限等問(wèn)題;2)對(duì)原始數(shù)據(jù)的去重、去噪、標(biāo)準(zhǔn)化等工作鮮有涉及,導(dǎo)致數(shù)據(jù)的可利用性比較低;3)用于分析研究的數(shù)據(jù)量相對(duì)較?。?)候鳥(niǎo)與棲息地的時(shí)空關(guān)系及遷徙周期鮮有研究;5)鳥(niǎo)類數(shù)據(jù)利用和處理上存在局限性,未能深入挖掘數(shù)據(jù)中隱藏的知識(shí)和規(guī)律。
技術(shù)實(shí)現(xiàn)要素:
為了解決觀鳥(niǎo)數(shù)據(jù)中存在的重復(fù)采樣、采樣分布不均的問(wèn)題,本發(fā)明的第一目的是提供一種獲取候鳥(niǎo)遷徙路徑描述的方法,本發(fā)明基于鳥(niǎo)類數(shù)據(jù)時(shí)間與空間的關(guān)聯(lián)性,對(duì)時(shí)間和空間特性分別處理,既保證了數(shù)據(jù)分析的準(zhǔn)確性,又充分挖掘時(shí)空數(shù)據(jù)中隱含的知識(shí),能夠準(zhǔn)確快速地獲取候鳥(niǎo)的遷徙路徑。
本發(fā)明的一種獲取候鳥(niǎo)遷徙路徑描述的方法,包括:
將鳥(niǎo)類觀測(cè)點(diǎn)的地址信息轉(zhuǎn)化為gps軌跡點(diǎn)坐標(biāo)數(shù)據(jù);
標(biāo)準(zhǔn)化處理gps軌跡點(diǎn)坐標(biāo)數(shù)據(jù),形成標(biāo)準(zhǔn)化gps軌跡點(diǎn)坐標(biāo)數(shù)據(jù)序列;
對(duì)標(biāo)準(zhǔn)化gps軌跡點(diǎn)坐標(biāo)數(shù)據(jù)序列進(jìn)行密度聚類,獲取候鳥(niǎo)遷徙過(guò)程中所有的棲息地;
對(duì)每一個(gè)棲息地引入時(shí)間因素,獲取所有棲息地的周期模式序列;所述周期模式序列由表征棲息地坐標(biāo)的時(shí)空序列和表征候鳥(niǎo)在棲息地出現(xiàn)時(shí)間的時(shí)間序列構(gòu)成;
按照時(shí)間順序排列所有棲息地的周期模式序列,最終得到的時(shí)空序列作為候鳥(niǎo)遷徙路線,時(shí)間序列代表候鳥(niǎo)的遷徙方向。
進(jìn)一步的,在標(biāo)準(zhǔn)化處理gps軌跡點(diǎn)坐標(biāo)數(shù)據(jù)的過(guò)程中,去除重復(fù)的gps軌跡點(diǎn)坐標(biāo)數(shù)據(jù)。
未經(jīng)預(yù)處理的觀鳥(niǎo)數(shù)據(jù)中存在大量的重復(fù)采樣數(shù)據(jù),這是導(dǎo)致觀測(cè)記錄數(shù)量在地域、時(shí)間和種類上分布不均的重要原因之一,如果不將這些重復(fù)數(shù)據(jù)剔除,會(huì)直接影響數(shù)據(jù)挖掘的質(zhì)量。所以,在進(jìn)行數(shù)據(jù)分析前,首先要對(duì)原始候鳥(niǎo)軌跡數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理,以去除重復(fù)數(shù)據(jù),達(dá)到數(shù)據(jù)標(biāo)準(zhǔn)化的目的,初步解決觀鳥(niǎo)記錄數(shù)量分布不均的問(wèn)題,為后期分析奠定基礎(chǔ)。
進(jìn)一步的,形成標(biāo)準(zhǔn)化gps軌跡點(diǎn)坐標(biāo)數(shù)據(jù)序列的過(guò)程包括:
對(duì)待標(biāo)準(zhǔn)化處理的gps軌跡點(diǎn)坐標(biāo)數(shù)據(jù)進(jìn)行聚類,得到gps軌跡特征點(diǎn);
利用gps軌跡特征點(diǎn)替換重復(fù)的gps軌跡點(diǎn)坐標(biāo)數(shù)據(jù),進(jìn)而得到標(biāo)準(zhǔn)化gps軌跡點(diǎn)坐標(biāo)數(shù)據(jù)序列。
本發(fā)明利用特征點(diǎn)來(lái)代替候鳥(niǎo)軌跡中重復(fù)的點(diǎn),既可解決軌跡數(shù)據(jù)重復(fù)記錄問(wèn)題,確保數(shù)據(jù)挖掘質(zhì)量,又對(duì)海量軌跡數(shù)據(jù)進(jìn)行了壓縮,減少了冗余,可有效提高后期數(shù)據(jù)分析的效率和準(zhǔn)確性。對(duì)gps軌跡點(diǎn)坐標(biāo)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化,數(shù)據(jù)分析前的必要準(zhǔn)備,極大的提高了數(shù)據(jù)的可用性,使觀鳥(niǎo)記錄數(shù)量在地域、時(shí)間和種類上分布不均的問(wèn)題得到初步解決。
進(jìn)一步的,獲取候鳥(niǎo)遷徙過(guò)程中所有的棲息地的過(guò)程包括:
根據(jù)標(biāo)準(zhǔn)化gps軌跡點(diǎn)坐標(biāo)數(shù)據(jù)序列的密度聚類,得若干個(gè)簇;
以簇內(nèi)各個(gè)gps軌跡點(diǎn)坐標(biāo)數(shù)據(jù)相對(duì)應(yīng)的鳥(niǎo)類觀測(cè)點(diǎn)所觀測(cè)到的“鳥(niǎo)類數(shù)量”作為權(quán)重,計(jì)算每個(gè)簇的“簇?zé)岫取?;其中,簇?zé)岫葹榇貎?nèi)各個(gè)gps軌跡點(diǎn)坐標(biāo)數(shù)據(jù)與其權(quán)重相乘之和;
計(jì)算各離群點(diǎn)的“點(diǎn)熱度”,其中,“點(diǎn)熱度”為每個(gè)觀測(cè)點(diǎn)實(shí)際觀測(cè)到的鳥(niǎo)類的數(shù)量;
將所有的“簇?zé)岫取焙汀包c(diǎn)熱度”按從大到小的順序排列,篩選出大于預(yù)設(shè)熱度閾值的區(qū)域作為候鳥(niǎo)的棲息地。
在鳥(niǎo)類的遷徙路線上,分布著許多可供利用的中途停歇地,這些停歇地和候鳥(niǎo)的越冬地、繁殖地共同構(gòu)成候鳥(niǎo)的棲息地。棲息地中鳥(niǎo)類的種群數(shù)量往往多于其他地區(qū),同樣的,發(fā)現(xiàn)的鳥(niǎo)類數(shù)量越多,鳥(niǎo)類記錄越密集的區(qū)域往往對(duì)于鳥(niǎo)類也越重要,這樣的地區(qū)也成為了鳥(niǎo)類潛在的棲息地。本發(fā)明通過(guò)對(duì)標(biāo)準(zhǔn)化gps軌跡點(diǎn)坐標(biāo)數(shù)據(jù)序列進(jìn)行密度聚類,最終能夠快速準(zhǔn)確地篩選出候鳥(niǎo)的棲息地。
進(jìn)一步的,對(duì)每一個(gè)棲息地引入時(shí)間因素,獲取所有棲息地的周期模式序列的過(guò)程包括:
首先,將每一類候鳥(niǎo)生活在棲息地看作是一個(gè)事件;選取其中一個(gè)興趣區(qū)域,掃描該區(qū)域中時(shí)間序列集合,根據(jù)預(yù)設(shè)時(shí)間粒度對(duì)時(shí)間序列進(jìn)行劃分;
其次,找出每個(gè)事件發(fā)生的時(shí)間點(diǎn),建立區(qū)域事件時(shí)間位置表;
然后,對(duì)區(qū)域事件時(shí)間位置表檢測(cè)所有可能的周期;
最終得到所有棲息地的周期模式序列。
候鳥(niǎo)是一種在越冬地與繁殖地周期性遷徙的鳥(niǎo)類,候鳥(niǎo)與棲息地之間存在著一定的時(shí)間關(guān)聯(lián),需要找到每個(gè)棲息地中候鳥(niǎo)的時(shí)間模式,并生成遷徙路線。其基本思想為:針對(duì)每一個(gè)頻繁區(qū)域,把區(qū)域內(nèi)每一類候鳥(niǎo)的時(shí)空數(shù)據(jù)轉(zhuǎn)換為時(shí)間序列數(shù)據(jù),將每一類候鳥(niǎo)看做一個(gè)事件,對(duì)每一事件的時(shí)間序列進(jìn)行周期檢測(cè),進(jìn)而發(fā)現(xiàn)其周期模式。
本發(fā)明的第二目的是提供一種獲取候鳥(niǎo)遷徙路徑描述的裝置。
本發(fā)明的一種獲取候鳥(niǎo)遷徙路徑描述的裝置,包括:
數(shù)據(jù)轉(zhuǎn)化模塊,其用于將鳥(niǎo)類觀測(cè)點(diǎn)的地址信息轉(zhuǎn)化為gps軌跡點(diǎn)坐標(biāo)數(shù)據(jù);
數(shù)據(jù)標(biāo)準(zhǔn)化處理模塊,其用于標(biāo)準(zhǔn)化處理gps軌跡點(diǎn)坐標(biāo)數(shù)據(jù),形成標(biāo)準(zhǔn)化gps軌跡點(diǎn)坐標(biāo)數(shù)據(jù)序列;
棲息地獲取模塊,其用于對(duì)標(biāo)準(zhǔn)化gps軌跡點(diǎn)坐標(biāo)數(shù)據(jù)序列進(jìn)行密度聚類,獲取候鳥(niǎo)遷徙過(guò)程中所有的棲息地;
周期模式序列獲取模塊,其用于對(duì)每一個(gè)棲息地引入時(shí)間因素,獲取所有棲息地的周期模式序列;所述周期模式序列由表征棲息地坐標(biāo)的時(shí)空序列和表征候鳥(niǎo)在棲息地出現(xiàn)時(shí)間的時(shí)間序列構(gòu)成;
遷徙路線及方向獲取模塊,其用于按照時(shí)間順序排列所有棲息地的周期模式序列,最終得到的時(shí)空序列作為候鳥(niǎo)遷徙路線,時(shí)間序列代表候鳥(niǎo)的遷徙方向。
進(jìn)一步的,在所述數(shù)據(jù)標(biāo)準(zhǔn)化處理模塊中,去除重復(fù)的gps軌跡點(diǎn)坐標(biāo)數(shù)據(jù)。
未經(jīng)預(yù)處理的觀鳥(niǎo)數(shù)據(jù)中存在大量的重復(fù)采樣數(shù)據(jù),這是導(dǎo)致觀測(cè)記錄數(shù)量在地域、時(shí)間和種類上分布不均的重要原因之一,如果不將這些重復(fù)數(shù)據(jù)剔除,會(huì)直接影響數(shù)據(jù)挖掘的質(zhì)量。所以,在進(jìn)行數(shù)據(jù)分析前,首先要對(duì)原始候鳥(niǎo)軌跡數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理,以去除重復(fù)數(shù)據(jù),達(dá)到數(shù)據(jù)標(biāo)準(zhǔn)化的目的,初步解決觀鳥(niǎo)記錄數(shù)量分布不均的問(wèn)題,為后期分析奠定基礎(chǔ)。
優(yōu)選地,數(shù)據(jù)標(biāo)準(zhǔn)化處理模塊還包括:
gps軌跡特征點(diǎn)獲取模塊,其用于對(duì)待標(biāo)準(zhǔn)化處理的gps軌跡點(diǎn)坐標(biāo)數(shù)據(jù)進(jìn)行聚類,得到gps軌跡特征點(diǎn);
數(shù)據(jù)替換模塊,其用于利用gps軌跡特征點(diǎn)替換重復(fù)的gps軌跡點(diǎn)坐標(biāo)數(shù)據(jù),進(jìn)而得到標(biāo)準(zhǔn)化gps軌跡點(diǎn)坐標(biāo)數(shù)據(jù)序列。
本發(fā)明利用特征點(diǎn)來(lái)代替候鳥(niǎo)軌跡中重復(fù)的點(diǎn),既可解決軌跡數(shù)據(jù)重復(fù)記錄問(wèn)題,確保數(shù)據(jù)挖掘質(zhì)量,又對(duì)海量軌跡數(shù)據(jù)進(jìn)行了壓縮,減少了冗余,可有效提高后期數(shù)據(jù)分析的效率和準(zhǔn)確性。對(duì)gps軌跡點(diǎn)坐標(biāo)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化,數(shù)據(jù)分析前的必要準(zhǔn)備,極大的提高了數(shù)據(jù)的可用性,使觀鳥(niǎo)記錄數(shù)量在地域、時(shí)間和種類上分布不均的問(wèn)題得到初步解決。
進(jìn)一步的,所述棲息地獲取模塊包括:
密度聚類模塊,其用于根據(jù)標(biāo)準(zhǔn)化gps軌跡點(diǎn)坐標(biāo)數(shù)據(jù)序列的密度聚類,得若干個(gè)簇;
簇?zé)岫扔?jì)算模塊,其用于以簇內(nèi)各個(gè)gps軌跡點(diǎn)坐標(biāo)數(shù)據(jù)相對(duì)應(yīng)的鳥(niǎo)類觀測(cè)點(diǎn)所觀測(cè)到的“鳥(niǎo)類數(shù)量”作為權(quán)重,計(jì)算每個(gè)簇的“簇?zé)岫取?;其中,簇?zé)岫葹榇貎?nèi)各個(gè)gps軌跡點(diǎn)坐標(biāo)數(shù)據(jù)與其權(quán)重相乘之和;
點(diǎn)熱度計(jì)算模塊,其用于計(jì)算各離群點(diǎn)的“點(diǎn)熱度”,其中,“點(diǎn)熱度”為每個(gè)觀測(cè)點(diǎn)實(shí)際觀測(cè)到的鳥(niǎo)類的數(shù)量;
區(qū)域篩選模塊,其用于將所有的“簇?zé)岫取焙汀包c(diǎn)熱度”按從大到小的順序排列,篩選出大于預(yù)設(shè)熱度閾值的區(qū)域作為候鳥(niǎo)的棲息地。
在鳥(niǎo)類的遷徙路線上,分布著許多可供利用的中途停歇地,這些停歇地和候鳥(niǎo)的越冬地、繁殖地共同構(gòu)成候鳥(niǎo)的棲息地。棲息地中鳥(niǎo)類的種群數(shù)量往往多于其他地區(qū),同樣的,發(fā)現(xiàn)的鳥(niǎo)類數(shù)量越多,鳥(niǎo)類記錄越密集的區(qū)域往往對(duì)于鳥(niǎo)類也越重要,這樣的地區(qū)也成為了鳥(niǎo)類潛在的棲息地。本發(fā)明通過(guò)對(duì)標(biāo)準(zhǔn)化gps軌跡點(diǎn)坐標(biāo)數(shù)據(jù)序列進(jìn)行密度聚類,最終能夠快速準(zhǔn)確地篩選出候鳥(niǎo)的棲息地。
進(jìn)一步的,所述周期模式序列獲取模塊包括:
時(shí)間序列劃分模塊,其用于將每一類候鳥(niǎo)生活在棲息地看作是一個(gè)事件;選取其中一個(gè)興趣區(qū)域,掃描該區(qū)域中時(shí)間序列集合,根據(jù)預(yù)設(shè)時(shí)間粒度對(duì)時(shí)間序列進(jìn)行劃分;
區(qū)域事件時(shí)間位置表建立模塊,其用于找出每個(gè)事件發(fā)生的時(shí)間點(diǎn),建立區(qū)域事件時(shí)間位置表;
周期檢測(cè)模塊,其用于對(duì)區(qū)域事件時(shí)間位置表檢測(cè)所有可能的周期,最終得到所有棲息地的周期模式序列。
候鳥(niǎo)是一種在越冬地與繁殖地周期性遷徙的鳥(niǎo)類,候鳥(niǎo)與棲息地之間存在著一定的時(shí)間關(guān)聯(lián),需要找到每個(gè)棲息地中候鳥(niǎo)的時(shí)間模式,并生成遷徙路線。其基本思想為:針對(duì)每一個(gè)頻繁區(qū)域,把區(qū)域內(nèi)每一類候鳥(niǎo)的時(shí)空數(shù)據(jù)轉(zhuǎn)換為時(shí)間序列數(shù)據(jù),將每一類候鳥(niǎo)看做一個(gè)事件,對(duì)每一事件的時(shí)間序列進(jìn)行周期檢測(cè),進(jìn)而發(fā)現(xiàn)其周期模式。
本發(fā)明的第三目的是提供一種候鳥(niǎo)遷徙路徑描述服務(wù)器。
本發(fā)明的一種候鳥(niǎo)遷徙路徑描述服務(wù)器,包括上述所述的獲取候鳥(niǎo)遷徙路徑描述的裝置。
與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果是:
(1)本發(fā)明分利用了觀鳥(niǎo)數(shù)據(jù)的優(yōu)勢(shì),從候鳥(niǎo)遷徙活動(dòng)時(shí)空變化的角度出發(fā),結(jié)合每條觀鳥(niǎo)記錄中的重要屬性——“鳥(niǎo)類數(shù)量”,解決了觀鳥(niǎo)數(shù)據(jù)中存在的重復(fù)采樣、采樣分布不均等缺陷,提高了數(shù)據(jù)的質(zhì)量,保證了后期分析的準(zhǔn)確性;并對(duì)時(shí)間和空間特性分別處理,充分挖掘出鳥(niǎo)類時(shí)空數(shù)據(jù)中隱含的信息,提升了挖掘的質(zhì)量,對(duì)觀鳥(niǎo)數(shù)據(jù)的利用、處理和分析達(dá)到一個(gè)新高度,為候鳥(niǎo)遷徙的研究提供了新角度、新思路。
(2)本發(fā)明還可以將發(fā)現(xiàn)候鳥(niǎo)遷徙過(guò)程中的棲息地,作為候鳥(niǎo)保護(hù)區(qū)和觀賞地,探索的候鳥(niǎo)的遷徙路線能夠?qū)ξ磥?lái)候鳥(niǎo)的活動(dòng)做簡(jiǎn)單預(yù)測(cè),為機(jī)場(chǎng)鳥(niǎo)撞防護(hù)、鳥(niǎo)情預(yù)報(bào)提供理論支持。
附圖說(shuō)明
構(gòu)成本申請(qǐng)的一部分的說(shuō)明書(shū)附圖用來(lái)提供對(duì)本申請(qǐng)的進(jìn)一步理解,本申請(qǐng)的示意性實(shí)施例及其說(shuō)明用于解釋本申請(qǐng),并不構(gòu)成對(duì)本申請(qǐng)的不當(dāng)限定。
圖1是本發(fā)明的一種獲取候鳥(niǎo)遷徙路徑描述的方法流程圖;
圖2是重復(fù)點(diǎn)集合p’(ej);
圖3是特征點(diǎn)圖;
圖4是候鳥(niǎo)的棲息地示意圖;
圖5是滑動(dòng)窗口示意圖;
圖6是事件潛周期發(fā)現(xiàn)過(guò)程示意圖;
圖7(a)是家燕數(shù)據(jù)中重復(fù)點(diǎn)集中的軌跡點(diǎn);
圖7(b)是家燕數(shù)據(jù)聚類后選取的特征點(diǎn);
圖7(c)是家燕數(shù)據(jù)中原始的軌跡點(diǎn);
圖7(d)是家燕數(shù)據(jù)預(yù)處理后的軌跡點(diǎn);
圖8(a)是白鷺數(shù)據(jù)中重復(fù)點(diǎn)集中的軌跡點(diǎn);
圖8(b)是白鷺數(shù)據(jù)聚類后選取的特征點(diǎn);
圖8(c)是白鷺數(shù)據(jù)中原始的軌跡點(diǎn);
圖8(d)是白鷺數(shù)據(jù)預(yù)處理后的軌跡點(diǎn);
圖9(a)是家燕數(shù)據(jù)密度聚類后得到的簇;
圖9(b)是家燕熱分布圖;
圖9(c)是家燕棲息地;
圖10(a)是白鷺密度聚類后得到的簇;
圖10(b)是白鷺熱分布圖;
圖10(c)是白鷺棲息地;
圖11是本發(fā)明的一種獲取候鳥(niǎo)遷徙路徑描述的裝置結(jié)構(gòu)示意圖。
具體實(shí)施方式
應(yīng)該指出,以下詳細(xì)說(shuō)明都是例示性的,旨在對(duì)本申請(qǐng)?zhí)峁┻M(jìn)一步的說(shuō)明。除非另有指明,本文使用的所有技術(shù)和科學(xué)術(shù)語(yǔ)具有與本申請(qǐng)所屬技術(shù)領(lǐng)域的普通技術(shù)人員通常理解的相同含義。
需要注意的是,這里所使用的術(shù)語(yǔ)僅是為了描述具體實(shí)施方式,而非意圖限制根據(jù)本申請(qǐng)的示例性實(shí)施方式。如在這里所使用的,除非上下文另外明確指出,否則單數(shù)形式也意圖包括復(fù)數(shù)形式,此外,還應(yīng)當(dāng)理解的是,當(dāng)在本說(shuō)明書(shū)中使用術(shù)語(yǔ)“包含”和/或“包括”時(shí),其指明存在特征、步驟、操作、器件、組件和/或它們的組合。
本發(fā)明所涉及的名詞及術(shù)語(yǔ)解釋如下所述:
(1)候鳥(niǎo)遷徙軌跡:帶有時(shí)間戳的候鳥(niǎo)空間位置序列稱為候鳥(niǎo)遷徙軌跡,表示為p(ej)={p1(ej),p2(ej),…,pu(ej),pu+1(ej),…,pi(ej),…,pv(ej),…,pn(ej)},pi(ej)為鳥(niǎo)類的軌跡點(diǎn),n為軌跡點(diǎn)數(shù)量。其中ej表示鳥(niǎo)類的種類,ej∈e={e1,e2,…,ej,…,ej},j∈[1,j],j為鳥(niǎo)類的數(shù)量。
(2)軌跡點(diǎn):是對(duì)鳥(niǎo)類觀測(cè)采樣點(diǎn)的描述,包括經(jīng)度,緯度和時(shí)間戳三部分,表示為pi(ej)=<(xi,yi),ti,ej>,其中pi(ej)∈p(ej),j∈[1,j],i∈[1,n]。
(3)重復(fù)點(diǎn)集dps:對(duì)于某一類鳥(niǎo)類ej的軌跡點(diǎn)集合p(ej)={pu(ej),pu+1(ej),…,pv(ej)},j∈[1,j],i∈[u,v],如果有distance(pu,pi)≤θr,distance(pu,pv+1)>θr,且|tv–tu|<θt稱為重復(fù)點(diǎn)集,記為p’(ej)={pu’(ej),pu+1’(ej),…,pv’(ej)},p’(ej)∈p(ej)。{p1’(ej),p2’(ej),…,pk’(ej),…,pk’(ej)}稱作重復(fù)點(diǎn)集的集合,k∈[1,k],k為重復(fù)點(diǎn)集的集合的個(gè)數(shù)。
(4)特征點(diǎn)fp:在重復(fù)點(diǎn)集p’(ej)中,一個(gè)用以取代p’(ej)的軌跡點(diǎn),稱作特征點(diǎn),記做sk(ej)=<(xk,yk),tu,tv,ej>,其中tu為起始時(shí)間,tv為結(jié)束時(shí)間;x,y表示當(dāng)前特征點(diǎn)的中心坐標(biāo),k∈[1,k]。
(5)熱度:某個(gè)點(diǎn)或某個(gè)區(qū)域的重要程度,稱作熱度。將“鳥(niǎo)類數(shù)量”作為權(quán)重,代表每個(gè)觀測(cè)點(diǎn)實(shí)際觀測(cè)到的鳥(niǎo)類的數(shù)量,用“點(diǎn)熱度”來(lái)表示,權(quán)重越高,該點(diǎn)的熱度越大。一個(gè)區(qū)域內(nèi)“點(diǎn)熱度”之和越大,該區(qū)域的熱度越大。
(6)周期模式:候鳥(niǎo)ej的周期模式可表示成per_patternsl(ej)=<dl(ej),tl(ej),rep>,l∈[1,l],l為興趣區(qū)域的個(gè)數(shù),dl(ej)∈d(ej),tl(ej)=(lengthl(ej),ta(ej),tb(ej)),其中ta(ej)≤tb(ej)且lengthi(ej)>0,其中l(wèi)engthi(ej)表示周期的長(zhǎng)度,ta(ej)表示事件的起始時(shí)間點(diǎn),tb(ej)表示事件的結(jié)束時(shí)間點(diǎn),rep為周期的重復(fù)次數(shù)。
正如背景技術(shù)所介紹的,現(xiàn)有技術(shù)中存在1)采集的數(shù)據(jù)普遍存在不夠全面、精度較低、數(shù)據(jù)量有限等問(wèn)題;2)對(duì)原始數(shù)據(jù)的去重、去噪、標(biāo)準(zhǔn)化等工作鮮有涉及,導(dǎo)致數(shù)據(jù)的可利用性比較低;3)用于分析研究的數(shù)據(jù)量相對(duì)較小;4)候鳥(niǎo)與棲息地的時(shí)空關(guān)系及遷徙周期鮮有研究;5)鳥(niǎo)類數(shù)據(jù)利用和處理上存在局限性,未能深入挖掘數(shù)據(jù)中隱藏的知識(shí)和規(guī)律的問(wèn)題,為了解決如上的技術(shù)問(wèn)題,本申請(qǐng)?zhí)岢隽艘环N獲取候鳥(niǎo)遷徙路徑描述的方法。
圖1是本發(fā)明的一種獲取候鳥(niǎo)遷徙路徑描述的方法流程圖。
如圖1所示,本發(fā)明的一種獲取候鳥(niǎo)遷徙路徑描述的方法,至少包括:
s101:將鳥(niǎo)類觀測(cè)點(diǎn)的地址信息轉(zhuǎn)化為gps軌跡點(diǎn)坐標(biāo)數(shù)據(jù)。
在具體實(shí)施過(guò)程中,每一條觀鳥(niǎo)記錄中都包含了其獨(dú)有的時(shí)空信息,在對(duì)其進(jìn)行挖掘分析前,需要將觀鳥(niǎo)記錄抽象為帶有時(shí)間的點(diǎn),一條記錄對(duì)應(yīng)一個(gè)點(diǎn)。該點(diǎn)將作為鳥(niǎo)類遷徙行為的一個(gè)軌跡點(diǎn)。軌跡點(diǎn)既可以代表一個(gè)個(gè)體,也可以代表一個(gè)群體,用于表現(xiàn)鳥(niǎo)類的分布和遷徙。具體做法為:將每條觀鳥(niǎo)記錄的“鳥(niǎo)類觀測(cè)地點(diǎn)”中的文本信息轉(zhuǎn)換為gps經(jīng)緯度坐標(biāo),以便于后期計(jì)算、比較和展示。
s102:標(biāo)準(zhǔn)化處理gps軌跡點(diǎn)坐標(biāo)數(shù)據(jù),形成標(biāo)準(zhǔn)化gps軌跡點(diǎn)坐標(biāo)數(shù)據(jù)序列。
在具體實(shí)施過(guò)程中,未經(jīng)預(yù)處理的中國(guó)觀鳥(niǎo)數(shù)據(jù)中存在大量的重復(fù)采樣數(shù)據(jù),這是導(dǎo)致觀測(cè)記錄數(shù)量在地域、時(shí)間和種類上分布不均的重要原因之一,如果不將這些重復(fù)數(shù)據(jù)剔除,會(huì)直接影響數(shù)據(jù)挖掘的質(zhì)量。所以,在進(jìn)行數(shù)據(jù)分析前,首先要對(duì)原始候鳥(niǎo)軌跡數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理,以去除重復(fù)數(shù)據(jù),達(dá)到數(shù)據(jù)標(biāo)準(zhǔn)化的目的,初步解決觀鳥(niǎo)記錄數(shù)量分布不均的問(wèn)題,為后期分析奠定基礎(chǔ)。
在鳥(niǎo)類觀測(cè)數(shù)據(jù)集中,存在兩類重復(fù)性數(shù)據(jù):第一類為直觀重復(fù)數(shù)據(jù),表現(xiàn)為時(shí)間地點(diǎn)完全相同,即pi(ej)=pi+1(ej),可將該類數(shù)據(jù)進(jìn)行簡(jiǎn)單合并處理;第二類為隱含的重復(fù)性數(shù)據(jù),不易發(fā)現(xiàn),其表現(xiàn)為同一類鳥(niǎo)類對(duì)應(yīng)多個(gè)采樣點(diǎn)記錄,其時(shí)間、地點(diǎn)等具有相似性。當(dāng)某一種鳥(niǎo)在一個(gè)連續(xù)的時(shí)間段和一個(gè)小范圍區(qū)域內(nèi)被多次采樣,在以θr為鄰域的范圍,以θt為時(shí)間閾值內(nèi),就認(rèn)為這些采樣點(diǎn)數(shù)據(jù)出現(xiàn)重復(fù)。
具體地,形成標(biāo)準(zhǔn)化gps軌跡點(diǎn)坐標(biāo)數(shù)據(jù)序列的過(guò)程包括:
(1)對(duì)待標(biāo)準(zhǔn)化處理的gps軌跡點(diǎn)坐標(biāo)數(shù)據(jù)進(jìn)行聚類,得到gps軌跡特征點(diǎn);
特征點(diǎn)的選取按照如下步驟進(jìn)行:
step1:設(shè)置參數(shù)θr和θt的值;
step2:在候鳥(niǎo)ej的集合p(ej)={p1(ej),p2(ej),…,pi(ej),…,pn(ej)}中,隨機(jī)選擇一個(gè)點(diǎn)pi(ej)作為中心,計(jì)算其余各點(diǎn)到pi(ej)的距離;
step3:ifdistance(pother,pi)≤θr&&|tother–ti|<θt,then點(diǎn)pi(ej)加入重復(fù)點(diǎn)集合p’(ej)中,如圖2所示;
step4:輸出p’(ej);
step5:對(duì)重復(fù)點(diǎn)集合p’(ej)使用k-mediods聚類算法,k-mediods算法簇?cái)?shù)設(shè)置為1,得到的簇中心點(diǎn)作為p’(ej)的特征點(diǎn)sk(ej)=<(xk,yk),tu,tv,ej>;
step6:對(duì)p’(ej)中的所有軌跡點(diǎn)求加權(quán)平均數(shù),每個(gè)點(diǎn)的“鳥(niǎo)類數(shù)量”作為權(quán)值,得到的平均數(shù)作為特征點(diǎn)sk(ej)的“鳥(niǎo)類數(shù)量”;
step7:對(duì)p’(ej)中的每一個(gè)點(diǎn)重復(fù)step1-step4,直到輸出所有fp,如圖3所示;
step8:將特征點(diǎn)與不屬于重復(fù)點(diǎn)集的軌跡點(diǎn)數(shù)據(jù)重新排列,得到關(guān)于ej的新軌跡點(diǎn)序列s(ej)={s1(ej),s2(ej),…,sk(ej),…,sm(ej)},m為新軌跡點(diǎn)個(gè)數(shù),輸出s(ej)。
數(shù)據(jù)預(yù)處理作為數(shù)據(jù)分析前的必要準(zhǔn)備,極大的提高了數(shù)據(jù)的可用性,使觀鳥(niǎo)記錄數(shù)量在地域、時(shí)間和種類上分布不均的問(wèn)題得到初步解決。
(2)利用gps軌跡特征點(diǎn)替換重復(fù)的gps軌跡點(diǎn)坐標(biāo)數(shù)據(jù),進(jìn)而得到標(biāo)準(zhǔn)化gps軌跡點(diǎn)坐標(biāo)數(shù)據(jù)序列。
本發(fā)明利用特征點(diǎn)來(lái)代替候鳥(niǎo)軌跡中重復(fù)的點(diǎn),既可解決軌跡數(shù)據(jù)重復(fù)記錄問(wèn)題,確保數(shù)據(jù)挖掘質(zhì)量,又對(duì)海量軌跡數(shù)據(jù)進(jìn)行了壓縮,減少了冗余,可有效提高后期數(shù)據(jù)分析的效率和準(zhǔn)確性。
s103:對(duì)標(biāo)準(zhǔn)化gps軌跡點(diǎn)坐標(biāo)數(shù)據(jù)序列進(jìn)行密度聚類,獲取候鳥(niǎo)遷徙過(guò)程中所有的棲息地。
在鳥(niǎo)類的遷徙路線上,分布著許多可供利用的中途停歇地,這些停歇地和候鳥(niǎo)的越冬地、繁殖地共同構(gòu)成候鳥(niǎo)的棲息地。棲息地中鳥(niǎo)類的種群數(shù)量往往多于其他地區(qū),同樣的,發(fā)現(xiàn)的鳥(niǎo)類數(shù)量越多,鳥(niǎo)類記錄越密集的區(qū)域往往對(duì)于鳥(niǎo)類也越重要,這樣的地區(qū)也成為了鳥(niǎo)類潛在的棲息地。
具體地,獲取候鳥(niǎo)遷徙過(guò)程中所有的棲息地的過(guò)程包括:
(1)根據(jù)標(biāo)準(zhǔn)化gps軌跡點(diǎn)坐標(biāo)數(shù)據(jù)序列的密度聚類,得若干個(gè)簇;
(2)以簇內(nèi)各個(gè)gps軌跡點(diǎn)坐標(biāo)數(shù)據(jù)相對(duì)應(yīng)的鳥(niǎo)類觀測(cè)點(diǎn)所觀測(cè)到的“鳥(niǎo)類數(shù)量”作為權(quán)重,計(jì)算每個(gè)簇的“簇?zé)岫取?;其中,簇?zé)岫葹榇貎?nèi)各個(gè)gps軌跡點(diǎn)坐標(biāo)數(shù)據(jù)與其權(quán)重相乘之和;
(3)計(jì)算各離群點(diǎn)的“點(diǎn)熱度”,其中,“點(diǎn)熱度”為每個(gè)觀測(cè)點(diǎn)實(shí)際觀測(cè)到的鳥(niǎo)類的數(shù)量;
(4)將所有的“簇?zé)岫取焙汀包c(diǎn)熱度”按從大到小的順序排列,篩選出大于預(yù)設(shè)熱度閾值的區(qū)域作為候鳥(niǎo)的棲息地。
棲息地發(fā)現(xiàn)的基本步驟:
step1:對(duì)候鳥(niǎo)ej的新軌跡點(diǎn)序列s(ej)={s1(ej),s2(ej),…,sm(ej)},使用dbscan算法進(jìn)行密度聚類,得到關(guān)于ej的一系列大小形狀各異的簇,記為c(ej)={c1(ej),c2(ej),…,cl(ej),…,cl(ej)},l∈[1,l],l為簇的個(gè)數(shù)。
step2:以“鳥(niǎo)類數(shù)量”作為權(quán)重,計(jì)算每個(gè)簇的“簇?zé)岫取?,記做hdc。簇?zé)岫扔?jì)算方法:簇cl(ej)內(nèi)各點(diǎn)與其權(quán)重相乘之和;
step3:計(jì)算各離群點(diǎn)的“點(diǎn)熱度”;
step4:將所有的hdp和hdc按從大到小的順序排列,篩選出熱度較高的區(qū)域作為候鳥(niǎo)的棲息地,記作:d(ej)={d1(ej),d2(ej),…,dl(ej),…,dl(ej)},l∈[1,l],l為棲息地的個(gè)數(shù);
step5:分別對(duì)每一種候鳥(niǎo)的新軌跡點(diǎn)重復(fù)step1-step4;
step6:輸出所有候鳥(niǎo)的棲息地,如圖4所示。
本發(fā)明通過(guò)對(duì)標(biāo)準(zhǔn)化gps軌跡點(diǎn)坐標(biāo)數(shù)據(jù)序列進(jìn)行密度聚類,最終能夠快速準(zhǔn)確地篩選出候鳥(niǎo)的棲息地。
s104:對(duì)每一個(gè)棲息地引入時(shí)間因素,獲取所有棲息地的周期模式序列;所述周期模式序列由表征棲息地坐標(biāo)的時(shí)空序列和表征候鳥(niǎo)在棲息地出現(xiàn)時(shí)間的時(shí)間序列構(gòu)成。
候鳥(niǎo)是一種在越冬地與繁殖地周期性遷徙的鳥(niǎo)類,候鳥(niǎo)與棲息地之間存在著一定的時(shí)間關(guān)聯(lián),需要找到每個(gè)棲息地中候鳥(niǎo)的時(shí)間模式,并生成遷徙路線。其基本思想為:針對(duì)每一個(gè)頻繁區(qū)域,把區(qū)域內(nèi)每一類候鳥(niǎo)的時(shí)空數(shù)據(jù)轉(zhuǎn)換為時(shí)間序列數(shù)據(jù),將每一類候鳥(niǎo)看做一個(gè)事件,對(duì)每一事件的時(shí)間序列進(jìn)行周期檢測(cè),進(jìn)而發(fā)現(xiàn)其周期模式。
具體地,本階段的基本步驟為:首先,選取其中一個(gè)興趣區(qū)域dl(ej),掃描該區(qū)域中時(shí)間序列集合,選取合適的時(shí)間粒度,對(duì)時(shí)間序列進(jìn)行劃分;其次,找出每個(gè)事件發(fā)生的時(shí)間點(diǎn),建立區(qū)域事件時(shí)間位置表(e,time),如表1所示(以e1為例);然后,對(duì)區(qū)域事件時(shí)間位置表(e,time)檢測(cè)可能的周期。
表1區(qū)域事件時(shí)間位置表(e,time)
對(duì)區(qū)域事件事件位置表進(jìn)行以下操作:
step1:掃描區(qū)域事件時(shí)間位置表,并設(shè)置參數(shù):周期次數(shù)指針count_length,初始值為0;最小周期長(zhǎng)度min_length,最大周期長(zhǎng)度max_length,min_length和max_length長(zhǎng)度由用戶設(shè)定;最小發(fā)生次數(shù)min_rep,大小由用戶設(shè)定;周期模式重復(fù)次數(shù)指針rep,初始值為0;某一事件發(fā)生的時(shí)間點(diǎn)的個(gè)數(shù)count_time;
step2:從該事件的最后一個(gè)時(shí)間點(diǎn)開(kāi)始,從后向前建立滑動(dòng)窗。在滑動(dòng)窗內(nèi)比較該事件的任意兩次發(fā)生時(shí)間點(diǎn)的間距,記為length=tα-tβ,α∈[1,count_time],β∈[α+1,count_time];
step3:如果min_length≤length≤max_length,則count_length=count_length+1;否則停止計(jì)算,在下一個(gè)時(shí)間點(diǎn)tα+1處重新建立滑動(dòng)窗,對(duì)該事件的每一個(gè)時(shí)間點(diǎn)進(jìn)行上述計(jì)算;
step4:判斷每一個(gè)周期值length的count_length,如果有count_length≥min_rep,則該周期就是一個(gè)潛在周期,記為pot_length={pot_length1,pot_length2,…,pot_lengthλ,…,pot_lengthγ},λ∈[1,γ],γ為潛在周期個(gè)數(shù)。
step5:建立周期時(shí)間點(diǎn)對(duì)應(yīng)表(e,pot_length,time’):重復(fù)step2到step4,找到該事件所有潛在周期,并建立周期時(shí)間對(duì)應(yīng)表(e,pot_length,time’),pot_length記錄每一個(gè)潛在的周期,time’記錄其對(duì)應(yīng)的時(shí)間點(diǎn)time’∈time;
step6:建立哈希鏈表結(jié)構(gòu):掃描事件ej的周期時(shí)間對(duì)應(yīng)表(e,pot_length,time’),對(duì)表中該事件的每一個(gè)潛在周期長(zhǎng)度pot_lengthλ,λ∈[1,γ],求余mod=tα’%pot_lengthλ,tα’∈time’并建立哈希鏈表結(jié)構(gòu);
step7:輸出事件的有效周期模式:如果某一余數(shù)的鏈表滿足:鏈表長(zhǎng)度mod_rep>min_rep,且鏈表中的值為公差是pot_lengthλ的等差數(shù)列;則輸出pot_lengthλ為有效周期,重復(fù)次數(shù)rep=mod_rep-1,該等差數(shù)列的第一個(gè)值為起始時(shí)間點(diǎn),最后一個(gè)值為結(jié)束時(shí)間點(diǎn),生成周期模式。
以事件e1為例,min_length=2,max_length=7,min_rep=2,count_time=13。e1的滑動(dòng)窗口和周期時(shí)間對(duì)應(yīng)表(e,pot_length,time’),如圖5和表2所示。取pot_lengthλ=5,重置min_rep=3,取表1中所對(duì)應(yīng)的時(shí)間點(diǎn),該事件潛周期發(fā)現(xiàn)過(guò)程的如圖6所示;其中0、1、2、3、4是該周期被整除后所對(duì)應(yīng)的所有可能的余數(shù);余數(shù)為3時(shí),mod_rep=4>min_rep,且公差為5,所以,e1的有效周期為5,出現(xiàn)的時(shí)間點(diǎn)為3,8,13,18;rep=3。
s105:按照時(shí)間順序排列所有棲息地的周期模式序列,最終得到的時(shí)空序列作為候鳥(niǎo)遷徙路線,時(shí)間序列代表候鳥(niǎo)的遷徙方向。
表2周期時(shí)間對(duì)應(yīng)表(e,pot_length,time’)
對(duì)于候鳥(niǎo)ej,利用上述方法求出其所有棲息地d(ej)的周期模式,按照時(shí)間順序排列各棲息地,得到的時(shí)空序列作為候鳥(niǎo)遷徙路線,其時(shí)間序列代表候鳥(niǎo)的遷徙方向。
候鳥(niǎo)ej的周期模式可表示成per_patternsl(ej)=<dl(ej),tl(ej),rep>,l∈[1,l],l為興趣區(qū)域的個(gè)數(shù),dl(ej)∈d(ej),tl(ej)=(lengthl(ej),ta(ej),tb(ej)),其中ta(ej)≤tb(ej)且lengthi(ej)>0,其中l(wèi)engthi(ej)表示周期的長(zhǎng)度,ta(ej)表示事件的起始時(shí)間點(diǎn),tb(ej)表示事件的結(jié)束時(shí)間點(diǎn),rep為周期的重復(fù)次數(shù)。
為驗(yàn)證本發(fā)明的該方法的可行性和有效性,以家燕和白鷺為實(shí)驗(yàn)對(duì)象,探究其棲息地和遷徙路徑;并將數(shù)據(jù)挖掘的結(jié)果同鳥(niǎo)類學(xué)權(quán)威文獻(xiàn)《中國(guó)鳥(niǎo)類野外手冊(cè)》及《中國(guó)鳥(niǎo)類分類與分布名錄》作對(duì)比,以驗(yàn)證本發(fā)明的該方法的可行性和有效性。
本實(shí)驗(yàn)的運(yùn)行環(huán)境是windows7操作系統(tǒng),算法編寫(xiě)使用c#語(yǔ)言。軟件開(kāi)發(fā)環(huán)境為:microsoftvisualstudio2010和sqlserver2010。
實(shí)驗(yàn)一:數(shù)據(jù)預(yù)處理
利用特征點(diǎn)來(lái)代替候鳥(niǎo)軌跡中重復(fù)的點(diǎn),既可解決軌跡數(shù)據(jù)重復(fù)記錄問(wèn)題,確保數(shù)據(jù)挖掘質(zhì)量,又對(duì)海量軌跡數(shù)據(jù)進(jìn)行了壓縮,減少了冗余,可有效提高后期數(shù)據(jù)分析的效率和準(zhǔn)確性。
表3為篩選出的家燕軌跡點(diǎn)中部分重復(fù)點(diǎn)集數(shù)據(jù),時(shí)間從2008年5月2日到2008年5月9日;表4為篩選出的白鷺軌跡點(diǎn)中部分重復(fù)點(diǎn)集數(shù)據(jù),時(shí)間從2015年7月12日到2015年7月19日。
表3篩選出的家燕軌跡點(diǎn)中部分重復(fù)點(diǎn)集數(shù)據(jù)
表4篩選出的白鷺軌跡點(diǎn)中部分重復(fù)點(diǎn)集數(shù)據(jù)
根據(jù)觀鳥(niǎo)數(shù)據(jù)的特征,與基于經(jīng)緯度坐標(biāo)的球面距離,估計(jì)設(shè)置以下參數(shù),如表2所示。經(jīng)過(guò)實(shí)驗(yàn)測(cè)試,當(dāng)θr=6(km),θt=10時(shí),聚類效果最好,取得的特征點(diǎn)可以更好的代表重復(fù)點(diǎn)集的位置和時(shí)間,如表5所示。
表5重復(fù)點(diǎn)集參數(shù)選取表
當(dāng)ej=家燕,將表3中重復(fù)點(diǎn)集中的軌跡點(diǎn)(2008年5月2日到2008年5月9日江蘇南京附近)標(biāo)注在地圖上,如圖7(a);聚類后,得到一個(gè)特征點(diǎn),如圖7(b)所示;以此類推找出家燕所有的重復(fù)點(diǎn)集,并利用特征點(diǎn)替代,如圖7(c)和7(d)所示,可見(jiàn)線框內(nèi)的軌跡點(diǎn)明顯少于原始軌跡點(diǎn)。
當(dāng)ej=白鷺,將表4中重復(fù)點(diǎn)集中的軌跡點(diǎn)(2015年7月12到2015年7月19日上海浦東附近)標(biāo)注在地圖上,如圖8(a);聚類后,得到一個(gè)特征點(diǎn),如圖8(b)所示;以此類推找出家燕所有的重復(fù)點(diǎn)集,并利用特征點(diǎn)替代,如圖8(c)和8(d)所示,可見(jiàn)線框內(nèi)的軌跡點(diǎn)明顯少于原始軌跡點(diǎn)。
實(shí)驗(yàn)二:棲息地發(fā)現(xiàn)
對(duì)預(yù)處理后候鳥(niǎo)的新軌跡點(diǎn)序列s(ej),利用密度聚類和熱度計(jì)算得到候鳥(niǎo)遷徙過(guò)程中的棲息地。
當(dāng)ej=家燕,通過(guò)聚類得到25個(gè)簇c(家燕)如圖9(a);計(jì)算所有點(diǎn)的熱度,用熱力圖表示,如圖9(b),最后得到11個(gè)家燕的棲息地d(家燕)={d1,d2,d3,d4,d5,d6,d7,d8,d9,d10,d11},熱度分別為{369,1287,1885,1221,287,155,177,159,231,189,122},如圖9(c)。
當(dāng)ej=白鷺,通過(guò)聚類得到17個(gè)簇c(白鷺)如圖10(a);計(jì)算所有點(diǎn)的熱度,用熱力圖表示熱度,如圖10(b),最后得到13個(gè)家燕的棲息地d(白鷺)={d1,d2,d3,d4,d5,d6,d7,d8,d9,d10,d11,d12,d13},熱度分別為{487,288,62,2881,972,164,327,110,100,72,150,390,257},如圖10(c)。
實(shí)驗(yàn)三:周期模式挖掘
首先,按照一定的時(shí)間粒度,對(duì)1970年至2015年的時(shí)間序列進(jìn)行劃分,其中,沒(méi)有觀鳥(niǎo)記錄的年份將被忽略。我們定義一個(gè)年份集合cy={2015,2014,2013,2012,2010,2009,2008,2007,2006,2005,2004,2003,2002,2001,2000,1993,1992,1991,1987,1986,1985,1984,1983,1981,1970},作為研究的時(shí)間序列。時(shí)間粒度以10天為單位,對(duì)集合cy進(jìn)行劃分,將連續(xù)的日期劃分為離散的數(shù)據(jù)點(diǎn),如表6。
表6時(shí)間粒度劃分表
然后,利用實(shí)驗(yàn)二中得到的結(jié)論,選取一個(gè)候鳥(niǎo)的棲息地,挖掘事件的周期模式。
當(dāng)ej=家燕,選擇棲息地d3,對(duì)d3建立區(qū)域事件時(shí)間位置列表(不考慮個(gè)別留鳥(niǎo)的情況)如表7。
表7區(qū)域事件時(shí)間位置表(家燕)
當(dāng)設(shè)置最小周期為10,最大周期為108,最小發(fā)生次數(shù)為4時(shí),對(duì)得到的若干潛在周期利用哈希算法生成單個(gè)事件在該興趣區(qū)域的有效周期,得到有效周期{36,72}。周期模式為:
per_patterns3(家燕)=<d3,t3,23>,t3(家燕)=(36,906,29);
per_patterns3(家燕)=<d3,t3,21>,t3(家燕)=(36,892,9);
per_patterns3(家燕)=<d3,t3,7>,t3(家燕)=(72,673,169);
由此,可以得出結(jié)論,在興趣區(qū)域3中,家燕通常在每年3月中旬左右到達(dá),在10月上旬離開(kāi);也會(huì)有在2月下旬到達(dá)的情況。將家燕的棲息地與其在各棲息地周期模式相關(guān)聯(lián),即可得到家燕的遷徙路線,家燕每年3月上旬從南方向北方遷徙,沿東、西兩條遷徙帶遷徙,到9月中旬開(kāi)始南遷。
當(dāng)ej=白鷺,選擇棲息地d4,對(duì)d4建立區(qū)域事件時(shí)間位置列表(不考慮個(gè)別留鳥(niǎo)的情況)如表8。
表8區(qū)域事件時(shí)間位置表(白鷺)
當(dāng)設(shè)置最小周期為10,最大周期為108,最小發(fā)生次數(shù)為4時(shí),對(duì)得到的若干潛在周期利用哈希算法生成單個(gè)事件在該興趣區(qū)域的有效周期,得到有效周期{37,70,107}。周期模式為:
per_patterns4(白鷺)=<d4,t4,22>,t4(白鷺)=(37,873,33);
per_patterns4(白鷺)=<d4,t4,21>,t4(白鷺)=(37,812,7);
per_patterns4(白鷺)=<d4,t4,9>,t4(白鷺)=(70,736,105);
per_patterns4(白鷺)=<d4,t4,4>,t4(白鷺)=(107,665,220);
由此,可以得出結(jié)論,在興趣區(qū)域3中,白鷺通常在每年3月下旬左右到達(dá),在10月下旬離開(kāi);也會(huì)有在11月中旬到12月初離開(kāi)的情況。將白鷺的棲息地與其在各棲息地周期模式相關(guān)聯(lián),即可得到家燕的遷徙路線。白鷺部分為留鳥(niǎo),部分遷徙,遷徙的部分每年2月下旬從南方向北方遷徙,只沿東部遷徙帶遷徙,到10月中旬開(kāi)始南遷。
從實(shí)驗(yàn)結(jié)果來(lái)看,本發(fā)明的該方法具有其獨(dú)有的優(yōu)勢(shì):第一,與現(xiàn)有的數(shù)據(jù)分析工具(如spass、matlab等)相比,該方法更貼近觀鳥(niǎo)數(shù)據(jù)的數(shù)據(jù)特點(diǎn),更符合鳥(niǎo)類數(shù)據(jù)分析的要求。第二,與現(xiàn)有的研究方法相比,更注重?cái)?shù)據(jù)預(yù)處理方面的工作,并著重分析了鳥(niǎo)類數(shù)據(jù)時(shí)間與空間的關(guān)聯(lián)性,不僅取得了更好的效果,而且提高了算法效率。
利用數(shù)據(jù)挖掘技術(shù)處理和分析鳥(niǎo)類數(shù)據(jù),是一種比較先進(jìn)的思想和手段。我們提出了一種全新的算法去挖掘鳥(niǎo)類數(shù)據(jù),而不是利用已有的數(shù)據(jù)分析工具,如spass。與以往的方法相比文獻(xiàn),更注重?cái)?shù)據(jù)預(yù)處理方面的工作。另外,著重分析了鳥(niǎo)類數(shù)據(jù)時(shí)間與空間的關(guān)聯(lián)性,對(duì)時(shí)間和空間特性分別處理,既保證了數(shù)據(jù)分析的準(zhǔn)確性,又充分挖掘時(shí)空數(shù)據(jù)中隱含的知識(shí)。利用數(shù)據(jù)挖掘技術(shù)的優(yōu)勢(shì)彌補(bǔ)觀鳥(niǎo)數(shù)據(jù)的不足。
圖11是本發(fā)明的一種獲取候鳥(niǎo)遷徙路徑描述的裝置結(jié)構(gòu)示意圖。
如圖11所示,本發(fā)明的一種獲取候鳥(niǎo)遷徙路徑描述的裝置,包括:
(1)數(shù)據(jù)轉(zhuǎn)化模塊,其用于將鳥(niǎo)類觀測(cè)點(diǎn)的地址信息轉(zhuǎn)化為gps軌跡點(diǎn)坐標(biāo)數(shù)據(jù)。
在具體實(shí)施過(guò)程中,每一條觀鳥(niǎo)記錄中都包含了其獨(dú)有的時(shí)空信息,在對(duì)其進(jìn)行挖掘分析前,需要將觀鳥(niǎo)記錄抽象為帶有時(shí)間的點(diǎn),一條記錄對(duì)應(yīng)一個(gè)點(diǎn)。該點(diǎn)將作為鳥(niǎo)類遷徙行為的一個(gè)軌跡點(diǎn)。軌跡點(diǎn)既可以代表一個(gè)個(gè)體,也可以代表一個(gè)群體,用于表現(xiàn)鳥(niǎo)類的分布和遷徙。具體做法為:將每條觀鳥(niǎo)記錄的“鳥(niǎo)類觀測(cè)地點(diǎn)”中的文本信息轉(zhuǎn)換為gps經(jīng)緯度坐標(biāo),以便于后期計(jì)算、比較和展示。
(2)數(shù)據(jù)標(biāo)準(zhǔn)化處理模塊,其用于標(biāo)準(zhǔn)化處理gps軌跡點(diǎn)坐標(biāo)數(shù)據(jù),形成標(biāo)準(zhǔn)化gps軌跡點(diǎn)坐標(biāo)數(shù)據(jù)序列;
具體地,在所述數(shù)據(jù)標(biāo)準(zhǔn)化處理模塊中,去除重復(fù)的gps軌跡點(diǎn)坐標(biāo)數(shù)據(jù)。
未經(jīng)預(yù)處理的觀鳥(niǎo)數(shù)據(jù)中存在大量的重復(fù)采樣數(shù)據(jù),這是導(dǎo)致觀測(cè)記錄數(shù)量在地域、時(shí)間和種類上分布不均的重要原因之一,如果不將這些重復(fù)數(shù)據(jù)剔除,會(huì)直接影響數(shù)據(jù)挖掘的質(zhì)量。所以,在進(jìn)行數(shù)據(jù)分析前,首先要對(duì)原始候鳥(niǎo)軌跡數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理,以去除重復(fù)數(shù)據(jù),達(dá)到數(shù)據(jù)標(biāo)準(zhǔn)化的目的,初步解決觀鳥(niǎo)記錄數(shù)量分布不均的問(wèn)題,為后期分析奠定基礎(chǔ)。
其中,數(shù)據(jù)標(biāo)準(zhǔn)化處理模塊還包括:
gps軌跡特征點(diǎn)獲取模塊,其用于對(duì)待標(biāo)準(zhǔn)化處理的gps軌跡點(diǎn)坐標(biāo)數(shù)據(jù)進(jìn)行聚類,得到gps軌跡特征點(diǎn);
數(shù)據(jù)替換模塊,其用于利用gps軌跡特征點(diǎn)替換重復(fù)的gps軌跡點(diǎn)坐標(biāo)數(shù)據(jù),進(jìn)而得到標(biāo)準(zhǔn)化gps軌跡點(diǎn)坐標(biāo)數(shù)據(jù)序列。
本發(fā)明利用特征點(diǎn)來(lái)代替候鳥(niǎo)軌跡中重復(fù)的點(diǎn),既可解決軌跡數(shù)據(jù)重復(fù)記錄問(wèn)題,確保數(shù)據(jù)挖掘質(zhì)量,又對(duì)海量軌跡數(shù)據(jù)進(jìn)行了壓縮,減少了冗余,可有效提高后期數(shù)據(jù)分析的效率和準(zhǔn)確性。對(duì)gps軌跡點(diǎn)坐標(biāo)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化,數(shù)據(jù)分析前的必要準(zhǔn)備,極大的提高了數(shù)據(jù)的可用性,使觀鳥(niǎo)記錄數(shù)量在地域、時(shí)間和種類上分布不均的問(wèn)題得到初步解決。
(3)棲息地獲取模塊,其用于對(duì)標(biāo)準(zhǔn)化gps軌跡點(diǎn)坐標(biāo)數(shù)據(jù)序列進(jìn)行密度聚類,獲取候鳥(niǎo)遷徙過(guò)程中所有的棲息地。
具體地,棲息地獲取模塊包括:
密度聚類模塊,其用于根據(jù)標(biāo)準(zhǔn)化gps軌跡點(diǎn)坐標(biāo)數(shù)據(jù)序列的密度聚類,得若干個(gè)簇;
簇?zé)岫扔?jì)算模塊,其用于以簇內(nèi)各個(gè)gps軌跡點(diǎn)坐標(biāo)數(shù)據(jù)相對(duì)應(yīng)的鳥(niǎo)類觀測(cè)點(diǎn)所觀測(cè)到的“鳥(niǎo)類數(shù)量”作為權(quán)重,計(jì)算每個(gè)簇的“簇?zé)岫取保黄渲?,簇?zé)岫葹榇貎?nèi)各個(gè)gps軌跡點(diǎn)坐標(biāo)數(shù)據(jù)與其權(quán)重相乘之和;
點(diǎn)熱度計(jì)算模塊,其用于計(jì)算各離群點(diǎn)的“點(diǎn)熱度”,其中,“點(diǎn)熱度”為每個(gè)觀測(cè)點(diǎn)實(shí)際觀測(cè)到的鳥(niǎo)類的數(shù)量;
區(qū)域篩選模塊,其用于將所有的“簇?zé)岫取焙汀包c(diǎn)熱度”按從大到小的順序排列,篩選出大于預(yù)設(shè)熱度閾值的區(qū)域作為候鳥(niǎo)的棲息地。
在鳥(niǎo)類的遷徙路線上,分布著許多可供利用的中途停歇地,這些停歇地和候鳥(niǎo)的越冬地、繁殖地共同構(gòu)成候鳥(niǎo)的棲息地。棲息地中鳥(niǎo)類的種群數(shù)量往往多于其他地區(qū),同樣的,發(fā)現(xiàn)的鳥(niǎo)類數(shù)量越多,鳥(niǎo)類記錄越密集的區(qū)域往往對(duì)于鳥(niǎo)類也越重要,這樣的地區(qū)也成為了鳥(niǎo)類潛在的棲息地。本發(fā)明通過(guò)對(duì)標(biāo)準(zhǔn)化gps軌跡點(diǎn)坐標(biāo)數(shù)據(jù)序列進(jìn)行密度聚類,最終能夠快速準(zhǔn)確地篩選出候鳥(niǎo)的棲息地。
(4)周期模式序列獲取模塊,其用于對(duì)每一個(gè)棲息地引入時(shí)間因素,獲取所有棲息地的周期模式序列;所述周期模式序列由表征棲息地坐標(biāo)的時(shí)空序列和表征候鳥(niǎo)在棲息地出現(xiàn)時(shí)間的時(shí)間序列構(gòu)成;
具體地,周期模式序列獲取模塊包括:
時(shí)間序列劃分模塊,其用于將每一類候鳥(niǎo)生活在棲息地看作是一個(gè)事件;選取其中一個(gè)興趣區(qū)域,掃描該區(qū)域中時(shí)間序列集合,根據(jù)預(yù)設(shè)時(shí)間粒度對(duì)時(shí)間序列進(jìn)行劃分;
區(qū)域事件時(shí)間位置表建立模塊,其用于找出每個(gè)事件發(fā)生的時(shí)間點(diǎn),建立區(qū)域事件時(shí)間位置表;
周期檢測(cè)模塊,其用于對(duì)區(qū)域事件時(shí)間位置表檢測(cè)所有可能的周期,最終得到所有棲息地的周期模式序列。
候鳥(niǎo)是一種在越冬地與繁殖地周期性遷徙的鳥(niǎo)類,候鳥(niǎo)與棲息地之間存在著一定的時(shí)間關(guān)聯(lián),需要找到每個(gè)棲息地中候鳥(niǎo)的時(shí)間模式,并生成遷徙路線。其基本思想為:針對(duì)每一個(gè)頻繁區(qū)域,把區(qū)域內(nèi)每一類候鳥(niǎo)的時(shí)空數(shù)據(jù)轉(zhuǎn)換為時(shí)間序列數(shù)據(jù),將每一類候鳥(niǎo)看做一個(gè)事件,對(duì)每一事件的時(shí)間序列進(jìn)行周期檢測(cè),進(jìn)而發(fā)現(xiàn)其周期模式。
(5)遷徙路線及方向獲取模塊,其用于按照時(shí)間順序排列所有棲息地的周期模式序列,最終得到的時(shí)空序列作為候鳥(niǎo)遷徙路線,時(shí)間序列代表候鳥(niǎo)的遷徙方向。
本發(fā)明還提供了一種候鳥(niǎo)遷徙路徑描述服務(wù)器,包括如圖11所示的獲取候鳥(niǎo)遷徙路徑描述的裝置。
本發(fā)明分利用了觀鳥(niǎo)數(shù)據(jù)的優(yōu)勢(shì),從候鳥(niǎo)遷徙活動(dòng)時(shí)空變化的角度出發(fā),結(jié)合每條觀鳥(niǎo)記錄中的重要屬性——“鳥(niǎo)類數(shù)量”,解決了觀鳥(niǎo)數(shù)據(jù)中存在的重復(fù)采樣、采樣分布不均等缺陷,提高了數(shù)據(jù)的質(zhì)量,保證了后期分析的準(zhǔn)確性;并對(duì)時(shí)間和空間特性分別處理,充分挖掘出鳥(niǎo)類時(shí)空數(shù)據(jù)中隱含的信息,提升了挖掘的質(zhì)量,對(duì)觀鳥(niǎo)數(shù)據(jù)的利用、處理和分析達(dá)到一個(gè)新高度,為候鳥(niǎo)遷徙的研究提供了新角度、新思路。
本發(fā)明還可以將發(fā)現(xiàn)候鳥(niǎo)遷徙過(guò)程中的棲息地,作為候鳥(niǎo)保護(hù)區(qū)和觀賞地,探索的候鳥(niǎo)的遷徙路線能夠?qū)ξ磥?lái)候鳥(niǎo)的活動(dòng)做簡(jiǎn)單預(yù)測(cè),為機(jī)場(chǎng)鳥(niǎo)撞防護(hù)、鳥(niǎo)情預(yù)報(bào)提供理論支持。
上述雖然結(jié)合附圖對(duì)本發(fā)明的具體實(shí)施方式進(jìn)行了描述,但并非對(duì)本發(fā)明保護(hù)范圍的限制,所屬領(lǐng)域技術(shù)人員應(yīng)該明白,在本發(fā)明的技術(shù)方案的基礎(chǔ)上,本領(lǐng)域技術(shù)人員不需要付出創(chuàng)造性勞動(dòng)即可做出的各種修改或變形仍在本發(fā)明的保護(hù)范圍以內(nèi)。