欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種無線數(shù)據(jù)廣播環(huán)境下的空間關鍵字檢索方法

文檔序號:7860644閱讀:179來源:國知局
專利名稱:一種無線數(shù)據(jù)廣播環(huán)境下的空間關鍵字檢索方法
技術領域
本發(fā)明屬于無線數(shù)據(jù)廣播技術領域,具體涉及ー種在無線數(shù)據(jù)廣播環(huán)境下的空間關鍵字檢索的方法。
背景技術
隨著信息系統(tǒng)中,特別是互聯(lián)網(wǎng)上的文本文獻數(shù)量的急劇增長,關鍵字查詢技術已經(jīng)成為了當今計算機研究的熱點之一,并在各個領域得到廣泛應用。另ー方面,隨著無線通訊技術的發(fā)展以及移動設備的大規(guī)模應用,空間數(shù)據(jù)庫在現(xiàn)實中得到了很好的應用,成為了當今的研究熱點之一,其發(fā)展前景被廣泛看好。這兩者的結合,使互聯(lián)網(wǎng)上文本信息和位置信息結合的文檔(如企業(yè)黃頁)越來越普遍,從而使空間關鍵字檢索技術成為新的研究熱點。
在空間關鍵字檢索領域,區(qū)域限制的關鍵字查詢是ー種很常見的查詢。其定義為給定#個文檔ガ=以,d2,…,,每個文檔都包含位置信息kc,.以及文本信息,對于用戶提交的查詢RCKQ {locq, textq, radius),其中,Ajci7表示查詢點的位置,textq表示用戶提交的關鍵字集合,返回距離查詢點不超過iW/狀,且包含的所有關鍵字terら文檔集

ロ o無線數(shù)據(jù)廣播是移動數(shù)據(jù)管理的ー個重要研究分支,通過向空中廣播數(shù)據(jù),可以支持大量移動計算設備并發(fā)訪問服務器上的數(shù)據(jù),發(fā)送代價與接收者個數(shù)基本無關;利用無線信道的天然廣播特性,提高了系統(tǒng)的可伸縮性。數(shù)據(jù)庫和移動計算這兩個領域最重要的會議和期刊均發(fā)表了多篇研究無線數(shù)據(jù)廣播的論文。同時,無線數(shù)據(jù)廣播技術有著很好的應用前景,在消費電子、公共信息的發(fā)布、軍事等很多領域已有實際的應用。而無線局域網(wǎng)的高速推廣和3G網(wǎng)絡的部署,將為無線數(shù)據(jù)應用提供更好的基礎網(wǎng)絡平臺。無線數(shù)據(jù)廣播是目前無線移動網(wǎng)絡中廣泛采用的數(shù)據(jù)傳遞方法,廣播服務器通過公共的信道發(fā)送信息,用戶在廣播信道上偵聽并及時將自己感興趣的數(shù)據(jù)下載到本地。從用戶角度,無線信道可看成是存儲數(shù)據(jù)的載體,和可隨機訪問的內(nèi)存和硬盤不同,無線信道中的數(shù)據(jù)只能順序訪問。如何快速訪問和節(jié)省能源是無線數(shù)據(jù)廣播中研究的兩個主要問題,相應的,有兩個評價廣播性能的主要參數(shù)訪問時間(Access Time)和調(diào)諧時間(Tuning Time)
(1)訪問時間(AT):從用戶提出請求到請求得到滿足之間經(jīng)過的時間;
(2)調(diào)諧時間(TT):用戶在提出請求到請求得到滿足之間需要保持偵聽狀態(tài)的時間。在廣播信道中插入索引時減少調(diào)諧時間的主要方法,如何設計高效率的索引也得到了很多研究者的關注。將關鍵字檢索技術與無線數(shù)據(jù)廣播結合是近年來比較熱門的研究領域。已出現(xiàn)的技術有基于倒排表索引和哈希索引的無線數(shù)據(jù)廣播環(huán)境下的全文檢索技木。已有的技術只考慮了文本信息,而沒有考慮位置信息,因此已有的技術并不能有效支持空間關鍵字檢索,存在一定的局限。

發(fā)明內(nèi)容
本發(fā)明針對背景技術中所述的現(xiàn)有方法僅考慮文檔的文本信息,而沒有考慮位置信息的缺陷,提出了一種無線數(shù)據(jù)廣播環(huán)境下有效支持空間關鍵字檢索的方法,該方法結合網(wǎng)格索引和倒排表索引,進ー步提高了無線數(shù)據(jù)廣播系統(tǒng)的性能。本發(fā)明提出的無線數(shù)據(jù)廣播下的空間關鍵字檢索的方法,其總體思路是首先對服務器端的文檔進行預處理,生成網(wǎng)格索引以及每個網(wǎng)格的倒排表索引。然后將索引和文檔集合周期性地廣播。移動終端提出空間關鍵字查詢請求,并進入廣播信道,下載索引,通過索引得到落在感興趣區(qū)域并包含感興趣關鍵字的文檔的到達時間。接著用戶根據(jù)文檔的到達時間,進入信道下載文檔。最后,用戶在本地端進行計算確認最終結果。本發(fā)明具體步驟如下 (1)對服務器端的文檔進行預處理
對于服務器端的#個文檔ガ=以,Cl2,…,W,每個文檔4都包含位置信息A3Ci以及文本信息terら,其中,位置信息Ioci = Cr, y),表示文檔所在位置的經(jīng)緯度,文本信息textt由若干個關鍵字(單詞)組成;依次讀取每個文檔式.的位置信息和文本信息,建立一種基于網(wǎng)格索引與倒排表結合的索引I ;索引/分為兩層第一層為網(wǎng)格索引,第二層為倒排表;
(2)以步驟(I)建立的索引ム通過無線信道,將索引/和文檔集合周期性地廣播;
(3)移動終端提出空間關鍵字查詢請求0{Iocq, textq, radius)
表示查詢點的位置,(Mt表示用戶提交的關鍵字集合,要求返回距離查詢點不超過radi且包含的所有關鍵字textv文檔集合,即0Qocq, textがradius)=
Idi I textq c Iexti a Clist(IocqJoci) < radius},其中 distijoc” Ioc1)表示和
Ioci之間的直線距離;
(4 )移動終端訪問協(xié)議
(a)移動終端下載索引的第一層,即網(wǎng)格劃分索引;通過網(wǎng)格索引,用戶首先計算與查詢區(qū)域有交叉的網(wǎng)格;
(b)基于階段(a)的結果,客戶端將所有交叉的網(wǎng)格按下一次廣播時間排序,然后等待第一個交叉的網(wǎng)格被廣播,在等待過程中保持休眠狀態(tài);當?shù)谝粋€交叉的網(wǎng)格被廣播時,用戶進入信道,獲取該網(wǎng)格的倒排表,通過倒排表,獲得該網(wǎng)格內(nèi)包含查詢關鍵字的文檔(以下稱這些文檔為候選文檔)的下一次廣播時間,進而獲取該網(wǎng)格內(nèi)的所有獲選文檔(在等待候選文檔時同樣保持休眠狀態(tài));接著,重復以上過程,直至獲取所有交叉的網(wǎng)格的候選文檔;
(c)在獲取所有候選文檔之后,客戶端在本地進行確認,即對于每個候選文檔,計算該文檔到查詢點的距離,進而獲取最終精確結果。本發(fā)明中,步驟(I)中所述服務器端對文檔的預處理的步驟如下
(a)遍歷所有文檔,得出所有文檔的位置信息,并得到所有文檔位置所覆蓋的總區(qū)域/ ;然后用ー個最小矩形#份 將區(qū)域ガ包含起來;
(b)將矩形M況等分成^'Xg個網(wǎng)格,根據(jù)每個文檔も的位置信息kc,.,計算Cli所屬的網(wǎng)格,從而建立網(wǎng)格索引GI,記錄每個網(wǎng)格Glj所包含的文檔,表示第i行第j列網(wǎng)格;(C)對于每個網(wǎng)格Gu,遍歷該網(wǎng)格包含的文檔,根據(jù)每個文檔的文本信息 α ,.,建立該網(wǎng)格的倒排表索引,倒排表由兩部分組成詞匯表(即所有關鍵字集合),和包含每個單詞的文檔列表。本發(fā)明中,步驟(2)中所述索引和文檔集合周期性地廣播的步驟如下
Ca)按照前述求出的網(wǎng)格索引GI,首先在一個周期開始處廣播以。具體地,網(wǎng)格索引GI包括三部分
求出的Μ/P的左下角和右上角的經(jīng)諱度min_y)、(jnax_x,max_y);
經(jīng)過上述等分劃分之后,網(wǎng)格的長度I和寬度『;
各個網(wǎng)格的倒排表索引IFiJ的下一次廣播時間;
(b)接著,每個網(wǎng)格包含的文檔在一個周期內(nèi)逐個廣播,即單個網(wǎng)格內(nèi)的所有文檔將 出現(xiàn)在一個周期內(nèi)的連續(xù)位置;在網(wǎng)格Gy的文檔被廣播之前,都附有網(wǎng)格的倒排表索引IFlj ;其中,記錄了網(wǎng)格內(nèi)的詞匯表,以及包含每個關鍵字的所有文檔的下一次廣播時間。本發(fā)明所描述的無線數(shù)據(jù)廣播環(huán)境下的空間關鍵字檢索方法有以下優(yōu)點
(1)本發(fā)明方法所設計的索引非常小,因此可以在一個周期內(nèi)分布多次索引,以降低訪問延遲;
(2)通過索引,用戶可以剪枝落在區(qū)域外或者不包含感興趣關鍵字的文檔,從而使用戶保持監(jiān)聽狀態(tài)的時間大大減小,降低能量消耗。


圖I顯示了服務器端的各個文檔包含的關鍵字。圖2顯示了服務器端的各個文檔包含的位置。圖3顯示了一種2X2的網(wǎng)格劃分。圖4顯示了網(wǎng)格匕2的倒排表索引IF口。圖5顯示了一個廣播周期的索引和文檔。圖6為不同網(wǎng)格劃分對系統(tǒng)性能的影響圖示。其中,a和b分別為不同網(wǎng)格劃分對模擬數(shù)據(jù)SYN的AT指標和TT指標的影響,c和d分別為不同網(wǎng)格劃分對真實數(shù)據(jù)London的AT指標和TT指標的影響。圖7為查詢區(qū)域大小對系統(tǒng)性能的影響圖示。其中,a和b分別為查詢區(qū)域大小對模擬數(shù)據(jù)SYN的AT指標和TT指標的影響,c和d分別為查詢區(qū)域大小對真實數(shù)據(jù)London的AT指標和TT指標的影響。圖8為查詢關鍵字個數(shù)對系統(tǒng)性能的影響圖示。其中,a和b分別為查詢關鍵字個數(shù)對模擬數(shù)據(jù)SYN的AT指標和TT指標的影響,c和d分別為查詢關鍵字個數(shù)對真實數(shù)據(jù)London的AT指標和TT指標的影響。
具體實施例方式下面結合實施例子來詳細介紹本發(fā)明所述方法的具體執(zhí)行過程
(I)對服務器端的文檔進行預處理
a)根據(jù)圖I和圖2所示的文檔包含的關鍵字和位置信息,將文檔所在位置覆蓋的區(qū)域等分成2X2個網(wǎng)格,網(wǎng)格劃分如圖3所示,本例子中,網(wǎng)格為邊長為w的正方形;
b)對每個網(wǎng)格,遍歷該網(wǎng)格所包含的文檔,根據(jù)文檔所包含的關鍵字,建立該網(wǎng)格的倒排表索引。圖4所不為網(wǎng)格^2,2的倒排表索引IF2,2 ;
(2)將索引和文檔周期性地廣播
a)首先,在每個周期開始處廣播網(wǎng)格索引,如圖5所示,周期開始處廣播的是網(wǎng)格索弓丨,該索引包含了覆蓋區(qū)域的左下角和右上角的經(jīng)緯度,網(wǎng)格的寬度れ以及4個網(wǎng)格各自的倒排表索引下一次廣播時間;
b)接著按ん-&的順序廣播每個網(wǎng)格的倒排表索引以及網(wǎng)格所包含的文檔。對于每個網(wǎng)格,倒排表索引首先被廣播,接著是該網(wǎng)格包含的文檔;
(3)用戶提出空間關鍵字查詢請求,如圖2所示,用戶位于點,感興趣范圍為半徑為radius的圓形區(qū)域,用戶感興趣的關鍵字集合む尤ら={weather, transportation};
(4)假設該用戶在某周期的開始位置進入信道,獲取了該周期的網(wǎng)格索引。通過網(wǎng)格劃分信息,用戶計算得與查詢區(qū)域交叉的候選網(wǎng)格為ら2和。通過和,用戶獲得
和的下一次廣播時間。因此在2到來之前保持休眠狀態(tài),然后讀取//72,2。通過//\2,如圖4所示,用戶獲得包含關鍵字集合{weather, transportation}的文檔t/4的下一次廣播時間,進而讀取式的數(shù)據(jù)。同樣,用戶讀取了式的數(shù)據(jù)。最后,計算出ゴ4和ゴ5都落在感興趣區(qū)域內(nèi),因此作為結果返回。 表I顯示了實驗采用的數(shù)據(jù)集,其中SYN為模擬數(shù)據(jù),London為真實數(shù)據(jù)。
權利要求
1.一種在無線數(shù)據(jù)廣播環(huán)境下的空間關鍵字檢索的方法,其特征在于具體步驟如下 (1)對服務器端的文檔進行預處理 對于服務器端的#個文檔Cl2,…,4,每個文檔4都包含位置信息7OCi以及文本信息 α ,.,其中,位置信息Ioci = Cr, y),表示文檔所在位置的經(jīng)緯度,文本信息texti由若干個關鍵字(單詞)組成;依次讀取每個文檔4的位置信息和文本信息,建立一種基于網(wǎng)格索引與倒排表結合的索引I ;索引/分為兩層第一層為網(wǎng)格索引,第二層為倒排表; (2)以步驟(I)建立的索引/,通過無線信道,將索引J和文檔集合周期性地廣播; (3)移動終端提出空間關鍵字查詢請求0{Iocq, textq, radius)表示查詢點的位置,表示用戶提交的關鍵字集合,要求返回距離查詢點不超過radi心,且包含的所有關鍵字text^文檔集合,即0Qocq, textq, radius)=
2.根據(jù)權利要求I所述的方法,其特征在于步驟(I)中所述服務器端對文檔的預處理的步驟如下 (a)遍歷所有文檔,得出所有文檔的位置信息,并得到所有文檔位置所覆蓋的總區(qū)域7 ;然后用一個最小矩形#份 將區(qū)域W包含起來;(b)將矩形M況等分成個網(wǎng)格,根據(jù)每個文檔Cli的位置信息,計算Cli所屬的網(wǎng)格,從而建立網(wǎng)格索引GI,記錄每個網(wǎng)格Glj所包含的文檔,表示第i行第j列網(wǎng)格; (c)對于每個網(wǎng)格6^.,遍歷該網(wǎng)格包含的文檔,根據(jù)每個文檔的文本信息 α ,.,建立該網(wǎng)格的倒排表索引,倒排表由兩部分組成詞匯表即所有關鍵字集合,和包含每個單詞的文檔列表。
3.根據(jù)權利要求2所述的方法,其特征在于步驟(2)中所述索引和文檔集合周期性地廣播的步驟如下 Ca)按照前述求出的網(wǎng)格索引67,首先在一個周期開始處廣播以, 其中,網(wǎng)格索引以包括三部分 求出的Μ/P的左下角和右上角的經(jīng)諱度min_y)、(jnax_x,max_y);各個網(wǎng)格的倒排表索引IFiij的下一次廣播時間; (b)接著 ,每個網(wǎng)格包含的文檔在一個周期內(nèi)逐個廣播,即單個網(wǎng)格內(nèi)的所有文檔將出現(xiàn)在一個周期內(nèi)的連續(xù)位置;在網(wǎng)格Gy的文檔被廣播之前,都附有網(wǎng)格的倒排表索引IFlj ;其中,記錄了網(wǎng)格內(nèi)的詞匯表,以及包含每個關鍵字的所有文檔的下一次廣播時間。
全文摘要
本發(fā)明屬于無線數(shù)據(jù)廣播技術領域,具體為一種在無線數(shù)據(jù)廣播環(huán)境下的空間關鍵字檢索的方法。本發(fā)明首先對服務器端的文檔進行預處理,生成網(wǎng)格索引以及每個網(wǎng)格的倒排表索引;然后將索引和文檔集合周期性地廣播;移動終端提出空間關鍵字查詢請求,并進入廣播信道,下載索引,通過索引得到落在感興趣區(qū)域并包含感興趣關鍵字的文檔的到達時間;接著用戶根據(jù)文檔的到達時間,進入信道下載文檔;最后用戶在本地端進行計算確認最終結果。本發(fā)明方法所設計的索引非常小,可以在一個周期內(nèi)分布多次索引,以降低訪問延遲;并且,通過索引用戶可以剪枝落在區(qū)域外或者不包含感興趣關鍵字的文檔,從而使用戶保持監(jiān)聽狀態(tài)的時間大大減小,降低能量消耗。
文檔編號H04H20/38GK102867058SQ20121034621
公開日2013年1月9日 申請日期2012年9月18日 優(yōu)先權日2012年9月18日
發(fā)明者孫未未, 陳楚南, 陳翀 申請人:復旦大學
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
上犹县| 宝鸡市| 开鲁县| 青龙| 双峰县| 建宁县| 余江县| 柏乡县| 江达县| 冀州市| 崇文区| 潞西市| 山丹县| 乡城县| 肇东市| 缙云县| 和平县| 清水县| 塔河县| 威远县| 积石山| 朔州市| 昆山市| 花莲县| 堆龙德庆县| 南华县| 福安市| 罗甸县| 柳江县| 荃湾区| 崇左市| 巴林右旗| 兰考县| 巴彦淖尔市| 景东| 龙岩市| 涪陵区| 蒲城县| 太原市| 金寨县| 达日县|