一種本地數據庫同步更新遠程rss數據的方法

文檔序號：6586271閱讀：514來源：國知局

專利名稱：一種本地數據庫同步更新遠程rss數據的方法
技術領域：
本發(fā)明涉及一種本地數據庫同步更新遠程rss數據的方法，屬網絡數據庫更新技術領域。
背景技術：
RSS也叫聚合RSS，是在線共享內容的一種簡易方式(也叫聚合內容，Really SimpleSyndication)。通常在時效性比較強的內容上使用RSS訂閱能更快速獲取信息，網站提供RSS輸出，有利于讓用戶獲取網站內容的最新更新。RSS可用于在網站間分享信息，網絡用戶可以在客戶端借助于支持RSS的聚合工具軟件(例如Sharp Reader, RSS Reader, NewzCrawler、 Feed Demon)，在不打開網站內容頁面的情況下閱讀支持RSS輸出的網站內容。RSS源是一種描述和同步網站內容的格式，是目前使用最廣泛的XML應用。RSS搭建了信息迅速傳播的一個技術平臺，使得每個人都成為潛在的信息提供者。發(fā)布一個RSS文件后，這個RSS Feed中包含的信息就能直接被其他站點調用，而且由于這些數據都是標準的 XML格式，所以也能在其他的終端和服務中使用。RSS是目前使用最廣泛的資源共享應用，可以被稱為資源共享模式的延伸。 RSS的語法介紹RSS是基于文本的格式。它是XML(可擴展標識語言)的一種形式，簡單來說，RSS實際上就是一個XML文件，定義了相關的DTD(Document Type Definition,文檔類定義)。一個RSS文件就是一段規(guī)范的XML數據，該文件一般以rss， xml或者rdf作為后綴。通常RSS文件都是標為XML， RSS文件(通常也被稱為RSS feeds 或者channels)通常只包含簡單的項目(item)列表。一般而言，每一個項目(item)都含有一個標題(title)，一段簡單的介紹(description)，還有一個URL鏈接(link,比如是一個網頁的地址)。而其他的信息，例如日期(pubdate)、創(chuàng)建者的信息(author)等等，都是可以選擇的。RSS的具體結構RSS2. 0文件由一個channel元素及其子元素item構成。所有的RSS必須遵循XML1. 0標準，根元素〈RSS〉的version (版本)屬性指出該文檔遵循的 RSS規(guī)范。cha皿el元素用于描述RSS feed,它有三個子元素是必須的，分別為〈title〉、〈description〉、〈link〉，其中〈title〉描述該RSS源的名稱，〈description〉是對該頻道的描述，〈link〉描述頻道對應的URL鏈接；其它子元素是可選的，如〈image〉、〈language〉、〈category〉、〈copyright〉、〈pubdate〉等，〈image〉定義了顯示該頻道的GIF, JPEG或者PNG 格式的圖片，〈language〉描述該RSS使用的語言，〈category〉聲明該頻道所屬的一個或者多個分類，〈copyright〉是該RSS的版權聲明，〈pubdate〉描述該RSS發(fā)布的日期。
〈item〉元素是一個rss文檔中最重要的部分，每個〈cha皿el〉元素可擁有一個或多個〈item〉元素，每個〈item〉元素可定義RSS feed中的一篇文章或"story"。其內容也經常變化，用來顯示更新的內容?！磇tem〉元素里的〈title〉、〈description〉、〈link〉元素是必須的，其中〈title〉用于描述該項的名稱，〈description〉是對該條目的描述，〈link〉描述對應的亂鏈接；還有一些可選項如〈pubdate>、〈source>、〈author>、〈comments>、〈category〉、〈guid〉等，其中〈pubdate〉是該條目發(fā)布的日期，〈source〉為該條目指定一個第三方來源，〈author〉描述作者信息，〈comments〉允許項目連接到有關此項目的注釋(文件)，〈category〉指出該條的所屬分類，〈guid〉為該項目定義一個唯一的標識符。通常情況下，一段item的介紹可能包含新聞的全部介紹，或者僅僅是額外的內容或者簡短的介紹。這些項目的鏈接通常都能鏈接到全部的內容，可以讓用戶閱讀網站內容的最新信息。
Rss提供網站間的內容共享，用戶可以通過訂閱rss在不打開網站內容頁面的情況下閱讀支持RSS輸出的網站內容。一般情況下，用戶也可以通過rss閱讀器或者在線網絡工具直接閱讀rss內容。但這些應用需要用戶主動尋找rss信息源，并手動添加到rss信息源到列表中，操作繁瑣，數據混雜，不便于用戶操作。傳統(tǒng)的rss訂閱方式可以通過直接訪問rss可以得到rss的各個元素信息，首先用戶向服務器發(fā)出連接rss請求，服務器接到請求后連接因特網，因特網返回rss數據給服務器，最后服務器向用戶返回數據。其步驟如下
(1)、用戶向服務器發(fā)出連接請求； (2)、服務器根據用戶提交的rss連接信息去因特網連接rss源；
(3)、因特網向服務器返回rss數據信息；
(4)、服務器向用戶返回rss信息。該方法訪問速度慢，內容處理復雜，并且一旦服務器處在掉線模式，系統(tǒng)就不能正常運行，其可靠性大大下降，不能為用戶提供優(yōu)質服務。如電腦知識與技術雜志第5巻第9期，2009年3月，"基于RSS的個性化信息服務研究"所述即屬于此列。

發(fā)明內容
為了克服現(xiàn)有技術的缺陷和不足，以解決用戶直接訪問rss數據存在的速度緩慢以及rss數據分類復雜混亂、操作繁瑣的問題，本發(fā)明提供了一種本地數據庫同步更新遠程rss數據的方法。本發(fā)明的技術解決方案是直接在內容服務器端進行rss訂閱，并將來源不同的rss信息分類，整合到本地數據庫，由內容服務器向用戶直接提供rss服務。
本發(fā)明的技術解決方案如下 —種本地數據庫同步更新遠程rss數據的方法，步驟如下
1)內容服務器解析所有的rss源，將解析的rss信息放入本地數據庫；
2)對得到的rss信息進行分類，整合到內容服務器的本地數據庫；
3)內容服務器端進行rss內容更新。上述步驟1)所述的內容服務器解析所有的rss源，將解析的rss信息放入本地數據庫，具體步驟如下 (1)產生某一個rss源對應的XML—RSS對象$rss = &new XML_RSS ($url) ;url是該rss源對應的鏈接； (2)解析該rss源$rss->parse(); (3)得至lj該rss源的所有item :$items = $rss_>getltems (); (4)對所有的rss進行解析，并且將每一個rss源的信息都存放在數據表中，其中
在本地數據庫中為每一個rss源建立一個數據表，以標識不同的rss源信息。通常，我們提取item的title、description、link、pubdate元素，并且根據title
4元素和description元素進行分類，通過與rss源所屬的頻道進行模糊匹配分類，存放于本地數據庫中的不同數據表中。上述步驟2)所述的對得到的rss信息進行分類，整合到內容服務器的本地數據庫，具體步驟如下 (1)根據頻道分類信息確定rss信息的分類有哪些，其中為每一個頻道建立一個數據表，以標識不同的頻道數據； (2)由解析得到的〈title〉、〈description〉確定該item屬于哪個分類； (3)根據得到的link信息，得到該item的全文信息；并將該item加入到相應的
分類中； (4)對所有的item進行分類。上述步驟(2)所述的由解析得到的〈title〉、〈description〉確定該item屬于哪個分類，具體步驟如下 ①首先對〈title〉和〈description〉設置不同的權值；
②進行欄目匹配分析以確定該item所屬的欄目；
③針對某一欄目進行頻道分析，確定所屬的頻道分類；判斷該item是否已存在于該分類中，若是，不進行數據表插入操作，否則將該item插入所對應頻道分類的數據表中。為確保rss信息的時效性，需要在內容服務器端進行rss內容更新；上述步驟3)所述的內容服務器端進行rss內容更新，具體步驟如下 (l)若某一 rss源的第一個item已存在于數據庫中，則停止更新，否則繼續(xù)提取該
源的item，將其插入該源對應的數據表中，并對其進行分類； (2)依次更新rss直至所提取的item已存在于數據表中； (3)對所有的rss源進行更新。上述步驟3)中內容服務器端對rss源進行更新，可根據不同rss源的更新速度，對不同的rss源設置不同的更新頻率。上述步驟(3)所述的對所有的rss源進行更新，具體步驟如下 ①對某一 rss源item的〈pubdate〉(發(fā)布時間)進行分析，確定相鄰的item之間
發(fā)布時間的相似度，建立相似度向量表； ②根據相似度向量表確定某一 rss源的更新頻率； ③建立所有rss源的相似度向量表，確定所有rss源的更新頻率。本發(fā)明方法所用系統(tǒng)由用戶端的終端、存放RSS信息的內容服務器、提供RSS源的
因特網3個部分組成，其中內容服務器將因特網上不同的RSS源信息數據進行整合分類，存
放在本地數據庫中，并向用戶提供訂閱服務。本地數據庫同步更新遠程rss數據可以分為
2個功能模塊數據庫更新模塊、信息訂閱模塊。內容服務器提取了遠程rss信息數據并進行分類存儲在本地的內容服務器上，系統(tǒng)可以根據用戶定制的信息向用戶輸出不同的rss信息，而用戶無需知道這些內容的來源。由于這些rss信息是存儲在本地的內容服務器的，這提高了用戶的訪問速度，節(jié)省了用戶的時間。該方法避免用戶端直接連接rss源，從而改進用戶的訪問速度，并且在內容服務器與rss源斷開連接的情況下，系統(tǒng) 可工作，避免由于網絡故障原因引起的服務中斷。
5在內容服務器端，我們對rss源的信息進行定期更新，從而保證用戶信息的時效性，為用戶提供優(yōu)質的服務，用戶只需要訂閱相應的信息就可以得到網絡上屬于該信息分類的rss服務。
技術背景的RSS訂閱方式是，用戶通過RSS閱讀器訂閱RSS信息，由直接訪問rss可以得到rss的各個元素信息首先用戶發(fā)出連接RSS請求，服務器接到請求后連接因特網，因特網返回rss數據給服務器，最后服務器向用戶返回RSS數據。而本發(fā)明的本地數據庫同步更新遠程rss數據的方法通過內容服務器將用戶和因特網分離，內容服務器從因特網上獲取rss源的信息，用戶只需要向內容服務器提交訂閱、發(fā)送瀏覽請求就可得到來自于因特網的信息服務。本發(fā)明方法解決了直接進行RSS訂閱訪問速度慢這一問題，該技術結合傳統(tǒng)的RSS訂閱，在內容服務器端進行RSS訂閱，解析RSS源，并將解析的RSS信息進行整合分類，存放到本地數據庫，優(yōu)化了數據存儲格式，即在內容服務器端增加一個中間服務層，以提高訪問速度。

圖1是本發(fā)明方法的流程圖；其中1)_3)為其各個步驟。圖2是圖1中所示步驟1)的具體步驟的流程圖；其中(1)_(4)為其各個步驟。圖3是圖1中所示步驟2)的具體步驟的流程圖；其中a-d為其各個步驟。圖4是圖3中所示步驟b的具體步驟的流程圖；其中e-h為其各個步驟。圖5是圖1中所示步驟3)的具體步驟的流程圖；其中i_k為其各個步驟。圖6是圖5中所示步驟k的具體步驟的流程圖；其中1-n為其各個步驟。
具體實施例方式
下面結合附圖和實施例對本發(fā)明作進一步說明，但不限于此。
實施例 —種本地數據庫同步更新遠程rss數據的方法，如圖1所示，步驟如下
1)內容服務器解析所有的rss源，將解析的rss信息放入本地數據庫；
2)對得到的rss信息進行分類，整合到內容服務器的本地數據庫；
3)內容服務器端進行rss內容更新。上述步驟1)所述的內容服務器解析所有的rss源，將解析的rss信息放入本地數據庫，如圖2所示，具體步驟如下 (1)產生某一個rss源對應的XML—RSS對象$rss = &new XML_RSS ($url) ;url是該rss源對應的鏈接； (2)解析該rss源$rss_>parse (); (3)得至lj該rss源的所有item :$items = $rss_>getltems (); (4)對所有的rss進行解析，并且將每一個rss源的信息都存放在數據表中，其中
在本地數據庫中為每一個rss源建立一個數據表，以標識不同的rss源信息。上述步驟2)所述的對得到的rss信息進行分類，整合到內容服務器的本地數據
庫，如圖3所示，具體步驟如下
a根據頻道分類信息確定rss信息的分類有哪些，其中為每一個頻道建立一個數據表，以標識不同的頻道數據； b由解析得到的〈title〉、〈description〉確定該item屬于哪個分類； c根據得到的link信息，得到該item的全文信息；并將該item加入到相應的分
類中； d對所有的item進行分類。上述步驟b所述的由解析得到的〈title〉、〈description〉確定該item屬于哪個分類，如圖4所示，具體步驟如下 e首先對〈title〉和〈description〉設置不同的權值；
f進行欄目匹配分析以確定該item所屬的欄目；
g針對某一欄目進行頻道分析，確定所屬的頻道分類； h判斷該item是否已存在于該分類中，若是，不進行數據表插入操作，否則將該 item插入所對應頻道分類的數據表中。上述步驟3)所述的內容服務器端進行rss內容更新，如圖5所示，具體步驟如下
i若某一 rss源的第一個item已存在于數據庫中，則停止更新，否則否則繼續(xù)提取該源的item，將其插入該源對應的數據表中，并對其進行分類；
j依次更新rss直至所提取的item已存在于數據表中；
k對所有的rss源進行更新。上述步驟k所述的對所有的rss源進行更新，如圖6所示，具體步驟如下 1對某一 rss源item的〈pubdate〉(發(fā)布時間)進行分析，確定相鄰的item之間
發(fā)布時間的相似度，建立相似度向量表； m根據相似度向量表確定某一 rss源的更新頻率； n建立所有rss源的相似度向量表，確定所有rss源的更新頻率。
權利要求
一種本地數據庫同步更新遠程rss數據的方法，步驟如下1)內容服務器解析所有的rss源，將解析的rss信息放入本地數據庫；2)對得到的rss信息進行分類，整合到內容服務器的本地數據庫；3)內容服務器端進行rss內容更新。
2. 如權利要求l中步驟l)所述的內容服務器解析所有的rss源，將解析的rss信息放入本地數據庫，具體步驟如下(1) 產生某一個rss源對應的XML_RSS對象$rss = &new XML_RSS ($url) ;url是該rss源對應的鏈接；(2) 解析該rss源$rss_ > parse ();(3) 得至U該rss源的所有item :$items = $rss_ > getltems();(4) 對所有的rss源進行解析，并且將每一個rss源的信息都存放在數據表中，其中在本地數據庫中為每一個rss源建立一個數據表，以標識不同的rss源信息。
3. 如權利要求l中步驟2)所述的對得到的rss信息進行分類，整合到內容服務器的本地數據庫，具體步驟如下(1) 根據頻道分類信息確定rss信息的分類有哪些，其中為每一個頻道建立一個數據表，以標識不同的頻道數據；(2) 由解析得到的〈title〉、〈description〉確定該item屬于哪個分類；(3) 根據得到的link信息，得到該item的全文信息；并將該item加入到相應的分類中；(4) 對所有的item進行分類。
4. 如權利要求3中步驟(2)所述的由解析得到的〈title〉、〈description〉確定該item屬于哪個分類，具體步驟如下① 首先對〈title〉和〈description〉設置不同的權值；② 進行欄目匹配分析，以確定該item所屬的欄目；③ 針對某一欄目進行頻道分析，確定所屬的頻道分類；判斷該item是否已存在于該分類中，若是，不進行數據表插入操作，否則將該item插入所對應頻道分類的數據表中。
5. 如權利要求1中步驟3)所述的內容服務器端進行rss內容更新，具體步驟如下(1) 若某一rss源的第一個item已存在于數據庫中，則停止更新，否則繼續(xù)提取該源的item，將其插入該源對應的數據表中，并對其進行分類；(2) 依次更新rss直至所提取的item已存在于數據表中；(3) 對所有的rss源進行更新。步驟3)中內容服務器端對rss源進行更新，可根據不同rss源的更新速度，對不同的rss源設置不同的更新頻率。
6. 如權利要求5中步驟(3)所述的對所有的rss源進行更新，具體實現(xiàn)如下① 對某一 rss源item的〈pubdate〉(發(fā)布時間)進行分析，確定相鄰的item之間發(fā)布時間的相似度，建立相似度向量表；② 根據相似度向量表確定某一 rss源的更新頻率；③ 建立所有rss源的相似度向量表，確定所有rss源的更新頻率。
全文摘要
一種本地數據庫同步更新遠程rss數據的方法，屬網絡數據庫更新技術領域。其步驟如下1)內容服務器解析所有的rss源，將解析的rss信息放入本地數據庫；2)對得到的rss信息進行分類，整合到內容服務器的本地數據庫；3)內容服務器端進行rss內容更新。本發(fā)明方法解決了用戶直接訪問rss數據存在的速度緩慢以及rss數據分類復雜混亂、操作繁瑣的問題。
文檔編號G06F17/30GK101763419SQ20091025574
公開日2010年6月30日申請日期2009年12月28日優(yōu)先權日2009年12月28日
發(fā)明者徐超, 林賀, 王恒, 石祚夫, 袁東風, 陳飛, 顏廷芝, 魏斌申請人:山東大學

完整全部詳細技術資料下載

該技術已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術所有人。
技術研發(fā)人員：袁東風;顏廷芝;王恒;徐超;林賀;陳飛;魏斌;石祚夫
技術所有人：山東大學
我是此專利的發(fā)明人

上一篇：一種用于農村信息化系統(tǒng)的裝置及其實現(xiàn)方法
上一篇：一種用于linux操作系統(tǒng)的手寫輸入方法

該領域下的技術專家
如您需求助技術專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構動力學與控制
3、袁老師：1.計算機視覺 2.無線網絡及物聯(lián)網
4、王老師：1.計算機網絡安全 2.計算機仿真技術
5、王老師：1.網絡安全；物聯(lián)網安全、大數據安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關技術

網友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種本地數據庫同步更新遠程rss數據的方法