欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種科技信息自動分類篩選的方法

文檔序號:6596018閱讀:525來源:國知局
專利名稱:一種科技信息自動分類篩選的方法
技術(shù)領(lǐng)域
本發(fā)明涉及網(wǎng)頁分類技術(shù)領(lǐng)域,具體地說一種科技信息自動分類篩選的方法。
背景技術(shù)
現(xiàn)代信息技術(shù)的發(fā)展,信息呈現(xiàn)高速、大容量的特征,有效的信息是競爭取得勝利的關(guān)鍵因素,為了有效地管理和利用這些信息收集、加工、處理、傳遞和貯存等環(huán)節(jié)的管理和利用,基于內(nèi)容的信息檢索和數(shù)據(jù)的挖掘已成為備受關(guān)注的領(lǐng)域。隨著互聯(lián)網(wǎng)相關(guān)技術(shù)的發(fā)展與成熟,互聯(lián)網(wǎng)、企業(yè)內(nèi)部網(wǎng)中提供的網(wǎng)頁越來越多,一方面滿足了用戶對信息的需求,另一方面也產(chǎn)生了一些問題,如何根據(jù)網(wǎng)頁的內(nèi)容把網(wǎng)頁自動分到不同的語義類別,以提高用戶的體驗,是目前搜索引擎的預(yù)處理或網(wǎng)站的文本自動分類管理面臨解決的一個問題。但是,傳統(tǒng)搜索工作方式和因特網(wǎng)的快速發(fā)展,使其搜索的結(jié)果讓人越來越不滿意。搜索直接的關(guān)鍵詞,往往會查找到一些不具有相關(guān)性的頁面,例如:搜索“**省科技創(chuàng)新”不會顯示關(guān)于**省內(nèi)的科技創(chuàng)新頁面,相反系統(tǒng)會檢索到關(guān)于**省(與科技創(chuàng)新無關(guān))或是其他省市的“科技”或“創(chuàng)新”的相關(guān)頁面。之前的搜索機制是基于各個單一的詞語而不是對整個頁面的概括,例如“**省科技創(chuàng)新”,所有頁面中只要提到“**省”或“科技”“創(chuàng)新”這兩個詞的頁面都會被檢索出來,符合這三個詞語的任何排列組合后的短語或單一詞語都會出現(xiàn)在檢索結(jié)果中,可能有幾百萬頁的搜索結(jié)果。由于搜索引擎通過對網(wǎng)站的相關(guān)性來優(yōu)化搜索結(jié)果,這種相關(guān)性又是由關(guān)鍵字在網(wǎng)站的位置、網(wǎng)站的名稱、標簽等公式來決定的,這才導致搜索引擎的搜索結(jié)果多而雜。因此,文本分類技術(shù)、按照篩選規(guī)則對數(shù)據(jù)庫里的內(nèi)容進行篩選、比對等需要一種應(yīng)用面寬、適應(yīng)力強、更新?lián)Q代靈活、技術(shù)新、滿足用戶快速獲取有效信息的需求等特點的技術(shù)。

發(fā)明內(nèi)容

針對上述不足,本發(fā)明提供了一種科技信息自動分類篩選的方法,其不僅能夠解決現(xiàn)有搜索技術(shù)的弊端,而且能夠極大地提高了信息檢索的效率,保證數(shù)據(jù)抓取的完整性和可靠性。本發(fā)明解決其技術(shù)問題采取的技術(shù)方案是:一種科技信息自動分類篩選的方法,用于實時獲取不同類型的科技信息并針對注冊用戶的類型實時推送其所需要的信息,使注冊用戶登錄系統(tǒng)網(wǎng)站后及時獲得最新、有效的科技服務(wù)信息,并實現(xiàn)自身存儲數(shù)據(jù)的及時更新,其特征是,包括以下步驟:I)利用網(wǎng)絡(luò)信息篩選裝置從公開地址抓取動態(tài)數(shù)據(jù)包;2)對抓取的動態(tài)數(shù)據(jù)包進行信息分類篩選,并確定指定關(guān)鍵詞是否為本頁面的關(guān)鍵詞:2.1)對出現(xiàn)指定關(guān)鍵詞的所有頁面進行一級篩選;2.2)建立用戶標識與用戶偏好類型的對應(yīng)關(guān)系,以及用戶偏好類型與服務(wù)信息的對應(yīng)關(guān)系,并存儲在服務(wù)器數(shù)據(jù)庫中;
2.3)確定指定關(guān)鍵詞是否為本頁面的關(guān)鍵詞;3)查詢與用戶標識相對應(yīng)的用戶偏好類型,獲取與用戶偏好類型相對應(yīng)的服務(wù)信息,并將服務(wù)信息顯示到本地用戶終端的瀏覽器首頁中;4)本地用戶終端根據(jù)用戶的定制條件將數(shù)據(jù)信息推送給用戶。進一步地,所述對出現(xiàn)指定關(guān)鍵詞的所有頁面進行一級篩選的步驟為:Al、在篩選數(shù)據(jù)庫中添加非關(guān)鍵詞;A2、對頁面中所有詞語進行逐一篩選,刪除與篩選數(shù)據(jù)庫中非關(guān)鍵詞相同的頁面詞語;A3、統(tǒng)計頁面中有特殊標記詞語的出現(xiàn)頻率,表示為:Pal、Pa2、Pa3…;A4、將特殊詞語頻率分別與權(quán)A相乘得到特殊詞語加權(quán)頻率,表示為:APal、APa2,APa3-*.;A5、刪除頁面信息文本中帶有特殊標記的詞語;A6、導入常用詞詞庫,對頁面信息文本進行全文掃描,統(tǒng)計常用詞詞庫中詞語在頁面信息文本中的出現(xiàn)頻率,表示為:Pbl、Pb2、Pb3…;A7、將常用詞頻率分別與權(quán)B相乘得到常用詞加權(quán)頻率,表示為:BPbl、BPb2、BPb3…;A8、對特殊詞語加權(quán)頻率APal、APa2、APy與常用詞加權(quán)頻率BPbl、BPb2、BPb3…進行排序。進一步地,所述確定指定關(guān)鍵詞是否為本頁面的關(guān)鍵詞的步驟為:B1、從所有關(guān)鍵詞中循環(huán)選取部分關(guān)鍵詞組合,用t (Iia1.1j)來表示頁面文章名與屬性的關(guān)聯(lián)度;B2、計算關(guān)鍵詞組合的自主性,用Dlib(Iiai)來表示,公式如下:
權(quán)利要求
1.一種科技信息自動分類篩選的方法,用于實時獲取不同類型的科技信息并針對注冊用戶的類型實時推送其所需要的信息,使注冊用戶登錄系統(tǒng)網(wǎng)站后及時獲得最新、有效的科技服務(wù)信息,并實現(xiàn)自身存儲數(shù)據(jù)的及時更新,其特征是,包括以下步驟: 1)利用網(wǎng)絡(luò)信息篩選裝置從公開地址抓取動態(tài)數(shù)據(jù)包; 2)對抓取的動態(tài)數(shù)據(jù)包進行信息分類篩選,并確定指定關(guān)鍵詞是否為本頁面的關(guān)鍵詞: 2.1)對出現(xiàn)指定關(guān)鍵詞的所有頁面進行一級篩選; 2.2)建立用戶標識與用戶偏好類型的對應(yīng)關(guān)系,以及用戶偏好類型與服務(wù)信息的對應(yīng)關(guān)系,并存儲在服務(wù)器數(shù)據(jù)庫中; 2.3)確定指定關(guān)鍵詞是否為本頁面的關(guān)鍵詞; 3)查詢與用戶標識相對應(yīng)的用戶偏好類型,獲取與用戶偏好類型相對應(yīng)的服務(wù)信息,并將服務(wù)信息顯示到本地用戶終端的瀏覽器首頁中; 4)本地用戶終端根據(jù)用戶的定制條件將數(shù)據(jù)信息推送給用戶。
2.根據(jù)權(quán)利要求1所述的一種科技信息自動分類篩選的方法,其特征是,所述對出現(xiàn)指定關(guān)鍵詞的所有頁面進行一級篩選的步驟為: Al、在篩選數(shù)據(jù)庫中添加非關(guān)鍵詞; A2、對頁面中所有詞語進行逐一篩選,刪除與篩選數(shù)據(jù)庫中非關(guān)鍵詞相同的頁面詞語;` A3、統(tǒng)計頁面中有特殊標記詞語的出現(xiàn)頻率,表示為:Pal、Pa2、Pa3…; A4、將特殊詞語頻率分別與權(quán)A相乘得到特殊詞語加權(quán)頻率,表示為:APal、APa2、APy ; A5、刪除頁面信息文本中帶有特殊標記的詞語; A6、導入常用詞詞庫,對頁面信息文本進行全文掃描,統(tǒng)計常用詞詞庫中詞語在頁面信息文本中的出現(xiàn)頻率,表示為:Pbl、Pb2、Pb3...; A7、將常用詞頻率分別與權(quán)B相乘得到常用詞加權(quán)頻率,表示為:BPbl、BPb2、BPbf ; AS、對特殊詞語加權(quán)頻率APal、APa2, APa3…與常用詞加權(quán)頻率BPbl、BPb2, BPy進行排序。
3.根據(jù)權(quán)利要求1所述的一種科技信息自動分類篩選的方法,其特征是,所述確定指定關(guān)鍵詞是否為本頁面的關(guān)鍵詞的步驟為: B1、從所有關(guān)鍵詞中循環(huán)選取部分關(guān)鍵詞組合,用t(na1.1j)來表示頁面文章名與屬性的關(guān)聯(lián)度; B2、計算關(guān)鍵詞組合的自主性,用Dlib(Iiai)來表示,公式如下: DwMai) = ^Η0[ {ηα,,1})-\-H^—j B3、用所有的候補文章名對關(guān)鍵詞組合的自主性進行統(tǒng)計; B4、使用文章數(shù)對Dlib(Iiai)進行規(guī)范化,得到最終獨立度Plib,公式如下: Ρι _Λ Σ:'1) - rnB5、根據(jù)最終獨立度Plib確定指定關(guān)鍵詞是否為本頁面的關(guān)鍵詞; 其中,m:顯示的關(guān)鍵詞數(shù),η:候補關(guān)鍵詞,M1:文章名,i = 1、2、...、n, j = 1、2、...、η。
4.根據(jù)權(quán)利要求1所述的一種科技信息自動分類篩選的方法,其特征是,本地用戶終端通過進行提示或直接彈出的方式將數(shù) 據(jù)信息推送給用戶。
全文摘要
本發(fā)明公開了一種科技信息自動分類篩選的方法,它包括以下步驟1)利用網(wǎng)絡(luò)信息篩選裝置從公開地址抓取動態(tài)數(shù)據(jù)包;2)并確定指定關(guān)鍵詞是否為本頁面的關(guān)鍵詞;3)查詢與用戶標識相對應(yīng)的用戶偏好類型,獲取與用戶偏好類型相對應(yīng)的服務(wù)信息,并將服務(wù)信息顯示到本地用戶終端的瀏覽器首頁中;4)本地用戶終端根據(jù)用戶的定制條件將數(shù)據(jù)信息推送給用戶。本發(fā)明可以針對用戶需求或者根據(jù)用戶定制,有選擇性地獲取信息并進行分類篩選,然后及時地為用戶提供其所需的科技服務(wù)信息,并實現(xiàn)用戶數(shù)據(jù)庫的自動更新,為用戶提供更準確、及時的科技信息服務(wù)。
文檔編號G06F17/30GK103235827SQ20131017353
公開日2013年8月7日 申請日期2013年5月13日 優(yōu)先權(quán)日2013年5月13日
發(fā)明者朱濤, 黨榮泉, 蔣夢夢, 陳美麗, 趙西法, 李洪升 申請人:濟南政和科技有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
湖北省| 河源市| 双柏县| 新绛县| 溧阳市| 江川县| 思南县| 铜陵市| 石狮市| 北安市| 博野县| 乐山市| 罗山县| 乐安县| 黄梅县| 阳高县| 卫辉市| 青冈县| 平和县| 株洲市| 宜州市| 镇宁| 阆中市| 焉耆| 琼中| 东阿县| 曲阜市| 武夷山市| 绥芬河市| 简阳市| 漳浦县| 长阳| 天峨县| 泽普县| 鄄城县| 汨罗市| 土默特右旗| 涞水县| 大方县| 凤台县| 普安县|