一種基于數(shù)字報(bào)紙的資訊數(shù)據(jù)分類方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種基于數(shù)字報(bào)紙的資訊數(shù)據(jù)分類方法,主要用于新聞資訊數(shù)據(jù)的自動(dòng)分類處理。
【背景技術(shù)】
[0002]數(shù)字與跨媒體出版系統(tǒng)的出現(xiàn),并不僅僅是一場重大的技術(shù)革命,對(duì)傳統(tǒng)的媒體思維和經(jīng)營模式的推動(dòng)也是直接的。但是,傳統(tǒng)媒體的數(shù)字化進(jìn)程存在的缺陷、局限與不足也是明顯的,必須在進(jìn)一步發(fā)展的過程中加以完善。大多數(shù)媒體并沒有把網(wǎng)絡(luò)技術(shù)作為轉(zhuǎn)型升級(jí)的重要抓手,依然停留在當(dāng)年對(duì)手機(jī)報(bào)紙和電子版的認(rèn)識(shí)層面。
[0003]新聞媒體同樣處在網(wǎng)絡(luò)信息爆炸的時(shí)代,平均每天新增數(shù)十萬條新聞報(bào)道及數(shù)字頁面,編輯記者要快速的定位自己所需的信息已經(jīng)很難,瀏覽網(wǎng)頁、復(fù)制、粘貼等重復(fù)工作需要占用每天60%以上的時(shí)間。
[0004]信息量的浩瀚,讓人們越來越離不開搜索引擎的同時(shí),人們對(duì)搜索引擎的智能化、個(gè)性化的要求也變的越來越高,現(xiàn)有的搜索引擎已經(jīng)不能滿足人們?nèi)粘5男畔@取需求,他們需要的是更加精準(zhǔn),更加個(gè)性化的信息和資訊。
【發(fā)明內(nèi)容】
[0005]本發(fā)明的目的在于提供一種基于數(shù)字報(bào)紙的資訊數(shù)據(jù)分類方法,使得采集到的數(shù)據(jù)能夠自動(dòng)進(jìn)行處理,最終實(shí)現(xiàn)數(shù)據(jù)的精準(zhǔn)分類,同時(shí)也為后期的數(shù)據(jù)精準(zhǔn)化和個(gè)性化推送打好基礎(chǔ)。
[0006]本發(fā)明所采用的技術(shù)方案是:一種基于數(shù)字報(bào)紙的資訊數(shù)據(jù)分類方法,包括:
[0007]A、分析并提取數(shù)字報(bào)紙各版面的出版日期、版面名稱、版次信息,以及每個(gè)版面內(nèi)各篇文章的標(biāo)題、肩標(biāo)題、副標(biāo)題、作者、正文信息、插圖;
[0008]B、將提取的信息入至數(shù)據(jù)庫中,并根據(jù)出版日期和版次信息在數(shù)據(jù)庫內(nèi)部建立關(guān)聯(lián)關(guān)系;
[0009]C、按照上述方法,利用數(shù)據(jù)庫中的時(shí)間維度匯聚每種報(bào)紙一段時(shí)間內(nèi)的數(shù)據(jù),基于全文檢索引擎技術(shù),針對(duì)同一種報(bào)紙中版面名稱相同的版面進(jìn)行重名合并處理;
[0010]D、根據(jù)報(bào)紙內(nèi)容的不同設(shè)定不同的類別,然后在各類別下設(shè)定若干關(guān)鍵詞,建立起類別與關(guān)鍵詞之間的對(duì)應(yīng)關(guān)系;
[0011]E、按照步驟D的對(duì)應(yīng)關(guān)系,將數(shù)據(jù)庫中、版面名稱包含有某一關(guān)鍵詞的版面內(nèi)的所有文章自動(dòng)歸類至對(duì)應(yīng)的類別下。
[0012]所述的基于數(shù)字報(bào)紙的資訊數(shù)據(jù)分類方法,還包括:
[0013]F、根據(jù)用戶需求設(shè)置過濾條件,并基于全文檢索引擎技術(shù)過濾干擾信息,生成最終的數(shù)據(jù)集合。
[0014]所述過濾條件包括數(shù)據(jù)來源、數(shù)據(jù)的時(shí)間范圍、標(biāo)題和正文字?jǐn)?shù)范圍、版面語法、文章語法和標(biāo)題語法。
[0015]所述根據(jù)報(bào)紙內(nèi)容的不同設(shè)定不同的類別,然后在各類別下設(shè)定若干關(guān)鍵詞,建立起類別與關(guān)鍵詞之間的對(duì)應(yīng)關(guān)系包括:
[0016]針對(duì)每種報(bào)紙的不同屬性,設(shè)定若干大類別,然后針對(duì)每個(gè)大類別設(shè)定若干細(xì)分類別;
[0017]在各細(xì)分類別下設(shè)定若干關(guān)鍵詞,建立起細(xì)分類別與關(guān)鍵詞之間的對(duì)應(yīng)關(guān)系。
[0018]一種基于數(shù)字報(bào)紙的資訊數(shù)據(jù)分類方法,包括:
[0019]A、分析并提取數(shù)字報(bào)紙各版面的出版日期、版面名稱、版次信息,以及每個(gè)版面內(nèi)各篇文章的標(biāo)題、肩標(biāo)題、副標(biāo)題、作者、正文信息、插圖;
[0020]B、將提取的信息入至數(shù)據(jù)庫中,并根據(jù)出版日期和版次信息在數(shù)據(jù)庫內(nèi)部建立關(guān)聯(lián)關(guān)系;
[0021]C、按照上述方法,利用數(shù)據(jù)庫中的時(shí)間維度匯聚每種報(bào)紙一段時(shí)間內(nèi)的數(shù)據(jù),基于全文檢索引擎技術(shù),針對(duì)同一種報(bào)紙中版面名稱相同的版面進(jìn)行重名合并處理;
[0022]D、根據(jù)報(bào)紙內(nèi)容的不同設(shè)定不同的類別,然后在各類別下設(shè)定若干關(guān)鍵詞,再針對(duì)每個(gè)關(guān)鍵詞建立一個(gè)對(duì)應(yīng)的專用分詞庫,建立起類別、關(guān)鍵詞和專用分詞庫之間的對(duì)應(yīng)關(guān)系;所述分詞庫由若干版面名稱組成,且位于同一專用分詞庫內(nèi)的版面名稱包含有與該分詞庫對(duì)應(yīng)的關(guān)鍵詞;
[0023]E、將所提取的版面名稱與專用分詞庫內(nèi)存儲(chǔ)的版面名稱進(jìn)行比對(duì),對(duì)于版面名稱能夠在專用分詞庫內(nèi)找到匹配項(xiàng)的版面,按照步驟D的對(duì)應(yīng)關(guān)系,將該版面內(nèi)的所有文章歸類至與該分詞庫對(duì)應(yīng)的類別下;對(duì)于版面名稱無法在專用分詞庫內(nèi)找到匹配項(xiàng)的版面,按照版面名稱包含有關(guān)鍵詞的對(duì)應(yīng)關(guān)系,將其版面名稱與至少一個(gè)關(guān)鍵詞對(duì)應(yīng),然后按照步驟D的對(duì)應(yīng)關(guān)系,將該版面內(nèi)的所有文章歸類至與該關(guān)鍵詞對(duì)應(yīng)的類別下,同時(shí)在該關(guān)鍵詞對(duì)應(yīng)的專用分詞庫內(nèi)加入該版面名稱以增加專用分詞庫內(nèi)的分詞量。
[0024]所述的基于數(shù)字報(bào)紙的資訊數(shù)據(jù)分類方法,還包括:
[0025]F、根據(jù)用戶需求設(shè)置過濾條件,并基于全文檢索引擎技術(shù)過濾干擾信息,生成最終的數(shù)據(jù)集合。
[0026]所述過濾條件包括數(shù)據(jù)來源、數(shù)據(jù)的時(shí)間范圍、標(biāo)題和正文字?jǐn)?shù)范圍、版面語法、文章語法和標(biāo)題語法。
[0027]所述根據(jù)報(bào)紙內(nèi)容的不同設(shè)定不同的類別,然后在各類別下設(shè)定若干關(guān)鍵詞,建立起類別與關(guān)鍵詞之間的對(duì)應(yīng)關(guān)系包括:
[0028]針對(duì)每種報(bào)紙的不同屬性,設(shè)定若干大類別,然后針對(duì)每個(gè)大類別設(shè)定若干細(xì)分類別;
[0029]在各細(xì)分類別下設(shè)定若干關(guān)鍵詞,建立起細(xì)分類別與關(guān)鍵詞之間的對(duì)應(yīng)關(guān)系。
[0030]本發(fā)明有益效果在于:
[0031]1、從數(shù)據(jù)的源頭開始,對(duì)需要采集的數(shù)字報(bào)紙先進(jìn)行預(yù)處理分析,過濾干擾信息,糾正數(shù)據(jù)源,再進(jìn)入矩陣式數(shù)據(jù)模型中自動(dòng)篩檢、過濾、分類、標(biāo)簽等工藝流程,打通不同數(shù)據(jù)源之間的信息孤島,建立數(shù)據(jù)關(guān)系,最后套用規(guī)則庫中不同規(guī)則配置信息(即過濾條件,包括數(shù)據(jù)來源、數(shù)據(jù)的時(shí)間范圍、標(biāo)題和正文字?jǐn)?shù)范圍、版面語法、文章語法和標(biāo)題語法)和專用分詞庫,自動(dòng)組織形成不同的數(shù)據(jù)集合,最終實(shí)現(xiàn)數(shù)據(jù)的精準(zhǔn)分類。
[0032]2、傳統(tǒng)互聯(lián)網(wǎng)上面的分詞庫是由用戶輸入,系統(tǒng)自動(dòng)抓取記錄,通過記錄的數(shù)據(jù)生成新的分詞。但此類分詞庫和分詞的方式是不能滿足數(shù)據(jù)分類中的應(yīng)用,很難區(qū)分?jǐn)?shù)據(jù)內(nèi)容中的地域、屬性中的子類別等信息,比如:“本地城事”中的社會(huì)新聞、民生、時(shí)政、要聞等信息;本發(fā)明采用獨(dú)創(chuàng)的固態(tài)并發(fā)算法累積專用分詞庫,做一個(gè)簡單的例子,我們將分詞庫中放入主分詞A,主分詞進(jìn)入分詞庫源進(jìn)行掃描并且自動(dòng)生成并發(fā)子分詞庫A+a,A+b,A+c等,以這個(gè)形式的金字塔三角模型遞增方式增加。所以在這個(gè)基礎(chǔ)上,分詞并發(fā)數(shù)的生成如同細(xì)胞分裂一樣,每日通過對(duì)數(shù)據(jù)源的掃描,日積月累,目前核心分詞庫的分詞量在增加干擾分詞的控制并發(fā)的情況下已經(jīng)超過30萬個(gè),使得本發(fā)明方法的分類效能更高。
[0033]3、通過第二代數(shù)據(jù)服務(wù)模式,基于特有的專業(yè)分詞庫,套用專用規(guī)則庫數(shù)據(jù),實(shí)現(xiàn)高度自定義、高精準(zhǔn)化、按需推送數(shù)據(jù)的模式,特別是在快速形成突發(fā)事件專題等方面得到良好的應(yīng)用。
[0034]4、利用專用分詞庫和規(guī)則庫的數(shù)據(jù),基于矩陣模型,通過數(shù)據(jù)的縱向和橫向數(shù)據(jù)流,可以實(shí)現(xiàn)快速個(gè)性化數(shù)據(jù)合集的制作,并以多種組合提供數(shù)據(jù)集合。同時(shí)還提供多種工具來滿足用戶的個(gè)性化的需求,比如:一鍵轉(zhuǎn)發(fā)、調(diào)整欄目數(shù)據(jù)源、字?jǐn)?shù)控制、時(shí)間范圍設(shè)定、多種關(guān)鍵詞組合等。
【附圖說明】
[0035]圖1是本發(fā)明南方都市報(bào)為例的類別、關(guān)鍵詞、專用分詞庫的對(duì)應(yīng)關(guān)系樹狀圖。
【具體實(shí)施方式】
[00