專利名稱::過濾裝置及過濾方法
技術(shù)領(lǐng)域:
:本發(fā)明涉及一種根據(jù)任意的步驟加工文本數(shù)據(jù)的過濾裝置及過濾方法。
背景技術(shù):
:近年來,個人計算機(jī)、移動電話等信息終端得到普及,經(jīng)由因特網(wǎng)等通信網(wǎng)絡(luò)可不分晝夜輕易地接受多種服務(wù)的提供。因此,當(dāng)信息終端靠近身邊時,不僅成年人,未成年人接觸信息終端的機(jī)會也增多,未成年人単獨接受服務(wù)提供的情況也不少。經(jīng)由通信網(wǎng)絡(luò)可訪問的服務(wù)有不少是有用的。但是,例如在第三者可自由投稿自己的意見、希望其他用戶知曉的情況的電子公告板等社交服務(wù)中,存在誹鎊中傷、頻發(fā)猥褻詞語、暴力語言等違反公序良俗的詞語、文章投稿到電子公告板的情況。這種違反公序良俗的詞語、文章對成年人也產(chǎn)生影響,尤其會對未成年人造成惡劣影響。因此,未成年人單獨使用信息終端時,希望存在使這些違反公序良俗的詞語、文章不被未成年人看到的機(jī)制。在日本,規(guī)定有“政令第三百七十八號與青少年可安全安心地利用因特網(wǎng)的環(huán)境的整備等相關(guān)的法律施行令”等法令,對服務(wù)提供者(服務(wù)提供服務(wù)器)提出以下義務(wù)過濾信息,以使未成年人不接觸到違反上述公序良俗的信息。但是,服務(wù)提供者如嚴(yán)格執(zhí)行過濾,僅有違反公序良俗的可能性即排除服務(wù)自身吋,會使本來可利用的服務(wù)也被強(qiáng)制性排除。因此下述技術(shù)為人所知(例如專利文獻(xiàn)I:):對應(yīng)從用戶信息終端接收的訪問要求,中繼裝置暫時取得服務(wù)提供者提供的網(wǎng)頁內(nèi)容并解析,判斷可否訪問,當(dāng)判斷為可訪問時,僅將判斷為可訪問的網(wǎng)頁內(nèi)容提供給用戶?,F(xiàn)有技術(shù)文獻(xiàn)專利文獻(xiàn)專利文獻(xiàn)I:特開2006—209568號公報
發(fā)明內(nèi)容發(fā)明要解決的問題服務(wù)提供者為遵守上述法令等,保持有將作為服務(wù)不應(yīng)使用的詞語(禁止單詞)表格化的禁止單詞表格,參照該禁止單詞表格,例如對投稿到電子公告板的投稿數(shù)據(jù),排除與禁止單詞對應(yīng)的詞語。但是,在這種排除禁止單詞的過濾技術(shù)中,例如將禁止單詞變更為其他漢字(代用字),在文字之間插入空白、標(biāo)記,對該詞語加上“擺動(ゆらぎ)”,以與禁止單詞不一致,從而可容易地規(guī)避被過濾的情況。因此,禁止單詞的生成成為投稿人和服務(wù)提供者之間的貓鼠游戲。結(jié)果是,服務(wù)提供者放棄了對投稿數(shù)據(jù)中含有的各詞語的排除,而直接禁止了未成年人對服務(wù)提供服務(wù)器的訪問,產(chǎn)生與服務(wù)的可靠性無關(guān)而未成年人卻無法接受服務(wù)本身的提供的問題。并且,為防止上述“擺動”形成的規(guī)避過濾,也可考慮以下方式不使用將禁止單詞表格化的禁止單詞表格,而使用將可允許的詞語(許可單詞)表格化的許可單詞表格,僅使不違反公序良俗的詞語、文章通過。但是,人物、建造物這樣的詞語每天都出現(xiàn)新的,為使這種許可單詞不被過濾排除掉,必須提高許可單詞表格的更新頻率。并且,在生成單詞表格這一方面,相對禁止單詞表格,許可單詞表格的必要詞語數(shù)明顯較多,該單詞表格的發(fā)送、更新需要龐大的成本。因此,本發(fā)明鑒于這ー問題,其目的在于提供一種可適當(dāng)過濾文本數(shù)據(jù)的過濾裝置及過濾方法。用于解決問題的方法為解決上述問題,本發(fā)明提供下述過濾裝置及過濾方法。(I)一種過濾裝置,其特征在于,具有表格保持部,保持對多個詞素和其出現(xiàn)次數(shù)建立對應(yīng)的許可單詞表格;節(jié)目碼流取得部,取得根據(jù)播放道德規(guī)定生成的節(jié)目碼流;表格更新部,在取得的上述節(jié)目碼流中含有字幕數(shù)據(jù)或作為與節(jié)目內(nèi)容相關(guān)的第I文本數(shù)據(jù)的節(jié)目信息時,從上述節(jié)目碼流中提取上述字幕數(shù)據(jù)或上述節(jié)目信息,分割為詞素,如果分割的上述詞素在上述許可單詞表格中不存在,則將該詞素登錄在上述許可單詞表格中,如果分割的上述詞素在上述許可單詞表格中存在,則更新和上述詞素對應(yīng)的出現(xiàn)次數(shù);數(shù)據(jù)取得部,取得任意的第2文本數(shù)據(jù);數(shù)據(jù)加工部,將上述第2文本數(shù)據(jù)分割為詞素,如果分割的上述詞素未登錄在上述許可單詞表格中,或者分割的上述詞素雖然登錄在上述許可單詞表格中但與該詞素對應(yīng)的出現(xiàn)次數(shù)小于預(yù)先確定的第I閾值,則將上述詞素置換為預(yù)先確定的標(biāo)記,作為第3文本數(shù)據(jù)再結(jié)合。(2)—種過濾裝置,其特征在于,具有表格保持部,保持對多個詞素和其出現(xiàn)次數(shù)建立對應(yīng)的許可單詞表格;節(jié)目信息取得部,取得根據(jù)播放道德規(guī)定生成的、作為與節(jié)目內(nèi)容相關(guān)的第I文本數(shù)據(jù)的節(jié)目信息;表格更新部,將上述節(jié)目信息分割為詞素,如果分割的上述詞素在上述許可單詞表格中不存在,則將該詞素登錄在上述許可單詞表格中,如果分割的上述詞素在上述許可單詞表格中存在,則更新和上述詞素對應(yīng)的出現(xiàn)次數(shù);數(shù)據(jù)取得部,取得任意的第2文本數(shù)據(jù);數(shù)據(jù)加工部,將上述第2文本數(shù)據(jù)分割為詞素,如果分割的上述詞素未登錄在上述許可單詞表格中,或者分割的上述詞素雖然登錄在上述許可單詞表格中但與該詞素對應(yīng)的出現(xiàn)次數(shù)小于預(yù)先確定的第I閾值,則將上述詞素置換為預(yù)先確定的標(biāo)記,作為第3文本數(shù)據(jù)再結(jié)合。(3)根據(jù)上述(I)或(2)所述的過濾裝置,其特征在于,上述第2文本數(shù)據(jù)是針對上述節(jié)目投稿到電子公告板的投稿數(shù)據(jù),進(jìn)一歩具有顯示控制部,上述顯示控制部使通過上述數(shù)據(jù)加工部作為上述第3文本數(shù)據(jù)再結(jié)合的上述投稿數(shù)據(jù),與取得的上述節(jié)目碼流的節(jié)目同時顯示到顯示裝置。(4)一種過濾方法,其特征在于取得根據(jù)播放道德規(guī)定生成的節(jié)目碼流,在取得的上述節(jié)目碼流中含有字幕數(shù)據(jù)或作為與節(jié)目內(nèi)容相關(guān)的第I文本數(shù)據(jù)的節(jié)目信息吋,從上述節(jié)目碼流中提取上述字幕數(shù)據(jù)或上述節(jié)目信息,分割為詞素,如果分割的上述詞素在使多個詞素和其出現(xiàn)次數(shù)建立對應(yīng)的許可單詞表格中不存在,則將該詞素登錄在上述許可單詞表格中,如果分割的上述詞素在上述許可單詞表格中存在,則更新和上述詞素對應(yīng)的出現(xiàn)次數(shù),取得任意的第2文本數(shù)據(jù),將上述第2文本數(shù)據(jù)分割為詞素,如果分割的上述詞素未登錄在上述許可單詞表格中,或者分割的上述詞素雖然登錄在上述許可單詞表格中但與該詞素對應(yīng)的出現(xiàn)次數(shù)小于預(yù)先確定的第I閾值,則將上述詞素置換為ー下確定的標(biāo)記,作為第3文本數(shù)據(jù)再結(jié)合。(5)—種過濾方法,其特征在于取得根據(jù)播放道德規(guī)定生成的、作為與節(jié)目內(nèi)容相關(guān)的第I文本數(shù)據(jù)的節(jié)目信息,將上述節(jié)目信息分割為詞素,如果分割的上述詞素在使多個詞素和其出現(xiàn)次數(shù)建立對應(yīng)的許可單詞表格中不存在,則將該詞素登錄在上述許可單詞表格中,如果分割的上述詞素在上述許可單詞表格中存在,則更新和上述詞素對應(yīng)的出現(xiàn)次數(shù),取得任意的第2文本數(shù)據(jù),將上述第2文本數(shù)據(jù)分割為詞素,如果分割的上述詞素未登錄在上述許可單詞表格中,或者分割的上述詞素雖然登錄在上述許可單詞表格中但與該詞素對應(yīng)的出現(xiàn)次數(shù)小于預(yù)先確定的第I閾值,則將上述詞素置換為預(yù)先確定的標(biāo)記,作為第3文本數(shù)據(jù)再結(jié)合。根據(jù)本發(fā)明,可適當(dāng)?shù)剡^濾文本數(shù)據(jù)。圖I是表示第I實施方式中的節(jié)目提供系統(tǒng)的概要連接關(guān)系的說明圖。圖2是表示過濾裝置的概要構(gòu)成的功能框圖。圖3是用于說明許可單詞表格的說明圖。圖4是表示繪制投稿數(shù)據(jù)的例子的說明圖。圖5是說明過濾方法的處理流程的流程圖。圖6是用于說明表格更新部的處理的說明圖。圖7是說明過濾方法的處理流程的流程圖。圖8是示例投稿數(shù)據(jù)組的說明圖。圖9是用于說明數(shù)據(jù)加工部的處理的說明圖。圖10是表示第2實施方式中的節(jié)目提供系統(tǒng)的概要連接關(guān)系的說明圖。圖11是表示節(jié)目檢索裝置的概要構(gòu)成的功能框圖。圖12是說明節(jié)目檢索方法的處理流程的流程圖。圖13是表示節(jié)目附加數(shù)據(jù)中的字幕數(shù)據(jù)的一例的說明圖。圖14是說明節(jié)目檢索方法的處理流程的流程圖。圖15是表示檢索清單的顯示示例的說明圖。圖16是表示顯示裝置中的顯示示例的說明圖。附圖標(biāo)記100、400節(jié)目提供系統(tǒng)120過濾裝置160表格保持部180表格更新部182、482數(shù)據(jù)取得部184數(shù)據(jù)加工部200許可單詞表格420節(jié)目檢索裝置464節(jié)目保持部492索引施加部494節(jié)目提取部具體實施例方式以下參照附圖的同時詳細(xì)說明本發(fā)明的優(yōu)選實施方式。該實施方式所示的尺寸、材料、其他具體數(shù)值等,僅是易于理解發(fā)明的示例,除特別聲明時,不用于限定本發(fā)明。此夕卜,在本說明書及附圖中,對實質(zhì)上具有相同的功能、構(gòu)成的要素附加同樣的附圖標(biāo)記,從而省略重復(fù)性說明,并對和本發(fā)明沒有直接關(guān)系的要素省略圖示。其中,作為第I實施方式,說明適當(dāng)過濾任意的文本數(shù)據(jù)的過濾裝置及過濾方法,作為第2實施方式,使用第I實施方式中的過濾技木,說明適當(dāng)檢索節(jié)目及該節(jié)目內(nèi)的規(guī)定場景的節(jié)目檢索裝置及節(jié)目檢索方法。兩個實施方式至少在過濾技術(shù)上通用。作為過濾技術(shù),一般大多使用將不應(yīng)該用于服務(wù)的違反公序良俗的詞語(禁止單詞)表格化的禁止單詞表格。并且,服務(wù)提供者參照該禁止單詞表格,例如對投稿到電子公告板的投稿數(shù)據(jù)進(jìn)行排除與該禁止單詞對應(yīng)的詞語的過濾。但是,在這種排除禁止單詞的過濾中,通過將禁止單詞變更為其他漢字(代用字),或在文字之間插入空白、標(biāo)記,對該詞語加上“擺動”,以與禁止單詞不一致,從而可容易地規(guī)避被過濾的情況。這是因為,即使將與該禁止單詞對應(yīng)的詞語變更為代用字、或加上標(biāo)記,也可將該詞語的含義傳達(dá)給他人。由此,應(yīng)禁止的詞語根據(jù)各禁止單詞存在無數(shù)個不同的表達(dá)方式,服務(wù)提供者即使可確定、排除禁止單詞本身,也無法完全排除對該禁止單詞的無數(shù)個表達(dá)方式。為了排除這種禁止單詞的無數(shù)表達(dá)方式,不使用將禁止單詞表格化的禁止單詞表格,而使用將可允許的詞語(許可單詞)表格化的許可單詞表格,僅剩余未違反公序良俗的詞語、文章即可。但是,人物、建造物這樣的詞語每天都出現(xiàn)新的,為使這種許可單詞不被過濾排除棹,必須提高許可單詞表格的更新頻率。但現(xiàn)狀是,沒有利用許可單詞表格的服務(wù)提供者,未構(gòu)筑出將許可單詞表格發(fā)送到各用戶的信息終端的系統(tǒng)。本來,在生成單詞表格這一方面,相對禁止單詞表格,許可單詞表格的必要詞語數(shù)明顯較多,例如,一個月產(chǎn)生的禁止單詞約4000個,與之相対,許可單詞約400萬個,該單詞表格的發(fā)送、更新需要龐大的成本。因此,使用許可單詞表格是不現(xiàn)實的。因此,在第I實施方式中,使用電視廣播等節(jié)目提供系統(tǒng),說明自動形成用于過濾的許可單詞表格的過濾裝置及過濾方法。(第I實施方式節(jié)目提供系統(tǒng)100)圖I是表示第I實施方式中的節(jié)目提供系統(tǒng)100的概要連接關(guān)系的說明圖。節(jié)目提供系統(tǒng)100的構(gòu)成包括節(jié)目提供裝置110、過濾裝置120、顯示裝置130、服務(wù)提供服務(wù)器140。節(jié)目提供裝置110由播送站112、節(jié)目提供服務(wù)器114構(gòu)成,發(fā)送節(jié)目碼流。節(jié)目碼流中,除了節(jié)目本身外,作為附加數(shù)據(jù)包含與節(jié)目相關(guān)的各種信息。過濾裝置120從作為節(jié)目提供裝置110的播送站112通過天線122,并從作為節(jié)目提供裝置Iio的節(jié)目提供服務(wù)器114通過因特網(wǎng)等的通信網(wǎng)絡(luò)124,接收地上波數(shù)字播送、BS/CS數(shù)字播送、有線電視播送、IP播送、視頻點播等各種節(jié)目的節(jié)目碼流。并且,過濾裝置120利用節(jié)目碼流中含有的字幕數(shù)據(jù)、作為與節(jié)目內(nèi)容相關(guān)的第I文本數(shù)據(jù)的節(jié)目信息,生成用于進(jìn)行過濾的許可單詞表格。并且,過濾裝置120使用生成的許可單詞表格,過濾任意的文本數(shù)據(jù)。顯示裝置130由液晶顯示器、有機(jī)EL(ElectroLuminescence:電子發(fā)光器)、顯示器、電影屏幕、投影儀(投影機(jī))等構(gòu)成,顯示由過濾裝置120接收的節(jié)目、過濾的文本數(shù)據(jù)。服務(wù)提供服務(wù)器140是服務(wù)提供者運營的服務(wù)器,將第三者投稿數(shù)據(jù)的電子公告板等各種服務(wù),提供到第三者具有的信息終端、過濾裝置120等。構(gòu)成本實施方式的節(jié)目提供系統(tǒng)100的過濾裝置120的目的在于適當(dāng)過濾文本數(shù)據(jù)。以下說明構(gòu)成過濾裝置120的各功能部,之后詳述使用了過濾裝置120的過濾方法。(過濾裝置120)圖2是表示過濾裝置120的概要構(gòu)成的功能框圖。過濾裝置120的構(gòu)成包括操作部150、調(diào)諧部152、通信部154、DEMUX(DEMUltiplexer:多路分配器)部156、AV解碼部158、表格保持部160、中央控制部162。其中,調(diào)諧部152、通信部154、DEMUX156作為取得節(jié)目碼流的節(jié)目碼流取得部發(fā)揮作用。在圖2中,用實線箭頭表示數(shù)據(jù)流,用虛線箭頭表示控制信號流。操作部150由操作鍵、十字鍵、操作桿、輕推轉(zhuǎn)盤、觸摸板等構(gòu)成,受理用戶的操作輸入。調(diào)諧部152經(jīng)由天線122從播送站112接收播送信號,根據(jù)通過操作部150設(shè)定的頻道代碼,解調(diào)播送信號,生成節(jié)目碼流。通信部154經(jīng)由通信網(wǎng)絡(luò)124確立與節(jié)目提供服務(wù)器114的通信,使用類似HTTP(HyperTextTransferProtocol:超文本傳輸協(xié)議)的因特網(wǎng)協(xié)議,和調(diào)諧部152—樣,以數(shù)據(jù)包單位取得節(jié)目提供服務(wù)器114發(fā)送的、相當(dāng)于播送信號的IP碼流,根據(jù)時間戳記恢復(fù)IP碼流,生成節(jié)目碼流。并且,通信部154也可確立與服務(wù)提供服務(wù)器140的通信。DEMUX部156將節(jié)目碼流例如分離為影像數(shù)據(jù)(MPEG(MovingPictureExpertsGroup:移動圖像專家組)視頻碼流)、聲音數(shù)據(jù)(MPEG聲音碼流)、字幕數(shù)據(jù)、時刻數(shù)據(jù)、節(jié)目信息等多個數(shù)據(jù)。AV解碼部158從DEMUX部156取得影像數(shù)據(jù)及聲音數(shù)據(jù),解碼為影像信號及聲音信號,將解碼的影像信號輸出到顯示裝置130。此外,聲音信號輸出到未圖示的揚(yáng)聲器等聲音輸出裝置。表格保持部160由閃存、HDD(HardDiskDrive:硬盤驅(qū)動)等存儲介質(zhì)構(gòu)成,保持使多個詞素和其出現(xiàn)次數(shù)建立對應(yīng)的許可單詞表格。此外,HDD正確而言是裝置,為便于說明,在本說明書中與其他存儲介質(zhì)同樣對待。中央控制部162通過包括中央處理裝置(CPU)、存儲了程序等的ROM、作為工作區(qū)域的RAM等的半導(dǎo)體集成電路,管理及控制過濾裝置120整體。并且,在本實施方式中,中央控制部162也作為表格更新部180、數(shù)據(jù)取得部182、數(shù)據(jù)加工部184、顯示控制部186發(fā)揮作用。表格更新部180在經(jīng)由作為節(jié)目碼流取得部的調(diào)諧部152、通信部154取得的節(jié)目碼流中,含有字幕數(shù)據(jù)或作為第I文本數(shù)據(jù)的節(jié)目信息時,從節(jié)目碼流提取字幕數(shù)據(jù)或節(jié)目信息中的任意ー個或兩個,分割為詞素。并且,表格更新部180在分割的詞素在下述許可單詞表格中不存在時,登錄該詞素,在分割的詞素在許可單詞表格中存在時,更新和詞素對應(yīng)的出現(xiàn)次數(shù)。其中,字幕數(shù)據(jù)是指,在電影、電視等影像媒介中,使用文字表示標(biāo)題、職員、解說、會話等信息的文本數(shù)據(jù)。并且,節(jié)目信息包括頻道代碼、服務(wù)ID、事件ID、節(jié)目開始時亥IJ、節(jié)目結(jié)束時刻、節(jié)目名、節(jié)目的解說信息、節(jié)目的演出者、職員信息、與主題歌相關(guān)的信息、節(jié)目類型等與節(jié)目內(nèi)容相關(guān)的各種信息。以下為便于說明,將字幕數(shù)據(jù)或節(jié)目信息中的任意ー個或兩個簡稱為節(jié)目附加數(shù)據(jù)。并且,根據(jù)說明不同,也存在節(jié)目附加數(shù)據(jù)表示字幕數(shù)據(jù)或節(jié)目信息中的ー個的情況。具體而言,表格更新部180判斷經(jīng)由調(diào)諧部152、通信部154取得的節(jié)目碼流中是否包含節(jié)目附加數(shù)據(jù),如含有節(jié)目附加數(shù)據(jù),則將該節(jié)目附加數(shù)據(jù)使用詞素辭典分割為ー個或多個詞素。其中,詞素辭典是,預(yù)先統(tǒng)計大量的文章,將各詞素、和在詞素前后連接的詞素的連接概率,做成辭典形式。表格更新部180通過使用詞素辭典,可將日語這樣的沒有分隔的自然語言分割為詞素単位。并且,分割的詞素在詞素辭典中不存在時,表格更新部180利用漢字、英數(shù)字、平假名、片假名等文字種類的分隔,分割為詞素。作為分割為詞素的詞素解析引擎,也可利用以下技木通過統(tǒng)計學(xué)方法推測自然語言的“區(qū)別”,分割為詞素単位。此外,使用了詞素辭典的對詞素的分割算法的詳情是公知技術(shù),因此省略說明。接著,表格更新部180將分割的各詞素登錄到許可單詞表格,或者更新登錄的詞素的出現(xiàn)次數(shù)。圖3是用于說明許可單詞表格200的說明圖。許可單詞表格200形成前連接詞素pword、主詞素word、出現(xiàn)次數(shù)wnum卩隹ー關(guān)聯(lián)的表格構(gòu)造。其中,前連接詞素pword是在分割的詞素列中位于主詞素word前的詞素,主詞素word是在文章開頭的詞素時,成為空值(NULL)。主詞素word是主要的關(guān)鍵字的詞素,不允許空值。因此,表格更新部180在文章是“総理の命を受け、”吋,以“総理”為主詞素word,即使生成前連接詞素pword為“NULL”的記錄202,也以“受け”作為前連接詞素pword,不生成主詞素word為“NULL”的記錄。出現(xiàn)次數(shù)wnum是前連接主詞素pword和主詞素word的組合在節(jié)目附加數(shù)據(jù)中出現(xiàn)的次數(shù),以I以上的整數(shù)表示。表格更新部180對分割的詞素,若前后2個詞素的組合在許可單詞表格200中不存在,則登錄這2個詞素的組合,當(dāng)前后2個詞素的組合在許可單詞表格200中存在,則遞增(+1)與該組合對應(yīng)的出現(xiàn)次數(shù)。因此,在許可單詞表格200中,前連接詞素pword和主詞素word的組合是唯一的。對該用于生成許可單詞表格200的命令文例如使用作為數(shù)據(jù)庫記錄語言的SQL(StructuredQueryLanguage:結(jié)構(gòu)化查詢語言)表示時,可如下表示。createtablealIowing_wordatable(pwordtext,wordtextnotnutL,wnuminteger,UNIQUE(pword,word));在本實施方式中,使用節(jié)目碼流中含有的節(jié)目附加數(shù)據(jù)生成許可單詞表格200,因此可獲得以下效果。即,節(jié)目及節(jié)目附加數(shù)據(jù)根據(jù)播送道德規(guī)定生成。播送道德規(guī)定例如在播送道德基本綱領(lǐng)中規(guī)定的“使用適當(dāng)?shù)恼Z言,同時注意有品位的表達(dá)”,在根據(jù)播送道德規(guī)定生成的節(jié)目附加數(shù)據(jù)中,不含有違反公序良俗的詞語、文章。因此,如根據(jù)節(jié)目碼流中含有的節(jié)目附加數(shù)據(jù)生成許可單詞表格200,則無需判斷各詞語是否相當(dāng)于許可單詞,可容易地累積許可單詞。并且,接收節(jié)目碼流的功能本身已經(jīng)確立,因此即使不重新構(gòu)筑將數(shù)據(jù)容量大的許可單詞表格200發(fā)送到各用戶的信息終端的系統(tǒng),在過濾裝置120內(nèi)僅提取節(jié)目碼流中含有的節(jié)目附加數(shù)據(jù),就可隨時更新許可單詞表格200。因此,可以最低限度的維持成本構(gòu)筑成可隨時更新許可單詞表格200的系統(tǒng)。其中,即使構(gòu)筑了將數(shù)據(jù)容量大的許可單詞表格200發(fā)送到各用戶的信息終端的系統(tǒng),在將許可單詞表格200發(fā)送到信息終端吋,也有第三者篡改許可單詞表格200的危險性。在本實施方式中,在過濾裝置120內(nèi)的封閉的空間內(nèi)更新許可單詞表格200,因此可將該篡改危險性限制在最小限度。在本實施方式中,在上述目的下,主要采用通過調(diào)諧部152取得的節(jié)目碼流中含有的節(jié)目附加數(shù)據(jù),但只要基于播送道德規(guī)定,例如也可采用從實施有線電視播送、IP播送、視頻點播等的節(jié)目提供服務(wù)器114取得的節(jié)目碼流的節(jié)目附加數(shù)據(jù)。并且,也存在獨立于節(jié)目碼流的提供而提供EPG(ElectronicProgramGuide:電子節(jié)目指南)的服務(wù)從業(yè)者。可從這樣的服務(wù)從業(yè)者管理的服務(wù)器(未圖示)直接取得上述節(jié)目信息,節(jié)目信息只要基于播送道德規(guī)定,則可將該節(jié)目信息用于本實施方式。此時,通信部154作為取得節(jié)目信息的節(jié)目信息取得部發(fā)揮作用,表格更新部180將作為節(jié)目信息取得部的通信部154取得的節(jié)目信息分割成詞素,反映到許可單詞表格200。為便于說明,以下列舉從節(jié)目碼流提取節(jié)目附加數(shù)據(jù)、即字幕數(shù)據(jù)、節(jié)目信息并反映到許可單詞表格200的構(gòu)成,當(dāng)然,通過通信部154取得的節(jié)目信息也可用于本實施方式的許可單詞表格200。數(shù)據(jù)取得部182通過通信部154從服務(wù)提供服務(wù)器140取得任意的文本數(shù)據(jù)(第2文本數(shù)據(jù)),并且使表示任意的文本數(shù)據(jù)生成、投稿或取得的時間的取得時間信息,與任意的文本數(shù)據(jù)建立關(guān)聯(lián)。例如,如存在將與任意的播送站112播送的節(jié)目相關(guān)的投稿數(shù)據(jù)作為電子公告板公開的服務(wù)提供服務(wù)器140,則數(shù)據(jù)取得部182從該電子公告板取得投稿數(shù)據(jù),作為取得時間信息,將有該投稿的時間與投稿數(shù)據(jù)建立關(guān)聯(lián)。在這樣的電子公告板(實況電子公告板)、實況博客(日記)中,對特定的播送站112播送的一系列節(jié)目,經(jīng)由通信網(wǎng)絡(luò)124,不確定的多個投稿者如同進(jìn)行實況轉(zhuǎn)播一祥,幾乎實時地互相投稿數(shù)據(jù)。在本實施方式中,數(shù)據(jù)取得部182從設(shè)為這樣的任意的播送站112專用的電子公告板取得投稿數(shù)據(jù)。并且,數(shù)據(jù)取得部182在投稿專用網(wǎng)站,可指定與任意的播送站112相關(guān)的話題的標(biāo)題,取得該投稿數(shù)據(jù)。并且,播送站112獨自運營募集對自身的意見等的網(wǎng)站時,數(shù)據(jù)取得部182可通過這樣的網(wǎng)站取得投稿數(shù)據(jù)。這樣的投稿數(shù)據(jù)實時性強(qiáng),因此例如通過將數(shù)據(jù)取得部182取得的投稿數(shù)據(jù),與作為投稿對象的、節(jié)目碼流取得部取得的節(jié)目碼流的節(jié)目同時顯示到顯示裝置130,用戶可與節(jié)目并行,基本實時閱覽與該節(jié)目相關(guān)的意見、說明。此外,對從節(jié)目信息提供服務(wù)器114發(fā)送的節(jié)目碼流的節(jié)目,也可和上述一祥取得投稿數(shù)據(jù)。但這種情況下,節(jié)目信息提供服務(wù)器114發(fā)送的節(jié)目碼流的節(jié)目限定為與從播送站112通過地上波數(shù)字播送、BS/CS數(shù)字播送、有線電視播送等播送的節(jié)目基本同時刻再次發(fā)送的節(jié)目。數(shù)據(jù)加工部184過濾數(shù)據(jù)取得部182取得的文本數(shù)據(jù)(第2文本數(shù)據(jù)),生成新的文本數(shù)據(jù)(第3文本數(shù)據(jù))。例如,如上所述,數(shù)據(jù)取得部182從服務(wù)提供服務(wù)器140取得投稿數(shù)據(jù)時,數(shù)據(jù)加工部184過濾該投稿數(shù)據(jù),生成新的投稿數(shù)據(jù)。具體而言,數(shù)據(jù)加工部184首先將數(shù)據(jù)取得部182取得的文本數(shù)據(jù)(第2文本數(shù)據(jù))使用上述詞素辭典分割為詞素。并且,數(shù)據(jù)加工部184判斷分割的詞素(正確而言是2個詞素的組合)是否登錄到了許可單詞表格200中,對于登錄到許可單詞表格200中的詞素,判斷其出現(xiàn)次數(shù)是否是預(yù)先確定的第I閾值α以上。此時,如詞素未登錄到許可單詞表格200,或雖然詞素登錄到許可單詞表格200但與該詞素對應(yīng)的出現(xiàn)次數(shù)小于第I閾值α,則數(shù)據(jù)加工部184將詞素置換為預(yù)先確定的一個或多個標(biāo)記,將分割的詞素作為文本數(shù)據(jù)(第3文本數(shù)據(jù))再結(jié)合。因此,在新生成的文本數(shù)據(jù)中,僅剩余登錄到許可單詞表格200的詞素。顯示控制部186將通過數(shù)據(jù)加工部184加工的文本數(shù)據(jù)繪制為文本字幕狀的圖像,將該繪制圖像顯示到顯示裝置130。圖4是表示繪制投稿數(shù)據(jù)的例子的說明圖。如上所述,數(shù)據(jù)取得部182從服務(wù)提供服務(wù)器140取得投稿數(shù)據(jù)(第2文本數(shù)據(jù))時,將通過數(shù)據(jù)加工部184過濾的投稿數(shù)據(jù)(第3文本數(shù)據(jù)),顯示到設(shè)置顯示裝置130中的節(jié)目的顯示區(qū)域210的下面的投稿數(shù)據(jù)區(qū)域212,從而使用戶可與節(jié)目并行,閱覽該投稿數(shù)據(jù)。此時閱覽的投稿數(shù)據(jù)通過數(shù)據(jù)加工部184過濾,因此不含有違反公序良俗的詞語、文章。因此,即使是未成年人,也可沒有任何問題地視聽該投稿數(shù)據(jù)。(過濾方法)圖5是說明過濾方法的處理流程的流程圖。尤其是在圖5中,說明過濾方法中生成許可單詞表格200的處理。DEMUX部156檢測出節(jié)目碼流中具有節(jié)目附加數(shù)據(jù)時(S300中“是”),表格更新部180從DEMUX部156取得節(jié)目附加數(shù)據(jù)的文本正文(S302),進(jìn)行文本正文的字句解析,將文本正文中的I字以上的標(biāo)點、換行、標(biāo)記及外字(預(yù)先確定的漢字、英數(shù)字、平假名、片假名以外的文字),置換為特殊標(biāo)記(例如“·”)(S304)。此時,當(dāng)標(biāo)點等連續(xù)地被記載時,匯總連續(xù)的所有標(biāo)點等置換成ー個特殊標(biāo)記。這樣,表格更新部180進(jìn)行字句解析,進(jìn)行將標(biāo)點等置換成特殊標(biāo)記的處理,從而可避免因節(jié)目附加數(shù)據(jù)特有的布局中使用的標(biāo)記、空白而使許可單詞表格200中登錄無用的詞素,可僅累積檢索所需的詞素。并且,表格更新部180使用詞素辭典,將置換了標(biāo)點等的文本正文分割成詞素(S306)。此時,在作為表格更新部180發(fā)揮作用的詞素引擎中,將置換的特殊標(biāo)記作為詞素間的分隔。圖6是用于說明表格更新部180的處理的說明圖。其中,將文本正文中的換行文字用(換行)表示,將空白文字用(空白)表示。例如,節(jié)目碼流中含有的節(jié)目附加數(shù)據(jù)中的字幕數(shù)據(jù)是圖6Ca)的這樣的文本數(shù)據(jù)時,表格更新部180匯總“》”、“、”、“。”、(換行)、(空白)這樣的標(biāo)點等置換為特殊標(biāo)記“■”,進(jìn)一歩分解為詞素,形成圖6(b)的詞素列。在此為易于理解,向詞素之間插入“/”的標(biāo)記,但并不是實際存在的標(biāo)記。接著,表格更新部180初始化前連接詞素變量PREV(代入空值NULL)(S308),判斷是否殘留未進(jìn)行許可單詞表格200的登錄判斷的詞素(詞素列)(S310),當(dāng)判斷未殘留時(S310中“否”),結(jié)束生成該許可單詞表格200的處理。當(dāng)還殘留未進(jìn)行登錄判斷的詞素時(S310中“是”),表格更新部180取出一個位于未進(jìn)行許可單詞表格200的登錄判斷的詞素列前頭的詞素,代入到詞素變量WORD,從該詞素列刪除對象詞素(S312)。接著,表格更新部180判斷詞素變量WORD是否是特殊標(biāo)記(S314),當(dāng)是特殊標(biāo)記時(S314中“是”),從前連接詞素變量初始化步驟S308開始重復(fù)。如詞素變量WORD不是特殊標(biāo)記(S314中“否”),表格更新部180判斷前連接詞素變量PREV和詞素變量WORD的組合、是否作為許可單詞表格200的前連接詞素pword和主詞素word的組合存在(S316),如存在(S316中“是”),遞增與該前連接詞素pword和主詞素word對應(yīng)的出現(xiàn)次數(shù)wnum(S318),如不存在(S316中“否”),將前連接詞素變量PREV和詞素變更WORD的組合作為前連接詞素pword和主詞素word的新的記錄,追加到許可單詞表格200,將對應(yīng)的出現(xiàn)次數(shù)wnum設(shè)定為I(S320)。并且,表格更新部180將詞素變量WORD代入前連接詞素變量PREV(S322),從詞素殘留判斷步驟S310開始重復(fù)。由此,根據(jù)圖6(b)所示的詞素列,生成圖3所示的許可單詞表格200。在上述處理中,分割的詞素即使不包含于詞素辭典中,也可登錄到許可單詞表格200,可計數(shù)出現(xiàn)次數(shù)。如上生成的許可單詞表格200累積節(jié)目附加數(shù)據(jù)中含有的2個詞素間的連接情況及其出現(xiàn)次數(shù)。該連接情況深刻反映位于用戶居住的地區(qū)的播送站112、用戶專門視聽的播送站112中的節(jié)目附加數(shù)據(jù)的生成特性,因此許可單詞表格200和地區(qū)性、用戶愛好對應(yīng)?;夭⑶?在存在判斷步驟S316中,之所以判斷前連接詞素pword和主詞素word這2個的連接,是為了排除通過連接未違反公序良俗的詞素而變?yōu)檫`反公序良俗的文字串等。例如,文字串“基地外”雖然也有“基地の外”的含義,但其讀音違反公序良俗。此時,數(shù)據(jù)加工部184分別單獨判斷“基地”和“外”時,文字串“基地外”有可能不被排除。在播送道德規(guī)定中,不使用“基地外”的表達(dá),而是“基地の外”的表達(dá),因此在許可單詞表格200中,以“基地”“の”或者“の”“外”這樣的連接的詞素登錄,可排除“基地外”這樣的文字串。并且,在此為便于理解,列舉了累積作為對象的詞素和前一個詞素的組合的例子,通過將連接的前η個為止的詞素的組合登錄到許可單詞表格200,可對詞素的組合進(jìn)行嚴(yán)格的過濾(詞素為2個時稱為2gram法,統(tǒng)計前η個為止的連接性時稱為η—gram法)。并且,根據(jù)應(yīng)用程序不同,也可對文本正文中含有的部分標(biāo)記等不置換而保留,直接進(jìn)行許可單詞表格200的登錄判斷。本實施方式的目的在干,從與詞素辭典的生成源文本數(shù)據(jù)不同的文本數(shù)據(jù),提取詞素的組合和出現(xiàn)次數(shù)。因此,表格更新部180不僅可提取節(jié)目碼流中含有的節(jié)目附加數(shù)據(jù)(字幕數(shù)據(jù)、節(jié)目信息)的文本正文,而且可從節(jié)目碼流中含有的其他信息提取詞素。并且,在此列舉了通過調(diào)諧部152、通信部154取得節(jié)目碼流的例子,但對存儲介質(zhì)中存儲的節(jié)目碼流文件,只要符合播送道德規(guī)定,可從各種路徑取得節(jié)目碼流。進(jìn)一歩,過濾裝置120可通過具有多個調(diào)諧部152和DEMUX部156的組合,從多個播送站112并行接收節(jié)目碼流,高速收集較多的詞素。并且,過濾裝置120可使用于生成許可單詞表格200的功能部與用于節(jié)目視聽的功能部獨立動作,例如可連續(xù)24小時接收節(jié)目碼流,生成許可單詞表格200。圖7是用于說明過濾方法的處理流程的流程圖。圖7尤其說明過濾方法中,利用圖5生成的許可單詞表格200過濾文本數(shù)據(jù)的處理。首先,數(shù)據(jù)取得部182取得視聽的節(jié)目的節(jié)目碼流中含有的時刻數(shù)據(jù)(S350),對開始時刻變量STIME,設(shè)定從取得的時刻數(shù)據(jù)減去規(guī)定秒數(shù)(例如10秒)的值,對結(jié)束時刻變量ΕΜΕ設(shè)定時刻數(shù)據(jù)(S352)。并且,數(shù)據(jù)取得部182從服務(wù)提供服務(wù)器140經(jīng)由通信部154,取得在開始時刻變量SHME到結(jié)束時刻變量ΕΜΕ為止的時刻范圍內(nèi)投稿的投稿數(shù)據(jù)組(S354),初始化中央控制部162的RAM中設(shè)定的輸出緩沖器(S356)。圖8是示例了投稿數(shù)據(jù)組的說明圖。例如,數(shù)據(jù)取得部182從DEMUX部156取得時刻數(shù)據(jù)“2009年9月30日17:45:40”后,取得與時刻范圍(SHME,EHME)=(“2009年9月30日1745:30”,“2009年9月30日1745:40”)對應(yīng)的投稿數(shù)據(jù)組。其中,圖8所示的時刻數(shù)據(jù)為“2009年9月30日17:45:31”的投稿數(shù)據(jù)、及時刻數(shù)據(jù)為“2009年9月30日1745:38”的投稿數(shù)據(jù)是對應(yīng)的。數(shù)據(jù)加工部184判斷是否殘留未進(jìn)行過濾處理的投稿數(shù)據(jù)(S358),當(dāng)判斷為未殘留時(S358中“否”),顯示控制部186將輸出緩沖器中累積的、進(jìn)行了過濾的投稿數(shù)據(jù)顯示到顯示裝置130(S360),結(jié)束該處理。用于形成輸出緩沖器的表格構(gòu)造的命令文使用SQL表示時可如下所示。createtab,βoutput」川ffer(posttimestampnotnulI1wListtextlist,U_U[(post));該輸出緩沖器由投稿數(shù)據(jù)的、組合了投稿時間post(取得時間信息)和詞素列wlist的表格構(gòu)造形成。投稿時間post是進(jìn)行投稿的時間,詞素列wlist是實施了過濾的詞素列。并且,輸出緩沖器被設(shè)定為使投稿時間post為唯一。并且,如殘留未進(jìn)行過濾處理的投稿數(shù)據(jù)(S358中“是”),取出一個位于殘留了投稿數(shù)據(jù)組的開頭的投稿數(shù)據(jù),將投稿時間post代入到投稿時間變量POSTHME,將投稿源數(shù)據(jù)的文本正文代入到文本變量TEXT,從該投稿數(shù)據(jù)組刪除對象投稿數(shù)據(jù)(S362)。數(shù)據(jù)加工部184對文本變量TEXT,2字以上的標(biāo)點置換為I字的標(biāo)記(“?!薄ⅰ?”、“、”、“,”等),且進(jìn)行刪除換行、標(biāo)記、空白的字句解析(S364),使用詞素辭典,將進(jìn)行了字句解析的投稿數(shù)據(jù)的文本正文分割為詞素(S366)。此時,在作為數(shù)據(jù)加工部184發(fā)揮作用的詞素引擎中,將標(biāo)點作為詞素間的分隔。接著,數(shù)據(jù)加工部184初始化前連接詞素變量PREV(代入空值NULL)(S368),判斷作為對象的投稿數(shù)據(jù)中是否殘留詞素(S370),當(dāng)判斷為未殘留時(S370中的“否”),應(yīng)判斷為新的投稿數(shù)據(jù),從投稿數(shù)據(jù)殘留判斷步驟S358開始重復(fù)。作為對象的投稿數(shù)據(jù)中如殘留詞素(S370中“是”),數(shù)據(jù)加工部184從投稿數(shù)據(jù)的文本正文中的詞素列的開頭,取出ー個詞素,代入到詞素變量W0RD(S372)。并且,數(shù)據(jù)加工部184判斷詞素變量WORD是否是標(biāo)記或空白(S374),如是標(biāo)點或空白(S374中“是”),轉(zhuǎn)換到時刻判斷步驟S382。其中,執(zhí)行字句解析步驟S364、標(biāo)點判斷步驟S374用于避免因標(biāo)點、空白、換行、標(biāo)記的插入(擺動),詞語在意圖之外的位置分離,詞素之間的連接關(guān)系混亂。詞素變量WORD不是標(biāo)點、空白時(S374中“否”),數(shù)據(jù)加工部184判斷許可單詞表格200中是否存在前連接詞素pword與前連接詞素變量PREV的值相等、且主詞素word與詞素變量WORD的值相等的記錄,并且當(dāng)存在時,判斷其出現(xiàn)次數(shù)wnum是否為第I閾值α以上(S376)。另ー方面,數(shù)據(jù)加工部184在一致的詞素組合不存在時,或者雖然存在但出現(xiàn)次數(shù)wnum小于第I閾值α?xí)r(S376中“否”),使前連接詞素變量PREV初始化(代入空值),進(jìn)一步將詞素變量WORD置換為表示省略字的特殊標(biāo)記“◎”(S378)。其中,數(shù)據(jù)加工部184之所以使出現(xiàn)次數(shù)wnum小于第I閾值α的詞素的組合也置換為特殊標(biāo)記,是因為如果出現(xiàn)次數(shù)wnum小于第I閾值α,則不能認(rèn)為在節(jié)目附加數(shù)據(jù)中充分出現(xiàn),作為該詞素的組合的許可單元是不適當(dāng)?shù)?。圖9是用于說明數(shù)據(jù)加工部184的處理的說明圖。例如,投稿數(shù)據(jù)的文本正文是圖9Ca)所示的文本數(shù)據(jù)“総理はB⑶だな”時(其中,B⑶連接則是違反公序良俗的文字串),前連接詞素pword=“NULL”、主詞素word=“総理”的記錄存在于圖3的許可單詞表格200中,因此數(shù)據(jù)加工部184將詞素“総理”累積到輸出緩沖器中。并且,“BC”和“D”連接的詞素在許可單詞表格200中不存在,因此數(shù)據(jù)加工部184將該詞素中相當(dāng)于詞素變量WORD的“D”置換為特殊標(biāo)記“◎”,形成圖9(b)所示的詞素列。在此為易于理解,在詞素間插入“/”的標(biāo)記,但不是實際存在的標(biāo)記。并且,當(dāng)許可單詞表格200中存在一致的詞素的組合、且該詞素的出現(xiàn)次數(shù)wnum是第I閾值α以上時(S376中的“是”),數(shù)據(jù)加工部184將詞素變量WORD的值代入到前連接詞素變量PREV(S380)。并且,數(shù)據(jù)加工部184判斷輸出緩沖器中是否存在投稿時間變量P0STTIME的值與投稿時間post—致的記錄(S382),當(dāng)存在時(S382中“是”),向該記錄的詞素列wlist的最后追加詞素變量WORD的值(S384),從詞素殘留判斷步驟S370開始重復(fù)。當(dāng)不存在時(S382中的“否”),數(shù)據(jù)加工部184追加投稿時間post和詞素列wlist分別成為前連接詞素變量POSTHME和詞素變量WORD的新的記錄(S386),從詞素殘留步驟S370開始重復(fù)。在此為易于理解,設(shè)第I閾值α為I。當(dāng)然,根據(jù)應(yīng)用程序不同,也可適當(dāng)變更第I閾值α。并且,對存在判斷步驟S376,可不使用出現(xiàn)次數(shù)wnum本身,而使用通過下式I求出的出現(xiàn)概率來執(zhí)行。對應(yīng)記錄的wnum值/所有記錄的wnum的總值......(I)通過這樣構(gòu)成,數(shù)據(jù)加工部184可根據(jù)許可單詞表格200與全域(母集団)的比率執(zhí)行存在判斷步驟S376。因此,存在以下情況任意的詞素在全域較小時變?yōu)樵S可單詞,但若之后不更新出現(xiàn)次數(shù),出現(xiàn)概率隨著全域變大而減小,存在從許可單詞排除的情況。因此,可自動排除出現(xiàn)頻率變小的詞素。如上所述,本實施方式的過濾裝置120使用和詞素辭典不同的許可單詞表格200,利用節(jié)目碼流中含有的從節(jié)目附加數(shù)據(jù)取得的詞素的組合及出現(xiàn)次數(shù),可將含有違反公序良俗的詞語的投稿數(shù)據(jù)適當(dāng)變更為不含有這樣的詞語的投稿數(shù)據(jù)。并且,如上所述,許可單詞表格200深刻反映位于用戶居住的地區(qū)的播送站112、用戶專門視聽的播送站112中的節(jié)目附加數(shù)據(jù)的生成特性。因此許可單詞表格200和地區(qū)性、用戶愛好對應(yīng),結(jié)果是,過濾的投稿數(shù)據(jù)也易于殘留和地區(qū)性、用戶喜好對應(yīng)的詞語。并且,在上述實施方式中,列舉過濾從電子公告板取得的投稿數(shù)據(jù)的例子進(jìn)行了說明,但不限于投稿數(shù)據(jù),也可過濾網(wǎng)頁瀏覽器中顯示的各種數(shù)據(jù)、存儲介質(zhì)中收容的數(shù)據(jù)等各種文本數(shù)據(jù)。(第2實施方式節(jié)目提供系統(tǒng)400)在第I實施方式中,說明了適當(dāng)過濾任意的文本數(shù)據(jù)的過濾裝置120及過濾方法。在第2實施方式中,使用在第I實施方式中說明的過濾技木,說明適當(dāng)檢索節(jié)目、節(jié)目內(nèi)的規(guī)定場景的節(jié)目檢索裝置420及節(jié)目檢索方法。圖10是表示第2實施方式中的節(jié)目提供系統(tǒng)400的概要連接關(guān)系的說明圖。節(jié)目提供系統(tǒng)400的構(gòu)成包括節(jié)目提供裝置110、節(jié)目檢索裝置420、顯示裝置130、服務(wù)提供服務(wù)器140。其中,節(jié)目提供裝置110、顯示裝置130、服務(wù)提供服務(wù)器140與第I實施方式中說明的節(jié)目提供裝置110、顯示裝置130、服務(wù)提供服務(wù)器140動作實質(zhì)相同,因此省略其說明。節(jié)目檢索裝置420和第I實施方式中說明的過濾裝置120—祥,從作為節(jié)目提供裝置Iio的播送站112通過天線122,并且從作為節(jié)目提供裝置110的節(jié)目提供服務(wù)器114通過因特網(wǎng)等通信網(wǎng)絡(luò)124,接收地上波數(shù)字播送、BS/CS數(shù)字播送、有線電視播送、IP播送、視頻點播等各種節(jié)目的節(jié)目碼流,生成用于進(jìn)行過濾的許可單詞表格200。并且,節(jié)目檢索裝置420保持節(jié)目的同吋,使用許可單詞表格200生成節(jié)目的索引數(shù)據(jù),施加到保持的節(jié)目。并且,用戶嘗試檢索節(jié)目、節(jié)目內(nèi)的規(guī)定場景時,節(jié)目檢索裝置420根據(jù)索引數(shù)據(jù)迅速提取用戶所需的節(jié)目、節(jié)目內(nèi)的規(guī)定場景。以下說明構(gòu)成節(jié)目檢索裝置420的各功能部,之后詳述使用了節(jié)目檢索裝置420的節(jié)目檢索方法。(節(jié)目檢索裝置420)在累積了多個節(jié)目、事后視聽累積的節(jié)目的構(gòu)成中(例如HDR=HardDiskRecorder),節(jié)目碼流中含有字幕數(shù)據(jù)時,將該字幕數(shù)據(jù)作為索引數(shù)據(jù)與各節(jié)目關(guān)聯(lián),從而可使HDR根據(jù)該索引數(shù)據(jù)迅速提示用戶所需的節(jié)目。但是,節(jié)目碼流中不一定含有字幕數(shù)據(jù),例如在新聞、直播等無法預(yù)先提示其播送內(nèi)容的節(jié)目中,是不含有字幕數(shù)據(jù)、或者即使含有也僅是標(biāo)題等極為有限的信息。因此,根據(jù)節(jié)目不同,產(chǎn)生索引數(shù)據(jù)關(guān)聯(lián)的及非關(guān)聯(lián)的區(qū)別。因此,本實施方式的節(jié)目檢索裝置420對于不含有字幕數(shù)據(jù)的節(jié)目碼流,從播送外的路徑取得相當(dāng)于索引數(shù)據(jù)的信息,作為索引數(shù)據(jù)嘗試與節(jié)目建立關(guān)聯(lián)。作為該信息的取得目的地,適用在第I實施方式中說明的、將與通過任意的播送站112播送的節(jié)目相關(guān)的投稿數(shù)據(jù)作為電子公告板公開的服務(wù)提供服務(wù)器140等。節(jié)目檢索裝置420例如比較節(jié)目的視聽時間和投稿數(shù)據(jù)的投稿時間,時間一致的投稿數(shù)據(jù)視為與對應(yīng)的節(jié)目關(guān)聯(lián),將該投稿數(shù)據(jù)作為索引數(shù)據(jù)使用。但是,在該服務(wù)提供服務(wù)器140中,即使投稿數(shù)據(jù)的文章限制較少、所述文章被過濾,也利用禁止單詞表格,因此通過對投稿數(shù)據(jù)加入“擺動”,可自由地表達(dá)文章。因此,利用投稿數(shù)據(jù)直接生成索引數(shù)據(jù)時,含有違反公序良俗的詞語、文章的所有任意文本數(shù)據(jù)作為索引數(shù)據(jù)被建立關(guān)聯(lián),索引數(shù)據(jù)的容量變得龐大,導(dǎo)致檢索處理的延遲。此時,因索引數(shù)據(jù)變多,檢索命中率變高,但實際上,ASCIIArt形成的無意義的文本數(shù)據(jù)等,作為檢索用索引數(shù)據(jù),不適當(dāng)?shù)臄?shù)據(jù)較多,命中率不一定變高。進(jìn)ー步,在相當(dāng)于擺動的代用字等作為索引數(shù)據(jù)被登錄的情況下,不僅不作為該節(jié)目的索引數(shù)據(jù)發(fā)揮作用,而且牽涉到未意圖的其他節(jié)目的檢索,檢索精度下降。并且,在大容量的索引數(shù)據(jù)被建立關(guān)聯(lián)的節(jié)目、及基于字幕數(shù)據(jù)的索引數(shù)據(jù)被建立關(guān)聯(lián)的節(jié)目中,索引數(shù)據(jù)的量、質(zhì)不同,因此根據(jù)檢索的關(guān)鍵字的不同,用戶無法適當(dāng)提取出所需的節(jié)目。通過下述節(jié)目檢索裝置420及節(jié)目檢索方法解決該問題。圖11是表示節(jié)目檢索裝置420的概要構(gòu)成的功能框圖。在圖11中,用實線箭頭表示數(shù)據(jù)流,用虛線箭頭表示控制信號流。節(jié)目檢索裝置420的構(gòu)成包括操作部150、調(diào)諧部152、通信部154、DEMUX部156、AV解碼部158、表格保持部160、中央控制部462、節(jié)目保持部464、節(jié)目信息保持部466、RTC(RealTimeClock:實時時鐘)部468、索引保持部470。其中,調(diào)諧部152、通信部154、DEMUX部156作為取得節(jié)目碼流的節(jié)目碼流取得部發(fā)揮作用。并且,中央控制部462作為表格更新部180、數(shù)據(jù)取得部482、數(shù)據(jù)加工部184、顯示控制部186、節(jié)目存儲控制部488、節(jié)目信息存儲控制部490、索引施加部492、節(jié)目提取部494發(fā)揮作用。作為第I實施方式中的構(gòu)成要素已經(jīng)說明的操作部150、調(diào)諧部152、通信部154、DEMUX部156、AV解碼部158、表格保持部160、表格更新部180、數(shù)據(jù)加工部184、顯示控制部186實質(zhì)上功能相同,因此省略重復(fù)說明,在此主要說明構(gòu)成不同的中央控制部462、節(jié)目保持部464、節(jié)目信息保持部466、RTC部468、索引保持部470、數(shù)據(jù)取得部482、節(jié)目存儲控制部488、節(jié)目信息存儲控制部490、索引施加部492、節(jié)目提取部494。節(jié)目存儲控制部488將節(jié)目以通過頻道代碼和時刻數(shù)據(jù)可檢索的方式保持在節(jié)目保持部464中。節(jié)目保持部464由閃存、HDD等存儲介質(zhì)構(gòu)成,保持ー個或多個節(jié)目。并且,作為節(jié)目保持部464,可適用可從節(jié)目檢索裝置420裝卸的DVD(DigitalVersatileDisc:數(shù)碼多用途光碟)、BD(BLU—rayDisc:藍(lán)光光碟)這樣的光盤介質(zhì),磁帶、磁盤這樣的磁介質(zhì),閃存、移動HDD等外部存儲介質(zhì)。并且,節(jié)目保持部464是可隨機(jī)存取的文件系統(tǒng),其他功能部可指定任意的時刻范圍讀出節(jié)目保持部464中保持的影像數(shù)據(jù)、聲音數(shù)據(jù)、字幕數(shù)據(jù)。其中,隨機(jī)存取的方法是現(xiàn)有技木,因此不再詳述,例如將節(jié)目按照每I小時分割保存,將該分割的文件的文件名設(shè)為“27CH2009年9月30日1700:00.TS”這樣的包括頻道代碼和存儲開始時刻的名稱,從而可進(jìn)行粗略的隨機(jī)存取。進(jìn)ー步,節(jié)目中的任意的場景的隨機(jī)存取,可通過求出任意重放時刻的文件偏移(字節(jié))來進(jìn)行。例如,設(shè)每I小時的文件的總大小(字節(jié))為TOTAL,任意場景的絕對重放時刻為Tl,根據(jù)文件名獲得的文件開頭的絕對時刻為TO時,通過下式2求出文件偏移。T0TAL/3600X(Tl—T0)......(公式2)其中,(Tl一T0)的結(jié)果進(jìn)行秒換算來使用。節(jié)目信息存儲控制部490在經(jīng)由作為節(jié)目碼流取得部的調(diào)諧部152、通信部154取得的節(jié)目碼流中含有節(jié)目信息吋,從節(jié)目碼流中提取節(jié)目信息,作為節(jié)目信息表格保持到節(jié)目信息保持部466中。將用于生成上述節(jié)目信息表格的命令文用SQL表示時可如下所示。createtabIeepg—table(phychintegernotnull,serviceidintegernotnuLL#eventidintegernotnuIIxsttimetimestampnotnulI,edtimetimestampnotnuLIrttIetextnotnulI,capfIgintegernotnu1UNIOUE(serviceid#eventid,sttime))I*其中,節(jié)目信息至少包括頻道代碼phych、服務(wù)IDserviceid>事件ID:eventid、節(jié)目開始時刻sttime、節(jié)目結(jié)束時刻edtime、節(jié)目名title、字幕標(biāo)志capflg。并且,在節(jié)目信息表格中,服務(wù)ID:serviceid、事件ID:eventid、節(jié)目開始時刻sttime的組合是唯一的。節(jié)目信息存儲控制部490中,字幕標(biāo)志capflg以外的信息可從節(jié)目信息取得。并且,服務(wù)ID是和ー個播送站112中的ー個以上的組合對應(yīng)的固有數(shù)值,事件ID是和ー個組合的ー個以上的事件對應(yīng)的固有數(shù)值。將節(jié)目信息登錄到節(jié)目信息表格時,節(jié)目信息保持部466中如果已經(jīng)登錄了服務(wù)ID:serviceid、節(jié)目信息的節(jié)目開始時刻sttime及節(jié)目結(jié)束時刻edtime相等的節(jié)目信息,則節(jié)目信息存儲控制部490刪除該節(jié)目信息,登錄新提取的節(jié)目信息。由此,可排除同一組合中的節(jié)目框的重復(fù)。并且,節(jié)目信息存儲控制部490在新登錄節(jié)目信息吋,將該節(jié)目信息的字幕標(biāo)志capflg設(shè)定為O(未處理)。節(jié)目信息保持部466由閃存、HDD等存儲介質(zhì)構(gòu)成,根據(jù)節(jié)目信息存儲部490的控制指令,保持將節(jié)目碼流中含有的節(jié)目信息表格化的節(jié)目信息表格。并且,節(jié)目信息保持部466作為EPG數(shù)據(jù)庫發(fā)揮作用,其他功能部(例如索引施加部492、節(jié)目提取部494)可以任意的條件檢索節(jié)目信息保持部466保持的節(jié)目信息表格。數(shù)據(jù)取得部482取得與節(jié)目相關(guān)的文本數(shù)據(jù)(第2文本數(shù)據(jù))。在本實施方式中,數(shù)據(jù)取得部482從將與通過任意的播送站112播送的節(jié)目相關(guān)的投稿數(shù)據(jù)作為電子公告板公開的服務(wù)提供服務(wù)器140,取得與該節(jié)目相關(guān)的投稿數(shù)據(jù)(第2文本數(shù)據(jù)),并且使投稿時間(取得時間信息)與投稿數(shù)據(jù)關(guān)聯(lián)。如上所述,在這樣的電子提示板中,對通過特定的播送站112播送的一系列節(jié)目,經(jīng)由通信網(wǎng)絡(luò)124,不確定的多個投稿者如同進(jìn)行實況轉(zhuǎn)播一樣,幾乎實時地互相投稿數(shù)據(jù)。在本實施方式中,數(shù)據(jù)取得部482從這樣的任意的播送站112專用的電子公告板取得投稿數(shù)據(jù)。數(shù)據(jù)取得部482在投稿專用網(wǎng)站中,可指定與任意的播送站112相關(guān)的話題的標(biāo)題,取得該投稿數(shù)據(jù)。并且,播送站112獨自運營募集對自身的意見等的網(wǎng)站時,數(shù)據(jù)取得部482可通過這樣的網(wǎng)站取得投稿數(shù)據(jù)。具體而言,數(shù)據(jù)取得部482相當(dāng)于Web瀏覽器,通過通信部154,確立與服務(wù)提供服務(wù)器140的通信,發(fā)送包括時刻范圍和頻道代碼的請求信息,作為響應(yīng)取得時刻范圍中含有的投稿數(shù)據(jù)組(文本數(shù)據(jù)組)。數(shù)據(jù)取得部482取得投稿數(shù)據(jù)組后,數(shù)據(jù)加工部184將投稿數(shù)據(jù)(第2文本數(shù)據(jù))分割為詞素。并且,數(shù)據(jù)加工部184在分割的詞素未登錄到許可單詞表格200、或詞素雖登錄到許可單詞表格200中但與該詞素對應(yīng)的出現(xiàn)次數(shù)小于預(yù)先確定的第I閾值α?xí)r,將詞素置換為預(yù)先確定的ー個或多個文字,作為投稿數(shù)據(jù)(第3文本數(shù)據(jù))再次結(jié)合。RTC部468由RTC電路構(gòu)成,起到節(jié)目檢索裝置420本身的時鐘的作用。索引施加部492在節(jié)目保持部464中保持的節(jié)目中,將從節(jié)目附加數(shù)據(jù)或投稿數(shù)據(jù)提取的詞素、及與節(jié)目附加數(shù)據(jù)或投稿數(shù)據(jù)(第2文本數(shù)據(jù))建立了關(guān)聯(lián)的取得時間信息的組,作為索引數(shù)據(jù)而施加(建立關(guān)聯(lián)),作為索引表格保持在索引保持部470。將用于生成該索引表格的命令文使用SQL表示時可如下所示。createtableindextable(wordtextnotnull,postimetimestampnotnull,serviceidintegernotnull,eventidintegernotnull,UNIQUE(靜ord#postime,serviceid,svcntid));其中,索引表格至少包括檢索語word、檢索時刻postime、對應(yīng)節(jié)目的服務(wù)IDserviceid、對應(yīng)節(jié)目的事件ID:eventid。并且,索引表格中,檢索語word、檢索時刻postime、對應(yīng)節(jié)目的服務(wù)ID:serviceid、對應(yīng)節(jié)目的事件IDeventid的組合是卩隹一的。并且,在本實施方式中,索引施加部492在節(jié)目碼流中含有字幕數(shù)據(jù)時(節(jié)目中附加了字幕數(shù)據(jù)),將該字幕數(shù)據(jù)和取得時間信息的組作為索引數(shù)據(jù)施加到和該字幕數(shù)據(jù)對應(yīng)的節(jié)目。另ー方面,索引施加部492在節(jié)目碼流中不含有字幕數(shù)據(jù)(節(jié)目中未附加字幕數(shù)據(jù))、或者視為不含有時(節(jié)目中未附加字幕數(shù)據(jù)),則將再次結(jié)合的文本數(shù)據(jù)(第3文本數(shù)據(jù))和該取得時間信息的組作為索引施加到與該字幕數(shù)據(jù)對應(yīng)的節(jié)目。其中,視為不含有(節(jié)目中未附加字幕數(shù)據(jù))是指下述的字幕率較低。具體而言,索引施加部492從節(jié)目信息保持部466取出未處理(字幕標(biāo)志capflg=0)的節(jié)目信息,從節(jié)目保持部464取出和該節(jié)目信息對應(yīng)的節(jié)目的字幕數(shù)據(jù),作為索引數(shù)據(jù)。此時,節(jié)目碼流中不存在或視為不存在字幕數(shù)據(jù)時(節(jié)目中未附加字幕數(shù)據(jù)或視為未附加時),索引施加部492使數(shù)據(jù)取得部482從服務(wù)提供服務(wù)器140取得投稿數(shù)據(jù)(文本數(shù)據(jù)),使數(shù)據(jù)加工部184生成可檢索對應(yīng)節(jié)目的索引數(shù)據(jù)。并且,索引施加部492為將索引數(shù)據(jù)施加到節(jié)目,將索引數(shù)據(jù)登錄到索引保持部470的索引表格。通過具有上述索引施加部492,適當(dāng)選擇應(yīng)將節(jié)目碼流中含有的字幕數(shù)據(jù)、及服務(wù)提供服務(wù)器140的投稿數(shù)據(jù)的哪一個作為施加對象的節(jié)目的索引數(shù)據(jù),可生成用于檢索的適當(dāng)?shù)乃饕龜?shù)據(jù)。由此,在沒有字幕數(shù)據(jù)時也附加索引,因此可提高檢索精度。并且,在本實施方式中,區(qū)分表格更新部180為更新許可單詞表格200而使用的節(jié)目附加數(shù)據(jù)中的字幕數(shù)據(jù)、和索引施加部492作為索引數(shù)據(jù)使用的字幕數(shù)據(jù),也可利用作為索引數(shù)據(jù)使用的字幕數(shù)據(jù),更新許可單詞表格200。索引保持部470由閃存、HDD等存儲介質(zhì)構(gòu)成,根據(jù)索引施加部492的控制指令,保持將索引數(shù)據(jù)表格化的索引表格。節(jié)目提取部494接受通過操作部150的用戶的操作輸入,將該操作結(jié)果通過⑶I(GraphicalUserInterface:圖形用戶界面)顯示在顯示裝置130上。并且,節(jié)目提取部494根據(jù)用戶為檢索而輸入的關(guān)鍵字等,參照索引表格,提取節(jié)目保持部464中保持的節(jié)目或節(jié)目內(nèi)的規(guī)定場景。(節(jié)目檢索方法)圖12是說明節(jié)目檢索方法的處理流程的流程圖。尤其是在圖12中,說明節(jié)目檢索方法中的索引數(shù)據(jù)的施加處理。首先,索引施加部492從RTC部468取得現(xiàn)在時刻,代入到時刻變量NOW(S500),從節(jié)目信息保持部466檢索字幕標(biāo)志capflg為O(未處理)、且節(jié)目結(jié)束時刻edtime和時刻變量NOW相比處于過去的節(jié)目信息,作為節(jié)目信息列取得(S502)。索引施加部492判斷節(jié)目信息列中是否殘留節(jié)目信息(S504),如殘留(S504中“是”),從節(jié)目信息列的開頭取出一個節(jié)目信息,分別將服務(wù)ID=Serviceid代入到服務(wù)ID變量SERVICEID,將事件IDeventid代入到事件ID變量EVENTID,從該節(jié)目信息列刪除對象節(jié)目信息(S506)。節(jié)目信息列中未殘留節(jié)目信息時(S504中“否”),結(jié)束該索引數(shù)據(jù)的施加處理。接著,索引施加部492從節(jié)目保持部464根據(jù)與頻道代碼phych相關(guān)的文件、且從節(jié)目開始時刻sttime到節(jié)目結(jié)束時刻edtime為止的時刻范圍內(nèi)含有的節(jié)目施加數(shù)據(jù),取得字幕數(shù)據(jù)列(S508)。并且,索引施加部492將取得的字幕數(shù)據(jù)列中含有的字幕數(shù)據(jù)的總數(shù)代入到變量CAPNUM(S510)。圖13是表示字幕數(shù)據(jù)的一例的說明圖。如圖13所示,例如,字幕數(shù)據(jù)550中至少包括字幕時刻552和文本正文554。在本實施方式中,為簡化說明,僅處理節(jié)目附加數(shù)據(jù)中的字幕數(shù)據(jù),但也可從字幕以外的節(jié)目附加數(shù)據(jù)中提取時刻和文本的組合。例如,可將節(jié)目信息中(節(jié)目開始時刻sttime,標(biāo)題title)作為I個組合,附加到字幕數(shù)據(jù)列的開頭。并且,索引施加部492判斷字幕數(shù)據(jù)列中是否殘留了ー個以上的字幕數(shù)據(jù)(S512),如殘留(S512中的“是”),則從字幕數(shù)據(jù)列的開頭取出ー個字幕數(shù)據(jù),將字幕時刻552代入到時刻變量P0SHME,將文本正文554代入到文本變量TEXT2,從該字幕數(shù)據(jù)列刪除對象字幕數(shù)據(jù)(S514)。索引施加部492進(jìn)ー步對文本變量TEXT2,進(jìn)行將ー個以上的換行、標(biāo)記、空白置換為ー個空白的字句解析(S516),使用詞素辭典,分割成詞素(S518)。此時,在作為索引施加部492發(fā)揮作用的詞素引擎中,將空白作為詞素間的分隔。以上是將字幕數(shù)據(jù)列分割為詞素列的處理,重復(fù)CAPNUM次。并且,當(dāng)字幕數(shù)據(jù)列中沒有字幕數(shù)據(jù)殘留時(S512中“否”),轉(zhuǎn)換到詞素殘留判斷步驟S520。接著,索引施加部492判斷字幕數(shù)據(jù)的詞素列中詞素是否殘留ー個以上(S520),如殘留(S520中的“是”),取出ー個開頭的詞素,代入到詞素變量WORD,從該詞素列刪除對象詞素(S522),在索引保持部470的索引表格中追加(word,postime,serviceid,eventid)=(WORD,POSTIME,SERVICEID,EVENTID)的記錄(S524)。此外,索引表格如上所述,檢索語word、檢索時刻postime、對應(yīng)節(jié)目的服務(wù)ID:serviceid、對應(yīng)節(jié)目的事件IDeventid的組合是唯一的,因此在同一節(jié)目的同一時刻的字幕數(shù)據(jù)中,同一詞語出現(xiàn)多次時,忽略第2個以后的記錄。并且,在詞素列中如未殘留詞素(S520中的“否”),索引施加部492使用下式3算出字幕率CST(S526)。此時,(節(jié)目結(jié)束時刻edtime—節(jié)目開始時刻sttime)的結(jié)果是使用秒換算的,字幕率CST表示毎秒的字幕數(shù)據(jù)數(shù)。CST=CAPNUM/(edtime—sttime)......(公式3)在統(tǒng)計上,視為有字幕的節(jié)目的字幕率CSTiO.f0.25之間的值,因此判斷第2閾值β=0.1,索引施加部492判斷字幕率CST是否是第2閾值β以上(S528)。如字幕率CST是第2閾值β以上(S528中的“是”),索引施加部492視字幕數(shù)據(jù)列有效,將節(jié)目信息保持部466的節(jié)目信息表格中的對應(yīng)記錄的字幕標(biāo)志capflg設(shè)定為I(有字幕數(shù)據(jù))(S530),從節(jié)目信息殘留判斷步驟S504開始重復(fù)。其中,將節(jié)目附加數(shù)據(jù)中與字幕數(shù)據(jù)相關(guān)的出現(xiàn)率(字幕率)與第2閾值β進(jìn)行比較,同樣,索引施加部492可將節(jié)目信息的文本正文的數(shù)據(jù)總數(shù)與第3閾值進(jìn)行比較,判斷字幕數(shù)據(jù)列的有效性。并且同樣,索引施加部492可將在S518中輸出的詞素列的詞素數(shù)與第4閾值進(jìn)行比較,判斷字幕數(shù)據(jù)列的有效性。另ー方面,當(dāng)字幕率CST小于第2閾值β時(S528中的“否”),索引施加部492判斷字幕數(shù)據(jù)列作為索引數(shù)據(jù)不充分,使數(shù)據(jù)取得部482及數(shù)據(jù)加工部184,取得及加工節(jié)目開始時刻sttime到節(jié)目結(jié)束時刻edtime的時刻范圍中含有的投稿數(shù)據(jù)(S542)。所述加工的投稿數(shù)據(jù)累積到設(shè)置在中央控制部462的RAM中的輸出緩沖器。投稿數(shù)據(jù)取得步驟S532與在第I實施方式中參照圖7說明的處理實質(zhì)相同,因此在此省略其說明。其中,字幕數(shù)據(jù)列作為索引數(shù)據(jù)不充分是指,對于新聞、直播等無法預(yù)先提示其播送內(nèi)容的節(jié)目,僅是不含有字幕數(shù)據(jù)、或者即使含有也僅是標(biāo)題等極為有限的信息,因此可靠性低。并且,這種情況下,通過利用較少的字幕數(shù)據(jù),采用投稿數(shù)據(jù),提高了可靠性。接著,索引施加部492判斷輸出緩沖器中是否殘留記錄(S534),未殘留時(S534中的“否”),將節(jié)目信息保持部466的節(jié)目信息表格中的對應(yīng)記錄的字幕標(biāo)志capflg設(shè)定為2(有注釋)(S536),從節(jié)目信息剩余判斷步驟S504開始重復(fù)。并且,輸出緩沖器中殘留記錄時(S534中的“是”),索引施加部492取出記錄,將投稿時間post代入到時刻變量P0SHME,取得詞素列wlist(S538)。接著,索引施加部492判斷記錄的詞素列中詞素是否殘留ー個以上(S540),未殘留時(S540中的“否”),從記錄殘留判斷步驟S534開始重復(fù)。記錄的詞素列中殘留詞素時(S540中的“是”),索引施加部492取出ー個開頭的詞素,代入到詞素變量W0RD,從該詞素列刪除對象詞素(S542),向索引保持部470的索引表格中追加(word,postime,serviceid,eventid)=(WORD,POSTIME,SERVICEID,EVENTID)的記錄(S544)。通過索引施加部492生成的索引數(shù)據(jù)中,字幕等較多的節(jié)目將字幕數(shù)據(jù)作為檢索信息源使用,因此正確率較高,字幕等較少的節(jié)目將投稿數(shù)據(jù)作為檢索信息源使用,因此可廣泛膚淺地檢索。圖14是說明節(jié)目檢索方法的處理流程的流程圖。尤其是在圖14中,說明節(jié)目檢索方法中的節(jié)目的檢索處理。首先,節(jié)目提取部494接收到用戶輸入的用于檢索的關(guān)鍵字時(S570中的“是”),將關(guān)鍵字代入到詞素變量W0RD(S572)。并且,節(jié)目提取部494檢索索引保持部470的索引表格(S574),進(jìn)ー步使用檢索結(jié)果的各行中含有的服務(wù)IDserviceid,事件ID:eventid,檢索節(jié)目信息保持部466的節(jié)目信息表格,取得節(jié)目名等(S576),將作為檢索結(jié)果的檢索清單顯示在顯示裝置130中,提示用戶(S578)。圖15是表示檢索清單的顯示例的說明圖。用戶將用于檢索的關(guān)鍵字輸入到輸入?yún)^(qū)域600,點擊檢索開始鍵602后,節(jié)目提取部494根據(jù)該關(guān)鍵字檢索索引數(shù)據(jù),根據(jù)檢索的索引數(shù)據(jù),如圖15所示,使節(jié)目信息清單化顯示。其中,節(jié)目提取部494對節(jié)目信息保持部466的節(jié)目信息表格中的各記錄,使用戶易于理解地進(jìn)行置換加工,適當(dāng)?shù)厥占{于布局中顯示。例如在圖15的例子中,顯示字幕標(biāo)志(字幕capflg=I,注釋capflg=2)604、節(jié)目開始時刻606、節(jié)目結(jié)束時刻608、服務(wù)ID610、事件ID612。接著,用戶接收選擇檢索清單中的ー個節(jié)目的選擇輸入后(S580中的“是”),節(jié)目提取部494使用從節(jié)目信息保持部466取得的頻道代碼phych、及從索引保持部470獲得的檢索時刻postime,檢索節(jié)目保持部464(S582),AV解碼部158將通過檢索處理提取的節(jié)目顯示到顯示裝置130(S584)。圖16是表示顯示裝置130中的顯示例的說明圖。其中可知,起動具有⑶I形成的重放、停止、查找等動作模式的典型的顯示裝置130時,與用于檢索的關(guān)鍵字建立了關(guān)聯(lián)的檢索時刻620作為重放開始點被選擇。通過這樣的節(jié)目的檢索處理,用戶可從數(shù)千小時的節(jié)目中,閱覽與用于檢索的關(guān)鍵字建立了關(guān)聯(lián)的任意節(jié)目或任意場景。因此,在所說明的節(jié)目檢索裝置420及節(jié)目檢索方法中,對不含有字幕數(shù)據(jù)的節(jié)目碼流,可從其他路徑,例如從電子公告板的投稿數(shù)據(jù)取得相當(dāng)于索引數(shù)據(jù)的信息,作為索引數(shù)據(jù)與節(jié)目建立關(guān)聯(lián)。因此,節(jié)目檢索裝置420及節(jié)目檢索方法無論有無字幕數(shù)據(jù),可將索引數(shù)據(jù)施加到所有節(jié)目,可提高節(jié)目的檢索精度。并且,節(jié)目檢索裝置420及節(jié)目檢索方法將投稿數(shù)據(jù)作為索引數(shù)據(jù)使用時,僅將加工為基于播送道德規(guī)定的文本數(shù)據(jù)的投稿數(shù)據(jù)作為索引數(shù)據(jù),從而可排除違反公序良俗的詞語、文章、與對應(yīng)的節(jié)目無關(guān)的代用字、由ASCIIArt形成的無意義的文本數(shù)據(jù)等的不必要的文本數(shù)據(jù),作為索引數(shù)據(jù),僅將適當(dāng)?shù)奈谋緮?shù)據(jù)與節(jié)目建立關(guān)聯(lián)。由此,可避免索引數(shù)據(jù)的數(shù)據(jù)量變得龐大,或者不當(dāng)?shù)乃饕龜?shù)據(jù)造成的檢索精度退化。進(jìn)一歩,節(jié)目檢索裝置420及節(jié)目檢索方法中,過濾投稿數(shù)據(jù)并限制與節(jié)目關(guān)聯(lián)的索引數(shù)據(jù),從而與節(jié)目碼流中預(yù)先含有的字幕數(shù)據(jù)在量上平衡,檢索命中率不會偏移。并且,過濾根據(jù)播送道德規(guī)定進(jìn)行,因此加工的投稿數(shù)據(jù)成為基于播送道德規(guī)定的文本數(shù)據(jù),在是節(jié)目碼流中預(yù)先含有的字幕數(shù)據(jù)、及基于播送道德規(guī)定的方面,該詞語、文章本質(zhì)相同。因此,與投稿數(shù)據(jù)形成的索引數(shù)據(jù)建立了關(guān)聯(lián)的節(jié)目、及與字幕數(shù)據(jù)形成的索引數(shù)據(jù)建立了關(guān)聯(lián)的節(jié)目,在索引數(shù)據(jù)的量、質(zhì)上平衡,因此確保了檢索的平均性,用戶可適當(dāng)提取所需的節(jié)目及該節(jié)目內(nèi)的規(guī)定場景。并且,如在第I實施方式中所述,將許可單詞表格200在過濾裝置120內(nèi)以關(guān)閉狀態(tài)更新,因此可通過調(diào)諧部152、通信部154有效地生成許可單詞表格200,并且可將篡改的危險性限制到最小,同時可以應(yīng)對用于避免過濾的擺動。并且,許可單詞表格200深刻反映位于用戶居住的地區(qū)的播送站112、用戶專門視聽的播送站112中的節(jié)目附加數(shù)據(jù)的生成特性。因此許可單詞表格200和地區(qū)性、用戶愛好對應(yīng),結(jié)果是,過濾的投稿數(shù)據(jù)也易于殘留和地區(qū)性、用戶喜好對應(yīng)的詞語。以上參照了本發(fā)明的優(yōu)選實施方式,當(dāng)然本發(fā)明不限于該實施方式。本領(lǐng)域技術(shù)人員在權(quán)利要求范圍所述范圍內(nèi)可容易地想到各種變更例或修正例,它們當(dāng)然也屬于本發(fā)明的技術(shù)范圍內(nèi)。例如,在上述實施方式中,列舉了根據(jù)播送道德規(guī)定使用可靠性強(qiáng)的節(jié)目附加數(shù)據(jù)的例子,但不限于該節(jié)目附加數(shù)據(jù),在目標(biāo)領(lǐng)域內(nèi),只要可自動取得可靠性強(qiáng)的詞語或文章,則可將本實施方式適用于各領(lǐng)域。此外,本說明書的過濾方法、節(jié)目檢索方法的各步驟無需根據(jù)作為流程圖記載的順序按時間序列進(jìn)行處理,也可包括并列的或子程序下的處理。權(quán)利要求1.一種過濾裝置,其特征在于,具有表格保持部,保持對多個詞素和其出現(xiàn)次數(shù)建立對應(yīng)的許可單詞表格;節(jié)目碼流取得部,取得根據(jù)播放道德規(guī)定生成的節(jié)目碼流;表格更新部,在取得的上述節(jié)目碼流中含有字幕數(shù)據(jù)或作為與節(jié)目內(nèi)容相關(guān)的第I文本數(shù)據(jù)的節(jié)目信息時,從上述節(jié)目碼流中提取上述字幕數(shù)據(jù)或上述節(jié)目信息,分割為詞素,如果分割的上述詞素在上述許可單詞表格中不存在,則將該詞素登錄在上述許可單詞表格中,如果分割的上述詞素在上述許可單詞表格中存在,則更新和上述詞素對應(yīng)的出現(xiàn)次數(shù);數(shù)據(jù)取得部,取得任意的第2文本數(shù)據(jù);數(shù)據(jù)加工部,將上述第2文本數(shù)據(jù)分割為詞素,如果分割的上述詞素未登錄在上述許可單詞表格中,或者分割的上述詞素雖然登錄在上述許可單詞表格中但與該詞素對應(yīng)的出現(xiàn)次數(shù)小于預(yù)先確定的第I閾值,則將上述詞素置換為預(yù)先確定的標(biāo)記,作為第3文本數(shù)據(jù)再結(jié)合。2.一種過濾裝置,其特征在于,具有表格保持部,保持對多個詞素和其出現(xiàn)次數(shù)建立對應(yīng)的許可單詞表格;節(jié)目信息取得部,取得根據(jù)播放道德規(guī)定生成的、作為與節(jié)目內(nèi)容相關(guān)的第I文本數(shù)據(jù)的節(jié)目信息;表格更新部,將上述節(jié)目信息分割為詞素,如果分割的上述詞素在上述許可單詞表格中不存在,則將該詞素登錄在上述許可單詞表格中,如果分割的上述詞素在上述許可單詞表格中存在,則更新和上述詞素對應(yīng)的出現(xiàn)次數(shù);數(shù)據(jù)取得部,取得任意的第2文本數(shù)據(jù);數(shù)據(jù)加工部,將上述第2文本數(shù)據(jù)分割為詞素,如果分割的上述詞素未登錄在上述許可單詞表格中,或者分割的上述詞素雖然登錄在上述許可單詞表格中但與該詞素對應(yīng)的出現(xiàn)次數(shù)小于預(yù)先確定的第I閾值,則將上述詞素置換為預(yù)先確定的標(biāo)記,作為第3文本數(shù)據(jù)再結(jié)合。3.根據(jù)權(quán)利要求I或2所述的過濾裝置,其特征在干,上述第2文本數(shù)據(jù)是針對上述節(jié)目投稿到電子公告板的投稿數(shù)據(jù),進(jìn)ー步具有顯示控制部,上述顯示控制部使通過上述數(shù)據(jù)加工部作為上述第3文本數(shù)據(jù)再結(jié)合的上述投稿數(shù)據(jù),與取得的上述節(jié)目碼流的節(jié)目同時顯示到顯示裝置。4.一種過濾方法,其特征在干取得根據(jù)播放道德規(guī)定生成的節(jié)目碼流,在取得的上述節(jié)目碼流中含有字幕數(shù)據(jù)或作為與節(jié)目內(nèi)容相關(guān)的第I文本數(shù)據(jù)的節(jié)目信息時,從上述節(jié)目碼流中提取上述字幕數(shù)據(jù)或上述節(jié)目信息,分割為詞素,如果分割的上述詞素在使多個詞素和其出現(xiàn)次數(shù)建立對應(yīng)的許可單詞表格中不存在,則將該詞素登錄在上述許可單詞表格中,如果分割的上述詞素在上述許可單詞表格中存在,則更新和上述詞素對應(yīng)的出現(xiàn)次數(shù),取得任意的第2文本數(shù)據(jù),將上述第2文本數(shù)據(jù)分割為詞素,如果分割的上述詞素未登錄在上述許可單詞表格中,或者分割的上述詞素雖然登錄在上述許可單詞表格中但與該詞素對應(yīng)的出現(xiàn)次數(shù)小于預(yù)先確定的第I閾值,則將上述詞素置換為預(yù)先確定的標(biāo)記,作為第3文本數(shù)據(jù)再結(jié)合。5.—種過濾方法,其特征在于取得根據(jù)播放道德規(guī)定生成的、作為與節(jié)目內(nèi)容相關(guān)的第I文本數(shù)據(jù)的節(jié)目信息,將上述節(jié)目信息分割為詞素,如果分割的上述詞素在使多個詞素和其出現(xiàn)次數(shù)建立對應(yīng)的許可單詞表格中不存在,則將該詞素登錄在上述許可單詞表格中,如果分割的上述詞素在上述許可單詞表格中存在,則更新和上述詞素對應(yīng)的出現(xiàn)次數(shù),取得任意的第2文本數(shù)據(jù),將上述第2文本數(shù)據(jù)分割為詞素,如果分割的上述詞素未登錄在上述許可單詞表格中,或者分割的上述詞素雖然登錄在上述許可單詞表格中但與該詞素對應(yīng)的出現(xiàn)次數(shù)小于預(yù)先確定的第I閾值,則將上述詞素置換為預(yù)先確定的標(biāo)記,作為第3文本數(shù)據(jù)再結(jié)合。全文摘要適當(dāng)?shù)剡^濾文本數(shù)據(jù)。過濾裝置120具有表格更新部180,提取節(jié)目碼流中含有的字幕數(shù)據(jù)或節(jié)目信息,分割為詞素,將該詞素登錄在許可單詞表格200中,更新出現(xiàn)次數(shù);數(shù)據(jù)取得部182,取得任意的文本數(shù)據(jù);數(shù)據(jù)加工部184,將任意的文本數(shù)據(jù)分割為詞素,如果分割的詞素未登錄在許可單詞表格中,或者分割的詞素雖然登錄在許可單詞表格中但與該詞素對應(yīng)的出現(xiàn)次數(shù)小于預(yù)先確定的第1閾值,則將詞素置換為預(yù)先確定的標(biāo)記,作為文本數(shù)據(jù)再結(jié)合(圖2)。文檔編號G06F17/30GK102687148SQ201180005206公開日2012年9月19日申請日期2011年9月15日優(yōu)先權(quán)日2010年10月14日發(fā)明者藤井毅也申請人:Jvc建伍株式會社