專利名稱:專有表現(xiàn)抽取裝置、方法以及程序的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種專有表現(xiàn)抽取裝置,可以抽取適應(yīng)用戶的專有表現(xiàn)。
背景技術(shù):
以往,在已經(jīng)公開的專有表現(xiàn)抽取方法中,為了對(duì)應(yīng)多個(gè)不同任 務(wù),對(duì)一個(gè)輸入文本來(lái)操作多個(gè)專有表現(xiàn)抽取模塊工作,從而可以匯 集被抽取的專有表現(xiàn)(例如,參照專利文獻(xiàn)l)。在此,專有表現(xiàn)是指特定的語(yǔ)言項(xiàng)目,根據(jù)任務(wù)作為一個(gè)單位被 處理,例如專有名詞,公司名稱,電子郵件地址,國(guó)名,城市名, 產(chǎn)品名,時(shí)間,日期,金額表現(xiàn)以及比率表現(xiàn)等。專利文獻(xiàn)1:(日本)特開2003-248680號(hào)公報(bào)然而,在以往的專有表現(xiàn)抽取方法中,通過(guò)使多個(gè)專有表現(xiàn)抽取 模塊工作,從而可以對(duì)應(yīng)多個(gè)不同任務(wù),但是由于不能使要抽取專有 表現(xiàn)的種類或單位與用戶或顯示終端器相對(duì)應(yīng)來(lái)存儲(chǔ)它們,因此不能 抽取適應(yīng)用戶或顯示終端的專有表現(xiàn)。因此,尤其在專有表現(xiàn)中存在 專有表現(xiàn)的專有表現(xiàn)的嵌套結(jié)構(gòu)中,在向用戶顯示所抽取的專有表現(xiàn) 的情況下,用戶需要看如下專有表現(xiàn),即,包含對(duì)用戶冗長(zhǎng)的字符串
的專有表現(xiàn),或因字符數(shù)太短而無(wú)法理解意思的專有表現(xiàn)。例如,用 電視節(jié)目信息舉個(gè)例子,針對(duì)由主題與副題構(gòu)成節(jié)目名的節(jié)目,對(duì)于 只根據(jù)主題可以識(shí)別節(jié)目的用戶來(lái)說(shuō)副題是冗長(zhǎng)的信息。反而,對(duì)于 只根據(jù)主題無(wú)法識(shí)別節(jié)目的用戶來(lái)說(shuō)副題是必要的信息,因此必要向 用戶示出主題與副題。發(fā)明內(nèi)容于是,鑒于上述情況,本發(fā)明的目的在于提供一種專有表現(xiàn)抽取 裝置,可以抽取適應(yīng)抽取條件的專有表現(xiàn),該抽取條件以用戶的輸入 履歷或顯示終端的顯示能力等來(lái)表示。為了實(shí)現(xiàn)上述目的,本發(fā)明涉及的專有表現(xiàn)抽取裝置,依次使用 一個(gè)以上的專有表現(xiàn)模式,從一個(gè)以上的輸入文本中抽取專有表現(xiàn), 所述專有表現(xiàn)模式示出在文本中包含的專有表現(xiàn)部分的判斷標(biāo)準(zhǔn),其 特征在于,包括抽取順序設(shè)定單元,決定抽取順序,該抽取順序示 出按照抽取條件不同的專有表現(xiàn)模式的使用順序;以及專有表現(xiàn)抽取單元,根據(jù)以所述決定的抽取順序所示的順序,使用專有表現(xiàn)模式, 從所述一個(gè)以上的輸入文本中抽取專有表現(xiàn)。發(fā)明的效果根據(jù)該結(jié)構(gòu),由于可以按照抽取條件設(shè)定專有表現(xiàn) 的抽取順序,因此,例如對(duì)于存在嵌套結(jié)構(gòu)的專有表現(xiàn),在從字符串 長(zhǎng)度短的、或字符串長(zhǎng)度長(zhǎng)的專有表現(xiàn)中依次進(jìn)行抽取的情況下,在 可以抽取對(duì)于用戶字符串長(zhǎng)度適當(dāng)?shù)膶S斜憩F(xiàn)的階段可以停止專有表 現(xiàn)抽取處理,從而可以抽取對(duì)用戶或顯示終端最合適的專有表現(xiàn)。
圖1是實(shí)施例1的專有表現(xiàn)抽取裝置的結(jié)構(gòu)圖。圖2是示出用于實(shí)施例1的專有表現(xiàn)抽取裝置的、由抽取順序存 儲(chǔ)部存儲(chǔ)的抽取順序的一個(gè)例子的圖。圖3是示出用于抽取的規(guī)則的一個(gè)例子的圖。 圖4是示出用于抽取的規(guī)則的另一個(gè)例子的圖。 圖5是還示出用于抽取的規(guī)則的另一個(gè)例子的圖。 圖6是示出使用抽取人名的規(guī)則進(jìn)行抽取的一個(gè)具體例子的圖。 圖7是實(shí)施例1的工作的流程圖。'圖8是示出實(shí)施例1的專有表現(xiàn)抽取裝置用于抽取的規(guī)則的一個(gè) 例子的圖。圖9是示出用于實(shí)施例1的專有表現(xiàn)抽取裝置的、由抽取順序存 儲(chǔ)部存儲(chǔ)的抽取順序的一個(gè)例子的圖。圖IO是示出用于實(shí)施例1的專有表現(xiàn)抽取裝置的、由抽取順序存 儲(chǔ)部存儲(chǔ)的抽取順序的一個(gè)例子的圖。圖11是示出用于實(shí)施例1的專有表現(xiàn)抽取裝置的、抽取順序讀取 部的一個(gè)例子的圖。圖12是示出實(shí)施例1的工作例的流程圖。圖13是示出用于實(shí)施例1的專有表現(xiàn)抽取裝置的、使用模式數(shù)據(jù) 庫(kù)的內(nèi)容的一個(gè)例子的圖。圖14是示出用于實(shí)施例1的專有表現(xiàn)抽取裝置的、抽取順序數(shù)據(jù) 庫(kù)的內(nèi)容的一個(gè)例子的圖。圖15是示出用于實(shí)施例1的專有表現(xiàn)抽取裝置的、使用模式數(shù)據(jù) 庫(kù)的內(nèi)容的一個(gè)例子的圖。圖16是示出用于實(shí)施例1的專有表現(xiàn)抽取裝置的、使用模式數(shù)據(jù) 庫(kù)的內(nèi)容的一個(gè)例子的圖。圖17是示出用于實(shí)施例1的專有表現(xiàn)抽取裝置的、由抽取順序存 儲(chǔ)部存儲(chǔ)的抽取順序的一個(gè)例子的圖。圖18是示出用于實(shí)施例1的專有表現(xiàn)抽取裝置的、由抽取順序存 儲(chǔ)部存儲(chǔ)的抽取順序的一個(gè)例子的圖。圖19是示出用于實(shí)施例1的專有表現(xiàn)抽取裝置的、抽取結(jié)束判斷 部的一個(gè)例子的圖。圖20是示出實(shí)施例1的工作例的流程圖。圖21是示出用于實(shí)施例1的專有表現(xiàn)抽取裝置的、由抽取次數(shù)存 儲(chǔ)部存儲(chǔ)的內(nèi)容的一個(gè)例子的圖。圖22是示出用于實(shí)施例1的專有表現(xiàn)抽取裝置的、由抽取次數(shù)存 儲(chǔ)部存儲(chǔ)的內(nèi)容的一個(gè)例子的圖。圖23是示出用于實(shí)施例1的專有表現(xiàn)抽取裝置的、由抽取順序存 儲(chǔ)部存儲(chǔ)的內(nèi)容的一個(gè)例子的圖。圖24是示出用于實(shí)施例1的專有表現(xiàn)抽取裝置的、由抽取順序存 儲(chǔ)部存儲(chǔ)的內(nèi)容的一個(gè)例子的圖。圖25是示出用于實(shí)施例1的專有表現(xiàn)抽取裝置的、由抽取順序存 儲(chǔ)部存儲(chǔ)的抽取順序的一個(gè)例子的圖。
圖26是實(shí)施例1的變形例涉及的專有表現(xiàn)抽取裝置的結(jié)構(gòu)圖。圖27是本發(fā)明的實(shí)施例2的專有表現(xiàn)抽取裝置的結(jié)構(gòu)圖。圖28是示出用于實(shí)施例2的專有表現(xiàn)抽取裝置的、由抽取順序存儲(chǔ)部存儲(chǔ)的抽取順序的一個(gè)例子的圖。圖29是示出實(shí)施例2的工作例的流程圖。圖30A以及圖30B是示出實(shí)施例2的專有表現(xiàn)顯示例的圖。圖31是本發(fā)明的實(shí)施例3的專有表現(xiàn)抽取裝置的結(jié)構(gòu)圖。圖32是示出用于實(shí)施例3的專有表現(xiàn)抽取裝置的、由抽取順序存儲(chǔ)部存儲(chǔ)的內(nèi)容的一個(gè)例子的圖。圖33是示出實(shí)施例3的工作例的流程圖。圖34是示出實(shí)施例3的專有表現(xiàn)的顯示例的圖。圖35是示出實(shí)施例3的專有表現(xiàn)的顯示例的圖。圖36是示出實(shí)施例3的專有表現(xiàn)的顯示例的圖。圖37A以及圖37B是變形例的中文的輸入文本的一個(gè)示例圖。符號(hào)說(shuō)明101輸入部102抽取順序存儲(chǔ)部103抽取順序讀取部104專有表現(xiàn)模型存儲(chǔ)部104A專有表現(xiàn)A模式104B專有表現(xiàn)B模式104C專有表現(xiàn)C模式 105專有表現(xiàn)抽取部 106抽取結(jié)束判斷部 201判斷部 202抽取次數(shù)存儲(chǔ)部 203抽取次數(shù)更新部 204抽取順序變更部 301使用模式數(shù)據(jù)庫(kù) 302抽取順序數(shù)據(jù)庫(kù) 303文本檢索部 304順序總數(shù)獲得部 305使用模式獲得部 306信息數(shù)據(jù)庫(kù) 308類似文本獲得部 309顯示部 401使用模式數(shù)據(jù)庫(kù) 402抽取順序數(shù)據(jù)庫(kù) 403順序總數(shù)獲得部 404抽取結(jié)束判斷部 405專有表現(xiàn)決定部 501專有表現(xiàn)存儲(chǔ)部 502抽取結(jié)束判斷部503顯示條件獲得部 504專有表現(xiàn)獲得部 505重復(fù)刪除部 506顯示部具體實(shí)施方式
本發(fā)明的專有表現(xiàn)抽取裝置,依次使用一個(gè)以上的專有表現(xiàn)模式, 從一個(gè)以上的輸入文本中抽取專有表現(xiàn),所述專有表現(xiàn)模式示出在文 本中包含的專有表現(xiàn)部分的判斷標(biāo)準(zhǔn),包括抽取順序設(shè)定單元,決 定用于抽取專有表現(xiàn)專有表現(xiàn)模式的、按照抽取條件不同的抽取順序; 以及專有表現(xiàn)抽取單元,根據(jù)以所述決定的抽取順序所示的順序,使 用專有表現(xiàn)模式,從所述一個(gè)以上的輸入文本中抽取專有表現(xiàn)。并且,也可以是,所述抽取條件是以下列內(nèi)容中至少一個(gè)來(lái)表示 的,即,使用所抽取的專有表現(xiàn)的用戶、顯示所抽取的專有表現(xiàn)的終 端裝置、輸入文本的屬性、輸入文本的數(shù)量、以及過(guò)去專有表現(xiàn)被抽 取過(guò)的次數(shù)。并且,也可以是,所述輸入文本表示構(gòu)成電子節(jié)目指南的節(jié)目信息。根據(jù)該結(jié)構(gòu),所述專有表現(xiàn)抽取裝置,由于按照抽取條件設(shè)定用 于抽取專有表現(xiàn)的專有表現(xiàn)模式的順序,因此按照抽取條件,使用不 同的專有表現(xiàn)模式可以獲得不同的專有表現(xiàn)模式,所述抽取條件是以 下列內(nèi)容中至少一個(gè)來(lái)表示的,即,例如使用所抽取的專有表現(xiàn)的用
戶、顯示所抽取的專有表現(xiàn)的終端裝置、輸入文本的屬性、輸入文本 的數(shù)量、以及專有表現(xiàn)過(guò)去被抽取過(guò)的次數(shù)等。
該結(jié)構(gòu)是,例如在所述輸入文本表示構(gòu)成電子節(jié)目指南的節(jié)目信 息的情況下合適的。作為具體例子,在從節(jié)目信息抽取作為節(jié)目標(biāo)題 的專有表現(xiàn)時(shí),通過(guò)向習(xí)慣于該節(jié)目的用戶抽取并示出只由主題構(gòu)成 的、較短的專有表現(xiàn),而向不是那樣的用戶抽取并示出由主題和副題 構(gòu)成的、較長(zhǎng)的專有表現(xiàn),則可以向用戶示出反映內(nèi)容的、長(zhǎng)度適當(dāng) 的節(jié)目標(biāo)題。
并且,若在顯示所抽取的專有表現(xiàn)的終端裝置是移動(dòng)信息終端裝 置的情況下,只抽取并顯示主題,在顯示所抽取的專有表現(xiàn)的終端裝 置是家庭用電視廣播接收裝置的情況下,抽取并顯示主題和副題,則 可以減少如下不方便,即,在移動(dòng)信息終端裝置顯示較長(zhǎng)的節(jié)目標(biāo)題, 其結(jié)果由于便覽性降低而使用戶看不清內(nèi)容。
并且,也可以是,所述專有表現(xiàn)抽取裝置,還包括專有表現(xiàn)模 式存儲(chǔ)單元,存儲(chǔ)多個(gè)專有表現(xiàn)模式;以及抽取順序存儲(chǔ)單元,針對(duì)
多個(gè)抽取條件的每個(gè)抽取條件,存儲(chǔ)由所述專有表現(xiàn)模式存儲(chǔ)單元存 儲(chǔ)的一個(gè)以上的專有表現(xiàn)模式的、用于抽取專有表現(xiàn)的順序,并且, 所述抽取順序設(shè)定單元,在被提供所述多個(gè)抽取條件中的一個(gè)抽取條 件后,針對(duì)被提供的抽取條件,將由所述抽取順序存儲(chǔ)單元存儲(chǔ)的專 有表現(xiàn)模式的順序設(shè)定為所述抽取順序。
并且,也可以是,所述專有表現(xiàn)抽取裝置,還包括專有表現(xiàn)模 式存儲(chǔ)單元,存儲(chǔ)多個(gè)專有表現(xiàn)模式;抽取順序存儲(chǔ)單元,存儲(chǔ)由所200580049664.6
說(shuō)明書第9/56頁(yè)
述專有表現(xiàn)模式存儲(chǔ)單元存儲(chǔ)的一個(gè)以上的專有表現(xiàn)模式的、用于抽
取專有表現(xiàn)的順序;以及抽取順序變更單元,按照抽取條件變更由所 述抽取順序存儲(chǔ)單元存儲(chǔ)的專有表現(xiàn)模式的順序,并且,所述抽取順 序設(shè)定單元,將變更后的專有表現(xiàn)模式的順序設(shè)定為所述抽取順序。
根據(jù)該結(jié)構(gòu),具體而言,通過(guò)使用多個(gè)抽取順序中的、按照抽取 條件的一個(gè)抽取順序,或按照抽取條件變更抽取順序,從而可以實(shí)現(xiàn) 本發(fā)明的特征,即,通過(guò)按照抽取條件使用不同的專有表現(xiàn)模式,從 而獲得不同的抽取結(jié)果。
并且,也可以是,所述專有表現(xiàn)抽取裝置,將識(shí)別用戶的用戶標(biāo) 識(shí)符作為抽取條件,進(jìn)一步包括用戶識(shí)別單元,獲得所述用戶標(biāo)識(shí) 符,并且,所述抽取順序存儲(chǔ)單元,針對(duì)多個(gè)用戶標(biāo)識(shí)符的每個(gè)用戶 標(biāo)識(shí)符,存儲(chǔ)由所述專有表現(xiàn)模式存儲(chǔ)單元存儲(chǔ)的、 一個(gè)以上的專有 表現(xiàn)模式的順序;所述抽取順序設(shè)定單元,針對(duì)獲得的用戶標(biāo)識(shí)符, 將由所述抽取順序存儲(chǔ)單元存儲(chǔ)的專有表現(xiàn)模式的順序設(shè)定為所述抽 取順序,并且,還可以是,所述專有表現(xiàn)抽取裝置,將顯示所抽取的 專有表現(xiàn)的終端裝置的終端標(biāo)識(shí)符作為抽取條件,進(jìn)一步包括終端 標(biāo)識(shí)符獲得單元,獲得所述終端標(biāo)識(shí)符,并且,所述抽取順序存儲(chǔ)單 元,針對(duì)多個(gè)終端標(biāo)識(shí)符的每個(gè)終端標(biāo)識(shí)符,存儲(chǔ)由所述專有表現(xiàn)模 式存儲(chǔ)單元存儲(chǔ)的、 一個(gè)以上的專有表現(xiàn)模式的順序;所述抽取順序
設(shè)定單元,針對(duì)獲得的終端標(biāo)識(shí)符,將由所述抽取順序存儲(chǔ)單元存儲(chǔ) 的專有表現(xiàn)模式的順序設(shè)定為所述抽取順序。
根據(jù)該結(jié)構(gòu),如上所述,可以抽取對(duì)每個(gè)用戶以及終端裝置合適
的專有表現(xiàn)。
并且,也可以是,所述專有表現(xiàn)抽取裝置,將輸入文本的屬性作 為抽取條件,進(jìn)一步包括屬性獲得單元,獲得所述輸入文本的屬性, 并且,所述抽取順序存儲(chǔ)單元,針對(duì)多個(gè)屬性的每個(gè)屬性,存儲(chǔ)由所
述專有表現(xiàn)模式存儲(chǔ)單元存儲(chǔ)的、 一個(gè)以上的專有表現(xiàn)模式的順序;
所述抽取順序設(shè)定單元,針對(duì)獲得的屬性,將由所述抽取順序存儲(chǔ)單 元存儲(chǔ)的專有表現(xiàn)模式的順序設(shè)定為所述抽取順序。
根據(jù)該結(jié)構(gòu),在按照所述輸入文本的屬性,從該輸入文本中可以 適當(dāng)?shù)爻槿S斜憩F(xiàn)的專有表現(xiàn)模式是不同的情況下,由于按照所獲 得的屬性,可以使用從該屬性的輸入文本中可以適當(dāng)?shù)爻槿S斜憩F(xiàn) 的、特有的專有表現(xiàn)模式,因此有用于提高專有表現(xiàn)的抽取精度。
例如,如上所述,在所述輸入文本表示構(gòu)成電子節(jié)目指南的情況 下,獲得作為所述輸入文本的屬性的、在該節(jié)目信息中包含的節(jié)目范 疇,按照所獲得的節(jié)目范疇,使用從該屬性的輸入文本中可以適當(dāng)?shù)?抽取專有表現(xiàn)的、特有的專有表現(xiàn)模式,從而可以獲得良好的抽取結(jié) 果。
并且,也可以是,所述專有表現(xiàn)抽取裝置,將輸入文本的數(shù)量作
為抽取條件,進(jìn)一步包括信息數(shù)據(jù)庫(kù),存儲(chǔ)多個(gè)文本;以及文本檢
索單元,從所述信息數(shù)據(jù)庫(kù)中檢索成為輸入文本的、 一個(gè)以上的文本, 并且,所述抽取順序存儲(chǔ)單元,針對(duì)示出輸入文本的數(shù)量的多個(gè)值的 每個(gè)值,存儲(chǔ)由所述專有表現(xiàn)模式存儲(chǔ)單元存儲(chǔ)的、 一個(gè)以上的專有
表現(xiàn)模式的順序;所述抽取順序設(shè)定單元,針對(duì)檢索到的文本的數(shù)量,
將由所述抽取順序存儲(chǔ)單元存儲(chǔ)的專有表現(xiàn)模式的順序設(shè)定為所述抽
取順序;所述專有表現(xiàn)抽取單元,以所述設(shè)定的抽取順序所示的順序, 使用專有表現(xiàn)模式,從所述檢索到的文本中抽取專有表現(xiàn)。
根據(jù)該結(jié)構(gòu),可以抽取具有按照輸入文本的數(shù)量的長(zhǎng)度的專有表 現(xiàn)。為了容易區(qū)別所抽取的專有表現(xiàn),最好是輸入文本越多要抽取的 專有表現(xiàn)越長(zhǎng),若根據(jù)該結(jié)構(gòu),則可以符合這些要求。
例如,如上所述,在所述輸入文本表示構(gòu)成電子節(jié)目指南,并且 從該輸入文本中抽取作為節(jié)目標(biāo)題的專有表現(xiàn)時(shí),若輸入文本的數(shù)量 少于預(yù)定的閾值則抽取只由本題構(gòu)成的專有表現(xiàn),若多于該閾值則抽 取由本題和副題構(gòu)成的專有表現(xiàn),則可以減少如下不方便,即,在存 在多個(gè)輸入文本的情況下,抽取只由本題構(gòu)成的多個(gè)同一專有表現(xiàn)因 此用戶不能區(qū)別它們。
并且,也可以是,所述專有表現(xiàn)抽取裝置,將所述輸入文本的數(shù) 量作為抽取條件,進(jìn)一步包括信息數(shù)據(jù)庫(kù),存儲(chǔ)多個(gè)文本;文本獲 得單元,從所述信息數(shù)據(jù)庫(kù)中獲得多個(gè)文本;顯示單元,顯示文本; 以及類似文本獲得單元,從由所述文本獲得單元獲得的多個(gè)文本中, 將由在所述顯示單元顯示時(shí)類似的多個(gè)文本作為所述輸入文本來(lái)獲 得,并且,所述抽取順序存儲(chǔ)單元,針對(duì)示出文本的數(shù)量的多個(gè)值的 每個(gè)值,存儲(chǔ)由所述專有表現(xiàn)模式存儲(chǔ)單元存儲(chǔ)的、 一個(gè)以上的專有 表現(xiàn)模式的順序;所述抽取順序設(shè)定單元,將針由所述類似文本獲得 單元獲得的文本的數(shù)量由所述抽取順序存儲(chǔ)單元存儲(chǔ)的專有表現(xiàn)模式 的順序設(shè)定為所述抽取順序;所述專有表現(xiàn)抽取單元,以所述設(shè)定的
抽取順序所示的順序,使用專有表現(xiàn)模式,從由所述類似文本獲得單 元獲得的文本中抽取專有表現(xiàn)。根據(jù)該結(jié)構(gòu),可以抽取具有按照輸入文本(特別是類^l的輸入文本) 的數(shù)量的長(zhǎng)度的專有表現(xiàn)。為了容易區(qū)別所抽取的專有表現(xiàn),最好是 類似的輸入文本越多要抽取的專有表現(xiàn)越長(zhǎng),若根據(jù)該結(jié)構(gòu),則可以 符合這些要求。并且,也可以是,所述專有表現(xiàn)抽取裝置,將專有表現(xiàn)過(guò)去被抽 取過(guò)的次數(shù)作為抽取條件,進(jìn)一步包括抽取次數(shù)計(jì)數(shù)單元,針對(duì)由 所述抽取順序存儲(chǔ)單元存儲(chǔ)的專有表現(xiàn)模式的每個(gè)專有表現(xiàn)模式,使 用該專有表現(xiàn)模式,計(jì)數(shù)專有表現(xiàn)過(guò)去被抽取過(guò)的次數(shù),并且,所述 抽取順序變更單元,按照所述計(jì)數(shù)到的數(shù)量變更由所述抽取順序存儲(chǔ) 單元存儲(chǔ)的專有表現(xiàn)模式的順序。根據(jù)該結(jié)構(gòu),通過(guò)變更抽取順序,從而對(duì)以后的抽取不使用未用 過(guò)抽取專有表現(xiàn)的專有表現(xiàn)模式,因此可以在減少用于抽取專有表現(xiàn) 的計(jì)算量的同時(shí),繼續(xù)進(jìn)行與到此為止的抽取相同的專有表現(xiàn)的抽取。并且,也可以是,所述抽取順序以如下順序表示多個(gè)專有表現(xiàn)模 式,根據(jù)該順序在依次使用多個(gè)專有表現(xiàn)模式的情況下,可以期待每 次使用時(shí)抽取更長(zhǎng)的專有表現(xiàn),所述專有表現(xiàn)抽取裝置,還包括抽 取中止單元,在抽取了長(zhǎng)度超過(guò)預(yù)定的閾值的專有表現(xiàn)的情況下,中 止使用隨后的專有表現(xiàn)模式進(jìn)行抽取。根據(jù)該結(jié)構(gòu),針對(duì)所述閾值,按照用戶、終端裝置等限制需要的 長(zhǎng)度,不抽取需要的長(zhǎng)度以上的專有表現(xiàn),從而可以在減少對(duì)抽取專 有表現(xiàn)的計(jì)算量的同時(shí),抽取需要的專有表i見。并且,本發(fā)明的專有表現(xiàn)抽取裝置,依次使用一個(gè)以上的專有表 現(xiàn)模式,從一個(gè)以上的輸入文本中抽取專有表現(xiàn),所述專有表現(xiàn)模式 示出在文本中包含的專有表現(xiàn)部分的判斷標(biāo)準(zhǔn),包括信息數(shù)據(jù)庫(kù), 存儲(chǔ)多個(gè)文本;文本獲得單元,從所述信息數(shù)據(jù)庫(kù)中獲得多個(gè)文本; 專有表現(xiàn)模式存儲(chǔ)單元,存儲(chǔ)多個(gè)專有表現(xiàn)模式;抽取順序存儲(chǔ)單元, 存儲(chǔ)由所述專有表現(xiàn)模式存儲(chǔ)單元存儲(chǔ)的一個(gè)以上的專有表現(xiàn)模式 的、用于抽取專有表現(xiàn)的多個(gè)順序;專有表現(xiàn)抽取單元,以所述抽取 順序存儲(chǔ)單元存儲(chǔ)的各個(gè)順序,使用專有表現(xiàn)模式,從由所述文本獲 得單元獲得的多個(gè)文本中抽取專有表現(xiàn),將按順序所抽取的專有表現(xiàn) 作為專有表現(xiàn)組;以及專有表現(xiàn)決定單元,按照由所述專有表現(xiàn)抽取 單元所得的每個(gè)專有表現(xiàn)組,算出類似專有表現(xiàn)數(shù),輸出類似專有表 現(xiàn)數(shù)最少的專有表現(xiàn)組,所述類似專有表現(xiàn)數(shù)即是在所述專有表現(xiàn)組 中包含的類似專有表現(xiàn)的數(shù)量。根據(jù)該結(jié)構(gòu),由于可以輸出所述多個(gè)專有表現(xiàn)組中的、類似專有 表現(xiàn)數(shù)最少的專有表現(xiàn)組,因此用戶可以獲得盡量不包含難以區(qū)別的 類似專有表現(xiàn)的最佳專有表現(xiàn)。并且,也可以是,所述專有表現(xiàn)抽取裝置,還包括顯示單元, 顯示文本,并且,所述專有表現(xiàn)決定單元,在按每個(gè)專有表現(xiàn)組算出 類似專有表現(xiàn)數(shù)時(shí),從專有表現(xiàn)中抽取可以在所述顯示單元顯示的字 符數(shù)的部分專有表現(xiàn),在所抽取的部分專有表現(xiàn)相互類似的情況下, 將類似的部分專有表現(xiàn)的數(shù)量作為類似專有表現(xiàn)數(shù)。 進(jìn)一步,根據(jù)該結(jié)構(gòu),通過(guò)考慮可以在顯示單元顯示的字符數(shù), 從而可以獲得盡量不包含類似專有表現(xiàn)的最佳專有表現(xiàn)。據(jù)此,例如, 在按照用于顯示所抽取的專有表現(xiàn)的字符數(shù)的不同靈活使用顯示格式 的情況下等,可以示出按照顯示格式的、可以認(rèn)為用戶最容易區(qū)別的 最佳專有表現(xiàn)。并且,本發(fā)明的專有表現(xiàn)抽取裝置,依次使用一個(gè)以上的專有表 現(xiàn)模式,從一個(gè)以上的輸入文本中抽取專有表現(xiàn),所述專有表現(xiàn)模式 示出在文本中包含的專有表現(xiàn)部分的判斷標(biāo)準(zhǔn),包括專有表現(xiàn)模式 存儲(chǔ)單元,存儲(chǔ)多個(gè)專有表現(xiàn)模式;抽取順序存儲(chǔ)單元,針對(duì)多個(gè)抽取條件的每個(gè)抽取條件,存儲(chǔ)由所述專有表現(xiàn)模式存儲(chǔ)單元存儲(chǔ)的一個(gè)以上的專有表現(xiàn)模式的、用于抽取專有表現(xiàn)的順序;專有表現(xiàn)抽取 單元,按照由所述抽取順序存儲(chǔ)單元存儲(chǔ)的順序,使用所述一個(gè)以上 的專有表現(xiàn)模式,從所述一個(gè)以上的輸入文本中抽取專有表現(xiàn);專有 表現(xiàn)存儲(chǔ)單元,將所述輸入文本、從該輸入文本中所抽取的專有表現(xiàn)、 以及在進(jìn)行了的該抽取的所述順序的階段對(duì)應(yīng)起來(lái)存儲(chǔ);顯示條件指 定單元,指定預(yù)定的階段,或按照用戶的操作指定在共通的階段所抽 取的一個(gè)以上的專有表現(xiàn);專有表現(xiàn)獲得單元,在由所述顯示條件指 定單元指定了預(yù)定的階段的情況下,從所述專有表現(xiàn)存儲(chǔ)單元中獲得 與所述所指定的階段對(duì)應(yīng)起來(lái)存儲(chǔ)的所有專有表現(xiàn),并且,在由所述 顯示條件指定單元指定了一個(gè)以上的專有表現(xiàn)的情況下,從所述專有 表現(xiàn)存儲(chǔ)單元中獲得如下專有表現(xiàn),即,針對(duì)與所述所指定的各個(gè)專 有表現(xiàn)相對(duì)應(yīng)的輸入文本、與所述共通的階段的下一個(gè)階段對(duì)應(yīng)起來(lái) 存儲(chǔ)的專有表現(xiàn);重復(fù)刪除單元,從由所述專有表現(xiàn)獲得單元獲得的 專有表現(xiàn)中刪除重復(fù)專有表現(xiàn);以及顯示單元,顯示由所述重復(fù)刪除 單元?jiǎng)h除重復(fù)專有表現(xiàn)后剩下的專有表現(xiàn)。根據(jù)該結(jié)構(gòu),可以按每個(gè)階段顯示所抽取的專有表現(xiàn),例如可以 以從簡(jiǎn)單的專有表現(xiàn)到復(fù)雜的專有表現(xiàn)的順序顯示所抽取的專有表 現(xiàn),因此便于用戶階段性地確認(rèn)所抽取的專有表現(xiàn)。并且,本發(fā)明不僅可以實(shí)現(xiàn)為這些專有表現(xiàn)抽取裝置,也可以實(shí) 現(xiàn)為將由這些專有表現(xiàn)抽取裝置具有的特征性單元執(zhí)行的處理作為步 驟的專有表現(xiàn)抽取方法,或可以實(shí)現(xiàn)為使計(jì)算機(jī)執(zhí)行這些步驟的程序。 而且,這些程序可以通過(guò)CD-ROM等存儲(chǔ)介質(zhì)或互聯(lián)網(wǎng)等傳輸介質(zhì)來(lái) 分發(fā)。(實(shí)施例1)以下,參照
本發(fā)明的實(shí)施例1涉及的專有表現(xiàn)抽取裝置。 圖1是本發(fā)明的實(shí)施例1涉及的專有表現(xiàn)抽取裝置的結(jié)構(gòu)圖。該專有 表現(xiàn)抽取裝置,按照抽取條件設(shè)定用于抽取的一個(gè)以上的專有表現(xiàn)模 式的使用順序,并且根據(jù)所設(shè)定的順序使用專有表現(xiàn)模式,從而從輸 入文本中抽取專有表現(xiàn),該專有表現(xiàn)抽取裝置包括輸入部101、抽取 順序存儲(chǔ)部102、抽取順序讀取部103、專有表現(xiàn)模式存儲(chǔ)部104、專 有表現(xiàn)抽取部105以及抽取結(jié)束判斷部106。在此,抽取順序讀取部103是抽取順序設(shè)定單元的一個(gè)例子。 輸入部101由鍵盤、鼠標(biāo)或遙控器等輸入裝置構(gòu)成,若用戶輸入 包含專有表現(xiàn)的文本,則輸出所輸入的文本以及值1,值1即是要處理 的抽取順序的初始值。并且,輸入部101也可以從數(shù)據(jù)庫(kù)中獲得向用戶示出的文本,并且輸出所獲得的文本以及值l,值l即是要處理的抽 取順序的初始值,上述數(shù)據(jù)庫(kù)存儲(chǔ)關(guān)于電視節(jié)目的信息、關(guān)于存儲(chǔ)在 硬盤刻錄器等的內(nèi)容的信息或存在于互聯(lián)網(wǎng)上的內(nèi)容。抽取順序存儲(chǔ)部102,將抽取順序與對(duì)應(yīng)抽取順序的專有表現(xiàn)模式 相對(duì)應(yīng)來(lái)存儲(chǔ)它們,還存儲(chǔ)抽取順序總數(shù),所述抽取順序即是存儲(chǔ)在 專有表現(xiàn)模式存儲(chǔ)部104的專有表現(xiàn)模式的使用順序,所述抽取順序 總數(shù)即是抽取順序的總數(shù)。圖2示出存儲(chǔ)在抽取順序存儲(chǔ)部102的抽 取順序的一個(gè)例子,作為(抽取順序總數(shù),(抽取順序,所使用的專有表 現(xiàn)模式名))存儲(chǔ)(3, (1,專有表現(xiàn)A模式),(2,專有表現(xiàn)B模式),(3, 專有表現(xiàn)C模式),……)。抽取順序讀取部103,若輸入文本以及抽取順序,則從抽取順序存 儲(chǔ)部102讀取與所輸入的抽取順序相對(duì)應(yīng)的專有表現(xiàn)模式名以及抽取 順序總數(shù),并且輸出所輸入的文本、抽取順序以及從抽取順序存儲(chǔ)部 102讀取的抽取順序總數(shù)和專有表現(xiàn)模式名。專有表現(xiàn)模式存儲(chǔ)部104存儲(chǔ)專有表現(xiàn)A模式104A,用于抽取 專有表現(xiàn)A;專有表現(xiàn)B模式104B,用于抽取專有表現(xiàn)B;以及專有 表現(xiàn)C模式104C,用于抽取專有表現(xiàn)C。例如,在節(jié)目名為"松上電 器創(chuàng)業(yè)記(松上電器創(chuàng)業(yè)記)(l)一誕生(誕生) 一"時(shí),在小標(biāo)題是相 當(dāng)于"松上電器創(chuàng)業(yè)記(松上電器創(chuàng)業(yè)記)"的文本、中標(biāo)題是相當(dāng)于向 小標(biāo)題追加次數(shù)的"松上電器創(chuàng)業(yè)記(松上電器創(chuàng)業(yè)記)(l))"的文本、 大標(biāo)題是相當(dāng)于節(jié)目名整體"松上電器創(chuàng)業(yè)記(松上電器創(chuàng)業(yè)記)(1)—誕生(誕生) 一"的文本的情況下,若專有表現(xiàn)A是小標(biāo)題、專有表 現(xiàn)B是中標(biāo)題、專有表現(xiàn)C是大標(biāo)題,則專有表現(xiàn)A模式104A成為 用于抽取小標(biāo)題的規(guī)則、專有表現(xiàn)B模式104B成為用于抽取中標(biāo)題的 規(guī)貝U、專有表現(xiàn)C模式104C成為用于抽取大標(biāo)題的規(guī)則。在此規(guī)則是 指,要抽取的字符串本身、或?qū)⒁槿〉淖址c此前后的字符串相 對(duì)應(yīng)而存儲(chǔ)的信息以及要抽取的字符串與此前后的字符串的連接概率 等。作為使用規(guī)則進(jìn)行抽取的具體例子說(shuō)明如下情況,即,從文本"[解 説]続木貴史、松下太郎([解說(shuō)]續(xù)木貴史,松下太郎)"中抽取專有表 現(xiàn)之一的人名"続木貴史(續(xù)木貴史)"。作為進(jìn)行這些抽取的方法有, 使用如圖3所示的存儲(chǔ)人名的人名表,將與在人名表中包含的人名完 全一致的字符串作為人名,從而從文本中抽取人名。再者,作為將要 抽取的字符串與此前后的字符串相對(duì)應(yīng)來(lái)存儲(chǔ)的方法的一個(gè)例子有, 使用如圖4所示的人名正規(guī)表現(xiàn)表,將與在人名正規(guī)表現(xiàn)表中包含的 模式一致的字符串作為人名,從而從文本中抽取人名,該人名正規(guī)表 現(xiàn)表存儲(chǔ)出現(xiàn)于人名的前后的字符串的模式。再者,作為要抽取的字 符串與此前后的連接概率的一個(gè)例子有,使用如圖5所示的人名概率表來(lái)計(jì)算精度(在上述文本中的人名為"続木貴史(續(xù)木貴史)"時(shí),前 面的字符串"]"的概率值"0.9"與后面的字符串","的概率值"0.2" 相加而精度為"U"),在精度為規(guī)定的閾值以上時(shí)從文本中抽取人名, 該人名概率表存儲(chǔ)出現(xiàn)人名的前后的字符串與人名的連接概率。如圖6所示,專有表現(xiàn)抽取部105,按照上述方法,并使用圖3
至圖5示例的用于抽取人名的規(guī)則(人名模式),從包含人名的文本"[解 説]続木貴史、松下太郎([解說(shuō)]續(xù)木貴史,松下太郎)"中抽取專有表 現(xiàn)的一個(gè)例子的人名"続木貴史(續(xù)木貴史)"。并且,雖然在上述具體例子中以字符串為對(duì)象進(jìn)行了說(shuō)明,但是 也可以是詞素、單詞以及專有表現(xiàn)抽取結(jié)果的專有表現(xiàn)標(biāo)簽,進(jìn)一步, 將字符串與詞素、單詞以及專有表現(xiàn)標(biāo)簽組合從而構(gòu)筑規(guī)則。并且,雖然在上述具體例子中,只以前后一個(gè)字符為對(duì)象構(gòu)筑了規(guī)則,但是 也可以以多個(gè)字符為對(duì)象構(gòu)筑規(guī)則。而且,以下將專有表現(xiàn)A模式104A、專有表現(xiàn)B模式104B、專 有表5見C模式104C分別總稱為專有表現(xiàn)模式。專有表現(xiàn)抽取部105,若從抽取順序讀取部103輸入文本、抽取順 序、抽取順序總數(shù)以及專有表現(xiàn)模式名,則從專有表現(xiàn)模式存儲(chǔ)部104 讀取與所輸入的專有表現(xiàn)模式名相對(duì)應(yīng)的專有表現(xiàn)模式,并且使用讀 取后的該專有表現(xiàn)模式,從所輸入的文本中抽取專有表現(xiàn)。并且,專 有表現(xiàn)抽取部105輸出包含抽取后的專有表現(xiàn)的文本以及從抽取順序 讀取部103輸入的抽取順序總數(shù)和抽取順序。抽取結(jié)束判斷部106,若從專有表現(xiàn)抽取部105輸入抽取順序總 數(shù)、抽取順序以及文本,在抽取順序小于抽取順序總數(shù)的情況下,向 抽取順序的值加上數(shù)值1,并且向抽取順序讀取部103輸出加上后的抽 取順序以及從專有表現(xiàn)抽取部105輸入的文本。并且,抽取結(jié)束判斷 部106,在抽取順序是抽取順序總數(shù)以上的情況下,將從專有表現(xiàn)抽取 部105輸入的文本作為結(jié)果文本,從而輸出結(jié)果文本,該結(jié)果文本即
是專有表現(xiàn)的抽取結(jié)果。對(duì)于如上所述構(gòu)成的本實(shí)施例涉及的專有表現(xiàn)抽取裝置的工作例子,參照?qǐng)D1的方框圖、圖7的流程圖以及圖8的示出抽取結(jié)果的一 個(gè)具體例子的圖進(jìn)行說(shuō)明。用戶從輸入部101輸入包含專有表現(xiàn)的文 本(步驟S101)。輸入部101,若輸入包含專有表現(xiàn)的文本,則向抽取順 序讀取部103輸出所輸入的文本以及值1,值1即是要處理的抽取順序 的初始值(步驟S102)。作為一個(gè)具體例子,若用戶從輸入部101輸入 作為節(jié)目名的文本"松上電器創(chuàng)業(yè)記(松上電器創(chuàng)業(yè)記)(l)一誕生(誕 生) 一",則輸入部101向抽取順序讀取部103輸出所輸入的文本"松 上電器創(chuàng)業(yè)記(松上電器創(chuàng)業(yè)記)(1)—誕生(誕生) 一"以及值l,值l即 是抽取順序的初始值。抽取順序讀取部103,若從輸入部101輸入文本以及抽取順序,則 從抽取順序存儲(chǔ)部102讀取與所輸入的抽取順序相對(duì)應(yīng)的專有表現(xiàn)模 式名以及抽取順序總數(shù)(步驟S103),并且輸出所輸入的文本、抽取順 序以及從抽取順序存儲(chǔ)部102讀取的抽取順序總數(shù)和專有表現(xiàn)模式名。 在上述例子中,抽取順序讀取部103,若從輸入部101輸入文本"松上 電器創(chuàng)業(yè)記(松上電器創(chuàng)業(yè)記)(1)—誕生(誕生) 一"以及抽取順序的值 1,則從抽取順序存儲(chǔ)部102讀取與所輸入的抽取順序的值1相對(duì)應(yīng)的 專有表現(xiàn)模式名"專有表現(xiàn)A模式"以及抽取順序總數(shù)的值3,并且 向?qū)S斜憩F(xiàn)抽取部105輸出所輸入的"松上電器創(chuàng)業(yè)記(松上電器創(chuàng)業(yè) 記)(l)一誕生(誕生) 一"、抽取順序的值l、抽取順序總數(shù)的值3以及 專有表現(xiàn)模式名"專有表現(xiàn)A模式"。
專有表現(xiàn)抽取部105,若從抽取順序讀取部103輸入文本、抽取順 序、抽取順序總數(shù)以及專有表現(xiàn)模式名,則從專有表現(xiàn)模式存儲(chǔ)部104 讀取與所輸入的專有表現(xiàn)模式名相對(duì)應(yīng)的專有表現(xiàn)模式(步驟S104), 使用讀取后的該專有表現(xiàn)模式從所輸入的文本中抽取專有表現(xiàn)(步驟 S105)。并且,專有表現(xiàn)抽取部105輸出包含抽取后的專有表現(xiàn)的文本 以及從抽取順序讀取部103輸入的抽取順序總數(shù)和抽取順序。在上述例子中,專有表現(xiàn)抽取部105,若從抽取順序讀取部103 輸入文本"松上電器創(chuàng)業(yè)記(松上電器創(chuàng)業(yè)記)(l)一誕生(誕生)—"、抽 取順序的值1、抽取順序總數(shù)的值3以及專有表現(xiàn)模式名"專有表現(xiàn)A 模式",則從專有表現(xiàn)模式存儲(chǔ)部104讀取與專有表現(xiàn)模式名"專有表 現(xiàn)A模式"相對(duì)應(yīng)的專有表現(xiàn)模式"專有表現(xiàn)A模式",使用讀取后 的專有表現(xiàn)模式"專有表現(xiàn)A模式"從所輸入的文本"松上電器創(chuàng)業(yè) 記(松上電器創(chuàng)業(yè)記)(l)一誕生(誕生)"中抽取專有表現(xiàn)。在此情況下,由于專有表現(xiàn)模式"專有表現(xiàn)A模式"是抽取小標(biāo) 題的模式,因此文本"松上電器創(chuàng)業(yè)記(松上電器創(chuàng)業(yè)記)(l)一誕生(誕 生) 一"的一部分的文本"松上電器創(chuàng)業(yè)記(松上電器創(chuàng)業(yè)記)"作為"小 標(biāo)題"的專有表現(xiàn)被抽取。在此,作為一個(gè)例子,像"<小標(biāo)題>松上 電器創(chuàng)業(yè)記(松上電器創(chuàng)業(yè)記)</小標(biāo)題>(1) 一誕生(誕生)一"那樣,用 "<專有表現(xiàn)的種類>"和"</專有表現(xiàn)的種類〉"將被抽取的專有表現(xiàn)括 起來(lái)。并且,專有表現(xiàn)抽取部105,向抽取結(jié)束判斷106輸出包含抽取 后的專有表現(xiàn)的文本"<小標(biāo)題>松上電器創(chuàng)業(yè)記(松上電器創(chuàng)業(yè)記)</ 小標(biāo)題>(1) 一誕生(誕生) 一"、抽取順序總數(shù)的值3以及抽取順序的
值l(圖8的抽取結(jié)果(第一次))。抽取結(jié)束判斷部106,若從專有表現(xiàn)抽取部105輸入抽取順序總 數(shù)、抽取順序以及文本,在抽取順序小于抽取順序總數(shù)的情況下(步驟 S106),向抽取順序的值加上數(shù)值l(步驟S107),并且向抽取順序讀取 部103輸出加上后的抽取順序以及從專有表現(xiàn)抽取部105輸入的文本。 并且,抽取結(jié)束判斷部106,在抽取順序是抽取順序總數(shù)以上的情況下 (步驟S106),將從專有表現(xiàn)抽取部105輸入的文本作為結(jié)果文本輸出, 該結(jié)果文本即是專有表現(xiàn)抽取結(jié)果。在上述例子中,抽取結(jié)束判斷部106,從專有表現(xiàn)抽取部105輸入 抽取順序總數(shù)的值3、抽取順序的值1以及文本"<小標(biāo)題>松上電器 創(chuàng)業(yè)記(松上電器創(chuàng)業(yè)記)</小標(biāo)題>(1) 一誕生(誕生)—",由于抽取順 序的值1小于抽取順序總數(shù)的值3,因此向抽取順序的值1加上數(shù)值1, 從而將值成為2,并且向抽取順序讀取部103輸出抽取順序的值2以及 "<小標(biāo)題>松上電器創(chuàng)業(yè)記(松上電器創(chuàng)業(yè)記)</小標(biāo)題>(1) 一誕生(誕 生)一"。其次,在抽取順序讀取部103、專有表現(xiàn)抽取部105進(jìn)行與上述相 同的處理,抽取結(jié)束判斷部106,從專有表現(xiàn)抽取部105輸入抽取順序 總數(shù)的值3、抽取順序的值2以及文本"<中標(biāo)題><小標(biāo)題〉松上電器 創(chuàng)業(yè)記(松上電器創(chuàng)業(yè)記)</小標(biāo)題>(1)</中標(biāo)題>—誕生(誕生) 一",但 由于抽取順序的值2小于抽取順序總數(shù)的值3,因此向抽取順序的值2 加上數(shù)值l,從而將值成為3,并且向抽取順序讀取部103輸出抽取順 序的值3以及文本""<中標(biāo)題〉<小標(biāo)題>松上電器創(chuàng)業(yè)記(松上電器創(chuàng) 業(yè)記)</小標(biāo)題>(1)</中標(biāo)題>一誕生(誕生) 一"(圖8的抽取結(jié)果(第二 次))。進(jìn)一步,其次,在抽取順序讀取部103、專有表現(xiàn)抽取部105進(jìn)行 與上述相同的處理,抽取結(jié)束判斷部106,從專有表現(xiàn)抽取部105輸入 抽取順序總數(shù)的值3、抽取順序的值3以及文本"<大標(biāo)題><中標(biāo)題>< 小標(biāo)題>松上電器創(chuàng)業(yè)記(松上電器創(chuàng)業(yè)記)</小標(biāo)題>(1)</中標(biāo)題>— 誕生(誕生)一</大標(biāo)題>",由于抽取順序總的值3是抽取順序總數(shù)的 值3以上,因此將文本"<大標(biāo)題〉<中標(biāo)題><小標(biāo)題>松上電器創(chuàng)業(yè)記 (松上電器創(chuàng)業(yè)記)</小標(biāo)題〉(1)</中標(biāo)題〉—誕生(誕生)一</大標(biāo)題>" 作為結(jié)果文本輸出,該結(jié)果文本即是專有表現(xiàn)抽取結(jié)果(圖8的抽取結(jié) 果(第三次))。而且,在上述例子中,抽取順序存儲(chǔ)部102,存儲(chǔ)一組抽取順序總 數(shù)、抽取順序以及與抽取順序相對(duì)應(yīng)的專有表現(xiàn)模式名,但也可以是, 抽取順序存儲(chǔ)部102,使一組抽取順序總數(shù)、抽取順序以及專有表現(xiàn)模 式名與用于識(shí)別用戶的用戶標(biāo)識(shí)符相對(duì)應(yīng)來(lái)存儲(chǔ)它們,抽取順序讀取 部103,若從輸入部101輸入文本以及抽取順序、還輸入用戶標(biāo)識(shí)符, 則將一組與所輸入的用戶標(biāo)識(shí)符相對(duì)應(yīng)的抽取順序總數(shù)、抽取順序以 及專有表現(xiàn)模式名作為對(duì)象,從抽取順序存儲(chǔ)部102讀取與所輸入的 抽取順序相對(duì)應(yīng)的專有表現(xiàn)模式名以及抽取順序總數(shù),并且,輸出所 輸入的文本、抽取順序、用戶標(biāo)識(shí)符以及從抽取順序存儲(chǔ)部102讀取 的抽取順序總數(shù)和專有表現(xiàn)模式名。在此,輸入部101是用戶識(shí)別單元的一個(gè)例子。
在此情況下,專有表現(xiàn)抽取部105以及抽取結(jié)束判斷部106,除了 進(jìn)行上述實(shí)施例中的工作以外還進(jìn)行如下工作,即,將由抽取順序讀 取部103輸出的用戶標(biāo)識(shí)符直接輸出。作為一個(gè)具體例子,假設(shè),抽 取順序存儲(chǔ)部102作為一組(用戶標(biāo)識(shí)符,抽取順序總數(shù),(抽取順序, 專有表現(xiàn)模式名))存儲(chǔ)(Ol, 3, (1,專有表現(xiàn)A模式),(2,專有表現(xiàn)B 模式),(3,專有表現(xiàn)C模式),……),(02, 2, (1,專有表現(xiàn)I模式), (2,專有表現(xiàn)J模式),(3,專有表現(xiàn)K模式),……),……,。圖9示 出在此情況下的抽取順序存儲(chǔ)部102的內(nèi)容。再者,抽取順序讀取部 103,若從輸入部101輸入用戶標(biāo)識(shí)符"01"、文本"松上電器創(chuàng)業(yè)記(松 上電器創(chuàng)業(yè)記)(1)—誕生(誕生) 一"以及抽取順序的值l,則將與所輸 入的用戶標(biāo)識(shí)符"01"相對(duì)應(yīng)的一組(用戶標(biāo)識(shí)符,抽取順序總數(shù),(抽 取順序,專有表現(xiàn)模式名)的(Ol, 3, (1,專有表現(xiàn)A模式),(2,專有 表現(xiàn)B模式),(3,專有表現(xiàn)C模式),……)作為對(duì)象,從抽取順序存 儲(chǔ)部102讀取與所輸入的抽取順序的值1相對(duì)應(yīng)的專有表現(xiàn)模式名"專 有表現(xiàn)A模式"以及抽取順序總數(shù)的值3,并且,向?qū)S斜憩F(xiàn)抽取部 105輸出所輸入的文本"松上電器創(chuàng)業(yè)記(松上電器創(chuàng)業(yè)記)(l)一誕生 (誕生) 一"、抽取順序的值l、用戶標(biāo)識(shí)符"01"、抽取順序總數(shù)的值3 以及專有表現(xiàn)模式名"專有表現(xiàn)A模式"。以后,專有表現(xiàn)抽取部105 以及抽取結(jié)束判斷部106,除了進(jìn)行上述實(shí)施例中的工作以外還進(jìn)行如 下工作,即,輸出用戶標(biāo)識(shí)符"01"。據(jù)此,可以按照用戶變更專有表 現(xiàn)的抽取順序以及要抽取的專有表現(xiàn),也可以抽取適應(yīng)用戶的專有表 現(xiàn)。其次,參照?qǐng)D10說(shuō)明抽取順序存儲(chǔ)部102的變形例。 也可以是,抽取順序存儲(chǔ)部102將抽取順序總數(shù)、抽取順序以及 與抽取順序相對(duì)應(yīng)的專有表現(xiàn)模式名作為一組,保存多個(gè)該組,向每 個(gè)組給予與要抽取的專有表現(xiàn)的種類相對(duì)應(yīng)的組ID來(lái)管理,抽取順序 讀取部103,若從輸入部101輸入組ID、文本以及抽取順序,則將一 組與所輸入的組ID相對(duì)應(yīng)的抽取順序總數(shù)、抽取順序以及專有表現(xiàn)模 式名作為對(duì)象,從抽取順序存儲(chǔ)部102讀取與所輸入的抽取順序相對(duì) 應(yīng)的專有表現(xiàn)模式名、抽取順序總數(shù),并且,輸出所輸入的文本、抽 取順序、組ID以及從抽取順序存儲(chǔ)部102讀取的抽取順序總數(shù)和專有 表現(xiàn)模式名。在此情況下,組ID作為示出抽取條件的信息起作用,抽取順序讀 取部103,通過(guò)上述讀取工作,將與組ID相對(duì)應(yīng)的、按照順序存儲(chǔ)在 抽取順序存儲(chǔ)部102的專有表現(xiàn)模式,設(shè)定為用于抽取的一個(gè)以上的 專有表現(xiàn)模式以及此使用順序。而且,專有表現(xiàn)抽取部105以及抽取 結(jié)束判斷部106,除了進(jìn)行上述實(shí)施例中的工作以外還進(jìn)行如下工作, 即,將由抽取順序讀取部103輸出的組ID直接輸出。作為一個(gè)具體例子,假設(shè),抽取順序存儲(chǔ)部102作為一組(組ID, 抽取順序總數(shù),(抽取順序,專有表現(xiàn)模式名))存儲(chǔ)(Ol, 3, (1,專有表 現(xiàn)A模式),(2,專有表現(xiàn)B模式),(3,專有表現(xiàn)C模式),……),(02, 2, (1,專有表現(xiàn)I模式),(2,專有表現(xiàn)J模式),……),……,。圖IO 示出在此情況下的抽取順序存儲(chǔ)部102的內(nèi)容。再者,抽取順序讀取 部103,若從輸入部101輸入的與用戶ID"01"相對(duì)應(yīng)的一組(用戶ID,
抽取順序總數(shù),(抽取順序,專有表現(xiàn)模式名)的(Ol, 3, (1,專有表現(xiàn) A模式),(2,專有表現(xiàn)B模式),(3,專有表現(xiàn)C模式, ))作為對(duì)象,從抽取順序存儲(chǔ)部102讀取與所輸入的抽取順序的值1相對(duì)應(yīng)的 專有表現(xiàn)模式名"專有表現(xiàn)A模式"以及抽取順序總數(shù)的值3,并且, 向?qū)S斜憩F(xiàn)抽取部105輸出所輸入的文本"松上電器創(chuàng)業(yè)記(松上電器 創(chuàng)業(yè)記)(l)一誕生(誕生)—"、抽取順序的值l、組ID"01"、抽取順序 總數(shù)的值3以及專有表現(xiàn)模式名"專有表現(xiàn)A模式"。以后,專有表現(xiàn) 抽取部105以及抽取結(jié)束判斷部106,除了進(jìn)行上述實(shí)施例中的工作以 外還進(jìn)行如下工作,即,輸出組ID"01"。據(jù)此,在上述實(shí)施例中,用戶可以通過(guò)指定組ID"01"來(lái)從輸入文 本中抽取關(guān)于節(jié)目名的文本,再者,作為一個(gè)例子,若專有表現(xiàn)I模式 是用于抽取人名的姓的規(guī)則、專有表現(xiàn)J模式是用于抽取人名的名字 的規(guī)則、專有表現(xiàn)K模式是用于抽取人名的姓名的規(guī)則,則用戶可以 通過(guò)指定組ID"02"來(lái)從輸入文本中抽取關(guān)于人名的文本。g口,用戶可 以指定希望抽取的專有表現(xiàn)。并且,上述組ID對(duì)應(yīng)要抽取的專有表現(xiàn)的種類,但是,通過(guò)將組 ID作為用于識(shí)別顯示要抽取的專有表現(xiàn)的終端的終端標(biāo)識(shí)符、并且使 輸入部101可以獲得用于識(shí)別顯示專有表^l的終端的終端標(biāo)識(shí)符,從 而可以抽取對(duì)應(yīng)終端的專有表現(xiàn)。在此情況下,輸入部101是終端標(biāo) 識(shí)符獲得單元的一個(gè)例子。據(jù)此,例如,即使在節(jié)目名的專有表現(xiàn)是對(duì)電視機(jī)有用的、不過(guò) 對(duì)CD播放器沒(méi)用的情況下等,即,在根據(jù)顯示終端的不同有用的專
有表現(xiàn)也不同的情況下,也可以按照每個(gè)顯示終端設(shè)定要抽取的專有 表現(xiàn),因此不需要顯示對(duì)顯示終端冗長(zhǎng)的信息。其次,參照?qǐng)D11至圖14說(shuō)明作為抽取條件使用輸入文本數(shù)的例子。在此情況下也可以是,如圖11所示,專有表現(xiàn)抽取裝置的結(jié)構(gòu)為 將用戶從輸入部101輸入的文本作為檢索關(guān)鍵詞,來(lái)檢索存儲(chǔ)信息的 信息數(shù)據(jù)庫(kù)306,對(duì)檢索后的文本進(jìn)行專有表現(xiàn)抽取,信息數(shù)據(jù)庫(kù)306 存儲(chǔ)的信息是關(guān)于電視節(jié)目的信息、關(guān)于存儲(chǔ)在硬盤刻錄器等的內(nèi)容 的信息或關(guān)于存在于互聯(lián)網(wǎng)上的內(nèi)容的文本信息,并且,抽取順序存 儲(chǔ)部102包括使用模式數(shù)據(jù)庫(kù)301以及抽取順序數(shù)據(jù)庫(kù)302,該使用 模式數(shù)據(jù)庫(kù)301,存儲(chǔ)抽取順序以及與抽取順序相對(duì)應(yīng)的專有表現(xiàn)模式 名;該抽取順序數(shù)據(jù)庫(kù)302,將文本數(shù)和抽取順序總數(shù)相對(duì)應(yīng)來(lái)存儲(chǔ)它 們,該文本數(shù)是在信息數(shù)據(jù)庫(kù)存在包含用戶從輸入部101輸入的文本 的一部分的文本的情況下的文本數(shù),并且,抽取順序讀取部103還包 括文本檢索部303、順序總數(shù)獲得部304以及使用模式獲得部305, 文本檢索部303,若從輸入部101輸入文本以及抽取順序的初始值,則 從信息數(shù)據(jù)庫(kù)306獲得包含輸入文本的一部分的文本,向順序總數(shù)獲 得部304輸出檢索結(jié)果文本以及抽取順序,順序總數(shù)獲得部304,若從 文本檢索部303輸入檢索結(jié)果文本以及抽取順序,則從抽取順序存儲(chǔ) 部102的抽取順序數(shù)據(jù)庫(kù)302獲得與所輸入的檢索結(jié)果文本的文本數(shù) 相對(duì)應(yīng)的抽取順序總數(shù),向使用模式獲得部305輸出要獲得的抽取順 序總數(shù)、檢索結(jié)果文本以及抽取順序,使用模式獲得部305,若從順序 總數(shù)獲得部304輸入檢索結(jié)果文本、抽取順序以及抽取順序總數(shù),則 從抽取順序存儲(chǔ)部102的使用模式數(shù)據(jù)庫(kù)302獲得與所輸入的抽取順 序相對(duì)應(yīng)的專有表現(xiàn)模式名,向?qū)S斜憩F(xiàn)抽取部105輸出要獲得的專 有表現(xiàn)模式名、檢索結(jié)果文本、抽取順序總數(shù)以及抽取順序。在此情況下,在圖11示出抽取順序存儲(chǔ)部102和抽取順序讀取部 103的方框圖,在圖12示出抽取順序存儲(chǔ)部102和抽取順序讀取部103 的流程圖,對(duì)工作例子進(jìn)行說(shuō)明。并且,在圖13示出使用模式數(shù)據(jù)庫(kù) 301的內(nèi)容的一個(gè)例子,作為(抽取順序,專有表現(xiàn)模式名)存儲(chǔ)((l,專 有表現(xiàn)A模式),(2,固專有表現(xiàn)B模式),(3,專有表現(xiàn)C模式),……)。 在圖14示出抽取順序數(shù)據(jù)庫(kù)302的內(nèi)容的一個(gè)例子,作為(文本數(shù),抽 取順序總數(shù))存儲(chǔ)((l以下,1), (2以上5以下,2), (6以上,3))。在上述實(shí)施例中,文本檢索部303,若從輸入部101輸入文本"松 上電器創(chuàng)業(yè)記"以及抽取順序的初始值1(步驟S201),則從信息數(shù)據(jù)庫(kù) 獲得包含輸入文本的文本"松上電器創(chuàng)業(yè)記(松上電器創(chuàng)業(yè)記)(1) _誕 生(誕生) 一"、"松上電器創(chuàng)業(yè)記(松上電器創(chuàng)業(yè)記)(2)-発展(發(fā)展) 一"(步驟S202),向順序總數(shù)獲得部304輸出該檢索結(jié)果文本"松上電 器創(chuàng)業(yè)記(松上電器創(chuàng)業(yè)記)(1)一誕生(誕生)一"、"松上電器創(chuàng)業(yè)記(松 上電器創(chuàng)業(yè)記)(2)—発展撥展)一"以及抽取順序的值1。順序總數(shù)獲得 部304,若從文本檢索部303輸入檢索結(jié)果文本"松上電器創(chuàng)業(yè)記(松 上電器創(chuàng)業(yè)記)(l)一誕生(誕生)—"、"松上電器創(chuàng)業(yè)記(松上電器創(chuàng)業(yè). 記)(2)—発展(發(fā)展)—"以及抽取順序的值l,則從抽取順序存儲(chǔ)部102 的抽取順序數(shù)據(jù)庫(kù)302獲得與所輸入的檢索結(jié)果文本的文本數(shù)2相對(duì)
應(yīng)的抽取順序總數(shù)2(步驟S203),向使用模式獲得部305輸出抽取順序 總數(shù)2、檢索結(jié)果文本以及抽取順序的值l。使用模式獲得部305,若 從順序總數(shù)獲得部304輸入檢索結(jié)果文本、抽取順序總數(shù)以及抽取順 序,則抽取順序存儲(chǔ)部102的使用模式數(shù)據(jù)庫(kù)301獲得與所輸入的抽 取順序的值1相對(duì)應(yīng)的專有表現(xiàn)模式名"專有表現(xiàn)A模式"(步驟S204), 向?qū)S斜憩F(xiàn)抽取部105輸出該專有表現(xiàn)模式名"專有表現(xiàn)A模式"、檢 索結(jié)果文本、抽取順序總數(shù)2以及抽取順序的值1。在抽取順序的值未滿抽取順序總數(shù)期間反復(fù)上述處理的結(jié)果是, 結(jié)果文本是"<中標(biāo)題〉<小標(biāo)題>松上電器創(chuàng)業(yè)記(松上電器創(chuàng)業(yè)記)</ 小標(biāo)題>(1)<沖標(biāo)題>—誕生(誕生)一"、"<中標(biāo)題><小標(biāo)題〉松上電器 創(chuàng)業(yè)記(松上電器創(chuàng)業(yè)記)</小標(biāo)題〉(2)</中標(biāo)題〉—発展(發(fā)展)—"。并且,在上述實(shí)施例中,從輸入部101輸入被檢索的文本"松上 電器創(chuàng)業(yè)記(松上電器創(chuàng)業(yè)記)",不過(guò)也可以是,在信息數(shù)據(jù)庫(kù)306中 包含的信息由電子節(jié)目表信息或音樂(lè)信息等內(nèi)容(節(jié)目或音樂(lè))的標(biāo)題、 種類、時(shí)間長(zhǎng)短、出場(chǎng)演員等構(gòu)成的情況下,從輸入部101輸入種類, 文本檢索部303將與被輸入的種類相對(duì)應(yīng)的標(biāo)題作為從信息數(shù)據(jù)庫(kù) 306檢索的檢索結(jié)果文本。其次,參照?qǐng)D15到圖18說(shuō)明存在多個(gè)使用模式數(shù)據(jù)庫(kù)的情況。 在此情況下,為了將使用模式數(shù)據(jù)庫(kù)與抽取順序數(shù)據(jù)庫(kù)相對(duì)應(yīng),由與 要抽取的專有表現(xiàn)的種類相對(duì)應(yīng)的共通的ID來(lái)管理它們。在圖15、圖 16中分別示出由組ID相對(duì)應(yīng)的使用模式數(shù)據(jù)庫(kù)以及抽取順序數(shù)據(jù)庫(kù), 組ID即是共通的ID。在此情況下,組ID作為抽取條件與輸入文本數(shù)
一起被使用,從輸入部101還輸入組ID,抽取順序讀取部103參照與 從輸入部101輸入的組ID相對(duì)應(yīng)的使用模式數(shù)據(jù)庫(kù)以及抽取順序數(shù)據(jù) 庫(kù)獲得抽取順序總數(shù)以及專有表現(xiàn)模式名。如上所述,通過(guò)這些獲得 工作,抽取順序讀取部103,將與組ID相對(duì)應(yīng)的、在抽取順序存儲(chǔ)部 102依次存儲(chǔ)的專有表現(xiàn)模式,設(shè)定為用于抽取的一個(gè)以上的專有表現(xiàn) 模式以及其使用順序。并且,在上述實(shí)施例中從輸入部101輸入組ID,不過(guò)也可以是, 在抽取順序數(shù)據(jù)庫(kù)302也存儲(chǔ)與文本數(shù)相對(duì)應(yīng)的組ID,抽取順序讀取 部103從抽取順序數(shù)據(jù)庫(kù)302獲得與檢索結(jié)果文本數(shù)相對(duì)應(yīng)的抽取順 序總數(shù)以及組ID,再者,參照與組ID相對(duì)應(yīng)的使用模式數(shù)據(jù)庫(kù)獲得專 有表現(xiàn)模式。通過(guò)這些獲得工作,抽取順序讀取部103,將與檢索結(jié)果文本數(shù)相 對(duì)應(yīng)的、在抽取順序存儲(chǔ)部102依次存儲(chǔ)的專有表現(xiàn)模式,設(shè)定為用 于抽取的一個(gè)以上的專有表現(xiàn)模式以及其使用順序。圖25示出該情況 下的抽取順序數(shù)據(jù)庫(kù)302的一個(gè)例子。再者,在抽取順序讀取部103中,根據(jù)由文本檢索部303檢索的 檢索結(jié)果文本數(shù)設(shè)定用于抽取的專有表現(xiàn)模式以及使用順序,不過(guò)也 可以是,在本發(fā)明還包括顯示部的情況下,文本檢索部303從所檢索 的檢索結(jié)果文本中抽取可以在顯示部顯示的字符數(shù)的文本,將所抽取 的多個(gè)文本相類似的檢索結(jié)果文本作為類似文本群組,向順序總數(shù)獲 得部304輸出類似文本群組,從而,根據(jù)顯示時(shí)類似的文本數(shù)設(shè)定用 于抽取的專有表現(xiàn)模式和使用順序。
圖26是這些變形涉及的專有表現(xiàn)抽取裝置的結(jié)構(gòu)圖。該專有表現(xiàn) 抽取裝置,向圖11所示的專有表現(xiàn)抽取裝置追加類4以文本獲得部308 以及顯示部309。在此,作為一個(gè)具體例子考慮以下情況,即,在文本檢索部303 中,從輸入部101輸入種類"卜'* - 乂 >夕U —(紀(jì)實(shí))",從信息數(shù)據(jù) 庫(kù)306檢索文本"卜'今工J >夕'J 一(紀(jì)實(shí)) 一松上電器o歴史(松上 電器的歷史)一"、"人間卜'*工^ ^卜(人文紀(jì)實(shí))松下o足跡(松下的 歷程)(l))"、"人間卜'* - ^ >卜(人文紀(jì)實(shí))松下o足跡(松下的歷程) (2))",而且在顯示部309可以按一個(gè)專有表現(xiàn)顯示的字符數(shù)為八個(gè)文 字。在此情況下,類似文本獲得部308從所檢索的文本中抽取開頭八 個(gè)字符的文本"卜'* - 乂 >夕'J 一(紀(jì)實(shí))"、"人間卜'* - 乂 >卜(人文 紀(jì)實(shí))"、"人間卜'*工^ >卜(人文紀(jì)實(shí))"并進(jìn)行類似判斷,將判斷為 相同文本的與"人間卜'々工乂 >卜(人文紀(jì)實(shí))"相對(duì)應(yīng)的文本"人間K *工^ >卜(人文紀(jì)實(shí))松下o足跡(松下的歷程)(l))"、"人間卜'*工 乂 >卜(人文紀(jì)實(shí))松下O足跡(松下的歷程)(2))"作為類似文本群輸 出到順序總數(shù)獲得部304,將判斷為不類似的文本的與"卜'々- 乂 >夕 'J 一(紀(jì)實(shí))"相對(duì)應(yīng)的文本"F * - 乂 >夕y —(紀(jì)實(shí))一松上電器O 歴史(松上電器的歷史)一"作為結(jié)果文本輸出到顯示部309。然后,順序總數(shù)獲得部304,參照?qǐng)D25的抽取順序數(shù)據(jù)庫(kù)302獲 得抽取順序總數(shù)2以及組ID的值02,使用模式獲得部305,參照?qǐng)D15 的使用模式數(shù)據(jù)庫(kù)301,在抽取順序?yàn)?的情況下獲得專有表現(xiàn)I模式, 在抽取順序?yàn)?的情況下獲得專有表現(xiàn)J模式。在此,例如,若使用 專有表現(xiàn)I模式,將相當(dāng)于副題的部分作為小標(biāo)題,從節(jié)目名的文本中 抽取小標(biāo)題,若使用專有表現(xiàn)J模式,將副題和連接于副題的次數(shù)合 并的部分作為中標(biāo)題,從節(jié)目名的文本中抽取中標(biāo)題。此結(jié)果是,最 后,從文本"人間卜'年- ^ >卜(人文紀(jì)實(shí))松下o足跡(松下的歷程) (l))"、"人間K * - ^ >卜(人文紀(jì)實(shí))松下O足跡(松下的歷程)(2))" 中分別抽取作為結(jié)果文本的結(jié)果文本"松下O足跡(松下的歷程)(l))"、 "松下o足跡(松下的歷程)(2))"。并且,說(shuō)明了,在判斷類似文本時(shí),類似文本獲得部308將同一 文本作為類似文本,不過(guò)也可以是,若是顯示字符數(shù)的規(guī)定的比率的 字符數(shù)以上的字符串,則判斷為類似文件。例如,顯示字符數(shù)是十個(gè) 字符、規(guī)定的比率是八成時(shí),若八個(gè)字符以上的字符串相同,則判斷 為類似文本。于是,由類似文本獲得部308判斷為類似文本群以外的檢索結(jié)果 文本直接在顯示部309被顯示,對(duì)于類似文本群,可以在顯示部309 顯示用戶識(shí)別文本時(shí)需要的最少的專有表現(xiàn),因此,在顯示部顯示檢 索結(jié)果文本時(shí),可以抽取考慮到在顯示部可以顯示的字符數(shù)的、用戶 識(shí)別文本時(shí)需要的最少的專有表現(xiàn)。據(jù)此,在檢索文本中包含同一字符串的情況下,可以抽取用戶識(shí) 別文本時(shí)需要的最少的專有表現(xiàn),因此可以不抽取對(duì)用戶冗長(zhǎng)的字符 串。并且,在本發(fā)明中,若對(duì)與在學(xué)習(xí)專有表現(xiàn)模式時(shí)所用的文本不 同的格式的文本進(jìn)行處理,則降低專有表現(xiàn)的抽取性能,因此可以是,取代上述組ID由表示格式名或文本的種類的文本屬性來(lái)進(jìn)行管理,作 為一個(gè)例子,在文件是IT方面的文件的情況下屬性"IT文件"來(lái)進(jìn)行 管理、在文件是電視節(jié)目信息的文本的情況下,屬性"電視節(jié)目信息"、 "關(guān)于電視劇的文件"或"節(jié)目名"來(lái)進(jìn)行管理,此時(shí),在除了由用 戶輸入的文本屬性以外還在文本給予文本屬性的情況下,輸入部101 作為獲得在此文本給予的文本屬性的屬性獲得部起作用,抽取順序讀 取部103從抽取順序存儲(chǔ)部102讀取與由輸入部101獲得的文本屬性 相對(duì)應(yīng)的專有表現(xiàn)模式以及抽取順序總數(shù)。在此情況下的輸入部101 是屬性獲得單元的一個(gè)例子,圖17是抽取順序存儲(chǔ)部102的內(nèi)容。此文本屬性,不僅可以示出"IT文本"、"電視節(jié)目信息"等分類, 也可以示出"電視劇"、"報(bào)道節(jié)目"以及"娛樂(lè)節(jié)目"等的電視節(jié)目 的范疇。由于電視節(jié)目的范疇是在構(gòu)成電視節(jié)目指南的節(jié)目信息中包 含的,因此輸入部101可以從構(gòu)成電視節(jié)目指南的節(jié)目信息中獲得該 范疇。并且,在文本沒(méi)有給予文本屬性的情況下也可以,通過(guò)算出用在 文本中包含的單詞所生成的單詞矢量和表現(xiàn)文本屬性的單詞矢量來(lái)估 計(jì)文本屬性,從抽取順序存儲(chǔ)部102讀取與該文本屬性相對(duì)應(yīng)的專有 表現(xiàn)模式名以及抽取順序總數(shù)。據(jù)此,可以提高抽取專有表現(xiàn)時(shí)的抽 取性能,而且,在向抽取專有表現(xiàn)的對(duì)象文本給予文本屬性的情況下, 用戶不需要指定文本屬性。并且也可以是,取代所述組ID使用終端標(biāo)識(shí)符,該終端標(biāo)識(shí)符用
于識(shí)別顯示結(jié)果文本的終端名以及終端,該結(jié)果文本是專有表現(xiàn)被抽取的文本。在此情況下,圖18示出抽取順序存儲(chǔ)部102的內(nèi)容。據(jù)此, 按照顯示結(jié)果文本的每個(gè)終端可以設(shè)定要抽取的專有表現(xiàn)。其次,參照?qǐng)D19到圖24說(shuō)明將過(guò)去被抽取過(guò)專有表現(xiàn)的次數(shù)作 為抽取條件使用的例子。此情況下的專有表現(xiàn)抽取裝置的結(jié)構(gòu)是,如圖19所示,在抽取結(jié) 束判斷部106中包含的抽取順序變更部204按照抽取條件變更抽取順 序;抽取順序讀取部103,在不能讀取與從抽取結(jié)束判斷部106輸入的抽取順序相對(duì)應(yīng)的專有表現(xiàn)模式名的情況下,as輸出作為抽取結(jié)束標(biāo)記的值l,在可以讀取專有表現(xiàn)模式名的情況下,輸出作為抽取結(jié)束標(biāo) 記的值O;專有表現(xiàn)抽取部105,在所輸入的抽取結(jié)束標(biāo)記是值1的情 況下,在可以抽取與從專有表現(xiàn)模式存儲(chǔ)部104讀取的專有表現(xiàn)模式 相對(duì)應(yīng)的專有表現(xiàn)時(shí),進(jìn)一步輸出作為抽取標(biāo)記的值1以及抽取結(jié)束 標(biāo)記的值l,在不能抽取專有表現(xiàn)時(shí),輸出作為抽取標(biāo)記的值O以及抽 取結(jié)束標(biāo)記的值l,在所輸入的抽取結(jié)束標(biāo)記是值O的情況下,不進(jìn)行 任何處理而輸出作為抽取標(biāo)記的值0以及抽取結(jié)束標(biāo)記的值0;而且, 抽取結(jié)束判斷部106包括判斷部201、抽取次數(shù)存儲(chǔ)部202、抽取順 序更新部203以及抽取順序變更部204;判斷部201,若從專有表現(xiàn)抽 取部105輸入抽取結(jié)束標(biāo)記、抽取順序總數(shù)、抽取順序以及文本,在 抽取結(jié)束標(biāo)記是值O的情況下,向抽取順序的值加上數(shù)值l,向抽取順 序讀取部103輸出加上后的抽取順序以及從專有表現(xiàn)抽取部105輸入 的文本,進(jìn)一步,此時(shí),在抽取順序等于抽取順序總數(shù)時(shí),將從專有
表現(xiàn)抽取部105輸入的文本作為結(jié)果文本輸出,該結(jié)果文本即是抽取 專有表現(xiàn)的結(jié)果,在抽取結(jié)束標(biāo)記是值1的情況下,向抽取順序變更 部204輸出抽取結(jié)束標(biāo)記的值1。并且,抽取次數(shù)存儲(chǔ)部202存儲(chǔ)抽取 順序以及抽取次數(shù),該抽取順序即是抽取專有表 a的順序,該抽取次 數(shù)即是以此抽取順序抽取專有表現(xiàn)的的次數(shù);抽取順序更新部203,若 從專有表現(xiàn)抽取部105輸入抽取標(biāo)記、抽取順序總數(shù)以及抽取順序, 在所輸入的抽取標(biāo)記是值1的情況下,更新與所輸入的抽取順序相對(duì) 應(yīng)的、在抽取次數(shù)存儲(chǔ)部202存儲(chǔ)的抽取次數(shù);抽取順序變更部204 也可以,在從判斷部201輸入抽取結(jié)束標(biāo)記的值1的情況下,在抽取 次數(shù)存儲(chǔ)部202的抽取次數(shù)的總數(shù)是一定的值以上時(shí),根據(jù)在抽取次 數(shù)存儲(chǔ)部202存儲(chǔ)的、與抽取順序相對(duì)應(yīng)的抽取次數(shù)變更抽取順序存 儲(chǔ)部102的抽取順序。在此,抽取順序更新部203以及抽取次數(shù)存儲(chǔ)部202是抽取次數(shù) 計(jì)數(shù)單元的一個(gè)例子,使用各個(gè)專有表現(xiàn)模式來(lái)計(jì)數(shù)專有表現(xiàn)過(guò)去被 抽取過(guò)的次數(shù)。在此,參照?qǐng)D19所示的抽取結(jié)束判斷部106的結(jié)構(gòu)圖以及圖20 所示的流程圖說(shuō)明工作例子。在上述實(shí)施例中,判斷部201,若從專有 表現(xiàn)抽取部105輸入抽取順序總數(shù)的值3、抽取順序的值1、文本"< 小標(biāo)題>松上電器創(chuàng)業(yè)記(松上電器創(chuàng)業(yè)記)</小標(biāo)題〉(1)—誕生(誕生) —"以及抽取結(jié)束標(biāo)記的值O(步驟S301),由于抽取結(jié)束標(biāo)記是值O(步 驟S309),因此向抽取順序的值l加上數(shù)值l,從而將抽取順序的值成 為2(步驟S303),向抽取順序讀取部103輸出抽取順序的值2以及文本
"<小標(biāo)題>松上電器創(chuàng)業(yè)記(松上電器創(chuàng)業(yè)記)</小標(biāo)題〉(1)—誕生(誕生)一"(步驟S304)。而且,判斷部201,若從專有表現(xiàn)抽取部105輸入抽取順序總數(shù)的 值3、抽取順序的值3、文本"<大標(biāo)題><中標(biāo)題><小標(biāo)題>松上電器創(chuàng)業(yè)記(松上電器創(chuàng)業(yè)記)</小標(biāo)題>(1)</中標(biāo)題>—誕生(誕生)一</大標(biāo) 題〉"以及抽取結(jié)束標(biāo)記的值0,由于抽取順序的值3等于抽取順序總數(shù) 的值3(步驟S302),將輸入文本"<大標(biāo)題><中標(biāo)題><小標(biāo)題〉松上電 器創(chuàng)業(yè)記(松上電器創(chuàng)業(yè)記)</小標(biāo)題〉(1)<沖標(biāo)題〉一誕生(誕生)一</ 大標(biāo)題>"作為結(jié)果文本輸出,該結(jié)果文本即是抽取專有表現(xiàn)的結(jié)果(步 S310),由于抽取結(jié)束標(biāo)記是值O(步驟S309),因此向抽取順序的值3 加上數(shù)值l,從而將抽取順序的值成為4(步驟S303),向抽取順序讀取 部103輸出抽取順序的值4以及文本"<大標(biāo)題><中標(biāo)題〉<小標(biāo)題>松 上電器創(chuàng)業(yè)記(松上電器創(chuàng)業(yè)記)</小標(biāo)題>(1)</中標(biāo)題〉_誕生(誕生) 一</大標(biāo)題>"(步驟S304)。并且,從抽取結(jié)束判斷部106向抽取順序讀取部103輸入抽取順 序的值5時(shí),若不能讀取與抽取順序的值5相對(duì)應(yīng)的專有表現(xiàn)模式名, 抽取順序讀取部103向?qū)S斜憩F(xiàn)抽取部105輸出抽取結(jié)束標(biāo)記的值1、 抽取順序總數(shù)的值3、抽取順序的值5以及文本"<大標(biāo)題><中標(biāo)題>< 小標(biāo)題>松上電器創(chuàng)業(yè)記(松上電器創(chuàng)業(yè)記)</小標(biāo)題〉(1)<沖標(biāo)題〉—誕 生(誕生)一</大標(biāo)題>"。然后,判斷部201,若從專有表現(xiàn)抽取部105 輸入抽取順序總數(shù)的值3、抽取順序的值5、文本"<大標(biāo)題〉<中標(biāo)題 〉<小標(biāo)題>松上電器創(chuàng)業(yè)記(松上電器創(chuàng)業(yè)記)</小標(biāo)題〉(1)</中標(biāo)題>一
誕生(誕生)一</大標(biāo)題>"以及抽取結(jié)束標(biāo)記的值l(步驟S301),由于 抽取結(jié)束標(biāo)記是值l(步驟S309),因此向抽取順序變更部204輸出抽取 結(jié)束標(biāo)記的值1(步驟S311)。并且,抽取次數(shù)存儲(chǔ)部202存儲(chǔ)抽取順序 以及抽取次數(shù),該抽取順序即是抽取專有表現(xiàn)的順序,該抽取次數(shù)即 是以此抽取順序抽取專有表現(xiàn)的的次數(shù)。并且,圖21示出在抽取次數(shù)存儲(chǔ)部202存儲(chǔ)的抽取順序以及與抽 取順序相對(duì)應(yīng)的抽取次數(shù)的一個(gè)例子,作為(抽取順序,抽取次數(shù))存儲(chǔ) ((l, 9), (2, 6), (3, 3), (4, l))。即,意味著抽取了小標(biāo)題9次、中 標(biāo)題6次、大標(biāo)題3次、全標(biāo)題1次。在上述實(shí)施例中,抽取順序更 新部203,若從專有表現(xiàn)抽取部105輸入文本、抽取標(biāo)記的值l、抽取 順序總數(shù)的值3、抽取順序的值1以及抽取結(jié)束標(biāo)記的值O(步驟S301), 由于所輸入的抽取標(biāo)記是值l(步驟S305),因此向與抽取順序的值1相 對(duì)應(yīng)的、在抽取次數(shù)存儲(chǔ)部202存儲(chǔ)的抽取次數(shù)的值9加上1,從而將 抽取次數(shù)的值成為IO(步驟S306)。同樣,由于在以后的處理中針對(duì)中 標(biāo)題、大標(biāo)題也抽取了專有表現(xiàn),因此將與抽取順序的值2以及值3 相對(duì)應(yīng)的、在在抽取次數(shù)存儲(chǔ)部202存儲(chǔ)的各個(gè)抽取次數(shù)的值6以及 值3更新為值7以及值4。圖22示出由抽取順序更新部203更新后的抽取次數(shù)存儲(chǔ)部202的 內(nèi)容。抽取順序變更部204,若從判斷部201輸入抽取結(jié)束標(biāo)記的值1, 由于抽取次數(shù)存儲(chǔ)部202的抽取次數(shù)的總數(shù)成為特定的值(例如,值20) 以上(步驟S307),因此將與存儲(chǔ)在抽取次數(shù)存儲(chǔ)部202的特定的值(例 如,值5)以上的抽取次數(shù)相對(duì)應(yīng)的、抽取順序的值2作為抽取順序存
儲(chǔ)部102的抽取順序總數(shù)(步驟S308)。圖23示出由抽取順序變更部204變更后的抽取順序存儲(chǔ)部102的 內(nèi)容。據(jù)此,可以使用從用戶的輸入文本中抽取專有表現(xiàn)的履歷來(lái)變 更抽取順序總數(shù),并且,使用變更后的抽取順序總數(shù)來(lái)針對(duì)從信息數(shù) 據(jù)庫(kù)中檢索到的檢索結(jié)果文本抽取專有表現(xiàn),此結(jié)果是,由于使從檢 索結(jié)果文本中抽取的專有表現(xiàn)的形式與用戶的輸入頻度高的專有表現(xiàn) 的形式相同,因此可以不抽取對(duì)用戶冗長(zhǎng)的專有表現(xiàn),或自然可以只 抽取用戶識(shí)別文本時(shí)需要的專有表現(xiàn)。并且,如上述實(shí)施例,在抽取 順序存儲(chǔ)部102中,將抽取順序總數(shù)、抽取順序以及與抽取順序相對(duì) 應(yīng)的專有表現(xiàn)模式名作為一組,保持多個(gè)該組,在向每個(gè)組給予用戶 標(biāo)識(shí)符或組ID來(lái)管理的情況下,抽取次數(shù)存儲(chǔ)部202,通過(guò)按每個(gè)用 戶標(biāo)識(shí)符或組ID管理抽取順序和抽取次數(shù)的組從而可以處理。圖24示出在按每個(gè)用戶標(biāo)識(shí)符來(lái)管理抽取順序和抽取次數(shù)的組的 情況下的抽取順序存儲(chǔ)部102的內(nèi)容。并且,抽取結(jié)束判斷部106根據(jù)抽取順序總數(shù)以及抽取順序判斷 是否繼續(xù)進(jìn)行專有表現(xiàn)抽取處理,不過(guò)也可以,根據(jù)所抽取的專有表 現(xiàn)的字符數(shù)來(lái)判斷。作為一個(gè)具體例子,專有表現(xiàn)抽取部105除了進(jìn) 行上述實(shí)施例中的工作以外還進(jìn)行如下工作,即,向抽取結(jié)束判斷部 106輸出所抽取的專有表現(xiàn)的字符數(shù);抽取結(jié)束判斷部106,若從專有 表現(xiàn)抽取部105輸入抽取順序、所抽取的專有表現(xiàn)的字符數(shù)以及文本, 在專有表現(xiàn)的字符數(shù)小于特定的字符數(shù)的情況下,向抽取順序的值加 上數(shù)值1,向抽取順序讀取部103輸出加上后的抽取順序以及從專有表 現(xiàn)抽取部105輸入的文本,并且,在專有表現(xiàn)的字符數(shù)是特定的字符 數(shù)以上的情況下,將從專有表現(xiàn)抽取部105輸入的文本作為結(jié)果文本 輸出,該結(jié)果文本是抽取專有表現(xiàn)的結(jié)果。在此,抽取結(jié)束判斷部106是抽取中止單元的一個(gè)例子,在抽取 長(zhǎng)度超過(guò)預(yù)定的閾值的專有表現(xiàn)的情況下,中止使用以后的專有表現(xiàn) 模式進(jìn)行的抽取。在上述實(shí)施例中,抽取結(jié)束判斷部106,若從專有表現(xiàn)抽取部105 輸入抽取順序的值1、專有表現(xiàn)被抽取的文本"<小標(biāo)題〉松上電器創(chuàng) 業(yè)記(松上電器創(chuàng)業(yè)記)</小標(biāo)題>(1) 一誕生(誕生)一"以及要抽取的專 有表現(xiàn)"松上電器創(chuàng)業(yè)記(松上電器創(chuàng)業(yè)記)"的字符數(shù)7,由于專有表 現(xiàn)的字符數(shù)7小于特定的字符數(shù)(在此,例如,字符數(shù)是8),因此將抽 取順序的值成為2,向抽取順序讀取部103輸出抽取順序的值2以及文 本"<小標(biāo)題〉松上電器創(chuàng)業(yè)記(松上電器創(chuàng)業(yè)記)</小標(biāo)題>(1)—誕生 (誕生)_"。然后,抽取結(jié)束判斷部106,進(jìn)一步,若從專有表現(xiàn)抽取 部105輸入抽取順序的值2、專有表現(xiàn)被抽取的文本"<中標(biāo)題〉<小標(biāo) 題>松上電器創(chuàng)業(yè)記(松上電器創(chuàng)業(yè)記)</小標(biāo)題〉(1)</中標(biāo)題〉—誕生 (誕生)一"以及要抽取的專有表現(xiàn)"松上電器創(chuàng)業(yè)記(松上電器創(chuàng)業(yè)記)" 的字符數(shù)9,由于專有表現(xiàn)的字符數(shù)9是特定的字符數(shù)8以上,因此將 文本"<中標(biāo)題〉<小標(biāo)題>松上電器創(chuàng)業(yè)記(松上電器創(chuàng)業(yè)記)</小標(biāo)題 >(1)</中標(biāo)題〉一誕生(誕生)一"作為結(jié)果文本輸出。據(jù)此,在已經(jīng)決 定在顯示部可以顯示的字符數(shù)的上限的情況下等,通過(guò)將可以顯示的 字符數(shù)作為抽取結(jié)束判斷部106的閾值字符數(shù),從而不需要抽取不能 顯示的專有表現(xiàn),并且可以減少專有表現(xiàn)抽取的處理量。并且,上述實(shí)施例的專有表現(xiàn)抽取裝置,還可以包括變更部,該變更部可以由用戶變更在抽取順序存儲(chǔ)部102存儲(chǔ)的抽取順序總數(shù)、 抽取順序以及專有表現(xiàn)模式名。據(jù)此,用戶可以變更所抽取的專有表 現(xiàn)。如上所述,根據(jù)本實(shí)施例,通過(guò)設(shè)定專有表現(xiàn)的抽取順序,從而 可以只抽取對(duì)用戶、應(yīng)用程序以及終端所需要的專有表現(xiàn)。并且,對(duì) 于聲音識(shí)別裝置,由于可以減少作為聲音識(shí)別的對(duì)象的專有表現(xiàn),因 此可以提高聲音識(shí)別的識(shí)別性能,所述聲音識(shí)別裝置將從專有表現(xiàn)抽 取裝置抽取的專有表現(xiàn)作為聲音識(shí)別的對(duì)象詞匯。并且,對(duì)于檢索裝 置,由于可以減少檢索對(duì)象的關(guān)鍵詞,因此可以提檢索精確度,所述 檢索裝置將從專有表現(xiàn)抽取裝置抽取的專有表現(xiàn)作為檢索對(duì)象的關(guān)鍵 詞,并將該專有表現(xiàn)與檢索對(duì)象數(shù)據(jù)一起存儲(chǔ)到檢索對(duì)象數(shù)據(jù)庫(kù)。 (實(shí)施例2)其次,參照
本發(fā)明的實(shí)施例2涉及的專有表現(xiàn)抽取裝置。 圖27是本發(fā)明的實(shí)施例2的專有表現(xiàn)抽取裝置的結(jié)構(gòu)圖。在此, 由于與實(shí)施例1相同的符號(hào)的結(jié)構(gòu)要素進(jìn)行與實(shí)施例1相同的工作, 因此省略這些詳細(xì)說(shuō)明。本實(shí)施例的專有表現(xiàn)抽取裝置是一種裝置, 用于在檢索結(jié)果的文本中包含相同的字符串的情況下抽取用戶識(shí)別文 本時(shí)需要的最少的專有表現(xiàn),如圖27所示,所述專有表現(xiàn)抽取裝置包 括輸入部101、抽取順序存儲(chǔ)部102、專有表現(xiàn)模式存儲(chǔ)部104、專 有表現(xiàn)抽取部105、文本檢索部303、使用模式獲得部305、信息數(shù)據(jù)
庫(kù)306、使用模式數(shù)據(jù)庫(kù)401、抽取順序數(shù)據(jù)庫(kù)402、順序總數(shù)獲得部 403、抽取結(jié)束判斷部404以及專有表現(xiàn)決定部405。使用模式數(shù)據(jù)庫(kù)401與抽取順序數(shù)據(jù)庫(kù)402,通過(guò)作為共通ID的 組ID來(lái)相對(duì)應(yīng),使用模式數(shù)據(jù)庫(kù)401按每個(gè)組ID存儲(chǔ)抽取順序以及 與抽取順序相對(duì)應(yīng)的專有表現(xiàn)模式名,抽取順序數(shù)據(jù)庫(kù)402按每個(gè)組 ID存儲(chǔ)抽取順序總數(shù)。圖15示出使用模式數(shù)據(jù)庫(kù)401的一個(gè)例子,圖 28示出抽取順序數(shù)據(jù)庫(kù)402的內(nèi)容的一個(gè)例子。順序總數(shù)獲得部403,在從文本檢索部303輸入檢索結(jié)果文本以及 抽取順序的情況下,從抽取順序數(shù)據(jù)庫(kù)402獲得最小的組ID、與該組 ID相對(duì)應(yīng)的抽取順序總數(shù)以及組ID的最大值,向使用模式獲得部305 輸出檢索結(jié)果文本、抽取順序、組ID、抽取順序總數(shù)以及組ID的最大 值。而且,在從抽取結(jié)束判斷部404輸入抽取順序、組ID、抽取順序 總數(shù)以及組ID的最大值的情況下,將抽取順序設(shè)定為l,向所輸入的 組ID加上l,從抽取順序數(shù)據(jù)庫(kù)獲得與加上后的組ID相對(duì)應(yīng)的抽取順 序總數(shù),向使用模式獲得部305輸出檢索結(jié)果文本、抽取順序、組ID、 抽取順序總數(shù)以及組ID的最大值。抽取結(jié)束判斷部404,若從專有表現(xiàn)抽取部105輸入文本、抽取順 序、組ID、抽取順序總數(shù)以及組ID的最大值,向抽取順序加上l,在 加上后的抽取順序大于抽取順序總數(shù)的情況下,向?qū)S斜憩F(xiàn)決定部405 輸出組ID、組ID的最大值以及文本,在組ID未滿組ID的最大值時(shí), 向順序總數(shù)獲得部403輸出抽取順序、抽取順序總數(shù)、組ID以及組ID 的最大值,并且,在加上后的抽取順序是抽取順序總數(shù)以下的情況下,向使用模式獲得部305輸出文本、抽取順序、組ID、抽取順序總數(shù)以 及組ID的最大值。專有表現(xiàn)決定部405,若從抽取結(jié)束判斷部404輸入組ID、組ID 的最大值以及文本,存儲(chǔ)與組ID相對(duì)應(yīng)的、同時(shí)輸入的多個(gè)文本中抽 取的專有表現(xiàn),進(jìn)一步,在組ID等于組ID的最大值的情況下,針對(duì) 與每個(gè)組ID相對(duì)應(yīng)的、所存儲(chǔ)的專有表現(xiàn),算出類似的專有表現(xiàn)數(shù), 將所算出的類似專有表現(xiàn)數(shù)最少的、與組ID相對(duì)應(yīng)的專有表現(xiàn)作為結(jié) 果文本輸出。對(duì)于如此構(gòu)成的本實(shí)施例涉及的專有表現(xiàn)抽取裝置,說(shuō)明抽取專 有表現(xiàn)時(shí)的工作例子。圖29是示出抽取專有表現(xiàn)時(shí)的工作例子的順序 的流程圖。將在信息數(shù)據(jù)庫(kù)306中包含的信息作為電子節(jié)目信息,文本檢索 部303,若從輸入部101輸入種類"卜'* - ^ >夕'J 一(紀(jì)實(shí))"以及抽 取順序的初始值l(步驟S401),從信息數(shù)據(jù)庫(kù)306獲得與種類"卜'*工 ^ >夕" 一(紀(jì)實(shí))"相對(duì)應(yīng)的節(jié)目名的文本"卜'*工^ >夕" 一(紀(jì) 實(shí))(l)—松上電器o誕生(松上電器的誕生)一"、"卜'* 二 ^ >夕'J — 銜實(shí))(2)—松上電器O発展(松上電器的發(fā)展)-"、"人間卜1工乂 > 卜(人文紀(jì)實(shí))松下太郎O足跡(松下太郎的歷程)(l)"、"人間卜'年- ^ >卜(人文紀(jì)實(shí))松下太郎o足跡(松下太郎的歷程)(2)"(步驟S402),向 順序總數(shù)獲得部403輸出該檢索結(jié)果文本"卜'々- 乂 >夕U —(紀(jì)實(shí))(l) —松上電器O誕生(松上電器的誕生)一,,、"卜'* - 乂 >夕U —(紀(jì)實(shí))(2)—松上電器O発展(松上電器的發(fā)展)一"、人間卜'*工^ >卜(人文紀(jì) 實(shí))松下太郎。足跡(松下太郎的歷程)(1)"、"人間卜'* - ^ >卜(人文紀(jì)實(shí))松下太郎0足跡(松下太郎的歷程)(2)"以及抽取順序1。順序總數(shù)獲得部403,若從文本檢索部303輸入檢索結(jié)果文本"K 鄴工^ >夕y 一(紀(jì)實(shí))(1) 一松上電器O誕生(松上電器的誕生)一"、"卜'今- ^ >夕'J 一(紀(jì)實(shí))(2)—松上電器o発展(松上電器的發(fā)展) —"、人間卜'々- 乂 >卜(人文紀(jì)實(shí))松下太郎O足跡(松下太郎的歷 程)(1)"、"人間卜'* - > >卜(人文紀(jì)實(shí))松下太郎o足跡(松下太郎的 歷程)(2)"以及抽取順序的值1,從圖28所示的抽取順序數(shù)據(jù)庫(kù)402獲 得最小的組ID的值1、與該組ID相對(duì)應(yīng)的抽取順序總數(shù)的值2以及組 ID的最大值2(步驟S403),向使用模式獲得部305輸出文本"卜'* -少 > 夕'J 一(紀(jì)實(shí))(l) 一松上電器。誕生(松上電器的誕生)一"、"卜'* 工乂 >夕'J 一(紀(jì)實(shí))(2) —松上電器o発展(松上電器的發(fā)展)一"、人 間卜'々- j >卜(人文紀(jì)實(shí))松下太郎o足跡(松下太郎的歷程)(l)"、"人間卜'* - ^ >卜(人文紀(jì)實(shí))松下太郎o足跡(松下太郎的歷程) (2)"、抽取順序l、組ID的值1、抽取順序總數(shù)2以及組ID的最大值 2。與實(shí)施例l相同,使用模式獲得部305,若從順序總數(shù)獲得部403 輸入文本、抽取順序總數(shù)、抽取順序、組ID以及組ID的最大值,從 圖15的使用模式數(shù)據(jù)庫(kù)401獲得與所輸入的組ID以及抽取順序的值1 相對(duì)應(yīng)的專有表現(xiàn)模式名"專有表現(xiàn)A模式"(步驟S404),向?qū)S斜?現(xiàn)抽取部105輸出該專有表現(xiàn)模式名"專有表現(xiàn)A模式"、輸入文本、 抽取順序總數(shù)、抽取順序、組ID、組ID的最大值以及文本"卜'并工^ >夕'J 一(紀(jì)實(shí))(l) 一松上電器o誕生(松上電器的誕生)一,,、"卜*々-乂 >夕'J 一(紀(jì)實(shí))(2) —松上電器O発展(松上電器的發(fā)展)一"、人間 卜'*工乂 >卜(人文紀(jì)實(shí))松下太郎O足跡(松下太郎的歷程)(l)"、"人 間卜'*工^ >卜(人文紀(jì)實(shí))松下太郎0足跡(松下太郎的歷程)(2)"。與實(shí)施例1相同,專有表現(xiàn)抽取部105,使用所輸入的專有表現(xiàn)模 式名"專有表現(xiàn)A模式"來(lái)從文本"卜'々- 乂 >夕U —(紀(jì)實(shí))(l) 一松 上電器O誕生(松上電器的誕生)一,,、"卜'* - ^ >夕U —(紀(jì)實(shí))(2)— 松上電器O発展(松上電器的發(fā)展)一"、人間卜'* - 乂 >卜(人文紀(jì)實(shí))松下太郎O足跡(松下太郎的歷程)(l)"、"人間卜、工^ >卜(人文紀(jì)實(shí)) 松下太郎O足跡(松下太郎的歷程)(2)"中抽取小標(biāo)題的專有表現(xiàn)即文 本"卜'今- 乂 >夕y —(紀(jì)實(shí))"、"卜'* - ^ >夕U —(紀(jì)實(shí))"、"人間卜'年" > 卜(人文紀(jì)實(shí))"、"人間卜'""卜(人文紀(jì)實(shí))"(步驟S406), 向抽取結(jié)束判斷部404輸出專有表現(xiàn)被抽取的文本"<小標(biāo)題〉卜'* -^ >夕'J 一(紀(jì)實(shí))</小標(biāo)題〉(1) 一松上電器o誕生(松上電器的誕生) —,,、"<小標(biāo)題> 卜'* - ^ >夕U —(紀(jì)實(shí))</小標(biāo)題>(2) —松上電器O発 展(松上電器的發(fā)展)一"、"<小標(biāo)題>人間卜1 - 乂 >卜(人文紀(jì)實(shí))</小 標(biāo)題>松下太郎0足跡(松下太郎的歷程)(1)"、"<小標(biāo)題>人間卜'* - 乂 >卜(人文紀(jì)實(shí))</小標(biāo)題>松下太郎0足跡(松下太郎的歷程)(2)"、抽取 順序總數(shù)、抽取順序、組ID以及組ID的最大值。抽取結(jié)束判斷部404,向所輸入的抽取順序的值加上l,從而將抽 取順序的值成為2(步驟S407),由于加上后的抽取順序的值2是抽取順
序總數(shù)2以下(步驟S408),因此向使用模式獲得部305輸出所輸入的 文本"<小標(biāo)題> 卜'*工^ >夕'J 一(紀(jì)實(shí))</小標(biāo)題>(1) 一松上電器O誕生(松上電器的誕生)一"、"<小標(biāo)題〉卜1工^ >夕U —(紀(jì)實(shí))々小標(biāo)題 >(2)—松上電器O発展(松上電器的發(fā)展)一"、"<小標(biāo)題>人間卜'矢-^ >卜(人文紀(jì)實(shí))</小標(biāo)題>松下太郎0足跡(松下太郎的歷程)(1)"、"< 小標(biāo)題>人間卜'* - > >卜(人文紀(jì)實(shí))々小標(biāo)題〉松下太郎0足跡(松下 太郎的歷程)(2)"、抽取順序總數(shù)2、抽取順序2、組ID的值1以及組 ID的最大值2。然后,與上述相同,使用模式獲得部305獲得專有表現(xiàn)模式名"專 有表現(xiàn)B模式",專有表現(xiàn)抽取部105使用專有表現(xiàn)模式名"專有表現(xiàn) B模式"來(lái)從文本中抽取專有表現(xiàn)后,專有表現(xiàn)抽取部105向抽取結(jié) 束判斷部404輸出文本"<中標(biāo)題〉<小標(biāo)題〉卜'々- ^ >夕U —(紀(jì)實(shí))</ 小標(biāo)題>(1)</中標(biāo)題>—松上電器o誕生(松上電器的誕生)—,,、"<中標(biāo) 題x小標(biāo)題〉卜'* - 乂 >夕U —(紀(jì)實(shí))</小標(biāo)題〉(2)</中標(biāo)題>—松上電 器O発展(松上電器的發(fā)展)一"、"<小標(biāo)題>人間K *工^ >卜(人文紀(jì)實(shí))</小標(biāo)題>松下太郎0足跡(松下太郎的歷程)(l)"、"<小標(biāo)題>人間 K * - ^ >卜(人文紀(jì)實(shí))</小標(biāo)題>松下太郎0足跡(松下太郎的歷程) (2)"、抽取順序總數(shù)2、抽取順序2、組ID的值1以及組ID的最大值抽取結(jié)束判斷部404,向所輸入的抽取順序的值加上l,從而將抽 取順序的值成為3(步驟S407),由于加上后的抽取順序的值3大于抽取 順序總數(shù)2(步驟S408),因此向?qū)S斜憩F(xiàn)決定部405輸出組ID的值1 、
組ID的最大值2以及"<中標(biāo)題〉<小標(biāo)題> 卜'々- 乂 >夕'乂 一(紀(jì)實(shí))</ 小標(biāo)題>(1)</中標(biāo)題>一松上電器^誕生(松上電器的誕生)一"、"<中標(biāo) 題><小標(biāo)題> 卜'* - ^ >夕II 一(紀(jì)實(shí))</小標(biāo)題>(2)</中標(biāo)題〉一松上電 器O発展(松上電器的發(fā)展)一"、"<小標(biāo)題〉人間卜'* 二 ^ >卜(人文 紀(jì)實(shí))</小標(biāo)題>松下太郎^足跡(松下太郎的歷程)(l)"、"<小標(biāo)題>人 間F々- ^ >卜(人文紀(jì)實(shí))々小標(biāo)題〉松下太郎0足跡(松下太郎的歷 程)(2)"(步驟S409),由于組ID的值1未滿組ID的最大值2(步驟S410), 因此向順序總數(shù)獲得部403輸出抽取順序的值3、抽取順序總數(shù)2、組 ID的值1以及組ID的最大值2。順序總數(shù)獲得部403,在從抽取結(jié)束判斷部404輸入抽取順序的值 3、組ID的值1、抽取順序總數(shù)2以及組ID的最大值2的情況下,將 抽取順序的值設(shè)定為l,向所輸入的組ID加上1,從而將組ID的值成 為2,從抽取順序數(shù)據(jù)庫(kù)402獲得與加上后的組ID的值2相對(duì)應(yīng)的抽 取順序總數(shù)2,向使用模式獲得部305輸出檢索結(jié)果文本"F々- 乂 > 夕U —(紀(jì)實(shí))(l)—松上電器O誕生(松上電器的誕生)一,,、"卜'* - ^ >夕U —(紀(jì)實(shí))(2) —松上電器O発展(松上電器的發(fā)展)一"、"人間卜' *工^ >卜(人文紀(jì)實(shí))松下太郎O足跡(松下太郎的歷程)(l)"、"人間 F今- 乂 >卜(人文紀(jì)實(shí))松下太郎0足跡(松下太郎的歷程)(2)"、抽取 順序的值l、組ID的值2、抽取順序總數(shù)2以及組ID的最大值2。然后,與上述相同,使用模式獲得部305獲得專有表現(xiàn)模式名"專 有表現(xiàn)I模式",專有表現(xiàn)抽取部105使用專有表現(xiàn)模式名"專有表現(xiàn) I模式"來(lái)從文本中抽取專有表現(xiàn)后(例如,假設(shè),若使用專有表現(xiàn)
模式,則從節(jié)目名的文本中抽取小標(biāo)題,該小標(biāo)題相當(dāng)于副題的部分),專有表現(xiàn)抽取部105向抽取結(jié)束判斷部404輸出文本"卜'*工乂 >夕 " 一(紀(jì)實(shí))(1)—<小標(biāo)題〉松上電器0誕生(松上電器的誕生)一</小標(biāo) 題>"、"卜'* - 乂 >夕'J 一(紀(jì)實(shí))(2) —<小標(biāo)題>松上電器0発展(松上 電器的發(fā)展)々小標(biāo)題〉一"、"人間卜'* - ^ >卜(人文紀(jì)實(shí)) <小標(biāo)題> 松下太郎0足跡(松下太郎的歷程)</小標(biāo)題>(1)"、"人間卜'*工^ >卜 (人文紀(jì)實(shí)) <小標(biāo)題〉松下太郎0足跡(松下太郎的歷程)</小標(biāo)題>(2)"、 抽取順序總數(shù)2、抽取順序的值1、組ID的值2以及組ID的最大值2, 抽取結(jié)束判斷部404,將抽取順序的值成為2,向使用模式獲得部305 輸出抽取順序的值2、抽取順序總數(shù)2、組ID的值2以及組ID的最大 值2。然后,也同樣,使用模式獲得部305獲得專有表現(xiàn)模式名"專有 表現(xiàn)J模式",專有表現(xiàn)抽取部105使用專有表現(xiàn)模式名"專有表現(xiàn)J 模式"來(lái)從文本中抽取專有表現(xiàn)后(例如,假設(shè),若使用專有表現(xiàn)J模 式,則從節(jié)目名的文本中抽取中標(biāo)題,該中標(biāo)題相當(dāng)于副題和連接于 副題的次數(shù)合并的部分),專有表現(xiàn)抽取部105向抽取結(jié)束判斷部404 輸出文本"卜'*工^ >夕U —(紀(jì)實(shí))(1) 一<小標(biāo)題〉松上電器0誕生 (松上電器的誕生)</小標(biāo)題〉一"、"卜'* 二少 > 夕" 一(紀(jì)實(shí))(2) _<小 標(biāo)題〉松上電器0発展(松上電器的發(fā)展)</小標(biāo)題>一"、"人間卜'々^ 乂 >卜(人文紀(jì)實(shí)) <中標(biāo)題><小標(biāo)題〉松下太郎0足跡(松下太郎的歷 程)</小標(biāo)題〉(1)</中標(biāo)題>"、"人間F * - ^ >卜(人文紀(jì)實(shí))<中標(biāo)題〉< 小標(biāo)題〉松下太郎0足跡(松下太郎的歷程)</小標(biāo)題>(2)</中標(biāo)題>"、抽 取順序總數(shù)2、抽取順序的值2、組ID的值2以及組ID的最大值2。抽取結(jié)束判斷部404,進(jìn)行與上述相同的工作后,由于抽取順序的 值3大于抽取順序總數(shù)(步驟S408),因此向?qū)S斜憩F(xiàn)決定部405輸出 組ID的值2、組ID的最大值2以及文本"卜'々- 乂 >夕U —(紀(jì)實(shí))(1) —<小標(biāo)題〉松上電器0誕生(松上電器的誕生)</小標(biāo)題>一"、"-^ >夕'J一(紀(jì)實(shí))(2)—<小標(biāo)題〉松上電器0発展(松上電器的發(fā)展) </小標(biāo)題>—"、"人間卜'* - ^ >卜(人文紀(jì)實(shí)) <中標(biāo)題><小標(biāo)題> 松下太郎。足跡(松下太郎的歷程)</小標(biāo)題>(1)</中標(biāo)題>"、"人間卜'* - ^ >卜(人文紀(jì)實(shí)) <中標(biāo)題><小標(biāo)題〉松下太郎0足跡(松下太郎的 歷程)</小標(biāo)題>(2)</中標(biāo)題>"。專有表現(xiàn)決定部405,若從抽取結(jié)束判斷部404輸入組ID的值1、 組ID的最大值2以及文本"<中標(biāo)題><小標(biāo)題> 卜'年- 乂 >夕'J 一(紀(jì) 實(shí))</小標(biāo)題>(1)<沖標(biāo)題>—松上電器O誕生(松上電器的誕生)一"、"< 中標(biāo)題><小標(biāo)題> 卜* * - ^ >夕U —(紀(jì)實(shí))</小標(biāo)題>(2)</中標(biāo)題>一松 上電器O発展(松上電器的發(fā)展)一"、"<小標(biāo)題〉人間卜'* - ^ >卜(人 文紀(jì)實(shí))</小標(biāo)題〉〉松下太郎0足跡(松下太郎的歷程)(l)"、"<小標(biāo)題> 人間卜'* - ^ >卜(人文紀(jì)實(shí))</小標(biāo)題〉〉松下太郎0足跡(松下太郎的 歷程)(2)",則存儲(chǔ)與組ID的值1相對(duì)應(yīng)的、同時(shí)輸入的多個(gè)文本中抽 取的專有表現(xiàn)"卜'年- 乂 >夕'J 一(紀(jì)實(shí))(l)"、"卜'* - ^ >夕'J 一(紀(jì) 實(shí))(2)"、"人間卜'* - ^ >卜(人文紀(jì)實(shí))"、"人間卜'* - ^ >卜(人文紀(jì) 實(shí))"。再者,專有表現(xiàn)決定部405,若從抽取結(jié)束判斷部404輸入組ID
的值2、組ID的最大值2以及文本"卜'* - 乂 >夕U —(紀(jì)實(shí))(1) 一< 小標(biāo)題>松上電器0誕生(松上電器的誕生)</小標(biāo)題>一"、"卜'々- 乂 > 夕'J 一(紀(jì)實(shí))(2) —<小標(biāo)題>松上電器0発展(松上電器的發(fā)展)</小 標(biāo)題>—"、"人間卜'* - ^ >卜(人文紀(jì)實(shí))<中標(biāo)題〉<小標(biāo)題>松下太郎 0足跡(松下太郎的歷程)</小標(biāo)題〉(1)</中標(biāo)題>"、"人間卜'々- 乂 > 卜(人文紀(jì)實(shí))<中標(biāo)題〉<小標(biāo)題〉松下太郎0足跡(松下太郎的歷程)</ 小標(biāo)題>(2)</中標(biāo)題>",則存儲(chǔ)與組ID的值2相對(duì)應(yīng)的、同時(shí)輸入的 多個(gè)文本中抽取的專有表現(xiàn)"松下電器O誕生(松下電器的誕生)"、"松 下電器O発展(松下電器的發(fā)展)"、"松下太郎O足跡(松下太郎的歷程) (l)"、"松下太郎O足跡(松下太郎的歷程)(2)"。再者,此時(shí),專有表現(xiàn)決定部405,由于組ID的值2等于組ID 的最大值2(步驟S410),對(duì)于組ID的值1,由于專有表現(xiàn)"人間K # - ^ >卜(人文紀(jì)實(shí))"與"人間卜'*工^ >卜(人文紀(jì)實(shí))"相同,因此 類似專有表現(xiàn)數(shù)為2(在此,只將相同文本作為類似文本,不過(guò)也可以, 將一定的字符數(shù)以上的相同文本作為類似文本),對(duì)于組ID的值2,由 于所有的專有表現(xiàn)不同,因此類似專有表現(xiàn)數(shù)為0。而且,將與類似專有表現(xiàn)數(shù)最少的組ID的值2相對(duì)應(yīng)的專有表現(xiàn) "松下電器O誕生(松下電器的誕生)"、"松下電器O発展(松下電器的 發(fā)展)"、"松下太郎O足跡(松下太郎的歷程)(l)"、"松下太郎O足跡(松 下太郎的歷程)(2)"作為結(jié)果文本輸出。并且,在上述實(shí)施例中,專有表現(xiàn)決定部405,直接使用所抽取的 專有表現(xiàn)來(lái)算出類似專有表現(xiàn)數(shù),不過(guò)一般而言,文本在大小有限的
顯示部上被顯示,考慮此事宜,在預(yù)先得知在該顯示部上可以顯示的 每一個(gè)專有表現(xiàn)的顯示字符數(shù)的情況下,可以只抽取專有表現(xiàn)開頭的 顯示字符數(shù)的文本,從而求出針對(duì)所抽取的文本的類似專有表現(xiàn)數(shù)。作為一個(gè)具體例子,考慮如下情況,即,在專有表現(xiàn)決定部405 作為(組ID,專有表現(xiàn)群)輸入(l,(松下電器産業(yè)O誕生(松下電器產(chǎn)業(yè)的誕生),松下電器産業(yè)O発展(松下電器產(chǎn)業(yè)的發(fā)展),松下電器産業(yè) O株価推移(松下電器產(chǎn)業(yè)的股價(jià)推移),松下電器産業(yè)O新製品紹介 (松下電器產(chǎn)業(yè)的新產(chǎn)品介紹》),(2,(松下卜1 - ^ >夕U —(松下紀(jì)實(shí)), 松下卜'* - ^ >夕'J 一(松下紀(jì)實(shí)),経済二 -一^(經(jīng)濟(jì)新聞),流行O 商品紹介(流行商品介紹)))。此例子是,從在節(jié)目信息中包含的節(jié)目名中所抽取的專有表現(xiàn)的 一個(gè)例子。這些專有表現(xiàn)是估計(jì)靈活使用兩種顯示格式的、并且在同 一顯示部顯示的情況下的專有表現(xiàn),g卩,該兩種顯示格式即是詳細(xì)顯 示格式以及提高了便覽性的顯示格式,該詳細(xì)顯示格式種用于每一個(gè) 專有表現(xiàn)的字符數(shù)是不同。例如,若在詳細(xì)顯示格式中用于每一個(gè)專有表現(xiàn)的字符數(shù)是十二 個(gè)字符,則專有表現(xiàn)決定部405,可以抽取各個(gè)專有表現(xiàn)的開頭的最多 十二個(gè)字符的文本(l,(松下電器産業(yè)O誕生(松下電器產(chǎn)業(yè)的誕生),松 下電器産業(yè)O発展(松下電器產(chǎn)業(yè)的發(fā)展),松下電器産業(yè)O株価推移 (松下電器產(chǎn)業(yè)的股價(jià)推移),松下電器産業(yè)O新製品紹介(松下電器產(chǎn) 業(yè)的新產(chǎn)品介紹))),(2,(松下卜'* - ^ >夕" 一(松下紀(jì)實(shí)),松下卜'々 工乂 >夕U—(松下紀(jì)實(shí)),経済二-一義(經(jīng)濟(jì)新聞),流行O商品紹介(流行商品介紹)))。在此情況下,可以抽取各個(gè)專有表現(xiàn)的所有的字符。而且,針對(duì)組ID的值1、 2分別求出類似專有表現(xiàn)數(shù)0、 2,將與類似 專有表現(xiàn)數(shù)最少的組ID的值1相對(duì)應(yīng)的專有表現(xiàn)"松下電器産業(yè)o誕 生(松下電器產(chǎn)業(yè)的誕生)"、"松下電器産業(yè)o発展(松下電器產(chǎn)業(yè)的發(fā) 展)"、"松下電器産業(yè)O株価推移(松下電器產(chǎn)業(yè)的股價(jià)推移)"、"松下 電器産業(yè)O新製品紹介(松下電器產(chǎn)業(yè)的新產(chǎn)品介紹)"作為結(jié)果文本輸 出到顯示部。圖30A是詳細(xì)顯示格式的一個(gè)例子,在該例子中,使用從節(jié)目名 所抽取的最多十二個(gè)字符的專有信息,在一個(gè)畫面上顯示三個(gè)頻道的 節(jié)目信息。該格式適于希望瀏覽更詳細(xì)的節(jié)目信息的用戶。并且,若在提高了便覽性的顯示格式中用于一個(gè)專有表現(xiàn)的字符數(shù) 是例如六個(gè)字符,則專有表現(xiàn)決定部405抽取各個(gè)專有表現(xiàn)的開頭的 最多六個(gè)字符的文本(l,(松下電器産業(yè)(松下電器產(chǎn)業(yè)),松下電器産業(yè) (松下電器產(chǎn)業(yè)),松下電器産業(yè)(松下電器產(chǎn)業(yè)),松下電器産業(yè)(松下電 器產(chǎn)業(yè)))),(2,(松下卜'々- 乂 (松下紀(jì)),松下卜'々工乂 (松下紀(jì)),経済 二工一7(經(jīng)濟(jì)新聞),流行O商品紹(流行商品介)))。而且,針對(duì)組ID 的值l、 2分別求出類似專有表現(xiàn)數(shù)4、 2,將與類似專有表現(xiàn)數(shù)最少的 組ID的值2相對(duì)應(yīng)的專有表現(xiàn)"松下卜'* - ^ (松下紀(jì))"、"松下卜'丼 工^ (松下紀(jì))"、"經(jīng)濟(jì)二 - 一 ^ (經(jīng)濟(jì)新聞)"、"流行O商品紹(流行商品 介)"作為結(jié)果文本輸出到顯示部。圖30B是提高了便覽性的顯示格式的一個(gè)例子,在該例子中,在 一個(gè)畫面上使用從節(jié)目名中抽取的最多六個(gè)字符的專有表現(xiàn)顯示六個(gè)
頻道的節(jié)目信息。該格式適于希望瀏覽更廣泛的節(jié)目信息的用戶。而 且,如圖所示,對(duì)于本來(lái)七個(gè)字符以上的專有信息,可以通過(guò)將第六 個(gè)字符替換為規(guī)定的字符(例如,"…"),從而示出省略了后續(xù)的字符。如此,如圖30A、 B所示,在靈活使用多個(gè)不同顯示格式的情況 下,可以顯示用戶識(shí)別節(jié)目時(shí)最有效的各個(gè)專有表現(xiàn)。如上所述,根據(jù)本實(shí)施例,在通過(guò)變更從同一文本中抽取專有表 現(xiàn)的方法來(lái)抽取的多個(gè)組的專有表現(xiàn)中,將在各個(gè)組中包含的專有表 現(xiàn)最不同的組的專有表現(xiàn)作為最后結(jié)果,從而可以增多用戶可以識(shí)別 的專有表現(xiàn)數(shù)。 (實(shí)施例3)其次,參照
本發(fā)明的實(shí)施例3涉及的專有表現(xiàn)抽取裝置。 圖31是本發(fā)明的實(shí)施例3的專有表現(xiàn)抽取裝置的結(jié)構(gòu)圖。在此, 由于與實(shí)施例1相同的符號(hào)的結(jié)構(gòu)要素進(jìn)行與實(shí)施例1相同的工作, 因此省略這些詳細(xì)說(shuō)明。本實(shí)施例的專有表現(xiàn)抽取裝置是一種裝置, 在所顯示的專有表現(xiàn)中存在同一的專有表現(xiàn)的情況下,刪除重復(fù)專有 表現(xiàn),進(jìn)一步,若用戶指定所顯示的專有表現(xiàn),則可以顯示以嵌套結(jié) 構(gòu)包含指定的專有表現(xiàn)的專有表現(xiàn),如圖31所示,所述專有表現(xiàn)抽取 裝置包括輸入部101、抽取順序存儲(chǔ)部102、抽取順序讀取部103、 專有表現(xiàn)模式存儲(chǔ)部104、專有表現(xiàn)抽取部105、專有表現(xiàn)存儲(chǔ)部501、 抽取結(jié)束判斷部502、顯示條件獲得部503、專有表現(xiàn)獲得部504、重 復(fù)刪除部505以及顯示部506。專有表現(xiàn)存儲(chǔ)部501,將輸入文本、從輸入文本中所抽取的專有表 現(xiàn)以及抽取順序相對(duì)應(yīng),并且存儲(chǔ)它們。圖32示出專有表現(xiàn)存儲(chǔ)部501 的內(nèi)容的例子。抽取結(jié)束判斷部502,若從專有表現(xiàn)抽取部105輸入抽取順序總 數(shù)、抽取順序以及文本,將抽取順序、文本以及從文本中所抽取的專 有表現(xiàn)相對(duì)應(yīng),并且將它們存儲(chǔ)到專有表現(xiàn)存儲(chǔ)部501,再者,在抽取 順序小于抽取順序總數(shù)的情況下,向抽取順序的值加上數(shù)值l,向抽取 順序讀取部103輸出加上后的抽取順序以及從專有表現(xiàn)抽取部105輸 入的文本。顯示部506顯示專有表現(xiàn)。顯示條件獲得部503,輸入顯示在顯示 部506的專有表現(xiàn)的抽取順序、或所顯示的多個(gè)專有表現(xiàn)中由用戶所 指定的專有表現(xiàn)。專有表現(xiàn)獲得部504,從顯示條件獲得部503只輸入抽取順序的情 況下,獲得與從專有表現(xiàn)存儲(chǔ)部501輸入的抽取順序相對(duì)應(yīng)的專有表 現(xiàn),并且,從顯示條件獲得部503輸入抽取順序以及由用戶指定的專 有表的情況下,從在專有表現(xiàn)存儲(chǔ)部501存儲(chǔ)的文本中檢索與所輸入 的抽取順序以及專有表現(xiàn)相對(duì)應(yīng)的文本,獲得在所檢索的文本中的、 與所輸入的抽取順序的下一個(gè)抽取順序相對(duì)應(yīng)的專有表現(xiàn)。重復(fù)刪除部505,由專有表現(xiàn)獲得部504獲得的專有表現(xiàn)中刪除重 復(fù)專有表現(xiàn),并將它們顯示在顯示部506。對(duì)于如此構(gòu)成的本實(shí)施例的專有表現(xiàn)抽取裝置,說(shuō)明抽取專有表 現(xiàn)、并在顯示部顯示該專有表現(xiàn)時(shí)的工作例子。圖33是示出抽取并顯 示專有表現(xiàn)時(shí)的工作例子的順序的流程圖。
對(duì)于使用輸入部101、抽取順序存儲(chǔ)部102、抽取順序讀取部103、 專有表現(xiàn)抽取部105來(lái)從輸入文本中抽取專有表現(xiàn)的工作(步驟S101 至步驟S105),與在實(shí)施例1中進(jìn)行的工作相同,因此省略說(shuō)明。抽取結(jié)束判斷部502,若從專有表現(xiàn)抽取部105輸入抽取順序總數(shù) 3、抽取順序1以及文本"<小標(biāo)題> 卜'々- ^ >夕'J 一(紀(jì)實(shí))</小標(biāo)題 >(1)—松上電器o誕生(松上電器的誕生)一"、"<小標(biāo)題> 卜1工乂 > 夕U—(紀(jì)實(shí))</小標(biāo)題>(2)—松上電器O発展(松下電器的發(fā)展)一"、"<小標(biāo)題>人間卜'々- ^ >卜(人文紀(jì)實(shí))</小標(biāo)題>松下太郎0足跡 (松下太郎的歷程)(l)"、"<小標(biāo)題>人間卜1工乂 >卜(人文紀(jì)實(shí))</小標(biāo) 題>松下太郎0足跡(松下太郎的歷程)(2)",將抽取順序l、文本"卜'* -乂 >夕'; 一(紀(jì)實(shí))(1)—松上電器o誕生(松上電器的誕生)—,,、"卜' * - ^ >夕V —(紀(jì)實(shí))(2) —松上電器o発展(松上電器的發(fā)展)一"、"人間卜'* - j >卜(人文紀(jì)實(shí))松下太郎O足跡(松下太郎的歷程) (l)"、"人間卜'々- 乂 >卜(人文紀(jì)實(shí))松下太郎o足跡(松下太郎的歷 程)(2)"以及從文本中所抽取的專有表現(xiàn)"卜'*工 > > 夕U —(紀(jì)實(shí))"、"卜'年- ^ >夕U —(紀(jì)實(shí))"、"人間卜'* - 乂 >卜(人文紀(jì)實(shí))"、"人間卜'年- ^ >卜(人文紀(jì)實(shí))"相對(duì)應(yīng),并將它們存儲(chǔ)到專有表現(xiàn)存儲(chǔ)部 501(步驟S501),再者,由于抽取順序的值1小于抽取順序總數(shù)3(步驟 S106),因此向抽取順序的值加上數(shù)值1,從而將抽取順序的值成為2(步 驟S107),向抽取順序讀取部103輸出加上后的抽取順序的值2以及從 專有表現(xiàn)抽取部105輸入的文本"<小標(biāo)題〉卜'* - 乂 >夕'J 一(紀(jì)實(shí))</ 小標(biāo)題〉(1) 一松上電器O誕生(松上電器的誕生)一"、"<小標(biāo)題>卜'々
工乂 >夕y —(紀(jì)實(shí))</小標(biāo)題>(2)—松上電器o発展(松上電器的發(fā) 展)一"、"<小標(biāo)題>人間卜'* - ^ >卜(人文紀(jì)實(shí))々小標(biāo)題〉松下太郎o 足跡(松下太郎的歷程)(i)"、"<小標(biāo)題〉人間卜'并- ^ >卜(人文紀(jì)實(shí))</ 小標(biāo)題〉松下太郎o足跡(松下太郎的歷程)(2)"。到抽取順序成為抽取順序總數(shù)以上為止反復(fù)上述工作后,專有表現(xiàn)存儲(chǔ)部501的內(nèi)容成為像圖32所示那樣。接著,使用如此獲得的內(nèi)容進(jìn)行如下顯示工作。首先,顯示條件獲得部503,不被用戶指定,而向?qū)S斜憩F(xiàn)獲得部 504輸入作為抽取順序的初始值的值1。專有表現(xiàn)獲得部504,在從顯示條件獲得部503只輸入抽取順序的 值1的情況下(步驟S502),從專有表現(xiàn)存儲(chǔ)部501獲得與抽取順序的 值1相對(duì)應(yīng)的專有表現(xiàn)"卜'* - 乂 >夕'J 一(紀(jì)實(shí))"、"K * - 乂 >夕'J 一(紀(jì)實(shí))"、"人間卜'* - ^ >卜(人文紀(jì)實(shí))"、"人間卜'* - 乂 >卜(人 文紀(jì)實(shí))"(步驟S503)。重復(fù)刪除部505,在專有表現(xiàn)獲得部504獲得專有表現(xiàn)"卜'々- ^ >夕U —(紀(jì)實(shí))"、"卜'*工^ >夕U —(紀(jì)實(shí))"、"人間卜'* - ^ >卜(人 文紀(jì)實(shí))"、"人間卜'* - ^ >卜(人文紀(jì)實(shí))"的情況下,針對(duì)這些專有 表現(xiàn)刪除重復(fù)專有表現(xiàn)(步驟S506),將專有表現(xiàn)"F *工^ >夕U —(紀(jì) 實(shí))"、"人間卜'今- 乂 >卜(人文紀(jì)實(shí))"顯示在顯示部506(步驟S507)。 圖34示出此時(shí)在顯示部506顯示的顯示內(nèi)容的例子。并且,重復(fù)刪除 部505也可以,在顯示各個(gè)專有表現(xiàn)時(shí),同時(shí)顯示在各個(gè)專有表現(xiàn)中 重復(fù)的數(shù)量。圖35示出此時(shí)在顯示部506顯示的顯示內(nèi)容的例子。在此,顯示的各個(gè)專有表現(xiàn)中追加接受由用戶的規(guī)定操作(例如,鼠標(biāo)點(diǎn)擊操作等)的用戶界面功能。顯示條件獲得部503,若接受向所 顯示的專有表現(xiàn)之一的、由用戶的規(guī)定操作,則向?qū)S斜憩F(xiàn)獲得部504 輸入進(jìn)行了該操作的專有表現(xiàn)以及該專有表現(xiàn)的抽取順序。作為一個(gè)例子,在圖34中,若用戶點(diǎn)擊"卜'* - ^ >夕U —(紀(jì)實(shí))", 則從顯示條件獲得部503輸入抽取順序的值1以及由用戶指定的專有 表現(xiàn)"卜'*工^ >夕U —(紀(jì)實(shí))"。專有表現(xiàn)獲得部504,從存儲(chǔ)在專 有表現(xiàn)存儲(chǔ)部501的文件中檢索與所輸入的抽取順序的值1以及專有 表現(xiàn)"卜'考- 乂 >夕9 一(紀(jì)實(shí))"相對(duì)應(yīng)的文本"卜'々- 乂 >夕9 一(紀(jì) 實(shí))(1) 一松上電器o誕生(松上電器的誕生)一,,、"卜'* - ^ >夕'J 一 (紀(jì)實(shí))(2)-松上電器O発展(松上電器的發(fā)展)一"(步驟S504),獲得所 檢索的文本的專有表現(xiàn)中的、與所輸入的抽取順序的下一個(gè)抽取順序 的值2相對(duì)應(yīng)的專有表現(xiàn)"卜'*工乂 >夕U —(紀(jì)實(shí))(l)"、"卜'* - 乂 "V 一(紀(jì)實(shí))(2)"(步驟S505)。而且,重復(fù)刪除部505,輸入專有表現(xiàn)"卜'々- 乂 >夕'J 一(紀(jì)實(shí)) (l)"、"卜'年工乂 >夕U —(紀(jì)實(shí))(2)",在此情況下,由于不存在重復(fù)的 專有表現(xiàn),因此在顯示部506直接顯示專有表現(xiàn)。圖36示出此時(shí)在顯 示部506顯示的顯示內(nèi)容的例子。如上所述,根據(jù)本實(shí)施例,由于根據(jù)所抽取的專有表現(xiàn)的嵌套結(jié) 構(gòu)顯示所輸入的文本,因此可以以菜單層次顯示所輸入的文本。并且, 在輸入文本是存儲(chǔ)在用戶存儲(chǔ)裝置的內(nèi)容的標(biāo)題等的情況下,由于按 照專有表現(xiàn)的嵌套結(jié)構(gòu)生成菜單層次,因此用戶不需要從存在重復(fù)的
專有表現(xiàn)的標(biāo)題一覽中查找目的標(biāo)題,而通過(guò)參照菜單層次就可以發(fā) 現(xiàn)目的標(biāo)題。(其它變形例)到此,說(shuō)明了輸入文本以及所抽取的專有表現(xiàn)是日文的例子,不 過(guò),當(dāng)然輸入文本以及所抽取的專有表現(xiàn)不僅限于日文。例如,當(dāng)然 可以從以中文(簡(jiǎn)體字)表示的輸入文本中抽取專有表現(xiàn)。圖37A、 B是應(yīng)該成為輸入文本的、在中文的節(jié)目信息中包含的 節(jié)目名的一個(gè)例子。與所述內(nèi)容相同,通過(guò)從該節(jié)目名中抽取專有表 現(xiàn),并將該專有表現(xiàn)示出給用戶,從而可以實(shí)現(xiàn)專有表現(xiàn)抽取裝置, 該專有表現(xiàn)抽取裝置可以從中文的輸入文本中抽取適應(yīng)抽取條件的專 有表現(xiàn),該抽取條件是以用戶的輸入履歷或顯示能力等所表示的。根據(jù)本發(fā)明,在從文本中抽取專有表現(xiàn)時(shí),可以將被抽取的專有 表現(xiàn)適應(yīng)用戶、應(yīng)用程序以及用戶所使用的終端,并且本發(fā)明可以適 用于硬盤刻錄器、DVD刻錄器、TV以及組合音響等終端,或適用于 訪問(wèn)互聯(lián)網(wǎng)來(lái)進(jìn)行信息檢索的信息檢索服務(wù)器等。
權(quán)利要求
1、一種專有表現(xiàn)抽取裝置,依次使用一個(gè)以上的專有表現(xiàn)模式,從一個(gè)以上的輸入文本中抽取專有表現(xiàn),所述專有表現(xiàn)模式示出在文本中包含的專有表現(xiàn)部分的判斷標(biāo)準(zhǔn),其特征在于,包括抽取順序設(shè)定單元,決定用于抽取專有表現(xiàn)的專有表現(xiàn)模式的、按照抽取條件不同的抽取順序;以及專有表現(xiàn)抽取單元,根據(jù)以所述決定的抽取順序所示的順序,使用專有表現(xiàn)模式,從所述一個(gè)以上的輸入文本中抽取專有表現(xiàn)。
2、 如權(quán)利要求1所述的專有表現(xiàn)抽取裝置,其特征在于, 所述抽取條件是以下列內(nèi)容中至少一個(gè)來(lái)表示的,即,使用所抽取的專有表現(xiàn)的用戶、顯示所抽取的專有表現(xiàn)的終端裝置、輸入文本 的屬性、輸入文本的數(shù)量、以及過(guò)去專有表現(xiàn)被抽取過(guò)的次數(shù)。
3、 如權(quán)利要求1所述的專有表現(xiàn)抽取裝置,其特征在于, 所述輸入文本,表示構(gòu)成電子節(jié)目指南的節(jié)目信息。
4、 如權(quán)利要求l所述的專有表現(xiàn)抽取裝置,其特征在于, 所述專有表現(xiàn)抽取裝置,還包括專有表現(xiàn)模式存儲(chǔ)存儲(chǔ)單元,存儲(chǔ)多個(gè)專有表現(xiàn)模式;以及 抽取順序存儲(chǔ)單元,針對(duì)多個(gè)抽取條件的每個(gè)抽取條件,存儲(chǔ)由所述專有表現(xiàn)模式存儲(chǔ)單元存儲(chǔ)的一個(gè)以上的專有表現(xiàn)模式的、用于抽取專有表現(xiàn)的順序,所述抽取順序設(shè)定單元,在被提供所述多個(gè)抽取條件中的一個(gè)抽取條件后,針對(duì)被提供的抽取條件,將由所述抽取順序存儲(chǔ)單元存儲(chǔ) 的專有表現(xiàn)模式的順序設(shè)定為所述抽取順序。
5、 如權(quán)利要求4所述的專有表現(xiàn)抽取裝置,其特征在于, 所述專有表現(xiàn)抽取裝置,將識(shí)別用戶的用戶標(biāo)識(shí)符作為抽取條件, 進(jìn)一步,包括用戶識(shí)別單元,獲得所述用戶標(biāo)識(shí)符,所述抽取順序存儲(chǔ)單元,針對(duì)多個(gè)用戶標(biāo)識(shí)符的每個(gè)用戶標(biāo)識(shí)符, 存儲(chǔ)由所述專有表現(xiàn)模式存儲(chǔ)單元存儲(chǔ)的、 一個(gè)以上的專有表現(xiàn)模式 的順序,所述抽取順序設(shè)定單元,針對(duì)獲得的用戶標(biāo)識(shí)符,將由所述抽取 順序存儲(chǔ)單元存儲(chǔ)的專有表現(xiàn)模式的順序設(shè)定為所述抽取順序。
6、 如權(quán)利要求4所述的專有表現(xiàn)抽取裝置,其特征在于, 所述專有表現(xiàn)抽取裝置,將顯示所抽取的專有表現(xiàn)的終端裝置的終端標(biāo)識(shí)符作為抽取條件, 進(jìn)一步,包括終端標(biāo)識(shí)符獲得單元,獲得所述終端標(biāo)識(shí)符, 所述抽取順序存儲(chǔ)單元,針對(duì)多個(gè)終端標(biāo)識(shí)符的每個(gè)終端標(biāo)識(shí)符,存儲(chǔ)由所述專有表現(xiàn)模式存儲(chǔ)單元存儲(chǔ)的、 一個(gè)以上的專有表現(xiàn)模式的順序,所述抽取順序設(shè)定單元,針對(duì)獲得的終端標(biāo)識(shí)符,將由所述抽取 順序存儲(chǔ)單元存儲(chǔ)的專有表現(xiàn)模式的順序設(shè)定為所述抽取順序。
7、 如權(quán)利要求4所述的專有表現(xiàn)抽取裝置,其特征在于, 所述專有表現(xiàn)抽取裝置,將所述輸入文本的屬性作為抽取條件, 進(jìn)一步,包括屬性獲得單元,獲得所述輸入文本的屬性, 所述抽取順序存儲(chǔ)單元,針對(duì)多個(gè)屬性的每個(gè)屬性,存儲(chǔ)由所述專有表現(xiàn)模式存儲(chǔ)單元存儲(chǔ)的、 一個(gè)以上的專有表現(xiàn)模式的順序,所述抽取順序設(shè)定單元,針對(duì)獲得的屬性,將由所述抽取順序存儲(chǔ)單元存儲(chǔ)的專有表現(xiàn)模式的順序設(shè)定為所述抽取順序。
8、 如權(quán)利要求4所述的專有表現(xiàn)抽取裝置,其特征在于, 所述專有表現(xiàn)抽取裝置,將所述輸入文本的數(shù)量作為抽取條件, 進(jìn)一步,包括信息數(shù)據(jù)庫(kù),存儲(chǔ)多個(gè)文本;以及文本檢索單元,從所述信息數(shù)據(jù)庫(kù)中檢索成為所述輸入文本的、 一個(gè)以上的文本,所述抽取順序存儲(chǔ)單元,針對(duì)示出文本的數(shù)量的多個(gè)值的每個(gè)值, 存儲(chǔ)由所述專有表現(xiàn)模式存儲(chǔ)單元存儲(chǔ)的、 一個(gè)以上的專有表現(xiàn)模式 的順序,所述抽取順序設(shè)定單元,針對(duì)檢索到的文本的數(shù)量,將由所述抽 取順序存儲(chǔ)單元存儲(chǔ)的專有表現(xiàn)模式的順序設(shè)定為所述抽取順序,所述專有表現(xiàn)抽取單元,以所述設(shè)定的抽取順序所示的順序,使 用專有表現(xiàn)模式,從所述檢索到的文本中抽取專有表現(xiàn)。
9、 如權(quán)利要求4所述的專有表現(xiàn)抽取裝置,其特征在于,所述專有表現(xiàn)抽取裝置,將所述輸入文本的數(shù)量作為抽取條件,進(jìn)一步,包括信息數(shù)據(jù)庫(kù),存儲(chǔ)多個(gè)文本;文本獲得單元,從所述信息數(shù)據(jù)庫(kù)中獲得多個(gè)文本; 顯示單元,顯示文本;以及類似文本獲得單元,從由所述文本獲得單元獲得的多個(gè)文本中, 將由在所述顯示單元顯示時(shí)類似的多個(gè)文本作為所述輸入文本來(lái)獲 得,所述抽取順序存儲(chǔ)單元,針對(duì)示出文本的數(shù)量的多個(gè)值的每個(gè)值, 存儲(chǔ)由所述專有表現(xiàn)模式存儲(chǔ)單元存儲(chǔ)的、 一個(gè)以上的專有表現(xiàn)模式 的順序,所述抽取順序設(shè)定單元,針對(duì)由所述類似文本獲得單元獲得的文 本的數(shù)量,將由所述抽取順序存儲(chǔ)單元存儲(chǔ)的專有表現(xiàn)模式的順序設(shè) 定為所述抽取順序,所述專有表現(xiàn)抽取單元,以所述設(shè)定的抽取順序所示的順序,使 用專有表現(xiàn)模式,從由所述類似文本獲得單元獲得的文本中抽取專有 表現(xiàn)。
10、如權(quán)利要求1所述的專有表現(xiàn)抽取裝置,其特征在于, 所述專有表現(xiàn)抽取裝置,還包括 專有表現(xiàn)模式存儲(chǔ)單元,存儲(chǔ)多個(gè)專有表現(xiàn)模式; 抽取順序存儲(chǔ)單元,存儲(chǔ)由所述專有表現(xiàn)模式存儲(chǔ)單元存儲(chǔ)的一個(gè)以上的專有表現(xiàn)模式的、用于抽取專有表現(xiàn)的順序;以及抽取順序變更單元,按照抽取條件變更由所述抽取順序存儲(chǔ)單元存儲(chǔ)的專有表現(xiàn)模式的順序,所述抽取順序設(shè)定單元,將變更后的專有表現(xiàn)模式的順序設(shè)定為所述抽取順序。
11、 如權(quán)利要求10所述的專有表現(xiàn)抽取裝置,其特征在于, 所述專有表現(xiàn)抽取裝置,將專有表現(xiàn)過(guò)去被抽取過(guò)的次數(shù)作為抽取條件,進(jìn)一步,包括抽取次數(shù)計(jì)數(shù)單元,針對(duì)由所述抽取順序存儲(chǔ)單元存儲(chǔ)的 專有表現(xiàn)模式的每個(gè)專有表現(xiàn)模式,使用該專有表現(xiàn)模式,計(jì)數(shù)專有 表現(xiàn)過(guò)去被抽取過(guò)的次數(shù),所述抽取順序變更單元,按照所述計(jì)數(shù)到的數(shù)量變更由所述抽取 順序存儲(chǔ)單元存儲(chǔ)的專有表現(xiàn)模式的順序。
12、 如權(quán)利要求1所述的專有表現(xiàn)抽取裝置,其特征在于, 所述抽取順序以如下順序表示多個(gè)專有表現(xiàn)模式,該順序?yàn)?,在依次使用多個(gè)專有表現(xiàn)模式的情況下、可以期待每次使用時(shí)抽取更長(zhǎng) 的專有表現(xiàn)的順序,所述專有表現(xiàn)抽取裝置,還包括抽取中止單元,在抽取了長(zhǎng)度超過(guò)預(yù)定的閾值的專有表現(xiàn)的情況 下,中止使用隨后的專有表現(xiàn)模式進(jìn)行的抽取。
13、 一種專有表現(xiàn)抽取裝置,依次使用一個(gè)以上的專有表現(xiàn)模式,從一個(gè)以上的輸入文本中抽取專有表現(xiàn),所述專有表il模式示出在文 本中包含的專有表現(xiàn)部分的判斷標(biāo)準(zhǔn),其特征在于,包括信息數(shù)據(jù)庫(kù),存儲(chǔ)多個(gè)文本;文本獲得單元,從所述信息數(shù)據(jù)庫(kù)中獲得多個(gè)文本;專有表現(xiàn)模式存儲(chǔ)單元,存儲(chǔ)多個(gè)專有表現(xiàn)模式;抽取順序存儲(chǔ)單元,存儲(chǔ)由所述專有表現(xiàn)模式存儲(chǔ)單元存儲(chǔ)的一個(gè)以上的專有表現(xiàn)模式的、用于抽取專有表現(xiàn)的多個(gè)順序;專有表現(xiàn)抽取單元,以所述抽取順序存儲(chǔ)單元存儲(chǔ)的各個(gè)順序, 使用專有表現(xiàn)模式,從由所述文本獲得單元獲得的多個(gè)文本中抽取專 有表現(xiàn),將按順序抽取的專有表現(xiàn)作為專有表現(xiàn)組;以及專有表現(xiàn)決定單元,按照由所述專有表現(xiàn)抽取單元得到的每個(gè)專 有表現(xiàn)組,算出類似專有表現(xiàn)數(shù),輸出類似專有表現(xiàn)數(shù)最少的專有表 現(xiàn)組,所述類似專有表現(xiàn)數(shù)是該專有表現(xiàn)組中包含的類似專有表現(xiàn)的數(shù)量。
14、 如權(quán)利要求13所述的專有表現(xiàn)抽取裝置,其特征在于, 所述專有表現(xiàn)抽取裝置,進(jìn)一步,包括顯示單元,顯示文本,所述專有表現(xiàn)決定單元,在按每個(gè)專有表現(xiàn)組算出類似專有表現(xiàn) 數(shù)時(shí),從專有表現(xiàn)中抽取可以在所述顯示單元顯示的字符數(shù)的部分專 有表現(xiàn),在所抽取的部分專有表現(xiàn)相互類似的情況下,將類似的部分 專有表現(xiàn)的數(shù)量作為類似專有表現(xiàn)數(shù)。
15、 一種專有表現(xiàn)抽取裝置,依次使用一個(gè)以上的專有表現(xiàn)模式, 從一個(gè)以上的輸入文本中抽取專有表現(xiàn),所述專有表現(xiàn)模式示出在文本中包含的專有表現(xiàn)部分的判斷標(biāo)準(zhǔn),其特征在于,包括 專有表現(xiàn)模式存儲(chǔ)單元,存儲(chǔ)多個(gè)專有表現(xiàn)模式; 抽取順序存儲(chǔ)單元,存儲(chǔ)由所述專有表現(xiàn)模式存儲(chǔ)單元存儲(chǔ)的一個(gè)以上的專有表現(xiàn)模式的、用于抽取專有表現(xiàn)的多個(gè)順序;專有表現(xiàn)抽取單元,按照由所述抽取順序存儲(chǔ)單元存儲(chǔ)的順序,使用所述一個(gè)以上的專有表現(xiàn)模式,從所述一個(gè)以上的輸入文本中抽取專有表現(xiàn);專有表現(xiàn)存儲(chǔ)單元,將所述輸入文本、從該輸入文本中抽取的專 有表現(xiàn)、以及進(jìn)行了的該抽取的所述順序的階段對(duì)應(yīng)起來(lái)加以存儲(chǔ);顯示條件指定單元,指定預(yù)定的階段,或按照用戶的操作來(lái)指定 在共通的階段所抽取的一個(gè)以上的專有表現(xiàn);專有表現(xiàn)獲得單元,在由所述顯示條件指定單元指定了預(yù)定的階 段的情況下,從所述專有表現(xiàn)存儲(chǔ)單元中獲得與所述所指定的階段對(duì) 應(yīng)起來(lái)加以存儲(chǔ)的所有專有表現(xiàn),并且,在由所述顯示條件指定單元 指定了一個(gè)以上的專有表現(xiàn)的情況下,從所述專有表現(xiàn)存儲(chǔ)單元中獲 得如下專有表現(xiàn),即,針對(duì)與所述所指定的各個(gè)專有表現(xiàn)相對(duì)應(yīng)的輸 入文本、與所述共通的階段的下一個(gè)階段對(duì)應(yīng)起來(lái)加以存儲(chǔ)的專有表 現(xiàn);重復(fù)刪除單元,從由所述專有表現(xiàn)獲得單元獲得的專有表現(xiàn)中刪 除重復(fù)專有表現(xiàn);以及顯示單元,顯示由所述重復(fù)刪除單元?jiǎng)h除重復(fù)專有表現(xiàn)后剩下的的專有表現(xiàn)。
16、 一種專有表現(xiàn)抽取方法,依次使用一個(gè)以上的專有表現(xiàn)模式, 從一個(gè)以上的輸入文本中抽取專有表現(xiàn),所述專有表現(xiàn)模式示出在文本中包含的專有表現(xiàn)部分的判斷標(biāo)準(zhǔn),其特征在于,包括抽取順序設(shè)定步驟,決定抽取順序,該抽取順序示出按照抽取條件不同的專有表現(xiàn)模式的使用順序;以及專有表現(xiàn)抽取步驟,以所述決定的抽取順序所示的順序,使用專有表現(xiàn)模式,從所述一個(gè)以上的輸入文本中抽取專有表現(xiàn)。
17、 一種專有表現(xiàn)抽取方法,參照專有表現(xiàn)模式存儲(chǔ)單元以及抽 取順序存儲(chǔ)單元,從一個(gè)以上的輸入文本中抽取專有表現(xiàn),所述專有 表現(xiàn)模式存儲(chǔ)單元存儲(chǔ)多個(gè)專有表現(xiàn)模式,該專有表現(xiàn)模式示出在文 本中包含的專有表現(xiàn)部分的判斷標(biāo)準(zhǔn),所述抽取順序存儲(chǔ)單元存儲(chǔ)由 所述專有表現(xiàn)模式存儲(chǔ)單元存儲(chǔ)的一個(gè)以上的專有表現(xiàn)模式的、用于 抽取專有表現(xiàn)的多個(gè)順序,其特征在于,所述專有表現(xiàn)抽取方法包括:文本獲得步驟,從信息數(shù)據(jù)庫(kù)中獲得一個(gè)以上的文本; 專有表現(xiàn)抽取步驟,以所述抽取順序存儲(chǔ)單元存儲(chǔ)的各個(gè)順序, 使用專有表現(xiàn)模式,從由所述文本獲得步驟獲得的多個(gè)文本中抽取專 有表現(xiàn),將按順序抽取的專有表現(xiàn)作為專有表現(xiàn)組;以及專有表現(xiàn)決定步驟,按照由所述專有表現(xiàn)抽取步驟得到的每個(gè)專 有表現(xiàn)組,算出類似專有表現(xiàn)數(shù),輸出類似專有表現(xiàn)數(shù)最少的專有表 現(xiàn)組,所述類似專有表現(xiàn)數(shù)是該專有表現(xiàn)組中包含的類似專有表現(xiàn)的
18、 一種專有表現(xiàn)抽取方法,參照專有表現(xiàn)模式存儲(chǔ)單元以及抽 取順序存儲(chǔ)單元,從一個(gè)以上的輸入文本中抽取專有表現(xiàn),所述專有 表現(xiàn)模式存儲(chǔ)單元存儲(chǔ)多個(gè)專有表現(xiàn)模式,該專有表現(xiàn)模式示出在文 本中包含的專有表現(xiàn)部分的判斷標(biāo)準(zhǔn),所述抽取順序存儲(chǔ)單元存儲(chǔ)由 所述專有表現(xiàn)模式存儲(chǔ)單元存儲(chǔ)的一個(gè)以上的專有表現(xiàn)模式的、用于抽取專有表現(xiàn)的順序,其特征在于,所述專有表現(xiàn)抽取方法包括專有表現(xiàn)抽取步驟,按照由所述抽取順序存儲(chǔ)單元存儲(chǔ)的順序, 使用所述一個(gè)以上的專有表現(xiàn)模式,從所述一個(gè)以上的輸入文本中抽 取專有表現(xiàn);專有表現(xiàn)存儲(chǔ)步驟,將所述輸入文本、由所述專有表現(xiàn)抽取步驟 從該輸入文本中抽取的專有表現(xiàn)、以及在進(jìn)行了的該抽取的所述順序 的階段對(duì)應(yīng)起來(lái)加以存儲(chǔ);顯示條件指定步驟,指定預(yù)定的階段,或按照用戶的操作指定在 共通的階段所抽取的一個(gè)以上的專有表現(xiàn);專有表現(xiàn)獲得步驟,在由所述顯示條件指定步驟指定了預(yù)定的階 段的情況下,獲得由所述專有表現(xiàn)存儲(chǔ)步驟中存儲(chǔ)的、與所述所指定 的階段相對(duì)應(yīng)的專有表現(xiàn),并且,在由所述顯示條件指定步驟指定了 一個(gè)以上的專有表現(xiàn)的情況下,獲得由所述專有表現(xiàn)存儲(chǔ)步驟存儲(chǔ)的、 并且針對(duì)與所述指定的各個(gè)專有表現(xiàn)相對(duì)應(yīng)的輸入文本的、與所述共 通的階段的下一個(gè)階段相對(duì)應(yīng)的專有表現(xiàn);重復(fù)刪除步驟,從由所述專有表現(xiàn)獲得步驟獲得的專有表現(xiàn)中刪 除重復(fù)專有表現(xiàn);以及顯示步驟,顯示由所述重復(fù)刪除步驟刪除重復(fù)專有表現(xiàn)后剩下的 專有表現(xiàn)。
19、 一種程序,計(jì)算機(jī)可執(zhí)行該程序,該程序用于專有表現(xiàn)抽取 裝置,該專有表現(xiàn)抽取裝置依次使用一個(gè)以上的專有表現(xiàn)模式,從一 個(gè)以上的輸入文本中抽取專有表現(xiàn),所述專有表現(xiàn)模式示出在文本中 包含的專有表現(xiàn)部分的判斷標(biāo)準(zhǔn),其特征在于,使計(jì)算機(jī)執(zhí)行以下步抽取順序設(shè)定步驟,決定抽取順序,該抽取順序示出按照抽取條 件不同的專有表現(xiàn)模式的使用順序;以及專有表現(xiàn)抽取步驟,以所述決定的抽取順序所示的順序,使用專 有表現(xiàn)模式,從所述一個(gè)以上的輸入文本中抽取專有表現(xiàn)。
20、 一種程序,計(jì)算機(jī)可執(zhí)行該程序,該程序用于參照專有表現(xiàn) 模式存儲(chǔ)單元以及抽取順序存儲(chǔ)單元,從一個(gè)以上的輸入文本中抽取 專有表現(xiàn),所述專有表現(xiàn)模式存儲(chǔ)單元存儲(chǔ)多個(gè)專有表現(xiàn)模式,該專 有表現(xiàn)模式示出在文本中包含的專有表現(xiàn)部分的判斷標(biāo)準(zhǔn),所述抽取 順序存儲(chǔ)單元存儲(chǔ)由所述專有表現(xiàn)模式存儲(chǔ)單元存儲(chǔ)的一個(gè)以上的專 有表現(xiàn)模式的、用于抽取專有表現(xiàn)的多個(gè)順序,其特征在于,使計(jì)算 機(jī)執(zhí)行以下步驟文本獲得步驟,從所述信息數(shù)據(jù)庫(kù)中獲得一個(gè)以上的文本; 專有表現(xiàn)抽取步驟,以所述抽取順序存儲(chǔ)單元存儲(chǔ)的各個(gè)順序, 使用專有表現(xiàn)模式,從由所述文本獲得步驟獲得的多個(gè)文本中抽取專 有表現(xiàn),將按順序抽取的專有表現(xiàn)作為專有表現(xiàn)組;以及 專有表現(xiàn)決定步驟,按照由所述專有表現(xiàn)抽取步驟得到的每個(gè)專 有表現(xiàn)組,算出類似專有表現(xiàn)數(shù),輸出類似專有表現(xiàn)數(shù)最少的專有表 現(xiàn)組,所述類似專有表現(xiàn)數(shù)是該專有表現(xiàn)組中包含的類似專有表現(xiàn)的 數(shù)量。
21、 一種程序,計(jì)算機(jī)可執(zhí)行該程序,該程序用于參照專有表現(xiàn) 模式存儲(chǔ)單元以及抽取順序存儲(chǔ)單元,從一個(gè)以上的輸入文本中抽取 專有表現(xiàn),所述專有表現(xiàn)模式存儲(chǔ)單元存儲(chǔ)多個(gè)專有表現(xiàn)模式,該專 有表現(xiàn)模式示出在文本中包含的專有表現(xiàn)部分的判斷標(biāo)準(zhǔn),所述抽取 順序存儲(chǔ)單元存儲(chǔ)由所述專有表現(xiàn)模式存儲(chǔ)單元存儲(chǔ)的一個(gè)以上的專 有表現(xiàn)模式的、用于抽取專有表現(xiàn)的順序,其特征在于,使計(jì)算機(jī)執(zhí) 行以下步驟專有表現(xiàn)抽取步驟,按照由所述抽取順序存儲(chǔ)單元存儲(chǔ)的順序, 使用所述一個(gè)以上的專有表現(xiàn)模式,從所述一個(gè)以上的輸入文本中抽 取專有表現(xiàn);專有表現(xiàn)存儲(chǔ)步驟,將所述輸入文本、由所述專有表現(xiàn)抽取步驟 從該輸入文本中抽取的專有表現(xiàn)、以及進(jìn)行了該抽取的所述順序的階 段對(duì)應(yīng)起來(lái)加以存儲(chǔ);顯示條件指定步驟,指定預(yù)定的階段,或按照用戶的操作指定在 共通的階段所抽取的一個(gè)以上的專有表現(xiàn);專有表現(xiàn)獲得步驟,在由所述顯示條件指定步驟指定了預(yù)定的階 段的情況下,獲得由所述專有表現(xiàn)存儲(chǔ)步驟中存儲(chǔ)的、與所述所指定 的階段相對(duì)應(yīng)的所有專有表現(xiàn),并且,在由所述顯示條件指定步驟指 定了一個(gè)以上的專有表現(xiàn)的情況下,獲得由所述專有表現(xiàn)存儲(chǔ)步驟存 儲(chǔ)的、并且針對(duì)與所述指定的各個(gè)專有表現(xiàn)相對(duì)應(yīng)的輸入文本的、與 所述共通的階段的下一個(gè)階段相對(duì)應(yīng)的專有表現(xiàn);重復(fù)刪除步驟,從由所述專有表現(xiàn)獲得步驟獲得的專有表現(xiàn)中刪 除重復(fù)專有表現(xiàn);以及顯示步驟,顯示由所述重復(fù)刪除步驟刪除重復(fù)專有表現(xiàn)后剩下的 的專有表現(xiàn)。
全文摘要
一種專有表現(xiàn)抽取裝置,通過(guò)可以設(shè)定從文本中抽取專有表現(xiàn)的順序,從而可以抽取適應(yīng)用戶的專有表現(xiàn),該專有表現(xiàn)抽取裝置包括抽取順序讀取部(103),獲得由抽取順序存儲(chǔ)部(102)存儲(chǔ)的、與抽取順序相對(duì)應(yīng)的專有表現(xiàn)模式名;專有表現(xiàn)抽取部(105),使用與由抽取順序讀取部(103)獲得的專有表現(xiàn)模式名相對(duì)應(yīng)的專有表現(xiàn)模式,從輸入文本中抽取專有表現(xiàn);以及抽取結(jié)束判斷部(106),在未結(jié)束抽取的情況下,向抽取順序讀取部(103)輸出正在抽取的文本,繼續(xù)進(jìn)行專有表現(xiàn)抽取處理。
文檔編號(hào)G06F17/30GK101167075SQ20058004966
公開日2008年4月23日 申請(qǐng)日期2005年12月26日 優(yōu)先權(quán)日2005年6月15日
發(fā)明者九津見洋, 井上剛, 沖本純幸, 松浦聰, 水谷研治, 續(xù)木貴史 申請(qǐng)人:松下電器產(chǎn)業(yè)株式會(huì)社