欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

自動檢測和交互顯示來自多模態(tài)自然語言源的關(guān)于實體、活動和事件的信息的系統(tǒng)和方法

文檔序號:6501602閱讀:263來源:國知局
自動檢測和交互顯示來自多模態(tài)自然語言源的關(guān)于實體、活動和事件的信息的系統(tǒng)和方法
【專利摘要】提供了一種用于由處理裝置從多個數(shù)據(jù)源自動提取和組織信息的方法。把包括自動實體檢測的自然語言處理信息提取流水線施加到數(shù)據(jù)源。通過分析自然語言處理流水線的產(chǎn)物來識別有關(guān)檢測的實體的信息。把識別的信息分組到包含等價信息的等價類。創(chuàng)建等價類的至少一個可顯示表示。計算至少一個可顯示表示被顯示的順序。生成考慮了可顯示表示被顯示的順序的等價類組合顯示。
【專利說明】自動檢測和交互顯示來自多模態(tài)自然語言源的關(guān)于實體、活動和事件的信息的系統(tǒng)和方法
[0001 ] 關(guān)于聯(lián)邦贊助研發(fā)的聲明
[0002]利用政府資助做出了本發(fā)明,其受到(由國防部高級研究計劃局(DARPA)授予的)第HR0011-08-C-0110號合同的約束。政府在此發(fā)明中有一定權(quán)利。
【技術(shù)領(lǐng)域】
[0003]本公開涉及信息技術(shù),尤其涉及自然語言處理(NLP)系統(tǒng)。
【背景技術(shù)】
[0004]新聞機構(gòu)、博客、twitter、科學(xué)期刊和會議全都產(chǎn)生文本、音頻和視頻形式的極大量的非結(jié)構(gòu)化數(shù)據(jù)。可以從多種語言的多種模態(tài)(例如互聯(lián)網(wǎng)文本、音頻和視頻源)收集大量的這種非結(jié)構(gòu)化數(shù)據(jù)和信息。需要分析信息并生成以下各項的簡潔表示:1)諸如特定實體(比如人,組織,國家)的行動的信息;2)活動(例如總統(tǒng)選舉運動);以及3)事件(例如名人的去世)。目前,可以手動生成這些表示,但是此解決方法不經(jīng)濟,并且尤其是從多種語言收集信息時它需要有技能的工作人員。這些手動生成的表示一般也不是可伸縮的。

【發(fā)明內(nèi)容】

[0005]本公開的示范性實施例提供了自動提取和組織數(shù)據(jù)的方法,使用戶能夠交互查看有關(guān)實體、活動和事件的信息。
[0006]根據(jù)示范性實施例,信息可以從多種模態(tài)和多種語言實時地自動提取,并顯示為檢索到的信息的可導(dǎo)航且簡潔的表示形式。
[0007]示范性實施例可采用自然語言處理技術(shù)來自動分析來自多種模態(tài)和多種語言的多個源的信息,這些源包括但不限于網(wǎng)頁、博客、新聞組、無線電饋送、視頻和電視。
[0008]示范性實施例可使用把外語源翻譯成用戶的語言的自動機器翻譯系統(tǒng)的輸出,以及可使用來自把視頻和音頻饋送轉(zhuǎn)換成文本的自動語音轉(zhuǎn)錄系統(tǒng)的輸出。
[0009]示范性實施例可采用包括信息提取工具、問答工具和提煉(distillation)工具的自然語言處理技術(shù)來自動分析如上所述生成的文本,并提取可搜索且可概括的信息。系統(tǒng)可執(zhí)行名稱實體檢測、跨文檔共指消解(co-reference resolution)、關(guān)系檢測以及事件檢測和跟蹤。
[0010]示范性實施例可采用自動相關(guān)性檢測技術(shù)和冗余減少方法來向用戶提供相關(guān)且非冗余的信息。
[0011]示范性實施例可通過為用戶提供用來指定感興趣的實體、活動或事件(例如:通過鍵入自然語言查詢,通過從自動生成的滿足用戶指定要求的實體(例如,用戶指定的時間段內(nèi)在數(shù)據(jù)源中突出記載的實體)的列表中選擇實體,通過瀏覽文章來選擇文本段,或者通過從在指定的時間段內(nèi)自動檢測的事件/話題的表示來選擇事件或話題)的裝置來把期望的信息顯示為簡潔且可導(dǎo)航的表示形式。[0012]示范性實施例可通過適應(yīng)性地構(gòu)建與推斷的用戶意圖最佳匹配的模板來響應(yīng)于用戶查詢而自動生成頁面(例如,如果用戶選擇作為政治家的人,則系統(tǒng)會檢測此事實,搜索關(guān)于該人的選舉運動、公開露面、聲明和公共服務(wù)歷史的信息;如果用戶選擇公司,則系統(tǒng)會搜索有關(guān)該公司的近期新聞,有關(guān)該公司的高級官員的信息,新聞發(fā)布稿,等等)。
[0013]根據(jù)示范性實施例,如果用戶選擇事件,則系統(tǒng)可以搜索有關(guān)該事件的新聞項目、對事件的反應(yīng)、事件的結(jié)果以及相關(guān)事件。系統(tǒng)可自動檢測事件中牽涉的實體,例如人、國家、地方政府、公司和組織,并檢索與這些實體有關(guān)的相關(guān)信息。
[0014]示范性實施例可允許用戶跟蹤在生成的頁面上出現(xiàn)的實體,包括根據(jù)可獲得的數(shù)據(jù)自動生成人的簡歷,以及列出從可獲得的數(shù)據(jù)自動提取的組織的近期行動。
[0015]示范性實施例可允許使用戶查看出現(xiàn)在頁面上的事件或活動,包括自動建立正在進行的事件中的重要時刻的時間表。
[0016]示范性實施例可允許用戶查看實體和事件之間的聯(lián)系(例如,提供關(guān)于公司在事件中的角色的信息,列出個人關(guān)于話題的語錄,描述兩個公司間的關(guān)系,總結(jié)兩人之間的會面或接觸以及可選地檢索所需實體的圖像)。
[0017]根據(jù)示范性實施例,提供了一種用于由處理裝置從多個數(shù)據(jù)源自動提取和組織信息的方法。包括實體的自動檢測的自然語言處理信息提取流水線被施加到數(shù)據(jù)源。通過分析自然語言處理流水線的產(chǎn)物來識別關(guān)于所檢測的實體的信息。識別的信息分組成包含等價信息的等價類。創(chuàng)建等價類的至少一種可顯示表示。計算至少一種可顯示表示被顯示的順序。生成考慮了可顯示表示被顯示的順序的等價類組合表示。
[0018]每個等價類都可包括項的集合。每項都可包括從文檔提取的一段文本和有關(guān)從該段文本導(dǎo)出的所需實體的信息的規(guī)范(specification)。
[0019]計算可顯示表示被顯示的順序可以包括隨機計算順序。
[0020]把識別的信息分組成等價類可以包括把各識別的信息分配到單獨的等價類。
[0021]把識別的信息分組成等價類可以包括計算每個等價類的代表性實例,確保不同類的代表性實例相互不是冗余的,以及確保每個等價類的實例相對于該等價類的代表性實例是冗余的。
[0022]根據(jù)示范性實施例,提供了一種用于由處理裝置處理信息的方法。接收到用戶查詢。根據(jù)用戶查詢推斷出用戶查詢意圖,以形成推斷的用戶意圖。通過利用包括文本、音頻和視頻中的至少一個的多種模態(tài)的自然處理適應(yīng)性地構(gòu)建與推斷的用戶意圖對應(yīng)的模板,響應(yīng)于用戶查詢而自動生成頁面。
[0023]當用戶查詢選擇具有政治身份的人時,可搜索該政治身份,可搜索關(guān)于選舉運動、公開露面、聲明和公共服務(wù)歷史中的至少一個的信息,以及可自動生成響應(yīng)于用戶查詢的頁面。
[0024]當用戶查詢選擇公司時,可搜索有關(guān)該公司的近期新聞、該公司的高級官員的信息和公司的新聞發(fā)布稿中的至少一個的信息,以及可自動生成響應(yīng)于用戶查詢的頁面。
[0025]當用戶查詢選擇事件時,可以搜索有關(guān)該事件的新聞項目和對事件的反應(yīng)中至少一個的信息,以及可自動生成響應(yīng)于用戶查詢的頁面。
[0026]可識別和搜索事件中的實體和關(guān)于這些實體的檢索的相關(guān)信息。
[0027]根據(jù)示范性實施例,提供了一種由處理裝置從具有多個語言的多種信息模態(tài)的文檔語料庫自動提取和組織信息以供顯示給用戶的方法。瀏覽文檔語料庫,以識別和增量地(incrementally)檢索包含音頻/視頻文件的文檔。來自音頻/視頻文件的文本被轉(zhuǎn)錄,以提供文本表示。外語的文本表示的文本被翻譯。關(guān)于實體、活動和事件中的至少一個的所需信息被增量地提取。組織提取的信息。組織好的提取信息被轉(zhuǎn)換成可展示給用戶的可導(dǎo)航顯示。
[0028]增量地提取所需信息可包括:把自然語言處理流水線施加到各文檔,以遍歷語料庫中檢測的所有實體,以及識別牽涉到選擇的實體的關(guān)系表述(mention)和事件表述,其中實體是下面各項的至少一個:物理生命體、物理無生命體、具有專有名稱的事物、具有可度量的物理屬性的事物、法人實體和抽象概念,表述是提到實體的一段文字,關(guān)系是兩個實體間的聯(lián)系,關(guān)系表述是描述關(guān)系的一段文字,以及事件是牽涉一個或多個行動的兩個或更多個實體之間的關(guān)系集合。
[0029]組織提取的信息可包括:遍歷語料庫中識別的所有實體,把提取的關(guān)于實體的信息分成包含等價信息的所選等價類,遍歷所有等價類,選擇每個等價類中的一項來代表該等價類中的所有項,以及記錄有關(guān)該等價類和有關(guān)選擇用來生成可導(dǎo)航顯示的代表的信息,其中每個等價類都可包括項的集合,每項都具有從文檔提取的一段文本和有關(guān)從該段文本導(dǎo)出的所需實體的信息的規(guī)范。
[0030]把組織好的提取信息轉(zhuǎn)換成可展示給用戶的可導(dǎo)航顯示可以包括:通過向等價類分配該類中各條信息的最高分數(shù)、它的成員的平均分數(shù)、它的成員的中值分數(shù)和它的成員的分數(shù)之和中的至少一個來給信息的各等價類評分,按分數(shù)降序排序各等價類,以安排等價類顯示給用戶的順序的優(yōu)先次序,對每一等價類進行遍歷,構(gòu)建選擇的實例的可顯示表示,以及把可顯示表示進行組合來生成等價類的可顯示表示。
[0031]可顯示表示可以包括包含用可視化高亮標記的提取信息的段落。
[0032]根據(jù)示范性實施例,提供了一種包含可由處理器執(zhí)行以便交互顯示來自多模態(tài)自然語言源的有關(guān)實體、活動和事件的信息的指令的非暫時性計算機程序存儲裝置。信息提取模塊包括用于從文本和音頻/視頻下載文檔內(nèi)容、用于對文檔內(nèi)容進行分析、用于檢測表述、用于共指(co-reference )、用于跨文檔共指以及用于提取關(guān)系的指令代碼。信息收集模塊包括用于從信息提取模塊提取熟人、簡歷和事件介入的指令代碼。信息顯示模塊包括用于顯示來自信息收集模塊的信息的指令代碼。
[0033]信息提取模塊還可包括用于轉(zhuǎn)錄來自視頻源的音頻和用于把非英語的轉(zhuǎn)錄音頻翻譯成英語文本的指令代碼。
[0034]信息提取模塊可包括用于把同一實體下的表述聚類以及用于跨文檔鏈接實體聚類的指令代碼。
[0035]信息收集模塊可包括用于輸入句子和實體以及從該句子提取有關(guān)該實體的特定信息的指令代碼。
[0036]信息顯示模塊可包括用于把結(jié)果分組成非冗余的集合、排序各集合、生成每個集合的簡要說明、為每個集合選擇代表性片斷(snippet)、高亮顯示該片斷的包含有關(guān)特定選項卡(tab)的信息的部分、構(gòu)建到其他頁面的導(dǎo)航超級鏈接以及生成用來圖形化表現(xiàn)選項卡內(nèi)容的數(shù)據(jù)的指令代碼。
[0037]根據(jù)示范性實施例,提供了一種包含可由處理器執(zhí)行以便自動提取和組織來自多個數(shù)據(jù)源的信息的指令的非暫時性計算機程序存儲裝置。提供了用于向數(shù)據(jù)源施加包括實體的自動檢測的自然語言處理信息提取流水線的指令代碼。提供了用于通過分析自然語言處理流水線的產(chǎn)物來識別有關(guān)檢測的實體的信息的指令代碼。提供了用于把識別的信息分組成包含等價信息的等價類的指令代碼。提供了用于建立等價類的至少一個可顯示表示的指令代碼。提供了計算至少一個可顯示表示被顯示的順序的指令代碼。提供了用于生成考慮了所述可顯示表示被顯示的順序的等價類組合顯示的指令代碼。
【專利附圖】

【附圖說明】
[0038]根據(jù)下面結(jié)合附圖進行的詳細說明,將更清楚地理解示范性實施例,其中:
[0039]圖1示出了根據(jù)示范性實施例的操作步驟序列;
[0040]圖2示出了根據(jù)圖1的操作步驟的一部分的操作步驟序列;
[0041]圖3示出了根據(jù)圖2的操作步驟的一部分的操作步驟序列;
[0042]圖4示出了根據(jù)圖1的操作步驟的一部分的操作步驟序列;
[0043]圖5示出了根據(jù)圖1的操作步驟的一部分的操作步驟序列;
[0044]圖6示出了根據(jù)示范性實施例的示范性實體頁面;
[0045]圖7(a)和7(b)示出了用于新聞廣播應(yīng)用的示范性實體頁面;以及
[0046]圖8示出了根據(jù)示范性實施例的用于執(zhí)行操作步驟序列的程序存儲裝置和處理器。
【具體實施方式】
[0047]現(xiàn)在將更詳細地提到示范性實施例,在附圖中示出了示范性實施例的例子,其中類似的附圖標記始終指代類似的元件。
[0048]示范性實施例中,術(shù)語“文檔”可指不考慮格式的文本文檔、包括流式音頻和視頻的媒體文件以及上面的混合(例如嵌有視頻和音頻流的網(wǎng)頁)。
[0049]示范性實施例中,術(shù)語“語料庫”指多媒體文檔的正式或非正式集合,多媒體文檔例如是科學(xué)期刊中發(fā)表的所有論文或者由講阿拉伯語的國家中的新聞機構(gòu)發(fā)表的所有英語網(wǎng)頁。
[0050]示范性實施例中,術(shù)語“實體”可指物理生命體(比如人)、物理無生命體(比如建筑物)、有專有名稱的事物(比如珠穆朗瑪峰)、具有可度量的物理屬性的事物(比如,時間點或時間段、公司、鎮(zhèn)、國土)、法人實體(比如國家)和抽象概念(比如度量單位和物理屬性的度量)。
[0051]示范性實施例中,術(shù)語“表述”表示提到實體的一段文字。給定大的結(jié)構(gòu)化文檔集,實體可與在該結(jié)構(gòu)化文檔集中出現(xiàn)的所有它的表述的集合相關(guān)聯(lián),因此術(shù)語實體也可用來表示此集合。
[0052]示范性實施例中,術(shù)語“關(guān)系”指兩個實體間的聯(lián)系(例如,巴拉克.奧巴馬是美國總統(tǒng);米歇爾.奧巴馬和巴拉克.奧巴馬結(jié)婚了)。關(guān)系表述是明確描述關(guān)系的一段文字。因此,關(guān)系表述涉及到兩個實體表述。
[0053]示范性實施例中,術(shù)語“事件”指牽涉一種或多種行動的、兩個或更多個實體之間的關(guān)系集合。[0054]圖1示出了可應(yīng)用于由新聞機構(gòu)創(chuàng)建的網(wǎng)頁組成的并包含多個語言的多種信息模態(tài)的新聞文檔語料庫的一個示范性實施例的概觀。在步驟110中以有條理的自動方式瀏覽(即爬行)多模態(tài)語料庫100,其中語料庫中的多模態(tài)文檔被識別和增量地檢索。這種爬行可以增量的方式進行,這種情況下,它會僅檢索在此前的爬行操作期間不可獲得的文檔。接著在步驟120,通過轉(zhuǎn)錄分析包含音頻信息的文檔,例如音頻文件或帶音頻的視頻文件。步驟120后,可獲得所有多模態(tài)文檔的文本表示。在翻譯步驟130,外語的文本被翻譯。結(jié)果是包含所需語目的文檔以及其源語目中的其原始版本的多模態(tài)語料庫的文本表不140。 [0055]在步驟150中增量地分析語料庫的文本表示140,該步驟提取有關(guān)實體、活動和事件的所需信息(信息提取(IE))。步驟160中組織所提取的信息,并且把組織好的信息轉(zhuǎn)換成呈現(xiàn)給用戶的可導(dǎo)航顯示形式。
[0056]圖2示出了根據(jù)示范性實施例、增量地提取有關(guān)實體、活動和事件的信息的步驟150的IE過程。步驟210包括把自然語言處理流水線施加到集合的各文檔。可隨著新文檔添加到語料庫增量地施加流水線。步驟220遍歷語料庫中檢測的所有實體。可通過隨著新文檔被添加到語料庫遍歷僅僅新文檔中檢測的實體來增量地應(yīng)用步驟220。步驟230識別牽涉由步驟220選擇的實體的由步驟210提取的關(guān)系表述。步驟240識別牽涉由步驟220選擇的實體的表述的事件表述。步驟250提取關(guān)于由步驟220選擇的實體的信息。
[0057]圖3示出了圖2中描繪的自然語言處理流水線步驟210的例子。文本清理步驟310從文本清除無關(guān)的字符,例如格式字符、超文本標記語言(HTML)標簽等。分詞(tokenization)步驟320分析清理過的文本并識別詞和句子的邊界。詞性標記步驟330把每個詞與描述其語法功能的標簽聯(lián)系起來。表述檢測步驟340識別分詞的文本中的實體表述和指示事件存在的詞語(稱為事件錨)。分析步驟350提取每個句子的層級語法結(jié)構(gòu),且通常把它表示成一顆樹。語義角色標記步驟360識別由分析步驟350提取的樹中每個節(jié)點如何與該句中的每個動詞語義上關(guān)聯(lián)。共指消解步驟370識別由表述檢測340生成的表述所屬的實體。關(guān)系提取步驟380檢測實體表述對之間以及實體表述與事件錨之間的關(guān)系。本領(lǐng)域普通技術(shù)人員會理解,這些步驟可采用公知的統(tǒng)計方法、規(guī)則或其組合來實施。
[0058]圖4示出了根據(jù)圖1的步驟160的組織有關(guān)實體的信息的示范性實施例。
[0059]步驟410遍歷語料庫中識別的所有實體。步驟410的增量實施例包括隨著新文檔添加到語料庫遍歷新文檔中識別的所有實體。
[0060]步驟420把提取的有關(guān)由遍歷步驟410選擇的實體的信息分成包含等價或冗余信息的等價類。在示范性實施例中,每個等價類將包括項的集合,其中每項包括從文檔提取的一段文本和有關(guān)從該段文本導(dǎo)出的所需實體的信息的規(guī)范。本領(lǐng)域普通技術(shù)人員會理解,這些等價類可以是互不相交的,或者可能是重疊的,其中同一項可屬于一個或多個等價類。
[0061]步驟430遍歷由步驟420生成的等價類。
[0062]步驟440將在類中選擇最能代表該類中所有項的一項。選擇步驟440采用的選擇標準可包括但不限于:選擇在等價類中出現(xiàn)的最常見的文本段(例如,段“美國總統(tǒng)巴拉克.歐巴馬”比“巴拉克.歐巴馬,美國總統(tǒng)”更常見,且根據(jù)此選擇標準,會被選取為描述“巴拉克.歐巴馬”與“美國”的關(guān)系的代表段),選擇傳達了最大量的信息的文本段(例如,“巴拉克.歐巴馬是美國的第44屆且在任的總統(tǒng)”比“美國總統(tǒng)巴拉克.歐巴馬”傳達了更多有關(guān)“巴拉克?歐巴馬”與“美國”之間關(guān)系的信息,且根據(jù)此標準會被選取為代表),以及選擇具有由提取步驟150生成的最高分數(shù)的文本段(如果該步驟把分數(shù)與其結(jié)果聯(lián)系)。
[0063]步驟450記錄有關(guān)等價類和有關(guān)由步驟440選擇的代表的信息,使得該信息可被圖1的后續(xù)步驟170利用。圖4中示出的方法可適應(yīng)于這種情形:等價類可重疊,而仍然需要例如通過優(yōu)化過程來選擇用于不同類的不同代表,該優(yōu)化過程會組合上面列舉的選擇標準或者具有會有利于選擇重疊等價類的不同代表的差異性度量的等價選擇標準中的一個或多個。
[0064]在步驟420的一個示范性實施例中,提取的信息的各個實例可包括來自文檔的段(等效于段落)以及有關(guān)從該段提取的所需實體的信息的規(guī)范。此規(guī)范可包括屬性值對的集合、研究描述框架(RDF)三元組的集合、關(guān)系數(shù)據(jù)庫中的關(guān)系集合等。規(guī)范可采用諸如可擴展標記語言(XML)的描述語言、采用RDF表示語言、采用數(shù)據(jù)庫等來表示。
[0065]步驟420可包括識別滿足兩個條件的提取信息的實例組:第一個條件是每組都包含至少一個實例(主實例),在給定該實例的情況下該組中所有其他實例是冗余的;第二個條件是不同組的主實例彼此不是冗余的??刹捎脗鹘y(tǒng)的聚類算法或增量聚類算法來實現(xiàn)該結(jié)果。
[0066]圖5示出了用于構(gòu)建關(guān)于實體的且根據(jù)圖4中描繪的方法收集的信息的可顯示表示的圖1的步驟170的方法的一個示范性實施例。
[0067]步驟510中,例如,通過把等價類中各條信息的最高分數(shù)分配給該等價類,給步驟420生成的信息的等價類評分?;蛘?,其他量可用作等價類的分數(shù),例如:其成員的平均分,其成員的中值分,其成員的分數(shù)之和,等等。根據(jù)圖5中描繪的方法,分數(shù)被用來安排等價類顯示給用戶的順序的優(yōu)先次序。
[0068]步驟520把等價類按分數(shù)降序排序。
[0069]步驟530選擇每個等價類。針對選擇的等價類的所有實例(步驟540),步驟550構(gòu)建從等價類選擇的實例的可顯示表示。在一個示范性實施例中,這種可顯示表示包括含有用可視化高亮適當標記的提取的信息的段落。這種可視化高亮可包括用來區(qū)分提取的信息的顏色。此外,可顯示表示可能包括可視化提示,以容易地識別存在信息頁的其他實體。
[0070]步驟560把步驟550生成的表示組合起來,以生成等價類的可顯示表示。在一個示范性實施例中,此步驟包括顯示等價類的代表實例和提供用于顯示其他成員的手段(例如,通過提供至這些成員的表示的鏈接)。
[0071]現(xiàn)在參考圖6,示出了描繪個人Leon Panetta的實體的一個示范性頁面(即實體頁(EP))。頁面劃分成左右部分。左部分的兩個框包含從維基百科因特網(wǎng)百科全書或者其他可靠信息源分別自動提取的圖片和簡歷信息。右部分包含按照其傳達的信息的種類組織文本的相關(guān)小段(片斷)的一組選項卡。各選項卡中的內(nèi)容是下面進一步詳述的一系列信息提取模塊的輸出。各選項卡還示出了其內(nèi)容的內(nèi)容圖形概要。
[0072]下面示出的表I概括了由各選項卡中的文本片斷傳達的信息。
【權(quán)利要求】
1.一種用于由處理裝置從多個數(shù)據(jù)源自動提取和組織信息的方法,包括: 把包括自動實體檢測的自然語言處理信息提取流水線施加到數(shù)據(jù)源; 通過分析自然語言處理流水線的產(chǎn)物來識別有關(guān)所檢測的實體的信息; 把識別的信息分組到包含等價信息的等價類; 創(chuàng)建等價類的至少ー個可顯示表示; 計算至少ー個可顯示表示被顯示的順序;以及 生成考慮了可顯示表示被顯示的順序的等價類組合顯示。
2.權(quán)利要求1的方法,其中每個等價類包括項的集合,每項包括從文檔提取的一段文本和有關(guān)從該段文本導(dǎo)出的所需實體的信息的規(guī)范。
3.權(quán)利要求1的方法,其中計算可顯示表示被顯示的順序還包括隨機計算順序。
4.權(quán)利要求1的方法,其中把識別的信息分組到等價類還包括把每個識別的信息分配到単獨的等價類。
5.權(quán)利要求1的方法,其中把識別的信息分組到等價類還包括: 計算每個等價類的代表性實例; 確保不同類的代表性實例相互不是冗余的; 確保每個等價類的實例相對于該等價類的代表性實例是冗余的。
6.一種用于由處理裝置處 理信息的方法,包括: 接收用戶查詢; 從用戶查詢推斷用戶查詢意圖,以形成推+斷的用戶意圖;以及通過利用包括文本、音頻和視頻中至少ー個的多種模態(tài)的自然處理來適應(yīng)性地構(gòu)建與推斷的用戶意圖對應(yīng)的模板,響應(yīng)于用戶查詢而自動生成頁面。
7.權(quán)利要求6的方法,還包括:當用戶查詢選擇具有政治身份的人吋, 檢測該政治身份, 捜索關(guān)于選舉運動、公開露面、聲明和公共服務(wù)歷史中至少ー個的信息,以及 自動生成響應(yīng)于用戶查詢的頁面。
8.權(quán)利要求6的方法,還包括:當用戶查詢選擇公司吋, 捜索有關(guān)該公司的近期新聞、該公司的高級官員的信息和該公司的新聞發(fā)布稿中至少一個的信息;以及 自動生成響應(yīng)于用戶查詢的頁面。
9.權(quán)利要求6的方法,還包括:當用戶查詢選擇事件吋, 捜索有關(guān)該事件的新聞項目和對事件的反應(yīng)中至少ー個的信息;以及 自動生成響應(yīng)于用戶查詢的頁面。
10.權(quán)利要求9的方法,其中識別事件中的實體和捜索有關(guān)這些實體的所檢索的相關(guān)信息。
11.一種用于由處理裝置從具有多種語言的的多種信息模態(tài)的文檔語料庫自動提取和組織信息以便顯示給用戶的方法,該方法包括: 瀏覽文檔語料庫,以識別和増量地檢索包含音頻/視頻文件的文檔; 轉(zhuǎn)錄來自音頻/視頻文件的文本,以提供文本表示; 翻譯外語的文本表示的文本;增量地提取關(guān)于實體、活動和事件中至少一個的所需信息; 組織提取的信息;以及 把組織好的所提取信息轉(zhuǎn)換成可展示給用戶的可導(dǎo)航顯示。
12.權(quán)利要求11的方法,其中增量地提取所需信息包括: 把自然語言處理流水線施加到各文檔,以遍歷所述語料庫中檢測的所有實體; 識別牽涉到選擇的實體的關(guān)系表述和事件表述, 其中實體是下面各項的至少一個:物理生命體、物理無生命體、有專用名稱的事物、具有可度量的物理屬性的事物、法人實體和抽象概念, 其中表述是提到實體的一段文字, 其中關(guān)系是兩個實體間的聯(lián)系, 其中關(guān)系表述是描述關(guān)系的一段文字,以及 其中事件是牽涉一個或多個行動的兩個或更多個實體之間的關(guān)系集合。
13.權(quán)利要求11的方法,其中組織提取的信息包括: 遍歷所述語料庫中識別的所有實體; 把提取的關(guān)于實體的信息分 成包含等價信息的被選等價類; 遍歷所有等價類; 選擇每個等價類中的一項來代表該等價類中的所有項;以及 記錄有關(guān)該等價類和有關(guān)選擇用來生成可導(dǎo)航顯示的代表的信息, 其中每個等價類包括項的集合,每項具有從文檔提取的一段文本和有關(guān)從該段文本導(dǎo)出的所需實體的信息的規(guī)范。
14.權(quán)利要求11的方法,其中把組織好的所提取信息轉(zhuǎn)換成可展示給用戶的可導(dǎo)航顯示包括: 通過為等價類分配該類中各條信息的最高分數(shù)、它的成員的平均分數(shù)、它的成員的中值分數(shù)和它的成員的分數(shù)之和中的至少一個來給信息的等價類評分; 按分數(shù)降序排序等價類,以安排等價類被顯示給用戶的順序的優(yōu)先次序; 對每一等價類進行遍歷,構(gòu)建選擇的實例的可顯示表示;以及 把可顯示表示進行組合,以生成等價類的可顯示表示。
15.權(quán)利要求14的方法,其中可顯示表示包括包含用可視化高亮標記的提取信息的段落。
16.一種包含能夠由處理器執(zhí)行以便交互顯示來自多模態(tài)自然語言源的有關(guān)實體、活動和事件的信息的指令的非暫時性計算機程序存儲裝置,所述非暫時性計算機程序存儲裝置包括配置成存儲以下各項的存儲器: 信息提取模塊,具有用于從文本和音頻/視頻下載文檔內(nèi)容、用于對文檔內(nèi)容進行分析、用于檢測表述、用于共指、用于跨文檔共指以及用于提取關(guān)系的指令代碼; 信息收集模塊,具有用于從所述信息提取模塊提取熟人、簡歷和事件介入的指令代碼; 信息顯示模塊,具有用于顯示來自所述信息收集模塊的信息的指令代碼。
17.權(quán)利要求16的非暫時性計算機程序存儲裝置,其中所述信息提取模塊還包括用于從視頻源轉(zhuǎn)錄音頻和用于把非英語的轉(zhuǎn)錄音頻翻譯成英語文本的指令代碼。
18.權(quán)利要求16的非暫時性計算機程序存儲裝置,其中所述信息提取模塊還包括用于把同一實體下的表述聚類以及用于跨文檔鏈接實體聚類的指令代碼。
19.權(quán)利要求16的非暫時性計算機程序存儲裝置,其中所述信息收集模塊還包括用于輸入句子和實體以及從該句子提取有關(guān)該實體的特定信息的指令代碼。
20.權(quán)利要求16的非暫時性計算機程序存儲裝置,其中所述信息顯示模塊還包括用于把結(jié)果分組成非冗余的集合、排序所述非冗余的集合、生成每個集合的簡要說明、為每個集合選擇代表性片斷、高亮顯示該片斷的包含有關(guān)特定選項卡的信息的部分、構(gòu)建到其他頁面的導(dǎo)航超級鏈接以及生成用來圖形化表示選項卡內(nèi)容的數(shù)據(jù)的指令代碼。
21.一種包含能夠由處理器執(zhí)行以便自動提取和組織來自多個數(shù)據(jù)源的信息的指令的非暫時性計算機程序存儲裝置,所述非暫時性計算機程序存儲裝置包括配置成存儲以下各項的存儲器: 用于向數(shù)據(jù)源施加包括實體自動檢測的自然語言處理信息提取流水線的指令代碼; 用于通過分析所述自然語言處理流水線的產(chǎn)物來識別有關(guān)檢測的實體的信息的指令代碼; 用于把識別的信息分組到包含等價信息的等價類的指令代碼 用于創(chuàng)建等價類的至少一個可顯示表示的指令代碼; 用于計算至少一個可顯示表示被顯示的順序的指令代碼; 用于生成考慮了所述可顯示表示被顯示的順序的等價類組合顯示的指令代碼。
22.權(quán)利要求21的非暫時性計算機程序存儲裝置,其中每個等價類包括項的集合,每項包括從文檔提取的一段文本和有關(guān)從該段文本導(dǎo)出的所需實體的信息的規(guī)范。
23.權(quán)利要求21的非暫時性計算機程序存儲裝置,其中計算所述可顯示表示被顯示的順序還包括隨機計算順序。
24.權(quán)利要求21的非暫時性計算機程序存儲裝置,其中把識別的信息分組到等價類還包括把各識別的信息分配到單獨的等價類。
25.權(quán)利要求21的非暫時性計算機程序存儲裝置,其中把識別的信息分組到等價類還包括: 計算每個等價類的代表性實例; 確保不同類的代表性實例相互不是冗余的;以及 確保每個等價類的實例相對于該等價類的代表性實例是冗余的。
【文檔編號】G06F17/30GK103488663SQ201310122395
【公開日】2014年1月1日 申請日期:2013年4月10日 優(yōu)先權(quán)日:2012年6月11日
【發(fā)明者】V·卡斯泰利, R·弗洛利安, 羅小強, H·拉格哈萬 申請人:國際商業(yè)機器公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
资源县| 乐平市| 丰县| 湛江市| 盐池县| 莫力| 肥西县| 阿拉善盟| 高阳县| 云南省| 灵川县| 东阿县| 玉屏| 肥乡县| 平顺县| 通江县| 石家庄市| 神池县| 四川省| 云林县| 东兰县| 全椒县| 亚东县| 齐河县| 永德县| 营口市| 翼城县| 比如县| 金坛市| 保靖县| 辽阳市| 福州市| 五华县| 湖口县| 宁海县| 富宁县| 武城县| 科技| 上栗县| 昌吉市| 龙泉市|