欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

用于選擇用以代表表格式信息的方法和系統(tǒng)的制作方法

文檔序號:8395851閱讀:490來源:國知局
用于選擇用以代表表格式信息的方法和系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明總體上涉及用于處理文檔的方法、系統(tǒng)和計算機程序產(chǎn)品。更具體地,本發(fā) 明涉及用于選擇用以代表表格式信息的結(jié)構(gòu)的方法、系統(tǒng)和計算機程序產(chǎn)品。
【背景技術(shù)】
[0002] 文檔包括很多形式的信息。例如,被布置為語句和段落的文本信息傳達(dá)敘述形式 的信息。
[0003] 一些類型的信息用表格式組織來呈現(xiàn)。例如,文檔可以包括用于呈現(xiàn)財務(wù)信息、組 織信息以及總體上通過某種關(guān)系彼此相關(guān)的任何數(shù)據(jù)項的表格。
[0004] 自然語言處理(NLP)是一種有助于信息在人與數(shù)據(jù)處理系統(tǒng)之間的交換的技術(shù)。 例如,NLP的一個分支涉及將給定內(nèi)容變換成人類可用的語言或形式。例如,NLP可以接受 其內(nèi)容是計算機專用語言或形式的文檔,并且產(chǎn)生其對應(yīng)內(nèi)容是人類可讀形式的文檔。
[0005] 問答系統(tǒng)(Q&A系統(tǒng))是一種在數(shù)據(jù)處理硬件上執(zhí)行的人工智能應(yīng)用。Q&A系統(tǒng)回 答與用自然語言所呈現(xiàn)的給定主題領(lǐng)域有關(guān)的問題。
[0006] 通常,Q&A系統(tǒng)提供有對如下領(lǐng)域特定信息的集合的訪問:Q&A系統(tǒng)基于該領(lǐng)域特 定信息的集合回答與該領(lǐng)域有關(guān)的問題。例如,Q&A系統(tǒng)訪問關(guān)于該領(lǐng)域的知識體系,其中 知識體系(知識庫)可以按照各種配置來組織。例如,某個領(lǐng)域的知識庫可以包括領(lǐng)域特 定信息的結(jié)構(gòu)化存儲庫、諸如與該領(lǐng)域有關(guān)的本體論或非結(jié)構(gòu)化數(shù)據(jù)、或者關(guān)于該領(lǐng)域的 自然語言文檔的集合。IBMWatson是Q&A系統(tǒng)的一個示例。(IBM和Watson是美國和其他 國家的國際商用機器公司的商標(biāo))。
[0007] Q&A系統(tǒng)可以被配置成接收來自各種源的輸入。例如,Q&A系統(tǒng)可以通過網(wǎng)絡(luò)接收 以下內(nèi)容作為輸入:電子文檔或其他數(shù)據(jù)的語料庫、來自內(nèi)容創(chuàng)建者的數(shù)據(jù)、來自一個或多 個內(nèi)容用戶的信息、以及來自其他可能的輸入源的其他這樣的輸入。至Q&A系統(tǒng)的輸入中 的一些或所有輸入可以通過網(wǎng)絡(luò)102來被路由。網(wǎng)絡(luò)上的各種計算設(shè)備可以包括用于內(nèi)容 創(chuàng)建者和內(nèi)容用戶的訪問點。這些計算設(shè)備中的一些計算設(shè)備可以包括用于存儲數(shù)據(jù)的語 料庫的設(shè)備。網(wǎng)絡(luò)可以包括本地網(wǎng)絡(luò)連接和遠(yuǎn)程連接,使得Q&A系統(tǒng)可以在任何尺寸的環(huán) 境、包括本地和全局環(huán)境、例如因特網(wǎng)中進(jìn)行操作。另外地,Q&A系統(tǒng)可以被配置成用作前 端系統(tǒng),該前端系統(tǒng)能夠使得從文檔、網(wǎng)絡(luò)可訪問的源和/或結(jié)構(gòu)化的數(shù)據(jù)源提取的或在 其中代表的各種知識可用。以這一方式,一些處理填充具有輸入接口的Q&A系統(tǒng)以接收知 識請求以及相應(yīng)地接收響應(yīng)。
[0008] 內(nèi)容創(chuàng)建者在文檔中創(chuàng)建內(nèi)容用于作為數(shù)據(jù)的語料庫的一部分、通過Q&A系統(tǒng) 來使用。文檔可以包括用于在Q&A系統(tǒng)中使用的任何文件、文本、文章或數(shù)據(jù)源。內(nèi)容用 戶向Q&A系統(tǒng)中輸入問題,這些問題由Q&A系統(tǒng)使用數(shù)據(jù)的語料庫中的內(nèi)容來回答。在處 理針對語義內(nèi)容評估文檔的給定部分時,處理可以使用各種約定來向Q&A系統(tǒng)詢問這樣 的文檔。一個約定是將詢問作為格式良好的問題發(fā)送給Q&A系統(tǒng)。語義內(nèi)容是基于能指 (signifier)、諸如詞語、短語、標(biāo)記和符號之間的關(guān)系的內(nèi)容、以及它們代表什么、它們的 意義或者蘊意。換言之,語義內(nèi)容是諸如通過使用自然語言處理來解釋表達(dá)的內(nèi)容。
[0009] 處理向Q&A系統(tǒng)發(fā)送形式合法的問題(例如自然語言問題)。Q&A系統(tǒng)解釋問題 并且向內(nèi)容用戶提供包含問題的一個或多個答案的響應(yīng)。Q&A系統(tǒng)還可以按答案的經(jīng)排序 的列表向用戶提供響應(yīng)。
[0010] 作為示例,IBMWatson?Q&A系統(tǒng)接收輸入問題,解析問題以提取問題的主要特 征,使用提取出的特征來制定詢問,以及將這些詢問應(yīng)用于數(shù)據(jù)的語料庫?;趯⒃儐枒?yīng)用 于數(shù)據(jù)的語料庫,Q&A系統(tǒng)通過以下操作來生成輸入問題的假說或候選答案的集合:遍及 數(shù)據(jù)的語料庫查找數(shù)據(jù)的語料庫的有某一可能性包含針對輸入問題的有價值響應(yīng)的部分。
[0011] IBMWatson?Q&A系統(tǒng)然后通過使用各種推理算法對輸入問題的語言以及數(shù)據(jù)的 語料庫在應(yīng)用詢問期間被找出的部分中的每個部分中所使用的語言執(zhí)行分析??梢詰?yīng)用數(shù) 百個甚至數(shù)千個推理算法,其中每個算法執(zhí)行不同的分析、例如比較并且生成得分。例如, 某些推理算法可以查看輸入問題的語言內(nèi)的用語及同義字與數(shù)據(jù)的語料庫的找出部分的 匹配。其他推理算法可以查找語言中的時間特征和空間特征,而再其他的推理算法可以評 估數(shù)據(jù)的語料庫的部分的來源并且評估其真實性。
[0012] 從各種推理算法獲得的得分指示基于該推理算法的特定關(guān)注區(qū)域的、潛在響應(yīng)通 過輸入問題而被推斷出的程度。每個所得得分然后相對于統(tǒng)計模型而被加權(quán)。統(tǒng)計模型捕 獲推理算法在IBMWatson?Q&A系統(tǒng)的訓(xùn)練期期間在建立特定領(lǐng)域的兩個相似的段落之間 的推斷時表現(xiàn)得怎樣。統(tǒng)計模型然后可以用于概述IBMWatson?Q&A系統(tǒng)對于如下證據(jù)所 具有的置信度水平:潛在響應(yīng)、即候選答案通過問題被推斷出。這個過程可以對于候選答案 中的每個候選答案而被重復(fù),直至IBMWatson?Q&A系統(tǒng)識別出浮現(xiàn)為比其他答案強得多 的候選答案并且因此生成輸入問題的最終答案或者經(jīng)排序的答案集合??梢岳鐝腎BM公 司網(wǎng)站、IBM紅皮書等獲得關(guān)于IBMWatson?Q&A系統(tǒng)的更多信息。例如,可以在2011年 IBMdeveloperWorks中Yuan等人的"WatsonandHealthcare"中以及在 2012 年IBM紅皮 書中RobHigh的"TheEraofCognitiveSystems:AnInsideLookatIBMWatsonand HowitWorks"中找到關(guān)于IBMWatson?Q&A系統(tǒng)的信息。

【發(fā)明內(nèi)容】

[0013] 說明性實施例提供用于表格式數(shù)據(jù)的主題分析的方法、系統(tǒng)和計算機程序產(chǎn)品。 一個實施例包括一種用于選擇用以代表表格式信息的結(jié)構(gòu)的方法。該實施例從表格結(jié)構(gòu)的 匯集中選擇與表格對應(yīng)的表格結(jié)構(gòu),表格結(jié)構(gòu)函數(shù)描述表格結(jié)構(gòu)中的單元格配對中的單元 格何時應(yīng)當(dāng)彼此相似。該實施例選擇單元格相似度函數(shù),其中單元格相似度函數(shù)根據(jù)準(zhǔn)則 來比較表格結(jié)構(gòu)中的單元格配對中的單元格并且輸出單元格配對包括包含有彼此相似的 值的單元格的概率。該實施例根據(jù)單元格相似度函數(shù)來確定表格結(jié)構(gòu)中的第一單元格配對 中的第一單元格和第二單元格彼此相似的單元格相似概率。該實施例使用單元格相似概率 來調(diào)整表格結(jié)構(gòu)代表表格的計算的概率。該實施例將所計算的概率指示為第一模型代表表 格的概率,其中第一模型是表格結(jié)構(gòu)和所選擇的單元格相似度函數(shù)的函數(shù)。
[0014] 另一實施例包括一種計算機可用程序產(chǎn)品,其包括計算機可用存儲設(shè)備,計算機 可用存儲設(shè)備包括用于選擇用以代表表格式信息的結(jié)構(gòu)的計算機可用代碼。該實施例還包 括用于從表格結(jié)構(gòu)的匯集中選擇與表格對應(yīng)的表格結(jié)構(gòu)的計算機可用代碼,表格結(jié)構(gòu)函數(shù) 描述表格結(jié)構(gòu)中的單元格配對中的單元格何時應(yīng)當(dāng)彼此相似。該實施例還包括用于選擇單 元格相似度函數(shù)的計算機可用代碼,其中單元格相似度函數(shù)根據(jù)
當(dāng)前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
丰城市| 和林格尔县| 射洪县| 扶绥县| 岑溪市| 长阳| 普安县| 田林县| 措美县| 长子县| 台东市| 贡山| 伊吾县| 渝北区| 江孜县| 三门峡市| 育儿| 贞丰县| 博湖县| 三亚市| 平顶山市| 垣曲县| 洛阳市| 新闻| 大洼县| 昭通市| 五常市| 墨江| 工布江达县| 靖远县| 扎鲁特旗| 抚顺市| 彰化县| 竹溪县| 临城县| 曲阜市| 华宁县| 建湖县| 霍州市| 从化市| 临漳县|