專(zhuān)利名稱(chēng):用于構(gòu)建自然語(yǔ)言理解應(yīng)用的集成開(kāi)發(fā)工具的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及自然語(yǔ)言理解領(lǐng)域,特別涉及一種用于構(gòu)建自然語(yǔ)言理解應(yīng)用的集成開(kāi)發(fā)工具。
自然語(yǔ)言理解(NLU)系統(tǒng)使計(jì)算機(jī)能夠從人類(lèi)語(yǔ)音理解和提取信息。該系統(tǒng)可以輔助的方式與其中需要理解人類(lèi)語(yǔ)音的各種其他計(jì)算機(jī)應(yīng)用如語(yǔ)音識(shí)別系統(tǒng)一起工作。NLU系統(tǒng)可提取包含在文本內(nèi)的相關(guān)信息,然后將該信息提供給另一個(gè)應(yīng)用程序或系統(tǒng),以用于諸如預(yù)訂航班、查找文檔或總結(jié)文本的目的。
目前在本技術(shù)領(lǐng)域內(nèi),NLU系統(tǒng)采用若干不同技術(shù)來(lái)從文本串提取信息,其中文本串可以是指一組字符、詞或句子。最常用的技術(shù)是使用上下文無(wú)關(guān)語(yǔ)法來(lái)解析文本串的語(yǔ)言學(xué)方法,其中上下文無(wú)關(guān)語(yǔ)法在本技術(shù)領(lǐng)域內(nèi)通常使用包括終結(jié)符和非終結(jié)符的巴克斯-諾爾范式(BNF)來(lái)表示。終結(jié)符是指不能被進(jìn)一步分解的詞或其他符號(hào),而典型地,非終結(jié)符是指語(yǔ)音部分或短語(yǔ)如動(dòng)詞短語(yǔ)或名詞短語(yǔ)。因此,NLU的語(yǔ)法方法根據(jù)BNF語(yǔ)法尋求解析每個(gè)文本串而不使用統(tǒng)計(jì)處理。
為了構(gòu)建這樣的基于語(yǔ)法的NLU系統(tǒng),典型地需要語(yǔ)言學(xué)家,這可能為應(yīng)用開(kāi)發(fā)增加了大量的時(shí)間和開(kāi)支。然而,由于預(yù)測(cè)每個(gè)潛在用戶(hù)請(qǐng)求或?qū)μ崾镜捻憫?yīng)上的困難,尤其是在有關(guān)電話(huà)交談風(fēng)格的情況下,NLU應(yīng)用的質(zhì)量不能令人滿(mǎn)意。顯然地,盡管使用語(yǔ)言學(xué)家,也可能發(fā)生這樣的不滿(mǎn)意結(jié)果。
NLU系統(tǒng)用來(lái)從文本串提取信息的另一種技術(shù)是統(tǒng)計(jì)方法,其中在分析文本串中不使用語(yǔ)法。目前,該系統(tǒng)從帶注解句子的大語(yǔ)料庫(kù)中學(xué)習(xí)含義。帶注解句子匯集成文本語(yǔ)料庫(kù),其可稱(chēng)作訓(xùn)練語(yǔ)料庫(kù)。用來(lái)開(kāi)發(fā)統(tǒng)計(jì)NLU系統(tǒng)和對(duì)文本進(jìn)行注解的工具包括了諸如ASCII文件、傳統(tǒng)文本編輯器和鍵盤(pán)宏這樣的不同元素。使用這些低效工具,可指定詞關(guān)系并可構(gòu)建統(tǒng)計(jì)模型。然而,迄今為止,尚未開(kāi)發(fā)出高效且準(zhǔn)確的圖形可視編輯工具。結(jié)果,典型地只有受過(guò)訓(xùn)練的專(zhuān)家才能進(jìn)行統(tǒng)計(jì)NLU應(yīng)用的開(kāi)發(fā)。
使用傳統(tǒng)NLU應(yīng)用開(kāi)發(fā)工具的另一個(gè)缺點(diǎn)是團(tuán)隊(duì)環(huán)境下的開(kāi)發(fā)可能是困難的。顯然地,由于現(xiàn)有工具利用不同組件,這些開(kāi)發(fā)工具不能跟蹤或標(biāo)志一個(gè)團(tuán)隊(duì)成員所作的修改以防止另一個(gè)團(tuán)隊(duì)成員覆寫(xiě)或者重新注解文本的相同部分。而且,傳統(tǒng)開(kāi)發(fā)工具不能識(shí)別以相互不一致的方式注解訓(xùn)練語(yǔ)料庫(kù)內(nèi)特定句子的多個(gè)實(shí)例的情形。
在此公開(kāi)的本發(fā)明涉及一種如權(quán)利要求1、37和38所述的用于構(gòu)建自然語(yǔ)言理解(NLU)應(yīng)用的方法、系統(tǒng)和可機(jī)讀存儲(chǔ)裝置。具體地說(shuō),在此公開(kāi)的本發(fā)明可向用戶(hù)提供在其中構(gòu)建統(tǒng)計(jì)模型的集成開(kāi)發(fā)工具。不是使用一系列文本文件、文本編輯器和鍵盤(pán)宏來(lái)指定表示文本語(yǔ)料庫(kù)的解釋、含義或結(jié)構(gòu)的解釋信息,本發(fā)明可利用數(shù)據(jù)庫(kù)以及圖形編輯和可聽(tīng)工具的組合來(lái)指定解釋信息。本發(fā)明的數(shù)據(jù)庫(kù)功能性,包括本發(fā)明同步和標(biāo)注用戶(hù)編輯的能力使本發(fā)明特別適用于聯(lián)網(wǎng)或工作組環(huán)境。結(jié)果,本發(fā)明可提供增加的功能性。
表現(xiàn)(presenting)步驟最好可包括作為包括代表數(shù)據(jù)項(xiàng)的終結(jié)符和非終結(jié)符節(jié)點(diǎn)的含義樹(shù)(meaning tree)表現(xiàn)NLU解釋信息。根據(jù)本發(fā)明的一個(gè)實(shí)施例,可確定表示含義樹(shù)的一部分是否正確的概率。如果概率不超過(guò)預(yù)定閾值概率,則可以可視地標(biāo)識(shí)含義樹(shù)的那個(gè)部分。可選地,可確定NLU解釋信息內(nèi)含義樹(shù)子結(jié)構(gòu)的出現(xiàn)次數(shù)。如果出現(xiàn)次數(shù)不超過(guò)預(yù)定閾值,則可以可視地標(biāo)識(shí)含義樹(shù)的子結(jié)構(gòu)。
該方法還可包括從NLU解釋信息確定含義樹(shù)的所選節(jié)點(diǎn)的相交(intersection),將所選節(jié)點(diǎn)的相交表現(xiàn)為用于向含義樹(shù)添加附加節(jié)點(diǎn)的選項(xiàng),然后將節(jié)點(diǎn)添加到含義樹(shù)的所選節(jié)點(diǎn)之上。顯然地,可從所表現(xiàn)的選項(xiàng)中選擇所添加的節(jié)點(diǎn)。含義樹(shù)的附加節(jié)點(diǎn)可響應(yīng)用戶(hù)命令而創(chuàng)建。附加節(jié)點(diǎn)可代表附加數(shù)據(jù)項(xiàng)。用戶(hù)還可輸入所添加節(jié)點(diǎn)的描述,當(dāng)輸入該描述時(shí)可對(duì)其進(jìn)行拼寫(xiě)檢查。在選擇了含義樹(shù)的節(jié)點(diǎn)的情況下,響應(yīng)用戶(hù)請(qǐng)求,可顯示具有用于顯示節(jié)點(diǎn)和節(jié)點(diǎn)參數(shù)的一列或多列的詞典視圖。顯然地,詞典視圖可包括或集中于具有由含義樹(shù)的高亮顯示節(jié)點(diǎn)代表的數(shù)據(jù)項(xiàng)的詞典區(qū)域。
含義樹(shù)可根據(jù)預(yù)定注解數(shù)據(jù)如數(shù)據(jù)項(xiàng)詞典或者指定文本解釋的模型來(lái)自動(dòng)完成。在一個(gè)實(shí)施例中,可判定數(shù)據(jù)項(xiàng)詞典的單個(gè)數(shù)據(jù)項(xiàng)是否與NLU訓(xùn)練文本語(yǔ)料庫(kù)的詞相關(guān)聯(lián)。如果是,則可將這個(gè)數(shù)據(jù)項(xiàng)分配給該詞。NLU解釋信息的所選項(xiàng)目可采用工具提示的方式來(lái)顯示,并且可顯示表示所表現(xiàn)的含義樹(shù)是否是正確解釋的概率。該方法還可包括在NLU解釋信息內(nèi)搜索指定含義樹(shù)結(jié)構(gòu)??勺R(shí)別數(shù)據(jù)項(xiàng)的相交并將其表現(xiàn)為用于注解NLU訓(xùn)練文本語(yǔ)料庫(kù)的用戶(hù)指定詞的選擇。
最好,本發(fā)明可包括在詞典視圖中表現(xiàn)NLU解釋信息。在這種情況下,NLU解釋信息可使用用于顯示父親和孩子數(shù)據(jù)項(xiàng)及其參數(shù)的一列或多列來(lái)表現(xiàn)。詞典視圖可包括用于表示數(shù)據(jù)項(xiàng)的孩子的列和表示數(shù)據(jù)項(xiàng)的父親的列。這些數(shù)據(jù)項(xiàng)可根據(jù)包括父親和孩子列的多列中的任一列來(lái)排序。如果數(shù)據(jù)項(xiàng)具有超過(guò)預(yù)定閾值的概率或計(jì)數(shù),則可以可視地區(qū)分在詞典視圖中顯示的數(shù)據(jù)項(xiàng)。在詞典視圖中顯示的具有不超過(guò)預(yù)定閾值的概率或計(jì)數(shù)的數(shù)據(jù)項(xiàng)可以被隱藏而不可見(jiàn)。響應(yīng)用戶(hù)選擇具有關(guān)聯(lián)的特定數(shù)據(jù)項(xiàng),則可在NLU解釋信息內(nèi)搜索包括代表該關(guān)聯(lián)的終結(jié)符和非終結(jié)符節(jié)點(diǎn)的含義樹(shù)。該方法還可包括根據(jù)諸如數(shù)據(jù)項(xiàng)源、數(shù)據(jù)項(xiàng)目標(biāo)、與數(shù)據(jù)項(xiàng)相關(guān)聯(lián)的方向、與數(shù)據(jù)項(xiàng)相關(guān)聯(lián)的注解符、注解狀態(tài)、節(jié)點(diǎn)計(jì)數(shù)、數(shù)據(jù)文件、句子范圍和/或使用狀態(tài)的參數(shù)對(duì)NLU解釋信息進(jìn)行過(guò)濾。還可顯示從NLU解釋信息獲得的直方圖信息。
最好,本發(fā)明可包括在句子視圖中表現(xiàn)NLU解釋信息。可顯示與單獨(dú)文本短語(yǔ)相關(guān)聯(lián)的NLU解釋信息。例如,可以逐句子和/或短語(yǔ)地顯示諸如注解狀態(tài)、計(jì)數(shù)、指定使用、收集信息、正確性概率和正確性等級(jí)的信息。
最好,本發(fā)明可包括在分裂屏幕視圖中作為一個(gè)或多個(gè)含義樹(shù)表現(xiàn)NLU解釋信息。分裂屏幕視圖可至少包括用于顯示第一含義樹(shù)的第一窗口和用于顯示第二含義樹(shù)的第二窗口。該方法可包括響應(yīng)用戶(hù)請(qǐng)求在第二窗口內(nèi)表現(xiàn)不同含義樹(shù),同時(shí)在第一窗口內(nèi)顯示第一含義樹(shù)。這些含義樹(shù)可以是相同上下文中相同文本短語(yǔ)的不同解釋、兩個(gè)不同上下文中相同文本短語(yǔ)的不同解釋?zhuān)蛘呖梢允遣煌樘幚淼慕Y(jié)果。例如,第一窗口可表現(xiàn)在第一遍處理之后所確定的含義樹(shù),而第二窗口可表現(xiàn)在隨后一遍處理之后所確定的結(jié)果含義樹(shù)??蛇x地,第一含義樹(shù)可代表文本短語(yǔ)的正確解釋?zhuān)欢诙x樹(shù)可代表根據(jù)統(tǒng)計(jì)模型的文本短語(yǔ)預(yù)測(cè)解釋。如果正確解釋的得分大于預(yù)測(cè)解釋的得分,則可提供統(tǒng)計(jì)模型不正確的指示。在第一含義樹(shù)代表第一文本短語(yǔ)的情況下,該方法可包括在第一窗口中接收對(duì)第一含義樹(shù)的編輯,并且響應(yīng)用戶(hù)編輯,搜索與所編輯的第一含義樹(shù)相對(duì)應(yīng)的不同文本短語(yǔ)的含義樹(shù),并且在第二窗口中顯示不同文本短語(yǔ)的含義樹(shù)。該方法可包括可視地表示第一含義樹(shù)與第二含義樹(shù)之間的差別,并且使第一含義樹(shù)遵循第二含義樹(shù)。
最好,本發(fā)明可包括自動(dòng)導(dǎo)入NLU訓(xùn)練句子并且根據(jù)從NLU訓(xùn)練文本語(yǔ)料庫(kù)確定的統(tǒng)計(jì)可能性自動(dòng)確定NLU訓(xùn)練句子的解釋??蛇x地,可自動(dòng)導(dǎo)入訓(xùn)練句子的NLU解釋?zhuān)⑶覍⑵鋺?yīng)用于NLU訓(xùn)練文本語(yǔ)料庫(kù)??梢皂憫?yīng)指定多遍之一的用戶(hù)輸入來(lái)顯示由多遍中的任一遍產(chǎn)生的NLU解釋信息。該方法還可包括根據(jù)文本短語(yǔ)的NLU解釋信息的屬性在句子視圖中對(duì)NLU訓(xùn)練文本語(yǔ)料庫(kù)的文本短語(yǔ)進(jìn)行排序,并且作為含義樹(shù)順序顯示至少二個(gè)文本短語(yǔ)的NLU解釋信息??筛鶕?jù)句子視圖中的排序來(lái)顯示含義樹(shù)。
該集成開(kāi)發(fā)工具還可包括用于指定對(duì)NLU解釋信息的數(shù)據(jù)項(xiàng)中的所選數(shù)據(jù)項(xiàng)進(jìn)行搜索的圖形用戶(hù)接口。該圖形用戶(hù)接口可包括用于指定搜索的可選終結(jié)符和非終結(jié)符的至少一個(gè)列表。附加區(qū)域可包括在該圖形用戶(hù)接口中以指定所選數(shù)據(jù)項(xiàng)與其他數(shù)據(jù)項(xiàng)的關(guān)系。
圖形編輯器可包括用于以分層樹(shù)結(jié)構(gòu)表現(xiàn)NLU解釋信息項(xiàng)目的樹(shù)視圖、用于以列格式表現(xiàn)NLU解釋信息各個(gè)項(xiàng)目的詞典視圖、用于以句子形式表現(xiàn)NLU解釋信息的一個(gè)或多個(gè)項(xiàng)目的句子視圖、用于同時(shí)表現(xiàn)至少兩個(gè)含義樹(shù)的分裂屏幕視圖以及用于導(dǎo)入附加NLU訓(xùn)練文本和關(guān)聯(lián)解釋信息的導(dǎo)入視圖。還可包括被配置成從NLU訓(xùn)練文本語(yǔ)料庫(kù)確定至少一個(gè)解釋的可編程統(tǒng)計(jì)模型。
在附圖中示出了本發(fā)明的優(yōu)選實(shí)施例,然而,應(yīng)當(dāng)理解本發(fā)明不限于所示的具體方案和手段。
圖1是可使用本發(fā)明的示例性計(jì)算機(jī)系統(tǒng)的示意圖。
圖2是示出可在其上實(shí)現(xiàn)在此公開(kāi)的本發(fā)明的示例性系統(tǒng)架構(gòu)的示意圖。
圖3A是示例性樹(shù)視形用戶(hù)界面的圖。
圖3B是用于搜索自然語(yǔ)言理解解釋信息的示例性圖形用戶(hù)界面。
圖4是用于修改和創(chuàng)建標(biāo)記(tag)的示例性圖形用戶(hù)界面。
圖5是用于定義新標(biāo)記的示例性圖形用戶(hù)界面。
圖6是示出含義樹(shù)視圖的示例性圖形用戶(hù)界面。
圖7是示出含義樹(shù)視圖的另一個(gè)示例性圖形用戶(hù)界面。
圖8是用于在含義樹(shù)視圖中修改文本的示例性圖形用戶(hù)界面。
圖9是用于顯示訓(xùn)練文本語(yǔ)料庫(kù)的句子和/或短語(yǔ)的示例性圖形用戶(hù)界面。
圖10是用于在詞典風(fēng)格視圖中顯示終結(jié)符和非終結(jié)符數(shù)據(jù)項(xiàng)的示例性圖形用戶(hù)界面。
圖11是示出在此公開(kāi)的本發(fā)明的構(gòu)建視圖和組件的示例性圖形用戶(hù)界面。
圖12是用于顯示多于一個(gè)含義樹(shù)的示例性圖形用戶(hù)界面。
圖13是用于導(dǎo)入數(shù)據(jù)的示例性圖形用戶(hù)界面。
圖14是用于識(shí)別導(dǎo)入數(shù)據(jù)內(nèi)的終結(jié)符和非終結(jié)符的示例性圖形用戶(hù)界面。
在此公開(kāi)的本發(fā)明涉及一種用于構(gòu)建與自然語(yǔ)言理解(NLU)應(yīng)用一起使用的統(tǒng)計(jì)模型的方法和系統(tǒng)。具體地說(shuō),在此公開(kāi)的本發(fā)明可向用戶(hù)提供一種用于構(gòu)建與NLU系統(tǒng)一起使用的統(tǒng)計(jì)模型的集成開(kāi)發(fā)工具。不是混合使用包括一系列文本文件、文本編輯器和鍵盤(pán)宏的各組件來(lái)指定組成文本語(yǔ)料庫(kù)的句子的含義和結(jié)構(gòu),本發(fā)明提供了一種集成開(kāi)發(fā)工具(IDT)。該IDT可包括數(shù)據(jù)庫(kù)、以及可視(圖形)和可聽(tīng)工具的組合來(lái)指定經(jīng)常作為文本語(yǔ)料庫(kù)的注解而指定的解釋信息。NLU解釋信息指定組成訓(xùn)練文本語(yǔ)料庫(kù)的句子的解釋或含義。本發(fā)明的數(shù)據(jù)庫(kù)功能性,包括本發(fā)明同步和標(biāo)注用戶(hù)編輯的能力使本發(fā)明特別適用于聯(lián)網(wǎng)計(jì)算或工作組環(huán)境。
圖1示出結(jié)合本發(fā)明使用的典型計(jì)算機(jī)系統(tǒng)100。計(jì)算機(jī)系統(tǒng)100可包括計(jì)算機(jī)105,其中計(jì)算機(jī)105具有中央處理單元110(CPU)、一個(gè)或多個(gè)存儲(chǔ)器裝置115以及關(guān)聯(lián)電路??砂↖DT 210的存儲(chǔ)器裝置115可由電子隨機(jī)存取存儲(chǔ)器和大容量數(shù)據(jù)存儲(chǔ)介質(zhì)組成。該計(jì)算機(jī)系統(tǒng)還可包括工作時(shí)通過(guò)適合接口電路125連接到計(jì)算機(jī)系統(tǒng)的麥克風(fēng)120以及工作時(shí)與之連接的可選用戶(hù)界面顯示單元130如視頻數(shù)據(jù)終端。CPU可包括任何適合微處理器或其他電子處理單元,這對(duì)于本領(lǐng)域的技術(shù)人員而言是公知的??梢韵蛟撓到y(tǒng)提供揚(yáng)聲器135和140以及接口設(shè)備如鼠標(biāo)145和鍵盤(pán)150,但是它們對(duì)于在此所述的本發(fā)明的操作不是必要的。很多可購(gòu)買(mǎi)到的高速計(jì)算機(jī)中的任一種一般都可滿(mǎn)足在此所述的計(jì)算機(jī)系統(tǒng)的各種硬件要求。
圖2是示出可在其上實(shí)現(xiàn)在此公開(kāi)的本發(fā)明的示例性系統(tǒng)架構(gòu)的示意圖。如圖所示,該系統(tǒng)架構(gòu)可包括若干計(jì)算機(jī)系統(tǒng)215、220和225,其中每一個(gè)都可包括在適合操作系統(tǒng)中執(zhí)行的IDT 210。計(jì)算機(jī)系統(tǒng)215-225可通過(guò)計(jì)算機(jī)通信網(wǎng)絡(luò)200在通信上相互鏈接,以及在通信上鏈接到數(shù)據(jù)庫(kù)服務(wù)器205。因此,雖然計(jì)算機(jī)系統(tǒng)215-225中的每一個(gè)均可包括自包含IDT 210,其中該IDT 210具有帶注解和不帶注解數(shù)據(jù)、統(tǒng)計(jì)模型和算法的全集,但是根據(jù)本發(fā)明的一方面,由IDT 210利用的數(shù)據(jù)的各部分可存儲(chǔ)在數(shù)據(jù)庫(kù)服務(wù)器205中并且從其進(jìn)行訪問(wèn)。例如,工作組的多個(gè)用戶(hù)可能需要訪問(wèn)的各個(gè)信息項(xiàng)可存儲(chǔ)在數(shù)據(jù)庫(kù)服務(wù)器210而非每個(gè)單獨(dú)的計(jì)算機(jī)系統(tǒng)215-225上。例如,如圖2所示,數(shù)據(jù)庫(kù)服務(wù)器205可存儲(chǔ)帶注解文本、不帶注解文本、統(tǒng)計(jì)模型、算法等。
IDT 210可包括用于統(tǒng)計(jì)處理文本語(yǔ)料庫(kù)的歸類(lèi)(classing)和解析功能性。更具體地說(shuō),使用IDT 210,可構(gòu)建至少部分包括歸類(lèi)器和解析器的統(tǒng)計(jì)模型。使用IDT 210,可以對(duì)文本語(yǔ)料庫(kù)進(jìn)行注解,使得所得到的帶注解文本語(yǔ)料庫(kù)可被組織成組成句子,其中每個(gè)句子均具有從注解獲得的分層樹(shù)狀結(jié)構(gòu)。統(tǒng)計(jì)模型可使用帶注解文本語(yǔ)料庫(kù)來(lái)構(gòu)建或訓(xùn)練。在構(gòu)建或訓(xùn)練統(tǒng)計(jì)模型時(shí),IDT還可測(cè)試當(dāng)前統(tǒng)計(jì)模型的準(zhǔn)確性。
然而,應(yīng)當(dāng)理解,可以遵循多遍文本處理方法,其中可使用多于兩遍。從而,來(lái)自每遍的輸出可用作下一或隨后遍的輸入。例如,可使用各種過(guò)濾器和/或詞發(fā)現(xiàn)(wording spotting)算法,例如,用于標(biāo)識(shí)和注解無(wú)意義詞的“空過(guò)濾器”或者標(biāo)識(shí)小語(yǔ)義短語(yǔ)如介詞短語(yǔ)、名詞短語(yǔ)等的短語(yǔ)遍(phrase pass)。另外,也可使用其他注解技術(shù)如源-通道建模(source-channel modeling),其中所產(chǎn)生的注解稱(chēng)作對(duì)齊而不是樹(shù)狀結(jié)構(gòu)。
以歸類(lèi)器和解析器為例,句子可被注解成可以是相關(guān)文本串的應(yīng)用特定群(grouping)的類(lèi),例如金融NLU應(yīng)用中的帳戶(hù)類(lèi)型。其他類(lèi)例如時(shí)間和日期可以是應(yīng)用無(wú)關(guān)的??赏ㄟ^(guò)分析文本語(yǔ)料庫(kù)來(lái)從經(jīng)驗(yàn)上確定類(lèi),使得歸類(lèi)器可識(shí)別特定文本串或詞屬于規(guī)定類(lèi)。應(yīng)當(dāng)理解,終結(jié)符和非終結(jié)符描述符、包括解析樹(shù)和類(lèi)樹(shù)的含義樹(shù)、以及從IDT工具獲得的任何其他詞頻數(shù)據(jù)或統(tǒng)計(jì)數(shù)據(jù)可統(tǒng)稱(chēng)作注解數(shù)據(jù)。顯然地,包括組成文本語(yǔ)料庫(kù)的任何文本的注解數(shù)據(jù)可被存儲(chǔ)在數(shù)據(jù)庫(kù)內(nèi),而不是被存儲(chǔ)為一個(gè)或多個(gè)文本文件。
歸類(lèi)器可使用統(tǒng)計(jì)處理方法來(lái)構(gòu)造以識(shí)別構(gòu)成預(yù)定類(lèi)之一的接收文本中的子串。例如,歸類(lèi)器可使用統(tǒng)計(jì)處理方法來(lái)構(gòu)造,其中數(shù)千句子可被注解,從而標(biāo)識(shí)句子的組成詞或文本串的類(lèi)。帶注解句子可用來(lái)訓(xùn)練歸類(lèi)器識(shí)別詞或文本串在NLU系統(tǒng)內(nèi)所屬的類(lèi)。因此,歸類(lèi)器可使用在本領(lǐng)域內(nèi)公知的統(tǒng)計(jì)處理算法來(lái)構(gòu)造,例如最小化條件熵或最大化結(jié)果模型預(yù)測(cè)訓(xùn)練數(shù)據(jù)以識(shí)別關(guān)鍵文本串的可能性。例如,NLU系統(tǒng)可使用能夠識(shí)別文本串特定類(lèi)的決策樹(shù)或最大熵模型。
根據(jù)所接收的文本部分,歸類(lèi)器可產(chǎn)生簡(jiǎn)化結(jié)果文本串,其中可采用規(guī)定類(lèi)注解原始文本串內(nèi)所識(shí)別的類(lèi)成員,從而有效地將實(shí)際文本串替換為類(lèi)名。例如,歸類(lèi)器可處理文本串“I want to transfer fivehundred dollars from XYZ Fund to ABC Fund”,使得所得到的示例性輸出可以為“I want to transfer AMOUT from FUND to FUND”。顯然地,文本輸入的結(jié)構(gòu)被大大簡(jiǎn)化。具體地說(shuō),通過(guò)對(duì)所接收的文本輸入進(jìn)行歸類(lèi),結(jié)果輸入結(jié)構(gòu)的數(shù)目,即可能的語(yǔ)法結(jié)構(gòu)可以大大減少,從而幫助隨后的統(tǒng)計(jì)處理。例如,在不對(duì)接收文本輸入進(jìn)行歸類(lèi)的情況下,下面句子可被認(rèn)為具有不同結(jié)構(gòu)●I want to transfer five hundred dollars from XYZ Fund to ABCFund.
●I want to transfer five thousand dollars from XYZ Fund to ABCFund.
●I want to transfer one hundred dollars from XYZ Fund to ABCFund.
●I want to transfer five hundred dollars from ABC Fund to XYZFund.
●I want to transfer five hundred dollars from A Fund to B Fund.
●I want to transfer five hundred dollars from C Fund to A Fund.
然而,在對(duì)上面文本進(jìn)行歸類(lèi)之后,其結(jié)果表示每個(gè)文本輸入共用共同結(jié)構(gòu)即“I want to transfer AMOUT from FUND to FUND”。因此,接收文本輸入內(nèi)不同類(lèi)成員的存在不導(dǎo)致文本輸入被視作不同的結(jié)構(gòu)。顯然地,可使用可稱(chēng)作類(lèi)樹(shù)的分層樹(shù)結(jié)構(gòu)來(lái)描述經(jīng)過(guò)歸類(lèi)的句子。類(lèi)樹(shù)是一種代表對(duì)應(yīng)句子的解釋或含義的含義樹(shù)。分層含義樹(shù)可包括終結(jié)符和非終結(jié)符節(jié)點(diǎn)。例如,含義樹(shù)的葉子可對(duì)應(yīng)于類(lèi)和處理文本的詞。葉子可擴(kuò)展到一個(gè)或多個(gè)非終結(jié)符,其中的每一個(gè)可對(duì)含義樹(shù)提供進(jìn)一步的含義和結(jié)構(gòu)。而且,葉子和非終結(jié)符(以及終結(jié)符)中的每一個(gè)可包括用戶(hù)可配置的描述符。每個(gè)葉子可直接地或者通過(guò)一個(gè)或多個(gè)非終結(jié)符最終擴(kuò)展到根節(jié)點(diǎn)。
解析器可解釋從歸類(lèi)器輸出的處理文本作為輸入。解析器可處理接收文本,以將與特性即操作和參數(shù)或者其他終結(jié)符或非終結(jié)符群相對(duì)應(yīng)的附加非終結(jié)符和/或描述符添加到接收文本輸入的剩余相關(guān)文本串。例如,解析器可對(duì)特定關(guān)鍵詞進(jìn)行編組。在確定這些特性中,解析器可利用前面在描述歸類(lèi)器中提及的統(tǒng)計(jì)處理方法。例如,解析器可處理從歸類(lèi)器輸出的文本以確定文本串的解析樹(shù)。文本串的解析樹(shù)可以是包括接收文本串的類(lèi)、操作和參數(shù)的自然語(yǔ)言文本輸入的分層表示,其從一般向特定流動(dòng),向下擴(kuò)展到終結(jié)符或詞層。解析樹(shù)可采用圖形形式來(lái)描述,其中用來(lái)標(biāo)識(shí)文本串的最高層作為根。更詳細(xì)的非終結(jié)符可位于根之下,其向下擴(kuò)展到終結(jié)符層,其中每個(gè)非終結(jié)符和終結(jié)符是解析樹(shù)的節(jié)點(diǎn)。句子的解析樹(shù)典型地比對(duì)應(yīng)于那個(gè)句子的類(lèi)樹(shù)更復(fù)雜。不過(guò),解析樹(shù)和類(lèi)樹(shù)都可稱(chēng)作含義樹(shù)。
IDT 210可包括各種預(yù)建統(tǒng)計(jì)模型。例如,用于處理廣泛使用的短語(yǔ)如日期、時(shí)間、金額或其他短語(yǔ)或表達(dá)類(lèi)的稱(chēng)作置標(biāo)器或歸類(lèi)器的統(tǒng)計(jì)模型可包括在IDT內(nèi)。該統(tǒng)計(jì)模型可包括歸類(lèi)和解析模型。因此,對(duì)于由IDT 210導(dǎo)入或讀取的任何文本語(yǔ)料庫(kù),IDT 210可自動(dòng)分析所導(dǎo)入的文本語(yǔ)料庫(kù),以識(shí)別與預(yù)建模型相關(guān)的指示符。指示符可包括與諸如日期、時(shí)間和其他可容易替換的項(xiàng)目包括客套話(huà)(即“thank you”)的類(lèi)相對(duì)應(yīng)的終結(jié)符。對(duì)于與特定預(yù)建模型相對(duì)應(yīng)的每個(gè)指示符,IDT210可將那個(gè)預(yù)建統(tǒng)計(jì)模型加入到當(dāng)前正在構(gòu)造的統(tǒng)計(jì)模型中。例如,IDT 210可執(zhí)行關(guān)鍵詞搜索或者使用前述其他統(tǒng)計(jì)處理方法來(lái)分析文本語(yǔ)料庫(kù),以確定預(yù)建模型與文本語(yǔ)料庫(kù)是否有任何相關(guān)性。IDT 210還可向用戶(hù)詢(xún)問(wèn)是否包括該預(yù)建模型或者可選地用戶(hù)可請(qǐng)求包括該模型。在任何情況下,該功能性使用戶(hù)免于重新創(chuàng)建統(tǒng)計(jì)模型來(lái)處理經(jīng)常重現(xiàn)的文本短語(yǔ)。
如上所述,在IDT 210內(nèi)包括歸類(lèi)器和解析器僅代表在此公開(kāi)的本發(fā)明的一個(gè)實(shí)施例。本領(lǐng)域的技術(shù)人員應(yīng)當(dāng)認(rèn)識(shí)到可以使用任何適當(dāng)?shù)慕y(tǒng)計(jì)處理方法和/或模型。例如,其他實(shí)施例可以包括詞發(fā)現(xiàn)算法、最大熵、規(guī)則或啟發(fā)算法。在任何情況下,在此公開(kāi)的本發(fā)明不限于利用歸類(lèi)器和解析器的特定實(shí)施例。
如上所述,IDT 210可利用諸如關(guān)系數(shù)據(jù)庫(kù)的數(shù)據(jù)庫(kù)、以及圖形和可聽(tīng)工具的組合來(lái)幫助用戶(hù)對(duì)文本語(yǔ)料庫(kù)進(jìn)行注解和開(kāi)發(fā)與NLU應(yīng)用一起使用的統(tǒng)計(jì)模型。圖3A示出在IDT的示例性圖形用戶(hù)界面(GUI)300內(nèi)表現(xiàn)的示例性樹(shù)編輯器視圖310。樹(shù)編輯器視圖提供查看含義樹(shù)的直觀方式,其中含義樹(shù)可包括類(lèi)樹(shù)和解析樹(shù)。如圖3A所示,采用樹(shù)格式顯示來(lái)自文本語(yǔ)料庫(kù)的示例性句子。樹(shù)狀句子結(jié)構(gòu)從下向上流動(dòng),其中終結(jié)符在本例中為詞流動(dòng)到非終結(jié)符,并且非終結(jié)符流動(dòng)到以“!S!”表示的根節(jié)點(diǎn)。顯然地,非終結(jié)符可流動(dòng)到其他非終結(jié)符以容納句子結(jié)構(gòu)的多層。在某些情況下,終結(jié)符可直接流動(dòng)到根節(jié)點(diǎn)。在任何情況下,對(duì)應(yīng)于終結(jié)符和非終結(jié)符數(shù)據(jù)項(xiàng)的描述是完全可配置的。具體地說(shuō),NLU系統(tǒng)設(shè)計(jì)者可以確定適當(dāng)一組終結(jié)符和非終結(jié)符數(shù)據(jù)項(xiàng)(和對(duì)應(yīng)描述)來(lái)指定含義和上下文。可以在IDT內(nèi)加入這些用戶(hù)配置的終結(jié)符和非終結(jié)符數(shù)據(jù)項(xiàng)。
例如,圖3A示出涉及被定制成結(jié)合金融系統(tǒng)工作的NLU系統(tǒng)的一系列終結(jié)符和非終結(jié)符數(shù)據(jù)項(xiàng)。終結(jié)符和非終結(jié)符數(shù)據(jù)項(xiàng)以樹(shù)結(jié)構(gòu)組織,其中樹(shù)根位于該結(jié)構(gòu)的頂部。從根節(jié)點(diǎn),父親節(jié)點(diǎn)分支到孩子節(jié)點(diǎn),其中這些孩子節(jié)點(diǎn)作為其他孩子節(jié)點(diǎn)的父親節(jié)點(diǎn)。樹(shù)結(jié)構(gòu)向下繼續(xù)直到到達(dá)語(yǔ)料庫(kù)文本的實(shí)際詞。例如,如圖3A所示,以終結(jié)符“null”330注解詞“want”320。顯然地,“null”終結(jié)符可以應(yīng)用于被標(biāo)識(shí)為不傳達(dá)太多有關(guān)句子的上下文信息或含義(若有的話(huà))的詞。另外,以終結(jié)符“select”350注解詞“first”340,其中終結(jié)符“select”350流動(dòng)到其父親,在本例中為非終結(jié)符“select”360?!癝ELECT”非終結(jié)符360流動(dòng)到其父親節(jié)點(diǎn),該節(jié)點(diǎn)是另一個(gè)非終結(jié)符“FUND-INFO”370。這樣,含義樹(shù)的“SELECT”非終結(jié)符節(jié)點(diǎn)360是“FUND-INFO”的孩子而是“select”的父親。然后,“FUND-INFO”流動(dòng)到表示文本句子的根節(jié)點(diǎn)和最高層的“!S!”。終結(jié)符和非終結(jié)符名稱(chēng)完全是用戶(hù)可配置的。例如,如果統(tǒng)計(jì)模型被設(shè)計(jì)成結(jié)合旅游預(yù)訂系統(tǒng)工作,則終結(jié)符和非終結(jié)符可由應(yīng)用開(kāi)發(fā)者或用戶(hù)配置以代表應(yīng)用特定詞群。在這種情況下,例子可包括假期類(lèi)型、出發(fā)日期、到達(dá)日期、旅行時(shí)長(zhǎng)等。
對(duì)于未帶注解的句子,IDT可使用缺省終結(jié)符和非終結(jié)符注解符完成解析樹(shù)或類(lèi)樹(shù)。如果缺省非終結(jié)符注解符是“null”,則IDT可查詢(xún)存儲(chǔ)在存儲(chǔ)器中的各個(gè)詞,并且選擇另一個(gè)適合或可能的非終結(jié)符。不過(guò),IDT可使用特定詞的先前指定非終結(jié)符注解符而非缺省非終結(jié)符。
對(duì)于帶部分注解的句子,IDT可自動(dòng)完成該句子的解析樹(shù)或類(lèi)樹(shù)。在這種情況下,IDT可從存儲(chǔ)器搜索具有確定解析樹(shù)的句子,其中該句子類(lèi)似于輸入句子或者帶部分注解的句子。從而,IDT可根據(jù)所存儲(chǔ)的已解析句子,建議輸入句子的完全解析樹(shù)。以這種方式,IDT可使用自動(dòng)完成功能來(lái)確定文本句子的類(lèi)樹(shù)和解析樹(shù)??蛇x地,用戶(hù)可通過(guò)插入終結(jié)符和非終結(jié)符并且采用適當(dāng)?shù)姆种Ь€(xiàn)連接這些節(jié)點(diǎn)來(lái)人工構(gòu)建含義樹(shù)。
解釋數(shù)據(jù)可采用多種方式使用樹(shù)編輯器視圖以圖形方式編輯。例如,在樹(shù)編輯器視圖中,可編輯組成文本語(yǔ)料庫(kù)的詞,可編輯終結(jié)符和非終結(jié)符,并且可編輯分支。前述編輯中的每一種均可使用傳統(tǒng)指針控制操作如拖放、左擊和右擊以及雙擊操作來(lái)執(zhí)行。例如,通過(guò)選擇樹(shù)節(jié)點(diǎn)并且將該節(jié)點(diǎn)拖放到用戶(hù)期望的新父親上,可編輯樹(shù)節(jié)點(diǎn)以指向不同的父親。該操作將所選節(jié)點(diǎn)與先前父親斷開(kāi)鏈接,并且將該節(jié)點(diǎn)鏈接到新父親。此外,用戶(hù)可人工繪制樹(shù)分支,或者使用IDT內(nèi)的眾多功能來(lái)繪制分支,使得所得到的樹(shù)形狀具有可讀結(jié)構(gòu)。IDT可包括防止任何樹(shù)分支覆蓋另一個(gè)樹(shù)分支或者與之交叉的設(shè)置。用戶(hù)可選擇分支角度和筆直或彎曲分支,使得所得到的樹(shù)形狀具有可讀結(jié)構(gòu)。另外,文本、文本大小、填充顏色和填充圖案可以是用戶(hù)可配置的。應(yīng)當(dāng)理解,系統(tǒng)內(nèi)的有效樹(shù)必須包含最終連接到根符號(hào)如“!S!”或者表示根節(jié)點(diǎn)的某其他符號(hào)的詞。從而,IDT可包括禁止將導(dǎo)致無(wú)效樹(shù)結(jié)構(gòu)的特定編輯控制或操作的安全措施。
圖3B是示出根據(jù)在此公開(kāi)的創(chuàng)新性方案的用于實(shí)現(xiàn)若干不同查找功能的示例性GUI 375的示意圖。如圖所示,可提供GUI 375,其使用戶(hù)能夠以多種不同方式搜索文本注解和結(jié)構(gòu)。具體地說(shuō),用戶(hù)可在文本注解內(nèi)使用區(qū)域380搜索特定標(biāo)記(tag)、使用區(qū)域385搜索特定標(biāo)簽(label)、以及使用區(qū)域390搜索特定樹(shù)結(jié)構(gòu)和/或子結(jié)構(gòu)。例如,用戶(hù)可繪制較大樹(shù)結(jié)構(gòu)的一小段,并且在注解數(shù)據(jù)內(nèi)搜索與在區(qū)域390中指定的樹(shù)結(jié)構(gòu)類(lèi)似的結(jié)構(gòu)。
樹(shù)結(jié)構(gòu)本身可用來(lái)搜索其他相關(guān)或匹配結(jié)構(gòu)。具體地說(shuō),IDT允許用戶(hù)選擇含義樹(shù)的一部分。一旦被選擇,則用戶(hù)可指令I(lǐng)DT在其他含義樹(shù)內(nèi)搜索匹配所選結(jié)構(gòu)的結(jié)構(gòu)。例如,用戶(hù)可使用鼠標(biāo)在具有用戶(hù)希望在文本語(yǔ)料庫(kù)內(nèi)的其他地方定位的結(jié)構(gòu)的樹(shù)節(jié)點(diǎn)周?chē)?huà)框。落在用戶(hù)所畫(huà)框內(nèi)的的含義樹(shù)的項(xiàng)目或節(jié)點(diǎn)可被選擇。一旦被選擇,IDT可使用數(shù)據(jù)庫(kù)功能性來(lái)搜索帶注解的文本語(yǔ)料庫(kù)以定位匹配結(jié)構(gòu)。應(yīng)當(dāng)理解,可使用其他樹(shù)節(jié)點(diǎn)選擇方法如鍵盤(pán)按鍵的不同組合。從而,本發(fā)明不如此限于特定的含義樹(shù)結(jié)構(gòu)選擇方法。
示例性GUI 400可被提供以編輯或創(chuàng)建終結(jié)符和非終結(jié)符。因此,雖然下面討論涉及非終結(jié)符,但是它適用于終結(jié)符和非終結(jié)符兩者。該用戶(hù)界面允許用戶(hù)描述新的非終結(jié)符(在某些情況下也稱(chēng)作標(biāo)記)。另外,可編輯現(xiàn)有非終結(jié)符的定義。為了調(diào)用該功能,用戶(hù)可選擇要為其創(chuàng)建或編輯非終結(jié)符的詞,并且發(fā)布要編輯或創(chuàng)建非終結(jié)符的用戶(hù)命令。區(qū)域405是“所允許詞典列表”,其可采納一個(gè)或多個(gè)所選樹(shù)節(jié)點(diǎn)的所有父親和孩子節(jié)點(diǎn)的相交,并且作為所選詞或節(jié)點(diǎn)的可能標(biāo)簽選項(xiàng)向用戶(hù)表現(xiàn)該相交。另外,在節(jié)點(diǎn)的相交內(nèi),所允許詞典列表可考慮在其他含義樹(shù)內(nèi)組織先前父親和孩子節(jié)點(diǎn)的方式以及與從這些父親和孩子節(jié)點(diǎn)擴(kuò)展并且與之連接的分支的方向有關(guān)的其他歷史信息。在本發(fā)明的一個(gè)實(shí)施例中,可提供自動(dòng)模式。在自動(dòng)模式中,如果所允許詞典列表僅包含一個(gè)可能的終結(jié)符或非終結(jié)符,則IDT可自動(dòng)地選擇該終結(jié)符或非終結(jié)符以應(yīng)用于用戶(hù)所選詞或詞組。
區(qū)域410是可向用戶(hù)表現(xiàn)在系統(tǒng)中定義的所有終結(jié)符或非終結(jié)符的GUI 400的詞典區(qū)域。不管用戶(hù)使用什么列表來(lái)選擇終結(jié)符或非終結(jié)符,描述區(qū)域415可向用戶(hù)提供與所選項(xiàng)目的適當(dāng)使用有關(guān)的信息。描述區(qū)域415可幫助用戶(hù)學(xué)習(xí)特定終結(jié)符或非終結(jié)符的正確和預(yù)定使用。例如,當(dāng)用戶(hù)移動(dòng)鼠標(biāo)到樹(shù)編輯器視圖中的終結(jié)符或非終結(jié)符上時(shí),描述本身可作為工具提示由IDT顯示。這可以特別有益于新開(kāi)發(fā)者加入現(xiàn)有NLU開(kāi)發(fā)團(tuán)隊(duì)并且必須培訓(xùn)由該開(kāi)發(fā)團(tuán)隊(duì)使用的注解方法的情況。
如果用戶(hù)希望輸入尚未在IDT中定義的新終結(jié)符,則用戶(hù)可選擇“新標(biāo)記”圖標(biāo)420。在這種情況下,圖5示出響應(yīng)圖標(biāo)420的激活而可由IDT顯示的示例性GUI 500。圖5的示例性GUI 500允許用戶(hù)在區(qū)域510中輸入新終結(jié)符或非終結(jié)符,并且在區(qū)域520中輸入附隨描述。
圖6示出用于表現(xiàn)與圖3A的GUI類(lèi)似的樹(shù)編輯器視圖的另一個(gè)示例性GUI 600。如圖所示,示例性GUI 600包含在GUI 600的窗口610內(nèi)可訪問(wèn)的示例性彈出式菜單605。顯然地,前述功能性的大部分可從彈出式菜單605直接訪問(wèn)。例如,用戶(hù)可以添加附加非終結(jié)符、選擇自動(dòng)完成解析樹(shù),包括根據(jù)在配置文件中指定的統(tǒng)計(jì)模型對(duì)句子進(jìn)行歸類(lèi),編輯樹(shù)節(jié)點(diǎn),查找詞結(jié)構(gòu)或整個(gè)句子結(jié)構(gòu),以及刪除或撤消操作。另外,如圖所示,由于每個(gè)詞已經(jīng)采用對(duì)應(yīng)標(biāo)記被注解,因此“增加標(biāo)記”功能性被禁止。顯然地,在本發(fā)明的此實(shí)施例中,與特定終結(jié)符或非終結(jié)符相關(guān)使用術(shù)語(yǔ)標(biāo)記和標(biāo)簽。例如,標(biāo)記被分配給詞,并且標(biāo)記可用來(lái)將結(jié)構(gòu)分配給標(biāo)記群。從而,只有標(biāo)簽可用來(lái)完成解析樹(shù)到根節(jié)點(diǎn)。
圖7示出用于表現(xiàn)樹(shù)編輯器視圖的另一個(gè)示例性GUI 700。在這種情況下,用戶(hù)選擇了編輯在樹(shù)編輯器視圖中所示的文本語(yǔ)料庫(kù)的詞。顯然地,用戶(hù)選擇了訓(xùn)練句子的詞,并且選擇了編輯那個(gè)詞。輸入新詞“descriptions”來(lái)替換先前詞。這樣,用戶(hù)可從IDT的樹(shù)編輯器視圖中的任一個(gè)編輯實(shí)際的文本語(yǔ)料庫(kù)以及終結(jié)符、非終結(jié)符和樹(shù)結(jié)構(gòu)。顯然地,在這種情況下,修改樹(shù)的詞不改變樹(shù)的形狀,而是將舊詞替換為新的用戶(hù)指定詞。此外,IDT還可檢查來(lái)自存儲(chǔ)器的句子是否匹配所編輯的句子。如果是,則可向用戶(hù)詢(xún)問(wèn)是使用現(xiàn)有樹(shù)還是以新編輯的樹(shù)替換現(xiàn)有樹(shù)。
圖8示出用于表現(xiàn)樹(shù)編輯器視圖的另一個(gè)示例性GUI 800,其中用戶(hù)調(diào)用了修改句子功能。響應(yīng)該用戶(hù)請(qǐng)求,IDT可顯示示例性GUI805,其中用戶(hù)可從樹(shù)編輯器視圖的任一個(gè)內(nèi)編輯整個(gè)訓(xùn)練語(yǔ)料庫(kù)句子。顯然地,當(dāng)用戶(hù)編輯句子時(shí),可以在數(shù)據(jù)庫(kù)中更新不再對(duì)應(yīng)于所編輯句子的任何解析樹(shù)、類(lèi)樹(shù)和其他解釋信息。IDT可搜索現(xiàn)有句子以確定是否有另一個(gè)句子匹配新編輯的句子。如果是,則匹配句子的類(lèi)樹(shù)和解析樹(shù)可與新編輯的句子相關(guān)聯(lián)。該功能性還允許用戶(hù)在使用下面討論的若干選項(xiàng)之一讀取或處理文本語(yǔ)料庫(kù)時(shí)校正引入到該語(yǔ)料庫(kù)中的錯(cuò)誤。
圖9示出可用來(lái)顯示組成樹(shù)基的詞的示例性GUI 900。句子可列在區(qū)域925中,其中信息可根據(jù)若干不同列區(qū)域來(lái)組織。具體地說(shuō),列標(biāo)題905可用來(lái)顯示文本語(yǔ)料庫(kù)內(nèi)各個(gè)句子的編號(hào)位置。列標(biāo)題910可被保留用于顯示該完全相同文本出現(xiàn)在文本語(yǔ)料庫(kù)內(nèi)的計(jì)數(shù)或次數(shù)。列標(biāo)題915可顯示居于句子之前的反饋標(biāo)記以及句子文本。反饋標(biāo)記可表示句子所對(duì)應(yīng)的表單(form)名稱(chēng)和空位(slot)名稱(chēng)。反饋標(biāo)記可列在單獨(dú)列中,或者可居于句子文本之前。此外,用戶(hù)可通過(guò)激活將IDT置于對(duì)句子進(jìn)行歸類(lèi)的模式中的按鈕920來(lái)切換到另一個(gè)視圖。如圖所示,類(lèi)名或標(biāo)記已被加入到句子內(nèi)。顯然地,可使用相同GUI風(fēng)格來(lái)向用戶(hù)表現(xiàn)經(jīng)過(guò)解析或歸類(lèi)的句子。從而,句子的詞可根據(jù)具體情況被替換為終結(jié)符或非終結(jié)符。
所列句子可根據(jù)句子編號(hào)列、計(jì)數(shù)列或者文本列以升序或降序的方式排序。GUI 900還可包括表示包含在每個(gè)句子內(nèi)的詞數(shù)的列。該信息允許用戶(hù)選擇較短的句子開(kāi)始?xì)w類(lèi)或解析。應(yīng)當(dāng)理解,可以按升序或降序?qū)渥舆M(jìn)行排序,并且可以根據(jù)任一列類(lèi)型對(duì)句子進(jìn)行搜索或過(guò)濾。
包括在GUI 900內(nèi)的顯示列根據(jù)由IDE跟蹤的任何數(shù)據(jù)可以是用戶(hù)可配置的。例如,可包括指定對(duì)應(yīng)于給定句子的反饋標(biāo)記、提示、解析樹(shù)得分或者應(yīng)用形式(application form)的附加列??砂ū硎居山馕銎骰驓w類(lèi)器確定的句子注解等級(jí)的列。例如,等級(jí)1可表示模型預(yù)測(cè)正確答案的最高可能性。等級(jí)越高。模型預(yù)測(cè)正確答案的可能性就越高。可包括狀態(tài)列,其可表示句子是否用于訓(xùn)練或平滑(smoothing)??砂ū硎救绾问占渥拥男畔⑷缭谛∫?guī)模測(cè)試期間生成、由用戶(hù)鍵入、口述,在系統(tǒng)測(cè)試期間口述,在部署期間口述等的語(yǔ)法。無(wú)論如何,前述列表都不是詳盡無(wú)遺的。
圖10示出可用來(lái)表現(xiàn)詞典風(fēng)格詞視圖的示例性GUI 1000。該視圖可用來(lái)顯示終結(jié)符、非終結(jié)符或帶注解詞的完全列表。該顯示可被配置成無(wú)需顯示不在特定文本語(yǔ)料庫(kù)內(nèi)使用的終結(jié)符和非終結(jié)符。顯然地,通過(guò)激活進(jìn)一步表示當(dāng)前視圖的可激活按鈕1025,用戶(hù)可在類(lèi)視圖和解析視圖之間來(lái)回切換。在本例中,該視圖是詞典解析器視圖。不帶注解的詞可以但無(wú)需顯示在詞視圖中。如圖10所示,窗口1005的詞視圖可細(xì)分成至少兩個(gè)標(biāo)題。這些標(biāo)題可包括詞標(biāo)題1010和終結(jié)符或非終結(jié)符標(biāo)題1015。在終結(jié)符或非終結(jié)符標(biāo)題1015中,帶中括號(hào)的數(shù)字可表示數(shù)據(jù)出現(xiàn)在文本語(yǔ)料庫(kù)中的次數(shù)。用戶(hù)可以激活或禁止計(jì)數(shù)以及調(diào)整GUI 1000中各項(xiàng)目的顏色和字體。另外,IDT允許用戶(hù)區(qū)分低計(jì)數(shù)和高計(jì)數(shù)項(xiàng)目。例如,IDT可采用一種顏色代表低計(jì)數(shù)項(xiàng)目,而采用不同顏色代表高計(jì)數(shù)項(xiàng)目。此外,如果特定終結(jié)符或非終結(jié)符的計(jì)數(shù)低于預(yù)定可編程閾值,則系統(tǒng)可指示需要更多數(shù)據(jù)來(lái)提高終結(jié)符或非終結(jié)符的統(tǒng)計(jì)準(zhǔn)確性。在一個(gè)實(shí)施例中,可根據(jù)開(kāi)發(fā)者認(rèn)為相關(guān)的統(tǒng)計(jì)或啟發(fā)信息來(lái)高亮顯示特定信息項(xiàng)。
示例性GUI 1000也可用來(lái)顯示終結(jié)符擴(kuò)展到非終結(jié)符的方式。例如,終結(jié)符可位于列標(biāo)題1010之下的列中;而非終結(jié)符可位于列標(biāo)題1015之下的列中。在詞典標(biāo)記視圖中,可顯示從特定節(jié)點(diǎn)擴(kuò)展到父親節(jié)點(diǎn)的分支的方向。例如,使用定點(diǎn)設(shè)備,如果用戶(hù)右擊特定非終結(jié)符,則IDT可顯示從孩子節(jié)點(diǎn)擴(kuò)展到父親節(jié)點(diǎn)的分支的方向??赡艿姆较蚩砂▎蜗?unary)、左、中、右、上或下。
示例性GUI 1000還可用來(lái)顯示非終結(jié)符連接到其他非終結(jié)符的方式。在這種情況下,除了由于標(biāo)簽可連接到其他標(biāo)簽而標(biāo)簽可位于兩列中之外,視圖可類(lèi)似于標(biāo)記視圖。在任何情況下,GUI 1000可以是用戶(hù)可配置的。在一方面,列的排序可由用戶(hù)確定。例如,標(biāo)記列和附隨數(shù)目信息可顯示在詞列的左邊。類(lèi)似地,詞列左邊的列可顯示詞出現(xiàn)在文本語(yǔ)料庫(kù)中的總次數(shù)。在詞列的右邊,可顯示表示詞被標(biāo)記為特定標(biāo)記或根的次數(shù)的數(shù)目。不管如何,都應(yīng)當(dāng)理解,列排序以及包括用于顯示進(jìn)一步解釋信息的附加列是用戶(hù)可配置的。
詞典風(fēng)格視圖的另一個(gè)實(shí)施例可類(lèi)似于目錄樹(shù)結(jié)構(gòu)向用戶(hù)表現(xiàn)解釋信息,特別是終結(jié)符和非終結(jié)符信息。在這種情況下,標(biāo)記可采用圖形方式被表現(xiàn)為根,其中標(biāo)簽可采用圖形方式被示出為根之下的可折疊子結(jié)構(gòu)。此外,連接到其他非終端符的非終端符可采用圖形方式被示出為位于其父親非終端符之下。用戶(hù)可單擊終結(jié)符或非終結(jié)符以展開(kāi)和查看底層結(jié)構(gòu),或者單擊終結(jié)符或非終結(jié)符以折疊底層結(jié)構(gòu)。在當(dāng)前構(gòu)造的統(tǒng)計(jì)模型內(nèi)使用終結(jié)符和非終結(jié)符時(shí),目錄樹(shù)視圖可向用戶(hù)提供終結(jié)符和非終結(jié)符的總體分層結(jié)構(gòu)的直觀圖形表示。
查找特性可包括在詞典視圖中,其中用戶(hù)可搜索具有特定條目的數(shù)據(jù)項(xiàng)。例如,用戶(hù)可搜索特定標(biāo)記或標(biāo)簽,以及通過(guò)諸如標(biāo)記或標(biāo)簽出現(xiàn)在注解數(shù)據(jù)內(nèi)的次數(shù)的參數(shù)來(lái)搜索標(biāo)記或標(biāo)簽。搜索功能也可搜索用戶(hù)指定的終結(jié)符和非終結(jié)符之間的關(guān)系。例如,用戶(hù)可在注解數(shù)據(jù)內(nèi)搜索具有從諸如右、左、上或單向的特定方向由節(jié)點(diǎn)擴(kuò)展或者到達(dá)節(jié)點(diǎn)的分支的任何節(jié)點(diǎn),父親和/或孩子。
過(guò)濾特性也可包括在詞典視圖中。通過(guò)GUI 1000,用戶(hù)可根據(jù)諸如數(shù)據(jù)項(xiàng)源、數(shù)據(jù)項(xiàng)目標(biāo)、與數(shù)據(jù)項(xiàng)相關(guān)聯(lián)的方向或者與數(shù)據(jù)項(xiàng)相關(guān)聯(lián)的注解符的參數(shù)過(guò)濾顯示信息。用戶(hù)也可根據(jù)表示數(shù)據(jù)是帶注解的還是不帶注解的注解狀態(tài)、表示孩子節(jié)點(diǎn)是否具有大于“N”個(gè)帶注解例子作為父親的節(jié)點(diǎn)計(jì)數(shù)、其中僅顯示來(lái)自特定數(shù)據(jù)文件的關(guān)系的數(shù)據(jù)文件、用于顯示僅從特定句子獲得的關(guān)系的句子范圍以及用于顯示來(lái)自訓(xùn)練、平滑和/或測(cè)試數(shù)據(jù)的關(guān)系的使用狀態(tài)來(lái)過(guò)濾數(shù)據(jù)。
圖11示出可結(jié)合IDT的構(gòu)建組件使用的示例性GUI 1100。示例性GUI 1100包括用于指定可被運(yùn)行以“構(gòu)建”NLU應(yīng)用的腳本的若干區(qū)域。區(qū)域1105可用來(lái)指定特定文件,該文件可指定缺省參數(shù)、其他專(zhuān)用參數(shù)、所要執(zhí)行的腳本以及在執(zhí)行腳本之后所要顯示的信息。該文件還可指定在回歸測(cè)試期間所要處理和使用的文本文件。描述區(qū)域1110包含腳本的功能性的描述。參數(shù)列表區(qū)域1115可顯示可用于執(zhí)行腳本的參數(shù)列表。區(qū)域1120可用來(lái)傳達(dá)可相關(guān)于腳本的任何附加信息或備注。顯然地,描述區(qū)域1110和附加信息區(qū)域1120可有用于用戶(hù)或應(yīng)用開(kāi)發(fā)者的團(tuán)隊(duì)開(kāi)發(fā)NLU應(yīng)用的開(kāi)發(fā)環(huán)境。
圖12示出可結(jié)合IDT的回歸測(cè)試組件使用的示例性GUI 1200。顯然地,GUI 1200可細(xì)分成兩個(gè)部分。區(qū)域1205可顯示從文本語(yǔ)料庫(kù)的用戶(hù)注解確定的真實(shí)含義樹(shù)。區(qū)域1210可顯示使用先前在圖11的區(qū)域1105中指定的配置文件中所指定的統(tǒng)計(jì)模型由IDT生成的含義樹(shù)。相應(yīng)地,在配置文件中可指定多于一個(gè)統(tǒng)計(jì)模型,從而允許比較每個(gè)統(tǒng)計(jì)模型的結(jié)果。例如,該GUI可包括第三部分,其中該GUI對(duì)于在回歸測(cè)試期間使用的每個(gè)統(tǒng)計(jì)模型具有一個(gè)部分并且對(duì)于真實(shí)含義樹(shù)具有另一個(gè)部分。兩棵樹(shù)之間的差別可被自動(dòng)地高亮顯示。可更突出強(qiáng)調(diào)產(chǎn)生區(qū)別最大的可能性從而導(dǎo)致不正確結(jié)果的差別。從而,可向用戶(hù)提供從何處開(kāi)始調(diào)試的提示。用戶(hù)可以可視地注意所示含義樹(shù)之間的區(qū)別。
用戶(hù)可逐一地瀏覽(cycle through)結(jié)果含義樹(shù),在本例中為解析樹(shù)。例如,用戶(hù)可瀏覽以對(duì)應(yīng)于每個(gè)解析樹(shù)的置信度得分表示的頂頭“n”個(gè)選項(xiàng)。應(yīng)當(dāng)理解,置信度得分提供由IDT解釋的指示,其表示結(jié)果解析樹(shù)反映底層統(tǒng)計(jì)模型而非真實(shí)含義樹(shù)的接近程度。具有高置信度得分的結(jié)果解析樹(shù)與緊密匹配真實(shí)含義樹(shù)的結(jié)果解析樹(shù)之間可存在對(duì)應(yīng)關(guān)系。顯然地,頂頭“n”個(gè)選項(xiàng)之一可能是匹配真實(shí)含義樹(shù)的統(tǒng)計(jì)模型。不管如何,用戶(hù)都可瀏覽可能的解釋以查找可以作為以后編輯基點(diǎn)的解釋?zhuān)貏e是在真實(shí)含義樹(shù)不正確的情況下。
圖12還示出自動(dòng)完成得分1215,其向用戶(hù)通知當(dāng)前顯示給用戶(hù)的模型的置信度得分。附加信息如與每個(gè)節(jié)點(diǎn)相對(duì)應(yīng)的每個(gè)節(jié)點(diǎn)或文本的置信度得分可顯示在節(jié)點(diǎn)內(nèi),或者可在指針位于含義樹(shù)的節(jié)點(diǎn)上時(shí)作為工具提示進(jìn)行顯示。在一個(gè)實(shí)施例中,節(jié)點(diǎn)是可擴(kuò)充的以容納增加的解釋信息。節(jié)點(diǎn)置信度得分可幫助開(kāi)發(fā)者檢測(cè)錯(cuò)誤或者確定特定解析樹(shù)不近似或匹配真實(shí)解析樹(shù)的原因。然而,應(yīng)當(dāng)理解,IDT是可配置的,使得眾多含義樹(shù)特征和設(shè)置的任一個(gè)可作為工具提示來(lái)顯示或者顯示在節(jié)點(diǎn)內(nèi)。如果正確注解的得分大于從模型獲得的最好計(jì)分答案,則GUI1200還可顯示消息。在這種情況下,該模型預(yù)測(cè)正確的答案,并且統(tǒng)計(jì)模型的搜索機(jī)制產(chǎn)生問(wèn)題。這一般通過(guò)擴(kuò)大搜索范圍來(lái)糾正,并且不需要任何直接開(kāi)發(fā)者調(diào)試。
圖12的GUI還可用來(lái)顯示相同句子的注解數(shù)據(jù)的不同階段。具體地說(shuō),由第一遍如解析遍產(chǎn)生的注解數(shù)據(jù)可顯示在一個(gè)窗口內(nèi),而由第二遍如歸類(lèi)遍產(chǎn)生的注解數(shù)據(jù)可顯示在另一個(gè)窗口內(nèi)。然而,分裂屏幕GUI 1200還可顯示不同的句子。例如,一個(gè)窗口可用來(lái)保持句子視圖,而第二窗口可用來(lái)搜索具有特定結(jié)構(gòu)的另一個(gè)句子。
分裂屏幕GUI 1200還可用來(lái)顯示不同上下文中相同文本句子的兩個(gè)不同注解。例如,短語(yǔ)“what’s available”在答復(fù)“how may I help you”或者“what fund would you like the price of”或者“how much would youlike to withdraw”而說(shuō)出時(shí)具有不同的含義。
圖13示出可結(jié)合IDT的導(dǎo)入組件使用的示例性GUI 1300。導(dǎo)入組件可使用若干方法中的任一個(gè)導(dǎo)入現(xiàn)有文本語(yǔ)料庫(kù)。例如,文本語(yǔ)料庫(kù)可作為句子的不帶注解文本文件、或者帶注解文本文件被導(dǎo)入。另外,由于傳統(tǒng)NLU系統(tǒng)可存儲(chǔ)用戶(hù)答復(fù),因此可以對(duì)NLU系統(tǒng)的日志進(jìn)行數(shù)據(jù)挖掘以獲得解析器輸出、歸類(lèi)器輸出或者語(yǔ)言模型文本。前述數(shù)據(jù)類(lèi)型中的每一種可被導(dǎo)入到IDT中。在另一個(gè)實(shí)施例中,用戶(hù)可使用詞典風(fēng)格視圖或樹(shù)視圖逐一地將文本句子直接鍵入IDT。
另外,另一個(gè)實(shí)施例可接收表示文本語(yǔ)料庫(kù)的包含用戶(hù)口述話(huà)語(yǔ)的數(shù)字音頻文件??蛇x地,IDT可通過(guò)模數(shù)轉(zhuǎn)換器如聲卡以數(shù)字方式記錄模擬音頻源。不管如何,IDT都可包括用于將用戶(hù)口述話(huà)語(yǔ)轉(zhuǎn)換成文本以獲得訓(xùn)練語(yǔ)料庫(kù)的語(yǔ)音識(shí)別系統(tǒng)。在這種情況下,文本語(yǔ)料庫(kù)的數(shù)字記錄可存儲(chǔ)在存儲(chǔ)器中以作將來(lái)使用和分析,以及用于在使用IDT的期間進(jìn)行回放。表示訓(xùn)練文本語(yǔ)料庫(kù)的音頻文件可與特定文本短語(yǔ)或句子相關(guān)聯(lián),使得用戶(hù)或開(kāi)發(fā)者可聽(tīng)到訓(xùn)練文本的音頻表示以及查看與文本相關(guān)的注解信息。例如,不管文本是帶注解的、不帶注解的、歸類(lèi)器輸出還是解析器輸出,文本部分都可通過(guò)指定音頻文件位置和文件名而與音頻文件相關(guān)聯(lián)??蛇x地,可指定音頻文件,并且開(kāi)發(fā)者可將關(guān)聯(lián)文本鍵入IDT。
GUI 1300可用來(lái)調(diào)整導(dǎo)入文本語(yǔ)料庫(kù)時(shí)的導(dǎo)入組件設(shè)置。區(qū)域1305可用來(lái)顯示當(dāng)前導(dǎo)入到IDT中的文件的名稱(chēng)和路徑。顯然地,文件可以是帶注解的文本語(yǔ)料庫(kù)、不帶注解的文本語(yǔ)料庫(kù)和/或語(yǔ)音文件,包括要被處理的語(yǔ)音的數(shù)字記錄或者從語(yǔ)音識(shí)別引擎獲得的文本文件。區(qū)域1310可表示要被導(dǎo)入的文件內(nèi)由IDT識(shí)別的句子數(shù)??丶?315、1320、1325和1330確定導(dǎo)入類(lèi)型,或者哪些句子和對(duì)應(yīng)注解數(shù)據(jù)將包括在IDT中構(gòu)建的當(dāng)前統(tǒng)計(jì)模型內(nèi)。例如,控件1315的激活導(dǎo)致IDT添加所有句子。如果句子已經(jīng)包含在數(shù)據(jù)庫(kù)內(nèi),則IDT可將在IDT內(nèi)定義的樹(shù)結(jié)構(gòu)用于所導(dǎo)入的句子??丶?320的激活將不導(dǎo)入任何句子,但是將以對(duì)應(yīng)于導(dǎo)入文件內(nèi)的重復(fù)句子相對(duì)應(yīng)的注解數(shù)據(jù)覆寫(xiě)包含在IDT內(nèi)的注解數(shù)據(jù)??丶?325的激活在句子已經(jīng)包含在關(guān)系數(shù)據(jù)庫(kù)內(nèi)的情況下仍然添加所有句子。然而,控件1325的激活將采用與來(lái)自導(dǎo)入文件的重復(fù)句子相對(duì)應(yīng)的注解數(shù)據(jù)覆寫(xiě)IDT中的注解數(shù)據(jù)??丶?330將僅添加不包含在關(guān)系數(shù)據(jù)庫(kù)內(nèi)的來(lái)自導(dǎo)入文件的句子和注解數(shù)據(jù)??丶?335的激活導(dǎo)致根據(jù)前述導(dǎo)入準(zhǔn)則導(dǎo)入指定文件。
圖14示出可用來(lái)將位于導(dǎo)入文件內(nèi)的終結(jié)符和非終結(jié)符添加到當(dāng)前統(tǒng)計(jì)模型的示例性GUI 1400。例如,在導(dǎo)入帶注解的文本文件之后,IDT可識(shí)別不存在于當(dāng)前統(tǒng)計(jì)模型內(nèi)的帶注解導(dǎo)入文本文件內(nèi)的終結(jié)符和非終結(jié)符。因此,可向用戶(hù)顯示GUI 1400,其中可在窗口1405中向用戶(hù)顯示新終結(jié)符和非終結(jié)符。顯然地,“標(biāo)記/標(biāo)簽”列1510中的指示可標(biāo)識(shí)新項(xiàng)目為例如標(biāo)記或標(biāo)簽(終結(jié)符或非終結(jié)符)。特定標(biāo)記或標(biāo)簽的準(zhǔn)確拼寫(xiě)可列在“拼寫(xiě)”列1415中?!懊枋觥绷?420可由用戶(hù)填入有關(guān)標(biāo)記或標(biāo)簽的適當(dāng)功能描述或其他相關(guān)信息。顯然地,用戶(hù)可直接輸入文本到GUI 1400中以填入描述列而無(wú)需額外的GUI。因此,通過(guò)選擇對(duì)應(yīng)于期望標(biāo)記的描述行和列,可以“內(nèi)聯(lián)”執(zhí)行標(biāo)記或標(biāo)簽描述的編輯。
在此公開(kāi)的IDT可由用戶(hù)配置,以采用包括各種顏色、圖案、聲音和符號(hào)的眾多方式中的任一種描繪解釋信息以表示解釋信息的不同方面。類(lèi)似地,用戶(hù)可定制在IDT內(nèi)使用的終結(jié)符或非終結(jié)符。因此,雖然前面說(shuō)明書(shū)闡述了本發(fā)明的優(yōu)選實(shí)施例,但是應(yīng)當(dāng)理解,本發(fā)明不限于在此公開(kāi)的具體構(gòu)造。本發(fā)明在不脫離其精神或基本屬性的情況下可采用其他特定形式來(lái)實(shí)施。因此,應(yīng)當(dāng)參考所附權(quán)利要求而非前面說(shuō)明書(shū)來(lái)表示本發(fā)明的范圍。
本發(fā)明可以采用硬件、軟件或者硬件和軟件的組合來(lái)實(shí)現(xiàn)。本發(fā)明可以在一個(gè)計(jì)算機(jī)系統(tǒng)中以集中方式實(shí)現(xiàn)或者采用不同單元分散在若干互連的計(jì)算機(jī)系統(tǒng)之間的分布方式實(shí)現(xiàn)。配置成執(zhí)行在此所述的方法的任何類(lèi)型的計(jì)算機(jī)系統(tǒng)或者其他設(shè)備都是適合的。硬件和軟件的典型組合可以是具有計(jì)算機(jī)程序的通用計(jì)算機(jī)系統(tǒng),其中該計(jì)算機(jī)程序被裝載和執(zhí)行時(shí)控制計(jì)算機(jī)系統(tǒng)使得其執(zhí)行在此所述的方法。
本發(fā)明也可嵌入在計(jì)算機(jī)程序產(chǎn)品中,其中該計(jì)算機(jī)程序產(chǎn)品包括使得能夠?qū)崿F(xiàn)在此所述的方法的所有特性,并且當(dāng)被裝載到計(jì)算機(jī)系統(tǒng)中時(shí)能夠執(zhí)行這些方法。本上下文中的計(jì)算機(jī)程序是指采用任何語(yǔ)言、代碼或表示法的一組指令的任何表達(dá),其中這組指令旨在使具有信息處理能力的系統(tǒng)直接地或者在下列操作的任一種或兩者之后執(zhí)行特定功能a)轉(zhuǎn)換到另一種語(yǔ)言、代碼或表示法;b)以不同素材形式再現(xiàn)。
權(quán)利要求
1.一種開(kāi)發(fā)自然語(yǔ)言理解(NLU)應(yīng)用的方法,包括使用多遍處理技術(shù)從NLU訓(xùn)練文本語(yǔ)料庫(kù)確定NLU解釋信息,其中一遍的改變自動(dòng)改變隨后一遍的輸入,所述NLU解釋信息指定所述NLU訓(xùn)練文本語(yǔ)料庫(kù)的至少一部分的解釋?zhuān)辉跀?shù)據(jù)庫(kù)(205)中存儲(chǔ)所述NLU解釋信息;以及在圖形編輯器(310)中,表現(xiàn)NLU解釋信息的所選項(xiàng)目(330),并且接收對(duì)所述NLU解釋信息的用戶(hù)指定編輯。
2.如權(quán)利要求1所述的方法,所述表現(xiàn)步驟還包括作為包括代表數(shù)據(jù)項(xiàng)的終結(jié)符和非終結(jié)符節(jié)點(diǎn)的含義樹(shù)表現(xiàn)所述NLU解釋信息。
3.如權(quán)利要求2所述的方法,還包括確定表示所述含義樹(shù)的一部分是否正確的概率;以及如果所述概率不超過(guò)預(yù)定閾值概率,則可視地標(biāo)識(shí)所述含義樹(shù)的所述部分。
4.如權(quán)利要求2所述的方法,還包括確定所述NLU解釋信息內(nèi)所述含義樹(shù)的子結(jié)構(gòu)的出現(xiàn)次數(shù);以及如果所述出現(xiàn)次數(shù)不超過(guò)預(yù)定閾值,則可視地標(biāo)識(shí)所述含義樹(shù)的所述子結(jié)構(gòu)。
5.如權(quán)利要求2所述的方法,還包括從所述NLU解釋信息確定所述含義樹(shù)的所選節(jié)點(diǎn)的相交;將所選節(jié)點(diǎn)的所述相交表現(xiàn)為用于向所述含義樹(shù)添加附加節(jié)點(diǎn)的選項(xiàng);以及將節(jié)點(diǎn)添加到所述含義樹(shù)的所述所選節(jié)點(diǎn)之上,其中從所述選項(xiàng)中選擇所述添加的節(jié)點(diǎn)。
6.如權(quán)利要求2所述的方法,還包括響應(yīng)用戶(hù)命令,創(chuàng)建所述含義樹(shù)的附加節(jié)點(diǎn),所述節(jié)點(diǎn)代表附加數(shù)據(jù)項(xiàng);以及關(guān)聯(lián)所述節(jié)點(diǎn)與描述。
7.如權(quán)利要求6所述的方法,還包括對(duì)所述關(guān)聯(lián)描述進(jìn)行拼寫(xiě)檢查。
8.如權(quán)利要求2所述的方法,其中選擇所述含義樹(shù)的節(jié)點(diǎn),所述方法還包括響應(yīng)用戶(hù)請(qǐng)求,顯示包括用于顯示所述節(jié)點(diǎn)及其參數(shù)的多列的詞典視圖,其中所述詞典視圖包括由所述高亮顯示節(jié)點(diǎn)代表的數(shù)據(jù)項(xiàng)。
9.如權(quán)利要求2所述的方法,還包括根據(jù)從包括數(shù)據(jù)項(xiàng)詞典和指定文本解釋的模型的組中選擇的預(yù)定NLU解釋信息,自動(dòng)完成所述含義樹(shù)。
10.如權(quán)利要求9所述的方法,所述自動(dòng)完成步驟包括判定來(lái)自所述數(shù)據(jù)項(xiàng)詞典的單個(gè)數(shù)據(jù)項(xiàng)是否與所述NLU訓(xùn)練文本語(yǔ)料庫(kù)的詞相關(guān)聯(lián);以及如果是,則將所述數(shù)據(jù)項(xiàng)自動(dòng)分配給所述詞。
11.如權(quán)利要求2所述的方法,還包括作為工具提示顯示所述NLU解釋信息的所選項(xiàng)目;以及顯示所述表現(xiàn)的含義樹(shù)是正確解釋的概率。
12.如權(quán)利要求2所述的方法,還包括在所述NLU解釋信息內(nèi)搜索指定含義樹(shù)結(jié)構(gòu)。
13.如權(quán)利要求2所述的方法,還包括識(shí)別數(shù)據(jù)項(xiàng)的相交;以及將所述識(shí)別的數(shù)據(jù)項(xiàng)表現(xiàn)為用于為所述NLU訓(xùn)練文本語(yǔ)料庫(kù)的句子注解所述含義樹(shù)的用戶(hù)指定節(jié)點(diǎn)的選擇。
14.如權(quán)利要求1所述的方法,所述表現(xiàn)步驟還包括在詞典視圖中表現(xiàn)所述NLU解釋信息,所述詞典視圖包括用于顯示父親和孩子數(shù)據(jù)項(xiàng)及其參數(shù)的多列。
15.如權(quán)利要求14所述的方法,其中所述詞典視圖包括用于表示所述數(shù)據(jù)項(xiàng)的孩子的一列和表示所述數(shù)據(jù)項(xiàng)的父親的另一列。
16.如權(quán)利要求15所述的方法,還包括根據(jù)所述孩子或父親列對(duì)所述數(shù)據(jù)項(xiàng)進(jìn)行排序。
17.如權(quán)利要求14所述的方法,還包括可視地表示其概率或計(jì)數(shù)超過(guò)預(yù)定閾值的數(shù)據(jù)項(xiàng)。
18.如權(quán)利要求14所述的方法,還包括隱藏其概率或計(jì)數(shù)不超過(guò)預(yù)定閾值的數(shù)據(jù)項(xiàng)。
19.如權(quán)利要求14所述的方法,還包括響應(yīng)用戶(hù)選擇具有關(guān)聯(lián)的特定數(shù)據(jù)項(xiàng),在所述NLU解釋信息內(nèi)搜索包括代表所述關(guān)聯(lián)的終結(jié)符和非終結(jié)符節(jié)點(diǎn)的含義樹(shù)。
20.如權(quán)利要求14所述的方法,還包括根據(jù)從包括數(shù)據(jù)項(xiàng)源、數(shù)據(jù)項(xiàng)目標(biāo)、與數(shù)據(jù)項(xiàng)相關(guān)聯(lián)的方向、與數(shù)據(jù)項(xiàng)相關(guān)聯(lián)的注解符、注解狀態(tài)、節(jié)點(diǎn)計(jì)數(shù)、數(shù)據(jù)文件、句子范圍和使用狀態(tài)的組中選擇的參數(shù),對(duì)所述NLU解釋信息進(jìn)行過(guò)濾。
21.如權(quán)利要求14所述的方法,還包括顯示從所述NLU解釋信息獲得的直方圖信息。
22.如權(quán)利要求1所述的方法,所述表現(xiàn)步驟還包括在句子視圖中,表現(xiàn)與單獨(dú)文本短語(yǔ)相關(guān)聯(lián)的所述NLU解釋信息,從包括注解狀態(tài)、短語(yǔ)計(jì)數(shù)、指定短語(yǔ)使用、短語(yǔ)收集信息、正確性概率和正確性等級(jí)的組中選擇的所述NLU解釋信息。
23.如權(quán)利要求1所述的方法,所述表現(xiàn)步驟還包括在分裂屏幕視圖中作為多個(gè)含義樹(shù)表現(xiàn)所述NLU解釋信息,所述分裂屏幕視圖至少包括用于顯示第一含義樹(shù)的第一窗口和用于顯示第二含義樹(shù)的第二窗口。
24.如權(quán)利要求23所述的方法,還包括響應(yīng)用戶(hù)請(qǐng)求,在所述第一窗口內(nèi)顯示所述第一含義樹(shù),同時(shí)在所述第二窗口內(nèi)表現(xiàn)不同所述含義樹(shù)。
25.如權(quán)利要求23所述的方法,其中所述第一和第二含義樹(shù)是相同上下文中相同文本短語(yǔ)的不同解釋。
26.如權(quán)利要求25所述的方法,其中所述第一含義樹(shù)代表文本短語(yǔ)的正確解釋?zhuān)龅诙x樹(shù)代表根據(jù)統(tǒng)計(jì)模型的所述文本短語(yǔ)的預(yù)測(cè)解釋。
27.如權(quán)利要求26所述的方法,還包括如果所述正確解釋的得分大于所述預(yù)測(cè)解釋的得分,則表示所述統(tǒng)計(jì)模型不正確。
28.如權(quán)利要求23所述的方法,其中所述第一和第二含義樹(shù)是兩個(gè)不同上下文中相同文本短語(yǔ)的不同解釋。
29.如權(quán)利要求23所述的方法,其中所述第一含義樹(shù)對(duì)應(yīng)于第一遍處理之后的文本短語(yǔ),而所述第二含義樹(shù)對(duì)應(yīng)于隨后一遍處理之后的所述文本短語(yǔ)。
30.如權(quán)利要求23所述的方法,其中所述第一含義樹(shù)代表第一文本短語(yǔ),所述方法還包括在所述第一窗口內(nèi)接收對(duì)所述第一含義樹(shù)的編輯;以及響應(yīng)所述編輯,搜索與所述編輯的第一含義樹(shù)相對(duì)應(yīng)的不同文本短語(yǔ)的含義樹(shù),并且在所述第二窗口內(nèi)顯示所述不同文本短語(yǔ)的所述含義樹(shù)。
31.如權(quán)利要求23所述的方法,還包括可視地表示所述第一含義樹(shù)與所述第二含義樹(shù)之間的差別。
32.如權(quán)利要求23所述的方法,還包括使所述第一含義樹(shù)遵循所述第二含義樹(shù)。
33.如權(quán)利要求1所述的方法,還包括自動(dòng)導(dǎo)入NLU訓(xùn)練句子;以及根據(jù)從所述NLU訓(xùn)練文本語(yǔ)料庫(kù)確定的統(tǒng)計(jì)可能性,自動(dòng)確定所述NLU訓(xùn)練句子的解釋。
34.如權(quán)利要求1所述的方法,還包括自動(dòng)導(dǎo)入訓(xùn)練句子的NLU解釋?zhuān)灰约皩⑺鯪LU解釋?xiě)?yīng)用于所述NLU訓(xùn)練文本語(yǔ)料庫(kù)。
35.如權(quán)利要求1所述的方法,還包括響應(yīng)指定所述多遍之一的用戶(hù)輸入,顯示由所述多遍中的所述一遍產(chǎn)生的所述NLU解釋信息。
36.如權(quán)利要求1所述的方法,還包括根據(jù)所述NLU訓(xùn)練文本語(yǔ)料庫(kù)的文本短語(yǔ)的NLU解釋信息屬性,在句子視圖中對(duì)所述文本短語(yǔ)進(jìn)行排序;以及作為含義樹(shù)順序顯示所述文本短語(yǔ)中的至少兩個(gè)的所述NLU解釋信息,其中根據(jù)所述句子視圖的所述排序來(lái)顯示所述含義樹(shù)。
37.一種用于根據(jù)如任一項(xiàng)前面權(quán)利要求所述的方法開(kāi)發(fā)自然語(yǔ)言理解(NLU)應(yīng)用的集成開(kāi)發(fā)工具,所述集成開(kāi)發(fā)工具包括數(shù)據(jù)庫(kù),被配置成存儲(chǔ)與NLU訓(xùn)練文本語(yǔ)料庫(kù)相對(duì)應(yīng)的NLU解釋信息的各項(xiàng)目;圖形編輯器,具有用于操縱NLU解釋信息的所述項(xiàng)目的多個(gè)視圖,所述圖形編輯器在通信上鏈接到所述數(shù)據(jù)庫(kù);以及處理器,被配置成根據(jù)多遍系統(tǒng)確定NLU解釋信息的所述項(xiàng)目,并且在所述數(shù)據(jù)庫(kù)中存儲(chǔ)NLU解釋信息的所述項(xiàng)目。
38.一種可機(jī)讀存儲(chǔ)裝置,其上存儲(chǔ)了一個(gè)計(jì)算機(jī)程序,所述計(jì)算機(jī)程序具有用于使機(jī)器執(zhí)行如前面方法權(quán)利要求1-36中的任一項(xiàng)所述的步驟的可由機(jī)器執(zhí)行的多個(gè)代碼部分。
全文摘要
一種開(kāi)發(fā)自然語(yǔ)言理解(NLU)應(yīng)用的方法包括使用多遍處理技術(shù)從NLU訓(xùn)練文本語(yǔ)料庫(kù)確定NLU解釋信息。一遍的改變可自動(dòng)改變隨后一遍的輸入。NLU解釋信息可指定NLU訓(xùn)練文本語(yǔ)料庫(kù)的至少一部分的解釋。在數(shù)據(jù)庫(kù)中存儲(chǔ)NLU解釋信息,并且可在圖形編輯器中表現(xiàn)NLU解釋信息的所選項(xiàng)目。還在圖形編輯器中接收用戶(hù)指定的編輯。
文檔編號(hào)G06F17/21GK1726488SQ03809964
公開(kāi)日2006年1月25日 申請(qǐng)日期2003年4月10日 優(yōu)先權(quán)日2002年5月7日
發(fā)明者馬克·愛(ài)德華·愛(ài)普斯坦, 莎倫·巴巴拉·瓊斯, 羅伯特·托德·沃德 申請(qǐng)人:國(guó)際商業(yè)機(jī)器公司