欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于模板的語義變量抽取方法

文檔序號(hào):6581924閱讀:175來源:國(guó)知局
專利名稱:一種基于模板的語義變量抽取方法
技術(shù)領(lǐng)域
本發(fā) 明涉及一種計(jì)算機(jī)信息的處理方法,尤其涉及一種基于語義變量抽取的應(yīng) 用接口的實(shí)現(xiàn)方法。
背景技術(shù)
目前的計(jì)算機(jī)應(yīng)用程序的接口,絕大多數(shù)是基于已有標(biāo)準(zhǔn)規(guī)范化的接口的應(yīng) 用,其輸入和輸出都是帶有類型的變量。比如,一個(gè)查詢賬戶余額的應(yīng)用程序接口,可 以定義的標(biāo)準(zhǔn)輸入是,字符串類型賬號(hào)名稱,字符串類型賬號(hào)密碼,輸出的是一個(gè) 浮點(diǎn)數(shù)金額大小。顯然,這樣的接口比較標(biāo)準(zhǔn)化,很容易實(shí)現(xiàn)被其他程序調(diào)用。上述的應(yīng)用接口,人們的自然語言(比如聲音)無法直接調(diào)用,因此作為一個(gè)完 整的面向普通用戶的可應(yīng)用程序,必須提供UlCuserinterface)界面,告訴用戶這里輸入賬 號(hào)名稱,那里輸入密碼,點(diǎn)擊查詢按鈕以后,你可以看到賬戶余額。如果在人們的自然 語言和應(yīng)用程序接口之間,建立一個(gè)中間的語義處理層,使得人們通過自然語言就可以 調(diào)用各種應(yīng)用程序接口,就會(huì)大大方便很多非電腦技術(shù)人員對(duì)計(jì)算機(jī)的使用。同時(shí)在一 些特殊領(lǐng)域也能開展多種應(yīng)用,如整合語音模塊,可以實(shí)現(xiàn)基于人類自然語言的智能聲 控驅(qū)動(dòng)等。語義處理是計(jì)算機(jī)信息處理中較難的環(huán)節(jié),當(dāng)前應(yīng)用教少,僅在部分領(lǐng)域有一 些簡(jiǎn)單的應(yīng)用。比如,手機(jī)的語音撥號(hào)系統(tǒng),其應(yīng)用是,首先對(duì)手機(jī)喊“call”,系統(tǒng)語 音提示屬于電話呼叫,然后通過語音輸入電話號(hào)碼,語音提示確認(rèn),確認(rèn)后自動(dòng)撥號(hào)。 這種實(shí)現(xiàn),其實(shí)現(xiàn)流程是固定的,觸發(fā)命令也是固定的,每個(gè)環(huán)節(jié)的語義也較單一,實(shí) 現(xiàn)起來比較簡(jiǎn)單。在當(dāng)前個(gè)性化應(yīng)用比較多的情形下,基于多應(yīng)用的考慮,把語義驅(qū)動(dòng)層引入應(yīng) 用系統(tǒng)并提供插件接口,使得各種業(yè)務(wù)模塊能以插件的形式存在,成為一種新的應(yīng)用需 求。在當(dāng)前的解決方案中,可以采用語義模板實(shí)現(xiàn)技術(shù)及反問技術(shù)等實(shí)現(xiàn)方式。語義模 板實(shí)現(xiàn)技術(shù)主要解決一答多問的情形,語義模板通過抽象到具體數(shù)據(jù)的映射得到數(shù)據(jù), 結(jié)合數(shù)據(jù),就渲染出各種不同的具體語義問法。反向技術(shù)主要處理語義中間層遇到?jīng)_突 和矛盾時(shí)的處理。為了能準(zhǔn)確有效地實(shí)現(xiàn)基于語義的用戶接口應(yīng)用,需提出一種能夠根據(jù)語義快 速分析并提取準(zhǔn)確信息的解決方案,根據(jù)提取關(guān)鍵詞快速驅(qū)動(dòng)應(yīng)用程序模塊,可大大提 高應(yīng)用系統(tǒng)的擴(kuò)展性和處理能力,實(shí)現(xiàn)多種應(yīng)用中的自然語言交互接口的綜合業(yè)務(wù)。

發(fā)明內(nèi)容
本發(fā)明的目的提供一種基于模板的語義變量抽取方法,通過定義語義變量的標(biāo) 識(shí)模板,進(jìn)行模板比對(duì),最終將用戶輸入語句中的關(guān)鍵詞進(jìn)行抽取的一種實(shí)現(xiàn)方式,本 發(fā)明所提出的一種基于模板的語義變量抽取方法包含以下步驟1、定義變量標(biāo)識(shí)抽取模板;
變量標(biāo)識(shí)抽取模板由描述性的文本(TEXT,簡(jiǎn)稱T)和抽取的變量 (VARIABLE,簡(jiǎn)稱V)兩部分內(nèi)容構(gòu)成。2、建立變量抽取模板索引鏈表(TemplateIndexList);對(duì)變量抽取模板按照文本T和變量V進(jìn)行抽象化的讀取,其讀取結(jié)果為模板索 引對(duì)象鏈表。做成鏈表的數(shù)據(jù)結(jié)構(gòu)是便于靈活訪問模板的要素,供后續(xù)程序調(diào)用。索引 列表為簡(jiǎn)單的單向鏈表,每個(gè)節(jié)點(diǎn)包含以下幾個(gè)屬性內(nèi)容next字段標(biāo)識(shí)后繼節(jié)點(diǎn)是什么;type字段標(biāo)識(shí)節(jié)點(diǎn)類型,為文本和變量;value字段標(biāo)記值。對(duì)于變量,記錄變量類型;對(duì)于text記錄文本信息;HeadValue 當(dāng)type為文本的時(shí)候有效。一般記錄value分詞后的第一個(gè)詞,也可以記錄多個(gè)詞;Tail Value 當(dāng)type為文本的時(shí)候有效。一般記錄value分詞后的最后一個(gè)詞,
也可以記錄多個(gè)詞;3、獲取分割注釋列表(SeparatorCommentList);進(jìn)一步對(duì)模板索引鏈表進(jìn)行分析,得到一個(gè)分割節(jié)點(diǎn)的集合,其標(biāo)明了分割的 重要信息,稱為分割的注釋列表。分割注釋列表的每個(gè)節(jié)點(diǎn)包含分割符和分割類型信 息。分割符為分割提取時(shí)的標(biāo)識(shí)字符,分割類型分為L(zhǎng)、R、B三種L表示分割符號(hào)的右邊是一個(gè)需要抽取的變量V,左側(cè)是一個(gè)文本T ;R表示分割符號(hào)的左邊是一個(gè)需要抽取的變量V,右側(cè)是一個(gè)文本T ;B表示分割符號(hào)左右都是需要抽取的變量;4、根據(jù)分割注釋鏈表獲得分割符號(hào)對(duì)輸入語句進(jìn)行分割,獲得輸入語句的語句 索弓丨鏈表(Sentence Index List);根據(jù)步驟3的結(jié)果,獲得所有可能的分割符號(hào)。輸入語句通過分割符號(hào)進(jìn)行分 害I],得到基于分割結(jié)果輸入語句索引鏈列表(Sentence Index List)。每一個(gè)語句索引對(duì)象 都是一個(gè)單向的鏈表,包含以下信息Place 位置,該分割符號(hào)在句子中所處的位置;Left分割字符,左邊的文本內(nèi)容;Right 分割字符,右邊的文本內(nèi)容;Separator 分割字符;SeparatorType 分割字符類型;Next 下一個(gè) Sentence Index 對(duì)象節(jié)點(diǎn)。5、按照語句索引鏈列表和模板索引鏈表,進(jìn)行語義匹配度計(jì)算和抽??;每一條語句索引鏈,利用其分割字符和分割類型,進(jìn)行所有模板索引鏈表的對(duì) 比分析。模板索引鏈表由抽取變量V和文本內(nèi)容T兩種部分構(gòu)成,分割字符只能在T中 出現(xiàn),T和T之間至少有一個(gè)或者多個(gè)V間隔,因此組合的結(jié)果可以有以下形式T、 TV...、V·..Τ、TV...Τ、V..·。按照以下原則進(jìn)行處理(1)如果當(dāng)前模板索引鏈表節(jié)點(diǎn)是Τ,則后繼就只有三種可能T、TV...T、 TV...,可對(duì)這三種情況分別處理;(2)如果模板索引鏈表起始節(jié)點(diǎn)是V,則就額外處理V...、V...T兩種情況,處理完畢后把節(jié)點(diǎn)移動(dòng)到T,處理則回到了(1)的情形。匹配度計(jì)算方法為(a)若是純粹的Τ,則按照全語句相似度計(jì)算;若是純粹的V,則特別標(biāo)記相似 度為1。(b)若是VT類型,則只計(jì)算T部分value和語句索引鏈表節(jié)點(diǎn)后綴 (separator+right)的相似度;(c)若是TV類型,則只計(jì)算T部分value和語句索引鏈表節(jié)點(diǎn)后綴 (left+separator)的相似度; (d)若是TVT類型,則分別計(jì)算前一個(gè)T部分value和語句索引鏈表節(jié)點(diǎn)后 綴(left+separator)的相似度,以及后一個(gè)T部分的Value和語句索引鏈表節(jié)點(diǎn)后綴 (separator+right)相似度,然后累加。所有分割處都分別計(jì)算,除了計(jì)算每個(gè)抽取變量的單獨(dú)匹配度,還需對(duì)所有匹 配度進(jìn)行累加,最后再進(jìn)行平均得到總體匹配度。如果不是T開頭且T后面存在V,則 這個(gè)τ作為除數(shù)的時(shí)候需算作2個(gè)。具體的匹配度算法細(xì)節(jié)可根據(jù)需求而異,本發(fā)明采用Levenshtein算法,通過計(jì) 算得到Levenshtein Distance其相對(duì)于原輸入的最長(zhǎng)字符串的長(zhǎng)度之比,得到其偏差值, 進(jìn)而得到匹配度(匹配度=1-偏差值)。變量抽取的邏輯為如果是T,不存在抽取的問題;如果是TV...T,那么V...就等于第一個(gè)T對(duì)應(yīng)的語句索引鏈表節(jié)點(diǎn)的 Separator+right與第二個(gè)T對(duì)應(yīng)的語句索引鏈表節(jié)點(diǎn)的left+Separator的交集。(注此處
交集是指前者逆向,與后者正向的共同的最大匹配。);如果是TV,抽取變量就是語句索引鏈表節(jié)點(diǎn)的right部分;如果類型是V...,那么整個(gè)語句都是變量;如果類型是V...T,那么變量?jī)?nèi)容就是語句索引鏈表節(jié)點(diǎn)的left部分;在最后,返回抽取的結(jié)果,和匹配度的大小,供其他程序調(diào)用。按照最大匹配 原則,則返回的是其中匹配度最低記錄。


圖1變量標(biāo)識(shí)抽取模板結(jié)構(gòu)示意圖;圖2基于語義變量抽取的應(yīng)用接口的實(shí)現(xiàn)流程圖。
具體實(shí)施方案根據(jù)發(fā)明內(nèi)容提供的解決方案,基于語義變量抽取的應(yīng)用接口的實(shí)現(xiàn)的具體實(shí) 施方案如下當(dāng)用戶通過應(yīng)用終端詢問快遞業(yè)務(wù)的費(fèi)用,假設(shè)輸入自然語言語句“到杭州快 遞是多少錢?”,首先根據(jù)此語句中的關(guān)鍵詞采用變量標(biāo)識(shí)來定義其變量抽取模板。語 句“到杭州快遞是多少錢?”可以抽象為“到$[city]的快遞是多少錢”。其中“$[”是 變量標(biāo)識(shí)的前綴,“]”是變量標(biāo)識(shí)的后綴。中間的內(nèi)容“city”就是變量的名稱。前綴和后綴只起到標(biāo)識(shí)作用,是可以被其他符號(hào)替換的,并不僅限于“$[”和“]”。在變 量抽取模板的定義中,根據(jù)輸入語句的不同,可以在語句中的不同位置包含多個(gè)變量。建立變量抽取模板索引鏈表,變量抽取模板由兩部分構(gòu)成一個(gè)是描述性質(zhì)的 文本T,另外一個(gè)是需要抽取的變量V。對(duì)模板進(jìn)行次序的抽象化的讀取,形成一個(gè)單 向的鏈表,鏈表的每個(gè)節(jié)點(diǎn)可能是模板中的文本T,也有可能是模板中的變量V.這個(gè)鏈 表可以比純文本更加靈活方便地訪問模板的組成要素,供后續(xù)程序調(diào)用,類似于索引的 情形。因此稱這個(gè)鏈表為模板索引列表。其詳細(xì)的節(jié)點(diǎn)屬性內(nèi)容如下next字段標(biāo)識(shí)后續(xù)節(jié)點(diǎn)是什么。type字段標(biāo)識(shí)為節(jié)點(diǎn)類型,即文本和變量?jī)煞N。 value字段標(biāo)記值,對(duì)于變量V,記錄變量類型;對(duì)于文本T,則記錄文本信息。Head Value只對(duì)文本類型有效,記錄value分詞后的第一個(gè)詞,這個(gè)字段也可以記錄多詞,根 據(jù)不同的需求而定。Tail value只對(duì)文本字段有效,記錄value分詞后的最后一個(gè)詞。這 個(gè)字段也可以記錄多詞,根據(jù)不同的需求而定。進(jìn)一步對(duì)模板索引鏈表進(jìn)行分析,可以得到一個(gè)分割節(jié)點(diǎn)的集合,因?yàn)槠錁?biāo)明 了分割的重要信息,所以稱之為分割的注釋列表。分割注釋列表的每個(gè)節(jié)點(diǎn)包含分割符 和分割類型信息。其中分割類型分為L(zhǎng)、R、B三種L代表分割符的右邊是一個(gè)需抽取的變量V,左側(cè)是一個(gè)文本T。如模板我 想要到Wcityh “到”為一個(gè)分割符,右側(cè)是變量,則其類型為L(zhǎng) ;R代表分割符的左邊是一個(gè)需抽取的變量V,右側(cè)是一個(gè)文本T,如模板 ${who丨到上海去,“到”是一個(gè)分割符,左側(cè)是變量,其類型為R ;B代表分割符左右都是需抽取的變量V,如${who}到${city}多少錢? “到” 是一個(gè)分割符,左右兩側(cè)都是變量,其類型為B。分割注釋列表采用以下方式進(jìn)行分析(1)如果首先是文本,那么標(biāo)注分割類型為L(zhǎng),保證了下面一個(gè)節(jié)點(diǎn)如果存在,
則一定是V。(2)查詢下一個(gè)類型為文本的節(jié)點(diǎn),若查找不到,則標(biāo)注分割類型為R。其他情況下如果該文本節(jié)點(diǎn)下一個(gè)節(jié)點(diǎn)是變量節(jié)點(diǎn),且該文本節(jié)點(diǎn)的Head Value = value, 那么可以判斷類型為B。否則添加兩個(gè)分割節(jié)點(diǎn)一個(gè)標(biāo)注為R,分割字符為其 headValue.另一個(gè)標(biāo)注為L(zhǎng),分割字符為其tailValue。 在上述的過程中,我們可以對(duì)于每一條模板,得到一個(gè)分割注釋列表,窮盡所 有模板,最終的到一個(gè)分割注釋列表的集合。利用這個(gè)集合對(duì)輸入語句進(jìn)行分割。一條 輸入語句,可能沒有分割結(jié)果,此時(shí)這條語句就可以排除。也有可能一條輸入語句即使 只對(duì)應(yīng)一個(gè)模板的分割注釋列表,依然有可能得到多個(gè)分割結(jié)果。只要同一個(gè)分割關(guān)鍵 詞出現(xiàn)多處,其結(jié)果就一般是多個(gè)。比如“你到學(xué)校不能遲到啊?!币浴暗健弊鳛榉?割詞來,這句話就可以分割為“你、學(xué)校不能遲到”;“你到學(xué)校不能遲到、啊”兩 種可能。因此對(duì)于分割處理策略可以是多樣的,常見的策略可以有最先出現(xiàn),最后出 現(xiàn),最大可能匹配等等。前面兩種策略相對(duì)實(shí)現(xiàn)比較簡(jiǎn)單,只需要判定分割字符以最先 或者最后出現(xiàn)為準(zhǔn)即可。本發(fā)明采用的是最大可能匹配,即窮盡所有可能的切分方法,尋求到匹配度最大的結(jié)果,作為最后的結(jié)果。 我們用語句索引鏈表,來記錄一種分割的結(jié)果。它是一個(gè)單向的鏈表,每個(gè)節(jié) 點(diǎn)被設(shè)計(jì)為SentenceIndex對(duì)象,其包含以下信息Place,表示該分割符號(hào)在句子中所處的位置;left,表示分割字符左邊的文本內(nèi)容;right,表示分割字符右邊的文本內(nèi)容;separator 為分割字符;Separator Type,為分割字符的類型;
Next,下一個(gè) Sentence Index 對(duì)象節(jié)點(diǎn)。窮盡所有可能性之后,我們就得到了一個(gè)語句索引鏈表的集合。其作用是對(duì)于 輸入語句做了預(yù)先的處理,便于調(diào)用和訪問,在后續(xù)的變量抽取和匹配計(jì)算的時(shí)候,能 夠更加方便地得到所需要的文本區(qū)間段。用語句索引鏈表和前面提到的模板索引鏈表相結(jié)合,就可以進(jìn)行最后的匹配度 計(jì)算和關(guān)鍵詞抽取。具體做法如下對(duì)于每一條語句索引鏈,利用其分割字符和分割類型,做一遍所有模板索引鏈 表的對(duì)比分析。由于模板索引鏈表由抽取變量V和文本內(nèi)容T兩種部分構(gòu)成,而分割字 符只能在T中出現(xiàn)。T和T之間至少有一個(gè)或者多個(gè)V間隔,因此組合的結(jié)果可以窮盡 為以下形式T,TV..., V...T,TV...T, V...,按照以下原則進(jìn)行處理(1)使得當(dāng)前模板索引鏈表節(jié)點(diǎn)盡可能是T,這樣后繼就只有三種可能T、 TV...T、TV...可以對(duì)這三種情況分別處理;(2)如果模板索引鏈表起始節(jié)點(diǎn)是V,則就額外處理V...、V...T兩種情況,處理 完畢后把節(jié)點(diǎn)移動(dòng)到T,處理則回到了(1)的情形。匹配度計(jì)算方法為(a)若是純粹的T,則按照全語句相似度計(jì)算;若是純粹的V,則特別標(biāo)記相似 度為1 ;(b)若是VT類型,則只計(jì)算T部分value和語句索引鏈表節(jié)點(diǎn)后綴 (separator+right)的相似度;(c)若是TV類型,則只計(jì)算T部分value和語句索引鏈表節(jié)點(diǎn)后綴 (left+separator)的相似度;(d)若是TVT類型,則分別計(jì)算前一個(gè)T部分value和語句索引鏈表節(jié)點(diǎn)后 綴(left+separator)的相似度,以及后一個(gè)T部分的Value和語句索引鏈表節(jié)點(diǎn)后綴 (separator+right)相似度,然后累加。所有分割處都分別計(jì)算,除了計(jì)算每個(gè)抽取變量的單獨(dú)匹配度,還對(duì)所有匹配 度進(jìn)行累加,最后再進(jìn)行平均,得到總體匹配度。如果不是T開頭且T后面存在V,則這 個(gè)τ作為除數(shù)的時(shí)候需要算作2個(gè)。比如有模板“到${City!乘坐最快速”, 有語句輸入“到上海乘坐k498列車最快速呀”,則依次進(jìn)行模板中的“到”和輸入句中 的“到”的匹配計(jì)算,模板中的“乘坐”和輸入句中的“乘坐”的匹配計(jì)算,模板中的 “乘坐”和輸入句中的“乘坐”的匹配計(jì)算,“最快速”和“最快速呀”的匹配,匹配
累加后再除以4,平均化后得到總體的匹配度。
具體的匹配度算法細(xì)節(jié)可以根據(jù)需求而異,本發(fā)明采用Levenshtein算法,通 過計(jì)算得到Levenshtein Distance及其相對(duì)于原輸入的最長(zhǎng)字符串長(zhǎng)度之比,得到其偏差 值,進(jìn)而得到匹配度(匹配度=1-偏差值)。變量抽取的邏輯為如果是T,不存在抽取的問題;如果是TV...T,那么V...就等于第一個(gè)T對(duì)應(yīng)的語句索引鏈表節(jié)點(diǎn)的 Separator+right與第二個(gè)T對(duì)應(yīng)的語句索引鏈表節(jié)點(diǎn)的left+Separator的交集.(注這里 的交集是指前者逆向,與后者正向的共同的最大匹配。比如Separator+right為“到 火車站”,left+Separator為“火車站多少錢”,可以知道其相交的最大部分是“火車
站”。);如果是TV,抽取變量就是語句索引鏈表節(jié)點(diǎn)的right部分;如果類型是V...,那么整個(gè)語句都是變量;如果類型是V...T,那么變量?jī)?nèi)容就是語句索引鏈表節(jié)點(diǎn)的left部分;最后返回抽取的結(jié)果,和匹配度的大小,供其他程序調(diào)用。按照最大匹配原則,則返回的是其中匹配度最低記錄。
權(quán)利要求
1.一種基于模板的語義變量抽取方法,通過定義語義變量的標(biāo)識(shí)模板,進(jìn)行模板比 對(duì),最終將用戶輸入語句中的關(guān)鍵詞進(jìn)行抽取的一種實(shí)現(xiàn)方式,包含以下實(shí)現(xiàn)步驟(1)定義變量標(biāo)識(shí)抽取模板;(2)建立變量抽取模板索引鏈表;(3)分析模板索引鏈表,獲取分割注釋列表;(4)根據(jù)分割注釋列表獲得分割符號(hào)進(jìn)行分割,獲得輸入語句的語句索引鏈列表;(5)按照語句索引鏈列表和模板索引鏈表,進(jìn)行語義匹配度計(jì)算和抽??;(6)根據(jù)匹配度計(jì)算和抽取結(jié)果,調(diào)出接口應(yīng)用程序,實(shí)現(xiàn)應(yīng)用接口驅(qū)動(dòng)。
2.如權(quán)利要求1所述的基于模板的語義變量抽取方法,其特征在于所述變量標(biāo)識(shí) 抽取模板由描述性的文本和抽取變量?jī)刹糠謽?gòu)成。
3.如權(quán)利要求1所述的基于模板的語義變量抽取方法,其特征在于所述分割注釋 列表的每個(gè)節(jié)點(diǎn)包含分割符和分割類型信息。
4.如權(quán)利要求1所述的基于模板的語義變量抽取方法,其特征在于所述變量抽取 模板索引鏈表的每個(gè)節(jié)點(diǎn)包含以下幾個(gè)屬性內(nèi)容Next,字段標(biāo)識(shí)后繼節(jié)點(diǎn)是什么; Type,字段標(biāo)識(shí)節(jié)點(diǎn)類型,為文本和變量;Value,字段標(biāo)記值。對(duì)于變量,記錄變量類型;對(duì)于text記錄文本信息; Head Value,只在節(jié)點(diǎn)類型是文本時(shí)有效。記錄value分詞后的第一個(gè)詞或多個(gè)詞; TailValue,只在節(jié)點(diǎn)類型是文本時(shí)有效。記錄value分詞后的最后一個(gè)詞或多個(gè)詞。
5.如權(quán)利要求1或3所述的基于模板的語義變量抽取方法,其特征在于所述分割注 釋列表的分割類型分為L(zhǎng)、R、B三種L表示分割符號(hào)的右邊是一個(gè)需要抽取的變量V,左側(cè)是一個(gè)文本T ; R表示分割符號(hào)的左邊是一個(gè)需要抽取的變量V,右側(cè)是一個(gè)文本T ; B表示分割符號(hào)左右都是需要抽取的變量。
6.如權(quán)利要求1所述的基于模板的語義變量抽取方法,其特征在于所述的語句索 引鏈表中每一個(gè)語句索引對(duì)象都是一個(gè)單向的鏈表,包含以下信息Place,分割符號(hào)在句子中所處的位置; Left,分割字符,左邊的文本內(nèi)容; Right,分割字符,右邊的文本內(nèi)容; Separator,分害ι]字符; Separator Type,分割字符類型; Next,下一個(gè)語句索引對(duì)象節(jié)點(diǎn)。
7.如權(quán)利要求1所述的基于模板的語義變量抽取方法,其特征在于所述語義匹配 度計(jì)算采用最大匹配原則。
全文摘要
本發(fā)明提出一種基于模板的語義變量抽取方法,通過模板和輸入的語句,建立語義變量模板索引鏈表和分割注釋列表,再根據(jù)分割注釋列表獲得分割符號(hào),對(duì)輸入語句進(jìn)行分割,建立輸入語句分割后的語句索引鏈列表,最后再對(duì)于語句索引鏈列表和模板索引鏈,進(jìn)行比較和基于Levenshtein算法的近似匹配度計(jì)算,最終得到自然語言語句中的關(guān)鍵詞抽取結(jié)果和抽取的匹配度。本發(fā)明算法在實(shí)際應(yīng)用中,可作為獨(dú)立的接口驅(qū)動(dòng)層,能夠有效提高應(yīng)用系統(tǒng)的擴(kuò)展性和處理能力,滿足非電腦專業(yè)人員的應(yīng)用需求。
文檔編號(hào)G06F9/44GK102023854SQ20091019588
公開日2011年4月20日 申請(qǐng)日期2009年9月18日 優(yōu)先權(quán)日2009年9月18日
發(fā)明者張益智, 朱勝, 王寶利 申請(qǐng)人:上海智問軟件技術(shù)有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
青海省| 通化市| 儋州市| 桐庐县| 尼木县| 盈江县| 扎兰屯市| 集安市| 潮州市| 灵石县| 杭州市| 文成县| 临高县| 菏泽市| 嵊州市| 城市| 新竹市| 墨脱县| 增城市| 广德县| 巴里| 平谷区| 木里| 新乡县| 沧州市| 柘城县| 大姚县| 哈巴河县| 宣城市| 崇州市| 襄垣县| 堆龙德庆县| 黄龙县| 黄梅县| 泰宁县| 奉新县| 保康县| 海口市| 苍溪县| 巫山县| 海丰县|