專利名稱:電子設(shè)備及其自然語言分析方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種電子設(shè)備及其自然語言分析方法。
背景技術(shù):
隨著技術(shù)的發(fā)展,具有人機(jī)會(huì)話功能的計(jì)算機(jī)等智能型的電子設(shè)備越來越受到消費(fèi)者的親睞。然而,自然語言理解一直是人工智能學(xué)科內(nèi)引人注目而又困難重重的一個(gè)核心研究課題。在人機(jī)會(huì)話的過程中,電子設(shè)備將用戶的自然語言通過詞匯切分法等方式進(jìn)行切分,并通過分析排除不適當(dāng)?shù)钠缌x,從而形成對(duì)應(yīng)原文的機(jī)器可識(shí)別的語言。然后結(jié)合預(yù)存的語料庫來理解用戶的自然語言,通過轉(zhuǎn)換最終得到句子的語意。然而,在自然語言理解處理過程中,語言的復(fù)雜性導(dǎo)致理解處理結(jié)果會(huì)產(chǎn)生多種語言歧義,尤其是中文語言,往往存在電子設(shè)備錯(cuò)誤理解用戶的語言的問題。
發(fā)明內(nèi)容
有鑒于此,有必要提供一種用于電子設(shè)備的自然語言分析方法,可提高電子設(shè)備理解用戶的自然語言的準(zhǔn)確度,以便于更有效的人機(jī)會(huì)話,以解決上述問題。有鑒于此,還有必要提供一種采用自然語言分析方法的電子設(shè)備,以解決上述問題。一種自然語言分析方法,用于包括存儲(chǔ)有語料庫的電子設(shè)備。所述語料庫記錄了多個(gè)詞匯以及每一詞匯的使用頻率。所述方法包括如下步驟:
接收用戶的語音和/或文字輸入,將接收的語音和/或文字輸入轉(zhuǎn)換為電信號(hào);
將所述用戶的語音信號(hào)和/或文字輸入信號(hào)轉(zhuǎn)換為一預(yù)設(shè)的語言的文本信息;
將所述文本信息切分為包括多個(gè)詞匯的多種詞匯切分結(jié)果;
從所述語料庫中獲取所述多種詞匯切分結(jié)果中每一詞匯的使用頻率,在獲取的每一詞匯的使用頻率的基礎(chǔ)上,計(jì)算出每一種詞匯切分結(jié)果的第一概率值,并將各種詞匯切分結(jié)果按照各自的第一概率值排序,得到一語言分析結(jié)果的第一排序方式;
在多種詞匯切分結(jié)果的基礎(chǔ)上根據(jù)句式構(gòu)造規(guī)則,將所述文本信息進(jìn)行語句成分劃
分;
根據(jù)所述語句劃分結(jié)果,計(jì)算出各種詞匯切分結(jié)果的第二概率值,并根據(jù)各種詞匯切分結(jié)果的第二概率值對(duì)所述語言分析結(jié)果的第一排序方式進(jìn)行調(diào)整,得到語言分析結(jié)果的第二排序方式,其中,所述第一排序方式和第二排序方式均是根據(jù)各種詞匯切分結(jié)果的概率值的降序?qū)υ~匯切分結(jié)果所對(duì)應(yīng)的語言分析結(jié)果進(jìn)行排序;及
根據(jù)所述第二排序方式中排在最前面的語言分析結(jié)果以及語料庫確定用于回應(yīng)用戶的所述文本信息的一回復(fù)信息。一種電子設(shè)備,包括存儲(chǔ)有語料庫的存儲(chǔ)單元和輸入單元。所述語料庫記錄了多個(gè)詞匯以及每一詞匯的使用頻率。所述輸入單元用于接收用戶的語音和/或文字輸入,將接收的語音和/或文字輸入轉(zhuǎn)換為電信號(hào)。所述電子設(shè)備還包括: 一語言文字轉(zhuǎn)換模塊,用于將所述用戶的語音信號(hào)和/或文字輸入信號(hào)轉(zhuǎn)換為一預(yù)設(shè)的語言的文本信息;
一詞匯切分模塊,用于將所述文本信息切分為包括多個(gè)詞匯的多種詞匯切分結(jié)果;
一語句分析模塊,用于在多種詞匯切分結(jié)果的基礎(chǔ)上根據(jù)句式構(gòu)造規(guī)則,將所述文本信息進(jìn)行語句成分劃分;
一分析控制模塊,用于從所述語料庫中獲取所述多種詞匯切分結(jié)果中每一詞匯的使用頻率,在獲取的每一詞匯的使用頻率的基礎(chǔ)上,計(jì)算出每一種詞匯切分結(jié)果的第一概率值,并將各種詞匯切分結(jié)果按照各自的第一概率值排序,得到對(duì)語言分析結(jié)果的第一排序方式;以及根據(jù)所述語句劃分結(jié)果,計(jì)算出各種詞匯切分結(jié)果的第二概率值,并根據(jù)各種詞匯切分結(jié)果的第二概率值對(duì)所述語言分析結(jié)果的第一排序方式進(jìn)行調(diào)整,得到語言分析結(jié)果的第二排序方式,其中,所述第一排序方式和第二排序方式均是根據(jù)各種詞匯切分結(jié)果的概率值的降序?qū)υ~匯切分結(jié)果所對(duì)應(yīng)的語言分析結(jié)果進(jìn)行排序;及
一智能會(huì)話模塊,用于根據(jù)所述第二排序方式中排在最前面的語言分析結(jié)果以及語料庫確定用于回應(yīng)用戶的所述文本信息的一回復(fù)信息。相對(duì)于現(xiàn)有技術(shù),上述電子設(shè)備及其自然語言分析方法,當(dāng)用戶啟動(dòng)電子設(shè)備后,用戶可以通過輸入單元與電子設(shè)備進(jìn)行人機(jī)會(huì)話,通過將用戶的語音和/或文字輸入轉(zhuǎn)換為一文本信息,并將該文本信息切分為多個(gè)詞匯的多種詞匯詞匯切分結(jié)果,并將與多種詞匯切分結(jié)果對(duì)應(yīng)的語言分析結(jié)果進(jìn)行排序得到語言分析結(jié)果的第一排序方式,再將該文本信息進(jìn)行語句劃分,并根據(jù)語句劃分結(jié)果對(duì)語言分析結(jié)果的第一排序方式進(jìn)行調(diào)整,得到第二排序方式,最后將該文本信息進(jìn)行段落分析,并根據(jù)段落分析結(jié)果對(duì)語言分析結(jié)果的第二排序方式進(jìn)行調(diào)整,得到第三排序方式,從而更準(zhǔn)確的理解用戶的自然語言,提高了人機(jī)會(huì)話的效率。
圖1為本發(fā)明一實(shí)施方式的電子設(shè)備的功能模塊圖。圖2為本發(fā)明中電子設(shè)備的自然語言分析方法的步驟流程圖。主要元件符號(hào)說明 _
電子設(shè)備_100
存儲(chǔ)單元_10
薇斗庫一—Ti"
輸入單元_20
亙理單元i
語音文字轉(zhuǎn)換模塊 31
詞匯切分模塊_32
i吾句分析模塊i
分析控制模塊34
段落分析模塊35
智能會(huì)話模塊36
緩存器_40
顯示單元_50
_語音輸出單元丨60
如下具體實(shí)施方式
將結(jié)合上述附圖進(jìn)一步說明本發(fā)明。
具體實(shí)施例方式請(qǐng)參閱圖1,其為本發(fā)明的一實(shí)施方式的電子設(shè)備100的功能模塊圖。電子設(shè)備100可更準(zhǔn)確的理解用戶自然語言,具有較高的人機(jī)會(huì)話效率。在本實(shí)施方式中,電子設(shè)備100為一電腦,在其他實(shí)施方式中,電子設(shè)備100還可以是手機(jī)等電子設(shè)備。電子設(shè)備100包括一存儲(chǔ)單兀10、一輸入單兀20、一處理單兀30、一顯不單兀50和一語音輸出單兀60。存儲(chǔ)單元10存儲(chǔ)有語料庫12。語料庫12記錄了海量的詞匯以及每一詞匯的使用頻率。語料庫12是按照明確的語言學(xué)標(biāo)準(zhǔn)選擇并排序的語言運(yùn)用材料匯集,是按照明確的設(shè)計(jì)標(biāo)準(zhǔn)集成的可機(jī)讀的大型文本庫。在本實(shí)施方式中,語料庫12是存有大量的中文自然語言的文本庫,在其他實(shí)施方式中,該語料庫12還可以存儲(chǔ)有英文、日文等其他語言種類的自然語言的文本庫。具體文本的語言種類可以根據(jù)需要設(shè)置。輸入單元20用于接收用戶的語音和/或文字輸入,將接收的語音和/或文字輸入轉(zhuǎn)換為電信號(hào),并將轉(zhuǎn)換得到的語音信號(hào)和/或文字輸入信號(hào)傳輸至處理單元30。處理單兀30包括一語音文字轉(zhuǎn)換模塊31、一詞匯切分模塊32、一語句分析模塊33和一分析控制模塊34。當(dāng)用戶開啟電子設(shè)備100后,輸入單兀20即被啟動(dòng),用戶可以通過輸入單兀20與電子設(shè)備100進(jìn)行人機(jī)會(huì)話。語音文字轉(zhuǎn)換模塊31用于將輸入單兀20傳輸?shù)挠脩舻恼Z音信號(hào)和/或文字輸入信號(hào)轉(zhuǎn)換為一預(yù)設(shè)的語言的文本信息。在本實(shí)施方式中,該預(yù)設(shè)的語言為中文,該文本信息可以為包括一個(gè)詞、一句話或一段話的文本信息。在其他實(shí)施方式中,該預(yù)設(shè)的語言還可以是英文、日文等。詞匯切分模塊32用于將語音文字轉(zhuǎn)換模塊31轉(zhuǎn)換得到的文本信息切分為包括多個(gè)詞匯的多種詞匯切分結(jié)果,并將所述多種詞匯切分結(jié)果一一傳輸至分析控制模塊34。在本實(shí)施方式中,詞匯切分模塊32按照雙向最大匹配法對(duì)文本信息進(jìn)行切分以提高詞匯切分的準(zhǔn)確度,即從正向和逆向均進(jìn)行切分,并將多種詞匯切分結(jié)果均傳輸至分析控制模塊34。例如:當(dāng)文本信息為包括“老虎咬死了獵人的狗”這句話時(shí),詞匯切分模塊32從正向?qū)⒃撐谋拘畔⒖梢郧蟹譃榘ā袄匣ⅰ?、“咬”、“死了”、“獵人”、“的”和“狗”這些詞匯的一個(gè)詞匯切分結(jié)果,包括“老虎”、“咬死了”、“獵人”、“的”和“狗”這些詞匯的另一個(gè)詞匯切分結(jié)果,以及包括“老虎”、“咬死了”和“獵人的狗”這些詞匯的又一個(gè)詞匯切分結(jié)果等;詞匯切分模塊32從反向?qū)⒃撐谋拘畔⒖梢郧蟹譃榘ā肮贰?、“的”、“獵人”、“死了”、“咬”和“老虎”這些詞匯的一個(gè)詞匯切分結(jié)果,包括“狗”、“的”、“獵人”、“咬死了”和“老虎”這些詞匯的另一個(gè)詞匯切分結(jié)果,以及包括“獵人的狗”、“咬死了”和“老虎”這些詞匯的又一個(gè)詞匯切分結(jié)果等。分析控制模塊34用于從存儲(chǔ)在存儲(chǔ)單元10的語料庫12中獲取詞匯切分模塊32傳輸?shù)那蟹趾蟮拿恳辉~匯的使用頻率,并在獲取的每一詞匯的使用頻率的基礎(chǔ)上,計(jì)算出每一種詞匯切分結(jié)果的第一概率值,并將各種詞匯切分結(jié)果按照各自的第一概率值排序,得到對(duì)語言分析結(jié)果的第一排序方式。在本實(shí)施方式中,每一種詞匯切分結(jié)果對(duì)應(yīng)一種語言分析結(jié)果,詞匯切分結(jié)果的概率值越高,則根據(jù)該詞匯切分結(jié)果所對(duì)應(yīng)的語言分析結(jié)果對(duì)自然語言的理解為最接近用戶的意思的理解,或是與用戶的意思相同的理解。分析控制模塊34將各種詞匯切分結(jié)果按照第一概率值的降序排序,第一概率值最大的詞匯切分結(jié)果排在最前面,即語言分析結(jié)果中最可能的分析結(jié)果排在最前面。語句分析模塊33用于在多種詞匯切分結(jié)果的基礎(chǔ)上根據(jù)句式構(gòu)造規(guī)則,將語音文字轉(zhuǎn)換模塊31轉(zhuǎn)換得到的文本信息進(jìn)行語句成分劃分,并將語句劃分結(jié)果傳輸至分析控制模塊34。分析控制模塊34還用于根據(jù)語句分析模塊33傳輸?shù)恼Z句劃分結(jié)果,計(jì)算出詞匯切分模塊32所切分得到的各種詞匯切分結(jié)果的第二概率值,并根據(jù)各種詞匯切分結(jié)果的第二概率值對(duì)所述語言分析結(jié)果的第一排序方式進(jìn)行調(diào)整,得到語言分析結(jié)果的第二排序方式。在一實(shí)施方式中,分析控制模塊34還用于根據(jù)每一種詞匯切分結(jié)果的第二概率值將概率值低的詞匯切分結(jié)果排除,同時(shí)在語言分析結(jié)果的第二排序方式中刪除該詞匯切分結(jié)果所對(duì)應(yīng)的語言分析結(jié)果。其中,詞匯切分結(jié)果的第二概率值越低,則根據(jù)該詞匯切分結(jié)果所對(duì)應(yīng)的語言分析結(jié)果得到的理解越會(huì)偏離用戶的本意。處理單元30還包括一段落分析模塊35,用于根據(jù)上下文理解法對(duì)用戶的一預(yù)設(shè)時(shí)段內(nèi)的文本信息進(jìn)行分析,并將段落分析結(jié)果傳輸至分析控制模塊34。分析控制模塊34還用于根據(jù)段落分析模塊35傳輸?shù)亩温浞治鼋Y(jié)果,計(jì)算出詞匯切分模塊32所切分得到的各種詞匯切分結(jié)果的第三概率值,并根據(jù)各種詞匯切分結(jié)果的第三概率值對(duì)所述語言分析結(jié)果的第二排序方式進(jìn)行調(diào)整,得到語言分析結(jié)果的第三排序方式。在一實(shí)施方式中,分析控制模塊34還用于根據(jù)每一種詞匯切分結(jié)果的第三概率值將概率值低的詞匯切分結(jié)果排除,同時(shí)在語言分析結(jié)果的第三排序方式中刪除該詞匯切分結(jié)果所對(duì)應(yīng)的語言分析結(jié)果。處理單元30還包括一智能會(huì)話模塊36,智能會(huì)話模塊36用于根據(jù)所述第二排序方式中排在最前面的語言分析結(jié)果以及語料庫12確定用于回應(yīng)用戶的所述文本信息的一回復(fù)信息。在一實(shí)施方式中,智能會(huì)話模塊36根據(jù)語言分析結(jié)果的第三排序方式以及語料庫12確定一回復(fù)信息。語音文字轉(zhuǎn)換模塊31還用于將智能會(huì)話模塊36所確定的回復(fù)信息轉(zhuǎn)換為自然語言的文本信息和/或語音信號(hào);并控制將所述文本信息顯示于顯示單元50和/或?qū)⑺稣Z音信號(hào)通過語音輸出單元60進(jìn)行播放。電子設(shè)備100還包括一緩存器40,用于暫存語音文字轉(zhuǎn)換模塊31轉(zhuǎn)換得到的文本信息、詞匯切分模塊32所切分的各個(gè)詞匯以及詞匯切分結(jié)果、語句分析模塊33所劃分的語句成分劃分結(jié)果、段落分析模塊35所分析得到的分析結(jié)果以及分析控制模塊34計(jì)算得到的概率值及語言分析結(jié)果的各種排序方式,即第一排序方式、第二排序方式及第三排序方式。請(qǐng)參閱圖2,其為本發(fā)明的電子設(shè)備100的自然語言分析方法的流程圖,用于存儲(chǔ)有語料庫12的電子設(shè)備,語料庫12記錄了海量的詞匯以及每一詞匯的使用頻率。該自然語言分析方法包括:
步驟S20,輸入單元20接收用戶的語音和/或文字輸入,將接收的語音和/或文字輸入轉(zhuǎn)換為電信號(hào)。步驟S21,語音文字轉(zhuǎn)換模塊31將所述用戶的語音信號(hào)和/或文字輸入信號(hào)轉(zhuǎn)換為一預(yù)設(shè)的語言的文本信息。在本實(shí)施方式中,該預(yù)設(shè)的語言為中文,該文本信息可以為包括一個(gè)詞、一句話或一段話的文本信息。在其他實(shí)施方式中,該預(yù)設(shè)的語言還可以是英文、
日文等。步驟S22,詞匯切分模塊32將轉(zhuǎn)換得到的所述文本信息切分為包括多個(gè)詞匯的多種詞匯切分結(jié)果。步驟S23,分析控制模塊34從語料庫12中獲取所述詞匯切分結(jié)果中每一詞匯的使用頻率,在獲取的每一詞匯的使用頻率的基礎(chǔ)上,計(jì)算出每一種詞匯切分結(jié)果的第一概率值,并將各種詞匯切分結(jié)果按照各自的第一概率值排序,得到一語言分析結(jié)果的第一排序方式。在本實(shí)施方式中,每一種詞匯切分結(jié)果對(duì)應(yīng)一種語言分析結(jié)果,分析控制模塊34將各種詞匯切分結(jié)果按照概率值的降序排序,概率值最大的詞匯切分結(jié)果排在最前面,即語言分析結(jié)果中最可能的分析結(jié)果排在最前面。步驟S24,語句分析模塊33在多種詞匯切分結(jié)果的基礎(chǔ)上根據(jù)句式構(gòu)造規(guī)則將所述文本信息進(jìn)行語句成分劃分。步驟S25,分析控制模塊34根據(jù)語句分析模塊33傳輸?shù)恼Z句劃分結(jié)果,計(jì)算出詞匯切分模塊32所切分得到的各種詞匯切分結(jié)果的第二概率值,并根據(jù)各種詞匯切分結(jié)果的第二概率值對(duì)所述語言分析結(jié)果的第一排序方式進(jìn)行調(diào)整,得到語言分析結(jié)果的第二排序方式。在一實(shí)施方式中,分析控制模塊34還根據(jù)每一種詞匯切分結(jié)果的第二概率值將概率值低的詞匯切分結(jié)果排除,同時(shí)在語言分析結(jié)果的第二排序方式中刪除該詞匯切分結(jié)果所對(duì)應(yīng)的語言分析結(jié)果。其中,詞匯切分結(jié)果的第二概率值越低,則根據(jù)該詞匯切分結(jié)果所對(duì)應(yīng)的語言分析結(jié)果得到的理解越會(huì)偏離用戶的本意。步驟S26,段落分析模塊35根據(jù)上下文理解法對(duì)用戶的一預(yù)設(shè)時(shí)段內(nèi)的文本信息進(jìn)行分析,并將段落分析結(jié)果傳輸至分析控制模塊34。步驟S27,分析控制模塊34根據(jù)所述段落分析結(jié)果,計(jì)算出詞匯切分模塊32所切分得到的各種詞匯切分結(jié)果的第三概率值,并根據(jù)各種詞匯切分結(jié)果的第三概率值對(duì)所述語言分析結(jié)果的第二排序方式進(jìn)行調(diào)整,得到語言分析結(jié)果的第三排序方式。在一實(shí)施方式中,分析控制模塊34還根據(jù)每一種詞匯切分結(jié)果的第三概率值將概率值低的詞匯切分結(jié)果排除,同時(shí)在語言分析結(jié)果的第三排序方式中刪除該詞匯切分結(jié)果所對(duì)應(yīng)的語言分析結(jié)果。步驟S28,智能會(huì)話模塊36根據(jù)所述第三排序方式中排在最前面的語言分析結(jié)果以及語料庫12確定用于回應(yīng)用戶的所述文本信息的一回復(fù)信息。在一實(shí)施方式中,智能會(huì)話模塊36根據(jù)語言分析結(jié)果的第二排序方式以及語料庫12確定一回復(fù)信息。步驟S29,語音文字轉(zhuǎn)換模塊31將所述回復(fù)信息轉(zhuǎn)換為自然語言的文本信息和/或語音信號(hào);并控制將所述文本信息顯示于顯示單元50和/或?qū)⑺稣Z音信號(hào)通過語音輸出單元進(jìn)行播放。使用上述電子設(shè)備100及其自然語言分析方法,當(dāng)用戶啟動(dòng)電子設(shè)備100后,用戶可以通過輸入單元20與電子設(shè)備100進(jìn)行人機(jī)會(huì)話,通過將用戶的語音和/或文字輸入轉(zhuǎn)換為一文本信息,并將該文本信息切分為多個(gè)詞匯的多種詞匯切分結(jié)果,并將與多種詞匯切分結(jié)果對(duì)應(yīng)的語言分析結(jié)果進(jìn)行排序得到語言分析結(jié)果的第一排序方式,再將該文本信息進(jìn)行語句劃分,并根據(jù)語句劃分結(jié)果對(duì)語言分析結(jié)果的第一排序方式進(jìn)行調(diào)整,得到第二排序方式,最后將該文本信息進(jìn)行段落分析,并根據(jù)段落分析結(jié)果對(duì)語言分析結(jié)果的第二排序方式進(jìn)行調(diào)整,得到第三排序方式,從而更準(zhǔn)確的理解用戶的自然語言,提高了人機(jī)會(huì)話的效率。本技術(shù)領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng)認(rèn)識(shí)到,以上的實(shí)施方式僅是用來說明本發(fā)明,而并非用作為對(duì)本發(fā)明的限定,只要在本發(fā)明的實(shí)質(zhì)精神范圍之內(nèi),對(duì)以上實(shí)施方式所作的適當(dāng)改變和變化都落在本發(fā)明要求保護(hù)的范圍之內(nèi)。
權(quán)利要求
1.一種自然語言分析方法,用于包括存儲(chǔ)有語料庫的電子設(shè)備,所述語料庫記錄了多個(gè)詞匯以及每一詞匯的使用頻率,所述方法包括如下步驟: 接收用戶的語音和/或文字輸入,將接收的語音和/或文字輸入轉(zhuǎn)換為電信號(hào); 將所述用戶的語音信號(hào)和/或文字輸入信號(hào)轉(zhuǎn)換為一預(yù)設(shè)的語言的文本信息; 將所述文本信息切分為包括多個(gè)詞匯的多種詞匯切分結(jié)果; 從所述語料庫中獲取所述多種詞匯切分結(jié)果中每一詞匯的使用頻率,在獲取的每一詞匯的使用頻率的基礎(chǔ)上,計(jì)算出每一種詞匯切分結(jié)果的第一概率值,并將各種詞匯切分結(jié)果按照各自的第一概率值排序,得到一語言分析結(jié)果的第一排序方式; 在多種詞匯切分結(jié)果的基礎(chǔ)上根據(jù)句式構(gòu)造規(guī)則,將所述文本信息進(jìn)行語句成分劃分; 根據(jù)所述語句劃分結(jié)果,計(jì)算出各種詞匯切分結(jié)果的第二概率值,并根據(jù)各種詞匯切分結(jié)果的第二概率值對(duì)所述語言分析結(jié)果的第一排序方式進(jìn)行調(diào)整,得到語言分析結(jié)果的第二排序方式,其中,所述第一排序方式和第二排序方式均是根據(jù)各種詞匯切分結(jié)果的概率值的降序?qū)υ~匯切分結(jié)果所對(duì)應(yīng)的語言分析結(jié)果進(jìn)行排序;及 根據(jù)所述第二排序方式中排在最前面的語言分析結(jié)果以及語料庫確定用于回應(yīng)用戶的所述文本信息的一回復(fù)信息。
2.如權(quán)利要求1所述的方法,其特征在于,還包括: 根據(jù)上下文理解法對(duì)用戶的一預(yù)設(shè)時(shí)段內(nèi)的文本信息進(jìn)行分析;及根據(jù)所述段落分析結(jié)果,計(jì)算出各種詞匯切分結(jié)果的第三概率值,并根據(jù)各種詞匯切分結(jié)果的第三概率值對(duì)所述語言分析結(jié)果的第二排序方式進(jìn)行調(diào)整,得到語言分析結(jié)果的第三排序方式,其中,所述第三排序方式是根據(jù)各種詞匯切分結(jié)果的概率值的降序?qū)υ~匯切分結(jié)果所對(duì)應(yīng)的語言分析結(jié)果進(jìn)行排序。
3.如權(quán)利要求2所述的方法,其特征在于,還包括:根據(jù)所述第三排序方式中排在最前面的語言分析結(jié)果以及語料庫確定用于回應(yīng)用戶的所述文本信息的一回復(fù)信息。
4.如權(quán)利要求3所述的方法,其特征在于,還包括: 根據(jù)每一種詞匯切分結(jié)果的概率值將概率值低的詞匯切分結(jié)果排除,同時(shí)在語言分析結(jié)果的第二排序方式和/或第三排序方式中刪除該詞匯切分結(jié)果所對(duì)應(yīng)的語言分析結(jié)果。
5.如權(quán)利要求3所述的方法,其特征在于,還包括: 將所述回復(fù)信息轉(zhuǎn)換為自然語言的文本信息和/或語音信號(hào);及 顯示所述文本信息和/或播放所述語音信號(hào)。
6.一種電子設(shè)備,包括存儲(chǔ)有語料庫的存儲(chǔ)單元和輸入單元,所述語料庫記錄了多個(gè)詞匯以及每一詞匯的使用頻率,所述輸入單元用于接收用戶的語音和/或文字輸入,將接收的語音和/或文字輸入轉(zhuǎn)換為電信號(hào),其特征在于,所述電子設(shè)備還包括: 一語音文字轉(zhuǎn)換模塊,用于將所述用戶的語音信號(hào)和/或文字輸入信號(hào)轉(zhuǎn)換為一預(yù)設(shè)的語言的文本信息; 一詞匯切分模塊,用于將所述文本信息切分為包括多個(gè)詞匯的多種詞匯切分結(jié)果; 一語句分析模塊,用于在多種詞匯切分結(jié)果的基礎(chǔ)上根據(jù)句式構(gòu)造規(guī)則,將所述文本信息進(jìn)行語句成分劃分; 一分析控制模塊,用于從所述語料庫中獲取所述多種詞匯切分結(jié)果中每一詞匯的使用頻率,在獲取的每一詞匯的使用頻率的基礎(chǔ)上,計(jì)算出每一種詞匯切分結(jié)果的第一概率值,并將各種詞匯切分結(jié)果按照各自的第一概率值排序,得到對(duì)語言分析結(jié)果的第一排序方式;以及根據(jù)所述語句劃分結(jié)果,計(jì)算出各種詞匯切分結(jié)果的第二概率值,并根據(jù)各種詞匯切分結(jié)果的第二概率值對(duì)所述語言分析結(jié)果的第一排序方式進(jìn)行調(diào)整,得到語言分析結(jié)果的第二排序方式,其中,所述第一排序方式和第二排序方式均是根據(jù)各種詞匯切分結(jié)果的概率值的降序?qū)υ~匯切分結(jié)果所對(duì)應(yīng)的語言分析結(jié)果進(jìn)行排序;及 一智能會(huì)話模塊,用于根據(jù)所述第二排序方式中排在最前面的語言分析結(jié)果以及語料庫確定用于回應(yīng)用戶的所述文本信息的一回復(fù)信息。
7.如權(quán)利要求6所述的電子設(shè)備,其特征在于,還包括一段落分析模塊,用于根據(jù)上下文理解法對(duì)用戶的一預(yù)設(shè)時(shí)段內(nèi)的文本信息進(jìn)行分析;所述分析控制模塊還用于根據(jù)所述段落分析結(jié)果,計(jì)算出各種詞匯切分結(jié)果的第三概率值,并根據(jù)各種詞匯切分結(jié)果的第三概率值對(duì)所述語言分析結(jié)果的第二排序方式進(jìn)行調(diào)整,得到語言分析結(jié)果的第三排序方式,其中,所述第三排序方式均是根據(jù)各種詞匯切分結(jié)果的概率值的降序?qū)υ~匯切分結(jié)果所對(duì)應(yīng)的語言分析結(jié)果進(jìn)行排序。
8.如權(quán)利要求7所述的電子設(shè)備,其特征在于,還包括:根據(jù)所述第三排序方式中排在最前面的語言分析結(jié)果以及語料庫確定用于回應(yīng)用戶的所述文本信息的一回復(fù)信息。
9.如權(quán)利要求8所述的電子設(shè)備,其特征在于:所述分析控制模塊還用于根據(jù)每一種詞匯切分結(jié)果的概率值將概率值低的詞匯切分結(jié)果排除,同時(shí)在語言分析結(jié)果的第二排序方式和/或第三排序方式中刪除該詞匯切分結(jié)果所對(duì)應(yīng)的語言分析結(jié)果。
10.如權(quán)利要求8所述的電子設(shè)備,其特征在于,還包括: 一語音文字轉(zhuǎn)換模塊,用于將所述回復(fù)信息轉(zhuǎn)換為自然語言的文本信息和/或語音信號(hào);及 顯示所述文本信息的顯示單元和/或播放所述語音信號(hào)的語音輸出單元。
全文摘要
一種自然語言分析方法,用于包括語料庫的電子設(shè)備。該方法包括如下步驟接收用戶語音和/或文字輸入并轉(zhuǎn)換為電信號(hào);將用戶的信號(hào)轉(zhuǎn)換為文本信息;將文本信息切分為包括多個(gè)詞匯的多種詞匯切分結(jié)果;從語料庫中獲取多種詞匯切分結(jié)果中每一詞匯的使用頻率,計(jì)算每一種詞匯切分結(jié)果的第一概率值,并將各種詞匯切分結(jié)果按照第一概率值排序,得到對(duì)語言分析結(jié)果的第一排序方式;根據(jù)句式構(gòu)造規(guī)則將文本信息進(jìn)行語句成分劃分;計(jì)算出各種詞匯切分結(jié)果的第二概率值,并得到語言分析結(jié)果的第二排序方式;及確定用于回應(yīng)用戶的文本信息的一回復(fù)信息。本發(fā)明還提供了一種應(yīng)用上述方法的電子設(shè)備。本發(fā)明提高了電子設(shè)備理解用戶的自然語言的準(zhǔn)確度。
文檔編號(hào)G06F17/30GK103186522SQ201110449948
公開日2013年7月3日 申請(qǐng)日期2011年12月29日 優(yōu)先權(quán)日2011年12月29日
發(fā)明者熊雨凱, 陸欣, 翁世芳, 劉慧豐, 呂東生, 張玉勇, 朱健健, 成響林, 周小山, 黃選峰, 姜安林, 李新華 申請(qǐng)人:富泰華工業(yè)(深圳)有限公司, 鴻海精密工業(yè)股份有限公司