全范圍語義信息綜合認(rèn)知系統(tǒng)及其應(yīng)用的制作方法

文檔序號：6572097閱讀：193來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：：全范圍語義信息綜合認(rèn)知系統(tǒng)及其應(yīng)用的制作方法
技術(shù)領(lǐng)域：
：本發(fā)明涉及計(jì)算機(jī)
技術(shù)領(lǐng)域：
，尤其涉及應(yīng)用于計(jì)算機(jī)系統(tǒng)的人工智能的綜合數(shù)據(jù)編碼處理
技術(shù)領(lǐng)域：
。
背景技術(shù)：
：以機(jī)器認(rèn)知人類全范圍語義信息，一直是個(gè)極難解決的問題。機(jī)器要被人類利用，必需能以自動(dòng)方式對于人類全范圍語義信息，有準(zhǔn)確的理解及認(rèn)知，才能進(jìn)行正確的溝通及回應(yīng)。任何語義信息都存在大量歧義，機(jī)器難以排除歧義、判斷正確語義信息。人類之間溝通的目的是傳達(dá)信息，信息內(nèi)含有特定語義，人類賴以利用的主要是語言及文字，目前已出現(xiàn)了數(shù)以千計(jì)的語言及文字系統(tǒng)。但事實(shí)上，世界不斷的發(fā)展，人類所要傳達(dá)及表示的信息及語義內(nèi)容也更豐富多彩，這些信息及語義內(nèi)容最終以各種語言及文字系統(tǒng)反映出來。所以每種語言及文字系統(tǒng)都出現(xiàn)相同情況，即存在大量的同音及近音詞，及同義及近義詞，產(chǎn)生語義上的混亂及錯(cuò)誤；這是機(jī)器難于進(jìn)行認(rèn)知的原因所在。語義編碼的目的，是機(jī)器能夠以自動(dòng)方式認(rèn)知人類全范圍語義信息，信息必需要以一種標(biāo)準(zhǔn)語義符號作為標(biāo)準(zhǔn)來進(jìn)行綜合編碼。漢字是人類社會其中一種自然語言的文字表示系統(tǒng)，亦是一種唯一的語義符號表示系統(tǒng)，能對應(yīng)現(xiàn)時(shí)人類任何自然語言及文字系統(tǒng)內(nèi)的語義；同時(shí)，漢字語義符號的獨(dú)特結(jié)構(gòu)，使機(jī)器能夠以固定及極少的數(shù)據(jù)量，達(dá)成高效率的語義搜索、判斷及認(rèn)知。漢字以外的文字都是拼音文字，拼音文字的特色主要是由數(shù)十個(gè)字母符號，組合成一個(gè)或多個(gè)語音，代表某個(gè)特定語義。拼音文字的出現(xiàn)，源自語音，語音由字母串組成，表示特定語義信息；但字母符號本身並沒有任何語義。漢字是目前仍在使用的最古老的文字，世界上的使用率僅次于英語。漢語是自然語言的一種，漢字發(fā)展至現(xiàn)在，擁有豐富的詞組體系及簡約的表達(dá)力?，F(xiàn)代漢字由數(shù)千個(gè)單一的漢字有機(jī)性地復(fù)合成兩字、三字及四字詞語，表達(dá)不同語義；單字詞的例子是書、樹及光等，兩字詞組例子有衣服、飛機(jī)及教師等，三字詞組例子有電視機(jī)、飛行員及旅游社等。東方及西方經(jīng)過三百多年文明的交接及融合，在全球化影響下，漢字詞語的語義表述結(jié)構(gòu)基本上能對應(yīng)任何一種自然語言及文本語義信息。過往關(guān)于文字的編碼方法，目的是為了以電子方式記錄及貯存文字，所以都是以每個(gè)唯一的字母符號進(jìn)行編碼，如ASCII內(nèi)的256個(gè)組合能容納英語及西歐文字，漢字的中文字型編碼有大五碼繁體字形、國標(biāo)碼2312簡體字形、國標(biāo)碼18030簡體字形及現(xiàn)時(shí)已能夠涵蓋絕大部份世界文字的統(tǒng)一碼等。漢字的數(shù)量繁多，不同字庫有不同字量，國標(biāo)碼2312簡體字形是6,700個(gè)，大五碼繁體字形是13,500個(gè)及國標(biāo)碼18030簡體字形的18,030個(gè)等。這些編碼方法都是以記錄唯一的字型為原則，以字型數(shù)量編碼，目前是以多字節(jié)的數(shù)據(jù)量滿足編碼所需。最早的文字編碼方法，主要是以每個(gè)字母或字型編碼，方法是分別將字型符號編入128、256及65,536個(gè)組合內(nèi)，以不同長度的字符串表示不同語義。電腦發(fā)明于西方世界，應(yīng)用的是拼音文字。普遍應(yīng)用的ASCII和ANSI符號編碼規(guī)則，每個(gè)字母或符號為1字節(jié)，每字節(jié)以8位元的數(shù)據(jù)長度表示。由于ASCII只規(guī)定了128個(gè)最常用的字母符號，隨著計(jì)算機(jī)字符集的增長，逐漸出現(xiàn)了很多種在ASCII上擴(kuò)充的編碼方式。信息領(lǐng)域的急速發(fā)展，累積了極大量以記錄為目的的文字?jǐn)?shù)據(jù)，分別由不同的字母、數(shù)字或文字符號組成，但越大量的數(shù)據(jù)出現(xiàn)，就越需要強(qiáng)大的硬件運(yùn)算能力，才能滿足在不斷擴(kuò)大的數(shù)據(jù)內(nèi)搜索的需要。在任何計(jì)算機(jī)或電子系統(tǒng)內(nèi)，字符組合的數(shù)量直接影響到文字的檢索效率，在浩如煙海的信息世界或龐大的數(shù)據(jù)庫內(nèi)，數(shù)量大的字符組合的排序及比較等效率絕對比數(shù)量小的字符組合慢很多倍。人類應(yīng)用的文字及語言系統(tǒng)種類繁多，而任何的文字及語言系統(tǒng)都有一相同特性，都存在為數(shù)不少的同詞異義(Homonyms,PolysemyorHomophomes)及異詞同義(SynonymorHyponyms)。同詞異義的定義是，同一單詞或詞組，或同音詞組，在不同的語境中，具有完全不同的語義。這些都是任何語言及文字發(fā)展過程中所出現(xiàn)的必然現(xiàn)象。以機(jī)器自動(dòng)認(rèn)知方式區(qū)分這些特性，往往會產(chǎn)生難以解決的歧義問題，特別是要結(jié)合語境判斷正確的語義，此亦是自動(dòng)翻譯系統(tǒng)難于解決的難題。人類在應(yīng)用已熟悉的語言及文字系統(tǒng)時(shí)，會根據(jù)歧義詞的上下文語境，判斷正確語義。所以，目前的技術(shù)只能在有限語言或文字范圍內(nèi)認(rèn)知，在局部范圍內(nèi)的語言或文字，出現(xiàn)一詞多義時(shí)不能以自動(dòng)判斷方式來確定符合上下文語境的正確語義。任何拼音文字都是由不同長度的字符串組成，組成結(jié)構(gòu)中沒有類似于漢字部首的分類特性，當(dāng)需要自動(dòng)判斷同名異義詞組的語義時(shí)，就會出現(xiàn)模棱兩可的情況。與任何拼音文字完全不同的是，漢字系統(tǒng)從古代到現(xiàn)在，都存在一特點(diǎn)，即漢字本身內(nèi)存在著固定的部首系統(tǒng)，部首解釋及表示該漢字的屬性，包含有基本語義項(xiàng)；例如部首"廣"的語義項(xiàng)是"病理的"，部首"水"的語義項(xiàng)是"與水有關(guān)的"及部首"金"的語義項(xiàng)是"與金屬有關(guān)"等。漢字部首的類別發(fā)展至目前，數(shù)量有214個(gè)。漢字由部首及部件組成，只有漢字部首的結(jié)構(gòu)具備語義分類功能，特別是在語義的排歧方面。在絕大部份的語境內(nèi)，內(nèi)容上互有關(guān)聯(lián)的，其用于表述的漢字的部首，也會互有關(guān)聯(lián)。例如部首"廣"是有關(guān)病理的，"醫(yī)"是關(guān)于醫(yī)學(xué)科等；這些漢字及詞組通常會在同一語境范圍內(nèi)出現(xiàn)。若漢字內(nèi)容需要判斷歧義詞的含義時(shí)，就能以部首的分類原則，排除同音同形但非關(guān)聯(lián)部首的漢字或詞組。任何自然語言及文字系統(tǒng)，都能以漢字及詞組對應(yīng)其語義。但目前的漢字編碼方法，都沒有對漢字的部首及語義編碼。另一方面，任何拼音文字及語言系統(tǒng)，都會出現(xiàn)極多的異名同義詞，即是語義相同，而拼寫不同的詞。例如英語Britian就有8個(gè)相同語義的字母串，分別為England,UK，U.K.,UnitedKingdom,GB，G.B.，BritianandGreatBritian等；其漢語的相同語義分別是英國、英格蘭、大不列顛及大英帝國等，亦可概括為語義"英國"。到目前為止，尚未有高效率的對同義詞進(jìn)行準(zhǔn)確自動(dòng)獲取的方法。若用戶需搜索異名同義詞時(shí)，都必需以多個(gè)不同詞組提出搜索請求，才能獲取最大范圍內(nèi)的搜索結(jié)果。過往的語言及文字搜索模式，都是在相同的文字系統(tǒng)內(nèi)匹配相同語音或文字詞組，再進(jìn)一步通過不同語種的字典，以相同語義進(jìn)行互換從而得到不同自然語言之間的語言表達(dá)。另外，一般的同義詞搜索方法，用戶都需要分別輸入源語言中所有語義相同的詞組，才能匹配出目標(biāo)語言中語義相同的詞組。事實(shí)上，用戶真正需要搜索的是該單一語義本身，但單一語義會存在多個(gè)表達(dá)詞組，這些表達(dá)詞組存在于海量的文字?jǐn)?shù)據(jù)庫內(nèi)，要以不同的關(guān)鍵詞逐個(gè)進(jìn)行搜索。任何拼音文字的困難都在于，需要在海量的非結(jié)構(gòu)化文字?jǐn)?shù)據(jù)內(nèi)，進(jìn)行上述多個(gè)相同語義的關(guān)鍵詞搜索。若能以單一詞組進(jìn)行同義詞的檢索，將會大大縮小檢索的范圍，提高檢索的效率?，F(xiàn)時(shí)的全文搜索，一般都是按照相同文字進(jìn)行匹配，但事實(shí)上，用戶需要搜索的是某個(gè)特定語義概念，或相關(guān)語義；以越少的漢字詞組對應(yīng)相同語義的同義詞，對數(shù)據(jù)進(jìn)行自動(dòng)認(rèn)知的過程就越高效率。以往少量的數(shù)據(jù)，可以用手工方式進(jìn)行結(jié)構(gòu)化分類建立目錄進(jìn)行查找；但以手工分類，會由于操作個(gè)體對語義認(rèn)知的偏差而導(dǎo)致分類歧義。目前人類的文明已累積了極大量的信息數(shù)據(jù)，需要以綜合及標(biāo)準(zhǔn)的運(yùn)算原則進(jìn)行自動(dòng)分類及排序。任何數(shù)據(jù)都不是獨(dú)立存在的，而是互有關(guān)聯(lián)的，所以難于以手工方式進(jìn)行絕對一致的分類，需以自動(dòng)方式對隨時(shí)更新的數(shù)據(jù)，以最高效率建立最有關(guān)聯(lián)關(guān)系的數(shù)據(jù)結(jié)構(gòu)。過往的文字編碼方法，是以記錄最大范圍的文本信息為目的，但這種編碼方法只能滿足以往對文字處理及貯存的需求。大量的信息組織成為數(shù)據(jù)，具有綜合結(jié)構(gòu)化的數(shù)據(jù)，才是有用的數(shù)據(jù)，才能最寬廣及最深度地進(jìn)行挖掘?，F(xiàn)時(shí)的技術(shù)，是以人手方式對相同語義數(shù)據(jù)加入標(biāo)簽，標(biāo)簽後的數(shù)據(jù)自動(dòng)進(jìn)行文本分類及叢集，才能進(jìn)行文字挖掘；叢集結(jié)構(gòu)化或文本數(shù)據(jù)化的功能是建立語義目錄，但拼音文字組成的詞組，詞組與詞組混合使用時(shí)容易產(chǎn)生多義性，自動(dòng)認(rèn)知難于排除歧義。語義數(shù)據(jù)以部首標(biāo)簽方法，能正確表示及區(qū)分語義數(shù)據(jù)與數(shù)據(jù)之間的關(guān)系及屬性。
發(fā)明內(nèi)容本發(fā)明的目的在于提供一種可對任何可用語言或文字表達(dá)的信息源進(jìn)行綜合認(rèn)知的系統(tǒng)，以及應(yīng)用該系統(tǒng)實(shí)現(xiàn)檢索，翻譯等功能。本發(fā)明還提供了一種應(yīng)用上述系統(tǒng)對任何自然語言系統(tǒng)進(jìn)行語音認(rèn)知，可以操控的電子機(jī)器。為了綜合達(dá)到上述發(fā)明目的，本發(fā)明采用了以下技術(shù)方案一種全范圍語義信息認(rèn)知系統(tǒng)，其特征在于包括一信息接收模塊，用于接收任何一種可被自然語言或文字所表達(dá)的信息源；以及一轉(zhuǎn)譯模塊，將上述信息源根據(jù)語義轉(zhuǎn)譯至語義信息數(shù)據(jù)庫；以及一語義數(shù)據(jù)庫，由漢字詞組構(gòu)成，漢字具有按照部首屬性編碼規(guī)則編碼成可應(yīng)用至計(jì)算機(jī)系統(tǒng)的數(shù)字編碼；以及一輸出模塊，將上述數(shù)字編碼轉(zhuǎn)換并輸出；所述部首屬性編碼規(guī)則是指漢字按照預(yù)定筆畫集合和筆畫順序拆分成至少一個(gè)筆畫、與數(shù)字構(gòu)成的編碼一一對應(yīng)，每個(gè)數(shù)字表示l字節(jié)，每字節(jié)最多只以3位元(bit)表示。所述預(yù)定筆畫集合由點(diǎn)."、"——代表點(diǎn)類筆畫、短撇"7"——代表短撇及短捺類筆畫、長撇"7"——代表長撇及長捺類筆畫、短劃"-"——代表短橫及短豎類筆畫及長劃"一"——代表長橫及長豎類筆畫組成。為提高系統(tǒng)運(yùn)作效率，限定上述數(shù)字構(gòu)成的編碼為1、2、3、4、5，分別對應(yīng)點(diǎn)."、"、短撇"/"、長撇"7"、短劃"-，，及長劃"一"，字型筆畫不足部分以數(shù)字"0"表示。為進(jìn)一步地簡化及明確漢字編碼以提高效率，限定上述漢字根據(jù)字型結(jié)構(gòu)以兩組共6個(gè)數(shù)字，每個(gè)數(shù)字表示l字節(jié)，每字節(jié)最多只以3位元(bit)表示。以下為6個(gè)數(shù)字對應(yīng)二進(jìn)制數(shù)字系統(tǒng)的表示方式<table>tableseeoriginaldocumentpage8</column></row><table>為了能對同音、近音歧義詞或同名多義詞進(jìn)行有效排歧及篩選，所述語義數(shù)據(jù)庫內(nèi)設(shè)有若干叢集詞庫分類，以實(shí)現(xiàn)漢字詞組按照部首義項(xiàng)屬性對同一應(yīng)用領(lǐng)域漢字詞組的叢集及分類，應(yīng)用所述叢集詞庫對多義詞進(jìn)行部首義項(xiàng)關(guān)系匹配比較，篩選出符合匹配關(guān)系的詞組。進(jìn)一步地，上述接收模塊可接收感官信息或動(dòng)作信息數(shù)據(jù)轉(zhuǎn)換為漢字詞組的文字信息，并表達(dá)成可被計(jì)算機(jī)讀取的數(shù)字編碼。最有效率的數(shù)據(jù)搜索，是需要數(shù)據(jù)本身先以字母數(shù)字或字符組合的順序排列，然後進(jìn)行搜索及匹配；新發(fā)明以漢字詞組對任何信息語義進(jìn)行認(rèn)知，即是對應(yīng)任何語義數(shù)據(jù)，每個(gè)漢字符號分別以不同部首或部件組成，每個(gè)部件以不同筆劃組成。新發(fā)明以最少的筆劃型態(tài)對應(yīng)不同部首或部件的分組編碼，以筆劃對應(yīng)不同數(shù)字，每個(gè)數(shù)字為l字節(jié)，每種筆劃型態(tài)最多只有3位元(bit)的數(shù)據(jù)長度，每個(gè)漢字最少只有6個(gè)字節(jié)組成，且是固定長度數(shù)據(jù)編碼組合，與拼音文字的非固定長度數(shù)據(jù)進(jìn)行排序比較，效率肯定是最快。現(xiàn)在每天都湧現(xiàn)大量的電子數(shù)據(jù)信息，在數(shù)據(jù)庫內(nèi)有任何新的數(shù)據(jù)出現(xiàn)，都需要進(jìn)行更新、插入及排序，永遠(yuǎn)是需要重復(fù)這些運(yùn)算過程，所以高效率的綜合編碼排序方法是必需的。新發(fā)明以漢字詞組對應(yīng)任何自然語言及文本的語義信息，任何語義都能以此最少綜合數(shù)據(jù)組合的分組編碼進(jìn)行高速排序。新發(fā)明以漢字詞組對應(yīng)任何自然語言及文本信息，漢語是自然語言的一種，漢字系統(tǒng)內(nèi)具備部首系統(tǒng)，任何漢字詞組都能以部首屬性進(jìn)行自動(dòng)分類及叢集，任何自然語言及文本信息數(shù)據(jù)都能對應(yīng)漢字詞組進(jìn)行自動(dòng)認(rèn)知，自動(dòng)排除歧義完成正確的語義認(rèn)知過程。以往的語言及文字翻譯系統(tǒng)，被翻譯的原文內(nèi)容在語義上出現(xiàn)多重歧義，自動(dòng)方式難于判斷歧義詞組與上下文語境的關(guān)聯(lián)關(guān)系；新發(fā)明對于任何自然語言及文本信息，自動(dòng)翻譯為任何自然語言及文本信息，在內(nèi)容上出現(xiàn)多重語義的情況，都能對應(yīng)漢字詞組，以部首的分類屬性，正確的自動(dòng)判斷語境中出現(xiàn)歧義的語義。人類的認(rèn)知方式，除了通過語言和文字以外，還會以視覺、聽覺、味覺和感官實(shí)現(xiàn)，例如視覺上看見紅色，心理上浮現(xiàn)的語義有熱情、危險(xiǎn)和停止等；通過聽覺能分辨悠閑、悅耳、輕快或嘈吵等；味覺上亦會理解到甜、酸、苦、辣等；身體的感官知覺受壓亦能分辨出是輕壓還是痛打。以上這些感官通過不同的電子系統(tǒng)擷取後，一般都會以數(shù)字作為語義數(shù)據(jù)貯存，新發(fā)明能夠以不同的數(shù)字?jǐn)?shù)據(jù)所表示的感官信息以適當(dāng)?shù)臐h字詞組與之對應(yīng)。例如目前顏色的數(shù)字化，都以三原色(R，G,B)表示；"255，0，0"表示為紅色，可對應(yīng)的漢字詞組編碼為"紅色"，"0,255，0"表示為綠色，可對應(yīng)的漢字詞組編碼為"綠色"等。人類還會以其他途徑進(jìn)行溝通，例如表情、手勢及肢體動(dòng)作等，自動(dòng)認(rèn)知系統(tǒng)擷取表情需要對應(yīng)語義表示；例如面部的唇形向上露齒等的表情語義，是對應(yīng)漢字詞組"笑"，人類點(diǎn)頭的動(dòng)作語義對應(yīng)漢字詞組"允許"或"贊成"，肢體方面，左右兩手掌輕力互拍，表示的語義對應(yīng)為漢字詞組"拍掌"、"欣賞"或"歡迎"等。新發(fā)明通過電子系統(tǒng)擷取各種信息的數(shù)字?jǐn)?shù)據(jù)，對應(yīng)漢字詞組語義，能進(jìn)行綜合理解及認(rèn)知，然後以綜合數(shù)據(jù)；模擬方式作出回應(yīng)。本發(fā)明的漢字符號編碼系統(tǒng)及方法以分組數(shù)字編碼表示，單一漢字符號的其中一組數(shù)字對應(yīng)不同部首屬性，系統(tǒng)就能以不同部首屬性進(jìn)行語義認(rèn)知。任何自然語言及文字等語義信息要成為高效率的搜索數(shù)據(jù)，需要信息高度結(jié)構(gòu)化，以最少的數(shù)據(jù)量達(dá)至最準(zhǔn)確的分類。新發(fā)明利用漢字的部首屬性對全范圍語義信息進(jìn)行分類，人類的知識本身是以不同的類別呈現(xiàn)，而呈現(xiàn)的方式都是以文字固定下來。不同的知識領(lǐng)域包含特定語義，在漢字系統(tǒng)內(nèi)，特定語義有特定部首表示，如關(guān)于醫(yī)學(xué)科的部首有"廣"，"醫(yī)"及"月"等。所對應(yīng)的漢字有"病"，"醫(yī)"及"腫"等。所述語義數(shù)據(jù)庫會以部首屬性對不同知識領(lǐng)域進(jìn)行有效叢集及分類。本發(fā)明能以漢字詞組對應(yīng)不同詞組搜索請求，集中搜索語義本身，就能以相同關(guān)聯(lián)語義方式得出相同語義結(jié)果。機(jī)械及電子機(jī)器的出現(xiàn)，已體現(xiàn)在各種各樣的生活應(yīng)用需求上，但到目前為止，只能以局部范圍的語音信息能表示為少數(shù)指令集，進(jìn)行認(rèn)知及操控。不能進(jìn)行全范圍語義信息認(rèn)知的原因是任何自然語言語音的重復(fù)性，即同音字詞數(shù)量太多，出現(xiàn)太多歧義，不能轉(zhuǎn)換為唯一指令進(jìn)行準(zhǔn)確操控。人類一直以來都希望能實(shí)現(xiàn)全范圍自然語言操控機(jī)器運(yùn)作，但侷限于認(rèn)知全范圍語音因同音及近音詞組，容易出現(xiàn)認(rèn)知上的錯(cuò)誤。目前的技術(shù)，只能進(jìn)行局部范圍自然語言的認(rèn)知運(yùn)作上，例如通過語音査詢天氣、票務(wù)或銀行賬戶等；轉(zhuǎn)換為正確指令，進(jìn)行數(shù)據(jù)的存取過程，或進(jìn)一步以指令轉(zhuǎn)換為已予設(shè)的電子機(jī)械動(dòng)作。本發(fā)明能對人類全范圍語義信息，包括任何自然語言及文字語義信息，進(jìn)行準(zhǔn)確認(rèn)知，并表示及對應(yīng)為指令操控機(jī)械及電子機(jī)器。實(shí)現(xiàn)全范圍語音指令的可能，并能以部首屬性編碼，組織及叢集相關(guān)語義，作出相關(guān)回應(yīng)，此亦是機(jī)器人能以相關(guān)范圍思考學(xué)習(xí)的實(shí)現(xiàn)方法。圖1是全范圍語義認(rèn)知系統(tǒng)結(jié)構(gòu)示意圖。圖2a是漢字筆劃形態(tài)與數(shù)字編碼對應(yīng)關(guān)系圖。圖2b是漢字筆劃的數(shù)字編碼示例圖。圖3是語義排歧工作流程圖。圖4a是實(shí)施例中自然語言的輸入內(nèi)容。圖4b是對圖4a文字輸入內(nèi)容中的關(guān)鍵詞進(jìn)行部首義項(xiàng)分析。圖4c是關(guān)鍵詞的部首編碼與詞組的對應(yīng)關(guān)系。圖5是實(shí)施例3中漢字詞組與英語同義詞的對應(yīng)關(guān)系示意圖。圖6是關(guān)鍵詞以筆劃對應(yīng)分組數(shù)字編碼示意圖。具體實(shí)施例方式現(xiàn)結(jié)合附圖進(jìn)一步對本發(fā)明的實(shí)施例進(jìn)行說明及解釋，本發(fā)明的特點(diǎn)、目的和優(yōu)點(diǎn)將變得更加明顯。本處所描述的實(shí)施例僅用于說明和解釋本發(fā)明，并不因此而限定本發(fā)明。如圖1所示為本認(rèn)知系統(tǒng)結(jié)構(gòu)，包括信息接收模塊12，轉(zhuǎn)譯模塊13,語義數(shù)據(jù)庫14，輸出模塊15。全范圍語義信息ll,包括任一種自然語言及文字信息111,如漢語、英語、德語、西班牙語、日語等語種的語音及文字；或者可用任一種自然語言及文字表達(dá)的信息，如視覺、聽覺、味覺等感官信息112;以及表情、手勢、肢體動(dòng)作等動(dòng)作信息113;通過信息接收模塊12輸入計(jì)算機(jī)系統(tǒng)中。接收模塊可包括多類別的接收及數(shù)據(jù)輸入裝置，可將聲音、動(dòng)作、感官等信息接收并最終以文字方式表達(dá)。接收及數(shù)據(jù)輸入裝置可采用現(xiàn)有的裝置，在此不作贅述o語言或文字信息通過轉(zhuǎn)譯模塊13，根據(jù)語義轉(zhuǎn)譯至語義信息數(shù)據(jù)庫14。語義數(shù)據(jù)庫14由漢字詞組構(gòu)成。語義數(shù)據(jù)庫內(nèi)的漢字按照部首屬性編碼規(guī)則編碼成可應(yīng)用至計(jì)算機(jī)系統(tǒng)的數(shù)字編碼。部首屬性編碼規(guī)則是指漢字按照預(yù)定筆畫集合和筆畫順序拆分成至少一個(gè)筆畫、與數(shù)字構(gòu)成的編碼一一對應(yīng)。編碼后通過輸出模塊15進(jìn)行轉(zhuǎn)換及輸出模擬數(shù)據(jù)，以實(shí)現(xiàn)檢索或翻譯等功能。該預(yù)定筆畫集合由點(diǎn)."、"一一代表點(diǎn)類筆畫、短撇"爿"一一代表短撇及短捺類筆畫、長撇"乂"一一代表長撇及長捺類筆畫、短劃"-"一一代表短橫及短豎類筆畫及長劃"一"——代表長橫及長豎類筆畫組成。具體地來說，是以1、2、3、4、5作為數(shù)字編碼，分別對應(yīng)點(diǎn)."、，，、短撇"/"、長撇"乂"、短劃"-"及長劃"一"五種筆劃型態(tài)。當(dāng)漢字筆畫不足時(shí)，不足部分以數(shù)字"0"表示。漢字字型在形式分類上，分為橫排和豎排兩種；而在字形結(jié)構(gòu)上分為單體字及合體字兩種，每個(gè)漢字皆以兩組數(shù)字組合進(jìn)行編碼。因此，每個(gè)漢字根據(jù)字型結(jié)構(gòu)以兩組共6個(gè)數(shù)字字節(jié)組成表示。筆劃型態(tài)組合編碼只有6個(gè)，轉(zhuǎn)為二進(jìn)制數(shù)字表示，每筆劃數(shù)據(jù)長度為最多3位元，每個(gè)漢字?jǐn)?shù)據(jù)長度為18位元?，F(xiàn)以實(shí)例解釋上述漢字編碼規(guī)則。實(shí)施例1如圖2a所示，為五種漢字筆劃形態(tài)"、"、"乂"、"乂，，、"-"、"一，，，分別以1、2、3、4、5編碼，筆劃不足的編以數(shù)字0，一共為6個(gè)數(shù)字。如圖2b所示，以漢字"我"為例，"我"字為單體字，首部件筆劃順序編碼為255,"我"字沒有次部件，因此編碼為000，完整分組編碼即為255'000。又以"統(tǒng)"為例，首部件筆劃順序編碼為222，次部件編碼為142，整字分組編碼即為222.142。為簡化輸入及提高操作效率，本發(fā)明制定的規(guī)則中，五種漢字筆劃形態(tài)分別是以1、2、3、4、5作為編碼的，筆劃不足的編以數(shù)字0。但若以另外6個(gè)數(shù)字，甚至以字母字符來編碼各漢字筆劃形態(tài)，亦不違背本發(fā)明的精神，應(yīng)視為在本發(fā)明的保護(hù)范圍之內(nèi)。目前被廣泛應(yīng)用的自然語言及文字系統(tǒng)，都存在歧義問題，分別存在于同音詞組及同義詞組內(nèi)。以任何一種自然語言及文字系統(tǒng)的同音詞組，對應(yīng)不同的漢字詞組，不同的漢字詞組具備不同的部首義項(xiàng)屬性，艮P:同音詞組A—漢字詞組A—部首義項(xiàng)集1同音詞組B—漢字詞組B—部首義項(xiàng)集2同音詞組n—漢字詞組n—部首義項(xiàng)集n在語義數(shù)據(jù)庫14內(nèi)設(shè)有若干叢集詞庫141，漢字詞組按照部首義項(xiàng)對同一應(yīng)用領(lǐng)域的漢字詞組進(jìn)行叢集及分類，如醫(yī)學(xué)、法學(xué)、建筑學(xué)、經(jīng)濟(jì)學(xué)、美學(xué)及天文學(xué)等等。這相當(dāng)是應(yīng)用了漢字部首特有的標(biāo)簽分類功能，能對同音、近音歧義詞及同名異義詞進(jìn)行排歧及篩選，從而確定符合匹配關(guān)系的詞組。該排歧篩選過程可見圖3所示的流程。步驟301表示，任何一種自然語言或文字在文字輸入時(shí)，語義內(nèi)容出現(xiàn)了歧義，即一詞多義，如同音、近音歧義詞或同名異義詞。步驟302表示，對上述多義詞的各個(gè)語義通過轉(zhuǎn)譯模塊對應(yīng)為漢字詞組認(rèn)知信息數(shù)據(jù)庫14內(nèi)的不同語義的漢字詞組。步驟303表示，各不同語義的漢字詞組存在著不同的部首義項(xiàng)屬性，可以數(shù)字編碼的形式進(jìn)行提取。步驟304表示，對于歧義的各語義詞組需與上下文的語義關(guān)系進(jìn)行匹配比較，實(shí)際上即是以部首義項(xiàng)與上下文的部首義項(xiàng)進(jìn)行語義匹配。步驟305表示，先進(jìn)行上文部首義項(xiàng)關(guān)系屬性的匹配比較。步驟306表示，然後進(jìn)行下文部首義項(xiàng)關(guān)系屬性的匹配比較。步驟307表示，歧義詞組的多個(gè)語義部首義項(xiàng)匹配規(guī)則是優(yōu)先選擇上下文語義的部首義項(xiàng)最大關(guān)聯(lián)語義者作為匹配語義?，F(xiàn)以具體實(shí)例解釋上述流程。實(shí)施例2任何自,然語言系統(tǒng)內(nèi)都存在同名異義，同音、近音歧義的情況，即具有著相同或相近的字母拼寫的詞語有著完全不同的語義，當(dāng)轉(zhuǎn)換為電子數(shù)據(jù)進(jìn)行語義識別時(shí)，就會出現(xiàn)歧義問題。如圖4a所示，輸入一段英語文字內(nèi)容。如圖4b所示，對這段文字內(nèi)容的多個(gè)關(guān)鍵詞進(jìn)行部首義項(xiàng)分析。在這段文字內(nèi)容中含有同名多義詞"cancer"。英語單詞"Cancer"在不同的語境內(nèi)，具有完全不同的語義；語境與醫(yī)學(xué)有關(guān)的，其語義為癌病、癌癥及腫瘤等；當(dāng)語境與星相學(xué)有關(guān)時(shí)，其語義為巨蟹座。語音內(nèi)容對應(yīng)為漢字語義詞組時(shí)，例如名詞"Cancer"就會出現(xiàn)兩種不同語義。"Cancer"有多個(gè)語義，如"癌癥"，對應(yīng)部首為"廣廣"；腫瘤，對應(yīng)部首為"月廣";"巨蟹座"，對應(yīng)部首為"匚蟲廣"，見圖4b的402。上文"hospital"語義為"醫(yī)院"。"醫(yī)"的部首是"醫(yī)"，見401。下文"patient"語義為"病人"，"病"的部首義項(xiàng)是"廣"。如圖4c所示，上述部首義項(xiàng)的編碼分別為555及153，在部首叢集詞庫內(nèi)，"醫(yī)"部與"廣"屬于與醫(yī)學(xué)有關(guān)的，叢集于同一詞庫內(nèi)，因此"cancer"在此語境內(nèi)會自動(dòng)判斷為與病理有關(guān)的語義，排除另一語義"巨蟹座"。同理，"treatment"對應(yīng)的漢字詞組是"療法"或"處理"，"療法"的部首分別是"廣"與"？"；"處理"的部首分別是"夂"與"王"。通過上下文匹配關(guān)系自動(dòng)判斷為"療法"。一般的關(guān)鍵詞搜索過程，都是以關(guān)鍵詞的拼寫形式或書寫方式在數(shù)據(jù)庫內(nèi)進(jìn)行搜索及匹配。當(dāng)同一語義有多個(gè)表達(dá)方式時(shí)，要搜索出該語義的相關(guān)文獻(xiàn)，就必須要把所有的拼寫表達(dá)方式都分別輸入，過程變得復(fù)雜、緩慢、低效。新發(fā)明以漢字語義詞組對應(yīng)任何自然語言的語義，根據(jù)唯一的語義進(jìn)行搜索，大大減小搜索數(shù)據(jù)量，有效地提高操作效率?，F(xiàn)以具體例子加以說明。實(shí)施例3如圖5所示，501列出與Britian具有相同語義的字母串組合，包括England,UK，U.K.,UnitedKingdom,GB，G.B.,BritianandGreatBritian等。當(dāng)需要搜索含有"英國"含義的英文相關(guān)文獻(xiàn)時(shí)，由于不確切該文獻(xiàn)中"英語"的拼寫表達(dá)方式，可能是England,UK,U.K.,UnitedKingdom,GB，G.B.,BritianandGreatBritian的任何一種，因此可能需要分別輸入以上所有的表達(dá)方式才能找到所需文獻(xiàn)。502表示上述各種拼寫所表達(dá)的語義是唯一的，對應(yīng)為漢字詞組即為"英國"。如圖6所示，"英國"所對應(yīng)的數(shù)字編為554.454和555.545。每個(gè)漢字以6個(gè)數(shù)字字節(jié)表示，每個(gè)字節(jié)為3位元，所以6字節(jié)的位元數(shù)量為18位元。503表示以漢字語義詞組數(shù)據(jù)庫綜合對語義信息進(jìn)行搜索。因此，應(yīng)用本法進(jìn)行關(guān)鍵詞搜索時(shí)，只需要搜索"英國"的數(shù)字編碼555.531，相關(guān)語義的詞組都能一并出現(xiàn)，減少關(guān)鍵詞冗余列表數(shù)量，檢索過程大為簡化，數(shù)據(jù)量也大大減小。實(shí)施例4人類一直以人手、完整邏輯指令集及希望以語音操控電子機(jī)器。本發(fā)明對人類全范圍語義信息，包括任何自然語言及文字語義信息，進(jìn)行準(zhǔn)確認(rèn)知，并表示及對應(yīng)為指令操控機(jī)械及電子機(jī)器。實(shí)現(xiàn)全范圍語音指令的可能，并能以部首屬性編碼，組織及叢集相關(guān)語義，作出相關(guān)回應(yīng)，此亦是機(jī)器人能以相關(guān)范圍思考學(xué)習(xí)的實(shí)現(xiàn)方法。權(quán)利要求1、一種全范圍語義信息綜合認(rèn)知系統(tǒng)，其特征在于包括一信息接收模塊，用于接收任何一種可被自然語言或文字所表達(dá)的信息源；以及一轉(zhuǎn)譯模塊，將上述信息源根據(jù)語義轉(zhuǎn)譯至語義信息數(shù)據(jù)庫；以及一語義數(shù)據(jù)庫，由漢字詞組構(gòu)成，漢字按照部首屬性編碼規(guī)則編碼成可應(yīng)用至計(jì)算機(jī)系統(tǒng)的數(shù)字編碼；以及一輸出模塊，將上述數(shù)字編碼轉(zhuǎn)換并輸出；所述部首屬性編碼規(guī)則是指漢字按照預(yù)定筆畫集合和筆畫順序拆分成至少一個(gè)筆畫、與數(shù)字構(gòu)成的編碼一一對應(yīng)，每數(shù)字為1字節(jié)，每字節(jié)最多為3位元(bit)編碼表示。2、根據(jù)權(quán)利要求1所述的系統(tǒng)，其特征在于所述預(yù)定筆畫集合由點(diǎn)."、"_一代表點(diǎn)類筆畫、短撇"〃"一_代表短撇及短捺類筆畫、長撇"7"一一代表長撇及長捺類筆畫、短劃"-"一一代表短橫及短豎類筆畫及長劃"一"一一代表長橫及長豎類筆畫組成。3、根據(jù)權(quán)利要求2所述的系統(tǒng)，其特征在于所述數(shù)字構(gòu)成的編碼為1、2、3、4、5，分別對應(yīng)點(diǎn)."、"、短撇"^"、長撇"乂"、短劃"-，，及長劃"一"，字型筆畫不足部分以數(shù)字"0"表示。4、根據(jù)權(quán)利要求1或2或3所述的系統(tǒng)，其特征在于所述漢字根據(jù)字型結(jié)構(gòu)以兩組共6個(gè)數(shù)字字節(jié)，每字節(jié)最多為3位元(bit)編碼表示。5、根據(jù)權(quán)利要求1所述的系統(tǒng)，其特征在于所述語義數(shù)據(jù)庫內(nèi)根據(jù)漢字部首分類功能設(shè)有知識分類叢集詞庫，以實(shí)現(xiàn)漢字詞組按照部首義項(xiàng)屬性對同一應(yīng)用領(lǐng)域漢字詞組的叢集及分類，應(yīng)用所述叢集詞庫對多義詞進(jìn)行部首義項(xiàng)屬性關(guān)系匹配比較，判斷出符合匹配關(guān)系的詞組。6、根據(jù)權(quán)利要求1所述的系統(tǒng)，其特征在于所述接收模塊接收感官信息數(shù)據(jù)轉(zhuǎn)換為漢字詞組的文字信息，并表達(dá)成可被計(jì)算機(jī)讀取的數(shù)字編碼。7、根據(jù)權(quán)利要求1所述的系統(tǒng)，其特征在于所述接收模塊接收動(dòng)作信息數(shù)據(jù)轉(zhuǎn)換為漢字詞組的文字信息，并表達(dá)成可被計(jì)算機(jī)讀取的數(shù)字編碼。8、應(yīng)用權(quán)利要求1所述的系統(tǒng)進(jìn)行任何語言及文字系統(tǒng)信息數(shù)據(jù)的結(jié)構(gòu)化處理。9、應(yīng)用權(quán)利要求1所述的系統(tǒng)進(jìn)行任何自然語言及文字系統(tǒng)的互譯。10、一種應(yīng)用權(quán)利要求1所述的系統(tǒng)對任何自然語言系統(tǒng)進(jìn)行語音操控的電子機(jī)器。全文摘要本發(fā)明公開了一種全范圍語義信息認(rèn)知系統(tǒng)，包括一信息接收模塊，用于接收任何一種可被自然語言或文字所表達(dá)的信息源；以及一轉(zhuǎn)譯模塊，將上述信息源根據(jù)語義轉(zhuǎn)譯至語義信息數(shù)據(jù)庫；以及一語義數(shù)據(jù)庫，由漢字詞組構(gòu)成，漢字具有按照部首屬性編碼規(guī)則編碼成可應(yīng)用至計(jì)算機(jī)系統(tǒng)的數(shù)字編碼；以及一輸出模塊，將上述數(shù)字編碼轉(zhuǎn)換并輸出。本發(fā)明可對任何一種可用語言或文字表達(dá)的信息源進(jìn)行綜合認(rèn)知，可通過電子系統(tǒng)擷取各種信息的數(shù)字?jǐn)?shù)據(jù)，對應(yīng)漢字詞組語義，能進(jìn)行綜合理解及認(rèn)知，然后以綜合數(shù)據(jù)、模擬方式作出回應(yīng)。本系統(tǒng)應(yīng)用于語言及文字的翻譯及檢索等領(lǐng)域，速度和效率均可大幅度提高。文檔編號G06F17/28GK101408873SQ200710030770公開日2009年4月15日申請日期2007年10月9日優(yōu)先權(quán)日2007年10月9日發(fā)明者勞英杰申請人:勞英杰

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：勞英杰
技術(shù)所有人：勞英杰
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

語義分析系統(tǒng)相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

全范圍語義信息綜合認(rèn)知系統(tǒng)及其應(yīng)用的制作方法