專利名稱::全范圍語義信息綜合認(rèn)知系統(tǒng)及其應(yīng)用的制作方法
技術(shù)領(lǐng)域:
:本發(fā)明涉及計(jì)算機(jī)
技術(shù)領(lǐng)域:
,尤其涉及應(yīng)用于計(jì)算機(jī)系統(tǒng)的人工智能的綜合數(shù)據(jù)編碼處理
技術(shù)領(lǐng)域:
。
背景技術(shù):
:以機(jī)器認(rèn)知人類全范圍語義信息,一直是個(gè)極難解決的問題。機(jī)器要被人類利用,必需能以自動(dòng)方式對于人類全范圍語義信息,有準(zhǔn)確的理解及認(rèn)知,才能進(jìn)行正確的溝通及回應(yīng)。任何語義信息都存在大量歧義,機(jī)器難以排除歧義、判斷正確語義信息。人類之間溝通的目的是傳達(dá)信息,信息內(nèi)含有特定語義,人類賴以利用的主要是語言及文字,目前已出現(xiàn)了數(shù)以千計(jì)的語言及文字系統(tǒng)。但事實(shí)上,世界不斷的發(fā)展,人類所要傳達(dá)及表示的信息及語義內(nèi)容也更豐富多彩,這些信息及語義內(nèi)容最終以各種語言及文字系統(tǒng)反映出來。所以每種語言及文字系統(tǒng)都出現(xiàn)相同情況,即存在大量的同音及近音詞,及同義及近義詞,產(chǎn)生語義上的混亂及錯(cuò)誤;這是機(jī)器難于進(jìn)行認(rèn)知的原因所在。語義編碼的目的,是機(jī)器能夠以自動(dòng)方式認(rèn)知人類全范圍語義信息,信息必需要以一種標(biāo)準(zhǔn)語義符號作為標(biāo)準(zhǔn)來進(jìn)行綜合編碼。漢字是人類社會其中一種自然語言的文字表示系統(tǒng),亦是一種唯一的語義符號表示系統(tǒng),能對應(yīng)現(xiàn)時(shí)人類任何自然語言及文字系統(tǒng)內(nèi)的語義;同時(shí),漢字語義符號的獨(dú)特結(jié)構(gòu),使機(jī)器能夠以固定及極少的數(shù)據(jù)量,達(dá)成高效率的語義搜索、判斷及認(rèn)知。漢字以外的文字都是拼音文字,拼音文字的特色主要是由數(shù)十個(gè)字母符號,組合成一個(gè)或多個(gè)語音,代表某個(gè)特定語義。拼音文字的出現(xiàn),源自語音,語音由字母串組成,表示特定語義信息;但字母符號本身並沒有任何語義。漢字是目前仍在使用的最古老的文字,世界上的使用率僅次于英語。漢語是自然語言的一種,漢字發(fā)展至現(xiàn)在,擁有豐富的詞組體系及簡約的表達(dá)力?,F(xiàn)代漢字由數(shù)千個(gè)單一的漢字有機(jī)性地復(fù)合成兩字、三字及四字詞語,表達(dá)不同語義;單字詞的例子是書、樹及光等,兩字詞組例子有衣服、飛機(jī)及教師等,三字詞組例子有電視機(jī)、飛行員及旅游社等。東方及西方經(jīng)過三百多年文明的交接及融合,在全球化影響下,漢字詞語的語義表述結(jié)構(gòu)基本上能對應(yīng)任何一種自然語言及文本語義信息。過往關(guān)于文字的編碼方法,目的是為了以電子方式記錄及貯存文字,所以都是以每個(gè)唯一的字母符號進(jìn)行編碼,如ASCII內(nèi)的256個(gè)組合能容納英語及西歐文字,漢字的中文字型編碼有大五碼繁體字形、國標(biāo)碼2312簡體字形、國標(biāo)碼18030簡體字形及現(xiàn)時(shí)已能夠涵蓋絕大部份世界文字的統(tǒng)一碼等。漢字的數(shù)量繁多,不同字庫有不同字量,國標(biāo)碼2312簡體字形是6,700個(gè),大五碼繁體字形是13,500個(gè)及國標(biāo)碼18030簡體字形的18,030個(gè)等。這些編碼方法都是以記錄唯一的字型為原則,以字型數(shù)量編碼,目前是以多字節(jié)的數(shù)據(jù)量滿足編碼所需。最早的文字編碼方法,主要是以每個(gè)字母或字型編碼,方法是分別將字型符號編入128、256及65,536個(gè)組合內(nèi),以不同長度的字符串表示不同語義。電腦發(fā)明于西方世界,應(yīng)用的是拼音文字。普遍應(yīng)用的ASCII和ANSI符號編碼規(guī)則,每個(gè)字母或符號為1字節(jié),每字節(jié)以8位元的數(shù)據(jù)長度表示。由于ASCII只規(guī)定了128個(gè)最常用的字母符號,隨著計(jì)算機(jī)字符集的增長,逐漸出現(xiàn)了很多種在ASCII上擴(kuò)充的編碼方式。信息領(lǐng)域的急速發(fā)展,累積了極大量以記錄為目的的文字?jǐn)?shù)據(jù),分別由不同的字母、數(shù)字或文字符號組成,但越大量的數(shù)據(jù)出現(xiàn),就越需要強(qiáng)大的硬件運(yùn)算能力,才能滿足在不斷擴(kuò)大的數(shù)據(jù)內(nèi)搜索的需要。在任何計(jì)算機(jī)或電子系統(tǒng)內(nèi),字符組合的數(shù)量直接影響到文字的檢索效率,在浩如煙海的信息世界或龐大的數(shù)據(jù)庫內(nèi),數(shù)量大的字符組合的排序及比較等效率絕對比數(shù)量小的字符組合慢很多倍。人類應(yīng)用的文字及語言系統(tǒng)種類繁多,而任何的文字及語言系統(tǒng)都有一相同特性,都存在為數(shù)不少的同詞異義(Homonyms,PolysemyorHomophomes)及異詞同義(SynonymorHyponyms)。同詞異義的定義是,同一單詞或詞組,或同音詞組,在不同的語境中,具有完全不同的語義。這些都是任何語言及文字發(fā)展過程中所出現(xiàn)的必然現(xiàn)象。以機(jī)器自動(dòng)認(rèn)知方式區(qū)分這些特性,往往會產(chǎn)生難以解決的歧義問題,特別是要結(jié)合語境判斷正確的語義,此亦是自動(dòng)翻譯系統(tǒng)難于解決的難題。人類在應(yīng)用已熟悉的語言及文字系統(tǒng)時(shí),會根據(jù)歧義詞的上下文語境,判斷正確語義。所以,目前的技術(shù)只能在有限語言或文字范圍內(nèi)認(rèn)知,在局部范圍內(nèi)的語言或文字,出現(xiàn)一詞多義時(shí)不能以自動(dòng)判斷方式來確定符合上下文語境的正確語義。任何拼音文字都是由不同長度的字符串組成,組成結(jié)構(gòu)中沒有類似于漢字部首的分類特性,當(dāng)需要自動(dòng)判斷同名異義詞組的語義時(shí),就會出現(xiàn)模棱兩可的情況。與任何拼音文字完全不同的是,漢字系統(tǒng)從古代到現(xiàn)在,都存在一特點(diǎn),即漢字本身內(nèi)存在著固定的部首系統(tǒng),部首解釋及表示該漢字的屬性,包含有基本語義項(xiàng);例如部首"廣"的語義項(xiàng)是"病理的",部首"水"的語義項(xiàng)是"與水有關(guān)的"及部首"金"的語義項(xiàng)是"與金屬有關(guān)"等。漢字部首的類別發(fā)展至目前,數(shù)量有214個(gè)。漢字由部首及部件組成,只有漢字部首的結(jié)構(gòu)具備語義分類功能,特別是在語義的排歧方面。在絕大部份的語境內(nèi),內(nèi)容上互有關(guān)聯(lián)的,其用于表述的漢字的部首,也會互有關(guān)聯(lián)。例如部首"廣"是有關(guān)病理的,"醫(yī)"是關(guān)于醫(yī)學(xué)科等;這些漢字及詞組通常會在同一語境范圍內(nèi)出現(xiàn)。若漢字內(nèi)容需要判斷歧義詞的含義時(shí),就能以部首的分類原則,排除同音同形但非關(guān)聯(lián)部首的漢字或詞組。任何自然語言及文字系統(tǒng),都能以漢字及詞組對應(yīng)其語義。但目前的漢字編碼方法,都沒有對漢字的部首及語義編碼。另一方面,任何拼音文字及語言系統(tǒng),都會出現(xiàn)極多的異名同義詞,即是語義相同,而拼寫不同的詞。例如英語Britian就有8個(gè)相同語義的字母串,分別為England,UK,U.K.,UnitedKingdom,GB,G.B.,BritianandGreatBritian等;其漢語的相同語義分別是英國、英格蘭、大不列顛及大英帝國等,亦可概括為語義"英國"。到目前為止,尚未有高效率的對同義詞進(jìn)行準(zhǔn)確自動(dòng)獲取的方法。若用戶需搜索異名同義詞時(shí),都必需以多個(gè)不同詞組提出搜索請求,才能獲取最大范圍內(nèi)的搜索結(jié)果。過往的語言及文字搜索模式,都是在相同的文字系統(tǒng)內(nèi)匹配相同語音或文字詞組,再進(jìn)一步通過不同語種的字典,以相同語義進(jìn)行互換從而得到不同自然語言之間的語言表達(dá)。另外,一般的同義詞搜索方法,用戶都需要分別輸入源語言中所有語義相同的詞組,才能匹配出目標(biāo)語言中語義相同的詞組。事實(shí)上,用戶真正需要搜索的是該單一語義本身,但單一語義會存在多個(gè)表達(dá)詞組,這些表達(dá)詞組存在于海量的文字?jǐn)?shù)據(jù)庫內(nèi),要以不同的關(guān)鍵詞逐個(gè)進(jìn)行搜索。任何拼音文字的困難都在于,需要在海量的非結(jié)構(gòu)化文字?jǐn)?shù)據(jù)內(nèi),進(jìn)行上述多個(gè)相同語義的關(guān)鍵詞搜索。若能以單一詞組進(jìn)行同義詞的檢索,將會大大縮小檢索的范圍,提高檢索的效率?,F(xiàn)時(shí)的全文搜索,一般都是按照相同文字進(jìn)行匹配,但事實(shí)上,用戶需要搜索的是某個(gè)特定語義概念,或相關(guān)語義;以越少的漢字詞組對應(yīng)相同語義的同義詞,對數(shù)據(jù)進(jìn)行自動(dòng)認(rèn)知的過程就越高效率。以往少量的數(shù)據(jù),可以用手工方式進(jìn)行結(jié)構(gòu)化分類建立目錄進(jìn)行查找;但以手工分類,會由于操作個(gè)體對語義認(rèn)知的偏差而導(dǎo)致分類歧義。目前人類的文明已累積了極大量的信息數(shù)據(jù),需要以綜合及標(biāo)準(zhǔn)的運(yùn)算原則進(jìn)行自動(dòng)分類及排序。任何數(shù)據(jù)都不是獨(dú)立存在的,而是互有關(guān)聯(lián)的,所以難于以手工方式進(jìn)行絕對一致的分類,需以自動(dòng)方式對隨時(shí)更新的數(shù)據(jù),以最高效率建立最有關(guān)聯(lián)關(guān)系的數(shù)據(jù)結(jié)構(gòu)。過往的文字編碼方法,是以記錄最大范圍的文本信息為目的,但這種編碼方法只能滿足以往對文字處理及貯存的需求。大量的信息組織成為數(shù)據(jù),具有綜合結(jié)構(gòu)化的數(shù)據(jù),才是有用的數(shù)據(jù),才能最寬廣及最深度地進(jìn)行挖掘?,F(xiàn)時(shí)的技術(shù),是以人手方式對相同語義數(shù)據(jù)加入標(biāo)簽,標(biāo)簽後的數(shù)據(jù)自動(dòng)進(jìn)行文本分類及叢集,才能進(jìn)行文字挖掘;叢集結(jié)構(gòu)化或文本數(shù)據(jù)化的功能是建立語義目錄,但拼音文字組成的詞組,詞組與詞組混合使用時(shí)容易產(chǎn)生多義性,自動(dòng)認(rèn)知難于排除歧義。語義數(shù)據(jù)以部首標(biāo)簽方法,能正確表示及區(qū)分語義數(shù)據(jù)與數(shù)據(jù)之間的關(guān)系及屬性。
發(fā)明內(nèi)容本發(fā)明的目的在于提供一種可對任何可用語言或文字表達(dá)的信息源進(jìn)行綜合認(rèn)知的系統(tǒng),以及應(yīng)用該系統(tǒng)實(shí)現(xiàn)檢索,翻譯等功能。本發(fā)明還提供了一種應(yīng)用上述系統(tǒng)對任何自然語言系統(tǒng)進(jìn)行語音認(rèn)知,可以操控的電子機(jī)器。為了綜合達(dá)到上述發(fā)明目的,本發(fā)明采用了以下技術(shù)方案一種全范圍語義信息認(rèn)知系統(tǒng),其特征在于包括一信息接收模塊,用于接收任何一種可被自然語言或文字所表達(dá)的信息源;以及一轉(zhuǎn)譯模塊,將上述信息源根據(jù)語義轉(zhuǎn)譯至語義信息數(shù)據(jù)庫;以及一語義數(shù)據(jù)庫,由漢字詞組構(gòu)成,漢字具有按照部首屬性編碼規(guī)則編碼成可應(yīng)用至計(jì)算機(jī)系統(tǒng)的數(shù)字編碼;以及一輸出模塊,將上述數(shù)字編碼轉(zhuǎn)換并輸出;所述部首屬性編碼規(guī)則是指漢字按照預(yù)定筆畫集合和筆畫順序拆分成至少一個(gè)筆畫、與數(shù)字構(gòu)成的編碼一一對應(yīng),每個(gè)數(shù)字表示l字節(jié),每字節(jié)最多只以3位元(bit)表示。所述預(yù)定筆畫集合由點(diǎn)."、"——代表點(diǎn)類筆畫、短撇"7"——代表短撇及短捺類筆畫、長撇"7"——代表長撇及長捺類筆畫、短劃"-"——代表短橫及短豎類筆畫及長劃"一"——代表長橫及長豎類筆畫組成。為提高系統(tǒng)運(yùn)作效率,限定上述數(shù)字構(gòu)成的編碼為1、2、3、4、5,分別對應(yīng)點(diǎn)."、"、短撇"/"、長撇"7"、短劃"-,,及長劃"一",字型筆畫不足部分以數(shù)字"0"表示。為進(jìn)一步地簡化及明確漢字編碼以提高效率,限定上述漢字根據(jù)字型結(jié)構(gòu)以兩組共6個(gè)數(shù)字,每個(gè)數(shù)字表示l字節(jié),每字節(jié)最多只以3位元(bit)表示。以下為6個(gè)數(shù)字對應(yīng)二進(jìn)制數(shù)字系統(tǒng)的表示方式<table>tableseeoriginaldocumentpage8</column></row><table>為了能對同音、近音歧義詞或同名多義詞進(jìn)行有效排歧及篩選,所述語義數(shù)據(jù)庫內(nèi)設(shè)有若干叢集詞庫分類,以實(shí)現(xiàn)漢字詞組按照部首義項(xiàng)屬性對同一應(yīng)用領(lǐng)域漢字詞組的叢集及分類,應(yīng)用所述叢集詞庫對多義詞進(jìn)行部首義項(xiàng)關(guān)系匹配比較,篩選出符合匹配關(guān)系的詞組。進(jìn)一步地,上述接收模塊可接收感官信息或動(dòng)作信息數(shù)據(jù)轉(zhuǎn)換為漢字詞組的文字信息,并表達(dá)成可被計(jì)算機(jī)讀取的數(shù)字編碼。最有效率的數(shù)據(jù)搜索,是需要數(shù)據(jù)本身先以字母數(shù)字或字符組合的順序排列,然後進(jìn)行搜索及匹配;新發(fā)明以漢字詞組對任何信息語義進(jìn)行認(rèn)知,即是對應(yīng)任何語義數(shù)據(jù),每個(gè)漢字符號分別以不同部首或部件組成,每個(gè)部件以不同筆劃組成。新發(fā)明以最少的筆劃型態(tài)對應(yīng)不同部首或部件的分組編碼,以筆劃對應(yīng)不同數(shù)字,每個(gè)數(shù)字為l字節(jié),每種筆劃型態(tài)最多只有3位元(bit)的數(shù)據(jù)長度,每個(gè)漢字最少只有6個(gè)字節(jié)組成,且是固定長度數(shù)據(jù)編碼組合,與拼音文字的非固定長度數(shù)據(jù)進(jìn)行排序比較,效率肯定是最快。現(xiàn)在每天都湧現(xiàn)大量的電子數(shù)據(jù)信息,在數(shù)據(jù)庫內(nèi)有任何新的數(shù)據(jù)出現(xiàn),都需要進(jìn)行更新、插入及排序,永遠(yuǎn)是需要重復(fù)這些運(yùn)算過程,所以高效率的綜合編碼排序方法是必需的。新發(fā)明以漢字詞組對應(yīng)任何自然語言及文本的語義信息,任何語義都能以此最少綜合數(shù)據(jù)組合的分組編碼進(jìn)行高速排序。新發(fā)明以漢字詞組對應(yīng)任何自然語言及文本信息,漢語是自然語言的一種,漢字系統(tǒng)內(nèi)具備部首系統(tǒng),任何漢字詞組都能以部首屬性進(jìn)行自動(dòng)分類及叢集,任何自然語言及文本信息數(shù)據(jù)都能對應(yīng)漢字詞組進(jìn)行自動(dòng)認(rèn)知,自動(dòng)排除歧義完成正確的語義認(rèn)知過程。以往的語言及文字翻譯系統(tǒng),被翻譯的原文內(nèi)容在語義上出現(xiàn)多重歧義,自動(dòng)方式難于判斷歧義詞組與上下文語境的關(guān)聯(lián)關(guān)系;新發(fā)明對于任何自然語言及文本信息,自動(dòng)翻譯為任何自然語言及文本信息,在內(nèi)容上出現(xiàn)多重語義的情況,都能對應(yīng)漢字詞組,以部首的分類屬性,正確的自動(dòng)判斷語境中出現(xiàn)歧義的語義。人類的認(rèn)知方式,除了通過語言和文字以外,還會以視覺、聽覺、味覺和感官實(shí)現(xiàn),例如視覺上看見紅色,心理上浮現(xiàn)的語義有熱情、危險(xiǎn)和停止等;通過聽覺能分辨悠閑、悅耳、輕快或嘈吵等;味覺上亦會理解到甜、酸、苦、辣等;身體的感官知覺受壓亦能分辨出是輕壓還是痛打。以上這些感官通過不同的電子系統(tǒng)擷取後,一般都會以數(shù)字作為語義數(shù)據(jù)貯存,新發(fā)明能夠以不同的數(shù)字?jǐn)?shù)據(jù)所表示的感官信息以適當(dāng)?shù)臐h字詞組與之對應(yīng)。例如目前顏色的數(shù)字化,都以三原色(R,G,B)表示;"255,0,0"表示為紅色,可對應(yīng)的漢字詞組編碼為"紅色","0,255,0"表示為綠色,可對應(yīng)的漢字詞組編碼為"綠色"等。人類還會以其他途徑進(jìn)行溝通,例如表情、手勢及肢體動(dòng)作等,自動(dòng)認(rèn)知系統(tǒng)擷取表情需要對應(yīng)語義表示;例如面部的唇形向上露齒等的表情語義,是對應(yīng)漢字詞組"笑",人類點(diǎn)頭的動(dòng)作語義對應(yīng)漢字詞組"允許"或"贊成",肢體方面,左右兩手掌輕力互拍,表示的語義對應(yīng)為漢字詞組"拍掌"、"欣賞"或"歡迎"等。新發(fā)明通過電子系統(tǒng)擷取各種信息的數(shù)字?jǐn)?shù)據(jù),對應(yīng)漢字詞組語義,能進(jìn)行綜合理解及認(rèn)知,然後以綜合數(shù)據(jù);模擬方式作出回應(yīng)。本發(fā)明的漢字符號編碼系統(tǒng)及方法以分組數(shù)字編碼表示,單一漢字符號的其中一組數(shù)字對應(yīng)不同部首屬性,系統(tǒng)就能以不同部首屬性進(jìn)行語義認(rèn)知。任何自然語言及文字等語義信息要成為高效率的搜索數(shù)據(jù),需要信息高度結(jié)構(gòu)化,以最少的數(shù)據(jù)量達(dá)至最準(zhǔn)確的分類。新發(fā)明利用漢字的部首屬性對全范圍語義信息進(jìn)行分類,人類的知識本身是以不同的類別呈現(xiàn),而呈現(xiàn)的方式都是以文字固定下來。不同的知識領(lǐng)域包含特定語義,在漢字系統(tǒng)內(nèi),特定語義有特定部首表示,如關(guān)于醫(yī)學(xué)科的部首有"廣","醫(yī)"及"月"等。所對應(yīng)的漢字有"病","醫(yī)"及"腫"等。所述語義數(shù)據(jù)庫會以部首屬性對不同知識領(lǐng)域進(jìn)行有效叢集及分類。本發(fā)明能以漢字詞組對應(yīng)不同詞組搜索請求,集中搜索語義本身,就能以相同關(guān)聯(lián)語義方式得出相同語義結(jié)果。機(jī)械及電子機(jī)器的出現(xiàn),已體現(xiàn)在各種各樣的生活應(yīng)用需求上,但到目前為止,只能以局部范圍的語音信息能表示為少數(shù)指令集,進(jìn)行認(rèn)知及操控。不能進(jìn)行全范圍語義信息認(rèn)知的原因是任何自然語言語音的重復(fù)性,即同音字詞數(shù)量太多,出現(xiàn)太多歧義,不能轉(zhuǎn)換為唯一指令進(jìn)行準(zhǔn)確操控。人類一直以來都希望能實(shí)現(xiàn)全范圍自然語言操控機(jī)器運(yùn)作,但侷限于認(rèn)知全范圍語音因同音及近音詞組,容易出現(xiàn)認(rèn)知上的錯(cuò)誤。目前的技術(shù),只能進(jìn)行局部范圍自然語言的認(rèn)知運(yùn)作上,例如通過語音査詢天氣、票務(wù)或銀行賬戶等;轉(zhuǎn)換為正確指令,進(jìn)行數(shù)據(jù)的存取過程,或進(jìn)一步以指令轉(zhuǎn)換為已予設(shè)的電子機(jī)械動(dòng)作。本發(fā)明能對人類全范圍語義信息,包括任何自然語言及文字語義信息,進(jìn)行準(zhǔn)確認(rèn)知,并表示及對應(yīng)為指令操控機(jī)械及電子機(jī)器。實(shí)現(xiàn)全范圍語音指令的可能,并能以部首屬性編碼,組織及叢集相關(guān)語義,作出相關(guān)回應(yīng),此亦是機(jī)器人能以相關(guān)范圍思考學(xué)習(xí)的實(shí)現(xiàn)方法。圖1是全范圍語義認(rèn)知系統(tǒng)結(jié)構(gòu)示意圖。圖2a是漢字筆劃形態(tài)與數(shù)字編碼對應(yīng)關(guān)系圖。圖2b是漢字筆劃的數(shù)字編碼示例圖。圖3是語義排歧工作流程圖。圖4a是實(shí)施例中自然語言的輸入內(nèi)容。圖4b是對圖4a文字輸入內(nèi)容中的關(guān)鍵詞進(jìn)行部首義項(xiàng)分析。圖4c是關(guān)鍵詞的部首編碼與詞組的對應(yīng)關(guān)系。圖5是實(shí)施例3中漢字詞組與英語同義詞的對應(yīng)關(guān)系示意圖。圖6是關(guān)鍵詞以筆劃對應(yīng)分組數(shù)字編碼示意圖。具體實(shí)施例方式現(xiàn)結(jié)合附圖進(jìn)一步對本發(fā)明的實(shí)施例進(jìn)行說明及解釋,本發(fā)明的特點(diǎn)、目的和優(yōu)點(diǎn)將變得更加明顯。本處所描述的實(shí)施例僅用于說明和解釋本發(fā)明,并不因此而限定本發(fā)明。如圖1所示為本認(rèn)知系統(tǒng)結(jié)構(gòu),包括信息接收模塊12,轉(zhuǎn)譯模塊13,語義數(shù)據(jù)庫14,輸出模塊15。全范圍語義信息ll,包括任一種自然語言及文字信息111,如漢語、英語、德語、西班牙語、日語等語種的語音及文字;或者可用任一種自然語言及文字表達(dá)的信息,如視覺、聽覺、味覺等感官信息112;以及表情、手勢、肢體動(dòng)作等動(dòng)作信息113;通過信息接收模塊12輸入計(jì)算機(jī)系統(tǒng)中。接收模塊可包括多類別的接收及數(shù)據(jù)輸入裝置,可將聲音、動(dòng)作、感官等信息接收并最終以文字方式表達(dá)。接收及數(shù)據(jù)輸入裝置可采用現(xiàn)有的裝置,在此不作贅述o語言或文字信息通過轉(zhuǎn)譯模塊13,根據(jù)語義轉(zhuǎn)譯至語義信息數(shù)據(jù)庫14。語義數(shù)據(jù)庫14由漢字詞組構(gòu)成。語義數(shù)據(jù)庫內(nèi)的漢字按照部首屬性編碼規(guī)則編碼成可應(yīng)用至計(jì)算機(jī)系統(tǒng)的數(shù)字編碼。部首屬性編碼規(guī)則是指漢字按照預(yù)定筆畫集合和筆畫順序拆分成至少一個(gè)筆畫、與數(shù)字構(gòu)成的編碼一一對應(yīng)。編碼后通過輸出模塊15進(jìn)行轉(zhuǎn)換及輸出模擬數(shù)據(jù),以實(shí)現(xiàn)檢索或翻譯等功能。該預(yù)定筆畫集合由點(diǎn)."、"一一代表點(diǎn)類筆畫、短撇"爿"一一代表短撇及短捺類筆畫、長撇"乂"一一代表長撇及長捺類筆畫、短劃"-"一一代表短橫及短豎類筆畫及長劃"一"——代表長橫及長豎類筆畫組成。具體地來說,是以1、2、3、4、5作為數(shù)字編碼,分別對應(yīng)點(diǎn)."、,,、短撇"/"、長撇"乂"、短劃"-"及長劃"一"五種筆劃型態(tài)。當(dāng)漢字筆畫不足時(shí),不足部分以數(shù)字"0"表示。漢字字型在形式分類上,分為橫排和豎排兩種;而在字形結(jié)構(gòu)上分為單體字及合體字兩種,每個(gè)漢字皆以兩組數(shù)字組合進(jìn)行編碼。因此,每個(gè)漢字根據(jù)字型結(jié)構(gòu)以兩組共6個(gè)數(shù)字字節(jié)組成表示。筆劃型態(tài)組合編碼只有6個(gè),轉(zhuǎn)為二進(jìn)制數(shù)字表示,每筆劃數(shù)據(jù)長度為最多3位元,每個(gè)漢字?jǐn)?shù)據(jù)長度為18位元?,F(xiàn)以實(shí)例解釋上述漢字編碼規(guī)則。實(shí)施例1如圖2a所示,為五種漢字筆劃形態(tài)"、"、"乂"、"乂,,、"-"、"一,,,分別以1、2、3、4、5編碼,筆劃不足的編以數(shù)字0,一共為6個(gè)數(shù)字。如圖2b所示,以漢字"我"為例,"我"字為單體字,首部件筆劃順序編碼為255,"我"字沒有次部件,因此編碼為000,完整分組編碼即為255'000。又以"統(tǒng)"為例,首部件筆劃順序編碼為222,次部件編碼為142,整字分組編碼即為222.142。為簡化輸入及提高操作效率,本發(fā)明制定的規(guī)則中,五種漢字筆劃形態(tài)分別是以1、2、3、4、5作為編碼的,筆劃不足的編以數(shù)字0。但若以另外6個(gè)數(shù)字,甚至以字母字符來編碼各漢字筆劃形態(tài),亦不違背本發(fā)明的精神,應(yīng)視為在本發(fā)明的保護(hù)范圍之內(nèi)。目前被廣泛應(yīng)用的自然語言及文字系統(tǒng),都存在歧義問題,分別存在于同音詞組及同義詞組內(nèi)。以任何一種自然語言及文字系統(tǒng)的同音詞組,對應(yīng)不同的漢字詞組,不同的漢字詞組具備不同的部首義項(xiàng)屬性,艮P:同音詞組A—漢字詞組A—部首義項(xiàng)集1同音詞組B—漢字詞組B—部首義項(xiàng)集2同音詞組n—漢字詞組n—部首義項(xiàng)集n在語義數(shù)據(jù)庫14內(nèi)設(shè)有若干叢集詞庫141,漢字詞組按照部首義項(xiàng)對同一應(yīng)用領(lǐng)域的漢字詞組進(jìn)行叢集及分類,如醫(yī)學(xué)、法學(xué)、建筑學(xué)、經(jīng)濟(jì)學(xué)、美學(xué)及天文學(xué)等等。這相當(dāng)是應(yīng)用了漢字部首特有的標(biāo)簽分類功能,能對同音、近音歧義詞及同名異義詞進(jìn)行排歧及篩選,從而確定符合匹配關(guān)系的詞組。該排歧篩選過程可見圖3所示的流程。步驟301表示,任何一種自然語言或文字在文字輸入時(shí),語義內(nèi)容出現(xiàn)了歧義,即一詞多義,如同音、近音歧義詞或同名異義詞。步驟302表示,對上述多義詞的各個(gè)語義通過轉(zhuǎn)譯模塊對應(yīng)為漢字詞組認(rèn)知信息數(shù)據(jù)庫14內(nèi)的不同語義的漢字詞組。步驟303表示,各不同語義的漢字詞組存在著不同的部首義項(xiàng)屬性,可以數(shù)字編碼的形式進(jìn)行提取。步驟304表示,對于歧義的各語義詞組需與上下文的語義關(guān)系進(jìn)行匹配比較,實(shí)際上即是以部首義項(xiàng)與上下文的部首義項(xiàng)進(jìn)行語義匹配。步驟305表示,先進(jìn)行上文部首義項(xiàng)關(guān)系屬性的匹配比較。步驟306表示,然後進(jìn)行下文部首義項(xiàng)關(guān)系屬性的匹配比較。步驟307表示,歧義詞組的多個(gè)語義部首義項(xiàng)匹配規(guī)則是優(yōu)先選擇上下文語義的部首義項(xiàng)最大關(guān)聯(lián)語義者作為匹配語義?,F(xiàn)以具體實(shí)例解釋上述流程。實(shí)施例2任何自,然語言系統(tǒng)內(nèi)都存在同名異義,同音、近音歧義的情況,即具有著相同或相近的字母拼寫的詞語有著完全不同的語義,當(dāng)轉(zhuǎn)換為電子數(shù)據(jù)進(jìn)行語義識別時(shí),就會出現(xiàn)歧義問題。如圖4a所示,輸入一段英語文字內(nèi)容。如圖4b所示,對這段文字內(nèi)容的多個(gè)關(guān)鍵詞進(jìn)行部首義項(xiàng)分析。在這段文字內(nèi)容中含有同名多義詞"cancer"。英語單詞"Cancer"在不同的語境內(nèi),具有完全不同的語義;語境與醫(yī)學(xué)有關(guān)的,其語義為癌病、癌癥及腫瘤等;當(dāng)語境與星相學(xué)有關(guān)時(shí),其語義為巨蟹座。語音內(nèi)容對應(yīng)為漢字語義詞組時(shí),例如名詞"Cancer"就會出現(xiàn)兩種不同語義。"Cancer"有多個(gè)語義,如"癌癥",對應(yīng)部首為"廣廣";腫瘤,對應(yīng)部首為"月廣";"巨蟹座",對應(yīng)部首為"匚蟲廣",見圖4b的402。上文"hospital"語義為"醫(yī)院"。"醫(yī)"的部首是"醫(yī)",見401。下文"patient"語義為"病人","病"的部首義項(xiàng)是"廣"。如圖4c所示,上述部首義項(xiàng)的編碼分別為555及153,在部首叢集詞庫內(nèi),"醫(yī)"部與"廣"屬于與醫(yī)學(xué)有關(guān)的,叢集于同一詞庫內(nèi),因此"cancer"在此語境內(nèi)會自動(dòng)判斷為與病理有關(guān)的語義,排除另一語義"巨蟹座"。同理,"treatment"對應(yīng)的漢字詞組是"療法"或"處理","療法"的部首分別是"廣"與"?";"處理"的部首分別是"夂"與"王"。通過上下文匹配關(guān)系自動(dòng)判斷為"療法"。一般的關(guān)鍵詞搜索過程,都是以關(guān)鍵詞的拼寫形式或書寫方式在數(shù)據(jù)庫內(nèi)進(jìn)行搜索及匹配。當(dāng)同一語義有多個(gè)表達(dá)方式時(shí),要搜索出該語義的相關(guān)文獻(xiàn),就必須要把所有的拼寫表達(dá)方式都分別輸入,過程變得復(fù)雜、緩慢、低效。新發(fā)明以漢字語義詞組對應(yīng)任何自然語言的語義,根據(jù)唯一的語義進(jìn)行搜索,大大減小搜索數(shù)據(jù)量,有效地提高操作效率?,F(xiàn)以具體例子加以說明。實(shí)施例3如圖5所示,501列出與Britian具有相同語義的字母串組合,包括England,UK,U.K.,UnitedKingdom,GB,G.B.,BritianandGreatBritian等。當(dāng)需要搜索含有"英國"含義的英文相關(guān)文獻(xiàn)時(shí),由于不確切該文獻(xiàn)中"英語"的拼寫表達(dá)方式,可能是England,UK,U.K.,UnitedKingdom,GB,G.B.,BritianandGreatBritian的任何一種,因此可能需要分別輸入以上所有的表達(dá)方式才能找到所需文獻(xiàn)。502表示上述各種拼寫所表達(dá)的語義是唯一的,對應(yīng)為漢字詞組即為"英國"。如圖6所示,"英國"所對應(yīng)的數(shù)字編為554.454和555.545。每個(gè)漢字以6個(gè)數(shù)字字節(jié)表示,每個(gè)字節(jié)為3位元,所以6字節(jié)的位元數(shù)量為18位元。503表示以漢字語義詞組數(shù)據(jù)庫綜合對語義信息進(jìn)行搜索。因此,應(yīng)用本法進(jìn)行關(guān)鍵詞搜索時(shí),只需要搜索"英國"的數(shù)字編碼555.531,相關(guān)語義的詞組都能一并出現(xiàn),減少關(guān)鍵詞冗余列表數(shù)量,檢索過程大為簡化,數(shù)據(jù)量也大大減小。實(shí)施例4人類一直以人手、完整邏輯指令集及希望以語音操控電子機(jī)器。本發(fā)明對人類全范圍語義信息,包括任何自然語言及文字語義信息,進(jìn)行準(zhǔn)確認(rèn)知,并表示及對應(yīng)為指令操控機(jī)械及電子機(jī)器。實(shí)現(xiàn)全范圍語音指令的可能,并能以部首屬性編碼,組織及叢集相關(guān)語義,作出相關(guān)回應(yīng),此亦是機(jī)器人能以相關(guān)范圍思考學(xué)習(xí)的實(shí)現(xiàn)方法。權(quán)利要求1、一種全范圍語義信息綜合認(rèn)知系統(tǒng),其特征在于包括一信息接收模塊,用于接收任何一種可被自然語言或文字所表達(dá)的信息源;以及一轉(zhuǎn)譯模塊,將上述信息源根據(jù)語義轉(zhuǎn)譯至語義信息數(shù)據(jù)庫;以及一語義數(shù)據(jù)庫,由漢字詞組構(gòu)成,漢字按照部首屬性編碼規(guī)則編碼成可應(yīng)用至計(jì)算機(jī)系統(tǒng)的數(shù)字編碼;以及一輸出模塊,將上述數(shù)字編碼轉(zhuǎn)換并輸出;所述部首屬性編碼規(guī)則是指漢字按照預(yù)定筆畫集合和筆畫順序拆分成至少一個(gè)筆畫、與數(shù)字構(gòu)成的編碼一一對應(yīng),每數(shù)字為1字節(jié),每字節(jié)最多為3位元(bit)編碼表示。2、根據(jù)權(quán)利要求1所述的系統(tǒng),其特征在于所述預(yù)定筆畫集合由點(diǎn)."、"_一代表點(diǎn)類筆畫、短撇"〃"一_代表短撇及短捺類筆畫、長撇"7"一一代表長撇及長捺類筆畫、短劃"-"一一代表短橫及短豎類筆畫及長劃"一"一一代表長橫及長豎類筆畫組成。3、根據(jù)權(quán)利要求2所述的系統(tǒng),其特征在于所述數(shù)字構(gòu)成的編碼為1、2、3、4、5,分別對應(yīng)點(diǎn)."、"、短撇"^"、長撇"乂"、短劃"-,,及長劃"一",字型筆畫不足部分以數(shù)字"0"表示。4、根據(jù)權(quán)利要求1或2或3所述的系統(tǒng),其特征在于所述漢字根據(jù)字型結(jié)構(gòu)以兩組共6個(gè)數(shù)字字節(jié),每字節(jié)最多為3位元(bit)編碼表示。5、根據(jù)權(quán)利要求1所述的系統(tǒng),其特征在于所述語義數(shù)據(jù)庫內(nèi)根據(jù)漢字部首分類功能設(shè)有知識分類叢集詞庫,以實(shí)現(xiàn)漢字詞組按照部首義項(xiàng)屬性對同一應(yīng)用領(lǐng)域漢字詞組的叢集及分類,應(yīng)用所述叢集詞庫對多義詞進(jìn)行部首義項(xiàng)屬性關(guān)系匹配比較,判斷出符合匹配關(guān)系的詞組。6、根據(jù)權(quán)利要求1所述的系統(tǒng),其特征在于所述接收模塊接收感官信息數(shù)據(jù)轉(zhuǎn)換為漢字詞組的文字信息,并表達(dá)成可被計(jì)算機(jī)讀取的數(shù)字編碼。7、根據(jù)權(quán)利要求1所述的系統(tǒng),其特征在于所述接收模塊接收動(dòng)作信息數(shù)據(jù)轉(zhuǎn)換為漢字詞組的文字信息,并表達(dá)成可被計(jì)算機(jī)讀取的數(shù)字編碼。8、應(yīng)用權(quán)利要求1所述的系統(tǒng)進(jìn)行任何語言及文字系統(tǒng)信息數(shù)據(jù)的結(jié)構(gòu)化處理。9、應(yīng)用權(quán)利要求1所述的系統(tǒng)進(jìn)行任何自然語言及文字系統(tǒng)的互譯。10、一種應(yīng)用權(quán)利要求1所述的系統(tǒng)對任何自然語言系統(tǒng)進(jìn)行語音操控的電子機(jī)器。全文摘要本發(fā)明公開了一種全范圍語義信息認(rèn)知系統(tǒng),包括一信息接收模塊,用于接收任何一種可被自然語言或文字所表達(dá)的信息源;以及一轉(zhuǎn)譯模塊,將上述信息源根據(jù)語義轉(zhuǎn)譯至語義信息數(shù)據(jù)庫;以及一語義數(shù)據(jù)庫,由漢字詞組構(gòu)成,漢字具有按照部首屬性編碼規(guī)則編碼成可應(yīng)用至計(jì)算機(jī)系統(tǒng)的數(shù)字編碼;以及一輸出模塊,將上述數(shù)字編碼轉(zhuǎn)換并輸出。本發(fā)明可對任何一種可用語言或文字表達(dá)的信息源進(jìn)行綜合認(rèn)知,可通過電子系統(tǒng)擷取各種信息的數(shù)字?jǐn)?shù)據(jù),對應(yīng)漢字詞組語義,能進(jìn)行綜合理解及認(rèn)知,然后以綜合數(shù)據(jù)、模擬方式作出回應(yīng)。本系統(tǒng)應(yīng)用于語言及文字的翻譯及檢索等領(lǐng)域,速度和效率均可大幅度提高。文檔編號G06F17/28GK101408873SQ200710030770公開日2009年4月15日申請日期2007年10月9日優(yōu)先權(quán)日2007年10月9日發(fā)明者勞英杰申請人:勞英杰