本發(fā)明涉及用于例如視覺模式的模式識別的方法和設備。本發(fā)明的一個應用為用于皮膚病學的應用。
背景技術:
人工神經網絡(ANN)是計算模型并且由動物中樞神經系統(tǒng),特別是腦而啟發(fā),其具有機械學習和模式識別的能力。人工神經網絡通常呈現為由“突觸”連接的節(jié)點或“神經元”的系統(tǒng),其通過從輸入通過ANN提供信息可以計算來自輸入的值。突觸是這樣的機構,通過該機構,神經元中的一個將信號傳遞到神經元中的另一個。
ANN的一個例子是用于識別筆跡。一組輸入神經元可通過表示字母或數字的輸入圖像的照相機中的像素被激活。隨后這些輸入神經元的激活被傳遞、加權并通過ANN的設計者確定的一些函數而轉變?yōu)槠渌窠浽龋钡阶詈筝敵錾窠浽患せ?,其確定被成像的哪個字符(字母或數字)。ANN已經用于解決各種各樣的使用普通的基于規(guī)則的程序難以解決的任務,包括計算機視覺和語音識別。
ANN沒有單獨且正式的定義。通常一類統(tǒng)計模型如果該類由一系列自適應權重(由學習算法調整的數值參數)組成,并能夠近似為統(tǒng)計模型的輸入的非線性函數,則這類統(tǒng)計模型將被稱為“神經”。自適應權重可以被認為是神經元之間的連接(突觸)的強度。
ANN必須被訓練以產生可理解的結果。有三個主要的學習范型:監(jiān)督學習、非監(jiān)督學習和強化學習。
在監(jiān)督學習中,學習范例共同具有例如一組圖像的一組預先分析的數據,其由ANN分析并且ANN中的神經元之間的連接(突觸)的權重適于使得ANN的輸出與已知圖像相關。有涉及該訓練的成本。ANN的結果的效率的提高可通過在訓練組使用更大數量的數據項而獲得。然而,所需要的項的數量越大,為了得到正確的結果進行分析的計算能力和時間將增加。因此需要在訓練ANN花費的時間和結果的準確性之間建立權衡。
人工神經網絡的最新發(fā)展包括所謂的“深度學習”。深度學習是試圖使用輸入的分層模型的一組算法。Jeffrey Heaton,多倫多大學,在發(fā)表在認知科學趨勢(Trends in Cognitive Sciences)2007年第11卷,第10期,第428至434頁的題為“學習表征的多層次(Learning Multiple Layers of Representation)”的綜述文章中討論了深度學習。該公開描述了含有上下連接并且在多層神經網絡的訓練的同時產生傳感數據,而不是僅僅進行分類數據的多層神經網絡。
現有技術的ANN中的神經元活性被計算為一系列離散時間的步驟,而不是通過使用連續(xù)參數。神經元的活性水平通常由所謂的“活性值”限定,它被設定為0或1,其描述了在時間步長t的“動作電位”。神經元之間的連接,即突觸,用通常選擇具有在區(qū)間[-1.0,+1.0]中的值的加權系數來加權。加權系數的負值代表“抑制性突觸”并且加權系數的正值表示“刺激性值”。ANN中的活性值的計算使用簡單的線性求和模型,其中在神經元處的突觸上接收的加權的一些或全部活動的輸入,與神經元(固定的)閾值比較。如果求和結果大于所述閾值,下面的神經元被激活。
在國際專利申請?zhí)朩O 199 8027 511(Geiger)中描述了學習系統(tǒng)的一個實施例,其教導了不論大小或位置檢測圖像特性的方法。該方法包括使用多個信號生成裝置,其輸出以使用非線性組合的函數評價特性的形式表征圖像信息。
國際專利申請?zhí)朩O 2003 017252涉及用于識別語音聲音序列或字符序列的方法。語音聲音序列或字符序列首先供給到神經網絡,并且通過考慮存儲的語音和/或詞匯信息由語音序列或字符序列形成特征的序列,其基于字符串序列。該裝置通過使用已經預先編程的大量知識存儲而識別語音字符序列。
Hans Geiger和Thomas Waschulzak發(fā)表在Informatik-Fachreichte,Springer-Verlag,1990年,第143-152頁的一篇題為“結構聯結系統(tǒng)的理論與應用”(Theorie und Anwen-dung strukturierte konnektionistische Systeme)的文章還描述了神經網絡的實現。該文章的ANN的神經元具有0和255之間的活性值。神經元的每一個的活性值隨時間改變,使得即使至神經元的輸入保持不變。神經元的輸出活性值會隨時間而改變。該文章教導了節(jié)點中的任一個的活性值至少部分地依賴較早活動的結果的概念。文章還包括系統(tǒng)可開發(fā)的方式的簡要細節(jié)。
技術實現要素:
本公開所描述的模式識別的方法和設備的原理基于所謂的生物學-激發(fā)神經網絡(BNN)。BNN中的神經元中的任一個的活性模擬為生物物理過程。神經元的基本神經屬性是“膜電壓”,這在(濕的)生物學中受膜中的離子通道影響。神經元的動作電位依賴于該膜電壓而產生,但是還包括一個隨機(任意)成分,其中僅計算動作電位的概率。動作電位本身以任意方式生成。該膜在生物學上具有一些額外的電-化學性質的影響,諸如絕對和相對不應期、適應和增感,其自動地包含在本公開的BNN中。
從神經元的一個傳遞到神經元的另一個的基本信息不僅是動作電位(或激發(fā)率,將在下文描述),而且為動作電位的時間依賴模式。動作電位的此時間依賴模式被描述為單獨的尖峰脈沖模型(SSM)。這意味著,來自神經元中的任何兩個的輸入之間的相互作用比活動的簡單的線性求和更加復雜。
神經元(突觸)之間的連接可具有不同的類型。突觸不僅僅是接近刺激的或棲息的(ANN就是這種情況),也可能有其它的特性。例如,連接單個的神經元的樹突樹的拓撲也可以被考慮。來自在樹突樹中的樹突上的兩個輸入神經元的突觸的相對位置也可以對兩個神經元之間的方向產生很大影響。
本公開的方法和設備可以在皮膚疾病和皮膚狀況的確定中使用。
附圖說明
圖1示出了本公開的系統(tǒng)的實施例。
具體實施方式
本發(fā)明在附圖的基礎上描述。應當理解的是,本文中所描述的本發(fā)明的實施例和方面僅僅為示例,并且不以任何方式限定權利要求的保護范圍。本發(fā)明由權利要求及其等同物限定。應該理解的是,本發(fā)明的一個方面或實施方式的特征可以與本發(fā)明的不同的一個或多個方面和/或實施方式的特征相結合。
圖1示出了本發(fā)明的模式識別系統(tǒng)10的第一實施例。模式識別系統(tǒng)10具有多個傳感器20,其具有接收來自模式15的信號的傳感器輸入25。模式15可以為視覺模式或者聽覺模式。因此傳感器輸入25可以為光波或者聲波,并且多個傳感器20可以為例如麥克風的聽覺傳感器,或者例如視頻或者靜物照像機的視覺傳感器。
傳感器20產生傳感器輸出,其作為至多個第一激活細胞30的第一輸入32。第一激活細胞30以一對一的關系與傳感器20連接或者以一對多的關系與傳感器20連接。換句話說,第一激活細胞30中的一個連接至一個或者多個傳感器20。連接的數量取決于傳感器20的數量,例如照相機中的像素的數量,以及第一激活細胞30的數量。在本發(fā)明的一個方面中,有來自視頻照相機的四個像素,形成傳感器20,并且該四個像素通常地連接至第一激活細胞30中的一個。
第一激活細胞30具有第一輸出37,其包括以輸出頻率發(fā)射的多個尖峰脈沖。在“休息模式”中,即,在第一輸入32上沒有來自傳感器20的傳感器信號,第一激活細胞30以示例的200Hz的輸出頻率產生多個尖峰脈沖。因此,第一激活細胞30為單個尖峰脈沖模型的實施例。取決于來自傳感器20的傳感器信號的強度,第一輸入32上的傳感器信號的施加增加輸出頻率,例如高至400Hz。在本發(fā)明的一個方面中,傳感器信號在第一輸入32處的施加和移除大致立即地改變輸出頻率。由此,第一激活細胞30幾乎立即對模式15中的改變作出反應。
多個第一激活細胞30以多對多的關系與多個第二激活細胞40連接。為簡潔起見,圖1中僅示出了第二激活細胞40中的一個與示例性數量的第一激活細胞30之間的連接。經歷一段時間后,來自第一激活細胞中的連接的那些的第一輸出37在連接的第二激活細胞40處相加。
輸出37的值也被合并,使得來自(在這種情況下)三個中心第一激活細胞30的輸出37’被添加,而來自第一激活細胞30的外部的那些的輸出37”從總輸出37減去。換句話說,中心三個傳感器20’正向地促成在第二激活細胞40的輸入42處接收的信號,而來自外部的傳感器20”的信號被減去。這個加/減的效果為包括單一的、不變的可見形狀和顏色的模式15將例如激活第一激活細胞30中的至少一些,但不激活第二激活細胞40,因為來自第一激活細胞30的輸出信號37將彼此抵消。應該理解的是,三個中心第一激活細胞30和外部的那些第一激活細胞30僅為示例??梢允褂酶鄶盗康牡谝患せ罴毎?0。
輸出37’和37”僅為輸出37可以被常規(guī)地合并的方式中的一個示例。在說明書的引言中解釋的,神經元或激活細胞之間的連接(突觸)一般不在線性求和模型中結合,而具有隨機成分。在其中第一激活細胞30連接至傳感器20和第二激活細胞40的本發(fā)明的此隨機方面僅為本發(fā)明的一個方面。對于本發(fā)明的使用情況,連接可以酌情修改。
第二激活細胞40具有不同的激活水平和響應時間。第二激活細胞40還以一定的頻率產生尖峰脈沖,并且該頻率取決于輸入信號42處的尖峰脈沖的頻率而增加。第二激活細胞40的輸出頻率和輸入信號42的輸入頻率之間沒有一對一的關系。通常,輸出頻率將隨輸入信號42的增加而增加并且在閾值處飽和。依賴關系從一個第二激活細胞40改變至另一個第二激活細胞40,并且具有隨機或任意成分。第二激活細胞40的響應時間也改變。部分的第二激活細胞40對輸入信號42的改變幾乎立即地作出反應,而其他的第二激活細胞40在第二激活細胞作出反應之前需要一些時間。部分的第二激活細胞40轉而休息并且當輸入信號42被移除時,不發(fā)出具有增加的尖峰脈沖頻率的第二輸出信號47,而即使輸入信號42被移除,其他的第二激活細胞40仍舊被激活。由此,第二激活細胞40的激活持續(xù)時間跨越多個激活細胞40而改變。第二激活細胞40還具有“記憶”,其中他們的激活潛能取決于激活潛能的在先值。激活潛能的在先值由衰退因子進一步衡量,使得第二激活細胞40的較新的激活比所有的更強烈地影響激活潛能。
第二輸出47被傳遞至設置在多個層80中的多個第三激活細胞70。多個層80的每個包括中間層85,其連接至第二輸出47和一個或多個另外的層87,一個或多個另外的層87連接至層87的另一些中的第三激活細胞70。在附圖的示例中,僅示出五個層80,但其僅為說明性的。在本發(fā)明用于視覺模式15的識別的一個方面中,呈現了七個層。同樣可以具有更多數量的層80,但是這會增加所需的計算功率量。
第二輸出47以多對多的關系與第二激活細胞40連接。
與針對第二激活細胞40所討論的類似,第三激活細胞70也具有不同的激活水平和不同的激活時間。第二激活細胞40的功能是識別模式15中由傳感器20識別的特征,而第三激活細胞70的功能是對特征的組合進行分類。
在層80的一個中的第三激活細胞70以多對多的關系與層80中的另一個中的第三激活細胞70連接。在不同層80中的第三激活細胞70之間的連接這樣設置,使得一些連接是正向的且彼此增強,而其他的連接為反向的且彼此削弱。第三激活細胞70也有尖峰脈沖輸出,其的頻率取決于它們的輸入的值。
第三激活細胞70與第二激活細胞40的輸出之間還有反饋回路,其用作自控機制。第三激活細胞70和第二激活細胞之間的反饋基本上用于區(qū)分模式15中的不同的特征,并減少重疊信息。這是通過使用反饋機制以首先加強與模式15中的特定特征相關的第二激活細胞40以允許特征被正確地處理和識別而完成的。隨后反饋減少用于識別的特征的第二激活細胞40的輸出,并且加強與另一特征相關的第二激活細胞的值。隨后,該另一特征可被識別。為了解決模式15中的任一重疊特征,該反饋是必要的,否則將導致不正確的分類。
模式識別系統(tǒng)10進一步包括用于輸入與模式15相關的信息項95的輸入裝置90。信息項可包括一般地接附至模式15和/或接附至模式15中的一個或多個特征的名稱或者標簽。輸入裝置90連接至處理器100,其還接受第三輸出77。該處理器將與特定的顯示的模式15相關的第三輸出77和輸入的信息項95作比較,并且可以將特定的顯示的模式15和輸入的信息項相關聯。該關聯被記住,使得如果由傳感器20檢測到未知的模式15,并且第三輸出77大致相似于該關聯,處理器100可以確定未知的模式事實上就是已知的模式15,并且輸出關聯的信息項95。
模式識別系統(tǒng)10可以通過使用非監(jiān)督的學習過程來訓練,以識別大量的模式15。這些模式15將產生不同的第三輸出77,并且信息項95和模式15之間的關聯被存儲。
實施例1:視覺模式識別
當前公開的系統(tǒng)和方法可以被用于確定且分類視覺模式15。
在系統(tǒng)和方法的本實施例中,靜止照相機形成傳感器20。傳感器20對光的顏色和強度作出反應。傳感器20計算三個值。第一值取決于亮度,而第二和第三值由色差(紅-綠和藍-綠)算出。色差值為約50%分布。第一激活細胞30的觸發(fā)取決于色差和亮度的組合。傳感器20和第一激活細胞30可以被認為是相當于人的視網膜。
來自第一激活細胞30的第一輸出37被傳輸至第二激活細胞40,并隨后傳輸至第三激活細胞70。第二激活細胞40可以與人類外側膝狀體(LGN)等同,并且激活細胞70可以與人類皮質等同。第一激活細胞30的激活電勢取決于原始模式15。這些信號被傳輸至下級,并且首先第三激活細胞80的明顯的隨機序列似乎被激發(fā)。在一段時間后激發(fā)穩(wěn)定,并且在多個層80內形成“結構”,其反映由傳感器20成像的模式15。
標簽可以與模式15關聯。因此多個層80內的結構對應于模式15。標簽將由諸如鍵盤的輸入裝置90輸入。
對于不同的模式15重復該過程。此不同的模式15在多個層80內形成不同的結構。隨后可以使用不同的模式15繼續(xù)學習過程。
一旦完成學習,未知的模式15可以被置于傳感器20前。該未知的模式15在第一激活細胞30中產生信號,其傳輸至第二激活細胞40以識別未知的模式15中的特征,并且隨后進入多個層80以使模式15的分類成為可能。多個層80中的信號可以被分析,并且多個層80內大部分對應于未知的模式15的結構被識別。因此系統(tǒng)10可以輸出與結構關聯的標簽。因此未知模式15被識別。
如果因為新的類型的結構已在多個層80中形成而系統(tǒng)10無法識別未知的模式15,那么系統(tǒng)10可以給予適當的警告并且可以啟動人為干預,以便對未知的模式15分類或解決其他沖突。隨后,用戶可以手動查看未知的模式15,并通過將標簽與未知的模式關聯而對該未知的模式分類或者拒絕該未知的模式。
考慮到視覺模式15中兩條重疊的線,第二激活細胞40和第三激活細胞70之間的反饋可以容易地理解。首先第一激活細胞30將圍繞兩條重疊的線登記視覺模式15中的不同,但不能區(qū)別特征的類型,即,在重疊的線中區(qū)分出兩條不同的線。相似地,相鄰的第二激活細胞40將被激活,因為兩條重疊的線的重疊性質。如果全部的第二激活細胞40和第三激活細胞70同樣地做出反應,那么將不可能在兩條重疊的線之間區(qū)分。然而,上文已經解釋,第二激活細胞40和第三激活細胞70的激活存在任意或隨機因素。這樣的隨機因素導致部分的第二激活細胞40和/或第三激活細胞70被早于其他而激活。第二激活細胞40或第三激活細胞70之間的相互干擾將加強和/或減弱激活潛能并且由此那些對一個重疊的線做出反應的第二激活細胞40或第三激活細胞70將首先互相地彼此加強,以允許識別特征。激活潛能的衰退意味著在短時間(毫秒)之后,那些與識別的重疊的線關聯的第二激活細胞40或第三激活細胞70減少強度并且與至此仍未識別的重疊的線相關的其它第二激活細胞40或其它第三激活細胞70被激活以允許該一個重疊的線被識別。
實施例2:皮膚情況的識別
實施例1的系統(tǒng)可以用于識別不同類型的皮膚(皮膚病學的)情況。在此實施例中,使用形式為存儲的具有關聯標簽的不同類型的皮膚情況的黑白或彩色數字圖像的一系列模式15訓練系統(tǒng)10。在第一步中,使用常規(guī)的圖像處理方法處理數字圖像,使得其余的圖像僅聚焦在異常皮膚情況的區(qū)域。合格的醫(yī)生將圖像與指示該異常皮膚情況的標簽關聯,并如上所述訓練系統(tǒng)。