欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于隨機森林回歸的胸腔x光片肋骨檢測方法_4

文檔序號:9631815閱讀:來源:國知局
數(shù)據(jù)點可能擁有較多的 特征項,即擁有高維的特征向量,而將所有的特征項都帶入分割函數(shù)進行計算,給分割函數(shù) 參數(shù)的訓練和數(shù)據(jù)的測試造成了巨大的壓力,嚴重影響了分割函數(shù)參數(shù)訓練的效率,是不 實用的。因此,需要特征選擇函數(shù),從特征空間中選取一些固定的特征項,用于分割函數(shù)的 參數(shù)訓練。由于無法估計哪一維度的特征項對數(shù)據(jù)的代表性更強,本次實驗采用隨機化的 方法,根據(jù)分割函數(shù)的類型,從特征空間中選擇相應個數(shù)的特征項。使用這種隨機化的方 法,使得在訓練每一個節(jié)點時,選擇節(jié)點內數(shù)據(jù)特征向量中每個特征項的概率大小相同,在 節(jié)點數(shù)量較多的情況下,有更大的可能覆蓋到所有的特征項,這樣,可以保證不浪費、也不 偏重任何輸入的數(shù)據(jù)信息,有利于在模型建立后,取得更好的預測準確性和泛化能力。采用 隨機化的方法,也符合隨機森林的隨機理念。
[0118] 在實際的實驗過程中,使用隨機森林參數(shù)結構體forestModel的dimOfLearner元 素來控制弱分類器訓練時,從輸入數(shù)據(jù)特征向量中選擇的特征項的個數(shù)。這些特征項是隨 機從特征向量中選定的,為了保證獲得較優(yōu)的弱分類器,采取多次選定取最優(yōu)的方法。特征 項的隨機選定次數(shù)由隨機森林參數(shù)結構體forestModel中的ranDimTime元素來控制。對于 每一組選定的特征項,根據(jù)分割函數(shù)的類型,多次隨機選擇分割參數(shù),從中選取能夠最大化 能量模型的一組參數(shù),分割參數(shù)隨機選定的次數(shù)由隨機森林參數(shù)結構體forestModel中的 ranSplitNum元素來控制。隨機選擇分割參數(shù),而不是一味的尋找能夠使能量模型實現(xiàn)全局 最大化的那一組分割參數(shù),可以有效地避免過擬合現(xiàn)象,也符合隨機森林的隨機化需求。綜 上所述,共需要進行ranDimTime*ranSplitNum次的分割試驗,并從中選擇能量增益最大的 那一組特征項選擇方法和分割參數(shù),作為弱分類器模型的組成部分。
[0119] 幾何圖元Φ可以表示分割函數(shù)的類型和幾何形狀,進一步確定了弱分類 器的分類形式。例如,當幾何圖元Φ為直線時,分割函數(shù)是線性的,用h(v,Θ)= [τ,φ(v) ·φ>τ2]來表示對數(shù)據(jù)的線性分割,其中[·]代表指示函數(shù)(如果不等式成 立則返回1,否則返回〇),^代表分割閾值。
[0120] 本次實驗共設計了如下四種不同的弱分類器模型,最終使用的分類器類型由隨機 森林參數(shù)結構體forestModel中的learnerlD指定。
[0121] (1)與坐標軸平行的弱分類器
[0122] 該分類器的幾何圖元Φ是一條與坐標軸平行的直線。在訓練節(jié)點分割函數(shù)參數(shù) 時,隨機選定特征描述向量中某個維度的特征項~ *隨機選定閾值τ數(shù)次,代入公式(6)指 定的分割函數(shù)進行二元分類,根據(jù)上述的描述,選擇并記錄能夠最大化能量模型的特征維 度d。和分割閾值τ,完成對該弱分類器模型的訓練。
[0123]在測試數(shù)據(jù)到達該節(jié)點時,直接根據(jù)公式(3. 6),進行分割檢測,確定數(shù)據(jù)進入的 子節(jié)點。
[0124]C6)
[0125] 根據(jù)公式(6),
與坐標軸平行的弱分類器的基本參數(shù)設置為:Θ= 1,#(ν) =χ<?:, forestModel.dimOfLearner= 1。其中,Θ和φ的含義與前述相同。
[0126] (2)二元線性分類器
[0127] 該分類器的幾何圖元Φ是一條直線,該直線不一定與坐標軸平行,這就決定了分 割函數(shù)是一個二元一次函數(shù)。在節(jié)點分割函數(shù)參數(shù)訓練時,隨機選定特征描述向量某兩個 維度的特征項'和%,選定閾值τ= 0。使用二元一次函數(shù),根據(jù)公式(7)進行二元分類, 選擇并記錄能夠最大化能量模型的特征維度和分割參數(shù)。
[0128]在測試數(shù)據(jù)到達該節(jié)點時,直接根據(jù)公式(7),進行分割檢測,確定數(shù)據(jù)進入的子 節(jié)點。
[0129]
(7)
[0130]根據(jù)公式(7),二元線性分類器的基本參數(shù)設置為:分割函數(shù)參數(shù)Θ= -?
[θ1,θ2,θ3],特征選擇函數(shù)^(v)=',特征選擇控制變量forestModel.dimOfLearner xt/\_ _ =2〇
[0131] (3)非線性曲線分類器
[0132] 該分類器的幾何圖元Φ是一條圓錐曲線,其分割函數(shù)由一個二元二次函數(shù)指定。 在節(jié)點分割函數(shù)參數(shù)訓練時,隨機選定特征描述向量某兩個維度的特征項'和\,隨機選 定閾值ττ2,且要求滿足τ'τ2。使用二元二次函數(shù),根據(jù)公式(8)進行二元分類,選 擇并記錄能夠最大化能量模型的特征維度、分割閾值和分割參數(shù)。
[0133] 在測試數(shù)據(jù)到達該節(jié)點時,直接根據(jù)公式(8),進行分割檢測,確定數(shù)據(jù)進入的子 節(jié)點。
[0134]
[0135] 根據(jù)公式(3.8),二元線性分類器的基本參數(shù)設置為:分割函數(shù)參數(shù)Θ= [θ1,θ2,θ3,θ4,θ5,θ 6],特征選擇函數(shù)特征選擇控制變量forestModel. _·ν dimOfLearner= 2〇
[0136] (4)完全隨機分類器
[0137] 完全隨機分類器沒有固定的分割幾何圖元Φ,它是一種完全隨機化的分類器。根 據(jù)對樹的平衡性參數(shù)設定,從輸入當前節(jié)點的數(shù)據(jù)中,隨機選擇不同數(shù)目的數(shù)據(jù)分到左子 節(jié)點和右子節(jié)點,然后從所有的隨機方法中,選擇并記錄能夠最大化能量模型的分割方法。
[0138]完全隨機分類器沒有指定分割函數(shù)參數(shù)Θ、特征選擇函數(shù)φ(ν)和特征選擇控制 變量forestModel.dimOfLearner,但需要為其設定樹的平衡性參數(shù),來控制分割后左右子 節(jié)點數(shù)據(jù)數(shù)目之比。該參數(shù)由隨機森林參數(shù)結構體forestModel中的treeType元素來控 制,該參數(shù)由兩種取值,取值為"balance"時,表示要保證隨機森林中的回歸樹為平衡樹, 在進行分割時,要保證左右子節(jié)點上分到的數(shù)據(jù)數(shù)量相同,取值為〃imbalance〃時,表示隨 機森林中的回歸樹可以為非平衡樹,則在進行分割時,隨機指定分入左右子節(jié)點的數(shù)據(jù)數(shù) 量。
[0139] 在測試數(shù)據(jù)到達該節(jié)點時,比較測試數(shù)據(jù)與當前節(jié)點的左/右子節(jié)點上的訓練數(shù) 據(jù)的相似性,將測試數(shù)據(jù)送入相似性較高的那個子節(jié)點。
[0140] 〈4>葉子節(jié)點訓練模型
[0141] 隨機森林的訓練過程,除了要進行弱分類器和樹結構的訓練之外,還需要對葉子 節(jié)點中存儲的預測模型進行訓練。好的預測模型,可以更有效的總結落入葉子節(jié)點中的數(shù) 據(jù)的特征與輸出空間中對應實例數(shù)據(jù)的關聯(lián)性,從而在測試過程中獲得更高的預測準確率 和泛化能力。
[0142] 與弱分類器模型的訓練類似,訓練葉子節(jié)點預測模型時,同樣不宜使用輸入空間 數(shù)據(jù)的全部特征值,為了提高訓練效率,從落入該葉子節(jié)點的特征向量中選擇指定數(shù)量的 特征項,結合對應的輸出空間數(shù)據(jù)進行訓練。在實際的實驗過程中,使用隨機森林參數(shù)結構 體forestModel中的leafDim元素來控制葉子節(jié)點訓練使用的特征項的個數(shù)。
[0143] 本次實驗共設計了如下兩種不同的葉子節(jié)點預測模型,最終使用的預測類型由隨 機森林參數(shù)結構體forestModel中的leafType指定。
[0144]以下中使用/(V,?9,Θ):來表示葉子節(jié)點預測模型,其中V表示數(shù)據(jù)的特征向量,5表 示葉子節(jié)點預測函數(shù)的參數(shù),?表示特征選擇函數(shù)。
[0145] (1)線性回歸擬合模型
[0146] 根據(jù)forestModel.leafDim指定的數(shù)目,從當前葉子節(jié)點上的數(shù)據(jù)點中隨機選擇 相應數(shù)目的特征項,然后使用線性擬合的方式,對葉子節(jié)點上的數(shù)據(jù)進行函數(shù)擬合,進一步 獲得該節(jié)點上的回歸函數(shù)?;貧w函數(shù)的形式如公式(9)所示。
[0148] 根據(jù)公式(9),線性回歸擬合葉子節(jié)點預測模型的參數(shù)<9 特征選
[0147] (9) 擇函數(shù)= ,.表示從數(shù)據(jù)的特征向量中隨機選擇的dim維特征項,其中 dim=forestModel.leafDim,y;表示對應于輸入空間中數(shù)據(jù)X;的輸出數(shù)據(jù),S卩回歸的目標 值。
[0149] (2)平均值模型
[0150] 根據(jù)forestModel.leafDim指定的數(shù)目,從當前葉子節(jié)點上的數(shù)據(jù)點中隨機選擇 相應數(shù)目的特征項,然后求取落入當前節(jié)點的數(shù)據(jù)的目標值平均值,作為對落入該節(jié) 點的測試數(shù)據(jù)的預測目標值。
[0151] 使用平均值模型,會導致所有落入當前節(jié)點的測試數(shù)據(jù)都具有相同的預測目標 值,這實際上會影響到隨機森林的預測準確性和泛化能力。但是,平均值模型的訓練和測試 過程都比較簡單,實驗的時間效率較高。
[0152]〈5>隨機模型
[0153] 隨機模型是對隨機森林中所有隨機化設定和應用的統(tǒng)稱。上述已經提到過很多隨 機化的訓練方法,本部分將對這些隨機化方法進行總結,并將其都歸入隨機模型中。
[0154] (1)回歸樹的訓練數(shù)據(jù)選定
[0155] 在進行回歸樹訓練時,需要隨機從稠密采樣空間中選取適當數(shù)量的輸入數(shù)據(jù),這 樣可以適當降低隨機森林中,回歸樹之間的關聯(lián)性。減少隨機森林中不同的回歸樹之間的 相似性,有利于充分有效的發(fā)揮每棵回歸樹的預測作用,降低重復預測的可能性,從而增加 隨機森林的泛化能力。同時,選取適當數(shù)量的輸入數(shù)據(jù),可以提高回歸樹的訓練效率。
[0156] (2)多次隨機閾值試驗
[0157]訓練弱分類器模型時,多次隨機選取的分割閾值,并從中選擇使能量模型最大化 的一個,而不是一味尋找最優(yōu)分割閾值,這樣可以有效的避免過擬合問題,提高弱分類器在 測試中的泛化能力。
[0158] (3)多次隨機選定訓練數(shù)據(jù)特征項試驗
[0159]訓練弱分類器模型時,多次隨機選取指定數(shù)目的數(shù)據(jù)特征項,并從中選擇使能量 模型最大化的一組特征項,同樣可以有效避免過擬合問題,提高泛化能力。
[0160] (4)隨機選定葉子節(jié)點訓練數(shù)據(jù)的特征維度
[0161]訓練葉子節(jié)點預測模型
當前第4頁1 2 3 4 5 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
绥江县| 海兴县| 邯郸县| 龙川县| 丰原市| 出国| 丹江口市| 寻乌县| 闽侯县| 海兴县| 绍兴市| 神池县| 永嘉县| 综艺| 宿州市| 拜城县| 屯昌县| 天津市| 娱乐| 西昌市| 合山市| 瑞丽市| 隆德县| 丰县| 陆河县| 内黄县| 海门市| 拜城县| 社旗县| 大连市| 潮州市| 鹿邑县| 都江堰市| 若尔盖县| 宣汉县| 昌都县| 砀山县| 桂平市| 牡丹江市| 闸北区| 常德市|