本發(fā)明涉及機(jī)器學(xué)習(xí)的技術(shù)領(lǐng)域,尤其涉及一種淋巴瘤病理類(lèi)型的智能分類(lèi)系統(tǒng)和方法。
背景技術(shù):
目前,正處于大數(shù)據(jù)時(shí)代,到處都有大規(guī)模數(shù)據(jù)量的數(shù)據(jù),現(xiàn)有技術(shù)中的簡(jiǎn)單規(guī)則處理難以發(fā)揮這些數(shù)據(jù)的價(jià)值。硬件的高速發(fā)展給大數(shù)據(jù)的應(yīng)用提供了條件。高性能計(jì)算使得基于大規(guī)模數(shù)據(jù)的數(shù)據(jù)學(xué)習(xí)時(shí)間和數(shù)據(jù)處理代價(jià)大大降低了;大規(guī)模數(shù)據(jù)存儲(chǔ),使得能夠更快、代價(jià)更小地處理大規(guī)模數(shù)據(jù)。由于硬件和算法的發(fā)展,使得在使用機(jī)器學(xué)習(xí)解決數(shù)據(jù)分析的問(wèn)題后,能獲得更加豐厚收益。
現(xiàn)有的機(jī)器學(xué)習(xí)技術(shù)主要運(yùn)用到新聞、電子商務(wù)等互聯(lián)網(wǎng)領(lǐng)域,在傳統(tǒng)領(lǐng)域,尤其是醫(yī)學(xué)領(lǐng)域的應(yīng)用十分匱乏。因此,本發(fā)明提供一種將機(jī)器學(xué)習(xí)方法運(yùn)用到醫(yī)學(xué)領(lǐng)域中,進(jìn)行淋巴瘤病理類(lèi)型的智能分類(lèi)方法,以彌補(bǔ)現(xiàn)有技術(shù)中,淋巴瘤的分類(lèi)主要依賴(lài)醫(yī)生的主觀判斷,判斷的準(zhǔn)確性取決于醫(yī)生的工作經(jīng)驗(yàn),不同的醫(yī)生對(duì)患者病情的判斷結(jié)果可能回不一致,這容易導(dǎo)致誤診,甚至可能會(huì)延誤患者病情的問(wèn)題。
技術(shù)實(shí)現(xiàn)要素:
鑒于上述的分析,本發(fā)明旨在提供一種淋巴瘤病理類(lèi)型的智能分類(lèi)系統(tǒng)和方法,用以解決耗費(fèi)人力、依賴(lài)醫(yī)生主觀判斷的問(wèn)題。
本發(fā)明的目的主要是通過(guò)以下技術(shù)方案實(shí)現(xiàn)的:
一種淋巴瘤病理類(lèi)型的智能分類(lèi)系統(tǒng),其特征在于,包括醫(yī)生工作站和服務(wù)器,
醫(yī)生工作站用于接收輸入信息和顯示分類(lèi)結(jié)果;
服務(wù)器包括信息獲取模塊、預(yù)處理模塊、模型訓(xùn)練模塊、信息接收模塊、淋巴瘤病理分類(lèi)器;
信息獲取模塊獲取診斷為淋巴瘤的病例的電子數(shù)據(jù),從中獲得訓(xùn)練集合;
預(yù)處理模塊提取訓(xùn)練集合中的每個(gè)病例的特征病理信息,將提取的特征病理信息逐個(gè)與預(yù)先判定的淋巴瘤分類(lèi)結(jié)果對(duì)應(yīng);再對(duì)提取的病理信息進(jìn)行預(yù)處理,生成訓(xùn)練用特征詞集合,并為集合中的特征詞生成對(duì)應(yīng)的特征數(shù)值,將特征數(shù)值輸入到模型訓(xùn)練模塊;預(yù)處理模塊還用于對(duì)用戶(hù)輸入信息進(jìn)行特征病理信息提取、預(yù)處理和生成特征數(shù)值,并將該特征數(shù)值輸入到經(jīng)過(guò)訓(xùn)練的淋巴瘤病理分類(lèi)器;
模型訓(xùn)練模塊利用特征數(shù)值,訓(xùn)練分類(lèi)分析模型,得到經(jīng)過(guò)訓(xùn)練的淋巴瘤病理分類(lèi)器;
信息接收模塊接收用戶(hù)通過(guò)醫(yī)生工作站輸入的信息,并將接收的信息傳輸?shù)筋A(yù)處理模塊;
經(jīng)過(guò)訓(xùn)練的淋巴瘤病理分類(lèi)器根據(jù)預(yù)處理模塊處理用戶(hù)輸入信息得到的特征數(shù)值,得出淋巴瘤病理類(lèi)型分類(lèi)結(jié)果,并輸出到醫(yī)生工作站。
所述預(yù)處理模塊提取的特征病理信息包括:淋巴腫瘤的病理名稱(chēng)、病理描述、病理歸屬分類(lèi)。
所述預(yù)處理模塊中的預(yù)處理包括:對(duì)提取的病理信息中的每條信息進(jìn)行分詞,獲得文本詞集;以及對(duì)分詞結(jié)果進(jìn)行噪聲詞剔除處理。
在噪聲詞剔除處理之后,還包括對(duì)特征詞集合中的同義詞進(jìn)行替換。
優(yōu)選的,噪聲詞剔除處理是通過(guò)建立噪聲詞表的方式進(jìn)行匹配和剔除。
所述預(yù)處理模塊還包括對(duì)訓(xùn)練用特征詞集合中的特征詞進(jìn)行特征選擇;以及采用hash算法為訓(xùn)練用特征詞集合中的特征詞生成對(duì)應(yīng)的特征數(shù)值。
所述分類(lèi)分析模型基于支持向量機(jī)算法。
進(jìn)一步的,服務(wù)器還包括測(cè)試模塊,用于對(duì)經(jīng)過(guò)訓(xùn)練的淋巴瘤病理分類(lèi)器進(jìn)行測(cè)試;當(dāng)測(cè)試結(jié)果不理想時(shí),更改分類(lèi)分析算法或更改特征選擇的數(shù)量,以對(duì)淋巴瘤病分類(lèi)模型進(jìn)行調(diào)整;基于重新獲得的淋巴瘤病分類(lèi)模型,再由測(cè)試模塊對(duì)淋巴瘤病理分類(lèi)器測(cè)試;通過(guò)不斷調(diào)整淋巴瘤病分類(lèi)模型并進(jìn)行測(cè)試,直到測(cè)試結(jié)果達(dá)標(biāo)。
本發(fā)明還提供一種淋巴瘤病理類(lèi)型的智能分類(lèi)方法,包括以下步驟:
步驟s1.獲取診斷為淋巴瘤的病例的電子數(shù)據(jù),從電子數(shù)據(jù)獲得訓(xùn)練集合;
步驟s2.提取訓(xùn)練集合中的每個(gè)病例的特征病理信息,將提取的特征病理信息逐個(gè)與預(yù)先判定的淋巴瘤分類(lèi)結(jié)果對(duì)應(yīng);
步驟s3.對(duì)提取的病理信息進(jìn)行預(yù)處理,生成訓(xùn)練用特征詞集合;
步驟s4.為訓(xùn)練用特征詞集合中的特征詞生成對(duì)應(yīng)的特征數(shù)值;
步驟s5.利用上一步生成的特征數(shù)值,訓(xùn)練分類(lèi)分析模型,得到淋巴瘤病理分類(lèi)器;
步驟s6.接收用戶(hù)輸入的、對(duì)病理的描述信息;
步驟s7.對(duì)輸入信息進(jìn)行特征病理信息提取、預(yù)處理和生成特征數(shù)值的處理;
步驟s8.淋巴瘤病理分類(lèi)器根據(jù)待分類(lèi)信息的特征數(shù)值,得出用戶(hù)輸入信息的淋巴瘤病分類(lèi)結(jié)果。
本發(fā)明有益效果如下:
通過(guò)構(gòu)建淋巴瘤病理分類(lèi)器,能節(jié)約人工對(duì)數(shù)據(jù)進(jìn)行分析歸類(lèi)的成本,直接通過(guò)計(jì)算機(jī)程序進(jìn)行淋巴瘤病理的智能分類(lèi),得到相應(yīng)的分類(lèi)結(jié)果數(shù)據(jù),不再需要大量人工去匯總分析;且不依賴(lài)于醫(yī)生的主觀判斷,有利于幫助醫(yī)生進(jìn)行診斷。
本發(fā)明的其他特征和優(yōu)點(diǎn)將在隨后的說(shuō)明書(shū)中闡述,并且,部分的從說(shuō)明書(shū)中變得顯而易見(jiàn),或者通過(guò)實(shí)施本發(fā)明而了解。本發(fā)明的目的和其他優(yōu)點(diǎn)可通過(guò)在所寫(xiě)的說(shuō)明書(shū)、權(quán)利要求書(shū)、以及附圖中所特別指出的結(jié)構(gòu)來(lái)實(shí)現(xiàn)和獲得。
附圖說(shuō)明
附圖僅用于示出具體實(shí)施例的目的,而并不認(rèn)為是對(duì)本發(fā)明的限制,在整個(gè)附圖中,相同的參考符號(hào)表示相同的部件。
圖1為淋巴瘤病理類(lèi)型智能分類(lèi)系統(tǒng)的示意圖;
圖2為淋巴瘤病理類(lèi)型的智能分類(lèi)方法的流程圖。
具體實(shí)施方式
下面結(jié)合附圖來(lái)具體描述本發(fā)明的優(yōu)選實(shí)施例,其中,附圖構(gòu)成本申請(qǐng)一部分,并與本發(fā)明的實(shí)施例一起用于闡釋本發(fā)明的原理。
本發(fā)明的一個(gè)具體實(shí)施例,公開(kāi)了一種淋巴瘤病理類(lèi)型的智能分類(lèi)系統(tǒng),如圖1所示,包括:包括醫(yī)生工作站和服務(wù)器,
醫(yī)生工作站用于接收輸入信息和顯示分類(lèi)結(jié)果;
服務(wù)器進(jìn)一步包括信息獲取模塊、預(yù)處理模塊、模型訓(xùn)練模塊、信息接收模塊、淋巴瘤病理分類(lèi)器。
信息獲取模塊,用于獲取診斷為淋巴瘤的病例的電子數(shù)據(jù),從電子數(shù)據(jù)獲得訓(xùn)練集合,并存儲(chǔ)到存儲(chǔ)單元。所述電子數(shù)據(jù)來(lái)源于過(guò)往紙質(zhì)病歷的電子化文本、現(xiàn)有電子病歷和醫(yī)院內(nèi)部的研究統(tǒng)計(jì)文本。
優(yōu)選的,從電子數(shù)據(jù)獲得訓(xùn)練集合具體是將電子數(shù)據(jù)劃分為訓(xùn)練集合和測(cè)試集合。測(cè)試集合在得到淋巴瘤病理分類(lèi)器后,用于進(jìn)行分類(lèi)器準(zhǔn)確性的測(cè)試。
預(yù)處理模塊,用于提取訓(xùn)練集合中的每個(gè)病例的特征病理信息,將提取的特征病理信息逐個(gè)與預(yù)先判定的淋巴瘤分類(lèi)結(jié)果對(duì)應(yīng);再對(duì)提取的病理信息進(jìn)行預(yù)處理,生成訓(xùn)練用特征詞集合,并為集合中的特征詞生成對(duì)應(yīng)的特征數(shù)值,并輸入到模型訓(xùn)練模塊。
預(yù)處理模塊還用于對(duì)用戶(hù)輸入信息進(jìn)行特征病理信息提取、預(yù)處理和生成特征數(shù)值,并將該特征數(shù)值輸入到經(jīng)過(guò)訓(xùn)練的淋巴瘤病理分類(lèi)器。
其中,具體提取的特征病理信息包括:病例中淋巴腫瘤的病理名稱(chēng)、病理描述、病理歸屬分類(lèi)等。
進(jìn)一步的,在提取電子數(shù)據(jù)中的每個(gè)病例對(duì)應(yīng)的淋巴瘤病理信息之后,去除不符合要求的問(wèn)題數(shù)據(jù),例如空值、明顯有問(wèn)題的數(shù)據(jù)、不符合邏輯的數(shù)據(jù)等。
對(duì)提取的病理信息進(jìn)行的預(yù)處理是將提取的病理信息解析成詞條,其中每一個(gè)病例對(duì)應(yīng)多個(gè)詞條。
進(jìn)一步的,預(yù)處理包括分詞、噪聲詞剔除、同義詞處理等操作,得到訓(xùn)練用特征詞集合,具體包括下述步驟:
1.使用分詞工具對(duì)提取的病理信息中的每條信息進(jìn)行分詞,獲得文本詞集。如果文本是中文,則采用中文分詞器;如果是英文,則使用空格進(jìn)行分詞,且在英文分詞完成后使用詞干提取的方式歸一化時(shí)態(tài)和單復(fù)數(shù)。
具體地,可以采用ictclas(instituteofcomputingtechnology,chineselexicalanalysissystem,漢語(yǔ)詞法分析系統(tǒng))和ikanalyzer(ik分詞器)等分詞工具作為中文分詞器。
2.對(duì)分詞結(jié)果進(jìn)行噪聲詞剔除處理,具體包括去除沒(méi)有實(shí)際意義的字或詞,如“的、了、不但、而且、雖然、但是”等,以及一些生僻字和特殊符號(hào),還去除與淋巴腫瘤的信息無(wú)關(guān)的詞匯。
進(jìn)一步的,噪聲詞剔除處理可以通過(guò)建立噪聲詞表的方式進(jìn)行匹配和剔除。
3.使用預(yù)先建立的同義詞表對(duì)特征詞集合中的同義詞進(jìn)行替換,使得所有同義詞均用一個(gè)詞來(lái)表示,得到訓(xùn)練用特征詞集合。
在經(jīng)過(guò)預(yù)處理后,進(jìn)一步包括對(duì)訓(xùn)練用特征詞集合中特征詞進(jìn)行特征選擇的步驟。如果特征詞提取得過(guò)多,會(huì)造成特征維度過(guò)高,不利于分類(lèi)器訓(xùn)練的問(wèn)題。
為訓(xùn)練用特征詞集合中的特征詞生成對(duì)應(yīng)的特征數(shù)值,利用計(jì)算得到的特征數(shù)值來(lái)對(duì)詞條進(jìn)行特征表示。優(yōu)選的,具體采用hash算法為訓(xùn)練用特征詞集合中的每一病理的特征詞生成對(duì)應(yīng)的特征數(shù)值。
模型訓(xùn)練模塊利用生成的特征數(shù)值,訓(xùn)練分類(lèi)分析模型,得到經(jīng)過(guò)訓(xùn)練的淋巴瘤病理分類(lèi)器。
所述分類(lèi)分析是指將物理或抽象對(duì)象的集合分組為由類(lèi)似的對(duì)象組成的多個(gè)類(lèi)的分析過(guò)程,其目的是在相似的基礎(chǔ)上收集數(shù)據(jù)來(lái)分類(lèi)。本發(fā)明中使用的分類(lèi)分析模型,可以采用以下幾種:
1.樸素貝葉斯(naivebayes,nb)分類(lèi)模型
如果條件獨(dú)立假設(shè)成立的話,nb將比鑒別模型(如logistic回歸)收斂的更快,所以只需要少量的訓(xùn)練數(shù)據(jù)。即使條件獨(dú)立假設(shè)不成立,nb在實(shí)際中仍然能得到較好的結(jié)果。
2.logistic回歸(logisticregression,lr)模型
lr有很多方法來(lái)對(duì)模型正則化。比起nb的條件獨(dú)立性假設(shè),lr不需要考慮樣本是否是相關(guān)的。與決策樹(shù)與支持向量機(jī)(svm)不同,nb有很好的概率解釋?zhuān)液苋菀桌眯碌挠?xùn)練數(shù)據(jù)來(lái)更新模型(使用在線梯度下降法)。如果需要概率信息(如,為了更容易的調(diào)整分類(lèi)閾值,得到分類(lèi)的不確定性,得到置信區(qū)間),或者希望將來(lái)有更多數(shù)據(jù)時(shí)能方便的更新改進(jìn)模型,則可以使用lr模型。
3.決策樹(shù)(decisiontree,dt)模型
dt模型是非參數(shù)的,無(wú)需要擔(dān)心野點(diǎn)(或離群點(diǎn))和數(shù)據(jù)是否線性可分的問(wèn)題(例如dt模型可以輕松的處理這種情況:屬于a類(lèi)的樣本的特征x取值往往非常小或者非常大,而屬于b類(lèi)的樣本的特征x取值在中間范圍)。但是,dt模型的主要缺點(diǎn)是容易過(guò)擬合。
4.支持向量機(jī)(supportvectormachine,svm)
支持向量機(jī)具有高的分類(lèi)正確率,對(duì)過(guò)擬合有很好的理論保證,選取合適的核函數(shù),面對(duì)特征線性不可分的問(wèn)題也可以表現(xiàn)得很好。svm適合維數(shù)較高的文本分類(lèi)。
本實(shí)施例將淋巴瘤病進(jìn)行3級(jí)分類(lèi),其一級(jí)比一級(jí)分的更加詳細(xì)。根據(jù)測(cè)試結(jié)果,優(yōu)選支持向量機(jī)(svm)算法進(jìn)行淋巴瘤病的智能分類(lèi)。
進(jìn)一步的,淋巴瘤病理類(lèi)型的智能分類(lèi)系統(tǒng)包括測(cè)試模塊,用于對(duì)經(jīng)過(guò)訓(xùn)練的淋巴瘤病理分類(lèi)器進(jìn)行測(cè)試。具體利用預(yù)處理模塊中使用的方法(處理訓(xùn)練集合的方法)處理測(cè)試集合,將根據(jù)測(cè)試集合生成的測(cè)試用特征數(shù)值輸入到淋巴瘤病分類(lèi)模型,并與標(biāo)準(zhǔn)結(jié)果進(jìn)行對(duì)比,得到測(cè)試結(jié)果。
進(jìn)一步的,在測(cè)試模塊對(duì)淋巴瘤病理分類(lèi)器的測(cè)試結(jié)果不理想的情況下,更改分類(lèi)分析算法或更改特征選擇的數(shù)量,以對(duì)淋巴瘤病分類(lèi)模型進(jìn)行調(diào)整。將重新獲得新的淋巴瘤病分類(lèi)模型,再進(jìn)行淋巴瘤病理分類(lèi)器測(cè)試。通過(guò)不斷調(diào)整淋巴瘤病分類(lèi)模型,直到實(shí)驗(yàn)結(jié)果達(dá)標(biāo)。
信息接收模塊,用于接收用戶(hù)輸入的、對(duì)病理的描述信息,并將接收的信息傳輸?shù)筋A(yù)處理模塊。該輸入的描述信息可以是多個(gè)句子、短語(yǔ)、詞條、數(shù)值、數(shù)值范圍或者句子、短語(yǔ)、詞條、數(shù)值的組合;其中句子、短語(yǔ)和詞條可以通過(guò)分號(hào)隔開(kāi)。
預(yù)處理模塊對(duì)用戶(hù)的輸入信息進(jìn)行特征病理信息提取、預(yù)處理和生成特征數(shù)值的處理,處理方法同上述預(yù)處理模塊中的處理步驟,得到待分類(lèi)信息的特征詞集合和對(duì)應(yīng)的特征數(shù)值。
經(jīng)過(guò)訓(xùn)練的淋巴瘤病理分類(lèi)器根據(jù)預(yù)處理模塊處理用戶(hù)輸入信息得到的特征數(shù)值,得出淋巴瘤病理類(lèi)型分類(lèi)結(jié)果,并輸出到醫(yī)生工作站。
將信息獲取模塊、預(yù)處理模塊、模型訓(xùn)練模塊、信息接收模塊、淋巴瘤病理分類(lèi)器、測(cè)試模塊進(jìn)行封裝,存儲(chǔ)在服務(wù)器中,以供用戶(hù)通過(guò)醫(yī)生工作站調(diào)用、使用。
本發(fā)明還提供另一個(gè)具體實(shí)施例,一種淋巴瘤病理類(lèi)型的智能分類(lèi)方法,如圖2所示,包括以下步驟:
步驟s1.獲取診斷為淋巴瘤的病例的電子數(shù)據(jù),從電子數(shù)據(jù)獲得訓(xùn)練集合。
其中,從電子數(shù)據(jù)獲得訓(xùn)練集合的方法是:將電子數(shù)據(jù)劃分為訓(xùn)練集合和測(cè)試集合。測(cè)試集合在得到淋巴瘤病理分類(lèi)器后,用于進(jìn)行分類(lèi)器準(zhǔn)確性的測(cè)試。
步驟s2.提取訓(xùn)練集合中的每個(gè)病例的特征病理信息,將提取的特征病理信息逐個(gè)與預(yù)先判定的淋巴瘤分類(lèi)結(jié)果對(duì)應(yīng)。
其中,提取的特征病理信息包括:病例中淋巴腫瘤的病理名稱(chēng)、病理描述、病理歸屬分類(lèi)等。
進(jìn)一步的,在提取電子數(shù)據(jù)中的每個(gè)病例對(duì)應(yīng)的淋巴瘤病理信息之后,去除不符合要求的問(wèn)題數(shù)據(jù),例如空值、明顯有問(wèn)題的數(shù)據(jù)、不符合邏輯的數(shù)據(jù)等。
步驟s3.對(duì)提取的病理信息進(jìn)行預(yù)處理,生成訓(xùn)練用特征詞集合。
其中,預(yù)處理是將提取的病理信息解析成詞條,其中每一個(gè)病例對(duì)應(yīng)多個(gè)詞條。
預(yù)處理進(jìn)一步包括分詞、噪聲詞剔除、同義詞處理等操作,得到訓(xùn)練用特征詞集合,具體包括下述步驟:
使用分詞工具對(duì)提取的病理信息中的每條信息進(jìn)行分詞,獲得文本詞集;
再對(duì)分詞結(jié)果進(jìn)行噪聲詞剔除處理,具體包括去除沒(méi)有實(shí)際意義的字或詞,如“的、了、不但、而且、雖然、但是”等,以及一些生僻字和特殊符號(hào),還去除與淋巴腫瘤的信息無(wú)關(guān)的詞匯。優(yōu)選的,噪聲詞剔除處理可以通過(guò)建立噪聲詞表的方式進(jìn)行匹配和剔除;
利用預(yù)先建立的同義詞表對(duì)特征詞集合中的同義詞進(jìn)行替換,使得所有同義詞均用一個(gè)詞來(lái)表示,得到訓(xùn)練用特征詞集合。
進(jìn)一步的,在經(jīng)過(guò)預(yù)處理后,還包括對(duì)訓(xùn)練用特征詞集合中特征詞進(jìn)行特征選擇的步驟。如果特征詞提取得過(guò)多,會(huì)造成特征維度過(guò)高,不利于分類(lèi)器訓(xùn)練的問(wèn)題。
步驟s4.為訓(xùn)練用特征詞集合中的特征詞生成對(duì)應(yīng)的特征數(shù)值。優(yōu)選的,采用hash算法為訓(xùn)練用特征詞集合中的每一病理的特征詞生成對(duì)應(yīng)的特征數(shù)值。
步驟s5.利用上一步生成的特征數(shù)值,訓(xùn)練分類(lèi)分析模型,得到淋巴瘤病理分類(lèi)器。
本發(fā)明中使用的分類(lèi)分析模型,可以采用樸素貝葉斯(naivebayes,nb)分類(lèi)模型、logistic回歸(logisticregression,lr)模型、決策樹(shù)(decisiontree,dt)模型、支持向量機(jī)(supportvectormachine,svm)等。根據(jù)測(cè)試結(jié)果,優(yōu)選基于支持向量機(jī)(svm)算法進(jìn)行淋巴瘤病的智能分類(lèi)。
上述對(duì)淋巴瘤病理分類(lèi)器的測(cè)試,是指采用步驟s2~s4所述的方法處理測(cè)試集合,將根據(jù)測(cè)試集合生成的測(cè)試用特征數(shù)值輸入到淋巴瘤病分類(lèi)模型,并與標(biāo)準(zhǔn)結(jié)果進(jìn)行對(duì)比,得到測(cè)試結(jié)果。
進(jìn)一步的,在淋巴瘤病理分類(lèi)器的測(cè)試結(jié)果不理想的情況下,更改分類(lèi)分析算法或更改特征選擇的數(shù)量,以對(duì)淋巴瘤病分類(lèi)模型進(jìn)行調(diào)整。將重新獲得新的淋巴瘤病分類(lèi)模型,再進(jìn)行淋巴瘤病理分類(lèi)器測(cè)試。通過(guò)不斷調(diào)整淋巴瘤病分類(lèi)模型,直到實(shí)驗(yàn)結(jié)果達(dá)標(biāo)。
步驟s6.接收用戶(hù)輸入的、對(duì)病理的描述信息。
步驟s7.對(duì)輸入信息進(jìn)行特征病理信息提取、預(yù)處理和生成特征數(shù)值的處理,處理方法同步驟s2~s4,得到待分類(lèi)信息的特征詞集合和對(duì)應(yīng)的特征數(shù)值。
步驟s8.淋巴瘤病理分類(lèi)器根據(jù)待分類(lèi)信息的特征數(shù)值,得出用戶(hù)輸入信息的淋巴瘤病分類(lèi)結(jié)果。
本實(shí)施例中,將步驟s1中獲取的電子數(shù)據(jù)劃分為訓(xùn)練集和測(cè)試集。在訓(xùn)練分類(lèi)分析模型,得到淋巴瘤病分類(lèi)模型之后,將測(cè)試集進(jìn)行特征提取、特征選取等操作后,輸入到訓(xùn)練過(guò)后的模型中,得到三級(jí)分類(lèi)的準(zhǔn)確率。理論上,分級(jí)越細(xì)需要支持的數(shù)據(jù)更多。本實(shí)施例的測(cè)試結(jié)果滿(mǎn)足我們的預(yù)期。如果測(cè)試結(jié)果與預(yù)期偏差太大,則需要考慮是不是數(shù)據(jù)源出了問(wèn)題,特征選取的問(wèn)題、還是算法問(wèn)題,此時(shí)需要對(duì)應(yīng)修改。
綜上所述,本發(fā)明實(shí)施例提供了一種淋巴瘤病理類(lèi)型的智能分類(lèi)系統(tǒng)和方法,通過(guò)構(gòu)建淋巴瘤病理分類(lèi)器,能節(jié)約人工對(duì)數(shù)據(jù)進(jìn)行分析歸類(lèi)的成本,直接通過(guò)計(jì)算機(jī)程序進(jìn)行淋巴瘤病理的智能分類(lèi),得到相應(yīng)的分類(lèi)結(jié)果數(shù)據(jù),實(shí)現(xiàn)分類(lèi)自動(dòng)化、標(biāo)準(zhǔn)化,不再需要大量人工去匯總分析。在應(yīng)對(duì)海量數(shù)據(jù)的情況下,采用本發(fā)明能大幅降低人工成本。
此外,本發(fā)明提供的淋巴瘤病理類(lèi)型的智能分類(lèi)方法還具有統(tǒng)一化的特點(diǎn),在輸入信息一致的情況下,分類(lèi)結(jié)果不會(huì)因人而異,不會(huì)因醫(yī)生的個(gè)人經(jīng)驗(yàn)不同而結(jié)果不同。針對(duì)相對(duì)癥狀的病人可以給出病癥的分類(lèi),給醫(yī)生的診斷提供參考,這樣更加有利于疾病診斷的準(zhǔn)確性。
本領(lǐng)域技術(shù)人員可以理解,實(shí)現(xiàn)上述實(shí)施例方法的全部或部分流程,可以通過(guò)計(jì)算機(jī)程序來(lái)指令相關(guān)的硬件來(lái)完成,所述的程序可存儲(chǔ)于計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中。其中,所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)為磁盤(pán)、光盤(pán)、只讀存儲(chǔ)記憶體或隨機(jī)存儲(chǔ)記憶體等。
以上所述,僅為本發(fā)明較佳的具體實(shí)施方式,但本發(fā)明的保護(hù)范圍并不局限于此,任何熟悉本技術(shù)領(lǐng)域的技術(shù)人員在本發(fā)明揭露的技術(shù)范圍內(nèi),可輕易想到的變化或替換,都應(yīng)涵蓋在本發(fā)明的保護(hù)范圍之內(nèi)。