用于歸一化文件的非數(shù)值特征的方法和裝置的制造方法_2

文檔序號：9922030閱讀：來源：國知局

Server、 profiles、AppSrv、config、cells、Node、Cell、nodes、Node、resources，且文件路徑正例 / opt/IBM/ffebSphere/AppServer/profiles/DmgrOl/config/cells/TradeCell/resources. xml 被切分為單詞組 T2 :opt、IBM、WebSphere、AppServer、prof iles、Dmgr、conf ig、cells、 TradeCell、resources。
[0038] 然后，對于單詞組T1中的每個單詞，將其與單詞組T2中的各個單詞進行匹配，計算匹配分數(shù)，獲得T2中匹配分數(shù)最大的單詞，從而形成匹配的單詞對。在這些匹配的單詞對中，T1中的opt與T2中的opt等完全匹配，其匹配分數(shù)為1。T1中的單詞Node、nodes和 Node沒有在T2中找到匹配項，因此匹配分數(shù)為空。而T1中的單詞appsrv與T2中的單詞 dmgr的匹配分數(shù)為0. 167,由于其小于指定閾值0. 3,因此這對單詞被排除。最后得到的匹配單詞組為：opt、IBM、WebSphere、AppServer、profiles、config、cells、cell、resources、 tradecell〇
[0039] 然后，將所述匹配單詞列表中的單詞進行任意組合，并與原路徑進行比較，從而獲得若干單詞序列，例如〇pt/ibm/websphere/appserver/profiles、config/cells、config/ cells/tradecell/resources 等。
[0040] 返回圖1B，在步驟106,針對在步驟104中生成的每一個單詞和在步驟105中生成的每一個單詞序列（如有），計算該單詞或單詞序列匹配該給定文件的權(quán)重，并存儲在單詞庫中。該權(quán)重表示該單詞或單詞序列在多大程度上代表該給定文件，換言之，當一文件元數(shù) 據(jù)包含該單詞或單詞序列時，有多大可能該文件元數(shù)據(jù)是該給定文件的元數(shù)據(jù)。
[0041] 可以有多種方法來計算所述權(quán)重。在本發(fā)明的一實施例中，使用以下公式來計算一單詞或單詞序列匹配給定文件的權(quán)重：
[0043] 在以上公式中，weight表示要計算的權(quán)重，count表示該單詞或單詞序列在所述一組正例中的出現(xiàn)次數(shù)，count_coefficient表示用于出現(xiàn)次數(shù)的指定系數(shù)，max_count表示所述一組正例中的正例數(shù)，length表示該單詞或單詞序列的單詞長度，即該單詞或單詞序列包含的單詞數(shù)，length_coefficient表示用于單詞長度的指定系數(shù)，max_length表示其所屬正例的單詞長度即該正例包含的單詞數(shù)，position表示該單詞或單詞序列在其正例中的相對位置，P〇sition_coefficient表示用于位置的指定系數(shù)，其中，所述count_ coefficient、length_coefficient 和 position_coefficient 的和等于 1 〇所述 count_ coefficient、length_coefficient 和 position_coefficient 可以由用戶根據(jù)其對單詞或單詞序列的出現(xiàn)次數(shù)、單詞長度和位置在匹配給定文件時的重要性的判斷來指定，其中越重要的因素，相應系數(shù)也越大。所述相對位置position例如可以由正例中該單詞或單詞序列之前的單詞數(shù)或者該單詞數(shù)與正例中總的單詞數(shù)的比值來表示。
[0044] 該公式同時考慮了單詞或單詞序列的出現(xiàn)次數(shù)、長度和位置在匹配給定文件時的作用。其意義在于，一個單詞或單詞序列在給定文件元數(shù)據(jù)的正例中出現(xiàn)的次數(shù)越大、長度越大且位置越靠后，則該單詞或單詞序列越能夠匹配該給定文件。
[0045] 當然，在本發(fā)明的一些實施例中，可以僅根據(jù)單詞或單詞序列的出現(xiàn)次數(shù)、長度和位置這三者中的任何一個或兩個來計算該單詞或單詞序列匹配給定文件的權(quán)重。也就是說，可以使用以下三個公開中的任何一個或兩個來計算單詞或單詞序列匹配給定文件的權(quán) 重：

[0048] weight = position_coefficient · position,
[0049] 然后，可以將每個單詞和單詞序列及其權(quán)重相關(guān)聯(lián)地存儲起來，例如存儲在一單詞庫中?？蛇x地，也可將每個單詞和單詞序列的出現(xiàn)次數(shù)、長度和位置也一起相關(guān)聯(lián)地存儲起來。
[0050] 圖4示出了由給定文件的元數(shù)據(jù)的一組正例獲得單詞及單詞序列、并進而形成單詞庫的示例。如圖4中所示，由給定文件的路徑的一組正例獲得單詞和單詞序列/opt、 /ibm、/opt/ibm/websphee/appserver/profiles等，然后計算每個單詞和單詞序列的權(quán) 重，并將每個單詞和單詞序列以及其出現(xiàn)次數(shù)、長度、位置和權(quán)重相關(guān)聯(lián)地存儲在單詞庫中。例如，/opt [462(c)，1 (1),0. 133333 (p)，0.013202 (W)]表示單詞 /opt 在正例中的出現(xiàn)次數(shù)為462,其長度為1，其位置為0· 133333,其權(quán)重為0· 013202 ;/opt/ibm/websphere/ appserver/profiles/cells/bpm/cell/cell[17(c)，9(1)，0· 133333(p)，0· 004372(w)]表不單詞序列 /opt/ibm/websphere/appserver/profiles/cells/bpm/cell/cell 在正例中的出現(xiàn)次數(shù)為17,長度為9,位置為0. 133333,權(quán)重為0.004372,等等。
[0051] 這樣，就構(gòu)建了單詞庫，完成了數(shù)據(jù)訓練過程。此后，可使用所形成的單詞庫來識別測試文件或?qū)⑵浞菙?shù)值元數(shù)據(jù)歸一化為數(shù)值特征。
[0052] 此外，在構(gòu)建了單詞庫之后，可以進一步使用新的數(shù)據(jù)進行訓練。也就是說，響應于獲得了給定文件元數(shù)據(jù)的新的正例，可以使用這些新的正例來充實和更新所述單詞庫。在這種情況下，與上述過程類似，可首先將新的正例切分為單詞。然后，可以將每個新的正例中的單詞與其他正例中的單詞進行比較和匹配，或者將新的正例中的單詞與單詞庫中的各單詞進行比較和匹配，計算其最大匹配分數(shù)，去除最大匹配分數(shù)小于指定閾值的單詞，并由剩余單詞形成作為所述新的正例中的片段的單詞序列，然后與單詞庫中匹配的單詞和單詞序列及其出現(xiàn)次數(shù)等數(shù)據(jù)結(jié)合起來，以新的出現(xiàn)次數(shù)等重新計算每個單詞和單詞序列匹配給定文件的權(quán)重，并更新單詞庫中相應單詞和單詞序列的出現(xiàn)次數(shù)、權(quán)重等。
[0053] 返回圖1B，在可選步驟107,響應于接收到測試文件的非數(shù)值特征的測試實例，將該測試實例切分為若干單詞和單詞序列。
[0054] 在可選步驟108,通過將該測試實例的單詞和單詞序列與單詞庫中的單詞及單詞序列進行匹配計算該測試實例匹配給定文件的分數(shù)。所述分數(shù)將作為測試文件的非數(shù)值特征的歸一化的數(shù)值特征。
[0055] 在本發(fā)明的一實施例中，可采用以下具體步驟來將測試實例的單詞和單詞序列與單詞庫中的單詞及單詞序列進行匹配和計算：
[0056] 在步驟801，獲得該測試實例的由單詞和單詞序列構(gòu)成的不同組合方式；
[0057] 在步驟802,將每種組合方式下的每個單詞和單詞序列與單詞庫中的單詞及單詞序列進行比較，獲得單詞庫中最相似的單詞或單詞序列，以及其相似度和所述權(quán)重。所述相似度可使用編輯距離等方式計算。
[0058] 在步驟803,對于每種組合方式，根據(jù)其單詞和單詞序列的最相似單詞或單詞序列的相似度和權(quán)重，計算該組合方式的權(quán)重。具體地，可將一種組合方式下的每個單詞和單詞序列的最相似單詞或單詞序列的相似度與權(quán)重相乘，然后將各個乘積相加得到該種組合方式的權(quán)重。
[0059] 最后，在步驟804,獲得不同組合方式中的最大權(quán)重，作為該測試實例在該非數(shù)值特征上的歸一化的數(shù)值。
[0060] 圖5示出了將測試實例的單詞和單詞序列與單詞庫中的單詞及單詞序列進行匹配和計算的示例。
[0061] 如圖 5 中所不，待測試實例為 /etc/setlinux/targeted/modules/active/base，其被切分為單詞 etc、setlinux、targeted、modules、active、base。
[0062] 然后，獲得由這些單詞及其序列構(gòu)成的不同組合方式，例如第1行的組合方式為單個單詞序列"etc setlinux targeted modules active base"，第2行的組合方式為單詞序列"etc setlinux targeted modules active"和單詞"base"，第3行的組合方式為單詞 "etc" 和單詞序列 "setlinux targeted modules

完整全部詳細技術(shù)資料下載

當前第2頁1 2 3 4 5

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

特征歸一化方法相關(guān)技術(shù)

特征歸一化相關(guān)技術(shù)

特征向量歸一化相關(guān)技術(shù)

特征向量歸一化處理相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

用于歸一化文件的非數(shù)值特征的方法和裝置的制造方法_2