欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

用于歸一化文件的非數(shù)值特征的方法和裝置的制造方法

文檔序號:9922030閱讀:457來源:國知局
用于歸一化文件的非數(shù)值特征的方法和裝置的制造方法
【技術領域】
[0001] 本發(fā)明涉及計算機領域,具體涉及一種用于歸一化文件的非數(shù)值特征的方法和裝 置。
【背景技術】
[0002] 大多數(shù)現(xiàn)代軟件使用配置文件向用戶提供靈活性,使用戶能基于其特定使用場景 定制配置項。例如,用戶可以在配置文件httpd. conf中定制配置項MaxClients (最大客戶 數(shù))的值,來調(diào)整同時連接到Apache HTTP服務器的客戶的最大數(shù)量。
[0003] -些日常的IT操作,例如應用或數(shù)據(jù)備份和恢復、工作負荷迀移、文件災難恢復 等,正變得更復雜和有挑戰(zhàn)性,因為它們高度依賴于分布式環(huán)境中配置文件的識別。因此, 存在著巨大的需求,來從現(xiàn)有環(huán)境中識別這些配置文件以完成這些常見的IT操作。
[0004] 由于配置文件的變化性、存儲位置分散性以及巨大數(shù)量,識別配置文件是非常有 挑戰(zhàn)性、勞動密集和易錯的。目前用于配置文件發(fā)現(xiàn)的解決方案高度依賴于廣泛的專家知 識或高強度的人類交互。
[0005] -種可設想的自動識別配置文件的方法是使用分類器(classifier)。分類器是一 種算法或相應裝置,其可在使用訓練數(shù)據(jù)進行學習之后,根據(jù)某一對象的特征值的組合確 定該對象是否屬于特定類。因此,可設想由分類器根據(jù)一文件的路徑、訪問權限、大小等元 數(shù)據(jù)判斷該文件是否屬于配置文件。然而,由于分類器只能接收數(shù)值特征作為輸入,而不能 接收非數(shù)值特征,因此,諸如文件路徑等配置文件的非數(shù)值特征并不能由分類器用來進行 配置文件的識別。
[0006] 可見,本領域中需要一種能夠?qū)⑴渲梦募任募姆菙?shù)值特征歸一化為數(shù)值特征 以便進行配置文件識別的解決方案。

【發(fā)明內(nèi)容】

[0007] 在本發(fā)明的一個方面,提供了一種用于歸一化文件的非數(shù)值特征的方法,包括:將 給定文件的非數(shù)值特征的至少一對正例(positive instance)切分為若干單詞(token); 通過將所述至少一對正例中的單詞進行比較獲得匹配的單詞;以及針對所述匹配的單詞, 計算其匹配該給定文件的權重,并將所述單詞及其權重存儲在單詞庫中。
[0008] 在本發(fā)明的另一個方面,提供了一種用于歸一化文件的非數(shù)值特征的裝置,包括: 單詞切分模塊,被配置為將給定文件的非數(shù)值特征的至少一對正例切分為若干單詞;單詞 匹配模塊,被配置為通過將所述至少一對正例中的單詞進行比較獲得匹配的單詞;以及單 詞庫構(gòu)建模塊,被配置為針對所述匹配的單詞,計算其匹配該給定文件的權重,并將所述單 詞及其權重存儲在單詞庫中。
[0009] 本發(fā)明的技術方案能夠?qū)⒅T如文件路徑等文件的非數(shù)值特征歸一化為可作為分 類器的輸入的數(shù)值特征,從而有助于有效地自動識別諸如配置文件等文件。
【附圖說明】
[0010] 通過結(jié)合附圖對本公開示例性實施方式進行更詳細的描述,本公開的上述以及其 它目的、特征和優(yōu)勢將變得更加明顯,其中,在本公開示例性實施方式中,相同的參考標號 通常代表相同部件。
[0011] 圖1A示出了根據(jù)本發(fā)明的實施例的用于歸一化文件的非數(shù)值特征的方法;
[0012] 圖1B更詳細地示出了根據(jù)本發(fā)明的實施例的用于歸一化文件的非數(shù)值特征的方 法的過程;
[0013] 圖2示出了一組示例性文件元數(shù)據(jù)的正例;
[0014] 圖3示出了將配置文件路徑實例切分為單詞、比較單詞以獲得匹配單詞及其匹配 分數(shù)的列表、以及構(gòu)成單詞序列的示例;
[0015] 圖4示出了由給定文件的元數(shù)據(jù)的一組正例獲得單詞及單詞序列、并進而形成單 詞庫的示例;
[0016] 圖5示出了將測試實例的單詞和單詞序列與單詞庫中的單詞及單詞序列進行匹 配和計算的示例;
[0017] 圖6示出了將測試文件路徑中的單詞和單詞序列與單詞庫中的單詞和單詞序列 進行匹配從而獲得該測試文件的最大匹配分數(shù)的示例;
[0018] 圖7示出了根據(jù)本發(fā)明的實施例的用于歸一化文件的非數(shù)值特征的裝置;以及
[0019] 圖8示出了適于用來實現(xiàn)本發(fā)明實施方式的示例性計算機系統(tǒng)/服務器的框圖。
【具體實施方式】
[0020] 下面將參照附圖更詳細地描述本公開的優(yōu)選實施方式。雖然附圖中顯示了本公開 的優(yōu)選實施方式,然而應該理解,可以以各種形式實現(xiàn)本公開而不應被這里闡述的實施方 式所限制。相反,提供這些實施方式是為了使本公開更加透徹和完整,并且能夠?qū)⒈竟_的 范圍完整地傳達給本領域的技術人員。
[0021] 本發(fā)明的主要思想在于,考慮到同一類配置文件的文件路徑等文件元數(shù)據(jù)(meta data)在不同環(huán)境和系統(tǒng)中的差異不是隨機的,而是具有結(jié)構(gòu)性的,比如文件路徑具有層級 結(jié)構(gòu)與局部相同性,而充分利用文件元數(shù)據(jù)的這種內(nèi)在特征,從文件路徑等元數(shù)據(jù)的字符 串中提取單詞(token),建立單詞庫,計算文件元數(shù)據(jù)的相似度,從而將文件元數(shù)據(jù)的非數(shù) 據(jù)特征歸一化為數(shù)值特征,以進行配置文件的識別。
[0022] 現(xiàn)參照圖1A,其示出了根據(jù)本發(fā)明的實施例的用于歸一化文件的非數(shù)值特征的方 法。如圖所示,該方法包括以下步驟:
[0023] 在步驟110,將給定文件的非數(shù)值特征的至少一對正例切分為若干單詞。
[0024] 在步驟120,通過將所述至少一對正例中的單詞進行比較獲得匹配的單詞。
[0025] 在步驟130,針對所述匹配的單詞,計算其匹配該給定文件的權重,并將所述單詞 及其權重存儲在單詞庫中。
[0026] 現(xiàn)參照圖1B,其更詳細地示出了根據(jù)本發(fā)明的實施例的用于歸一化文件的非數(shù)值 特征的方法的過程。
[0027] 如圖所示,在步驟101,獲取給定文件的非數(shù)值特征的一組正例,即該給定文件在 不同環(huán)境中的非數(shù)值的元數(shù)據(jù),這些元數(shù)據(jù)已被確知屬于該給定文件。該給定文件例如為 特定配置文件或包含特定配置項的配置文件,該非數(shù)值的元數(shù)據(jù)例如為該配置文件的文件 路徑。
[0028] 圖2示出了一組示例性的文件元數(shù)據(jù)的正例。如圖2中所示,所述文件元數(shù)據(jù)的 正例為用于配置項"WASCellName"的文件元數(shù)據(jù)的正例,即包含該配置項的配置文件在各 種環(huán)境下的文件路徑、訪問權限、訪問時間等元數(shù)據(jù)。例如,作為配置文件的非數(shù)值特征的 文件路徑的正例包括:
[0029] /opt/IBM/ffebSphere/AppServer/profiles/DmgrOl/config/cells/ bpm03Cell01/cell. xml,
[0030] /opt/IBM/ffebSphere/Prof iles/DefaultDmgrOl/conf ig/cells/TradeCel1/c ell. xml,
[0031] /opt/IBM/ffebSphere/AppServer/profiles/AppSrvOl/config/cells/localh ostNode01Cell/cell· xml 等。
[0032] 返回圖1B,在步驟102,將所述給定文件的非數(shù)值特征的一組正例(例如文件路 徑)切分為單詞。該步驟可利用給定文件的該非數(shù)值特征本身的結(jié)構(gòu)特征來進行,例如,可 以利用符號"/"將每個文件路徑正例切分為不同單詞。
[0033] 在步驟103,將各對正例中的單詞進行比較獲得匹配的單詞及匹配分數(shù)。也就是 說,將每個正例與至少一個其他正例配對,或者將任何兩個正例進行配對,并對于每對正 例,將一個正例中的每個單詞與另一個正例中的每個單詞進行比較,從而獲得相匹配的單 詞對。這種比較和匹配可采用編輯距離等方法進行,其中,計算一個正例中的一個單詞與另 一個正例中的每個單詞的匹配分數(shù),選擇匹配分數(shù)最大的單詞作為與該單詞匹配的單詞, 從而獲得相匹配的單詞對及其匹配分數(shù)。
[0034] 在步驟104,從在步驟103中生成的匹配的單詞對及其匹配分數(shù)中去除匹配分數(shù) 小于指定閾值的單詞對。
[0035] 在可選步驟105,由在步驟104中形成的各匹配單詞對中的各單詞形成單詞序列, 所述單詞序列應當是原正例中的片段。也就是說,將更新列表中的各匹配單詞進行任意 組合,判斷每個組合是否同時是原正例中的片段,如果是,則該組合形成所述匹配的單詞序 列。
[0036] 圖3示出了將配置文件路徑實例切分為單詞、獲得匹配單詞及其匹配分數(shù)的列 表、以及構(gòu)成單詞序列的示例。
[0037] 圖3中示出了同一個配置文件的兩個正例,其中,文件路徑正例/opt/IBM/ WebSphere/AppServer/prof iles/AppSrv01/conf ig/cells/vm81NodeO1Ce11/nodes/ vm81Node01/resources. xml 被切分為單詞組 T1 :opt、IBM、WebSphere、App
當前第1頁1 2 3 4 5 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
榆中县| 新源县| 革吉县| 砚山县| 凌源市| 云梦县| 闸北区| 城口县| 中江县| 宁南县| 星子县| 永城市| 清水河县| 耒阳市| 财经| 山东| 枣强县| 凯里市| 礼泉县| 民和| 双流县| 宣城市| 永年县| 安丘市| 酉阳| 宝山区| 收藏| 琼海市| 洛阳市| 井陉县| 化隆| 都安| 祁东县| 香港| 江安县| 潞西市| 上杭县| 吉隆县| 迭部县| 巴彦县| 铜川市|