欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

文本解析方法及裝置的制作方法

文檔序號(hào):6443370閱讀:239來(lái)源:國(guó)知局
專(zhuān)利名稱:文本解析方法及裝置的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及網(wǎng)管領(lǐng)域,特別是指一種文本解析方法及裝置。
背景技術(shù)
在日常的移動(dòng)通信運(yùn)營(yíng)維護(hù)工作中,維護(hù)人員經(jīng)常要對(duì)通信設(shè)備的統(tǒng)計(jì)文件、日志文件等文本進(jìn)行解析和抽取數(shù)據(jù),例如愛(ài)立信交換機(jī)的話統(tǒng)文件、交換機(jī)的ALOG/COMMAND LOG日志文件等等,為網(wǎng)絡(luò)營(yíng)運(yùn)、維護(hù)提供數(shù)據(jù)支撐。然而,在整個(gè)移動(dòng)網(wǎng)絡(luò)中包括各種專(zhuān)業(yè)、各種設(shè)備、各種廠家等不同類(lèi)型的網(wǎng)絡(luò)設(shè)備,這些不同的網(wǎng)絡(luò)設(shè)備的統(tǒng)計(jì)、日志等文件的內(nèi)容格式和命名都不統(tǒng)一,這給日常分析、網(wǎng)絡(luò)維護(hù)帶來(lái)困難?,F(xiàn)有的文本解析器解析和抽取數(shù)據(jù)的對(duì)象文件的命名要按照約定來(lái)固定,否則,文本解析器不能自動(dòng)找到要解析的對(duì)象文件;并且,文本解析器只能解析固定格式的文本文件,要解析的文本文件格式一旦改變,需要重新編譯文本解析器才能再對(duì)文本文件進(jìn)行解析,使得文本解析的效率比較低。

發(fā)明內(nèi)容
本發(fā)明要解決的技術(shù)問(wèn)題是提供一種文本解析方法及裝置,能夠解析多種格式的文本文件,提高文本解析的效率。為解決上述技術(shù)問(wèn)題,本發(fā)明的實(shí)施例提供技術(shù)方案如下:一方面,提供一種文本解析方法,包括:確定待解析的文本文件,獲取與所述文本文件相對(duì)應(yīng)的配置信息,所述配置信息包括用于對(duì)文本文件進(jìn)行解析的腳本文件;根據(jù)所述配置信息讀取待解析的文本文件,并運(yùn)行所述腳本文件對(duì)所述文本文件進(jìn)行解析,存儲(chǔ)解析后得到的文本數(shù)據(jù)。進(jìn)一步地,所述確定待解析的文本文件之前還包括:獲取并存儲(chǔ)預(yù)先編制的用以對(duì)至少一種類(lèi)型文本文件進(jìn)行解析的腳本文件。進(jìn)一步地,所述根據(jù)所述配置信息讀取待解析的文本文件,并運(yùn)行所述腳本文件對(duì)所述文本文件進(jìn)行解析,存儲(chǔ)解析后得到的文本數(shù)據(jù)包括:根據(jù)所述配置信息將待解析的文本文件讀取成一個(gè)以上純文本文件;運(yùn)行所述腳本文件對(duì)所述一個(gè)以上純文本文件進(jìn)行解析,得到對(duì)應(yīng)所述待解析的文本文件的文本數(shù)據(jù)。進(jìn)一步地,所述確定待解析的文本文件,獲取與所述文本文件相對(duì)應(yīng)的配置信息包括:掃描數(shù)據(jù)分析服務(wù)列表,獲取其中的待解析的文本文件的標(biāo)識(shí);根據(jù)所述標(biāo)識(shí)到配置文件數(shù)據(jù)庫(kù)中獲取與所述文本文件相對(duì)應(yīng)的配置信息。進(jìn)一步地,所述根據(jù)所述配置信息讀取待解析的文本文件,并運(yùn)行所述腳本文件對(duì)所述文本文件進(jìn)行解析,存儲(chǔ)解析后得到的文本數(shù)據(jù)之后還包括:
修改所述數(shù)據(jù)分析服務(wù)列表中所述文本文件的任務(wù)狀態(tài),標(biāo)示所述文本文件已經(jīng)解析完畢。本發(fā)明實(shí)施例還提供了一種文本解析裝置,包括:解析服務(wù)管理模塊,用于確定待解析的文本文件,獲取與所述文本文件相對(duì)應(yīng)的配置信息,所述配置信息包括用于對(duì)文本文件進(jìn)行解析的腳本文件,并將所述配置信息發(fā)送至通用文本解析模塊;所述通用文本解析模塊,用于根據(jù)所述配置信息讀取待解析的文本文件,并運(yùn)行所述腳本文件對(duì)所述文本文件進(jìn)行解析,存儲(chǔ)解析后得到的文本數(shù)據(jù)。進(jìn)一步地,所述裝置還包括:存儲(chǔ)模塊,用于獲取并存儲(chǔ)預(yù)先編制的用以對(duì)至少一種類(lèi)型文本文件進(jìn)行解析的腳本文件。進(jìn)一步地,所述通用文本解析模塊具體用于根據(jù)所述配置信息將待解析的文本文件讀取成一個(gè)以上純文本文件,運(yùn)行所述腳本文件對(duì)所述一個(gè)以上純文本文件進(jìn)行解析,得到對(duì)應(yīng)所述待解析的文本文件的文本數(shù)據(jù)。進(jìn)一步地,所述解析服務(wù)管理模塊具體用于掃描數(shù)據(jù)分析服務(wù)列表,獲取其中的待解析的文本文件的標(biāo)識(shí),根據(jù)所述標(biāo)識(shí)到配置文件數(shù)據(jù)庫(kù)中獲取與所述文本文件相對(duì)應(yīng)的配置信息。進(jìn)一步地,所述解析服務(wù)管理模塊還用于修改所述數(shù)據(jù)分析服務(wù)列表中所述文本文件的任務(wù)狀態(tài),標(biāo)示所述文本文件已經(jīng)解析完畢。本發(fā)明的實(shí)施例具有以下有益效果:上述方案中,首先確定待解析的文本文件,獲取與該文本文件相對(duì)應(yīng)的腳本文件等配置信息,之后根據(jù)配置信息讀取待解析的文本文件,運(yùn)行腳本文件對(duì)文本文件進(jìn)行解析得到的文本數(shù)據(jù),并存儲(chǔ)文本數(shù)據(jù)。本發(fā)明可以通過(guò)配置信息將待解析文件自動(dòng)讀取為一個(gè)或多個(gè)的純文本文件,再通過(guò)預(yù)先編制的腳本自動(dòng)對(duì)各種格式的純文本文件進(jìn)行解析和抽取數(shù)據(jù),提高了文本解析的效率。


圖1為本發(fā)明的文本解析方法的流程示意圖;圖2為本發(fā)明的文本解析裝置的結(jié)構(gòu)框圖;圖3為本發(fā)明的文本解析裝置的另一結(jié)構(gòu)框圖;圖4為本發(fā)明的解析服務(wù)管理模塊的工作流程示意圖;圖5為本發(fā)明的通用文本解析模塊的工作流程示意圖。
具體實(shí)施例方式為使本發(fā)明的實(shí)施例要解決的技術(shù)問(wèn)題、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合附圖及具體實(shí)施例進(jìn)行詳細(xì)描述。本發(fā)明的實(shí)施例針對(duì)現(xiàn)有技術(shù)中文本解析器不能自動(dòng)找到要解析的對(duì)象文件,并且文本解析器只能解析固定格式的文本文件,使得文本解析的效率比較低的問(wèn)題,提供一種文本解析方法及裝置,能夠解析多種格式的文本文件,提高文本解析的效率。
圖1為本發(fā)明的文本解析方法的流程示意圖,如圖1所示,本實(shí)施例包括:步驟101:確定待解析的文本文件,獲取與文本文件相對(duì)應(yīng)的配置信息,配置信息包括用于對(duì)文本文件進(jìn)行解析的腳本文件;步驟102:根據(jù)配置信息讀取待解析的文本文件,并運(yùn)行腳本文件對(duì)文本文件進(jìn)行解析,存儲(chǔ)解析后得到的文本數(shù)據(jù)。本發(fā)明的文本解析方法,首先確定待解析的文本文件,獲取與該文本文件相對(duì)應(yīng)的腳本文件等配置信息,之后根據(jù)配置信息讀取待解析的文本文件,運(yùn)行腳本文件對(duì)文本文件進(jìn)行解析得到的文本數(shù)據(jù),并存儲(chǔ)文本數(shù)據(jù)。本發(fā)明可以通過(guò)配置信息將待解析文件自動(dòng)讀取為一個(gè)或多個(gè)的純文本文件,再通過(guò)預(yù)先編制的腳本自動(dòng)對(duì)各種格式的純文本文件進(jìn)行解析和抽取數(shù)據(jù),提高了文本解析的效率。圖2為本發(fā)明的文本解析裝置的結(jié)構(gòu)框圖,如圖2所示,本實(shí)施例包括:解析服務(wù)管理模塊21,用于確定待解析的文本文件,獲取與文本文件相對(duì)應(yīng)的配置信息,配置信息包括用于對(duì)文本文件進(jìn)行解析的腳本文件,并將配置信息發(fā)送至通用文本解析模塊22 ;通用文本解析模塊22,用于根據(jù)配置信息讀取待解析的文本文件,并運(yùn)行腳本文件對(duì)文本文件進(jìn)行解析,存儲(chǔ)解析后得到的文本數(shù)據(jù)。其中,該裝置還包括:存儲(chǔ)模塊23,用于獲取并存儲(chǔ)預(yù)先編制的用以對(duì)至少一種類(lèi)型文本文件進(jìn)行解析的腳本文件。其中,通用文本解析模塊22具體用于根據(jù)配置信息將待解析的文本文件讀取成一個(gè)以上純文本文件,運(yùn)行腳本文件對(duì)一個(gè)以上純文本文件進(jìn)行解析,得到對(duì)應(yīng)待解析的文本文件的文本數(shù)據(jù)。進(jìn)一步地,解析服務(wù)管理模塊21具體用于掃描數(shù)據(jù)分析服務(wù)列表,獲取其中的待解析的文本文件的標(biāo)識(shí),根據(jù)標(biāo)識(shí)到配置文件數(shù)據(jù)庫(kù)中獲取與文本文件相對(duì)應(yīng)的配置信
肩、O進(jìn)一步地,解析服務(wù)管理模塊21還用于修改數(shù)據(jù)分析服務(wù)列表中文本文件的任務(wù)狀態(tài),標(biāo)示文本文件已經(jīng)解析完畢。本發(fā)明的文本解析裝置,首先確定待解析的文本文件,獲取與該文本文件相對(duì)應(yīng)的腳本文件等配置信息,之后根據(jù)配置信息讀取待解析的文本文件,運(yùn)行腳本文件對(duì)文本文件進(jìn)行解析得到的文本數(shù)據(jù),并存儲(chǔ)文本數(shù)據(jù)。本發(fā)明可以通過(guò)配置信息將待解析文件自動(dòng)讀取為一個(gè)或多個(gè)的純文本文件,再通過(guò)預(yù)先編制的腳本自動(dòng)對(duì)各種格式的純文本文件進(jìn)行解析和抽取數(shù)據(jù),提高了文本解析的效率。下面結(jié)合圖3-圖5對(duì)本發(fā)明的文本解析方法進(jìn)行進(jìn)一步介紹:為實(shí)現(xiàn)通用文本格式分析的功能,本發(fā)明設(shè)計(jì)了一套描述語(yǔ)言,稱為格式分析描述原語(yǔ)(SCRIPT腳本語(yǔ)言),用于描述文本文件內(nèi)容關(guān)鍵字的位置與含義。文本解析過(guò)程通過(guò)解釋執(zhí)行描述語(yǔ)言,達(dá)到分析文本文件,提取預(yù)設(shè)的關(guān)鍵數(shù)據(jù)的目的。文本解析分兩步執(zhí)行:第一步是讀取描述語(yǔ)言的語(yǔ)句,將其組織成為語(yǔ)句執(zhí)行鏈,即將描述語(yǔ)言的配置文件讀入內(nèi)存,以增加執(zhí)行速度;第二步是按照語(yǔ)句執(zhí)行鏈的順序,逐條執(zhí)行語(yǔ)句,完成分析提取功能。
如圖2所示,本發(fā)明的文本解析裝置包括解析服務(wù)管理模塊21和通用文本解析模塊22。其中,解析服務(wù)管理模塊21實(shí)際相當(dāng)于數(shù)據(jù)解析管理的總控模塊,其具體功能包括:及時(shí)提交數(shù)據(jù)分析服務(wù)列表中的新文本解析任務(wù)——組合參數(shù)調(diào)用通用文本解析模塊22,監(jiān)控各文本解析進(jìn)程的運(yùn)行狀態(tài),處理各通用文本解析模塊返回的結(jié)果;通用文本解析模塊22接收解析服務(wù)管理模塊21傳來(lái)的任務(wù),完成相應(yīng)的文本解析任務(wù),并將解析結(jié)果存入相應(yīng)的文本數(shù)據(jù)存放表中。如圖3所示,本發(fā)明的文本解析方法包括以下步驟:步驟1:解析服務(wù)管理模塊21周期掃描數(shù)據(jù)分析服務(wù)列表,如有任務(wù)要執(zhí)行,就讀取任務(wù)信息,包括待解析的文本文件的標(biāo)識(shí),啟動(dòng)解析進(jìn)程;步驟2:解析服務(wù)管理模塊21根據(jù)待解析的文本文件的標(biāo)識(shí)到配置文件數(shù)據(jù)庫(kù)對(duì)應(yīng)地讀取SCRIPT (腳本)文件等配置信息,配置信息還包括待解析的文本文件的數(shù)據(jù)輸入和輸出的信息;步驟3:解析服務(wù)管理模塊21將要解析的任務(wù)所需的所有配置信息,包括對(duì)應(yīng)的腳本文件以及文本數(shù)據(jù)存放表名送到通用文本解析模塊22 ;步驟4:通用文本解析模塊22開(kāi)始啟動(dòng)進(jìn)程,根據(jù)配置信息從文本文件數(shù)據(jù)庫(kù)中讀取文本文件和運(yùn)行腳本文件對(duì)讀取出的文本文件進(jìn)行文本解析;步驟5:通用文本解析模塊22將文本文件解析后,將抽取的文本數(shù)據(jù)入庫(kù),存儲(chǔ)到對(duì)應(yīng)的文本數(shù)據(jù)存放表中;步驟6:通用文本解析模塊22完成本次解析和入庫(kù)后,返回解析結(jié)果的確認(rèn)信息給解析服務(wù)管理模塊21 ;步驟7:解析服務(wù)管理模塊21再返回解析結(jié)果的確認(rèn)信息給數(shù)據(jù)分析服務(wù)列表,修改數(shù)據(jù)分析服務(wù)列表中該文本文件的任務(wù)狀態(tài),標(biāo)示本任務(wù)執(zhí)行完畢。其中,配置文件數(shù)據(jù)庫(kù)中存儲(chǔ)有程序運(yùn)行所需配置文件,主要存放:I)連接數(shù)據(jù)庫(kù)的信息:User、Password、Database、ServerName ;2)各類(lèi)SCRIPT文件存放路徑的環(huán)境變量(因?yàn)榘惭b時(shí)需要對(duì)這些環(huán)境變量進(jìn)行設(shè)置)或完整路徑;3)各類(lèi)文本文件的原始數(shù)據(jù)在本機(jī)存放路徑的環(huán)境變量(因?yàn)榘惭b時(shí)需要對(duì)這些環(huán)境變量進(jìn)行設(shè)置)或完整路徑;格式如下:[DATABASE]USERNAME =PASSWORD =LINKSTRING =SEVERNAME =[FILE_PATH]SCRIPT_PATH = $SCRIPT_PATHDATAFILE_PATH =在配置文件數(shù)據(jù)庫(kù)中,每種格式的文本文件關(guān)鍵數(shù)據(jù)抽取對(duì)應(yīng)一個(gè)SCRIPT文件,SCRIPT文件就是關(guān)鍵數(shù)據(jù)抽取和控制抽取的腳本,語(yǔ)法如下:
(I)文本格式分析類(lèi)原語(yǔ):LINKDB(配置文件名):根據(jù)配置文件提供的用戶名及口令連接數(shù)據(jù)庫(kù)DISLINK:斷連數(shù)據(jù)庫(kù)GETLINE (η):從故障文本中讀入η行SAVELINE:將讀入的行保存至當(dāng)前字符串SETSTR (變量名,行I,行2):將SAVELINE中的行I至行2的內(nèi)容賦值給變量SPLIT (分隔符,η):將當(dāng)前字符串用指定分隔符分隔的第η個(gè)子串存入當(dāng)前字符串SYSTIME(字符變量名):將當(dāng)前系統(tǒng)時(shí)間變?yōu)樽址祷?,并存入指定變量TIMECHANGE (變量名,轉(zhuǎn)換前時(shí)間格式,轉(zhuǎn)換后時(shí)間格式)COLUMN(列1,列2):將當(dāng)前字符串列I至列2的子串存入當(dāng)前字符串DELETE (字符):從當(dāng)前字符串中刪除指定字符RESET:恢復(fù)當(dāng)前字符串中的初始內(nèi)容SETCHAR (變量名):將當(dāng)前字符串的內(nèi)容賦值給字符串變量DEFINECHAR(變量名,值):將指定值賦值給字符串變量

WRITEBUFF/WIRTETABLE (表名,(字段名 1,。。。),(變量 1,。。。)):將指定的變量值存入指定數(shù)據(jù)表的相應(yīng)字段STOP:出口 原語(yǔ)(2)信息項(xiàng)格式轉(zhuǎn)換類(lèi)原語(yǔ):C0NVERTTABLE(表名,轉(zhuǎn)換變量數(shù),(字段一,。。。),(變量一,。。。)):通過(guò)指定數(shù)據(jù)表進(jìn)行信息項(xiàng)的格式轉(zhuǎn)換。(3)輔助類(lèi)原語(yǔ):IF (條件)ELSEENDIF:用以構(gòu)成分支結(jié)構(gòu)LOOP (條件)ENDL00P:用以構(gòu)成循環(huán)結(jié)構(gòu)BREAK:跳出循環(huán)結(jié)構(gòu)CONTINUE:跳出本次循環(huán)COMPARE (字符串):比較當(dāng)前字符串與指定字符串,相同返回非零值,反之為OIN(字符串):判斷當(dāng)前字符串是否包含與指定字符串相同的子串。若有,返回非零值,反之為OIS(變量,字符串):判斷變量的值是否與字符串的值相等& !:邏輯非&:邏輯或&&:邏輯與 :表示折行圖4為本發(fā)明的解析服務(wù)管理模塊的工作流程示意圖,如圖4所示,解析服務(wù)管理模塊的輸入為數(shù)據(jù)分析服務(wù)列表中各字段值,輸出為調(diào)用通用文本分析模塊的各參數(shù)值。解析服務(wù)管理模塊主要調(diào)用的都是標(biāo)準(zhǔn)的共享內(nèi)存存取、Sybase數(shù)據(jù)表操作以及I/O操作等函數(shù)。其中,子進(jìn)程監(jiān)控函數(shù):1)若采用共享內(nèi)存的第一種數(shù)據(jù)結(jié)構(gòu),該函數(shù)的功能是查詢當(dāng)前共享內(nèi)存中子進(jìn)程的個(gè)數(shù)。2)若采用第二種數(shù)據(jù)結(jié)構(gòu),該函數(shù)的功能是查找當(dāng)前共享內(nèi)存中是否還可以申請(qǐng)子進(jìn)程記錄結(jié)構(gòu)。若不能,則還負(fù)責(zé)將超時(shí)的進(jìn)程殺掉。其中,子進(jìn)程管理函數(shù):1)若采用共享內(nèi)存的第一種數(shù)據(jù)結(jié)構(gòu),該函數(shù)的功能是由子進(jìn)程將共享內(nèi)存中的記錄數(shù)加I。2)若采用第二種數(shù)據(jù)結(jié)構(gòu),該函數(shù)的功能是子進(jìn)程將自身創(chuàng)建時(shí)的信息記錄到相應(yīng)結(jié)構(gòu)中(這個(gè)結(jié)構(gòu)記錄是父進(jìn)程查找到的)。其中,子進(jìn)程更新函數(shù):1)若采用共享內(nèi)存的第一種數(shù)據(jù)結(jié)構(gòu),該函數(shù)應(yīng)放在子進(jìn)程終止之前。其功能是將共享內(nèi)存中的記錄數(shù)減I。2)若采用第二種數(shù)據(jù)結(jié)構(gòu),該函數(shù)的功能是子進(jìn)程定期修改其在共享內(nèi)存中的記錄值(更改時(shí)間),以表示其還正在正常運(yùn)行。上述工作流程中,本發(fā)明的解析服務(wù)管理模塊查詢數(shù)據(jù)分析服務(wù)列表,判斷是否有需要執(zhí)行的解析任務(wù),在存在需要執(zhí)行的解析任務(wù)時(shí)創(chuàng)建子進(jìn)程,接收父進(jìn)程傳來(lái)的數(shù)據(jù),查詢配置文件數(shù)據(jù)庫(kù),獲取相應(yīng)的腳本文件等配置信息,并根據(jù)配置信息讀取文本文件至相應(yīng)路徑下,在讀取文本文件的過(guò)程中,可以將文本文件自動(dòng)分解成一個(gè)或多個(gè)的對(duì)象文件,對(duì)象文件為腳本文件能夠解析的純文本文件,之后調(diào)用通用文本解析模塊就可以對(duì)各種格式的純文本文件進(jìn)行解析,獲得解析結(jié)果。解析服務(wù)管理模塊可以為每一個(gè)對(duì)象文件創(chuàng)建一個(gè)對(duì)應(yīng)的子進(jìn)程,這樣可以靈活快速地對(duì)文本文件進(jìn)行解析,提高了解析的效率。在接收到通用文本解析模塊返回的解析結(jié)果后,解析服務(wù)管理模塊修改數(shù)據(jù)分析服務(wù)列表中的相應(yīng)記錄,標(biāo)示對(duì)應(yīng)的解析任務(wù)已經(jīng)執(zhí)行完畢。圖5為本發(fā)明的通用文本解析模塊的工作流程示意圖,如圖5所示,通用文本解析模塊的輸入為由解析服務(wù)管理模塊傳入的各參數(shù)值、SCRIPT文件、待解析的文本文件,輸出為抽取完畢的入庫(kù)文本數(shù)據(jù)。通用文本解析模塊接收解析服務(wù)管理模塊發(fā)送過(guò)來(lái)的包括腳本文件在內(nèi)的配置信息,在檢查配置信息無(wú)誤后,讀入解析腳本,檢查解析腳本格式是否符合要求,若符合要求,則讀入待解析的對(duì)象文件(即源文本文件)的內(nèi)容,使用腳本進(jìn)行逐行解析,并在解析完畢后輸出結(jié)果文件給解析服務(wù)管理模塊。本發(fā)明提供了一種簡(jiǎn)單的腳本語(yǔ)言,稱為格式分析描述原語(yǔ),利用腳本語(yǔ)言來(lái)編寫(xiě)腳本,就可以自動(dòng)對(duì)任何格式的純文本文件進(jìn)行解析、抽取數(shù)據(jù)和入庫(kù),本發(fā)明的腳本文件能夠?qū)σ磺屑兾谋疚募?.txt> *.log、*.data等進(jìn)行解析,解決了現(xiàn)有的一個(gè)解析器只能解析一種固定格式的文本文件的難題。此說(shuō)明書(shū)中所描述的許多功能部件都被稱為模塊,以便更加特別地強(qiáng)調(diào)其實(shí)現(xiàn)方式的獨(dú)立性。本發(fā)明實(shí)施例中,模塊可以用軟件實(shí)現(xiàn),以便由各種類(lèi)型的處理器執(zhí)行。舉例來(lái)說(shuō),一個(gè)標(biāo)識(shí)的可執(zhí)行代碼模塊可以包括計(jì)算機(jī)指令的一個(gè)或多個(gè)物理或者邏輯塊,舉例來(lái)說(shuō),其可以被構(gòu)建為對(duì)象、過(guò)程或函數(shù)。盡管如此,所標(biāo)識(shí)模塊的可執(zhí)行代碼無(wú)需物理地位于一起,而是可以包括存儲(chǔ)在不同位上的不同的指令,當(dāng)這些指令邏輯上結(jié)合在一起時(shí),其構(gòu)成模塊并且實(shí)現(xiàn)該模塊的規(guī)定目的。實(shí)際上,可執(zhí)行代碼模塊可以是單條指令或者是許多條指令,并且甚至可以分布在多個(gè)不同的代碼段上,分布在不同程序當(dāng)中,以及跨越多個(gè)存儲(chǔ)器設(shè)備分布。同樣地,操作數(shù)據(jù)可以在模塊內(nèi)被識(shí)別,并且可以依照任何適當(dāng)?shù)男问綄?shí)現(xiàn)并且被組織在任何適當(dāng)類(lèi)型的數(shù)據(jù)結(jié)構(gòu)內(nèi)。所述操作數(shù)據(jù)可以作為單個(gè)數(shù)據(jù)集被收集,或者可以分布在不同位置上(包括在不同存儲(chǔ)設(shè)備上),并且至少部分地可以僅作為電子信號(hào)存在于系統(tǒng)或網(wǎng)絡(luò)上。在模塊可以利用軟件實(shí)現(xiàn)時(shí),考慮到現(xiàn)有硬件工藝的水平,所以可以以軟件實(shí)現(xiàn)的模塊,在不考慮成本的情況下,本領(lǐng)域技術(shù)人員都可以搭建對(duì)應(yīng)的硬件電路來(lái)實(shí)現(xiàn)對(duì)應(yīng)的功能,所述硬件電路包括常規(guī)的超大規(guī)模集成(VLSI)電路或者門(mén)陣列以及諸如邏輯芯片、晶體管之類(lèi)的現(xiàn)有半導(dǎo)體或者是其它分立的元件。模塊還可以用可編程硬件設(shè)備,諸如現(xiàn)場(chǎng)可編程門(mén)陣列、可編程陣列邏輯、可編程邏輯設(shè)備等實(shí)現(xiàn)。在本發(fā)明各方法實(shí)施例中,所述各步驟的序號(hào)并不能用于限定各步驟的先后順序,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)的前提下,對(duì)各步驟的先后變化也在本發(fā)明的保護(hù)范圍之內(nèi)。以上所述是本發(fā)明的優(yōu)選實(shí)施方式,應(yīng)當(dāng)指出,對(duì)于本技術(shù)領(lǐng)域的普通技術(shù)人員來(lái)說(shuō),在不脫離本發(fā)明所述原理的前提下,還可以作出若干改進(jìn)和潤(rùn)飾,這些改進(jìn)和潤(rùn)飾也應(yīng)視為本發(fā)明的保護(hù)范圍。
權(quán)利要求
1.一種文本解析方法,其特征在于,包括: 確定待解析的文本文件,獲取與所述文本文件相對(duì)應(yīng)的配置信息,所述配置信息包括用于對(duì)文本文件進(jìn)行解析的腳本文件; 根據(jù)所述配置信息讀取待解析的文本文件,并運(yùn)行所述腳本文件對(duì)所述文本文件進(jìn)行解析,存儲(chǔ)解析后得到的文本數(shù)據(jù)。
2.根據(jù)權(quán)利要求1所述的文本解析方法,其特征在于,所述確定待解析的文本文件之前還包括: 獲取并存儲(chǔ)預(yù)先編制的用以對(duì)至少一種類(lèi)型文本文件進(jìn)行解析的腳本文件。
3.根據(jù)權(quán)利要求1所述的文本解析方法,其特征在于,所述根據(jù)所述配置信息讀取待解析的文本文件,并運(yùn)行所述腳本文件對(duì)所述文本文件進(jìn)行解析,存儲(chǔ)解析后得到的文本數(shù)據(jù)包括: 根據(jù)所述配置信息將待解析的文本文件讀取成一個(gè)以上純文本文件; 運(yùn)行所述腳本文件對(duì)所述一個(gè)以上純文本文件進(jìn)行解析,得到對(duì)應(yīng)所述待解析的文本文件的文本數(shù)據(jù)。
4.根據(jù)權(quán)利要求1所述的文本解析方法,其特征在于,所述確定待解析的文本文件,獲取與所述文本文件相對(duì)應(yīng)的配置信息包括: 掃描數(shù)據(jù)分析服務(wù)列表,獲取其中的待解析的文本文件的標(biāo)識(shí); 根據(jù)所述標(biāo)識(shí)到配置文件數(shù)據(jù)庫(kù)中獲取與所述文本文件相對(duì)應(yīng)的配置信息。
5.根據(jù)權(quán)利要求4所述的文本解析方法,其特征在于,所述根據(jù)所述配置信息讀取待解析的文本文件,并運(yùn)行所述腳本文件對(duì)所述文本文件進(jìn)行解析,存儲(chǔ)解析后得到的文本數(shù)據(jù)之后還包括: 修改所述數(shù)據(jù)分析服務(wù)列表中所述文本文件的任務(wù)狀態(tài),標(biāo)示所述文本文件已經(jīng)解析完畢。
6.一種文本解析裝置,其特征在于,包括: 解析服務(wù)管理模塊,用于確定待解析的文本文件,獲取與所述文本文件相對(duì)應(yīng)的配置信息,所述配置信息包括用于對(duì)文本文件進(jìn)行解析的腳本文件,并將所述配置信息發(fā)送至通用文本解析模塊; 所述通用文本解析模塊,用于根據(jù)所述配置信息讀取待解析的文本文件,并運(yùn)行所述腳本文件對(duì)所述文本文件進(jìn)行解析,存儲(chǔ)解析后得到的文本數(shù)據(jù)。
7.根據(jù)權(quán)利要求6的文本解析裝置,其特征在于,所述裝置還包括: 存儲(chǔ)模塊,用于獲取并存儲(chǔ)預(yù)先編制的用以對(duì)至少一種類(lèi)型文本文件進(jìn)行解析的腳本文件。
8.根據(jù)權(quán)利要求6的文本解析裝置,其特征在于, 所述通用文本解析模塊具體用于根據(jù)所述配置信息將待解析的文本文件讀取成一個(gè)以上純文本文件,運(yùn)行所述腳本文件對(duì)所述一個(gè)以上純文本文件進(jìn)行解析,得到對(duì)應(yīng)所述待解析的文本文件的文本數(shù)據(jù)。
9.根據(jù)權(quán)利要求6的文本解析裝置,其特征在于, 所述解析服務(wù)管理模塊具體用于掃描數(shù)據(jù)分析服務(wù)列表,獲取其中的待解析的文本文件的標(biāo)識(shí),根據(jù)所述標(biāo)識(shí)到配置文件數(shù)據(jù)庫(kù)中獲取與所述文本文件相對(duì)應(yīng)的配置信息。
10.根據(jù)權(quán)利要求9的文本解析裝置,其特征在于, 所述解析服務(wù)管理模塊還用于修改所述數(shù)據(jù)分析服務(wù)列表中所述文本文件的任務(wù)狀態(tài),標(biāo)示所述文本文 件已經(jīng)解析完畢。
全文摘要
本發(fā)明提供一種文本解析方法及裝置,屬于網(wǎng)管領(lǐng)域。其中,該文本解析方法包括確定待解析的文本文件,獲取與所述文本文件相對(duì)應(yīng)的配置信息,所述配置信息包括用于對(duì)文本文件進(jìn)行解析的腳本文件;根據(jù)所述配置信息讀取待解析的文本文件,并運(yùn)行所述腳本文件對(duì)所述文本文件進(jìn)行解析,存儲(chǔ)解析后得到的文本數(shù)據(jù)。本發(fā)明的技術(shù)方案能夠解析多種格式的文本文件,提高文本解析的效率。
文檔編號(hào)G06F17/22GK103177045SQ201110443238
公開(kāi)日2013年6月26日 申請(qǐng)日期2011年12月26日 優(yōu)先權(quán)日2011年12月26日
發(fā)明者黃志榮, 周文生, 陳偉球, 易海坤, 黃秀玲, 羅志全 申請(qǐng)人:中國(guó)移動(dòng)通信集團(tuán)廣東有限公司
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
宁陕县| 北碚区| 益阳市| 望江县| 泾阳县| 佛学| 大新县| 青龙| 天镇县| 商都县| 务川| 和田县| 汕头市| 哈巴河县| 炎陵县| 定结县| 吴桥县| 嫩江县| 鞍山市| 滨海县| 鹤岗市| 广水市| 峨山| 苏尼特右旗| 诸城市| 乌兰县| 曲沃县| 克什克腾旗| 安丘市| 江都市| 大竹县| 长丰县| 屏边| 临汾市| 武汉市| 湘乡市| 连云港市| 宜丰县| 通辽市| 武汉市| 禄丰县|