一種安全生產(chǎn)監(jiān)督管理政務(wù)信息的自動(dòng)編目方法
【專利摘要】一種對(duì)于安全生產(chǎn)監(jiān)督管理政務(wù)信息,進(jìn)行自動(dòng)編目的方法。規(guī)范化各類政務(wù)信息的編目元數(shù)據(jù),以靈活配置的方式,達(dá)到實(shí)時(shí)在線自動(dòng)化編目的目的,提高了編目的工作效率。
【專利說(shuō)明】一種安全生產(chǎn)監(jiān)督管理政務(wù)信息的自動(dòng)編目方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明屬于電子政務(wù)領(lǐng)域,涉及安全生產(chǎn)監(jiān)督管理政務(wù)信息的自動(dòng)編目方法和系統(tǒng)。
【背景技術(shù)】
[0002]隨著信息技術(shù)發(fā)展,安全生產(chǎn)監(jiān)督管理局對(duì)信息化進(jìn)程提出了更高的要求,迫切希望利用WEB技術(shù)來(lái)幫助自己提升管理能力。信息共享是提升管理能力的一種有效方式,安全生產(chǎn)監(jiān)督管理局在日常的安全生產(chǎn)監(jiān)督管理中,產(chǎn)生了大量的政務(wù)信息,包括企業(yè)基本信息、隱患信息、安全生產(chǎn)標(biāo)準(zhǔn)化信息、重大危險(xiǎn)源信息、應(yīng)急信息、教育培訓(xùn)信息、事故信息、行政執(zhí)法信息等,這些信息離散的存在于各級(jí)安全生產(chǎn)監(jiān)督管理局及相關(guān)企事業(yè)單位,迫切要求實(shí)現(xiàn)信息共享,提升工作效率。而編目工作是實(shí)現(xiàn)信息共享,解決信息孤島的基礎(chǔ)。人工手工編目,在人力資源投入上,在信息工作量上,都不符合現(xiàn)階段日益膨脹的安全生產(chǎn)政務(wù)信息的信息量,因此,迫切需要一款能夠?qū)Π踩a(chǎn)監(jiān)督管理政務(wù)信息進(jìn)行自動(dòng)編目的方法和系統(tǒng)。
【發(fā)明內(nèi)容】
[0003]本發(fā)明提供了一種對(duì)于安全生產(chǎn)監(jiān)督管理政務(wù)信息,進(jìn)行自動(dòng)編目的方法。規(guī)范化各類政務(wù)信息的編目元數(shù)據(jù),以靈活配置的方式,達(dá)到實(shí)時(shí)在線自動(dòng)化編目的目的,提高了編目的工作效率。
[0004]為了達(dá)到上述目的,本發(fā)明提供了一種對(duì)安全生產(chǎn)政務(wù)信息自動(dòng)編目的方法,包括以下步驟:
針對(duì)安全生產(chǎn)監(jiān)督管理政務(wù)信息資源,進(jìn)行信息資源分類。分類包括:企業(yè)基本信息、隱患排查信息、安全生產(chǎn)標(biāo)準(zhǔn)化信息、重大危險(xiǎn)源信息、應(yīng)急演練信息、教育培訓(xùn)信息、事故Ih息、行政執(zhí)法息等。
[0005]針對(duì)安全生產(chǎn)監(jiān)督管理政務(wù)信息資源,制定編目元數(shù)據(jù)。編目元數(shù)據(jù)包括:信息資源名稱、信息資源分類、信息資源提供方、信息資源所屬行政區(qū)劃、信息資源所屬行業(yè)、信息資源摘要信息、信息獲取地址。
[0006]針對(duì)每一種分類政務(wù)資源信息,制定內(nèi)容摘要獲取算法。如:企業(yè)基本信息,抽取地址,主要負(fù)責(zé)人,描述內(nèi)容等做為企業(yè)摘要信息。
[0007]通過(guò)可視化的人機(jī)交互配置,建立安全生產(chǎn)監(jiān)督管理政務(wù)信息資源數(shù)據(jù)與編目目錄數(shù)據(jù)的對(duì)應(yīng)關(guān)系。配置信息以XML的形式,持久化在系統(tǒng)中。
[0008]自動(dòng)編目引擎,通過(guò)配置信息要求,提取安全生產(chǎn)監(jiān)督管理政務(wù)信息資源數(shù)據(jù),自動(dòng)生成目錄信息,以供利用方使用。自動(dòng)編目算法的基本步驟如下:通過(guò)配置信息,獲取安全生產(chǎn)監(jiān)督管理政務(wù)信息資源數(shù)據(jù)的數(shù)據(jù)來(lái)源。
【專利附圖】
【附圖說(shuō)明】[0009]圖1 一種安全生產(chǎn)監(jiān)督管理政務(wù)信息的自動(dòng)編目方法流程圖。
【具體實(shí)施方式】
[0010]如圖1所示,一種安全生產(chǎn)監(jiān)督管理政務(wù)信息的自動(dòng)編目方法流程圖:
針對(duì)安全生產(chǎn)監(jiān)督管理政務(wù)信息資源,進(jìn)行信息資源分類。分類包括:企業(yè)基本信息、隱患排查信息、安全生產(chǎn)標(biāo)準(zhǔn)化信息、重大危險(xiǎn)源信息、應(yīng)急演練信息、教育培訓(xùn)信息、事故Ih息、行政執(zhí)法息等。
[0011 ] 針對(duì)安全生產(chǎn)監(jiān)督管理政 務(wù)信息資源,制定編目元數(shù)據(jù)。編目元數(shù)據(jù)包括:信息資源名稱、信息資源分類、信息資源提供方、信息資源所屬行政區(qū)劃、信息資源所屬行業(yè)、信息資源摘要信息、信息獲取地址。
[0012]針對(duì)每一種分類政務(wù)資源信息,制定內(nèi)容摘要獲取算法。如:企業(yè)基本信息,抽取地址,主要負(fù)責(zé)人,描述內(nèi)容等做為企業(yè)摘要信息。
[0013]通過(guò)可視化的人機(jī)交互配置,建立安全生產(chǎn)監(jiān)督管理政務(wù)信息資源數(shù)據(jù)與編目目錄數(shù)據(jù)的對(duì)應(yīng)關(guān)系。配置信息以XML的形式,持久化在系統(tǒng)中。
[0014]自動(dòng)編目引擎,通過(guò)配置信息要求,提取安全生產(chǎn)監(jiān)督管理政務(wù)信息資源數(shù)據(jù),自動(dòng)生成目錄信息,以供利用方使用。自動(dòng)編目算法的基本步驟如下:通過(guò)配置信息,獲取安全生產(chǎn)監(jiān)督管理政務(wù)信息資源數(shù)據(jù)的數(shù)據(jù)來(lái)源,
其中對(duì)具體信息的編目配置按照如下步驟進(jìn)行:
S1:為視音頻文件構(gòu)建一套多維多層面編目標(biāo)注體系,容納對(duì)視音頻文件多層面屬性的標(biāo)注;
定義多維多層面編目的編目框架:
該方法運(yùn)行的基礎(chǔ)是設(shè)計(jì)一套開放的、兼容并包的數(shù)據(jù)框架--編目體系架構(gòu),突破傳統(tǒng)館藏的規(guī)范、格式的視音頻信息描述局限,提供一種非結(jié)構(gòu)化的信息描述和表達(dá)架構(gòu);采用非關(guān)系型數(shù)據(jù)模型,實(shí)現(xiàn)對(duì)視頻進(jìn)行任意的、非對(duì)稱的、非關(guān)系的描述信息定義,因此能夠?qū)崿F(xiàn)如館藏、編碼技術(shù)、拍攝技術(shù)、拍攝手法、內(nèi)容語(yǔ)義、環(huán)境特征、情感等方面的高層概念和語(yǔ)義的綜合標(biāo)注。
[0015]對(duì)視音頻素材應(yīng)用編目框架:
視音頻素材自身的描述信息非常有限,通常只包含了標(biāo)題文件名信息。但實(shí)際上,視音頻素材本身包含了大量豐富的信息,如果能夠充分利用這些信息,對(duì)視音頻的管理、查找和再利用都會(huì)有巨大的幫助。因此,將上一步定義的多維多層面編目的框架應(yīng)用到視音頻素材上,構(gòu)建一個(gè)基礎(chǔ)平臺(tái),有了這個(gè)平臺(tái),才有可能通過(guò)各種技術(shù)手段,將視音頻素材自包含的信息獲取出來(lái),達(dá)到通過(guò)一定的搜索引擎進(jìn)行搜索的能力和目標(biāo)。
[0016]S2:基于該編目標(biāo)注體系,進(jìn)行多維度的編目標(biāo)注;
將視音頻素材自包含的信息抽取出來(lái),基于第二步中應(yīng)用的框架,將這些抽取出來(lái)的信息附加到音視頻上,實(shí)現(xiàn)從抽象的自表達(dá)信息變成為具體的、可以存儲(chǔ)為數(shù)據(jù)的、可以識(shí)別和檢索的信息。
[0017]進(jìn)一步的,編目標(biāo)準(zhǔn)有兩種方案:第一種方案是由人來(lái)識(shí)別這些信息,將這些信息用文字表達(dá)出來(lái),方法是依次瀏覽整個(gè)視音頻素材,在這個(gè)過(guò)程中逐漸記錄其自包含的信息,并將其文字化。第二種方案采用圖像處理手段,自動(dòng)地獲取出來(lái),方法是對(duì)視頻文件進(jìn)行分析,對(duì)場(chǎng)景進(jìn)行識(shí)別和切分,并查找出關(guān)鍵幀圖片,對(duì)關(guān)鍵幀圖片再應(yīng)用圖像處理算法,獲取出圖像特征,如顏色、文理、對(duì)象、場(chǎng)景等,然后通過(guò)人工智能的手段對(duì)這些場(chǎng)景進(jìn)行識(shí)別并將其文字化。第一種方案簡(jiǎn)單直接,但是費(fèi)時(shí)費(fèi)力,識(shí)別的效果好壞完全依賴于識(shí)別者的知識(shí)和技能;第二種技術(shù)難度大,但是一旦突破了技術(shù)門檻,它的識(shí)別效率、準(zhǔn)確度都相比第一種方案高。本方法中,應(yīng)用第二種方案為主,輔以第一種方案進(jìn)行適當(dāng)?shù)卣{(diào)校和優(yōu)化,達(dá)到更佳的效果。
[0018]S3:通過(guò)圖像分析算法抽取代表幀圖片;
54:對(duì)代表幀圖片進(jìn)行場(chǎng)景檢測(cè),獲取高層語(yǔ)義信息,并自動(dòng)標(biāo)注與定義到編目標(biāo)注體系中;
55:對(duì)多維度編目標(biāo)注體系構(gòu)建存儲(chǔ)與索引系統(tǒng),提供對(duì)編目信息的隨機(jī)高效存?。?br>
56:通過(guò)多維度編目標(biāo)注的層面組合與遞進(jìn)檢索手段,實(shí)現(xiàn)快速、精確的查找。
[0019]靈活的編目框架,可以采用XML技術(shù)手段來(lái)定義容納各種信息的的編目框架,在⑶I表達(dá)上,采用InEdit技術(shù),實(shí)現(xiàn)屬性的動(dòng)態(tài)拖動(dòng)編輯與布局。
[0020]關(guān)鍵幀抽取算法,可以采用圖像向量空間距離對(duì)比,直方圖對(duì)比等圖像素材,計(jì)算場(chǎng)景變換與抽取代表的關(guān)鍵幀。
[0021]圖像處理算法,采用顏色計(jì)算、灰度化、二值化、直方圖、模式識(shí)別等通用的成熟算法,獲取圖像的基本特征,在此基礎(chǔ)上,采用人工智能與神經(jīng)網(wǎng)絡(luò),通過(guò)機(jī)器學(xué)習(xí)將圖像特征與高層語(yǔ)義結(jié)合起來(lái),達(dá)到自動(dòng)識(shí)別場(chǎng)景并表達(dá)為人能夠理解的文字與概念的目的。
[0022]海量信息存儲(chǔ),采用NoSQL數(shù)據(jù)庫(kù)和JSON數(shù)據(jù)結(jié)構(gòu),來(lái)達(dá)到快速、高效的非結(jié)構(gòu)數(shù)據(jù)存儲(chǔ)與讀取。海量信息索引,采用Lucene作為引擎框架,采用Hadoop實(shí)現(xiàn)海量數(shù)據(jù)的分布式調(diào)度與索引。
[0023]層面的聚類與組合,在檢索技術(shù)上,采用全文檢索作為入口,然后根據(jù)概念對(duì)結(jié)果進(jìn)行聚類組合,技術(shù)上可以采用劃分發(fā)、層次法、基于密度的方法、基于網(wǎng)格的方法和基于模型的方法等聚類算法或幾種算法的組合來(lái)實(shí)現(xiàn)層面的聚類與組合。
[0024]海量編目信息存儲(chǔ)與索引:在人工或自動(dòng)標(biāo)注階段,會(huì)產(chǎn)生大量的編目信息,這些信息通過(guò)關(guān)系型數(shù)據(jù)庫(kù)是沒(méi)有辦法存儲(chǔ)與讀取的,本方法采用NoSQL作為數(shù)據(jù)存儲(chǔ),通過(guò)NoSQL的高性能與海量數(shù)據(jù)處理能力。在索引方法上,通過(guò)Hadoop的分布式文件系統(tǒng)和數(shù)據(jù)處理能力,實(shí)現(xiàn)海量數(shù)據(jù)的索引。
[0025]基于層面的搜索與選取:通過(guò)對(duì)檢索意圖的預(yù)判,結(jié)合檢索關(guān)鍵詞,按照編目信息的維度進(jìn)行聚類與組合,提供給操作者選擇的選擇,由于在人工與自動(dòng)標(biāo)注步驟中對(duì)高層語(yǔ)義、藝術(shù)語(yǔ)義與技術(shù)語(yǔ)義進(jìn)行標(biāo)準(zhǔn),操作者能夠按照視頻表達(dá)的喜怒哀樂(lè)等情感、拍攝的角度與技術(shù)等方面來(lái)選擇需要的音視頻和畫面。
【權(quán)利要求】
1.一種對(duì)安全生產(chǎn)政務(wù)信息自動(dòng)編目的方法,包括以下步驟: 針對(duì)安全生產(chǎn)監(jiān)督管理政務(wù)信息資源,進(jìn)行信息資源分類,包括:企業(yè)基本信息、隱患排查信息、安全生產(chǎn)標(biāo)準(zhǔn)化信息、重大危險(xiǎn)源信息、應(yīng)急演練信息、教育培訓(xùn)信息、事故信息、行政執(zhí)法信息。
2.針對(duì)安全生產(chǎn)監(jiān)督管理政務(wù)信息資源,制定編目元數(shù)據(jù)。
3.編目元數(shù)據(jù)包括:信息資源名稱、信息資源分類、信息資源提供方、信息資源所屬行政區(qū)劃、信息資源所屬行業(yè)、信息資源摘要信息、信息獲取地址。
4.針對(duì)每一種分類政務(wù)資源信息,制定內(nèi)容摘要獲取算法,包括企業(yè)基本信息,抽取地址,主要負(fù)責(zé)人,描述內(nèi)容等做為企業(yè)摘要信息。
5.通過(guò)可視化的人機(jī)交互配置,建立安全生產(chǎn)監(jiān)督管理政務(wù)信息資源數(shù)據(jù)與編目目錄數(shù)據(jù)的對(duì)應(yīng)關(guān)系。
6.配置信息以XML的形式,持久化在系統(tǒng)中。
7.自動(dòng)編目引擎,通過(guò)配置信息要求,提取安全生產(chǎn)監(jiān)督管理政務(wù)信息資源數(shù)據(jù),自動(dòng)生成目錄信息,以供利用方使用。
【文檔編號(hào)】G06F17/30GK103995826SQ201410140197
【公開日】2014年8月20日 申請(qǐng)日期:2014年4月9日 優(yōu)先權(quán)日:2014年4月9日
【發(fā)明者】方緒群, 張峰生, 程正輝 申請(qǐng)人:浙江圖訊科技有限公司