似的標號表示相同或類似的元件或具有相同或類似功能的元件。下面通過參考附圖描述的實施例是示例性的,僅用于解釋本發(fā)明,而不能解釋為對本發(fā)明的限制。
[0056]本技術領域技術人員可以理解,除非特意聲明,這里使用的單數(shù)形式“一”、“一個”、“所述”和“該”也可包括復數(shù)形式。應該進一步理解的是,本發(fā)明的說明書中使用的措辭“包括”是指存在所述特征、整數(shù)、步驟、操作、元件和/或組件,但是并不排除存在或添加一個或多個其他特征、整數(shù)、步驟、操作、元件、組件和/或它們的組。
[0057]本技術領域技術人員可以理解,除非另外定義,這里使用的所有術語(包括技術術語和科學術語),具有與本發(fā)明所屬領域中的普通技術人員的一般理解相同的意義。還應該理解的是,諸如通用字典中定義的那些術語,應該被理解為具有與現(xiàn)有技術的上下文中的意義一致的意義,并且除非被特定定義,否則不會用理想化或過于正式的含義來解釋。
[0058]本發(fā)明針對農業(yè)視頻的特殊性,提出了一種基于文本信息的農業(yè)視頻智能分類方法及裝置,通過農業(yè)視頻文本信息提取及標準化處理來進行視頻分類。本發(fā)明是根據以非正式文本形式出現(xiàn)的農業(yè)領域特定的專有名詞進行分類,給農業(yè)視頻快速搜索奠定了良好的基礎。
[0059]圖1示意性示出了本發(fā)明一個實施例的基于文本的農業(yè)視頻智能分類方法的流程圖;
[0060]參照圖1,本發(fā)明實施例的基于文本的農業(yè)視頻智能分類方法,包括:
[0061]SI 1、構建農業(yè)相關信息的本體庫;
[0062]S12、獲取待分類的視頻的文本信息;
[0063]S13、將所述文本信息劃分為屬性標簽和數(shù)據元素,并對所述數(shù)據元素進行標注;
[0064]S14、將標注后的數(shù)據元素進行打包,生成所述待分類的視頻的特征信息;
[0065]S15、利用所述農業(yè)相關信息的本體庫與所述待分類的視頻的特征信息進行比對,根據比對結果對所述待分類的視頻進行分類。
[0066]為了進一步體現(xiàn)發(fā)明的優(yōu)越性,如下進一步揭示本發(fā)明基于文本的農業(yè)視頻智能分類方法中步驟Sll的細分步驟,來體現(xiàn)依據本步驟實現(xiàn)的另一實施例。本發(fā)明實施例中步驟Sll的細分步驟包括:
[0067]SI 11、從互聯(lián)網數(shù)據中抓取涉農網站的初始URL ;
[0068]S112、根據所述初始URL,采用爬蟲引擎處理技術搜索所述初始URL對應的網頁上的所有鏈接,下載搜索到的鏈接對應的URL得到網址集合;
[0069]S113、利用責任鏈模式,對所述網址集合中的URL進行過濾,得到與農業(yè)相關的網站對應的URL ;
[0070]本發(fā)明實施例中,利用ApacheCommonsChain的責任鏈模式,對所述網址集合中的URL進行過濾,發(fā)現(xiàn)一個經過濾的網址扔入鏈條中,責任鏈中URL符合的類會自行處理:解析該網頁上的數(shù)據。
[0071]S114、解析所述過濾得到的URL對應的農業(yè)相關網站,得到與農業(yè)相關的特征詞;
[0072]本發(fā)明實施例中,解析所述過濾得到的URL對應的農業(yè)相關網站,得到與農業(yè)相關的特征詞,具體包括:對所述過濾得到的URL對應的農業(yè)相關網站,交付農業(yè)相關信息語法剖析程式進行數(shù)據解析。其中解析數(shù)據過程采用了 HtmlParser框架進行。將相關網頁上得到的相關信息包裝成鍵值對Map,采用Map過濾器去除map中數(shù)據庫沒有相應字段的那些雜質鍵值對,得到要存入數(shù)據庫的過濾后的Map。其中,將過濾后的map交付DAO層準備存儲。解析過程中發(fā)現(xiàn)可以找到的信息頁面,啟用模型處理器。
[0073]S115、根據所述與農業(yè)相關的特征詞構建農業(yè)相關信息的本體庫。
[0074]進一步地,步驟SI 12中的采用爬蟲引擎處理技術搜索所述初始URL對應的網頁上的所有鏈接,具體包括:將所述初始URL交付網頁爬蟲算法;所述網頁爬蟲算法以廣度優(yōu)先的方式不斷爬行,搜索所述初始URL對應的網頁上的所有鏈接。
[0075]本發(fā)明實施例中,網頁爬蟲包括使用隊列數(shù)據結構,將隊首網址出隊,進入剛出隊的這個網頁,將該網頁上所有連接經過濾后入隊,以這種廣度優(yōu)先的方式不斷爬行,得到網址集合,將此網址的網頁交付責任鏈處理。
[0076]為了進一步體現(xiàn)發(fā)明的優(yōu)越性,如下進一步揭示本發(fā)明基于文本的農業(yè)視頻智能分類方法中步驟S13的細分步驟,來體現(xiàn)依據本步驟實現(xiàn)的另一實施例。本發(fā)明實施例中步驟S13的細分步驟包括:
[0077]S131、將所述文本信息劃分為屬性標簽和數(shù)據元素;
[0078]S132、提取所述數(shù)據元素的至少一個關鍵詞;
[0079]S133、根據所述數(shù)據元素的至少一個關鍵詞對該數(shù)據元素進行標注。
[0080]為了進一步體現(xiàn)發(fā)明的優(yōu)越性,如下進一步揭示本發(fā)明基于文本的農業(yè)視頻智能分類方法中步驟S15的細分步驟,來體現(xiàn)依據本步驟實現(xiàn)的另一實施例。本發(fā)明實施例中步驟S15的細分步驟包括:
[0081]S151、解析所述待分類的視頻的特征信息,得到所述待分類的視頻的數(shù)據元素的至少一個關鍵詞;
[0082]S152、將所述至少一個關鍵詞與所述農業(yè)相關信息的本體庫中的與農業(yè)相關的特征詞進行比對;
[0083]S153、如果所述農業(yè)相關信息的本體庫中存在與所述至少一個關鍵詞相同或滿足預設相似度閾值的特征詞,則根據所述特征詞為所述待分類的視頻添加一個類別標簽。
[0084]本發(fā)明實施例中涉農中文本體庫構建方法主要是以本體形式組織大規(guī)模的互聯(lián)網涉農中文語料資源,建立相關分析模型,建立互聯(lián)網涉農中文本體庫。
[0085]本發(fā)明實施例提供的基于文本的農業(yè)視頻智能分類方法主要是以本體庫為依據,采用標注的方式提取信息,從而對視頻進行分類。
[0086]本發(fā)明實施例能夠實現(xiàn)農業(yè)視頻的分類,從而方便用戶快速預覽視頻內容,定位其感興趣的信息,提高了用戶瀏覽和搜索的效率。
[0087]圖2示意性示出了本發(fā)明一個實施例的基于文本的農業(yè)視頻智能分類裝置的結構框圖。
[0088]參照圖2,本實施例提供的基于文本的農業(yè)視頻智能分類裝置,包括:
[0089]本體庫構建模塊11,用于構建農業(yè)相關信息的本體庫;
[0090]文本信息獲取模塊12,用于獲取待分類的視頻的文本信息;
[0091]標注模塊13,用于將所述文本信息劃分為屬性標簽和數(shù)據元素,并對所述數(shù)據元素進行標注;
[0092]特征信息生成模塊14,用于將標注后的數(shù)據元素進行打包,生成所述待分類的視頻的特征信息;
[0093]比對分類模塊15,用于利用所述農業(yè)相關信息的本體庫與所述待分類的視頻的特征信息進行比對,根據比對結果對所述待分類的視頻進行分類。
[0094]為了進一步體現(xiàn)發(fā)明的優(yōu)越性,如下進一步揭示本發(fā)明基于文本的農業(yè)視頻智能分類裝置中本體庫構建模塊11的在另一實施例中的內部結構,來體現(xiàn)依據本體庫構建模塊11實現(xiàn)的另一實施例的細節(jié)。本體庫構建模塊11,進一步包括URL抓取單元、URL搜索單元、URL過濾單元、數(shù)據解析單元以及本體庫構建單元;
[0095]所述的URL抓取單元,用于從互聯(lián)網數(shù)據中抓取涉農網站的初始URL ;
[0096]所述的URL搜索單元,用于根據所述初始URL,采用爬蟲引擎處理技術搜索所述初始URL對應的網頁上的所有鏈接,下載搜索到的鏈接對應的URL得到網址集合;
[0097]所述的URL過濾單元,用于利用責任鏈模式,對所述網址集合中的URL進行過濾,得到與農業(yè)相關的網站對應的URL ;
[0098]所述的數(shù)據解析單元,用于解析所述過濾得到的URL對應的農業(yè)相關網站,得到與農業(yè)相關的特征詞;
[0099]所述的本體庫構建單元,用于根據所述與農業(yè)相關的特征詞構建農業(yè)相關信息的本體庫。
[0100]為了進一步體現(xiàn)發(fā)明的優(yōu)越性,如下進一步揭示本發(fā)明基于文本的農業(yè)視頻智能分類裝