傳統(tǒng)蒙古文網(wǎng)頁識別方法和裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及網(wǎng)絡(luò)技術(shù)領(lǐng)域,尤其涉及一種傳統(tǒng)蒙古文網(wǎng)頁識別方法和裝置。
【背景技術(shù)】
[0002] 傳統(tǒng)蒙古文是中國內(nèi)蒙古自治區(qū)的蒙古語的官方書寫方式(即用蒙古字母書寫 蒙古語的正寫法)。傳統(tǒng)蒙古文網(wǎng)絡(luò)資源是蒙古族群眾用本民族文字傳遞信息、共享資源的 重要途徑,也是蒙古族傳統(tǒng)文化傳承的主要平臺,傳統(tǒng)蒙古文網(wǎng)絡(luò)資源對于研宄蒙古語、蒙 古族文化以及實現(xiàn)傳統(tǒng)蒙古文全文搜索引擎具有重要意義。我國的傳統(tǒng)蒙古文網(wǎng)絡(luò)資源相 對中文、英文網(wǎng)絡(luò)資源數(shù)量較少,且編碼復雜,因此,準確、高效地搜集傳統(tǒng)蒙古文網(wǎng)絡(luò)資源 至關(guān)重要,前期研宄發(fā)現(xiàn),準確、高效地搜集傳統(tǒng)蒙古文網(wǎng)絡(luò)資源關(guān)鍵在于傳統(tǒng)蒙古文網(wǎng)頁 的準確識別。
[0003] 目前,網(wǎng)頁識別方法包括以下幾種:1)根據(jù)超文本標記語言(HyperText Mark-up Language,HTML)的LANG屬性判斷網(wǎng)頁文字所屬語言。HTML語言的LANG屬性需要申明 網(wǎng)頁所用的文字,該屬性能使搜索引擎和瀏覽器準確地讀取網(wǎng)頁的內(nèi)容。2)根據(jù)HTML的 "font-family"和"charset"屬性判斷網(wǎng)頁文字所屬語言。HTML語言提供網(wǎng)頁的字符編碼, 不同的字符編碼會使用不同的字體,因此可通過HTML的"font-family"屬性來判斷網(wǎng)頁的 文字。例如:網(wǎng)頁 "charset" 為 GB2312,且 "font-family" 為 "BZDBT"、"TIBETBT" 或網(wǎng)頁 的 "charset" 為 UTF8,且 "font family" 為 "Microsoft Himalaya",則可判斷該網(wǎng)頁為藏 文。3)基于特定語種的高頻詞識別網(wǎng)頁文字所屬語言。每種語種都有自己的高頻語法單 元,因此可以通過判斷待分析網(wǎng)頁中高頻詞出現(xiàn)的頻率判斷網(wǎng)頁語言。例如根據(jù)藏文音節(jié) 點及高頻詞出現(xiàn)的頻率判斷網(wǎng)頁是否為藏文。
[0004] 對于根據(jù)HTML的LANG屬性判斷網(wǎng)頁文字的方法,根據(jù)萬維網(wǎng)聯(lián)盟(World Wide Web Consortium,W3C)標準,每個網(wǎng)頁都應(yīng)該申明LANG屬性,由于很多傳統(tǒng)蒙古文網(wǎng)頁中 沒有HTML語言的LANG屬性,因此,不能僅僅根據(jù)網(wǎng)頁的LANG屬性判斷網(wǎng)頁語言是否為傳 統(tǒng)蒙古文。對于根據(jù)HTML的"font-family"和"charset"屬性判斷網(wǎng)頁文字所屬語言的 方法,很多傳統(tǒng)蒙古文網(wǎng)頁僅有"charset"信息、沒有"font-family"信息,因此不能根據(jù) "charset"和"font-family"來判斷網(wǎng)頁文字是否為傳統(tǒng)蒙古文。對于基于特定語種的高 頻詞識別網(wǎng)頁文字所屬語言,不同的語言有自己的語言特點,因此各種語言的高頻詞是不 相同的,例如:"的"、"了"是中文使用頻率較高的詞,"it"、"the"是英文中使用頻率較高的 詞,"癸,,(他、她、它)、"·!,,(和)是維吾爾文中使用頻率較高的詞,面向同一種語言、不 同數(shù)據(jù)統(tǒng)計出來的高頻語法單元也有很大不同?,F(xiàn)有的三種識別網(wǎng)頁語言的技術(shù)中,基于 高頻詞的網(wǎng)頁語言識別技術(shù)相對其它兩種方法較為有效,但是該技術(shù)僅僅考慮了語言單元 的絕對頻率、沒有考慮不同領(lǐng)域文本中的用詞特點,因此網(wǎng)頁語言的識別精度差異較大。
【發(fā)明內(nèi)容】
[0005] 本發(fā)明的目的是針對現(xiàn)有技術(shù)的缺陷,提供一種傳統(tǒng)蒙古文網(wǎng)頁識別方法,以較 高準確率和較高效率實現(xiàn)傳統(tǒng)蒙古文網(wǎng)頁的識別。
[0006] 為實現(xiàn)上述目的,本發(fā)明提供了一種傳統(tǒng)蒙古文網(wǎng)頁識別方法,所述方法包括:
[0007] 獲取并統(tǒng)計傳統(tǒng)蒙古文網(wǎng)頁語料庫中各個詞的詞頻TFi和文檔頻率DFi,其中, i^O;
[0008] 根據(jù)
【主權(quán)項】
1. 一種傳統(tǒng)蒙古文網(wǎng)頁識別方法,其特征在于,所述方法包括: 獲取并統(tǒng)計傳統(tǒng)蒙古文網(wǎng)頁語料庫中各個詞的詞頻T。和文檔頻率DFi,其中,i > 0 ; 根據(jù)巧=品'苗,分別得到所述傳統(tǒng)蒙古文網(wǎng)頁語料庫中各個詞的調(diào)和平均值 由所述傳統(tǒng)蒙古文網(wǎng)頁語料庫的各個詞中,根據(jù)。的值由大到小,選取前第一數(shù)量個 詞,并對所述前第一數(shù)量個詞的。值進行累加,得到第一累加和; 獲取并統(tǒng)計待識別網(wǎng)頁中所述前第一數(shù)量個詞的詞頻T。,其中,j > 0 ; 對所述待識別網(wǎng)頁中前第一數(shù)量個詞的TFj.值進行累加,得到第二累加和; 當所述第一累加和與所述第二累加和之間的差值小于等于第一闊值時,確定所述待識 別網(wǎng)頁為傳統(tǒng)蒙古文網(wǎng)頁。
2. 根據(jù)權(quán)利要求1所述的傳統(tǒng)蒙古文網(wǎng)頁識別方法,其特征在于,在所述獲取并統(tǒng)計 傳統(tǒng)蒙古文網(wǎng)頁語料庫中各個詞的詞頻T。和文檔頻率DF i之前,所述方法還包括: 下載傳統(tǒng)蒙古文網(wǎng)頁,并對所述傳統(tǒng)蒙古文網(wǎng)頁進行預(yù)處理; 構(gòu)建傳統(tǒng)蒙古文網(wǎng)頁語料庫。
3. 根據(jù)權(quán)利要求1所述的傳統(tǒng)蒙古文網(wǎng)頁識別方法,其特征在于,在獲取并統(tǒng)計待識 別網(wǎng)頁中所述前第一數(shù)量個詞的詞頻T。之前,所述方法還包括: 對所述待識別網(wǎng)頁進行垃圾信息過濾、格式轉(zhuǎn)換和編碼轉(zhuǎn)換,得到處理后的待識別網(wǎng) 頁。
4. 根據(jù)權(quán)利要求1-3任一項所述的傳統(tǒng)蒙古文網(wǎng)頁識別方法,其特征在于,所述傳統(tǒng) 蒙古文網(wǎng)頁語料庫至少包括100萬個傳統(tǒng)蒙古文詞。
5. -種傳統(tǒng)蒙古文網(wǎng)頁識別裝置,其特征在于,所述裝置包括: 第一獲取單元,用于獲取并統(tǒng)計傳統(tǒng)蒙古文網(wǎng)頁語料庫中各個詞的詞頻T。和文檔頻 率D。,其中,i > 0 ; 第一計算單元,用于根據(jù)巧分別得到所述傳統(tǒng)蒙古文網(wǎng)頁語料庫中各個 i i 詞的調(diào)和平均值 第二計算單元,用于由所述傳統(tǒng)蒙古文網(wǎng)頁語料庫的各個詞中,根據(jù)。的值由大到小, 選取前第一數(shù)量個詞,并對所述前第一數(shù)量個詞的。值進行累加,得到第一累加和; 第二獲取單元,用于獲取并統(tǒng)計待識別網(wǎng)頁中所述前第一數(shù)量個詞的詞頻TFj.,其中, j > 0 ; 第S計算單元,對所述待識別網(wǎng)頁中前第一數(shù)量個詞的TFj.值進行累加,得到第二累加 和; 決策單元,用于當所述第一累加和與所述第二累加和之間的差值小于等于第一闊值 時,確定所述待識別網(wǎng)頁為傳統(tǒng)蒙古文網(wǎng)頁。
6. 根據(jù)權(quán)利要求5所述的傳統(tǒng)蒙古文網(wǎng)頁識別裝置,其特征在于,所述裝置還包括: 第一處理單元,用于下載傳統(tǒng)蒙古文網(wǎng)頁,并對所述傳統(tǒng)蒙古文網(wǎng)頁進行預(yù)處理; 創(chuàng)建單元,用于構(gòu)建傳統(tǒng)蒙古文網(wǎng)頁語料庫。
7. 根據(jù)權(quán)利要求5所述的傳統(tǒng)蒙古文網(wǎng)頁識別裝置,其特征在于,所述裝置還包括: 第二處理單元,用于對所述待識別網(wǎng)頁進行垃圾信息過濾、格式轉(zhuǎn)換和編碼轉(zhuǎn)換,得到 處理后的待識別網(wǎng)頁。
8.根據(jù)權(quán)利要求5-7任一項所述的傳統(tǒng)蒙古文網(wǎng)頁識別裝置,其特征在于,所述傳統(tǒng) 蒙古文網(wǎng)頁語料庫至少包括100萬個傳統(tǒng)蒙古文詞。
【專利摘要】本發(fā)明涉及一種傳統(tǒng)蒙古文網(wǎng)頁識別方法和裝置,所述方法包括:獲取并統(tǒng)計傳統(tǒng)蒙古文網(wǎng)頁語料庫中的各個詞的詞頻和文檔頻率,并計算各個詞的調(diào)和平均值;根據(jù)所述調(diào)和平均值由大到小,選取前第一數(shù)量個詞,并對所述前第一數(shù)量個詞的調(diào)和平均值進行累加,得到第一累加和;獲取并統(tǒng)計待識別網(wǎng)頁中所述前第一數(shù)量個詞的詞頻,并對其進行累加,得到第二累加和;當所述第一累加和與所述第二累加和之間的差值小于等于第一閾值時,確定所述待識別網(wǎng)頁為傳統(tǒng)蒙古文網(wǎng)頁。本發(fā)明提供的傳統(tǒng)蒙古文網(wǎng)頁識別方法,可以以較高準確率和較高效率實現(xiàn)傳統(tǒng)蒙古文網(wǎng)頁的識別,進而有助于傳統(tǒng)蒙古文網(wǎng)頁的搜集以及傳統(tǒng)蒙古文全文搜索引擎的實現(xiàn)。
【IPC分類】G06F17-30
【公開號】CN104598593
【申請?zhí)枴緾N201510033629
【發(fā)明人】王志娟
【申請人】中央民族大學
【公開日】2015年5月6日
【申請日】2015年1月22日