傳統(tǒng)蒙古文網(wǎng)頁識別方法和裝置的制造方法

文檔序號：8282411閱讀：302來源：國知局

傳統(tǒng)蒙古文網(wǎng)頁識別方法和裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及網(wǎng)絡(luò)技術(shù)領(lǐng)域，尤其涉及一種傳統(tǒng)蒙古文網(wǎng)頁識別方法和裝置。
【背景技術(shù)】
[0002] 傳統(tǒng)蒙古文是中國內(nèi)蒙古自治區(qū)的蒙古語的官方書寫方式（即用蒙古字母書寫蒙古語的正寫法）。傳統(tǒng)蒙古文網(wǎng)絡(luò)資源是蒙古族群眾用本民族文字傳遞信息、共享資源的重要途徑，也是蒙古族傳統(tǒng)文化傳承的主要平臺，傳統(tǒng)蒙古文網(wǎng)絡(luò)資源對于研宄蒙古語、蒙古族文化以及實現(xiàn)傳統(tǒng)蒙古文全文搜索引擎具有重要意義。我國的傳統(tǒng)蒙古文網(wǎng)絡(luò)資源相對中文、英文網(wǎng)絡(luò)資源數(shù)量較少，且編碼復雜，因此，準確、高效地搜集傳統(tǒng)蒙古文網(wǎng)絡(luò)資源至關(guān)重要，前期研宄發(fā)現(xiàn)，準確、高效地搜集傳統(tǒng)蒙古文網(wǎng)絡(luò)資源關(guān)鍵在于傳統(tǒng)蒙古文網(wǎng)頁的準確識別。
[0003] 目前，網(wǎng)頁識別方法包括以下幾種：1)根據(jù)超文本標記語言（HyperText Mark-up Language，HTML)的LANG屬性判斷網(wǎng)頁文字所屬語言。HTML語言的LANG屬性需要申明網(wǎng)頁所用的文字，該屬性能使搜索引擎和瀏覽器準確地讀取網(wǎng)頁的內(nèi)容。2)根據(jù)HTML的 "font-family"和"charset"屬性判斷網(wǎng)頁文字所屬語言。HTML語言提供網(wǎng)頁的字符編碼，不同的字符編碼會使用不同的字體，因此可通過HTML的"font-family"屬性來判斷網(wǎng)頁的文字。例如：網(wǎng)頁 "charset" 為 GB2312,且 "font-family" 為 "BZDBT"、"TIBETBT" 或網(wǎng)頁的 "charset" 為 UTF8,且 "font family" 為 "Microsoft Himalaya"，則可判斷該網(wǎng)頁為藏文。3)基于特定語種的高頻詞識別網(wǎng)頁文字所屬語言。每種語種都有自己的高頻語法單元，因此可以通過判斷待分析網(wǎng)頁中高頻詞出現(xiàn)的頻率判斷網(wǎng)頁語言。例如根據(jù)藏文音節(jié) 點及高頻詞出現(xiàn)的頻率判斷網(wǎng)頁是否為藏文。
[0004] 對于根據(jù)HTML的LANG屬性判斷網(wǎng)頁文字的方法，根據(jù)萬維網(wǎng)聯(lián)盟（World Wide Web Consortium，W3C)標準，每個網(wǎng)頁都應(yīng)該申明LANG屬性，由于很多傳統(tǒng)蒙古文網(wǎng)頁中沒有HTML語言的LANG屬性，因此，不能僅僅根據(jù)網(wǎng)頁的LANG屬性判斷網(wǎng)頁語言是否為傳統(tǒng)蒙古文。對于根據(jù)HTML的"font-family"和"charset"屬性判斷網(wǎng)頁文字所屬語言的方法，很多傳統(tǒng)蒙古文網(wǎng)頁僅有"charset"信息、沒有"font-family"信息，因此不能根據(jù) "charset"和"font-family"來判斷網(wǎng)頁文字是否為傳統(tǒng)蒙古文。對于基于特定語種的高頻詞識別網(wǎng)頁文字所屬語言，不同的語言有自己的語言特點，因此各種語言的高頻詞是不相同的，例如："的"、"了"是中文使用頻率較高的詞，"it"、"the"是英文中使用頻率較高的詞，"癸，，（他、她、它）、"·！，，（和）是維吾爾文中使用頻率較高的詞，面向同一種語言、不同數(shù)據(jù)統(tǒng)計出來的高頻語法單元也有很大不同?，F(xiàn)有的三種識別網(wǎng)頁語言的技術(shù)中，基于高頻詞的網(wǎng)頁語言識別技術(shù)相對其它兩種方法較為有效，但是該技術(shù)僅僅考慮了語言單元的絕對頻率、沒有考慮不同領(lǐng)域文本中的用詞特點，因此網(wǎng)頁語言的識別精度差異較大。

【發(fā)明內(nèi)容】

[0005] 本發(fā)明的目的是針對現(xiàn)有技術(shù)的缺陷，提供一種傳統(tǒng)蒙古文網(wǎng)頁識別方法，以較高準確率和較高效率實現(xiàn)傳統(tǒng)蒙古文網(wǎng)頁的識別。
[0006] 為實現(xiàn)上述目的，本發(fā)明提供了一種傳統(tǒng)蒙古文網(wǎng)頁識別方法，所述方法包括：
[0007] 獲取并統(tǒng)計傳統(tǒng)蒙古文網(wǎng)頁語料庫中各個詞的詞頻TFi和文檔頻率DFi,其中， i^O；
[0008] 根據(jù)
【主權(quán)項】
1. 一種傳統(tǒng)蒙古文網(wǎng)頁識別方法，其特征在于，所述方法包括：獲取并統(tǒng)計傳統(tǒng)蒙古文網(wǎng)頁語料庫中各個詞的詞頻T。和文檔頻率DFi，其中，i > 0 ; 根據(jù)巧=品'苗，分別得到所述傳統(tǒng)蒙古文網(wǎng)頁語料庫中各個詞的調(diào)和平均值由所述傳統(tǒng)蒙古文網(wǎng)頁語料庫的各個詞中，根據(jù)。的值由大到小，選取前第一數(shù)量個詞，并對所述前第一數(shù)量個詞的。值進行累加，得到第一累加和；獲取并統(tǒng)計待識別網(wǎng)頁中所述前第一數(shù)量個詞的詞頻T。，其中，j > 0 ; 對所述待識別網(wǎng)頁中前第一數(shù)量個詞的TFj.值進行累加，得到第二累加和；當所述第一累加和與所述第二累加和之間的差值小于等于第一闊值時，確定所述待識別網(wǎng)頁為傳統(tǒng)蒙古文網(wǎng)頁。
2. 根據(jù)權(quán)利要求1所述的傳統(tǒng)蒙古文網(wǎng)頁識別方法，其特征在于，在所述獲取并統(tǒng)計傳統(tǒng)蒙古文網(wǎng)頁語料庫中各個詞的詞頻T。和文檔頻率DF i之前，所述方法還包括：下載傳統(tǒng)蒙古文網(wǎng)頁，并對所述傳統(tǒng)蒙古文網(wǎng)頁進行預(yù)處理；構(gòu)建傳統(tǒng)蒙古文網(wǎng)頁語料庫。
3. 根據(jù)權(quán)利要求1所述的傳統(tǒng)蒙古文網(wǎng)頁識別方法，其特征在于，在獲取并統(tǒng)計待識別網(wǎng)頁中所述前第一數(shù)量個詞的詞頻T。之前，所述方法還包括：對所述待識別網(wǎng)頁進行垃圾信息過濾、格式轉(zhuǎn)換和編碼轉(zhuǎn)換，得到處理后的待識別網(wǎng) 頁。
4. 根據(jù)權(quán)利要求1-3任一項所述的傳統(tǒng)蒙古文網(wǎng)頁識別方法，其特征在于，所述傳統(tǒng) 蒙古文網(wǎng)頁語料庫至少包括100萬個傳統(tǒng)蒙古文詞。
5. -種傳統(tǒng)蒙古文網(wǎng)頁識別裝置，其特征在于，所述裝置包括：第一獲取單元，用于獲取并統(tǒng)計傳統(tǒng)蒙古文網(wǎng)頁語料庫中各個詞的詞頻T。和文檔頻率D。，其中，i > 0 ; 第一計算單元，用于根據(jù)巧分別得到所述傳統(tǒng)蒙古文網(wǎng)頁語料庫中各個 i i 詞的調(diào)和平均值第二計算單元，用于由所述傳統(tǒng)蒙古文網(wǎng)頁語料庫的各個詞中，根據(jù)。的值由大到小，選取前第一數(shù)量個詞，并對所述前第一數(shù)量個詞的。值進行累加，得到第一累加和；第二獲取單元，用于獲取并統(tǒng)計待識別網(wǎng)頁中所述前第一數(shù)量個詞的詞頻TFj.，其中， j > 0 ; 第S計算單元，對所述待識別網(wǎng)頁中前第一數(shù)量個詞的TFj.值進行累加，得到第二累加和；決策單元，用于當所述第一累加和與所述第二累加和之間的差值小于等于第一闊值時，確定所述待識別網(wǎng)頁為傳統(tǒng)蒙古文網(wǎng)頁。
6. 根據(jù)權(quán)利要求5所述的傳統(tǒng)蒙古文網(wǎng)頁識別裝置，其特征在于，所述裝置還包括：第一處理單元，用于下載傳統(tǒng)蒙古文網(wǎng)頁，并對所述傳統(tǒng)蒙古文網(wǎng)頁進行預(yù)處理；創(chuàng)建單元，用于構(gòu)建傳統(tǒng)蒙古文網(wǎng)頁語料庫。
7. 根據(jù)權(quán)利要求5所述的傳統(tǒng)蒙古文網(wǎng)頁識別裝置，其特征在于，所述裝置還包括：第二處理單元，用于對所述待識別網(wǎng)頁進行垃圾信息過濾、格式轉(zhuǎn)換和編碼轉(zhuǎn)換，得到處理后的待識別網(wǎng)頁。
8.根據(jù)權(quán)利要求5-7任一項所述的傳統(tǒng)蒙古文網(wǎng)頁識別裝置，其特征在于，所述傳統(tǒng) 蒙古文網(wǎng)頁語料庫至少包括100萬個傳統(tǒng)蒙古文詞。
【專利摘要】本發(fā)明涉及一種傳統(tǒng)蒙古文網(wǎng)頁識別方法和裝置，所述方法包括：獲取并統(tǒng)計傳統(tǒng)蒙古文網(wǎng)頁語料庫中的各個詞的詞頻和文檔頻率，并計算各個詞的調(diào)和平均值；根據(jù)所述調(diào)和平均值由大到小，選取前第一數(shù)量個詞，并對所述前第一數(shù)量個詞的調(diào)和平均值進行累加，得到第一累加和；獲取并統(tǒng)計待識別網(wǎng)頁中所述前第一數(shù)量個詞的詞頻，并對其進行累加，得到第二累加和；當所述第一累加和與所述第二累加和之間的差值小于等于第一閾值時，確定所述待識別網(wǎng)頁為傳統(tǒng)蒙古文網(wǎng)頁。本發(fā)明提供的傳統(tǒng)蒙古文網(wǎng)頁識別方法，可以以較高準確率和較高效率實現(xiàn)傳統(tǒng)蒙古文網(wǎng)頁的識別，進而有助于傳統(tǒng)蒙古文網(wǎng)頁的搜集以及傳統(tǒng)蒙古文全文搜索引擎的實現(xiàn)。
【IPC分類】G06F17-30
【公開號】CN104598593
【申請?zhí)枴緾N201510033629
【發(fā)明人】王志娟
【申請人】中央民族大學
【公開日】2015年5月6日
【申請日】2015年1月22日

完整全部詳細技術(shù)資料下載

該技術(shù)已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：王志娟;
技術(shù)所有人：中央民族大學;
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構(gòu)動力學與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

南瑞加密裝置網(wǎng)頁相關(guān)技術(shù)

蒙古文相關(guān)技術(shù)

西里爾蒙古文相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

傳統(tǒng)蒙古文網(wǎng)頁識別方法和裝置的制造方法