技術編號:6385350
提示:您尚未登錄,請點 登 陸 后下載,如果您還沒有賬戶請點 注 冊 ,登陸完成后,請刷新本頁查看技術詳細信息。本發(fā)明涉及互聯(lián)網信息處理領域,特別是涉及一種提取網頁正文內容的方法和系統(tǒng)。背景技術隨著互聯(lián)網的迅速發(fā)展,互聯(lián)網上的信息量以幾何級數(shù)倍增。人們需要在海量的信息庫中查找自己需要的信息,并且可能需要對獲得的信息進行進一步的加工和分析。但是很多原始內容為了方便用戶瀏覽而加入的導航鏈接、出于商業(yè)利益而加入的廣告鏈接、版權信息以及相關主題閱讀推薦鏈接等。這些信息摻雜在網頁中,影響了用戶對主題內容的瀏覽。如何從包含大量噪音內容的網頁中將正文信息準確、完整地提取出來成為了...
注意:該技術已申請專利,請尊重研發(fā)人員的辛勤研發(fā)付出,在未取得專利權人授權前,僅供技術研究參考不得用于商業(yè)用途。
該專利適合技術人員進行技術研發(fā)參考以及查看自身技術是否侵權,增加技術思路,做技術知識儲備,不適合論文引用。
請注意,此類技術沒有源代碼,用于學習研究技術思路。