欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種應(yīng)用網(wǎng)頁語義的方法和系統(tǒng)的制作方法

文檔序號:6605451閱讀:2754來源:國知局
專利名稱:一種應(yīng)用網(wǎng)頁語義的方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及IT技術(shù),尤其涉及一種提取并應(yīng)用網(wǎng)頁語義的方法,如加入廣告的方法。
背景技術(shù)
隨著網(wǎng)絡(luò)技術(shù)的不斷發(fā)展,各種各樣的基于網(wǎng)頁的應(yīng)用也越來越多。網(wǎng)頁通常是 在網(wǎng)站的制作或維護過程中產(chǎn)生的,多數(shù)都是腳本(Script)形式的網(wǎng)頁,包括HTML/XML/ ASP/JSP/PHP/PERL/CGI等各種各樣的腳本格式,但是其中還是以HTML的網(wǎng)頁形式最多。隨 著互聯(lián)網(wǎng)經(jīng)濟的不斷發(fā)展,各種各樣的網(wǎng)站應(yīng)運而生,現(xiàn)有的網(wǎng)站最主要的贏利手段之一 就是廣告。下面以廣告為例來談?wù)劕F(xiàn)有的網(wǎng)頁的應(yīng)用。現(xiàn)階段,廣告商制定了多個策略,以求最大限度地提高廣告的價值。一種策略是, 廣告商使用常用的手段來提供交互媒體或服務(wù),即通常是通過網(wǎng)站的形式作為提供交互式 媒體服務(wù)的渠道。通過這種策略,廣告商可以將廣告指向一個比較集中的受眾群體,從而為 廣告更好地尋找目標(biāo)受眾提供了可能性。例如,廣告商可以將最新款的游戲消息通過新浪 網(wǎng)站的游戲板塊投放給喜歡游戲的受眾。另一種策略是廣告商對一般性廣告通過廣泛傳 播,盡可能地將廣告推送給更多的受眾,以期望更好的廣告效果。不管采用哪一種策略,基于網(wǎng)站的廣告,即Web廣告,通常是以橫幅廣告的形式呈 現(xiàn)在網(wǎng)站瀏覽者(以下稱為用戶)面前。用戶通過點擊某一個橫幅廣告,就會進入所述橫 幅鏈接的指向某個廣告商的網(wǎng)站。用戶點擊的次數(shù)和廣告顯示的次數(shù)之間的比率被稱之為 點擊率。現(xiàn)在存在的問題是,雖然廣告商在大量網(wǎng)站廣泛投放廣告,但是廣告的點擊率并不 高,因此廣告商對廣告投資的匯報也并不滿意。某些廣告商試圖通過跟蹤用戶的在線習(xí)慣 來改善廣告的效率,但是這種做法往往會導(dǎo)致侵害用戶隱私的行為發(fā)生。同樣,網(wǎng)站的所有者(以下稱為網(wǎng)站主),也會遇到需要提高廣告收益而又不能影 響用戶感受的難題。某些網(wǎng)站主選擇了一味擴大廣告投放而忽視用戶感受的做法,導(dǎo)致大 量網(wǎng)站用戶流失。另一類是搜索引擎網(wǎng)站,例如google,這類網(wǎng)站能使廣告商確定他們的廣告目標(biāo), 以便通過與廣告相關(guān)的搜索頁面與廣告一起呈現(xiàn)給用戶。雖然搜索結(jié)果頁面給廣告商提供 了將其廣告指向搜索者的機會,但是搜索結(jié)果只是萬維網(wǎng)很小的一部分,并無法將所有需 要投放的廣告都針對這樣的潛在客戶(這里指前面提到的搜索者)進行投放。由于大量的門戶網(wǎng)站的出現(xiàn),使得一些大型網(wǎng)站每天訪問量突破千萬,而一些小 型網(wǎng)站則無人問津。這使得一些小型網(wǎng)站的廣告價值幾乎沒有辦法體現(xiàn),這也使得一些小 型網(wǎng)站很難生存。相反,大型網(wǎng)站則可以根據(jù)其大量的訪問量,而收取高額的廣告費用。但 是這對于廣告商來說,并沒有把網(wǎng)站的廣告能量都發(fā)揮完全,怎么樣利用分散而眾多的小 型網(wǎng)站投放高質(zhì)量的廣告成為廣告商所需要思考的問題。這里就存在一個問題,如何更好的使用互聯(lián)網(wǎng)資源(如何使用網(wǎng)頁)?如何為網(wǎng) 頁添加廣告?怎樣在互聯(lián)網(wǎng)上搜索信息或投放信息才是高效的?
傳統(tǒng)的網(wǎng)頁,只有簡單的表現(xiàn)形式,如果需要完成一些特殊的功能,通常都是通 過在原有網(wǎng)頁源文件中加載ActiveX控件或在網(wǎng)頁源文件中嵌入一些控制節(jié)本語言,如, JavaScript/VBScript/, net的一些代碼。這樣不光使網(wǎng)頁看上去非常復(fù)雜,而且這種把內(nèi) 容和控制放在一起的做法,既不適合大規(guī)模處理網(wǎng)頁,也不適合對網(wǎng)頁規(guī)范的完全控制,很 難實現(xiàn)網(wǎng)頁服務(wù)的個性化。網(wǎng)頁的語義化才是網(wǎng)頁發(fā)展的方向。現(xiàn)有的所有網(wǎng)頁基本上都是描述網(wǎng)頁的結(jié) 構(gòu),作為網(wǎng)頁內(nèi)容的載體,并不能很好的說明網(wǎng)頁中到底有什么。這對網(wǎng)頁的處理和使用帶 來了很大的困難。專利號CN200410057064. 1,提出了一種網(wǎng)頁信息塊提取裝置和方法,該 方法把網(wǎng)頁分解成信息塊,并進行處理,但是仍然不能很好地表現(xiàn)出網(wǎng)頁內(nèi)容的語義。專利 號200510109288. 7,提供了一種抽取網(wǎng)頁信息的方法,但是并不能把每一個網(wǎng)頁都結(jié)構(gòu)化 地進行處理。

發(fā)明內(nèi)容
本發(fā)明提供了一種應(yīng)用網(wǎng)頁語義的方法和系統(tǒng),以解決現(xiàn)有技術(shù)中不能很好地表 現(xiàn)出網(wǎng)頁內(nèi)容的語義的缺陷。本發(fā)明提供了一種真正使用網(wǎng)頁語義的方法,把網(wǎng)頁內(nèi)容的語義通過關(guān)鍵字的形 式抽象出來,可以使用該方法方便地為網(wǎng)頁內(nèi)容加入輔助信息,該方法除了可以有效地控 制網(wǎng)頁,還可以用于網(wǎng)絡(luò)廣告投放。本發(fā)明提供了對網(wǎng)頁的主動式和被動式兩種處理方法, 來分析網(wǎng)頁語義,并通過對網(wǎng)頁語義的分析提供基于網(wǎng)頁的服務(wù)和應(yīng)用。所謂主動式,是 指在不對現(xiàn)有網(wǎng)頁做修改的情況下,客戶端運行一些程序或插件完成一些對網(wǎng)頁語義的分 析功能,并根據(jù)語義完成某些特定的應(yīng)用,例如,通過對網(wǎng)頁語義分析,向網(wǎng)頁提供與網(wǎng)頁 內(nèi)容相關(guān)的輔助信息(廣告等)。所謂被動式,是指對網(wǎng)頁要進行預(yù)先的處理或者修改原 有的網(wǎng)頁腳本或者添加網(wǎng)頁的內(nèi)容描述文件、功能描述文件等,用戶側(cè)客戶端通過程序升 級或安裝插件等方法可以識別對網(wǎng)頁文件的修改或新增加的網(wǎng)頁描述文件(包括,內(nèi)容描 述文件和功能描述文件)。被動式或主動式的方法都可以實現(xiàn)對網(wǎng)頁語義的分析,并可以 通過腳本語言或預(yù)設(shè)程序來控制網(wǎng)頁瀏覽器的一些動作。也就是說瀏覽器的行為不完全 是由用戶控制的,而是部分決定于網(wǎng)頁本身的內(nèi)容或網(wǎng)頁預(yù)先設(shè)置好的腳本或其它一些描 述文件(在本專利中為內(nèi)容描述文件和功能描述文件)。以主動式的分析網(wǎng)頁語義的方法 并為用戶提供基于網(wǎng)頁內(nèi)容的輔助信息為例,首先客戶端從網(wǎng)站接收到的網(wǎng)頁的內(nèi)容(例 如,HTML等腳本網(wǎng)頁),通過本發(fā)明語義分析系統(tǒng)(主動式)中的關(guān)鍵字匹配模塊判斷網(wǎng) 頁內(nèi)容是否和一些預(yù)先定義好的關(guān)鍵字相匹配,如果匹配,則根據(jù)所述關(guān)鍵字匹配模塊中 匹配成功的關(guān)鍵字所對應(yīng)的輔助信息的鏈接地址向服務(wù)端發(fā)起服務(wù)請求,獲得需要的輔助 信息。其中輔助信息可以是關(guān)于網(wǎng)頁中具體相關(guān)內(nèi)容的介紹、分析、廣告等相關(guān)信息。在客 戶端維護的關(guān)鍵字匹配模塊用于分析用戶網(wǎng)頁內(nèi)容,并將獲得的匹配信息(包含被匹配成 功的關(guān)鍵字對應(yīng)的輔助信息的地址信息)發(fā)送到服務(wù)端。例如,當(dāng)用戶打開一個體育網(wǎng)站, 收看一段介紹足球比賽的網(wǎng)頁,這時關(guān)鍵字匹配模塊會發(fā)現(xiàn)“足球”這是需要搜索的匹配信 息,并且通過關(guān)鍵字匹配模塊可以得到關(guān)于“足球”兩字的輔助信息的位置,比如一個具體 的網(wǎng)絡(luò)上的URL地址(HTTP://. · · /bootball. html)等,這個具體的URL通常都在服務(wù)端 上,這時候客戶端就會向服務(wù)端發(fā)起一個服務(wù)請求,要求取回這個URL地址的輔助信息。輔助信息包括視頻、圖像、聲音、文字等所有媒體信息。該方法可以主動地向用戶推送網(wǎng)頁內(nèi)容相關(guān)的廣告,既不會對用戶瀏覽網(wǎng)頁造成 不便,也可以大大改善網(wǎng)絡(luò)廣告投放的效果。當(dāng)然該方法還可以用于推送廣告之外的其它 輔助信息,例如,用戶在網(wǎng)頁上遇到一個數(shù)學(xué)公式,類似地可以通過該方法向用戶推送所述 數(shù)學(xué)公式的推導(dǎo)方法。對于被動式的方式來處理網(wǎng)頁,獲取網(wǎng)頁語義信息的過程就是生成 網(wǎng)頁內(nèi)容描述文件的過程或生成新網(wǎng)頁820的過程。以內(nèi)容描述文件為例,內(nèi)容描述文件 即是濃縮后的網(wǎng)頁,基本上能概括網(wǎng)頁信息內(nèi)容的主體,但卻可能比網(wǎng)頁本身節(jié)省更多的 存儲空間。生成網(wǎng)頁內(nèi)容描述文件的方法也同樣會用到關(guān)鍵字匹配這一個過程,在本發(fā)明 中是網(wǎng)頁源文件通過處理模塊3000處理后生成的。在生成了網(wǎng)頁描述文件后,往往可以通 過網(wǎng)頁內(nèi)容描述文件生成網(wǎng)頁的功能描述文件,當(dāng)然也可以通過處理模塊3000直接生成 功能描述文件。本發(fā)明還可以通過在描述文件(包括內(nèi)容描述文件和功能描述文件)或 網(wǎng)頁源文件中加入網(wǎng)頁適合對象的信息的方法,來有針對性地投放網(wǎng)頁或有限制地投放網(wǎng) 頁。與現(xiàn)有技術(shù)相比,本發(fā)明具有以下優(yōu)點本發(fā)明實施例中,把網(wǎng)頁內(nèi)容的語義通過關(guān)鍵字的形式抽象出來,可以使用該方 法方便地為網(wǎng)頁內(nèi)容加入輔助信息,該方法除了可以有效地控制網(wǎng)頁,還可以用于網(wǎng)絡(luò)廣 告投放。


圖1是本發(fā)明中主動式的一種系統(tǒng)結(jié)構(gòu)示意圖;圖2是本發(fā)明中主動式的另一種系統(tǒng)結(jié)構(gòu)示意圖;圖3是本發(fā)明中關(guān)鍵字匹配模塊數(shù)據(jù)結(jié)構(gòu)示意圖;圖4是本發(fā)明中主動式第一種網(wǎng)頁信息處理過程的流程圖;圖5是本發(fā)明中主動式第二種網(wǎng)頁信息處理過程的流程圖;圖6是本發(fā)明中主動式第三種網(wǎng)頁信息處理過程的流程圖;圖7是本發(fā)明中為被動式網(wǎng)頁源文件添加指向輔助信息地址鏈接的流程圖;圖8是本發(fā)明中為被動式網(wǎng)頁源文件添加指向輔助信息的系統(tǒng)結(jié)構(gòu)圖;圖9是本發(fā)明中分析網(wǎng)頁內(nèi)容并形成一棵樹的示意圖;圖10是本發(fā)明中被動式的生成內(nèi)容描述文件和功能描述文件示意圖;圖11是本發(fā)明中被動式的生成和使用功能描述文件的系統(tǒng)示意圖;圖12是本發(fā)明中被動式通過設(shè)定網(wǎng)頁適合對象來投放網(wǎng)頁的示意圖。
具體實施例方式本發(fā)明是對現(xiàn)有的網(wǎng)頁瀏覽方式以及網(wǎng)頁的結(jié)構(gòu)做了一定的改進,使網(wǎng)頁本身具 有更強的實用性和互動效果,能夠在保留原有網(wǎng)頁的基礎(chǔ)上為網(wǎng)頁增加大量的輔助信息, 并且在本發(fā)明中還為網(wǎng)頁增加了兩種描述文件(profile)結(jié)構(gòu),大量豐富了網(wǎng)頁的功能。 本發(fā)明的核心圍繞著這樣一個主題根據(jù)網(wǎng)頁自身的內(nèi)容,并結(jié)合關(guān)鍵字列表和網(wǎng)頁本身 的屬性(網(wǎng)頁的基本信息),提取網(wǎng)頁的語義信息,并根據(jù)網(wǎng)頁的語義信息執(zhí)行某些預(yù)定的 操作邏輯。在對網(wǎng)頁的語義做分析時,有被動和主動兩種方式。所謂主動式,是指在不對現(xiàn)有網(wǎng)頁做修改或不增加新文件的情況下,客戶端運行一些程序或插件完成一些對網(wǎng)頁語義 的分析功能,并根據(jù)語義完成某些特定的應(yīng)用,例如,通過對網(wǎng)頁進行語義分析,找到存在 含有與輔助信息對應(yīng)的關(guān)鍵字的網(wǎng)頁,并向網(wǎng)頁提供與網(wǎng)頁內(nèi)容相關(guān)的輔助信息(如,廣 告等)。所謂被動式,是指對網(wǎng)頁要進行預(yù)先的處理或者修改原有的網(wǎng)頁腳本或者添加網(wǎng) 頁的內(nèi)容描述文件、功能描述文件等,用戶側(cè)客戶端通過程序升級或安裝插件等方法可以 識別對網(wǎng)頁文件的修改或新增加的網(wǎng)頁描述文件(包括,內(nèi)容描述文件和功能描述文件)。 被動式或主動式的方法都可以實現(xiàn)對網(wǎng)頁語義的分析,并可以通過腳本語言或預(yù)設(shè)程序來 控制網(wǎng)頁瀏覽器或瀏覽器外部程序的一些動作。也就是說瀏覽器的行為不完全是由用戶控 制的,而是部分決定于網(wǎng)頁本身的內(nèi)容或網(wǎng)頁預(yù)先設(shè)置好的腳本或其它一些描述文件(在 本專利中為內(nèi)容描述文件和功能描述文件)。一般的相關(guān)領(lǐng)域的技術(shù)人員均很容易了解本 發(fā)明的工作原理和思想,根據(jù)本發(fā)明設(shè)計到的原理和思想,做出簡單調(diào)整和改動的技術(shù)或 系統(tǒng)均在本發(fā)明保護范圍之內(nèi)。如圖1所示,為本發(fā)明的主動式的一種系統(tǒng)結(jié)構(gòu)示意圖。主要分為兩個大的部分, 一部分是客戶端,另一部分是服務(wù)端。客戶端包括5個重要的模塊(次要或通用模塊未在 圖例中畫出),網(wǎng)頁瀏覽模塊120主要是解析網(wǎng)頁并在客戶端顯示,用戶可以通過網(wǎng)頁瀏覽 模塊120瀏覽請求網(wǎng)頁。內(nèi)容導(dǎo)入模塊130,主要作用是根據(jù)不同的應(yīng)用提取出網(wǎng)頁部分 或全部內(nèi)容,并把提取的內(nèi)容導(dǎo)入關(guān)鍵字匹配模塊,例如,內(nèi)容導(dǎo)入模塊包括幾種常見的內(nèi) 容導(dǎo)入方式第一種,將用戶請求的網(wǎng)頁內(nèi)容(即網(wǎng)頁源文件)全部導(dǎo)入到關(guān)鍵字匹配模 塊;第二種,將用戶正在顯示的窗口內(nèi)的網(wǎng)頁內(nèi)容或某一個框架(frame)內(nèi)的網(wǎng)頁內(nèi)容,即 一部分網(wǎng)頁內(nèi)容導(dǎo)入到關(guān)鍵字匹配模塊;第三種,將鼠標(biāo)周圍或用戶選定的區(qū)域內(nèi)的網(wǎng)頁 內(nèi)容導(dǎo)入到關(guān)鍵字匹配模塊。在關(guān)鍵字匹配模塊150中,會維護一個可以被更新或編輯的 關(guān)鍵字數(shù)據(jù)結(jié)構(gòu),如圖3所示,通常包含關(guān)鍵字列表310和對應(yīng)輔助信息位置320,關(guān)鍵字匹 配模塊會尋找從內(nèi)容導(dǎo)入模塊130導(dǎo)入的網(wǎng)頁內(nèi)容和關(guān)鍵字列表310之間的匹配關(guān)系,如 果發(fā)現(xiàn)匹配則通過通信模塊140按照關(guān)鍵字對應(yīng)輔助信息位置320向服務(wù)端發(fā)起輔助信息 請求。服務(wù)端170在通過服務(wù)端通信模塊180接收到客戶端110發(fā)起的帶有位置信息的請 求后,會在輔助信息存儲模塊中找到相應(yīng)的輔助信息,并把輔助信息發(fā)送到客戶端110,通 過客戶端110的輔助信息播放模塊進行播放。在圖2中,即本發(fā)明中主動式的另一種系統(tǒng)結(jié)構(gòu)示意圖,和圖1的區(qū)別就在于,將 關(guān)鍵字匹配模塊從客戶端移到了服務(wù)端。實際上也就是內(nèi)容導(dǎo)入模塊和關(guān)鍵字匹配模塊之 間的通信,通過客戶端Iio的通信模塊140和服務(wù)端170的通信模塊180來完成,而不是像 圖1那樣在客戶端內(nèi)部完成。這樣做的問題是可能減少由于關(guān)鍵字匹配模塊中匹配運算給 客戶端帶來的壓力,但是可能會增加客戶端和服務(wù)端通信的壓力。一個比較適合圖2系統(tǒng) 的實施例為,用戶在瀏覽網(wǎng)頁時,用鼠標(biāo)指向一些需要進一步輔助信息的內(nèi)容,比如需要翻 譯鼠標(biāo)指向的單詞,內(nèi)容導(dǎo)入模塊130會將鼠標(biāo)指向的單詞通過客戶端110的通信模塊140 和服務(wù)端170的通信模塊180發(fā)送到關(guān)鍵字匹配模塊150,關(guān)鍵字匹配模塊150則會根據(jù)關(guān) 鍵字對應(yīng)的本地或網(wǎng)絡(luò)地址取回輔助信息(對所述單詞的翻譯信息),最終將輔助信息傳 送到客戶端,并通過輔助信息的播放模塊進行播放。在圖2中,輔助信息不一定和存儲在關(guān) 鍵字匹配模塊存儲在同一個服務(wù)器上,有可能輔助信息存儲模塊保存在另一臺關(guān)聯(lián)服務(wù)器 上。為了說明問題,本發(fā)明只使用了比較簡單的情況。
圖1和圖2中,輔助信息播放模塊160和內(nèi)容導(dǎo)入模塊130可以作為一個插件或 一段程序放在網(wǎng)頁瀏覽器(如IE等)中執(zhí)行,也可以作為一個單獨的程序放在網(wǎng)頁瀏覽 器之外運行,例如,輔助信息播放模塊在播放輔助信息的時候,可以在網(wǎng)頁內(nèi)的某一個位置 播放,也可以在瀏覽器窗口外的某一個位置播放。為了簡單起見,內(nèi)容導(dǎo)入模塊通常是和網(wǎng) 頁瀏覽器有接口的,這樣可以在用戶請求或瀏覽網(wǎng)頁內(nèi)容時,更靈活方便的獲取網(wǎng)頁內(nèi)容。圖3為本發(fā)明中關(guān)鍵字匹配模塊數(shù)據(jù)結(jié)構(gòu)示意圖,在關(guān)鍵字匹配模塊140中,通常 至少會保留關(guān)鍵字列表310和對應(yīng)輔助信息位置320這兩項數(shù)據(jù)結(jié)構(gòu),這樣可以通過簡單 的查表來確定所需要的輔助信息的位置。當(dāng)然在數(shù)據(jù)結(jié)構(gòu)設(shè)計過程中可能還需要一些輔助 的信息,例如,輔助信息播放的位置,關(guān)鍵字優(yōu)先級,客戶端IP地址,服務(wù)端IP地址等,這些 信息都是可選的,沒有在圖3中一一列出。關(guān)鍵字列表既可以和輔助信息對應(yīng),又可以和輔 助信息地址對應(yīng),圖3只畫出了關(guān)鍵字列表和輔助信息地址對應(yīng)的情況。關(guān)鍵字和輔助信 息或輔助信息地址的對應(yīng)關(guān)系型可以是,一個關(guān)鍵字對應(yīng)多個輔助信息或多個輔助信息地 址,多個關(guān)鍵字對應(yīng)一個輔助信息或一個輔助信息地址,一個關(guān)鍵字對應(yīng)一個輔助信息或 一個輔助信息地址。圖4為本發(fā)明中第一種主動式網(wǎng)頁信息處理過程的流程圖,該處理過程是圖1的 一個實例,具體包括410,客戶端接收到網(wǎng)頁,并由關(guān)鍵字匹配模塊搜索用戶瀏覽網(wǎng)頁內(nèi) 容,即搜索用戶瀏覽網(wǎng)頁的HTML或XML(eXtensibIeMarkup Language,擴展標(biāo)記語言)文 件;420,判斷網(wǎng)頁內(nèi)容是否和關(guān)鍵字存在匹配;430如果存在匹配,則按照關(guān)鍵字對應(yīng)的地 址取回輔助信息;440并將取回的信息在客戶端播放;如果不存在匹配,則返回到前一步繼 續(xù)搜索。這樣所述網(wǎng)頁內(nèi)容還可以是用戶正在看的網(wǎng)頁框架(frame)內(nèi)的內(nèi)容,或用戶瀏 覽器窗口內(nèi)顯示部分的內(nèi)容,這些內(nèi)容采用JavaScript等本語言或操作系統(tǒng)的一些API程 序來提取。圖5為本發(fā)明中第二種主動式網(wǎng)頁信息處理過程的流程圖,該處理過程是圖2的 一個實例。在用戶獲得網(wǎng)頁內(nèi)容以后,可以伴隨簡單的操作,例如,510,把鼠標(biāo)或光標(biāo)指向 不明白的單詞,這個時候,將鼠標(biāo)或光標(biāo)指向的網(wǎng)頁內(nèi)容傳回服務(wù)端;520并在判斷服務(wù)端 是否存在和網(wǎng)頁內(nèi)容匹配的關(guān)鍵字;530如果存在,服務(wù)端則取回關(guān)鍵字對應(yīng)的輔助信息 或按找關(guān)鍵字對應(yīng)的地址取回輔助信息,服務(wù)器將關(guān)鍵字對應(yīng)的輔助信息傳回客戶端;540 最終在客戶端播放輔助信息。在抓取鼠標(biāo)周圍文字的時候,往往需要運用到JavaScript 或其它腳本技術(shù),也可以根據(jù)不同的操作系統(tǒng),調(diào)用一些底層API函數(shù)來實現(xiàn),例如在 Windows系統(tǒng)中,可以調(diào)用鉤子(Hook)來實現(xiàn)Windows屏幕取詞。圖6為本發(fā)明中第三種主動式網(wǎng)頁信息處理過程的流程圖,這個過程和圖4以及 圖5有很大不同,是伴隨著用戶對網(wǎng)頁的點擊而發(fā)生的。610,用戶點擊網(wǎng)頁內(nèi)具有超文本 鏈接的文字條目,620,并判斷文字條目是否和關(guān)鍵字存在匹配;630如果存在匹配,則按照 關(guān)鍵字對應(yīng)的地址取回輔助信息;640并將取回的信息在客戶端播放。圖7為本發(fā)明中為被動式網(wǎng)頁源文件添加指向輔助信息地址鏈接的流程圖,這種 方法的一個特點是必須在瀏覽網(wǎng)頁之前就完成添加指向輔助信息地址鏈接這一過程,而不 像圖4、圖5、圖6是在瀏覽網(wǎng)頁的過程中直接通過關(guān)鍵字匹配模塊取回輔助信息。也就是 說現(xiàn)有的網(wǎng)頁文件在被瀏覽前,還要經(jīng)過處理,加入指向輔助信息地址鏈接。具體流程為, 710,用戶獲取網(wǎng)頁源文件內(nèi)容;720,判斷網(wǎng)頁源文件內(nèi)容是否和關(guān)鍵字存在匹配;730,如果存在匹配,為源文件中匹配的地方加入指向輔助信息地址的鏈接;740,將加入了輔助信 息鏈接的網(wǎng)頁或形成新的輔助信息描述文件再發(fā)送給用戶。在這種方式下系統(tǒng)結(jié)構(gòu)將做 細微調(diào)整,如圖8所示,為被動式網(wǎng)頁源文件添加指向輔助信息的系統(tǒng)結(jié)構(gòu)圖。這里將添 加指向輔助信息鏈接前的網(wǎng)頁稱為舊網(wǎng)頁,將添加了輔助信息鏈接后的網(wǎng)頁稱為新網(wǎng)頁。 本專利主要針對但不限于處理網(wǎng)頁中文字信息,在舊網(wǎng)頁中,如果不考慮網(wǎng)頁中諸如注釋、 函數(shù)等輔助信息,在所有的可顯示的文字信息可以分為兩種,一種是帶有鏈接信息的,一種 是沒有帶有鏈接信息的。在源文件中發(fā)現(xiàn)例如〈ahref = http://mp3. baidu. com/>mp3</ a>格式的代碼或類似代碼,說明mp3本身是帶有鏈接信息的,并且鏈接的地址是http:// mp3. baidu. coiV。通常比較容易的識別標(biāo)志是<a href =鏈接地址></a>,在HTML或 XML (extensible MarkupLanguage)語言中<a href =鏈接地址></a>表示鏈接結(jié)構(gòu)。對 于一些其它的結(jié)構(gòu),如
. · · </p>等,則不具有鏈接結(jié)構(gòu)。在本發(fā)明中,將為存在鏈接結(jié) 構(gòu)的能夠關(guān)鍵字匹配的文字信息增加新的鏈接結(jié)構(gòu)指向輔助信息,或為不存在鏈接結(jié)構(gòu)但 是能和關(guān)鍵字匹配的結(jié)構(gòu)增加新的鏈接結(jié)構(gòu)以指向輔助信息。在HTML或XML(extensible Markup Language)這種互聯(lián)網(wǎng)這種最基本的網(wǎng)頁語言中,卻只有這一種鏈接結(jié)構(gòu),而且也 只有一種激活方式,即通過鼠標(biāo)點擊這一種激活方式。對于現(xiàn)有的互聯(lián)網(wǎng)的越來越復(fù)雜的 應(yīng)用則必須產(chǎn)生一些新的鏈接結(jié)構(gòu)以及新的激活方式。為了專利的完整性,在加入輔助鏈 接的時候則使用了一些新的鏈接結(jié)構(gòu)和激活方式。例如,在舊網(wǎng)頁810中,存在這樣一個鏈 接結(jié)構(gòu)<a href = http://A. html>2008年8月8日將在北京舉辦第29屆奧運會開幕式
</a>如果在關(guān)鍵字匹配模塊150中存在關(guān)鍵字“2008” “北京” “奧運會”等關(guān)鍵字信 息以及關(guān)鍵字對應(yīng)的輔助信息的地址分別為http: Il 2008. html、http//beijing. html、 http://01ympicgames. html,關(guān)鍵字匹配模塊在這里(圖8)的功能和圖1到圖6按照輔助 信息的地址取回輔助信息不同,這里關(guān)鍵字匹配模塊還要負責(zé)將輔助信息的地址加入到舊 網(wǎng)頁被匹配上的位置中,形成新網(wǎng)頁820。匹配的方法有以下幾種1、使用帶優(yōu)先級的鏈接結(jié)構(gòu),采用和原有優(yōu)先級不同的標(biāo)志字符,例如,原有的標(biāo) 志字符是<aX/a>,則可以增加新的優(yōu)先級標(biāo)志字符<bX/b>、<CX/C>等,可以定義a的優(yōu) 先級大于b,b的優(yōu)先級大于c。根據(jù)上面的例子,可以定義“北京”和“奧運會”的優(yōu)先級為 b,“2008”的優(yōu)先級為c,則得到以下的新網(wǎng)頁源文件內(nèi)容<a href = http://A. htmlXc href = http://2008. html>2008</c> 年 8 月 8 日將在 <bhref = http://beijing. html> 北京 </b> 舉辦第 29 屆 <bhref = http:// Olympicgames. html> 奧運會 </b> 開幕式 </a>當(dāng)新網(wǎng)頁820發(fā)送到客戶端110后,可以采用不同的下劃線方式或不同的彩色文 字或不同字體的方式來顯示不同優(yōu)先級的鏈接結(jié)構(gòu),例如,無色代表優(yōu)先級最高、紅色次 之、黃色的優(yōu)先級比紅色低等。用戶可以通過以下方式激活存在的輔助信息的鏈接(1)鼠 標(biāo)在文字上則取回并顯示網(wǎng)頁所帶的輔助信息;(2)鼠標(biāo)在代用輔助信息鏈接的文字上做 規(guī)定動作,如轉(zhuǎn)圖畫圓等;(3)鼠標(biāo)點擊帶有鏈接結(jié)構(gòu)的網(wǎng)頁條目,在打開時候,同時取回 輔助信息并顯示;(4)瀏覽器識別優(yōu)先級自動或按照時間取回并顯示輔助信息。用戶可以 通過以下方式來顯示取回的輔助信息(1)打開一個新的網(wǎng)頁,即執(zhí)行新的瀏覽器線程或進程,來顯示取回的輔助信息;(2)在原有的網(wǎng)頁中通過內(nèi)部程序調(diào)用或執(zhí)行JavaScript 等腳本語言或執(zhí)行ActiveX控件或調(diào)用瀏覽器插件來顯示取回的輔助信息;(3)在瀏覽器 外部通過調(diào)用系統(tǒng)API或系統(tǒng)設(shè)備或新的軟硬件程序來顯示取回的輔助信息的方法。2、使用鏈接結(jié)構(gòu)嵌套表達方式,在瀏覽器解析網(wǎng)頁鏈接結(jié)構(gòu)的時候,識別出鏈接 結(jié)構(gòu)內(nèi)部嵌套的鏈接結(jié)構(gòu),采用有條件的方式打開這些鏈接的輔助信息。需要注意的是這 也是本發(fā)明的一部分,因為在原有的鏈接結(jié)構(gòu)中,并不支持這種嵌套的表達方式。在這種情 況下,新網(wǎng)頁的源文件內(nèi)容為<a href = http://A. htmlXa href = http://2008. html>2008</a> 年 8 月 8 日將在 <ahref = http://beijing. html> 北京 </a> 舉辦第 29 屆 <ahref = http:// Olympicgames. html> 奧運會 </a> 開幕式 </a>當(dāng)新網(wǎng)頁820發(fā)送到客戶端110后,可以采用不同的下劃線方式或不同的彩色 文字或不同字體的方式來顯示不同嵌套級別的鏈接結(jié)構(gòu),例如,藍色下劃線代表最外層嵌 套、紅色下劃線表示內(nèi)層嵌套等等,這需要瀏覽器對多層嵌套功能的支持。用戶可以通過 以下方式激活存在的輔助信息的鏈接(1)鼠標(biāo)在文字上則取回并顯示網(wǎng)頁所帶的輔助 信息;(2)鼠標(biāo)在代用輔助信息鏈接的文字上做規(guī)定動作,如轉(zhuǎn)圈畫圓等;(3)鼠標(biāo)點擊 帶有輔助信息鏈接的文字;(4)瀏覽器識別嵌套層次自動或按照時間取回并顯示輔助信 息。用戶可以通過以下方式來顯示取回的輔助信息(1)打開一個新的網(wǎng)頁,即執(zhí)行新的 瀏覽器線程或進程,來顯示取回的輔助信息;(2)在原有的網(wǎng)頁中通過內(nèi)部程序調(diào)用或執(zhí) 行JavaScript等腳本語言或執(zhí)行ActiveX控件或調(diào)用瀏覽器插件來顯示取回的輔助信息; (3)在瀏覽器外部通過調(diào)用系統(tǒng)API或系統(tǒng)設(shè)備或新的軟硬件程序來顯示取回的輔助信息 的方法。3、在原有的網(wǎng)頁結(jié)構(gòu)中增加新的邏輯控制語句,即在語義中取回輔助信息的語 法,這中語法結(jié)構(gòu)類似“如果條件A成立,則執(zhí)行B操作”,表現(xiàn)在C語言中為“if(A) ;B; ”, 也可以表示為“當(dāng)條件A成立時,才執(zhí)行B操作”,表現(xiàn)在C語言中為“while(A)B”。這些帶 有語義的語法結(jié)構(gòu)對于網(wǎng)頁的靈活應(yīng)有具有很好的作用。因為語法結(jié)構(gòu)千變?nèi)f化,因此在 本專利中不可能窮盡所有新的語義表達方式。但是在網(wǎng)頁中加入以上(但不限于以上)語 義時,均在本專利的保護范圍之內(nèi)。在傳統(tǒng)的方法中一般是通過比較復(fù)雜的JavaScript語 言來看程序邏輯進行控制的。對于上面的例子可以表述為<if><a href = http://A. html>2008年8月8日將在北京舉辦第29屆奧運會開 幕式</a>{<a href = http: // 2008. html><a href = http: // beij ing. html><a href = http://Olympicgames. html>}</if>或<while><a href = http://A. html>2008年8月8日將在北京舉辦第29屆奧運會
開幕式</a>
10
{<ahref=http/V2008.html〉
<ahref=http/Vbei jing. html>
<ahref=http/VOlympicgames. html>}</while>這里還可以把用戶的操作也規(guī)定到網(wǎng)頁里面,例如用戶有點擊(click)、鼠標(biāo)移動 到鏈接上(mouse on)等,這樣上述代碼可以修改為<while> a href = http://A. html>2008 年 8 月 8 日將在北京舉辦第 29 屆奧運 會開幕式</a> = click){<ahref=http/V2008.html〉
<ahref=http/Vbei jing. html>
<ahref=http/VOlympicgames. html>}</while>對于網(wǎng)頁的控制當(dāng)然也可以諸如程序創(chuàng)建(create)、框架創(chuàng)建等各種程序動作為 發(fā)生。這種在網(wǎng)頁內(nèi)部嵌入邏輯控制語句的方法將為網(wǎng)頁帶來更多復(fù)雜的應(yīng)用。這也會 對網(wǎng)頁文件解析器(如IE、Mozilla等)提出更高的要求,并且會使網(wǎng)頁的結(jié)構(gòu)變得更加復(fù) 雜。但確確實實給用戶帶來很多不一樣的網(wǎng)頁瀏覽感受。需要注意的是在網(wǎng)頁中加入邏輯控制語句的方法是一種區(qū)別現(xiàn)有網(wǎng)頁表達的技 術(shù),可能會有多種多樣的嵌入方式以及各種各樣的嵌入表達,例如,可能會出現(xiàn)多種控制關(guān) 鍵字(前面只列舉了 if、while等少量關(guān)鍵字),可能會有多種的語言單位的標(biāo)記(例如,語 言結(jié)束標(biāo)記,分割語言羅的標(biāo)記等),可能會在不同的位置插入控制關(guān)鍵字。所有以上的變 化均是在本發(fā)明的所考慮的范圍之內(nèi),也均在本發(fā)明的保護范圍之中。本發(fā)明中的控制關(guān) 鍵字和語義邏輯的分割都可以參考C語言或其它程序語言的控制關(guān)鍵字和語義劃分的方 法。對于加入了程序控制結(jié)構(gòu)的網(wǎng)頁,需要專門的編譯器,可以采用類似C語言的編譯器, 整個編譯文件,也可以采用Matlab的對M語言的編譯器,對語言采用逐行編譯的方法。除了可以在網(wǎng)頁文件中加入語言控制邏輯結(jié)構(gòu),也可以在網(wǎng)頁文件對應(yīng)的描述文 件(例如本發(fā)明中的功能描述文件)中使用。但是使用的語法結(jié)構(gòu)、關(guān)鍵字種類、語義邏輯 劃分等都和把控制邏輯直接加入網(wǎng)頁文件的方法類似。4、形成新的輔助信息描述文件,即采用內(nèi)容和控制分離的方法來實現(xiàn)對網(wǎng)頁的 控制。以前由于網(wǎng)頁內(nèi)容十分簡單,因此一些小的控制直接可以在網(wǎng)頁內(nèi)部完成,采用 VBScript、JavaScript, Perl等腳本語言來控制網(wǎng)頁內(nèi)的對象。隨著網(wǎng)頁功能越來越復(fù)雜 還將控制和內(nèi)容放在一起已經(jīng)不是很好的選擇了。還有一些做法是利用Java等語言的遠 程調(diào)用來實現(xiàn)一些功能,但是這也給使用和程序處理帶來了很大難度。隨著DOM(Document Object Model,文件目標(biāo)模型)技術(shù)和 Ajax(Asynchronous JavaScript and XML)等新技 術(shù)的出現(xiàn)和發(fā)展,使網(wǎng)頁的腳本HTML變的越來越復(fù)雜。本發(fā)明為網(wǎng)頁引入了一種新的文件
11格式,描述文件(profile),以輔助信息描述文件為例,如果通過對網(wǎng)頁進行處理生成輔助 信息描述文件,則可以很好地支持包括取回和播放輔助信息等功能。需要指出的是,輔助信 息描述文件實際上是功能描述文件的一種。描述文件通常和網(wǎng)頁是一一對應(yīng)的,在一些特 殊情況,如為不同的用戶使用不同描述文件的時候,描述文件和網(wǎng)頁的關(guān)系也可以是多個 描述文件對應(yīng)同一個網(wǎng)頁。為了能很好的生成功能描述文件,生成和功能描述文件對應(yīng)的 內(nèi)容描述文件往往也變得必不可少。這種概念和Web 3.0,即基于語義(semantic)的Web, 有很大的相似之處,也是對其的補充和發(fā)展。對于語義的描述可以生成內(nèi)容描述文件,生成的方法可以如下構(gòu)建一個帶有矢量語義的關(guān)鍵字數(shù)據(jù)庫,如,可口可樂>飲料>食物等,對于每一 個關(guān)鍵字,都可以存在一個這樣的矢量語義指向這個關(guān)鍵字,這種做法類似于搜索引擎對 搜索關(guān)鍵字分類的處理方法,這搜索引擎包含google、百度等。構(gòu)建好這樣一個矢量語義的 數(shù)據(jù)庫以后,在對網(wǎng)頁進行分析,用過現(xiàn)有的DOM技術(shù)或類似技術(shù),把網(wǎng)頁解析為一棵對象 樹,然后再把這棵對象樹下面的節(jié)點對應(yīng)到所述關(guān)鍵字數(shù)據(jù)庫上,通過這種對應(yīng)可以建立 一個這樣的文件,包含網(wǎng)頁中每一個對象數(shù)據(jù),以及所述對象數(shù)據(jù)調(diào)用句柄或?qū)ο驣D,以及 對應(yīng)的有關(guān)關(guān)鍵字描述。這個文件就叫做內(nèi)容描述文件,該文件還可以包含一些關(guān)于本網(wǎng) 頁的基本內(nèi)容,如URL、時間信息等。分析網(wǎng)頁并把網(wǎng)頁元素對象化的方法除了 DOM方法之外,還有很多。在本專利中 只要能夠?qū)⒕W(wǎng)頁中顯示的文字信息抽取出來并對象化就可以了。對于其它多媒體信息(例 如視頻、聲音、圖像等)對象化方法以及加入邏輯控制的方法和文字相同。以上1-4方法 都適用于視頻、聲音、圖像等。例如,對于3方法中的例子<if><a href = http://A. html>2008年8月8日將在北京舉辦第29屆奧運會開 幕式</a>{<ahref=http: /V2008. html>
<ahref=http:/Vbei jing. html>
<ahref=http:/VOlympicgames. html>}</if>如果A. html被替換成了 A. mp3 ( —種語音壓縮格式),或2008. html被替換成 2008. jpg,方法3同樣使用,該例子可重寫為<if><a href = http://A.mp3>2008年8月8日將在北京舉辦第29屆奧運會開幕 式 </a>{<ahref=http://2008. jpg>
<ahref=http:// bei jing. html>
<ahref=http://Olympicgames. html>}</if>由此可見,本發(fā)明對網(wǎng)頁源文件中控制或編輯的對象以及輔助信息的內(nèi)容,均包含所有媒體可是,例如,視頻、音頻、圖像、文字等。如圖9所示,為分析網(wǎng)頁內(nèi)容并形成一棵樹的示意圖。現(xiàn)有技術(shù)通常通過DOM來分 析網(wǎng)頁并生成一棵樹。DOM通過解析HTML或XML文檔,為XML文檔在邏輯上建立一個樹模 型,樹的節(jié)點是一個個的對象。這樣通過操作這棵樹和這些對象就可以完成對HTML或XML 文檔的操作,為處理文檔的所有方面提供了一個很好的概念性框架。也為后來生成內(nèi)容描 述文件和/或功能描述文件做了前期準(zhǔn)備。如下HTML文檔<html><head><title> 題目 A</title></head><body><a href =,,http ://···”> 鏈接 A</a>
<a href =,,http ://···”> 鏈接 B</a><tr><td>
內(nèi)容 A</p></td><td>
內(nèi)容 B</p></td><td>
內(nèi)容 C</p></td></tr>
內(nèi)容 D</p></body></html>DOM的結(jié)構(gòu)表示如圖9所示。每一個HTML文檔都可以變成這樣的一棵樹。而且為 了便于控制,每一個元素節(jié)點可以分配一個ID或一個名稱,這樣便于在進一步處理時調(diào)用 元素本身。910為HTML文檔,根元素就是<html>,這樣一步一步就形成了圖9的樣子。由于 DOM “一切都是節(jié)點(everything-is-a-node) ”,樹的每個文檔(Document)、 元素(Element)、文本(Text)、屬性(Attr)和注釋(Comment)都是DOM節(jié)點(Node)。常見 的基本節(jié)點類型文檔、元素、屬性、文本和注釋XML中共有12種節(jié)點類型,其中最常見的節(jié)點類型有5種元素元素是XML的基本組成單元,描述XML的基本信息,在圖9中有根元素920、 頭元素930、文件體元素940、題目元素950、鏈接元素960、標(biāo)題元素970、表格元素980、表 格項元素986、正文元素987。屬性屬性節(jié)點包含關(guān)于元素節(jié)點的信息,通常包含在元素里面,描述元素的屬性,圖9中有962超鏈接屬性和985表格屬性。文本包含許多文本信息或者只是空白,圖9中有951、961、962、971、981、982、 983、984都是文本。并且為了方便表示,把所有的文本標(biāo)記在900文本框內(nèi),這樣做也可以 方便關(guān)鍵字匹配模塊整體進行處理。文檔文檔節(jié)點是整個文檔中所有其它節(jié)點的父節(jié)點。注釋注釋是對相關(guān)的信息進行描述、注釋。為能方便快捷地控制各個元素(節(jié)點),為每一個元素節(jié)點都可以分配一個ID號 或一個名字,這樣就不用在操作的時候遍歷整棵樹了,也為以后生成內(nèi)容描述文件或功能 描述文件帶來了便利。圖10為發(fā)明中被動式生成內(nèi)容描述文件和功能描述文件示意圖,就使用不同的 ID號來表示不同的元素,如,題目元素950用IDl來表示,由于對應(yīng)不同的文本961和962, 鏈接元素960用ID2、ID3表示,標(biāo)題元素970用ID4表示,同理三個正文元素987對應(yīng)三個 不同的文本,用ID5、ID6、ID7表示,最后一個正文元素987用ID8表示。用900表示從網(wǎng)頁 文件中抽象出來的所有文本內(nèi)容,把這些文本內(nèi)容輸入到關(guān)鍵字匹配模塊中150中,生成 所述網(wǎng)頁(HTML文件)的內(nèi)容描述文件1000。這里的關(guān)鍵字匹配模塊,雖然也會維護一個 關(guān)鍵字數(shù)據(jù)庫,但是不一定同時具有輔助信息的鏈接地址。這樣生成的內(nèi)容描述文件1000 里面可能只包含一些關(guān)鍵字信息和網(wǎng)頁基本信息。內(nèi)容描述文件1000包含以下幾部分中 至少一部分1、指定網(wǎng)頁元素的ID號或名稱,方便再次處理或在用戶端調(diào)用各種元素,這要求 在解析網(wǎng)頁的時候要采用統(tǒng)一的方法來對網(wǎng)頁元素編號,分配統(tǒng)一的ID或一致的名稱;2、ID或名稱對應(yīng)的關(guān)鍵字,如,IDl對應(yīng)關(guān)鍵字“北京”,ID2對應(yīng)關(guān)鍵字“奧運” 等;3、網(wǎng)頁的基本信息,比如網(wǎng)頁的地址http://...,網(wǎng)頁創(chuàng)建時間,網(wǎng)頁適合對象, 網(wǎng)頁發(fā)布的信息類型,以及一些網(wǎng)頁的meta date等。這些信息對用戶了解網(wǎng)頁信息非常 有用,也可以方便對網(wǎng)頁進行再次處理?;拘畔⒅芯W(wǎng)頁適合對象(該信息也可以放入功 能描述文件,但是多數(shù)時候是放在內(nèi)容描述文件中),為了有針對的投放用戶或者限制某些 用戶瀏覽該網(wǎng)頁。例如,并不是所有網(wǎng)頁都適合兒童觀看,在一些網(wǎng)頁的內(nèi)容描述文件中加 入網(wǎng)頁用戶的信息或限制信息,可以防止一些網(wǎng)絡(luò)不健康信息四處傳播。這樣也可以為網(wǎng) 頁尋找到更適合的瀏覽人群。這需要瀏覽器能夠確定用戶身份,如果以后每個人都有自己 的瀏覽器,則這種身份確定將變?yōu)榭赡?。如圖12所示,內(nèi)容描述文件1000中含有網(wǎng)頁適合 對象,標(biāo)明了該網(wǎng)頁適合年齡超過16周歲的用戶,當(dāng)個性化客戶端需要主動獲取該網(wǎng)頁內(nèi) 容的時候,有以下幾種方式進行判斷該網(wǎng)頁是否適合該用戶1、用戶獲得內(nèi)容描述文件,發(fā)現(xiàn)網(wǎng)頁適合對象為16歲以上,個性化客戶端111發(fā) 現(xiàn)自己的用戶信息不滿足以上條件,則停止網(wǎng)頁的請求過程;2、用戶獲取內(nèi)容描述文件的限制信息,比如大于16周歲,個性化客戶端111發(fā)現(xiàn) 自己的用戶信息不滿足以上條件,則停止網(wǎng)頁請求過程;3、個性化客戶端111向網(wǎng)站首先發(fā)送用戶信息或加密的用戶信息,網(wǎng)站發(fā)現(xiàn)個性 化客戶端111的用戶信息中年齡為10歲和用戶所請求網(wǎng)頁的內(nèi)容描述文件中的網(wǎng)頁適合 對象條件不相滿足,則停止網(wǎng)頁的請求過程。
當(dāng)然關(guān)鍵字匹配模塊,也可以包含輔助信息的鏈接地址,并且還可以為網(wǎng)頁(HTML 或XML文件)定義一些操作邏輯,增加網(wǎng)頁自身的功能。這樣就可以生成功能描述文件 2000。這一個過程也可以先生成內(nèi)容描述文件1000,然后再通過其它功能模塊處理內(nèi)容描 述文件1000,以生成功能描述文件2000。功能描述文件通常包含以下幾部分中至少一部分1、指定網(wǎng)頁元素的ID號或名稱,方便再次處理或在用戶端調(diào)用各種元素,這要求 在解析網(wǎng)頁的時候要采用統(tǒng)一的方法來對網(wǎng)頁元素編號,分配統(tǒng)一的ID或一致的名稱;2、網(wǎng)頁的基本信息,比如網(wǎng)頁的地址http://...,網(wǎng)頁創(chuàng)建時間,網(wǎng)頁適合對象, 網(wǎng)頁發(fā)布的信息類型,以及一些網(wǎng)頁的meta date等等。這些信息對用戶了解網(wǎng)頁信息非 常有用,也可以方便對網(wǎng)頁進行再次處理。3、操作邏輯,即用戶(客戶端)在使用并瀏覽網(wǎng)頁時,會主動或被動的執(zhí)行這些操 作邏輯。所述主動執(zhí)行是指,不需要用戶操作,自動按照操作邏輯執(zhí)行某些具體的程序動 作,如,打開/播放/關(guān)閉輔助信息、打開/關(guān)閉新的網(wǎng)頁、增加/刪除網(wǎng)頁中的對象等;所 述被動執(zhí)行是指,需要用戶操作,并通過用戶的操作采用激活并執(zhí)行的操作邏輯,如,用戶 在移動鼠標(biāo)、或點擊網(wǎng)頁時的一些操作邏輯,這些操作邏輯也包括打開/播放/關(guān)閉輔助信 息、打開/關(guān)閉新的網(wǎng)頁、增加/刪除網(wǎng)頁中的對象等。如圖10中的功能描述文件2000中 的記錄“IDl :http://beijing. html :click :new window,,,表示 ID 號為 IDl 的元素(題目 元素)在被點擊(click)之后,鏈接到“http://beijing.html”,并把獲得的網(wǎng)頁在新的窗 Π (new window)內(nèi)打開;同樣,記錄"ID4 :http://pingpang. jpg :create :beside,,,表示 ID號為ID4的元素在被創(chuàng)建“create”以后,就鏈接到“http//pingpang. jpg”,并把獲得 的文件在原來網(wǎng)頁的兩邊空白處進行播放;同樣,記錄“ID5 :http://bootball. swf :mouse on :new layer”,表示當(dāng)鼠標(biāo)運動至Ij ID號為ID5的元素之上時,就取回“http://bootball. swf”,并在創(chuàng)建的新層中進行播放。操作邏輯可以多種多樣,有時候可以根據(jù)實際需要采用 更為復(fù)雜的操作邏輯,這也需要更好的功能描述文件解析器的支持。例如,根據(jù)一些復(fù)雜的 操作邏輯,可能存在條件邏輯、并發(fā)邏輯、選擇邏輯等高級語言中的邏輯,這個時候可以采 用類似高級語言的方法在功能描述文件2000中加入if(then)語句、while語句、switch 語句、for語句等比較復(fù)雜的邏輯控制結(jié)構(gòu),操作邏輯描述也可以使用現(xiàn)有的計算機編程語 言,例如C、C++、Java, C#或任何一種腳本語言。在圖10中存在的兩種新的文件結(jié)構(gòu),內(nèi)容描述文件1000和功能描述文件2000, 都是為了更好的發(fā)揮網(wǎng)頁功能而設(shè)計的。內(nèi)容描述文件1000的主要作用在于從語義 (semantic)的層面上了解網(wǎng)頁的內(nèi)容,而現(xiàn)有的HTML或XML文件多數(shù)是基于語法的結(jié)構(gòu)來 描述網(wǎng)頁的,也就是說現(xiàn)有的HTML或XML文件只能告訴瀏覽器怎么把文件顯示出來,以及 文件內(nèi)部的關(guān)系,而不能表示現(xiàn)有的HTML或XML文件里面到底都是些什么內(nèi)容,或大概是 些什么內(nèi)容。有了這樣一個基于語義的描述文件,就可以很方便的對海量的網(wǎng)頁數(shù)據(jù)進行 復(fù)雜的分類和處理了。而功能描述文件2000的主要作用則是描述網(wǎng)頁在被用戶(客戶端) 使用的時候的一些主動或被動的操作邏輯,即為用戶定制的一些動作和功能的描述,例如, 功能描述文件可以很好的完成為用戶提供輔助信息的功能,但決不限于此功能。用戶可以 通過隨意點擊網(wǎng)頁上“天氣”兩個字而獲得今天的天氣情況,用戶可以通過功能描述文件將 不認識的單詞發(fā)送給更專業(yè)的網(wǎng)頁進行翻譯,用戶可以把網(wǎng)頁和本地的一些應(yīng)用程序關(guān)聯(lián)起來,一同完成一些復(fù)雜的功能,這些在以往看來非常麻煩的工作,通過功能描述文件可以 很容易的進行解決和完成。對于內(nèi)容描述文件和功能描述文件的編碼格式可以采用純文本的字符方式、也可 以采用二進制格式。在內(nèi)容描述文件和功能描述文件傳輸?shù)倪^程中可以采用加密或不加密 的方式。如圖11所示,為被動式的生成和使用功能描述文件的系統(tǒng)示意圖,服務(wù)端170包 含網(wǎng)頁文件4000、處理模塊3000、由處理模塊3000生成的內(nèi)容描述文件1000以及由處理 模塊3000生成功能描述文件。網(wǎng)頁文件4000包含所有的類HTML或XML的腳本文件,首先 網(wǎng)頁文件被送到處理模塊3000,處理模塊是一個抽象的模塊感念,包含關(guān)鍵字匹配模塊等 多種模塊概念,其功能就是處理網(wǎng)頁文件,生成功能描述文件2000或內(nèi)容描述文件1000。 這里內(nèi)容描述文件通常是不直接發(fā)給網(wǎng)頁的最終瀏覽用戶即客戶端的,而只是作為一種對 所述網(wǎng)頁文件進行處理的一種中間文件,一般存儲在網(wǎng)站。通常情況下,只將網(wǎng)頁文件4000 和功能描述文件2000發(fā)送到客戶端,即用戶。客戶端的處理流程是這樣的,客戶端獲取網(wǎng) 頁文件和網(wǎng)頁對應(yīng)的功能描述文件(可以同時獲得或有順序獲得),客戶端通過網(wǎng)頁瀏覽 模塊解析并打開網(wǎng)頁,這個時候也會通過功能描述文件解析器解析所述的功能描述文件, 然后通過瀏覽器或外部程序來執(zhí)行功能文件中的操作邏輯,也可以通過感知用戶的動作來 激活各種操作邏輯,例如,伴隨用戶點擊的動作可能激活了關(guān)于點擊對象的ID對應(yīng)的取回 某個廣告信息的操作邏輯。功能描述文件可以由處理模塊3000直接生成,也可以先由處理 模塊生成內(nèi)容描述文件1000,然后處理模塊在處理內(nèi)容描述文件1000,最后生成功能描述 文件2000。在客戶端110,包含有網(wǎng)頁瀏覽模塊120和功能描述文件解析器2100,所述網(wǎng)頁 瀏覽模塊120可以解析并顯示網(wǎng)頁文件4000,所述功能描述文件解析器2100可以解析功能 描述文件,并配合網(wǎng)頁瀏覽模塊一起完成在功能描述文件中預(yù)定義的操作邏輯。這里功能 描述文件解析器2100可以是一個單獨的軟件或是一個瀏覽器中的插件,功能文件解析器 是一個抽象的能夠解析功能描述文件的模塊,可以是目前通用瀏覽器的軟件功能升級,也 可以是一個新的軟件模塊。這里的功能描述文件可以采用類似腳本文件(如,JavaScript, XML)的語言和控 制結(jié)構(gòu),也可以采用類似的控制關(guān)鍵字。語言結(jié)構(gòu)可以和在網(wǎng)頁內(nèi)直接插入邏輯控制語句 類似,不同的是,這里不需要再寫出網(wǎng)頁元素的內(nèi)容,而是用該元素的ID表示就可以了,這 樣會比較簡單些。如已知<a href = http://A. html>2008年8月8日將在北京舉辦第29屆奧運會開幕式
</a>元素的ID 是 790410這在網(wǎng)頁中直接插入邏輯控制語句的結(jié)構(gòu)<while> a href = http//A. html>2008 年 8 月 8 日將在北京舉辦第 29 屆奧運 會開幕式</a> = click){<ahref=http/V2008.html〉
<ahref=http/Vbei jing. html>
<ahref=http/VOlympicgames. html>
}</while>可以轉(zhuǎn)化成功能描述文件中的內(nèi)容為<while>(ID (790410) = click){<ahref=http/V2008.html〉
<ahref=http/Vbei jing. html>
<ahref=http/VOlympicgames. html>}</while>需要注意的是在功能描述文件中的語言可能會有多種多樣表達,例如,可能會出 現(xiàn)多種控制關(guān)鍵字(前面只列舉了 if、while等少量關(guān)鍵字),可能會有多種的語言單位的 標(biāo)記(例如,語言結(jié)束標(biāo)記,分割語言羅的標(biāo)記等)。所有以上的變化均是在本發(fā)明的所考 慮的范圍之內(nèi),也均在本發(fā)明的保護范圍之中。本發(fā)明中的控制關(guān)鍵字和語義邏輯的分割 都可以參考C語言或其它程序語言的控制關(guān)鍵字和語義劃分的方法。對于功能描述文件, 需要專門的編譯器-功能描述文件解析器,可以采用類似C語言的編譯器,整個編譯文件, 也可以采用Matlab的對M語言的編譯器,對語言采用逐行編譯的方法。由于使用了內(nèi)容描述文件1000和功能描述文件2000,使得網(wǎng)站一一網(wǎng)站之間,以 及網(wǎng)站一一個人一一網(wǎng)站之間,個人一一網(wǎng)站一一個人之間的數(shù)據(jù)自動交換成為了可能。 網(wǎng)站與網(wǎng)站間或網(wǎng)站與用戶是按如下方式完成對網(wǎng)頁數(shù)據(jù)的協(xié)同處理的首先一定有一方(網(wǎng)站或用戶)生成網(wǎng)頁文件,并且生成網(wǎng)頁對應(yīng)的內(nèi)容描述文 件和/或功能描述文件,以下簡稱為生成方;一定還有一方(網(wǎng)站或用戶)處理接收到的網(wǎng) 頁文件,以及和網(wǎng)頁文件對應(yīng)的內(nèi)容描述文件和/或功能描述文件,以下簡稱為處理方。然 后,處理方根據(jù)接收到功能描述文件中描述的操作邏輯來處理接收到的網(wǎng)頁和/或網(wǎng)頁對 應(yīng)的內(nèi)容描述文件,處理的方法包括修改數(shù)據(jù)、收集數(shù)據(jù)、生成報表、運算數(shù)據(jù)、分析數(shù)據(jù)、 按要求轉(zhuǎn)發(fā)數(shù)據(jù)等各種操作。通過使用內(nèi)容描述文件和功能描述文件,還可以衍生出大量的復(fù)雜應(yīng)用。以下列舉幾個典型的應(yīng)用來加以說明例1,網(wǎng)站和網(wǎng)站之間通過內(nèi)容描述文件來進行數(shù)據(jù)交換。例如像google這樣 的搜索引擎,明天需要用網(wǎng)絡(luò)爬行機器人(crawler)搜索大量的復(fù)雜的網(wǎng)頁進行分析,但 是如果有了內(nèi)容描述文件以后,可能只需要獲得各個網(wǎng)頁內(nèi)容描述文件來進行分析就可以 了。還有些時候不得不對一些網(wǎng)站的內(nèi)容進行檢索,如果檢索并分析所有網(wǎng)頁非常困難,則 可以考慮分析網(wǎng)站中網(wǎng)頁對應(yīng)的內(nèi)容描述文件,這樣會變得非常輕松。在搜索一個網(wǎng)站時, 可以為該網(wǎng)站建立一個網(wǎng)站樹型索引,該樹型索引按每個網(wǎng)頁的URL層次關(guān)系建立,例如, www. baidu. com 為根節(jié)點,www. baidu. com/mp3 為根節(jié)點的一級子節(jié)點,而 www. baidu. com/ mp3/list為根節(jié)點的二級子節(jié)點。采用這種方式遍歷所有網(wǎng)頁的內(nèi)容描述文件,就可以很 快的搜索整個網(wǎng)站的內(nèi)容了。例2,用戶在使用網(wǎng)站時,有時候也不得不處理一些網(wǎng)站數(shù)據(jù),來加深對網(wǎng)站的理 解,這時可以采用網(wǎng)頁的功能描述文件來實現(xiàn)個人和多個網(wǎng)站之間的數(shù)據(jù)交換??梢酝ㄟ^功能描述文件定義網(wǎng)頁中內(nèi)容和其它網(wǎng)站的接口,把某一些特點的數(shù)據(jù)導(dǎo)入一些功能描述 文件指定的網(wǎng)站,簡單的例子是把一些特殊詞匯直接導(dǎo)入大型的搜索或百科全書網(wǎng)站,例 如,在網(wǎng)頁中看見“白堊紀(jì)”,可以通過鼠標(biāo)操作(例如拖動或點擊),把“白堊紀(jì)”詞條發(fā)送 到維基百科網(wǎng)站(www. Wikipedia. com),然后自動取回“白堊紀(jì)”詞條的意思并顯示給用戶。如圖12所示,為本發(fā)明中被動式通過設(shè)定網(wǎng)頁適合對象來投放網(wǎng)頁的示意圖。網(wǎng) 頁描述文件(包括內(nèi)容描述文件1000和功能描述文件2000)中都可以包含網(wǎng)頁的基本信 息,以網(wǎng)頁的內(nèi)容描述文件為例,網(wǎng)頁的基本信息包括網(wǎng)頁的鏈接地址、創(chuàng)建時間、保存時 間、網(wǎng)頁的信息類型(包括,網(wǎng)頁內(nèi)容分類,如娛樂、體育等)、網(wǎng)頁語言(如中文、英文 等)、網(wǎng)頁采用的字體(如GB2312等)、網(wǎng)頁產(chǎn)生的地點(如地區(qū)名稱或公司名稱)、網(wǎng)頁 投放地點(如地區(qū)等)、網(wǎng)頁適合對象(如對網(wǎng)頁使用對象的年齡、性別、情趣愛好等方 面的要求)。當(dāng)然內(nèi)容描述文件還應(yīng)該包含網(wǎng)頁內(nèi)元素的名稱或ID,以及名稱或ID對應(yīng)的 關(guān)鍵字信息。除了有網(wǎng)頁描述文件還不能完成對網(wǎng)頁的個性化投放,用戶還需要一個個性 化的客戶端111。個性化客戶端是一個包含用戶信息的網(wǎng)頁接收瀏覽設(shè)備。所述用戶信息 可以通過用戶自己填寫或個性化客戶端通過其它方式自己收集,所述用戶信息包括用戶的 身份信息(用戶的姓名、地址、性別、年齡、郵件地址、身份ID等)、用戶的興趣愛好(例如, 用戶喜歡汽車、音樂、股票等)。個性化客戶端不光可以判斷一個網(wǎng)頁是否適合該用戶瀏覽, 還有一個重要用途就是根據(jù)用戶信息中的興趣愛好為瀏覽器推送個性化的廣告信息,也可 以包括以下步驟網(wǎng)站獲得個性化客戶端的資料(包含用戶信息中的興趣愛好),根據(jù)網(wǎng)站 資源和用戶的興趣愛好做匹配,為用戶推送個性化的信息(包含廣告信息)。網(wǎng)頁適合對象的信息在現(xiàn)有的網(wǎng)頁結(jié)構(gòu)中也是一種空缺結(jié)構(gòu),因此這部分同樣可 以被放入在現(xiàn)有的網(wǎng)頁結(jié)構(gòu)(如HTML文件)中,一般放在網(wǎng)頁的頭部<head>或meta date 中,這樣用戶個性化瀏覽器在解析HTML文件時,可以很快發(fā)現(xiàn)該網(wǎng)頁是否適合該用戶瀏 覽。該網(wǎng)頁的結(jié)構(gòu)也在本專利保護范圍之內(nèi)。本發(fā)明實施例所描述的技術(shù)可以用硬件、軟件、或組合執(zhí)行。如果用軟件執(zhí) 行,則該技術(shù)可以直接指包含程序代碼的計算機可讀介質(zhì),該程序代碼在對視頻序列進 行編碼的設(shè)備中執(zhí)行。在該種情況下,計算機可讀介質(zhì)可以包括RAM (Random Access Memory,隨機存儲器)、SDRAM(SynchronousDynamic RAM,同步動態(tài)隨機存儲器)、 ROM (Read Only Memory,只讀存儲器)、NVRAM (non-volatile RAM 非易失性隨機存儲器)、 EEPROM(ElectricalIy-Erasable Programmable Read-Only Memory,電可擦除只讀存儲 器)、FLASH(閃存)等。以上公開的僅為本發(fā)明的幾個具體實施例,但是,本發(fā)明并非局限于此,任何本領(lǐng) 域的技術(shù)人員能思之的變化都應(yīng)落入本發(fā)明的保護范圍。
權(quán)利要求
一種為網(wǎng)頁源文件中添加邏輯控制語句的方法,其特征在于,包括以下步驟打開網(wǎng)頁源文件;設(shè)定網(wǎng)頁的邏輯結(jié)構(gòu),在網(wǎng)頁源文件中加入邏輯控制語句,并把帶有邏輯控制語句的網(wǎng)頁發(fā)給用戶;用戶端解析網(wǎng)頁文件,并根據(jù)邏輯控制語句的觸發(fā)條件,執(zhí)行邏輯控制語句中定義的操作。
2.一種被動式的為網(wǎng)頁生成網(wǎng)頁內(nèi)容描述文件的方法,其特征在于,包括以下步驟 獲取網(wǎng)頁內(nèi)容源文件;把網(wǎng)頁內(nèi)顯示的文本內(nèi)容和關(guān)鍵字列表進行匹配,如果匹配成功則在所述內(nèi)容描述文 件內(nèi)保留所述匹配成功的關(guān)鍵字條目和網(wǎng)頁內(nèi)容的對應(yīng)關(guān)系。
3.—種為網(wǎng)頁選擇或限制投放對象的方法,其特征在于,包括以下步驟 在網(wǎng)頁源文件中或網(wǎng)頁的描述文件中加入網(wǎng)頁適合對象信息;用戶在請求網(wǎng)頁過程中,把用戶本身的用戶信息和所述網(wǎng)頁適合對象信息進行比較, 如果所述用戶信息滿足網(wǎng)頁適合對象信息的要求,則將網(wǎng)頁投放給用戶,其中,所述網(wǎng)頁描 述文件包括網(wǎng)頁的內(nèi)容描述文件和功能描述文件中至少一種。
4.一種實現(xiàn)個性化網(wǎng)頁瀏覽客戶端的方法,其特征在于,包括以下步驟 網(wǎng)頁瀏覽器獲得用戶信息;瀏覽器在瀏覽網(wǎng)頁時,加載所述用戶信息,并根據(jù)所述用戶信息的內(nèi)容和所述網(wǎng)頁的 服務(wù)端進行交互。
5.如權(quán)利要求4所述實現(xiàn)個性化網(wǎng)頁瀏覽客戶端的方法,其特征在于,所述網(wǎng)頁服務(wù) 端根據(jù)所述用戶信息中的興趣愛好向所述客戶端推送廣告信息。
6.一種被動式的生成網(wǎng)頁功能描述文件的方法,其特征在于,包括以下步驟 獲得網(wǎng)頁的源文件或網(wǎng)頁的內(nèi)容描述文件;為相關(guān)的網(wǎng)頁元素設(shè)置操作邏輯,并形成記錄保存到功能描述文件中; 所述操作邏輯是所述網(wǎng)頁元素在某種情況下,瀏覽器需要執(zhí)行對應(yīng)的操作。
7.一種被動式使用網(wǎng)頁描述文件的系統(tǒng),其特征在于,包括服務(wù)端和客戶端,所述服務(wù)端具體包括處理模塊,用于處理網(wǎng)頁文件,并在服務(wù)端內(nèi)生成網(wǎng)頁的內(nèi)容描 述文件和/或功能描述文件;所述客戶端具體包括網(wǎng)頁瀏覽模塊和功能文件解析器, 所述網(wǎng)頁瀏覽模塊,用于解析并瀏覽網(wǎng)頁源文件;所述功能描述文件解析器,用來解析功能描述文件,并且通過功能描述文件和網(wǎng)頁瀏 覽模塊一起完成功能描述文件中定義的操作邏輯;其中,所述操作邏輯是所述網(wǎng)頁元素在某種情況下,瀏覽器需要執(zhí)行對應(yīng)的操作。
8.一種網(wǎng)站與網(wǎng)站或網(wǎng)站與用戶的數(shù)據(jù)協(xié)同處理方法,其特征在于,包括以下步驟 處理方接收到來自生成方的網(wǎng)頁文件,以及網(wǎng)頁文件對應(yīng)的功能描述文件和/或內(nèi)容描述文件;處理方根據(jù)接收到功能描述文件中描述的操作邏輯來處理接收到的網(wǎng)頁和/或網(wǎng)頁 對應(yīng)的內(nèi)容描述文件;所述生成方為生成網(wǎng)頁文件,并且生成網(wǎng)頁對應(yīng)的內(nèi)容描述文件和/或功能描述文件的一方;所述處理方為處理接收到的網(wǎng)頁文件,以及和網(wǎng)頁文件對應(yīng)的內(nèi)容描述文件 和/或功能描述文件的一方。
全文摘要
本發(fā)明公開了一種應(yīng)用網(wǎng)頁語義的方法和系統(tǒng),該方案的主要用途之一就是提取網(wǎng)頁中的語義內(nèi)容,并加以分析和利用,例如可以通過語義的提取為網(wǎng)頁加上與網(wǎng)頁內(nèi)容相關(guān)的廣告。有被動式和主動式兩種方法分析網(wǎng)頁語義。主動式是在客戶端,即網(wǎng)頁瀏覽端,運行一個關(guān)鍵字匹配模塊,分析并通過指定模式尋找網(wǎng)頁中存在的關(guān)鍵字,當(dāng)發(fā)現(xiàn)匹配的關(guān)鍵字時,則向服務(wù)端發(fā)起輔助信息請求,通常是廣告信息請求,獲得廣告信息,并在適當(dāng)?shù)牡胤讲シ?。被動式則是把網(wǎng)頁進行預(yù)先處理,形成網(wǎng)頁的內(nèi)容描述文件或功能描述文件,然后把功能描述文件和網(wǎng)頁一起發(fā)送給客戶端,客戶端按預(yù)定義的操作邏輯執(zhí)行。
文檔編號G06F17/30GK101950289SQ20101022008
公開日2011年1月19日 申請日期2007年7月9日 優(yōu)先權(quán)日2007年7月9日
發(fā)明者孟智平 申請人:孟智平
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
延庆县| 安吉县| 平遥县| 晋城| 那曲县| 武定县| 固安县| 安顺市| 合江县| 舟山市| 图木舒克市| 抚宁县| 洛浦县| 连城县| 渝北区| 大城县| 台南县| 酒泉市| 涿州市| 昌江| 慈利县| 乌兰县| 宝兴县| 黔东| 花莲县| 万宁市| 泗水县| 毕节市| 上蔡县| 陕西省| 灵石县| 旬阳县| 涞水县| 昌吉市| 平罗县| 紫阳县| 革吉县| 台安县| 迁安市| 黄梅县| 临漳县|