欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

對網(wǎng)頁進行分類和組織相應(yīng)內(nèi)容的方法

文檔序號:6456814閱讀:243來源:國知局
專利名稱:對網(wǎng)頁進行分類和組織相應(yīng)內(nèi)容的方法
技術(shù)領(lǐng)域
本發(fā)明涉及分類網(wǎng)頁和組織相應(yīng)內(nèi)容類型的方法,該方法包括記錄多個因特網(wǎng)地址 的步驟,該步驟包括多個自動記錄進程的執(zhí)行,該方法還包括附于多個因特網(wǎng)地址以對 應(yīng)的相關(guān)度值的選擇步驟。
現(xiàn)有技術(shù)
眾所周之的,連接到因特網(wǎng)網(wǎng)絡(luò)并配有瀏覽器的個人電腦可以顯示網(wǎng)頁。
具體的,所指個人電腦,是配備了因特網(wǎng)網(wǎng)絡(luò)連接接口的電子設(shè)備,同時所指的瀏 覽器,本質(zhì)上參考已知的被安裝于這樣的電子設(shè)備中以顯示網(wǎng)頁的軟件。該瀏覽器的一 個例子是微軟公司(Microsoft)的因特網(wǎng)瀏覽器(Internet Explorer )。
更具體的,網(wǎng)頁被存儲在多個服務(wù)器上,并依次地與因特網(wǎng)網(wǎng)絡(luò)連接。網(wǎng)頁的因特 網(wǎng)地址通過瀏覽器被指明,比如位于瀏覽器較高位置的部分或者欄,并且該因特網(wǎng)地址 被提交以顯示相應(yīng)的網(wǎng)頁,其通常顯示于瀏覽器中的主要部分。
單個或者多個網(wǎng)頁的識別腳本或程序也已經(jīng)公知,其基于由用戶設(shè)置的搜索標準而 運行。
該識別腳本或程序通??梢砸揽繄D形接口而進行訪問,例如,該識別腳本或程序可 以由瀏覽器繪制,瀏覽器包括搜索標準的嵌入部分和識別腳本或程序的觸發(fā)按鈕。
考慮到因特網(wǎng)網(wǎng)絡(luò)上有效網(wǎng)頁數(shù)量的龐大,識別腳本或程序為預先確定的搜索標準 提供了許多的網(wǎng)頁。
為了引導用戶對上述網(wǎng)頁進行有效的查閱,識別腳本或程序由分類方法所支持,該 方法對每個網(wǎng)頁指定權(quán)重。換句話說,識別腳本或程序的執(zhí)行提供給用戶以網(wǎng)頁的列表, 其中的網(wǎng)頁按照由分類方法所指定的權(quán)重值進行排序。
存在一種已知的分類方法,通常被稱作網(wǎng)頁排名(PageRank),其提供網(wǎng)頁和通常 被成為排名(rank)的權(quán)重值間的關(guān)聯(lián)。具體的,網(wǎng)頁A的排名是由訪問網(wǎng)頁A的附 屬網(wǎng)頁Bl,...,Bx的數(shù)量決定的,即,具有指向網(wǎng)頁A的指針(pointer )。
更具體的,根據(jù)被公知為網(wǎng)頁排名的分類方法,每個網(wǎng)頁通過指針都可以明確針對 其他網(wǎng)頁的投票,該指針也被公知為鏈接(connections)。換句話說,通過位于起始網(wǎng)頁 上的可用的鏈接,用戶可以被鏈接至一個或多個目標網(wǎng)頁,以提高其排名。通常,網(wǎng)頁的流行度(popularity)越高,即,向該網(wǎng)頁的鏈接越多,同樣頁面所可以明確的投票的 價值就越高。
然而,上述所說明的分類方法的類型存在多種局限,從下面的描述可以明顯的看出。 參考附

圖1,接口 IO被作為對網(wǎng)頁識別腳本或程序的觸發(fā)。
接口 10是例如包括了搜索標準的嵌入欄或部分1以及觸發(fā)按鈕2的網(wǎng)頁,以觸發(fā) 識別腳本或程序。
作為一個示例,在附圖1中, 一個搜索標準被設(shè)置用以識別與意大利發(fā)明家和藝術(shù) 家列奧納多.達芬奇(LeonardodaVinci)有關(guān)的網(wǎng)頁。在這個簡單的例子中,搜索標準 通過連接三個單詞"Leonardo", " da", "Vinci"而被給出,并被列在接口 10的嵌入欄 1中。
在這樣的例子中,接口 10的主要部分4根據(jù)搜索標準"LeonardodaVinci"顯示出 經(jīng)過執(zhí)行的識別腳本或程序的結(jié)果。該搜索結(jié)果包括網(wǎng)頁因特網(wǎng)地址的列表3,其中僅 前幾位的鏈接被顯示在所述主要部分4中。
實際上,被識別的網(wǎng)頁的數(shù)量非常大,在被舉出的數(shù)百萬網(wǎng)頁的排序的例子中,識 別腳本或程序規(guī)定這些網(wǎng)頁在圖形接口 10內(nèi)于連續(xù)的頁面中分組顯示。通常,位于例 如接口 10中較低部分的一組從1到n的可用的連續(xù)的數(shù)字,其本質(zhì)上是常規(guī)的而沒有 表示在附圖中,以根據(jù)用戶的請求在主要部分4中顯示指定的頁面,從而顯示因特網(wǎng)地 址的列表3中的一部分。
例如,假設(shè)識別腳本或程序已經(jīng)識別出100個網(wǎng)頁,對應(yīng)于100個因特網(wǎng)地址的列 表3,同時假設(shè)每個顯示頁面包括10個這樣被識別出的網(wǎng)頁的地址,接口 10中的較低 部分中將指明1到10的數(shù)字。在這樣的規(guī)則下,選擇較低部分中的數(shù)字1將會在主要 部分4中顯示從1到10的因特網(wǎng)地址,即,網(wǎng)頁的列表3的第1頁。具體的,在目前 的識別腳本或程序中,網(wǎng)頁的列表3的因特網(wǎng)地址被按照根據(jù)相應(yīng)的分類方法識別出的 權(quán)重的降序而連續(xù)放置,因此,對列表3中的第1頁的選擇與根據(jù)該分類方法被分類為 權(quán)重最高的網(wǎng)頁向?qū)?yīng)。
選擇數(shù)字2將會在同樣的接口 10的主要部分4中顯示從11到20的因特網(wǎng)地址。 這些因特網(wǎng)地址相應(yīng)于網(wǎng)頁列表3的第2頁。選擇較低部分中的數(shù)字10將訪問列表3 中的最后一頁,其由此與相關(guān)度最低的網(wǎng)頁關(guān)聯(lián),無例外的按照識別腳本或程序所使用 的分類方法。
換句話說,搜索結(jié)果的顯示次序源于分類方法。更具體的,參考附圖1 ,網(wǎng)頁3a是被使用于作為附圖1示例的Google程序中的分 類方法所識別出的所有網(wǎng)頁中具有最高權(quán)重的網(wǎng)頁,該網(wǎng)頁涉及到一種被成為維基百科 (Wikipedia)的因特網(wǎng)服務(wù),其提供了對作為發(fā)明家和藝術(shù)家的列奧納多*達芬奇的定 義。
網(wǎng)頁3b涉及到描述由發(fā)明家和藝術(shù)家的列奧納多.達芬奇留下的人文遺產(chǎn)的網(wǎng)頁; 網(wǎng)頁3c涉及國家科學技術(shù)博物館;網(wǎng)頁3e涉及羅馬機場"Leonardo da Vinci"。
從以上列出的按照權(quán)重排序的前5位的Google程序的結(jié)果,可以推斷出基于網(wǎng)頁 排名的分類方法具有如下所述的局限。
由識別腳本或程序提供的網(wǎng)頁的數(shù)量是冗余的在這個例子中,第一頁中的前8個 結(jié)果中,有三個頁面是冗余的,具體為頁面3d,3f和3h,即,相對于因特網(wǎng)地址3c, 3e 和3g,上述的三個頁面重復了同樣的,之前顯示過的站點中的因特網(wǎng)地址。此外,用 戶通常不會閱讀由識別方法提供的幾十個結(jié)果之外的結(jié)果,結(jié)果通常為更普遍的搜索標 準而被獲得。
雖然由識別腳本或程序提供的有些網(wǎng)頁相應(yīng)于用戶所搜索的信息并不相關(guān)或者完 全不相關(guān),這些網(wǎng)頁仍然享受著過于高的排名。網(wǎng)頁3e被認為是非常難以相信對
"Leonardo da Vinci"機場感興趣的用戶會在不明確"機場"的情況下將"Leonardo da Vinci"作為搜索標準輸入。然而,沒有預料到的,涉及羅馬機場的網(wǎng)頁3e,被發(fā)現(xiàn)位 于Google程序的結(jié)果的第5位。網(wǎng)頁3e構(gòu)成了典型的受到信息干擾影響從而非常不盡 如人意的結(jié)果示例,因為其對于不僅與進行的搜索的目的不相關(guān),而且還毫無用處。驗 證這樣的結(jié)果是可能的,即,由設(shè)置搜索標準為"Leonardo da Vinci"引出的羅馬機場 的地址存在于網(wǎng)頁列表3的高排名位置,可通過使用許多現(xiàn)有可用的搜索腳本或程序來 獲得。
因此,基于網(wǎng)頁排名的分類方法,雖然提供了對網(wǎng)頁的自動組織,但沒有使得用戶 專注于削減了數(shù)量的結(jié)果,以限制在那些對于用戶來說最為相關(guān)的結(jié)果中。
已知分類方法的另 一個缺點所呈現(xiàn)出的事實為,在被執(zhí)行之后,識別腳本或程序報 告作為所找到的網(wǎng)頁數(shù)量的一個數(shù)字,該數(shù)字與真正識別出的網(wǎng)頁的數(shù)量不符,且對于 用戶來講并不能有效的使用。
例如,參考附圖la,作為以"LeonardodaVinci"為搜索標準的結(jié)果,由識別腳本 或程序聲明為有效可用的網(wǎng)頁數(shù)量是3, 888, 000,但很容易就可以實際驗證的是,只 有前l(fā), 000個網(wǎng)頁是有效可用的。更具體的,圖lb示出由已知識別程序產(chǎn)生出的一個報錯信息,報告被識別出的對于用戶可用的結(jié)果并沒有多于1, 000個。因此,被聲明 為可用的網(wǎng)頁的數(shù)量是沒有價值的,因為用戶相信具有了與搜索標準相關(guān)的基本上無限 數(shù)量的網(wǎng)頁,而當用戶打開一些網(wǎng)頁時會感到沮喪,尤其是當用戶沒有在第一個排名最 高的網(wǎng)頁中找到其感興趣的內(nèi)容時。此外,以上描述的網(wǎng)頁分類方法還具有進一步與源的可靠性實質(zhì)上相關(guān)的問題,即 相應(yīng)于所設(shè)置的搜索標準,源的名聲,可認知性以及可信性。換句話說,與發(fā)明家和藝 術(shù)家列奧納多.達芬奇有效相關(guān)的網(wǎng)頁可以享受高的排名但是其包含了不正確的信息比如,對于其生日的錯誤信息或者缺少重要的內(nèi)容,如一些其最著名的作品或者其他關(guān)于其生活和工作的必要的象征品,這些缺失的內(nèi)容從邏輯上說是會令設(shè)置"Leonardo da Vinci"為搜索標準的用戶感到興趣的。因此,具有高排名的網(wǎng)頁可以是相關(guān)的但同時并不具有足夠的源可靠性,如頁面 3b的例子,其涉及的是由個人用戶制作的頁面,而不是具有權(quán)威性的源。與此相對的,與發(fā)明家列奧納多.達芬奇有關(guān)的網(wǎng)頁可以包括大量的信息,這些信 息并不嚴格的相關(guān)且實質(zhì)上是多余的,減慢用戶興趣信息的識別-典型的低相關(guān)度的信息的例子。本質(zhì)上,目前可用的網(wǎng)頁的分類方法并不允許識別腳本或程序來執(zhí)行具有 作為結(jié)果的相關(guān)的,期望的和經(jīng)過濾的網(wǎng)頁列表的搜索;相反,這些方法起到的作用像 大量信息的收集器一樣,所收集的信息僅具有與用戶所設(shè)置的搜索標準非常局限的相關(guān) 度。在這樣的規(guī)則下,已知的分類方法迫使用戶進行令人痛苦的過濾和選擇的操作,本 質(zhì)上為了從由識別腳本或程序所提供的所有網(wǎng)頁中識別出那些感興趣的網(wǎng)頁,同時擔負 遺漏相當重要的網(wǎng)頁的風險。本發(fā)明要解決的技術(shù)問題是提供一種網(wǎng)頁分類方法,該方法允許識別腳本或程序所 提供的結(jié)果沒有信息干擾,與用戶設(shè)置的搜索標準相關(guān),不會多余的重復網(wǎng)頁,并且對 于其內(nèi)容是可靠的,同時減少用戶用于過濾搜索結(jié)果和解決按照現(xiàn)有技術(shù)仍然會影響網(wǎng) 頁分類方法的限制上的時間。發(fā)明內(nèi)容本發(fā)明的解決方案的想法是提供一種用于分類和組織相應(yīng)內(nèi)容的方法,其可以從為 主題域(thematic areas)和引理(lemmas)所做的網(wǎng)絡(luò)配置開始,利用作為源的不同的 搜索引擎和定向爬蟲活動,以確定被認為是相關(guān)的一組網(wǎng)頁。爬蟲活動被實施于那些在網(wǎng)絡(luò)配置步驟被認為是可靠的站點上?;谶@組網(wǎng)頁,選擇步驟被實施,該選擇步驟消除了冗余的網(wǎng)頁,這些網(wǎng)頁與例如 對相同網(wǎng)頁的不同翻譯,或者與多次重復的相同的因特網(wǎng)地址有關(guān),該選擇步驟通過人 工貢獻也消除了偽造的網(wǎng)頁,即,那些包括信息干擾和/或源于并不是很可靠的源的網(wǎng) 頁。根據(jù)這種方案的想法,根據(jù)本發(fā)明的用于分類網(wǎng)頁和組織相應(yīng)內(nèi)容的方法包括 對于預先確定的數(shù)量的因特網(wǎng)地址的記錄步驟,其包括執(zhí)行對于所述多個因特網(wǎng)地 址的多個自動記錄進程,選擇和設(shè)置對應(yīng)的相關(guān)度值于所述多個因特網(wǎng)地址的步驟,特征在于所述選擇步驟設(shè)置對應(yīng)的相關(guān)度值于與其在所述記錄步驟中的記錄成比例的相關(guān) 度值,并選擇具有比預先確定的閾值大的相關(guān)度值的因特網(wǎng)地址,所述方法進一步包括縮減步驟,其從具有比所述閾值大的相關(guān)度值的因特網(wǎng)地址中,將因特網(wǎng)地址縮減 為符合一個或多個必要性標準的因特網(wǎng)地址,以及驗證步驟,其用于驗證符合必要性標準的所述因特網(wǎng)地址的子組,所述驗證步驟還 包括人工行為。優(yōu)選的,根據(jù)本發(fā)明的網(wǎng)頁分類方法,識別腳本或程序可以提供與用戶設(shè)置的搜索 標準相關(guān)的結(jié)果,就網(wǎng)頁重復而言沒有冗余并且對于網(wǎng)頁內(nèi)容是可靠的,以及在相當大 程度上減少用戶用于過濾搜索結(jié)果上的時間。本發(fā)明的分類方法的進一 步特征和優(yōu)點從下述關(guān)于其實施例的描述中可以更加清 楚,參考所附的附圖作為指示性和非限制性的實施例。附圖描述在這些附圖中圖1所示為依照現(xiàn)有技術(shù),用于識別腳本或程序的圖形接口;圖la所示為使用圖1所示的識別腳本或程序所探測到的多個網(wǎng)頁;圖lb所示為圖1所示的識別腳本或程序報告的報錯信息;圖2所示為依照本發(fā)明的分類方法,用于識別腳本或程序的圖形接口 ;圖3以圖式法示出依照本發(fā)明的方法對內(nèi)容的組織;圖4詳細示出依照本發(fā)明的方法,在預先確定的搜索標準下,經(jīng)執(zhí)行后的內(nèi)容的組織。詳細描述參考所附的附圖,本發(fā)明描述了一種包括多個步驟的網(wǎng)頁分類方法。 具體的,該方法包括第一配置步驟,該步驟為網(wǎng)頁分類提供了對主題域的定義。 作為一個示例并且不會縮小本發(fā)明的保護范圍,主題域所指的是一部分知識,例如技術(shù),藝術(shù),文學,體育,最新事件,并且其通過使用這部分知識的一組描述性的詞語所定義。配置步驟包括對多個用于每個主題域的引理的定義。僅為澄清并不局限本發(fā)明的保護范圍,所述詞語引理,被用來指明標題以及語言學 中形態(tài)分析的抽象單元(abstract units)的其他形式,每個抽象單元大致對應(yīng)于一組詞 語,這組詞語是同 一詞語的不同形式。比如,"run", "runs", "ran"和"running"在英語中就是同一抽象單元的多個形式, 依傳統(tǒng)或者依規(guī)定寫為RUN。抽象單元RUN被包括于引理X中,該引理X包括具有 與抽象單元RUN關(guān)聯(lián)的多個抽象單元。除此之外,每個主題域都與多個域關(guān)鍵詞相關(guān)聯(lián),其中一些關(guān)鍵詞與單個引理相關(guān) 聯(lián)。屬于多于一個主題域的引理與屬于相應(yīng)主題域的多個關(guān)鍵詞相關(guān)聯(lián)。比如,在配置步驟中,搜索標準"Leonardo da Vinci"被配置為引理,而域關(guān)鍵詞 "Painting", "Renaissance", "Sculpture"與其相關(guān)聯(lián),這些詞屬于主題域"Art"。所輸 入的"Leonardo da Vinci"也與域關(guān)鍵詞"Canals", "Hydraulics"相關(guān)聯(lián),這些詞屬于 主題域"Engineering"。更具體的,主要語言,例如意大利語,也在配置步驟中被定義以創(chuàng)建與其相關(guān)的主 題域,引理以及域關(guān)鍵詞。在配置步驟中,多個被許可的語言也被設(shè)置,例如通過相同字母進行區(qū)分,并且被 用于將在下述內(nèi)容中描迷的縮減步驟中。所述的主要語言和被許可的語言允許用戶用自己的語言實施簡單和復雜的搜索,也 獲取到其他語言的網(wǎng)頁。換句話說,設(shè)置引理"Leonardo da Vinci",根據(jù)本發(fā)明的分類 方法的結(jié)果不僅允許識別包括引理"Leonardo da Vinci"的意大利語的網(wǎng)頁,也可以識 別在配置步驟中被許可的語言的網(wǎng)頁。本發(fā)明的分類方法接著包括記錄步驟,基于在配置步驟中被定義的主題域和對應(yīng)的 引理,該步驟用于存儲預先確定的網(wǎng)頁的因特網(wǎng)地址的數(shù)量。這種預先確定的網(wǎng)頁的因 特網(wǎng)地址的數(shù)量可以在配置步驟中被配置。具體的,記錄步驟確定網(wǎng)頁與一個或多個引理的關(guān)聯(lián),例如依靠在網(wǎng)頁中對引理的 識別。對于每一個與引理關(guān)聯(lián)的網(wǎng)頁,其因特網(wǎng)地址都被存儲。更具體的,記錄步驟的執(zhí)行是通過多個自動進程而實施的,例如包括爬蟲進程。所述的爬蟲進程,開始于網(wǎng)頁x,與具體的引理關(guān)聯(lián),其記錄與網(wǎng)頁x直接連接的 網(wǎng)頁zl,…,zn的因特網(wǎng)地址。所述爬蟲進程也可以依靠網(wǎng)頁zl, ..., zn來記錄與網(wǎng) 頁x間接連"l妄的網(wǎng)頁yl, ..., yn的因特網(wǎng)地址。優(yōu)選的,爬蟲進程可以被配置成僅實施一個對網(wǎng)頁的直接的記錄,即,那些可以從 網(wǎng)頁x直接到達的頁面,或者配置成實施如上所述的間接記錄。所述記錄步驟接著為存儲因特網(wǎng)地址提供在數(shù)據(jù)庫中至具體的引理的訪問,所述數(shù) 據(jù)庫的內(nèi)容為所述分類方法表示出信息層。具體的,相關(guān)度,冗余度,可靠性以及信息 層的信息干擾依照本發(fā)明的分類方法被優(yōu)化,從下述的說明將會明顯的看出。值得注意的是,本發(fā)明的方法提供的分類和組織不僅針對網(wǎng)頁,本質(zhì)上,也適用于 任何的社交網(wǎng)絡(luò)服務(wù)(Social Network Service )。更具體的,社交網(wǎng)絡(luò)服務(wù)被用來指明一種基于因特網(wǎng)的服務(wù),其用于在由對瀏覽其 他人的興趣和活動感興趣的人組成的在線社區(qū)中分享興趣和活動。大多數(shù)社交網(wǎng)絡(luò)服務(wù)主要基于網(wǎng)絡(luò)并為用戶提供一組多樣的方式來使其進行互動, 比如聊天,消息,電子郵件,視頻,語音聊天,文件分享,博客,討論小組等等。主要 的社交網(wǎng)絡(luò)服務(wù)是那些包括了 一些類別和方法的目錄以與朋友聯(lián)系。依據(jù)本發(fā)明的方法的記錄步驟,基于在配置步驟中被定義的主題域和對應(yīng)的引理, 規(guī)定不僅存儲網(wǎng)頁,也存儲預先確定的社交網(wǎng)絡(luò)服務(wù)的數(shù)量,為每個社交網(wǎng)絡(luò)服務(wù)確定 其與一個或多個引理關(guān)聯(lián)。即使在這個例子中,對于每個與引理關(guān)聯(lián)的社交網(wǎng)絡(luò)服務(wù), 相應(yīng)的因特網(wǎng)地址被存儲。這樣一來,引理和主題域的定義提供實施基于預先確定的搜 索標準提取出一組網(wǎng)頁和社交網(wǎng)絡(luò)服務(wù)的分類和組織,所述的網(wǎng)頁和社交網(wǎng)絡(luò)服務(wù)都沒 有干擾,而且相關(guān),不冗余以及可靠。例如,考慮搜索標準為單詞"child",已知技術(shù)的識別腳本或程序局限于對包含單 詞"child"的大量的文檔的識別,而本發(fā)明的分類和記錄步驟提供與包括了包含單詞 "child"的抽象單元的引理相關(guān)聯(lián)的多個網(wǎng)頁和社交網(wǎng)絡(luò)服務(wù)。參考上述的例子,根據(jù)本發(fā)明的方法,既包括單詞"child",也包括了像"children", "boy"及類似的單詞的網(wǎng)頁和社交網(wǎng)絡(luò)服務(wù)被分類和組織。為了清楚說明,由記錄步驟引出的信息層或信息存儲將在下述中被指示為第一信息層。換句話說,元搜索引擎(meta-search engine)的運行依據(jù)多個搜索引擎各自的分類 來查詢多個搜索引擎以確定包括了已經(jīng)被這些搜索引擎存儲的具體的引理的多個網(wǎng)頁。 已知的搜索引擎的例子有Google, Yahoo, Altavista以及其類似。被元搜索《1擎的運行所識別的網(wǎng)頁的因特網(wǎng)地址被插入到第 一信息層或信息存儲 中。此外,記錄步驟在第一信息層中存儲網(wǎng)頁的副本。該副本被用于查閱以及與其后繼 版本進行比較,被后續(xù)的爬蟲活動所識別以在第一信息層內(nèi)部產(chǎn)生可用的網(wǎng)頁自身的更 新。根據(jù)本發(fā)明,所述分類方法進一步包括選擇步驟,其用于實施在所述記錄步驟中被 自動進程所存儲的因特網(wǎng)地址的比較。具體的,通過為特定引理進行的爬蟲進程記錄的因特網(wǎng)地址,被與通過元搜索引擎 運行記錄的因特網(wǎng)地址進行比較。如果因特網(wǎng)地址被爬蟲進程或者在配置步驟中被識 別,同時被元搜索引擎運行所識別,則該因特網(wǎng)地址就在所述的選擇步驟中被確認。實 際上,參考具體的引理,該因特網(wǎng)地址在不同的搜索引擎中出現(xiàn)以及在配置步驟中識別, 就說明了其內(nèi)容具有非常高的可能性是相關(guān)的。記錄步驟優(yōu)選地在配置步驟中或在元搜索引擎運行中包括不同類別的自動進程,并 不必須基于爬蟲進程?;谟伤械淖詣舆M程所實施的記錄,選擇步驟實施對被識別的因特網(wǎng)地址的比較,實施靜態(tài)匹配,即,分配給因特網(wǎng)地址可能的相關(guān)度和可靠度的值, 該值隨著其被自動進程記錄的頻率而增加。根據(jù)本發(fā)明的選擇步驟,第一信息層被改進以形成第二信息層或信息存儲,其包括 具有比預先確定的標準值高的可能的相關(guān)度和可靠度值的因特網(wǎng)地址。第二信息層例如 可以被包含在上述的數(shù)據(jù)庫中或者被包含的一個單獨的數(shù)據(jù)庫中。第二信息數(shù)據(jù)庫,即使包括具有很高相關(guān)度值的因特網(wǎng)地址,其也表示出潛在冗余 的內(nèi)容。的確,依靠在選擇過程中被分配的可能很高的相關(guān)度值,不同的因特網(wǎng)地址可 以涉及相同的網(wǎng)頁,例如涉及到相同網(wǎng)頁的被翻譯成不同語言的若干個版本,或者涉及 相同網(wǎng)頁的沒有更新但仍然發(fā)布的版本,或者涉及存儲于不同域名下的網(wǎng)頁中的相同的 信息內(nèi)容。為了改進第二信息存儲的內(nèi)容,本發(fā)明所述分類方法包括在選擇步驟過程中確認了 的因特網(wǎng)地址的縮減步驟。所述縮減步驟規(guī)定被第二信息層的因特網(wǎng)地址定向的每個網(wǎng)頁符合必要性標準。所述必要性標準規(guī)定,例如,消除與在配置步驟中設(shè)置的許可的語言不一致的所有 網(wǎng)頁或社交網(wǎng)絡(luò)服務(wù)。此外,所述必要性標準包括消除來自于同 一域名或主題域的為相 同引理的網(wǎng)頁,報告替換其首頁??s減步驟通過驗證對必要性標準的滿足,將相應(yīng)的因特網(wǎng)地址的存在發(fā)布于進一步 改進的第三信息層或信息存儲。優(yōu)選的,被執(zhí)行于第三信息層或信息存儲的識別腳本或程序可以識別具有高相關(guān)度 可能性的,本質(zhì)上消除冗余的網(wǎng)頁或社交網(wǎng)絡(luò)服務(wù)的因特網(wǎng)地址。為示例以及非限制性目的,由本發(fā)明的分類方法所支持的,基于"Leonardo da Vinci" 搜索標準的識別腳本或程序,在這一步驟已經(jīng)可以確定幾百個因特網(wǎng)地址,這些因特網(wǎng) 地址具有很高可能性的相關(guān)性以及本質(zhì)上不冗余,同時,由依據(jù)現(xiàn)有技術(shù)的分類方法所 支持的識別腳本或程序在最終選擇中識別幾百萬個因特網(wǎng)地址。根據(jù)本發(fā)明,規(guī)定了在第三信息層上的進一步的驗證步驟,目的在于確定涉及高可 靠性的網(wǎng)頁的單獨的因特網(wǎng)地址,其本質(zhì)上沒有信息千擾。所述驗證步驟包括執(zhí)行列出第三信息層的因特網(wǎng)地址或社交網(wǎng)絡(luò)服務(wù)的驗證接口 。 更具體的,驗證接口依據(jù)已經(jīng)在之前的記錄,選擇和縮減步驟中被分配的可能的相關(guān)度 值提議對所述因特網(wǎng)地址的排序。通過驗證步驟, 一個特殊操作器(operator)對應(yīng)于具體的引理,對與因特網(wǎng)地址 關(guān)聯(lián)的網(wǎng)頁或社交網(wǎng)絡(luò)服務(wù)進行分析并驗證那些相關(guān)性。更具體的,所述操作器通過圖 形接口以及在自動比較進程和結(jié)果的信號的幫助下,消除具有較低或者0可靠度的因特 網(wǎng)地址,和那些不相關(guān)以及不期望的,比如阻止涉及"Leonardo da Vinci"機場的因特 網(wǎng)地址被插入第四信息層。根據(jù)本發(fā)明,例如用于驗證的選擇框的具體的功能,可以被提供給用戶以執(zhí)行上述 的驗證步驟。最終用戶分析并驗證那些被認為更具有相關(guān)性的網(wǎng)頁和社交網(wǎng)絡(luò)服務(wù)。這 是對由所述特殊操作器進行操作的驗證過程進一步的改進,因為最終用戶精通于相應(yīng)的 領(lǐng)域,可以在網(wǎng)頁和社交網(wǎng)絡(luò)服務(wù)上提供他們的驗證,以及對所述信息層或信息存儲的 發(fā)展和改進做出貢獻。根據(jù)第 一優(yōu)選實施例,如果該組被最終用戶所驗證的網(wǎng)頁和社交網(wǎng)絡(luò)服務(wù)不同于被 特殊操作器所驗證的網(wǎng)頁和社交網(wǎng)絡(luò)服務(wù),它們被列于接口的分別的列表中,所述接口 報告相應(yīng)的結(jié)果。根據(jù)第二實施例,網(wǎng)頁和社交網(wǎng)絡(luò)服務(wù)被最終用戶和特殊操作器兩者所驗證。 優(yōu)選的,人工貢獻對于第四信息層的定義是重要的,源于對第三信息層的因特網(wǎng)地 址的手工選擇。因此,根據(jù)本發(fā)明的分類方法,網(wǎng)頁分類至少包括一下步驟A) 對于預先確定的因特網(wǎng)地址的記錄步驟,其包括執(zhí)行對于所述多個因特網(wǎng)地址 的多個自動記錄進程,B) 選擇步驟,其用于設(shè)置所對應(yīng)的相關(guān)度值于所述多個因特網(wǎng)地址;所述選擇步 驟設(shè)置對應(yīng)的相關(guān)度值于與其在所述記錄步驟中的記錄成比例的相關(guān)度值,并且選擇具 有比預先確定的閾值大的相關(guān)度值的因特網(wǎng)地址。C) 縮減步驟,其從具有比所述閾值大的相關(guān)度值的因特網(wǎng)地址中,消除不符合一 個或者更多必要性標準的因特網(wǎng)地址。D) 驗證步驟,其用于驗證響應(yīng)于必要性標準的因特網(wǎng)地址的子組,所述驗證步驟 還包括由用戶執(zhí)行的手工行為。例如,以"Leonardo da Vinci"作為搜索標準,根據(jù)本發(fā)明的識別腳本或程序可以 確定幾十個因特網(wǎng)地址,如附圖2所示。具體的,附圖2表示了網(wǎng)頁的因特網(wǎng)地址,其可以被從接口 101中描繪,比如網(wǎng)頁, 該網(wǎng)頁包括搜索標準的嵌入欄或部分11以及用于觸發(fā)識別腳本或程序的觸發(fā)按鈕21。13在圖2中,搜索標準被設(shè)置為與意大利發(fā)明家及藝術(shù)家列奧納多*達芬奇相關(guān)的網(wǎng) 頁的識別。接口 101的主要部分41基于搜索標準"Leonardo da Vinci"顯示經(jīng)執(zhí)行后的識別腳 本或程序的結(jié)果。具體的,搜索的結(jié)果包括網(wǎng)頁的因特網(wǎng)地址的列表31,其中僅前三 個鏈接3al-3cl被顯示。優(yōu)選的,識別腳本或程序可以提供給最終用戶幾十個因特網(wǎng)地址,這些因特網(wǎng)地址 識別非常相關(guān)的,可靠的網(wǎng)頁和社交網(wǎng)絡(luò)服務(wù)而不存在千擾或者冗余。因特網(wǎng)地址3al 涉及BBC的網(wǎng)頁,因特網(wǎng)地址3bl涉及大都會博物館(metropolitan museum),且因特 網(wǎng)地址3cl涉及著名的意大利電視臺RAI的關(guān)于發(fā)明家列奧納多.達芬奇的報道。識別腳本或程序從而拋棄了多個與用戶設(shè)置的搜索標準相關(guān)度低的網(wǎng)頁,僅提議屬 于第四信息層的網(wǎng)頁。對于傳統(tǒng)類型的搜索,接口 101允許在信息層或信息存儲上執(zhí)行識別腳本或程序, 該信息層或信息存儲的改進要落后于第四信息層,比如,其可以使第二信息層類型。例如,通過選擇附圖2中的按鈕21,識別腳本或程序提供包含于第二信息層的一 組因特網(wǎng)地址,因此也許可了查閱人工驗證步驟中所沒有被實施的網(wǎng)頁。更具體的,也在一些例子中提供了觸發(fā)分類方法的附屬執(zhí)行,在這些例子中,由選 擇步驟引發(fā)的第三信息層或信息存儲或者由縮減步驟引發(fā)的第四信息層或信息存儲本 質(zhì)上是空的且沒有對于某個具體搜索標準可以改進的結(jié)果。在這種情況下,所述的附屬 執(zhí)行是基于一種算法,該算法提供至一組預先確定的網(wǎng)絡(luò)搜索引擎的接入以及從這些搜 索引擎中為所述搜索標準提煉出最相關(guān)的結(jié)果。優(yōu)選的,接口 101也包括邊部42,該邊部42以超文本(hypertext)的形式提供與 一組搜索標準相關(guān)的百科全書式的信息。例如,對于搜索標準"Leonardo da Vinci",邊 部42提供了傳記,生活年代,年表,列奧納多法律,以及列奧納多文獻。優(yōu)選的,根據(jù)本發(fā)明的網(wǎng)頁分類方法,識別腳本或程序可以為用戶設(shè)置的搜索標準 提供相關(guān)的結(jié)果,從而沒有干擾,就網(wǎng)頁的數(shù)量和重復性而言沒有冗余,且對于網(wǎng)頁內(nèi) 容是可靠的,相當程度上減少了用戶用于過濾搜索結(jié)果的時間。就像在如下描述中可以被了解到的,依照本發(fā)明的對網(wǎng)頁和社交網(wǎng)絡(luò)服務(wù)的分類不 僅提供準確,相關(guān),沒有冗余且避免干擾的與搜索標準相關(guān)的信息,還提供極方便使用 的接口。參考附圖3,其以圖式法示出了由本發(fā)明的方法提供的接口 50,該接口 50作為網(wǎng) 頁和社交網(wǎng)絡(luò)服務(wù)的分類執(zhí)行以及相應(yīng)的對內(nèi)容的組織的起始點。用戶接口 50例如關(guān)聯(lián)于在本質(zhì)上實施該方法的網(wǎng)絡(luò)應(yīng)用的因特網(wǎng)地址。用戶接口 50包括用于輸入搜索標準的搜索框51,用于列出由執(zhí)行該方法得所產(chǎn)生 的網(wǎng)頁的搜索結(jié)果框52,以及多個包含與所述搜索標準相關(guān)的附加信息附屬框53。附屬框53包括框54,其中一個或更多的社交網(wǎng)絡(luò)服務(wù)被列出,用于論證與搜索標 準相關(guān)的框55,例如可以由第三方提供,以及包括用戶評論的框56。更具體的,由第三方提供的論證實質(zhì)上是源于一個或更多由第三方改進的數(shù)據(jù)庫的 大量信息,其根據(jù)本發(fā)明的方法被精煉和重組并返回一組鏈接至框55內(nèi)部。換言之, 框55中的內(nèi)容是基于用戶所設(shè)置的預先確定的搜索標準的專有搜索結(jié)果。優(yōu)選的,本發(fā)明的方法是基于將多于一個的源中的數(shù)據(jù)整合至單個集成的用戶接口 50的網(wǎng)絡(luò)2.0聚合(Mashup)技術(shù)。實際上,根據(jù)本發(fā)明,通過記錄,選擇,縮減以及驗證步驟所探測出的結(jié)果,是源 于多個源,不僅包括網(wǎng)頁,也包括社交網(wǎng)絡(luò)服務(wù)和第三方內(nèi)容。實施于網(wǎng)頁,社交網(wǎng)絡(luò)服務(wù)以及內(nèi)容的聚合技術(shù)從而創(chuàng)建了 一種新的且截然不同的 工具,該工具本來是不能通過上述的網(wǎng)頁,社交網(wǎng)絡(luò)服務(wù)以及內(nèi)容的源的單獨的源所提 供。值得注意的是,相對于已知的實施于聚合技術(shù)的服務(wù),這是具有極大的改進的。實 際上,已知服務(wù)可以將源于不同的源的大量信息組織到單獨的接口中,但是這些服務(wù)不 能將所述的大量信息與普遍的搜索標準相關(guān)聯(lián)。優(yōu)選的,本發(fā)明首先探測與普遍的搜索標準相關(guān)聯(lián)的大量內(nèi)容,接著將這些內(nèi)容組 織到上述用戶接口 50的框52, 53, 54和55內(nèi)。參考附圖4,其詳細示出在搜索標準"LeonrdodaVinci"下的方法產(chǎn)生的用戶接口50。用戶接口 50的欄51-54中的每一個都在小控件(widget)技術(shù)的條件下實施,以使 得其對于用戶來說是可修改的,比如從接口的第一位置至第二位置的拖拽,或者增加/ 減少第一框的尺寸以在另外的框中顯示大量的鏈接,即,網(wǎng)頁的框。一個或更多的框也可以被啟用或關(guān)閉,換言之,從用戶接口 50中被刪除或者插入。優(yōu)選的,用戶可以從所提供的結(jié)果中選擇其感興趣的信息類型,例如,為網(wǎng)頁,或 者為具體的社交網(wǎng)絡(luò)服務(wù),或者為由第三方提供的內(nèi)容,又或者為其他用戶的評論,來 保留用戶接口 50中的主要部分。
權(quán)利要求
1.用于對網(wǎng)頁進行分類和組織相應(yīng)內(nèi)容的方法,包括記錄預先確定數(shù)量的因特網(wǎng)地址的步驟,其包括執(zhí)行對于所述多個因特網(wǎng)地址的多個自動記錄進程,對所述多個因特網(wǎng)地址選擇和設(shè)置對應(yīng)的相關(guān)度值的步驟,其特征在于所述選擇步驟將所述對應(yīng)的相關(guān)度值設(shè)置為與其在所述記錄步驟中的記錄成比例的相關(guān)度值,并選擇具有比預先確定的閾值大的相關(guān)度值的因特網(wǎng)地址,所述方法進一步包括縮減步驟,其從所述具有比所述閾值大的相關(guān)度值的因特網(wǎng)地址中,將因特網(wǎng)地址縮減為符合一個或多個必要性標準的因特網(wǎng)地址,以及驗證步驟,其用于驗證符合必要性標準的所述因特網(wǎng)地址的子組,所述驗證步驟還包括人工行為。
2. 根據(jù)權(quán)利要求1所述的分類方法,其特征在于還包括配置步驟,該步驟用于定 義多個主題域和定義與所述主題域相關(guān)聯(lián)的多個域關(guān)鍵詞。
3. 根據(jù)權(quán)利要求2所述的分類方法,其特征在于所述配置步驟包括為每個所述主 題域定義多個引理。
4. 根據(jù)權(quán)利要求3所述的分類方法,其特征在于所述配置步驟包括將所述引理中 的一個與一個或者更多所述主題域相關(guān)聯(lián)。
5. 根據(jù)權(quán)利要求4所述的分類方法,其特征在于所述配置步驟包括定義主要語言, 用于定義所述主題域,所述引理及所述域關(guān)鍵詞。
6. 根據(jù)權(quán)利要求5所述的分類方法,其特征在于所述配置步驟包括設(shè)置所述預先 確定數(shù)量的因特網(wǎng)地址。
7. 根據(jù)權(quán)利要求6所述的分類方法,其特征在于所述記錄步驟包括將所述引理與 所述網(wǎng)頁關(guān)聯(lián)的步驟。
8. 根據(jù)權(quán)利要求7所述的分類方法,其特征在于所述關(guān)聯(lián)步驟包括在所述網(wǎng)頁中 識別所述引理。
9. 根據(jù)權(quán)利要求8所述的分類方法,其特征在于所述記錄步驟包括參考所述引理, 在第 一信息層中存儲所述因特網(wǎng)地址。
10. 根據(jù)權(quán)利要求9所述的分類方法,其特征在于所述記錄步驟包括在所述第一 信息層中存儲所述網(wǎng)頁的副本。
11. 根據(jù)權(quán)利要求IO所述的分類方法,其特征在于所述必要性標準包括消除不包 含所述被許可語言的字母集的多個網(wǎng)頁。
12. 根據(jù)權(quán)利要求11所述的分類方法,其特征在于所述必要性標準包括消除來自 于同一域名下的多個網(wǎng)頁。
13. 根據(jù)權(quán)利要求12所述的分類方法,其特征在于所述縮減步驟包括執(zhí)行多個選 擇查詢。
14. 根據(jù)權(quán)利要求13所述的分類方法,其特征在于所述驗證步驟包括執(zhí)行驗證接。
15. 根據(jù)權(quán)利要求14所述的分類方法,其特征在于所述驗證接口列出被所述縮減 步驟所縮減的所述因特網(wǎng)地址。
16. 根據(jù)權(quán)利要求15所述的分類方法,其特征在于所述記錄步驟包括執(zhí)行至少一 個爬蟲進程。
17. 根據(jù)權(quán)利要求16所述的分類方法,其特征在于所述記錄步驟包括執(zhí)行至少一 個元搜索引擎功能。
18. 用于執(zhí)行識別腳本或程序以識別符合搜索標準的多個因特網(wǎng)地址的方法,其特 征在于將所述多個因特網(wǎng)地址依據(jù)前述權(quán)利要求的其中一個權(quán)利要求的分類方法進行 分類,所述因特網(wǎng)地址具有比預先確定的閾值大的相關(guān)度值。
全文摘要
用于對網(wǎng)頁進行分類且對其內(nèi)容進行組織的方法,包括對多個因特網(wǎng)地址的記錄步驟,其包括執(zhí)行對于多個因特網(wǎng)地址的多個自動記錄進程,以及選擇步驟,用于設(shè)置對應(yīng)的相關(guān)度值于所述多個因特網(wǎng)地址。該選擇步驟設(shè)置對應(yīng)的相關(guān)度值于與其在所述記錄步驟中的記錄成比例的相關(guān)度值,并選擇具有比預先確定的閾值大的相關(guān)度值的因特網(wǎng)地址;該方法進一步包括縮減步驟,其開始于具有比閾值大的相關(guān)度值的因特網(wǎng)地址,縮減因特網(wǎng)地址至符合一個或更多必要性標準的因特網(wǎng)地址,以及驗證步驟,其用于驗證符合必要性標準的因特網(wǎng)地址的子組;所述驗證步驟包括人工行為。
文檔編號G06F17/30GK101617310SQ200780047332
公開日2009年12月30日 申請日期2007年12月19日 優(yōu)先權(quán)日2006年12月19日
發(fā)明者賈內(nèi)皮爾·朱塞佩·洛蒂托, 馬里厄卡·特洛里 申請人:莫爾德克昂特威彭有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
浮山县| 和平区| 南溪县| 晋宁县| 龙南县| 安仁县| 瑞丽市| 景德镇市| 万载县| 海淀区| 武穴市| 科尔| 新源县| 油尖旺区| 鄂州市| 衡山县| 高安市| 邯郸县| 密云县| 武冈市| 五寨县| 美姑县| 婺源县| 乐亭县| 扶余县| 兴业县| 清涧县| 襄汾县| 婺源县| 宜春市| 湖州市| 惠来县| 金乡县| 江西省| 儋州市| 中西区| 丰城市| 吉林市| 武陟县| 凤凰县| 泌阳县|