欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

從統(tǒng)一資源定位符(url)的關(guān)鍵字提取的制作方法

文檔序號(hào):6366354閱讀:196來(lái)源:國(guó)知局
專利名稱:從統(tǒng)一資源定位符(url)的關(guān)鍵字提取的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及URL,尤其涉及URL中的關(guān)鍵字提取。
背景技術(shù)
在計(jì)算中,統(tǒng)ー資源定位符(URL)是指定所標(biāo)識(shí)的資源在哪里可用并提供ー種用于檢索該可用資源的機(jī)制的統(tǒng)ー資源標(biāo)識(shí)符(URI)。例如,URL可以是由主存網(wǎng)頁(yè)的網(wǎng)站的創(chuàng)建者給予網(wǎng)頁(yè)的唯一身份。URL以標(biāo)準(zhǔn)格式來(lái)定義,該標(biāo)準(zhǔn)格式通常指定方案或協(xié)議、域名或網(wǎng)際協(xié)議(IP)地址、要取得資源的路徑或要運(yùn)行的程序、查詢串以及可任選的片段標(biāo)識(shí)符。URL越來(lái)越多地包含與這些URL所對(duì)應(yīng)的網(wǎng)頁(yè)的話題高度相關(guān)的經(jīng)壓縮的文本。在許多應(yīng)用中,它們可被視為關(guān)于網(wǎng)頁(yè)的話題的有價(jià)值的信息源
發(fā)明內(nèi)容
提供本發(fā)明內(nèi)容以便以簡(jiǎn)化形式介紹將在以下具體實(shí)施方式
中進(jìn)ー步描述的ー些概念。本發(fā)明內(nèi)容并不g在標(biāo)識(shí)所要求保護(hù)主題的關(guān)鍵特征或必要特征,也不g在用于限制所要求保護(hù)主題的范圍。本文描述的關(guān)鍵字提取技術(shù)從web日志(例如,通常以逆時(shí)間順序包含用戶所請(qǐng)求的一系列URL條目的服務(wù)器日志)中的URL中提取關(guān)鍵字。該技術(shù)充分利用URL的內(nèi)容和結(jié)構(gòu)來(lái)提取相關(guān)關(guān)鍵字。在一個(gè)實(shí)施例中,URL首先基于其結(jié)構(gòu)被分成多個(gè)分量。在受控詞匯的幫助下,単獨(dú)地從URL的每個(gè)分量中提取ー組關(guān)鍵字。通過(guò)從URL的不同段中形成項(xiàng)的組合來(lái)生成第二組關(guān)鍵字。僅保留在可控詞匯中出現(xiàn)的那些組合作為關(guān)鍵字。最后,用將廣泛的一組特征考慮在內(nèi)的一函數(shù)來(lái)對(duì)這些關(guān)鍵字打分。


參考以下描述、所附權(quán)利要求書(shū)以及附圖,將更好地理解本發(fā)明的具體特征、方面和優(yōu)點(diǎn),附圖中 圖I描繪了本文所描述的關(guān)鍵字提取技術(shù)的示例性過(guò)程的流程圖。圖2描繪了本文所描述的關(guān)鍵字提取技術(shù)的另一示例性過(guò)程的流程圖。圖3是用于實(shí)踐本文所描述的關(guān)鍵字提取技術(shù)的ー個(gè)示例性實(shí)施例的示例性體系結(jié)構(gòu)。圖4是可用于實(shí)踐關(guān)鍵字提取技術(shù)的示例性計(jì)算環(huán)境的示意圖。
具體實(shí)施例方式在以下對(duì)關(guān)鍵字提取技術(shù)的描述中,對(duì)附圖作出參考,附圖形成了該描述的一部分,且作為可實(shí)踐本文所描述的關(guān)鍵字提取技術(shù)的說(shuō)明性示例示出??梢岳斫猓梢岳闷渌麑?shí)施例,并且可以作出結(jié)構(gòu)上的改變而不背離所要求保護(hù)的主題的范圍。I. O關(guān)鍵字提取技術(shù)
以下章節(jié)提供了關(guān)鍵字提取技術(shù)的概覽、以及用于實(shí)踐本技術(shù)的示例性過(guò)程和示例性體系結(jié)構(gòu)。還提供了關(guān)鍵字提取技術(shù)的各實(shí)施例的細(xì)節(jié)。I. I技術(shù)概覽本文所描述的關(guān)鍵字提取技術(shù)從URL中提取關(guān)鍵字。該技術(shù)使用URL的內(nèi)容和結(jié)構(gòu)來(lái)提取相關(guān)關(guān)鍵字。這些關(guān)鍵字隨后可在各應(yīng)用中使用,諸如例如在線廣告和在線內(nèi)容過(guò)濾。L2URL 結(jié)構(gòu)因?yàn)楸景l(fā)明的關(guān)鍵字提取技術(shù)在提取關(guān)鍵字時(shí)使用URL結(jié)構(gòu),所以對(duì)URL結(jié)構(gòu)的ー些解釋是有用的。URL的格式基于Unix文件路徑句法,其中使用正斜杠來(lái)隔開(kāi)目錄或文件夾以及文件或資源名。姆ー個(gè)URL都由以下各項(xiàng)中的某些項(xiàng)組成scheme name (方案名,通常被稱為協(xié)議)、之后是冒號(hào)、隨后取決于該方案是domain name (域名,可另選地,網(wǎng)際協(xié)議(IP)地址)、port number(端口號(hào))、要取得資源的path(路徑)或要運(yùn)行的程序、query string(查詢串)以及可任選的fragment identifier (片段標(biāo)識(shí)符)。句法是scheme: //domain:port/path query_string#fragment_id0 本文所描述的關(guān)鍵字提取技術(shù)使用這ー URL格式來(lái)提取網(wǎng)頁(yè)的關(guān)鍵字,該關(guān)鍵字可用于各種應(yīng)用。并不需要下載網(wǎng)頁(yè)以提取對(duì)應(yīng)于所提取的關(guān)鍵字的網(wǎng)頁(yè)的關(guān)鍵字。這提供了極聞的計(jì)算效率。I. 3示例性過(guò)程圖I描繪了用于從URL中提取關(guān)鍵字的示例性計(jì)算機(jī)實(shí)現(xiàn)的過(guò)程。如圖I所示,框102,標(biāo)識(shí)URL的各分量。更具體地,在關(guān)鍵字提取技術(shù)的ー個(gè)實(shí)施例中,URL被分成授權(quán)機(jī)構(gòu)(authority)、路徑(path)、查詢(query)和片段(fragment)分量。所標(biāo)識(shí)的分量隨后被拆分成各段,如框104中所示。例如,授權(quán)機(jī)構(gòu)分量通過(guò)丟棄授權(quán)機(jī)構(gòu)分量的協(xié)議字段和擴(kuò)展字段而被拆分成各段;而路徑分量通過(guò)丟棄與該URL所對(duì)應(yīng)的網(wǎng)頁(yè)的話題不相關(guān)的所有字段而被拆分成各段。查詢分量通過(guò)提取查詢字段中的鍵-值對(duì)而被拆分成各段;以及片段分量通過(guò)提取片段字段而被拆分成各段。在本文檔的下文中將更詳細(xì)地討論關(guān)鍵字的分段。隨后通過(guò)對(duì)各段執(zhí)行文本分段來(lái)將URL文本轉(zhuǎn)換成自然語(yǔ)言項(xiàng)來(lái)處理這些段,如框106中所示。例如,在一個(gè)實(shí)施例中,這通過(guò)用空格來(lái)替換URL文本中的每個(gè)定界符以創(chuàng)建項(xiàng)來(lái)完成;并且隨后拆分通常在URL中找到的項(xiàng)。隨后基于受控詞匯從各段項(xiàng)中提取第一組關(guān)鍵字,如框108中所示。各段中匹配受控詞匯的項(xiàng)被保留以屬于第一組關(guān)鍵字。受控詞匯是可從任何URL中提取的有效項(xiàng)和短語(yǔ)的大的列表?;谑芸卦~匯通過(guò)從URL中的與用來(lái)生成第一組關(guān)鍵字的段不同的段中形成項(xiàng)的組合來(lái)生成第二組關(guān)鍵字,如框110中所示。在該技術(shù)的一個(gè)實(shí)施例中,通過(guò)以下方式來(lái)提取這第二組關(guān)鍵字通過(guò)從URL的段對(duì)中各取出一關(guān)鍵字井串接來(lái)自每ー個(gè)段對(duì)中的關(guān)鍵字來(lái)組合URL的段對(duì)以生成候選關(guān)鍵字組合,并且隨后對(duì)照受控詞匯來(lái)驗(yàn)證候選關(guān)鍵字組合。在受控詞匯中找到的候選關(guān)鍵字組合被提取為關(guān)鍵字而那些未被找到的則被排除。從URL中提取的關(guān)鍵字還可任選地通過(guò)使用外部知識(shí)源來(lái)擴(kuò)展。例如,通過(guò)使用語(yǔ)義映射,"travel (旅游)”可被擴(kuò)展至“trip (旅行)”和“tour (觀光)”。如框112中所示,隨后基于ー組特征對(duì)第一和第二組關(guān)鍵字的相關(guān)性打分,并且 按相關(guān)性的順序輸出經(jīng)打分的關(guān)鍵字(框114)。在關(guān)鍵字提取技術(shù)的ー個(gè)實(shí)施例中,基于每ー關(guān)鍵字的父段的位置、關(guān)鍵字的長(zhǎng)度以及父段的長(zhǎng)度對(duì)關(guān)鍵字打分。輸出關(guān)鍵字隨后可在各種應(yīng)用中使用,如框116中所示。例如,所提取的關(guān)鍵字可用于將網(wǎng)頁(yè)上的關(guān)鍵字與廣告客戶提供的與廣告有關(guān)的關(guān)鍵字進(jìn)行匹配,以便將特定類型的廣告定向到特定類型的網(wǎng)站。應(yīng)該注意,不必下載網(wǎng)頁(yè)以從給定的網(wǎng)頁(yè)中提取關(guān)鍵字??闪磉x地,所提取的關(guān)鍵字可用于內(nèi)容過(guò)濾,例如通過(guò)將從網(wǎng)頁(yè)提取的關(guān)鍵字與令人討厭的項(xiàng)或短語(yǔ)列表進(jìn)行匹配以過(guò)濾諸如色情之類的內(nèi)容。所提取的關(guān)鍵字還可用于通過(guò)將所提取的網(wǎng)頁(yè)關(guān)鍵字與搜索查詢項(xiàng)進(jìn)行匹配的搜索應(yīng)用。圖2描繪了根據(jù)本發(fā)明的技術(shù)的用于從URL中提取關(guān)鍵字的另ー示例性計(jì)算機(jī)實(shí)現(xiàn)的過(guò)程200。圖2提供了這ー示例性過(guò)程的一般過(guò)程動(dòng)作。關(guān)于這些過(guò)程動(dòng)作的更多細(xì)節(jié)將在本文檔中的下文中提供。如圖2所示,框202,網(wǎng)頁(yè)的URL被分成授權(quán)機(jī)構(gòu)、路徑、查詢和片段4個(gè)預(yù)定義URL分量。各分量基于特定定界符和試探性觀察被分開(kāi)地令牌化以獲得各段,如框204中所示。如框206中所示,對(duì)各段執(zhí)行文本分段以將URL的文本轉(zhuǎn)換成自然語(yǔ)言項(xiàng),并基于受控詞匯 從各段項(xiàng)中提取第一組關(guān)鍵字。如框208中所示,通過(guò)從URL中與用于提取第一組關(guān)鍵字的段不同的段中形成項(xiàng)的組合并且提取在受控詞匯中的項(xiàng)的組合作為第二組關(guān)鍵字來(lái)生成第二組關(guān)鍵字。隨后基于相關(guān)性對(duì)這些第一和第二組關(guān)鍵字打分以輸出經(jīng)排序的一組經(jīng)打分的關(guān)鍵字,如框210中所示。各種打分技術(shù)可用于此目的。該技術(shù)還可通過(guò)使用外部知識(shí)源來(lái)通過(guò)將關(guān)鍵字映射到其他在語(yǔ)義上等價(jià)或相關(guān)的字和短語(yǔ)來(lái)提供關(guān)鍵字?jǐn)U展從而生成附加的關(guān)鍵字。I. 4示例性體系結(jié)構(gòu)圖3示出了用于采用關(guān)鍵字提取技術(shù)的示例性體系結(jié)構(gòu)300。如圖3所示,該示例性體系結(jié)構(gòu)300包括駐留在通用計(jì)算設(shè)備400上的關(guān)鍵字提取模塊302,這將參照?qǐng)D4更詳細(xì)地予以討論。URL 304是輸入。分量劃分模塊306基于URL結(jié)構(gòu)將URL 304分成多個(gè)分量308。這ー組分量308在分段模塊310中被分段,并且各段在語(yǔ)言處理模塊312中被轉(zhuǎn)換成自然語(yǔ)言語(yǔ)音項(xiàng)314。隨后使用受控詞匯(框320)在第一關(guān)鍵字提取模塊(框316)中単獨(dú)地從URL的每個(gè)分量中提取第一組關(guān)鍵字318。還在第二關(guān)鍵字提取模塊(框322)中通過(guò)從URL中的與用于提取第一組關(guān)鍵字的段不同的段中形成項(xiàng)的組合324并且只保留在受控詞匯(框320)中存在的關(guān)鍵字來(lái)提取第二組關(guān)鍵字(框326)。隨后在打分模塊(框328)中對(duì)第一和第二關(guān)鍵字316、326打分。在關(guān)鍵字提取技術(shù)的ー個(gè)實(shí)施例中,基于在URL中的從中提取這些關(guān)鍵字的位置對(duì)關(guān)鍵字打分。經(jīng)打分的關(guān)鍵字330隨后被輸出以用于一個(gè)或多個(gè)應(yīng)用。在下一章節(jié)中將討論這一體系結(jié)構(gòu)的各方面的細(xì)節(jié)。I. 5關(guān)鍵字提取技術(shù)的示例性實(shí)施例的細(xì)節(jié)已經(jīng)討論了示例性過(guò)程和示例性體系結(jié)構(gòu),以下章節(jié)提供關(guān)鍵字提取技術(shù)的各實(shí)施例的細(xì)節(jié)。I. 5. IURL 解析URL解析是關(guān)鍵字提取中的第一步驟之一,其中保留URL中含信息量的部分并跳過(guò)含噪聲的文本。這通過(guò)充分利用URL的結(jié)構(gòu)來(lái)實(shí)現(xiàn)。如前文所討論的,URL—般包含四個(gè)重要的分量授權(quán)機(jī)構(gòu)、路徑、查詢和片段。在以下段落中更詳細(xì)地討論一般的從URL中提取分量。所提取的分量中的每ー個(gè)被進(jìn)ー步解析成各段。I. 5. I. I 授權(quán)機(jī)構(gòu)授權(quán)機(jī)構(gòu)是每個(gè)URL中的必要分量。它給出了其上主存表示該URL的頁(yè)面的服務(wù)器的名稱。授權(quán)機(jī)構(gòu)可包含多個(gè)部分,諸如由點(diǎn)分開(kāi)的協(xié)議、主機(jī)名、域。授權(quán)機(jī)構(gòu)總是以諸如“ http”、“https”之類的協(xié)議開(kāi)始。同樣,授權(quán)機(jī)構(gòu)中的最后ー個(gè)部分采用“ com”、“net”、“US”、“0rg”等值之一,該值廣泛地指示網(wǎng)站的種類并且通常在尋找相關(guān)關(guān)鍵字時(shí)并非是有用的。該技術(shù)丟棄URL的協(xié)議和最后ー個(gè)部分,并且保留剰余部分作為來(lái)自這一分量的段。例如,http: //realestate. msn. com 具有段“realestate (房地產(chǎn))”和 “msn”。I. 5. I. 2 路徑URL可包含路徑字段,該路徑字段包含到要取得資源的路徑。路徑字段在URL中的授權(quán)機(jī)構(gòu)之后,并且可包含由“/”分開(kāi)的目錄列表。這些目錄可表示對(duì)應(yīng)于該URL的頁(yè)面 所屬的類別。有時(shí)候,目錄可包含如“content(內(nèi)容)”之類的不含信息量的文本或不與頁(yè)面的話題相關(guān)的一系列數(shù)字。這些目錄被忽略,而其余目錄構(gòu)成這一分量的段。例如,如果文本太概括(即,“content (內(nèi)容)”、“ file(文件)”)或不具有信息量(即,“ 123”、“a”),則這些目錄可被忽略。I. 5. I. 3 查詢有時(shí)候,URL指向諸如搜索引擎和通用網(wǎng)關(guān)接ロ(CGI)腳本之類的web應(yīng)用。查詢字段是作為輸入被發(fā)送到這些程序的查詢串。查詢字段在URL中的路徑之后以“?”開(kāi)始。查詢字段包含具有定界符“;等的鍵-值對(duì)。鍵-值對(duì)是ー組兩個(gè)鏈接的數(shù)據(jù)項(xiàng)鍵,是某一數(shù)據(jù)項(xiàng)的唯一標(biāo)識(shí)符;以及值,或是被標(biāo)識(shí)的數(shù)據(jù)或是指向該數(shù)據(jù)的位置的指針。例如,city =,,las vegas”&show =” cirque du soleil” 意思是 Cirque du Solei表演在Las Vegas城。查詢串中的鍵-值對(duì)被保留為來(lái)自這一分量的段。取決于應(yīng)用,某些鍵可變得重要而另外一些鍵可變?yōu)樵肼?。I. 5. I. 4 片段片段字段是出現(xiàn)在URL末端在井號(hào)”#”之后的HTML錨。片段字段被保留為來(lái)自這一分量的段。從四個(gè)邏輯分量中導(dǎo)出的所有段形成了關(guān)鍵字提取技術(shù)對(duì)其進(jìn)行操作的基本單
J Li οI. 5. 2受控詞匯難以從URL中未結(jié)構(gòu)化的文本中找到短語(yǔ)邊界,因?yàn)椴淮嬖陉P(guān)于文本應(yīng)當(dāng)如何出現(xiàn)的規(guī)則。諸如名稱實(shí)體識(shí)別程序(NER)、部分語(yǔ)音(POS)標(biāo)簽程序之類的用于短語(yǔ)標(biāo)識(shí)的現(xiàn)有的自然語(yǔ)言處理(NLP)工具無(wú)法在此處應(yīng)用,因?yàn)樗鼈兪窃谧匀徽Z(yǔ)言文本的自由流程上訓(xùn)練的。為克服這ー挑戰(zhàn),關(guān)鍵字提取技術(shù)利用受控詞匯來(lái)標(biāo)識(shí)URL中的有效短語(yǔ)。一般地,受控詞匯是可從任何URL中提取的有效短語(yǔ)的大的列表。受控詞匯的本質(zhì)和大小可取決于關(guān)鍵字所用于的應(yīng)用而改變。例如,一般話題標(biāo)識(shí)系統(tǒng)可使用從Wikipedia(維基百科)話題中導(dǎo)出的一般話題列表作為受控詞匯。用于廣告的關(guān)鍵字提取系統(tǒng)可使用成百萬(wàn)的廣告投標(biāo)短語(yǔ)的列表作為受控詞匯。I. 5. 3文本分段
在關(guān)鍵字提取之前,需要附加的過(guò)程來(lái)將經(jīng)分段的URL文本轉(zhuǎn)換成自然語(yǔ)言文本。在一個(gè)實(shí)施例中,用空格替換諸如“-”或“」’之類的定界符,并且拆分在URL中通常找到的附加項(xiàng)。例如,“savinganddebt”將被拆分成“savings and debt (存款和債務(wù))”。為優(yōu)化經(jīng)拆分的項(xiàng)的相關(guān)性,首先檢查每一個(gè)經(jīng)拆分的項(xiàng)以查看它是否存在于受控詞匯中。如果不存在,則該技術(shù)試圖捜索在受控詞匯中存在的有效拆分。如下以迭代的方式來(lái)執(zhí)行項(xiàng)拆分。I)再引入一個(gè)空格到項(xiàng)中(例如,這可以通過(guò)以迭代方式來(lái)反復(fù)試用直到在受控詞匯中找到匹配來(lái)完成)。2)生成具有新的空格的所有可能的字的拆分。
3)如果找到ー個(gè)有效拆分,則返回有效拆分的項(xiàng)。
4)如果找到ー個(gè)以上的有效拆分,則對(duì)于每ー個(gè)有效拆分,計(jì)算受控詞匯中的個(gè)別詞的頻率總和并返回具有最大總和的有效拆分的項(xiàng)。I. 5. 4關(guān)鍵字提取在文本分段之后,通過(guò)對(duì)照受控詞匯掃描每一段來(lái)從該段中提取關(guān)鍵字。如果來(lái)自段的短語(yǔ)出現(xiàn)在受控詞匯中,則它被指派為關(guān)鍵字。在關(guān)鍵字提取技術(shù)的ー個(gè)實(shí)施例中,最初用最大的可能短語(yǔ)(4個(gè)字的長(zhǎng)度)從左掃描每ー個(gè)段。如果找到匹配,則將短語(yǔ)添加到關(guān)鍵字列表。否則,短語(yǔ)長(zhǎng)度減少I項(xiàng)至3個(gè)字長(zhǎng)度,并且該技術(shù)重復(fù)先前的步驟。這ー過(guò)程被重復(fù)迭代,直到該技術(shù)找到受控詞匯中的短語(yǔ),或者該技術(shù)留下該段中的第一個(gè)字。隨后,該技術(shù)移動(dòng)至該段中的下ー個(gè)字,并重復(fù)相同的過(guò)程來(lái)尋找可能是關(guān)鍵字的短語(yǔ)。在一個(gè)實(shí)施例中,如果URL是搜索引擎結(jié)果頁(yè),則提取上述關(guān)鍵字以及附加關(guān)鍵字。從URL的查詢分量中提取用戶查詢并將其作為單獨(dú)的關(guān)鍵字輸出,不管該查詢是否存在于受控詞匯中。1.5.4關(guān)鍵字組合由于URL中的有限量的文本,從URL中提取關(guān)鍵字并未得到許多關(guān)鍵字。所討論的關(guān)鍵字提取過(guò)程關(guān)于提取第一組關(guān)鍵字的ー個(gè)限制是該技術(shù)僅從連續(xù)出現(xiàn)在URL同一段中的字中構(gòu)建關(guān)鍵字。然而,通過(guò)從URL的不同段中組合項(xiàng)來(lái)生成相關(guān)關(guān)鍵字是可能的。為此,該技術(shù)實(shí)現(xiàn)以下動(dòng)作。第一,使用在對(duì)第一組關(guān)鍵字的提取步驟中說(shuō)明的方法來(lái)從URL中的每一段中提取一組關(guān)鍵字。對(duì)于各段的每ー對(duì),通過(guò)從兩個(gè)不同的段中各取一個(gè)關(guān)鍵字井串接這些關(guān)鍵字來(lái)形成候選關(guān)鍵字組合。對(duì)照受控詞匯來(lái)驗(yàn)證這些候選組合,并且保留在受控詞匯中出現(xiàn)的那些候選組合作為關(guān)鍵字并丟棄其他的候選組合。在先前的提取步驟中從各段中提取的最初的一組關(guān)鍵字以及從這ー組合步驟中生成的關(guān)鍵字形成了 URL的最終的ー組關(guān)鍵字。I. 5. 6智能擴(kuò)展在一個(gè)實(shí)施例中,該技術(shù)使用智能擴(kuò)展來(lái)擴(kuò)展從URL中提取的關(guān)鍵字。這ー實(shí)施例使用外部知識(shí)源,該外部知識(shí)源提供關(guān)鍵字到相關(guān)擴(kuò)展的映射。例如,專家可創(chuàng)建在語(yǔ)義上相關(guān)的項(xiàng)。在這樣的映射中,“auto insurance (汽車保險(xiǎn))”可被映射到“carinsurance (轎車保險(xiǎn))”。擴(kuò)展可在以上討論的關(guān)鍵字組合階段期間使用。在生成最初的關(guān)鍵字集合之后,使用智能擴(kuò)展來(lái)為每ー集合中的所有關(guān)鍵字檢索和添加附加的關(guān)鍵字。如在先前的章節(jié)中所描述的來(lái)對(duì)具有擴(kuò)展的新的集合來(lái)執(zhí)行其余的組合過(guò)程。I. 5. 6相關(guān)性打分在本技術(shù)的ー個(gè)實(shí)施例中,基于關(guān)鍵字的父段的位置、關(guān)鍵字的長(zhǎng)度以及父段的長(zhǎng)度計(jì)算關(guān)鍵字的相關(guān)性分?jǐn)?shù)。第一,基于每個(gè)關(guān)鍵字在URL中的位置,每個(gè)關(guān)鍵字被分配一個(gè)被稱為等級(jí)的在O到10之間的值。等級(jí)值隨著在URL中從左到右移動(dòng)而增加。出現(xiàn)在授權(quán)機(jī)構(gòu)中的關(guān)鍵字具有比來(lái)自查詢的關(guān)鍵字低的等級(jí)(片段>查詢>路徑>授權(quán)機(jī)構(gòu))。使用父段的長(zhǎng)度來(lái)歸ー化關(guān)鍵字k的等級(jí)。
ん,I _k'level* k'len
Σ, ノ
其中k. Ien是關(guān)鍵字的長(zhǎng)度,k. level是關(guān)鍵字的等級(jí),而η是父段的長(zhǎng)度。如果
關(guān)鍵字是兩個(gè)關(guān)鍵字kl和k2的組合,則關(guān)鍵字的等級(jí)可如下被歸ー化。
,7 7 k\.level * k\ Jen + kl.level * kl.lenklevel =--
Σ,:。r在0到10000的范圍內(nèi)計(jì)算關(guān)鍵字的最終相關(guān)性分?jǐn)?shù)(Relevance Score)。它等于該URL可能的最大等級(jí)(MaxLevel)所歸ー化的關(guān)鍵字等級(jí)(KeyLevel)的1000倍。關(guān)鍵字的相關(guān)性分?jǐn)?shù)由以下給出
log (1+Keykvel) *10000取決于所提取的關(guān)鍵字所用于的應(yīng)用,相關(guān)性分?jǐn)?shù)可進(jìn)ー步與關(guān)鍵字的其他度量進(jìn)行組合。這些度量可在生成受控詞匯時(shí)獲得。例如,在廣告應(yīng)用中,投標(biāo)廣告客戶的數(shù)量,用戶查看、點(diǎn)擊的次數(shù),轉(zhuǎn)換或價(jià)格都可以是要使用的重要的度量。I. 5. 6用從引用者URL中提取的關(guān)鍵字來(lái)捕捉用戶意圖在某些應(yīng)用中,毎次用戶訪問(wèn)網(wǎng)頁(yè)時(shí)就提取關(guān)鍵字以推斷用戶意圖。在這樣的場(chǎng)景中,利用引用者URL以及網(wǎng)頁(yè)的URL也是可能的。引用者URL是用戶從其請(qǐng)求當(dāng)前頁(yè)面的先前的網(wǎng)頁(yè)的URL。它給出了用戶在其中訪問(wèn)當(dāng)前頁(yè)面的上下文。在關(guān)鍵字提取技術(shù)的ー個(gè)實(shí)施例中,當(dāng)引用者URL也與查詢URL—起可用吋,使用上文中說(shuō)明的提取方法単獨(dú)地從這兩個(gè)URL中提取關(guān)鍵字。通過(guò)組合來(lái)自這兩個(gè)URL的關(guān)鍵字來(lái)準(zhǔn)備最終的關(guān)鍵字列表。如果關(guān)鍵字源白這兩個(gè)URL,則具有最聞得分的關(guān)鍵字被保留而其他關(guān)鍵字被忽略。2. O示例性操作環(huán)境本文所描述的關(guān)鍵字提取技術(shù)可在多種類型的通用或?qū)S糜?jì)算系統(tǒng)環(huán)境或配置內(nèi)操作。圖4示出其上可實(shí)現(xiàn)本文所描述的關(guān)鍵字提取技術(shù)的各實(shí)施例和元素的通用計(jì)算機(jī)系統(tǒng)的簡(jiǎn)化示例。應(yīng)當(dāng)注意,圖4中由折線或虛線所表示的任何框表示簡(jiǎn)化計(jì)算設(shè)備的替換實(shí)施方式,并且以下描述的這些替換實(shí)施方式中的任ー個(gè)或全部可以結(jié)合貫穿本文所描述的其他替換實(shí)施方式來(lái)使用。例如,圖4示出了概括系統(tǒng)圖,其示出簡(jiǎn)化計(jì)算設(shè)備400。這樣的計(jì)算設(shè)備通??梢栽诰哂兄辽侃`些最小計(jì)算能力的設(shè)備中找到,這些設(shè)備包括但不限于個(gè)人計(jì)算機(jī)、服務(wù)器計(jì)算機(jī)、手持式計(jì)算設(shè)備、膝上型或移動(dòng)計(jì)算機(jī)、諸如蜂窩電話和PDA等通信設(shè)備、多處理器系統(tǒng)、基于微處理器的系統(tǒng)、機(jī)頂盒、可編程消費(fèi)電子產(chǎn)品、網(wǎng)絡(luò)PC、小型計(jì)算機(jī)、大型計(jì)算機(jī)、音頻或視頻媒體播放器等。為允許設(shè)備實(shí)現(xiàn)關(guān)鍵字提取技術(shù),該設(shè)備應(yīng)當(dāng)具有足夠的計(jì)算能力和系統(tǒng)存儲(chǔ)器以實(shí)現(xiàn)基本的計(jì)算操作。具體而言,如圖4所示,計(jì)算能力一般由一個(gè)或多個(gè)處理単元410示出,并且還可包括ー個(gè)或多個(gè)GPU 415,這兩者中的任ー個(gè)或全部與系統(tǒng)存儲(chǔ)器420通信。注意,通用計(jì)算設(shè)備的處理單元410可以是專用微處理器,如DSP、VLIW、或其他微控制器、或可以是具有一個(gè)或多個(gè)處理核的常規(guī)CPU,包括多核CPU中的專用的基于GPU核。另外,圖4的簡(jiǎn)化計(jì)算設(shè)備還可包括其他組件,諸如例如通信接ロ 430。圖4的簡(jiǎn)化計(jì)算設(shè)備還可包括ー個(gè)或多個(gè)常規(guī)計(jì)算機(jī)輸入設(shè)備440 (例如,定點(diǎn)設(shè)備、鍵盤(pán)、音頻輸入設(shè)備、視頻輸入設(shè)備、觸覺(jué)輸入設(shè)備、用于接收有線或無(wú)線數(shù)據(jù)傳輸?shù)脑O(shè)備等)。圖4的簡(jiǎn)化計(jì)算設(shè)備還可包括其他光學(xué)組件,諸如例如ー個(gè)或多個(gè)常規(guī)計(jì)算機(jī)輸出設(shè)備450 (例如,顯示設(shè)備455、音頻輸出設(shè)備、視頻輸出設(shè)備、用于傳送有線或無(wú)線數(shù)據(jù)傳輸?shù)脑O(shè)備等)。注意,通用計(jì)算機(jī)的典型的通信接ロ 430、輸入設(shè)備440、輸出設(shè)備450、以及存儲(chǔ)設(shè)備460對(duì)本領(lǐng)域技術(shù)人員而言是公知的,并且在此不會(huì)詳細(xì)描述。 圖4的簡(jiǎn)化計(jì)算設(shè)備還可包括各種計(jì)算機(jī)可讀介質(zhì)。計(jì)算機(jī)可讀介質(zhì)可以是可由計(jì)算機(jī)400經(jīng)由存儲(chǔ)設(shè)備460訪問(wèn)的任何可用介質(zhì),并且包括是可移動(dòng)470和/或不可移動(dòng)480的易失性和非易失性介質(zhì),該介質(zhì)用于存儲(chǔ)諸如計(jì)算機(jī)可讀或計(jì)算機(jī)可執(zhí)行指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊或其他數(shù)據(jù)等信息。作為示例而非限制,計(jì)算機(jī)可讀介質(zhì)可包括計(jì)算機(jī)存儲(chǔ)介質(zhì)和通信介質(zhì)。計(jì)算機(jī)存儲(chǔ)介質(zhì)包括但不限于計(jì)算機(jī)或機(jī)器可讀介質(zhì)或存儲(chǔ)設(shè)備,諸如DVD、CD、軟盤(pán)、磁帶驅(qū)動(dòng)器、硬盤(pán)驅(qū)動(dòng)器、光盤(pán)驅(qū)動(dòng)器、固態(tài)存儲(chǔ)器設(shè)備、RAM、ROM、EEPR0M、閃存或其他存儲(chǔ)器技木、磁帶盒、磁帶、磁盤(pán)存儲(chǔ)或其他磁存儲(chǔ)設(shè)備、或可用于存儲(chǔ)所需信息并且可由一個(gè)或多個(gè)計(jì)算設(shè)備訪問(wèn)的任何其他設(shè)備。諸如計(jì)算機(jī)可讀或計(jì)算機(jī)可執(zhí)行指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊等信息的存儲(chǔ)還可通過(guò)使用各種上述通信介質(zhì)中的任一種來(lái)編碼ー個(gè)或多個(gè)已調(diào)制數(shù)據(jù)信號(hào)或載波或其他傳輸機(jī)制或通信協(xié)議來(lái)實(shí)現(xiàn),并且包括任何有線或無(wú)線信息傳遞機(jī)制。注意,術(shù)語(yǔ)“已調(diào)制數(shù)據(jù)信號(hào)”或“載波”一般指以對(duì)信號(hào)中的信息進(jìn)行編碼的方式設(shè)置或改變其一個(gè)或多個(gè)特征的信號(hào)。例如,通信介質(zhì)包括諸如有線網(wǎng)絡(luò)或直接線連接等攜帯一個(gè)或多個(gè)已調(diào)制數(shù)據(jù)信號(hào)的有線介質(zhì),以及諸如聲學(xué)、RF、紅外線、激光和其他無(wú)線介質(zhì)等用于傳送和/或接收ー個(gè)或多個(gè)已調(diào)制數(shù)據(jù)信號(hào)或載波的無(wú)線介質(zhì)。上述通信介質(zhì)的任ー組合也應(yīng)包括在通信介質(zhì)的范圍之內(nèi)。此外,可以按計(jì)算機(jī)可執(zhí)行指令或其他數(shù)據(jù)結(jié)構(gòu)的形式存儲(chǔ)、接收、傳送或者從計(jì)算機(jī)或機(jī)器可讀介質(zhì)或存儲(chǔ)設(shè)備和通信介質(zhì)的任何所需組合中讀取具體化本文所描述的關(guān)鍵字提取技術(shù)的各種實(shí)施方式中的部分或全部的軟件、程序和/或計(jì)算機(jī)程序產(chǎn)品或其各部分。最終,本文所描述的關(guān)鍵字提取技術(shù)還可在由計(jì)算設(shè)備執(zhí)行的諸如程序模塊等計(jì)算機(jī)可執(zhí)行指令的一般上下文中描述。一般而言,程序模塊包括執(zhí)行特定任務(wù)或?qū)崿F(xiàn)特定抽象數(shù)據(jù)類型的例程、程序、對(duì)象、組件、數(shù)據(jù)結(jié)構(gòu)等。本文描述的各實(shí)施例還可以在其中任務(wù)由通過(guò)ー個(gè)或多個(gè)通信網(wǎng)絡(luò)鏈接的一個(gè)或多個(gè)遠(yuǎn)程處理設(shè)備執(zhí)行或者在該ー個(gè)或多個(gè)設(shè)備的云中執(zhí)行的分布式計(jì)算環(huán)境中實(shí)現(xiàn)。在分布式計(jì)算環(huán)境中,程序模塊可以位于包括媒體存儲(chǔ)設(shè)備在內(nèi)的本地和遠(yuǎn)程計(jì)算機(jī)存儲(chǔ)介質(zhì)中。此外,上述指令可以部分地或整體地作為可以包括或不包括處理器的硬件邏輯電路來(lái)實(shí)現(xiàn)。還應(yīng)當(dāng)注意,可以按所需的任何組合來(lái)使用此處所述的上述替換實(shí)施例的任ー個(gè)或全部以形成另外的混合實(shí)施例。盡管用結(jié)構(gòu)特征和/或方法動(dòng)作專用的語(yǔ)言描述了本主 題,但可以理解,所附權(quán)利要求書(shū)中定義的主題不必限于上述具體特征或動(dòng)作。上述具體特征和動(dòng)作是作為實(shí)現(xiàn)權(quán)利要求的示例形式公開(kāi)的。
權(quán)利要求
1.一種用于從對(duì)應(yīng)于網(wǎng)站的統(tǒng)ー資源定位符(URL)中提取關(guān)鍵字的計(jì)算機(jī)實(shí)現(xiàn)的過(guò)程,包括 標(biāo)識(shí)所述URL的分量(102); 基于URL分量的結(jié)構(gòu)將所述URL分成多個(gè)段(104); 對(duì)所述段執(zhí)行文本分段以將URL文本轉(zhuǎn)換成自然語(yǔ)言項(xiàng)(106); 基于受控詞匯從段項(xiàng)中提取第一組關(guān)鍵字(108); 基于所述受控詞匯通過(guò)從URL中的與用于生成所述第一組關(guān)鍵字的段不同的段中形成項(xiàng)的組合來(lái)生成第二組關(guān)鍵字(110); 基于ー組特征來(lái)對(duì)所述第一組關(guān)鍵字和所述第二組關(guān)鍵字的相關(guān)性打分(112);以及 按相關(guān)性的順序輸出經(jīng)打分的關(guān)鍵字(114)。
2.如權(quán)利要求I所述的計(jì)算機(jī)實(shí)現(xiàn)的過(guò)程,其特征在于,基于所述URL的結(jié)構(gòu)將URL分成多個(gè)段還包括 將所述URL分成授權(quán)機(jī)構(gòu)、路徑、查詢和片段分量。
3.如權(quán)利要求I所述的計(jì)算機(jī)實(shí)現(xiàn)的過(guò)程,其特征在于,提取所述第一組關(guān)鍵字包括 (a)對(duì)照所述受控詞匯來(lái)比較四個(gè)項(xiàng)長(zhǎng)度的段短語(yǔ), (b)如果在所述受控詞匯中找到所述短語(yǔ),則指派所述短語(yǔ)作為關(guān)鍵字, (c)如果未在所述受控詞匯中找到所述短語(yǔ),則將段的長(zhǎng)度減少I項(xiàng)并對(duì)照所述受控詞匯再次比較所述短語(yǔ), (d)重復(fù)(c)直到在所述受控詞匯中找到其余的項(xiàng)或者僅留下短語(yǔ)的ー個(gè)項(xiàng);以及 (e)如果在所述受控詞匯中找到所述短語(yǔ),則輸出所述短語(yǔ)作為關(guān)鍵字,如果未在所述受控詞匯中找到所述短語(yǔ),則忽略所述短語(yǔ)。
4.如權(quán)利要求I所述的計(jì)算機(jī)實(shí)現(xiàn)的過(guò)程,其特征在于,還包括從所述第二組關(guān)鍵字中刪除未在所述受控詞匯中找到的項(xiàng)的組合。
5.如權(quán)利要求I所述的計(jì)算機(jī)實(shí)現(xiàn)的過(guò)程,其特征在于,在提取所述第一組關(guān)鍵字之前將URL文本轉(zhuǎn)換成自然語(yǔ)言文本包括 用空格來(lái)替換URL文本中的每ー個(gè)定界符來(lái)創(chuàng)建項(xiàng);以及 拆分通常在URL中找到的項(xiàng)。
6.如權(quán)利要求I所述的計(jì)算機(jī)實(shí)現(xiàn)的過(guò)程,其特征在于,通過(guò)從URL的不同分量中形成項(xiàng)的組合來(lái)生成第二組關(guān)鍵字還包括 生成所述第一組關(guān)鍵字; 通過(guò)從段對(duì)中各取一個(gè)關(guān)鍵字井串接來(lái)自每個(gè)段對(duì)中的關(guān)鍵字來(lái)從所述URL的各部分中組合段對(duì)以生成候選關(guān)鍵字組合; 對(duì)照受控詞匯來(lái)驗(yàn)證所述候選關(guān)鍵字組合; 保留在受控詞匯中找到的候選關(guān)鍵字組合作為關(guān)鍵字,并且如果未找到則丟棄所述候選關(guān)鍵字組合。
7.如權(quán)利要求I所述的計(jì)算機(jī)實(shí)現(xiàn)的過(guò)程,其特征在于,還包括通過(guò)使用外部知識(shí)源來(lái)擴(kuò)展從所述URL中提取的關(guān)鍵字。
8.如權(quán)利要求I所述的計(jì)算機(jī)實(shí)現(xiàn)的過(guò)程,其特征在于,基于一組特征對(duì)所述第一組關(guān)鍵字和所述第二組關(guān)鍵字打分還包括基于每個(gè)關(guān)鍵字的父段的位置、關(guān)鍵字的長(zhǎng)度以及父段的長(zhǎng)度來(lái)對(duì)每個(gè)關(guān)鍵字打分。
9.ー種用于從統(tǒng)ー資源定位符(URL)地址中提取關(guān)鍵字的計(jì)算機(jī)實(shí)現(xiàn)的過(guò)程,包括 將當(dāng)前網(wǎng)頁(yè)的當(dāng)前URL分成授權(quán)機(jī)構(gòu)、路徑、查詢以及片段四個(gè)預(yù)定義的URL分量(202); 基于特定定界符和試探性觀察來(lái)分開(kāi)地令牌化各分量以獲得段(204); 對(duì)所述段執(zhí)行文本分段以將URL的文本轉(zhuǎn)換成自然語(yǔ)言項(xiàng)(206); 基于受控詞匯從段項(xiàng)中提取第一組關(guān)鍵字(206); 基于所述受控詞匯通過(guò)從URL中的與所述第一組關(guān)鍵字的段不同的段中形成項(xiàng)的組合來(lái)生成第二組關(guān)鍵字(208); 基于相關(guān)性對(duì)所述第一組關(guān)鍵字和所述第二組關(guān)鍵字打分以輸出經(jīng)排序的一組經(jīng)打分的關(guān)鍵字(210)。
10.如權(quán)利要求9所述的計(jì)算機(jī)實(shí)現(xiàn)的過(guò)程,其特征在于,基于在URL中的從中導(dǎo)出該關(guān)鍵字的段的位置、關(guān)鍵字的長(zhǎng)度以及從中導(dǎo)出關(guān)鍵字的段的長(zhǎng)度來(lái)確定關(guān)鍵字的相關(guān)性分?jǐn)?shù)。
全文摘要
本發(fā)明涉及從統(tǒng)一資源定位符(URL)中的關(guān)鍵字提取。本文所描述的關(guān)鍵字提取技術(shù)從web日志中的統(tǒng)一資源定位符(URL)中提取關(guān)鍵字。該技術(shù)充分利用URL的內(nèi)容和結(jié)構(gòu)來(lái)提取相關(guān)關(guān)鍵字。首先,URL基于其結(jié)構(gòu)被分成多個(gè)分量。在受控詞匯的幫助下,單獨(dú)地從URL的每個(gè)分量中提取一組關(guān)鍵字。隨后通過(guò)從URL的不同段中形成項(xiàng)的組合來(lái)生成第二組關(guān)鍵字。僅保留在可控詞匯中存在的那些組合作為關(guān)鍵字。最后,用將廣泛的一組特征考慮在內(nèi)的一函數(shù)來(lái)對(duì)這些關(guān)鍵字打分。
文檔編號(hào)G06F17/30GK102693272SQ20121006704
公開(kāi)日2012年9月26日 申請(qǐng)日期2012年3月14日 優(yōu)先權(quán)日2011年3月15日
發(fā)明者A·N·博伊, G·達(dá)薩, Q·肖, S·R·維西拉祖, U·R·尤杜帕, W·劉 申請(qǐng)人:微軟公司
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
绿春县| 南丹县| 福建省| 麻栗坡县| 福鼎市| 剑阁县| 溆浦县| 蚌埠市| 仁寿县| 都昌县| 聂荣县| 中西区| 阳朔县| 怀化市| 遂宁市| 泰和县| 徐水县| 精河县| 沭阳县| 讷河市| 郓城县| 利辛县| 珲春市| 砀山县| 凤城市| 涟源市| 慈利县| 拉萨市| 包头市| 卓尼县| 铅山县| 新田县| 诸城市| 盐边县| 南部县| 阜城县| 若尔盖县| 聊城市| 苍山县| 延边| 长垣县|