專利名稱:一種在網(wǎng)絡(luò)上搜索圖片的方法及系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及圖片搜索領(lǐng)域,特別是涉及一種在網(wǎng)絡(luò)上搜索圖片的方法及系統(tǒng)。
背景技術(shù):
在網(wǎng)絡(luò)上搜索與查詢詞相關(guān)的圖片,是搜索引擎的一種重要應(yīng)用。搜索時, 搜索? 1擎主要依據(jù)圖片描述文本與查詢詞的相關(guān)性,判斷該圖片與查詢詞的是 否緊密相關(guān),如是,則提取該圖片。但是,因圖片描述文本的多義性和4昔誤性, 圖片描述文本與查詢詞直接相關(guān),并不能保證圖片與查詢詞緊密相關(guān),使搜索 的圖片不能很好地滿足用戶的需求。例如,"老虎"不僅可以是一種動物圖片的描述文本,也可以是某高爾夫球星圖片的描述文本;"蘋果"不僅可以是一種水果圖片的描述文本,還可以 是某著名科技^^司圖片的描述文本。當(dāng)用戶使用查詢詞"老虎"查詢所需的動 物圖片時,搜索引擎根據(jù)圖片描述文本搜索的圖片就很可能是某高爾夫球星圖 片。當(dāng)用戶使用查詢詞"蘋果"查詢所需的水果圖片時,搜索引擎根據(jù)圖片描 述文本搜索的圖片就很可能是某著名科技公司圖片。再例如, 一張羊的圖片,其描述文本可能"馬", 一張搞笑的女性網(wǎng)友自 拍,其描述文本可能是"美女"。這樣,搜索引擎根據(jù)圖片描述文本提取的圖 片可能雜亂無章。目前,解決上述問題最常用的方法是人工對各大網(wǎng)站進行打分,將互聯(lián)網(wǎng) 上各網(wǎng)站大致分為"專業(yè)站點"、"普通站點"、"垃圾站點",搜索時,在圖片 描述文本與查詢詞的相關(guān)度近似的前提下,來自專業(yè)站點的圖片權(quán)重大于普通 站點,來自普通站點的圖片權(quán)重大于垃圾站點。再按圖片的權(quán)重,排序顯示。但是, 一個網(wǎng)站被分為專業(yè)站點,并不能保證它對任何查詢詞都專業(yè),專 業(yè)站點只針對一類查詢詞表現(xiàn)專業(yè),而不可能對所有的查詢詞都專業(yè)。例如, 一個明星類的專業(yè)站點,對于查詢詞"馬",返回的是歌手馬天宇的圖片,導(dǎo) 致搜索的圖片與查詢詞相關(guān)性差,降低用戶的體驗感。互聯(lián)網(wǎng)上的網(wǎng)站數(shù)以萬計,依靠人工查詢每個站點,并打分,不僅浪費大 量的人力,還查詢的網(wǎng)站數(shù)量有限,覆蓋率低,影響圖片搜索的效果。發(fā)明內(nèi)容本發(fā)明所要解決的技術(shù)問題是提供一種在網(wǎng)絡(luò)上搜索圖片的方法,以解決 現(xiàn)有技術(shù)中搜索的圖片與查詢詞相關(guān)性差,用戶體驗感較低的問題。該方法能 夠使搜索的圖片與查詢詞緊密相關(guān),提高用戶的體驗感。本發(fā)明的另 一個目的是提供一種在網(wǎng)絡(luò)上搜索圖片的系統(tǒng),以解決現(xiàn)有技 術(shù)中搜索的圖片與查詢詞相關(guān)性差,用戶體驗感較低的問題。該系統(tǒng)能夠使搜 索的圖片與查詢詞緊密相關(guān),提高用戶的體驗感。本發(fā)明公開一種在網(wǎng)絡(luò)上搜索圖片的方法,該方法包括對照預(yù)置的詞語 分類庫,確定查詢詞所屬主分類;搜索與所述查詢詞相關(guān)的各圖片,對照預(yù)置 的網(wǎng)站分類庫,分別獲if又所述各圖片所在網(wǎng)站對于上述主分類的分類權(quán)重;對 照預(yù)置的網(wǎng)頁分類庫,分別獲取所述各圖片所在網(wǎng)頁的對于上述主分類的描述 權(quán)重;依據(jù)所述分類權(quán)重和描述權(quán)重計算所述各圖片的綜合相關(guān)性,提取綜合 相關(guān)性大于閾值的圖片。優(yōu)選的,對照預(yù)置的網(wǎng)頁分類庫之前,還包括劃分圖片搜索領(lǐng)域為若干 分類;為每個分類設(shè)置分類描述詞;利用上述分類描述詞分別計算互聯(lián)網(wǎng)上各 網(wǎng)頁針對每個分類的描述權(quán)重,組成網(wǎng)頁分類庫。優(yōu)選的,利用上述分類描述詞分別計算互聯(lián)網(wǎng)上各網(wǎng)頁針對每個分類的描 述權(quán)重,計算方法具體為統(tǒng)計某分類的各分類描述詞在該網(wǎng)頁出現(xiàn)頻次,乘 以相應(yīng)的系數(shù);統(tǒng)計各分類描述詞在該網(wǎng)頁出現(xiàn)位置,乘以相應(yīng)的系數(shù);將上 述乘積相加,得到該網(wǎng)頁針對該分類的描述權(quán)重。優(yōu)選的,對照預(yù)置的網(wǎng)站分類庫之前,還包括劃分圖片搜索領(lǐng)域為若干 分類;為每個分類設(shè)置分類基準(zhǔn)詞;利用上述分類基準(zhǔn)詞分別計算互聯(lián)網(wǎng)上各 網(wǎng)站針對每個分類的分類權(quán)重,組成網(wǎng)站分類庫。優(yōu)選的,利用上述分類基準(zhǔn)詞分別計算互聯(lián)網(wǎng)上各網(wǎng)站針對每個分類的分 類權(quán)重,計算方法具體為統(tǒng)計某分類的各分類基準(zhǔn)詞在該網(wǎng)站的出現(xiàn)頻次, 乘以相應(yīng)系數(shù);統(tǒng)計各分類基準(zhǔn)詞在該網(wǎng)站相關(guān)聯(lián)圖片數(shù)之和,乘以相應(yīng)系數(shù); 計算上述相關(guān)聯(lián)圖片占該網(wǎng)站圖片總數(shù)的比例,乘以相應(yīng)的系數(shù);上述乘積相 加,得到該網(wǎng)站針對該分類的分類權(quán)重。優(yōu)選的,利用上述分類基準(zhǔn)詞分別計算互聯(lián)網(wǎng)上各網(wǎng)站針對每個分類的分類權(quán)重,計算方法為統(tǒng)計某分類的各分類基準(zhǔn)詞在該網(wǎng)站的出現(xiàn)頻次,乘以 相應(yīng)系數(shù)后,力o 1;統(tǒng)計各分類基準(zhǔn)詞在該網(wǎng)站相關(guān)聯(lián)圖片數(shù)之和,乘以相應(yīng) 系數(shù)后,力口l;計算上述相關(guān)聯(lián)圖片占該網(wǎng)站圖片總數(shù)的比例;乘以相應(yīng)的系 數(shù)后,力。1;上述計算得到的和相乘后,減l,得到該網(wǎng)站針對該分類的分類 權(quán)重。優(yōu)選的,對照預(yù)置的詞語分類庫之前,還包括分別統(tǒng)計各詞語在各網(wǎng)站 的出現(xiàn)次數(shù);針對每個詞語,提取該詞語出現(xiàn)次數(shù)大于預(yù)設(shè)數(shù)值的網(wǎng)站,獲取^ 上述網(wǎng)站分類權(quán)重最高的分類,劃歸該詞語為該分類詞語,組成詞語分類庫。優(yōu)選的,還包括提取該詞語出現(xiàn)次數(shù)最多的網(wǎng)站,獲取該網(wǎng)站分類權(quán)重 最高的分類,將該分類作為該詞語所屬的主分類,其它分類作為該詞語所屬的 次分類。優(yōu)選的,還包括如查詢詞屬至少兩個分類,為該查詢詞所屬次分類的圖 片建立鏈接;顯示主分類的圖片和次分類的鏈接。優(yōu)選的,還包括統(tǒng)計各分類圖片的被點擊次數(shù);獲取圖片被點擊次數(shù)最 多的分類,顯示該分類的圖片。本發(fā)明還公開一種在網(wǎng)絡(luò)上搜索圖片的系統(tǒng),該系統(tǒng)包括查詢詞分類模 塊,分類權(quán)重計算模塊、描述權(quán)重計算模塊、綜合相關(guān)性計算模塊、及圖片提 :ia莫塊所述查詢詞分類^^莫塊,用于對照預(yù)置的詞語分類庫,確定查詢詞所屬 分類;所述分類權(quán)重計算模塊,用于搜索與所述查詢詞相關(guān)的各圖片,對照預(yù) 置的網(wǎng)站分類庫,分別獲取所述各圖片所在網(wǎng)站對于該主分類的分類權(quán)重;所 述描述權(quán)重計算模塊,用于對照預(yù)置的網(wǎng)頁分類庫,分別獲取所述各圖片所在 網(wǎng)頁的對于該主分類的描述權(quán)重;所述綜合相關(guān)性計算模塊,用于依據(jù)所述分 類權(quán)重和描述權(quán)重計算所述各圖片的綜合相關(guān)性;所述圖片提取模塊,用于提 取綜合相關(guān)性大于閾值的圖片。優(yōu)選的,該系統(tǒng)還包括圖片搜索領(lǐng)域劃分模塊、分類描述詞設(shè)置^t塊、及 網(wǎng)頁分類庫組成模塊;所述圖片搜索領(lǐng)域劃分模塊,用于劃分圖片搜索領(lǐng)域為若干分類;所述分類描述詞設(shè)置模塊,用于為每個分類設(shè)置分類描述詞;所述 網(wǎng)頁分類庫組成模塊,用于利用上述分類描述詞分別計算互聯(lián)網(wǎng)上各網(wǎng)頁針對 每個分類的描述權(quán)重,組成網(wǎng)頁分類庫。優(yōu)選的,該系統(tǒng)還包括分類基準(zhǔn)詞設(shè)置模塊、網(wǎng)站分類庫組成模塊;所述 分類基準(zhǔn)詞設(shè)置模塊,用于為每個分類設(shè)置分類基準(zhǔn)詞;所述網(wǎng)站分類庫組成 模塊,用于利用上述分類基準(zhǔn)詞分別計算互聯(lián)網(wǎng)上各網(wǎng)站針對每個分類的分類 4又重,組成網(wǎng)站分類庫。優(yōu)選的,還包括詞語統(tǒng)計模塊、詞語分類庫組成模塊所述詞語統(tǒng)計模塊, 用于分別統(tǒng)計各詞語在各網(wǎng)站的出現(xiàn)次數(shù);所述詞語分類庫組成模塊,用于針 對每個詞語,提取該詞語出現(xiàn)次數(shù)大于預(yù)設(shè)數(shù)值的網(wǎng)站,獲取上述網(wǎng)站分類權(quán) 重最高的分類,劃歸該詞語為該分類詞語,組成詞語分類庫。與現(xiàn)有^t術(shù)相比,本發(fā)明具有以下優(yōu)點本發(fā)明將網(wǎng)站的分類權(quán)重和網(wǎng)頁的描述權(quán)重細(xì)分到每個分類上,針對依據(jù) 查詢詞獲取的圖片,根據(jù)圖片所在的網(wǎng)站和網(wǎng)頁針對查詢詞所屬分類的分類權(quán) 重和描述權(quán)重,計算圖片與查詢詞的綜合相關(guān)性,該綜合相關(guān)性綜合考慮了查 詢詞的類別、網(wǎng)站和網(wǎng)頁的針對該分類的專業(yè)程度,使搜索的圖片與查詢詞緊 密相關(guān),提高用戶的體驗感。
圖1為本發(fā)明在網(wǎng)絡(luò)上搜索圖片的方法第一實施例流程圖; 圖2為本發(fā)明預(yù)置網(wǎng)頁分類庫流程圖; 圖3為本發(fā)明預(yù)置網(wǎng)站分類庫的流程圖; 圖4為本發(fā)明預(yù)置詞語分類庫流程圖; 圖5為本發(fā)明在網(wǎng)絡(luò)上搜索圖片的方法第二實施例流程圖; 圖6為本發(fā)明在網(wǎng)絡(luò)上搜索圖片的方法第三實施例流程圖; 圖7為本發(fā)明在網(wǎng)絡(luò)上搜索圖片的系統(tǒng)第一實施例示意圖; 圖8為本發(fā)明在網(wǎng)絡(luò)上搜索圖片的系統(tǒng)第二實施例示意圖。
具體實施方式
為使本發(fā)明的上述目的、特征和優(yōu)點能夠更加明顯易懂,下面結(jié)合附圖和具體實施方式
對本發(fā)明作進一 步詳細(xì)的說明。本發(fā)明對查詢詞和網(wǎng)站進行主題分類,并把查詢詞和網(wǎng)站分類匹配因素加 入到圖片的綜合相關(guān)性計算中。圖片所在的網(wǎng)站對查詢詞所屬分類的分類權(quán)重 高,說明該網(wǎng)站與查詢詞相關(guān)度高,圖片所在的網(wǎng)頁對查詢詞所屬分類的描述權(quán)重高,說明該網(wǎng)頁和查詢詞的相關(guān)高,在相對分類權(quán)重和描述權(quán)重4交高的網(wǎng)站和網(wǎng)頁提:f又圖片,可以保證圖片在用戶所需的主題內(nèi),并與查詢詞緊密相關(guān)。 參閱圖i,示出本發(fā)明在網(wǎng)絡(luò)上搜索圖片的方法第一實施例,具體步驟如下。步驟sioi、預(yù)置詞語分類庫、網(wǎng)站分類庫、及網(wǎng)頁分類庫。把圖片搜索 中常見的領(lǐng)域劃分為若干個分類,劃分的原則是分類明晰,各分類之間交叉小。 如劃分為"動植物,,分類、"人物,,分類、"風(fēng)景"分類、"軍事"分類等等。詞語分類庫包括每個分類的特征詞語,詞語分類庫中的詞語相對全面,可 包含用戶的?!嚼粲玫母鞣N查詢詞。詞語分類庫可通過記錄用戶查詢詞,為查詢 詞歸類的的方式獲得,還可以在網(wǎng)絡(luò)上收集常用詞語,為每個詞語歸類的方式 獲得。網(wǎng)站分類庫包括互聯(lián)網(wǎng)上各網(wǎng)站對于各分類的分類權(quán)重值,分類權(quán)重可集 中體現(xiàn)該網(wǎng)站對于該分類的可置信度和專業(yè)程度。網(wǎng)頁分類庫包括互連網(wǎng)上各網(wǎng)頁對于各分類的描述權(quán)重,描述權(quán)重可集中 體現(xiàn)該網(wǎng)頁對于該分類的可置信度和專業(yè)程度。步驟si02、對照詞語分類庫,確定查詢詞所屬分類。提:取用戶輸入的查 詢詞,與詞語分類庫中的詞語進行對比,確定該查詢詞所屬的分類。步驟S103、搜索與查詢詞相關(guān)的各圖片。網(wǎng)絡(luò)搜索服務(wù)器在網(wǎng)絡(luò)上搜索與該查詢詞直接相關(guān)的圖片。搜索方式可通過判斷圖片的描述文本與查詢詞是 否相關(guān),獲取描述文本與查詢詞直接相關(guān)的圖片。步驟S104、在網(wǎng)站分類庫分別獲取各圖片所在網(wǎng)站對于該主分類的分類權(quán)重。獲:f又各圖片所在的網(wǎng)站,對照網(wǎng)站分類庫,獲:f又網(wǎng)站對于該分類的分類 權(quán)重。步驟S105、在網(wǎng)頁分類庫分別獲取各圖片所在網(wǎng)頁的對于該分類的描述 權(quán)重。獲取各圖片所在的網(wǎng)頁,對照網(wǎng)頁分類庫,獲: 又網(wǎng)頁對于該主分類的分 類權(quán)重。步驟S106、依據(jù)分類權(quán)重和描述權(quán)重計算每個圖片的綜合相關(guān)值。計算算式如下W = a x (Wsite Rank)+b x (Page Rank);其中,WsiteRank為網(wǎng)站的分類權(quán)重,Page Rank為網(wǎng)頁的描述權(quán)重,a 、 b為系數(shù),可根據(jù)分類的不同,適當(dāng)調(diào)整a 、 b的取值。當(dāng)然,本發(fā)明也可考慮圖片描述文本因素,及其它相關(guān)因素,將上述因素 加入到圖片的綜合相關(guān)值計算中,計算圖片的綜合相關(guān)值。步驟S107、提取綜合相關(guān)值大于閾值的圖片。將每張圖片的綜合相關(guān)值 與設(shè)定的閾值相比較,如大于,則提取該圖片,并發(fā)送到用戶客戶端;如小于, 則丟棄該圖片。本發(fā)明將網(wǎng)站的分類權(quán)重和網(wǎng)頁的描述權(quán)重細(xì)分到每個分類上,針對依據(jù) 查詢詞獲取的圖片,根據(jù)圖片所在的網(wǎng)站和網(wǎng)頁針對查詢詞所屬分類的分類權(quán) 重和描述權(quán)重,計算圖片與查詢詞的綜合相關(guān)性,該綜合相關(guān)性綜合考慮了查 詢詞的類別、網(wǎng)站和網(wǎng)頁的針對該分類的專業(yè)程度,使提取的圖片能夠很好的 集中在查詢詞所在的分類,提高與查詢詞的相關(guān)度。本發(fā)明為每個分類設(shè)置分類描述詞,根據(jù)分類描述詞在網(wǎng)頁的出現(xiàn)次數(shù)和 出現(xiàn)位置,計算互聯(lián)網(wǎng)上各網(wǎng)頁針對每個分類的描述權(quán)重。描述權(quán)重計算的核 心思想是網(wǎng)頁命中的某分類描述詞越多,這些分類描述詞在網(wǎng)頁中出現(xiàn)的位置 越重要,該網(wǎng)頁對該分類的可置信度就越大。參閱圖2,示出本發(fā)明預(yù)置網(wǎng)頁分類庫流程,具體包括以下步驟。步驟S201、劃分圖片搜索領(lǐng)域為若干分類。把圖片搜索中常見的領(lǐng)域劃 分為若干個分類,劃分的原則是分類明晰,各分類之間交叉小。步驟S202、為每個分類設(shè)置分類描述詞。為每個分類指定若干分類描述 詞,分類描述詞可以理解為一個分類的子分類名,表述的是該分類中的一些常 見主題。例如,把"足球"、"籃球"、"乒乓球"等詞作為"體育"分類的分類 描述詞。分類描述詞可以從一些專業(yè)網(wǎng)站的分類導(dǎo)航目錄頁中獲得。步驟S203、利用上述分類描述詞分別計算互聯(lián)網(wǎng)上各網(wǎng)頁針對每個分類 的描述權(quán)重。計算公式可為Weight(page, class) = Z『e/g/^(丄ocariow[z']);Weight(Location) = a*Weight(hit word) + b*Weight(hit word loc);其中,Weight (hit word)表示某分類描述詞出現(xiàn)的次數(shù),Weight (hit wordloc)表示該分類描述詞出現(xiàn)的位置,a 、 b為系數(shù),可根據(jù)分類的不同和位置 的不同,適當(dāng)調(diào)整a 、 b的取值。網(wǎng)頁位置的重要性可分為三個檔次,第一檔包括導(dǎo)航文本等位置,第二檔 包含網(wǎng)頁標(biāo)題等位置,第三檔包含環(huán)繞文本等位置。檔次越高對應(yīng)系數(shù)越高。 例如,某網(wǎng)頁命中"動植物"類的分類描述詞"哺乳動物",這個分類描述詞 出現(xiàn)在導(dǎo)^L字I殳,"首頁>>圖片素材〉>動物〉〉哺乳動物",那么該網(wǎng)頁對于"動 植物"類的描述權(quán)值很大,該網(wǎng)頁是"動植物,,分類的專業(yè)網(wǎng)頁的可能性較高。步驟S204、組成網(wǎng)頁分類庫。將互聯(lián)網(wǎng)上各網(wǎng)頁的對于各分類的描述權(quán) 重歸納成表格形式,作為網(wǎng)頁分類庫,儲存在網(wǎng)絡(luò)搜索服務(wù)器內(nèi)。本發(fā)明根據(jù)分類描述詞在網(wǎng)頁中出現(xiàn)的個數(shù)和出現(xiàn)位置,計算該網(wǎng)頁對于 該分類的描述權(quán)重,使描述權(quán)重能夠很好的體現(xiàn)該網(wǎng)頁對于該分類的可置信度 和專業(yè)程度。本發(fā)明為每個分類設(shè)置分類基準(zhǔn)詞,利用分類基準(zhǔn)詞分別計算互聯(lián)網(wǎng)上各 網(wǎng)站針對每個分類的分類權(quán)重。分類權(quán)重計算的基本思想是該網(wǎng)站中命中的分 類基準(zhǔn)詞越多,這些分類基準(zhǔn)詞命中的圖片數(shù)之和越大,命中的圖片數(shù)之和占 該網(wǎng)站的圖片總數(shù)的比例越大,該網(wǎng)站對該分類的可置信度也就越大。參閱圖3,示出預(yù)置網(wǎng)站分類庫的流程,具體步驟如下所述。步驟S301、劃分圖片搜索領(lǐng)域為若干分類。把圖片搜索中常見的領(lǐng)域劃 分為若干個分類,劃分的原則是分類明晰,各分類之間交叉小。步驟S302、為每個分類設(shè)置分類基準(zhǔn)詞。分類基準(zhǔn)詞唯一屬于某個分類, 是集中表現(xiàn)該分類特征的詞語,例如,對于"動植物"分類,將一些常見的動 物植物名稱作為分類基準(zhǔn)詞,對于"風(fēng)景"分類,將一些著名的風(fēng)景景點作為 分類基準(zhǔn)詞。分類基準(zhǔn)詞可以專業(yè)網(wǎng)站的分類瀏覽頁中獲得。步驟S303、利用分類基準(zhǔn)詞分別計算互聯(lián)網(wǎng)上各網(wǎng)站針對每個分類的分 類權(quán)重。計算算式可為<formula>formula see original document page 11</formula>其中,Weight (word num)為該網(wǎng)站命中的分類基準(zhǔn)詞it量;Weight (pic num) 為分類基準(zhǔn)詞在該網(wǎng)站命中圖片的數(shù)量;Weight (pic percent)命中圖片的數(shù) 量占總圖片數(shù)量的比例;a、 P、 Y為系數(shù)。計算算式還可為Weight(site, class) = a*Weight(hit word) + b*Weight(hit pic) +c* Weight(percent);其中,Weight (word num)為該網(wǎng)站命中的分類基準(zhǔn)詞數(shù)量;Weight (pic num) 為分類基準(zhǔn)詞在該網(wǎng)站命中圖片的數(shù)量;Weight (pic percent)命中圖片的數(shù) 量占總圖片數(shù)量的比例;a、 b、 c為系數(shù)。例如,某個網(wǎng)站命中了 50個"動植物"類的分類基準(zhǔn)詞,這50個分類基 準(zhǔn)詞一共命中了 800張圖片,而這個網(wǎng)站一共只有1000張圖片,命中圖片占 80%,那么該網(wǎng)站對于"動植物"類的分類權(quán)值很大,該網(wǎng)站是"動植物"分 類的專業(yè)站點可能性4交大。步驟S304、組成網(wǎng)站分類庫。將互聯(lián)網(wǎng)上各網(wǎng)站的對于各分類的描述權(quán) 重歸納成表格形式,作為網(wǎng)站分類庫,儲存在網(wǎng)絡(luò)搜索服務(wù)器內(nèi)。本發(fā)明綜合考慮網(wǎng)站所命中的分類基準(zhǔn)詞數(shù)量,該分類基準(zhǔn)詞命中的圖片 數(shù)量,命中的圖片數(shù)所占的比例,使網(wǎng)站的分類權(quán)重能夠很好的體現(xiàn)該網(wǎng)站對 于該分類的可置信度和專業(yè)程度。本發(fā)明還可通過記錄用戶查詢詞,根據(jù)詞語庫,分別統(tǒng)計各詞語在各網(wǎng)站 的出現(xiàn)頻次,將出現(xiàn)頻次大于該預(yù)設(shè)數(shù)值的詞語劃歸為該網(wǎng)站分類權(quán)重值最高 的分類。參閱圖4,示出本發(fā)明預(yù)置詞語分類庫流程,具體步驟如下所述。步驟S401、分別統(tǒng)計各詞語在各網(wǎng)站的出現(xiàn)次數(shù)。本發(fā)明通過記錄用戶 的查詢詞,或在詞語庫中調(diào)取詞語,或在專業(yè)網(wǎng)站上提取詞語等方式獲取各詞 語,分別統(tǒng)計各詞語在各網(wǎng)站的出現(xiàn)次數(shù)。步驟S402、將出現(xiàn)次數(shù)與預(yù)設(shè)數(shù)值相比較,如大于,獲取上述網(wǎng)站分類 權(quán)重最高的分類,劃歸該詞語為該分類詞語;如小于,丟棄該詞語。例如,詞語"蘋果"在某網(wǎng)站出現(xiàn)次數(shù)為50次,大于預(yù)設(shè)數(shù)值30次,該 網(wǎng)站的對于"水果"分類的分類權(quán)重最高,則將詞語"蘋果"劃歸為"水果" 分類。步驟S403、提取該詞語出現(xiàn)次數(shù)最多的網(wǎng)站,獲取該網(wǎng)站分類權(quán)重最高 的分類,將該分類作為該詞語所屬的主分類,其它分類作為該詞語所屬的次分類。步驟S404、組成詞語分類庫。將各分欄的詞語和前述為各分類設(shè)置的分 類基準(zhǔn)詞一起,組成詞語分類庫。本發(fā)明通過在網(wǎng)站出現(xiàn)次數(shù)判斷詞語所屬的分類,使詞語在能夠集中的體 現(xiàn)與該網(wǎng)站的相關(guān)性,也就是能夠集中反映該網(wǎng)站的特征。通過不斷的將用戶 查詢詞加入到分類詞語庫中,使分類詞語庫涵蓋用戶常用的查詢詞,涵蓋范圍 廣。依據(jù)該分類詞語庫,能夠?qū)τ脩羲褂玫牟樵冊~進行準(zhǔn)確分類。一個查詢詞可能只屬于一個分類,也可能屬于多個分類,如果一個查詢詞 只屬于一個分類,直接給出依據(jù)該分類的搜索的圖片,但如果一個查詢詞有多 個分類,只給出固定依據(jù)某個分類的搜索的圖片,會使得想查看其它分類圖片 的用戶體驗降低。本發(fā)明對屬于多個分類的查詢詞,為每一個分類建立一套以 該分類排序優(yōu)先的索引結(jié)果,在展現(xiàn)搜索圖片的時候有更多的靈活性。本發(fā)明可直接給出該查詢詞主分類的搜索圖片,對于該查詢詞其它分類的 搜索圖片,可給出相關(guān)鏈接,用戶想查看該查詢詞其它分類的搜索圖片,點擊 該相關(guān)《連接,即可顯示該分類的搜索圖片。參閱圖5,示出本發(fā)明在網(wǎng)絡(luò)上搜索圖片的方法第二實施例,具體步驟如下。步驟S501、預(yù)置分類詞語庫、網(wǎng)站分類庫、及網(wǎng)頁分類庫。 步驟S502、對照詞語分類庫,確定查詢詞所屬分類。提取用戶輸入的查 詢詞,與詞語分類庫中的詞語進行對比,確定該查詢詞所屬的分類。步驟S503、網(wǎng)絡(luò)搜索服務(wù)器在網(wǎng)絡(luò)上搜索與該查詢詞直接相關(guān)的圖片。 步驟S504、在網(wǎng)站分類庫分別獲取各圖片所在網(wǎng)站對于該分類的分類權(quán)重。步驟S505、在網(wǎng)頁分類庫分別獲取各圖片所在網(wǎng)頁的對于該分類的描述 權(quán)重。步驟S506、依據(jù)分類權(quán)重和描述權(quán)重計算每個圖片的綜合相關(guān)值。 步驟S507、提取綜合相關(guān)值大于閾值的圖片。步驟S508、判斷該查詢詞是否有多個分類,如無,直接顯示提取的圖片; 如有,轉(zhuǎn)到步驟S509。步驟S509、將該查詢詞所屬的各次分類的圖片分別存儲在服務(wù)器內(nèi),并分別建立相關(guān)鏈接,顯示主分類的圖片和各相關(guān)鏈接。例如,用戶使用查詢詞 "蘋果",給出主分類"動植物"類的搜索圖片,同時給出"您是否要查看蘋 果在數(shù)碼產(chǎn)品類搜索圖片?"的鏈接。步驟S510、點擊該鏈接,服務(wù)器調(diào)取該分類的搜索圖片。例如,用戶點 擊"您是否要查看蘋果在數(shù)碼產(chǎn)品類搜索圖片?"鏈接,得到"數(shù)碼產(chǎn)品"類 的搜索圖片。本發(fā)明通過直接顯示查詢詞主分類的搜索圖片,對于各次分類的圖片則給 出相關(guān)鏈接,即可保證搜索的圖片的全面性,還可讓顯示的圖片不雜亂,方便 用戶查看。本發(fā)明還可統(tǒng)計各分類圖片的被點擊次數(shù),獲取圖片被點擊次數(shù)最多的分 類,直接顯示該分類的搜索圖片,使用戶可方便、快捷地查看到所需圖片。 參閱圖6,示出本發(fā)明在網(wǎng)絡(luò)上搜索圖片的方法第三實施例,具體步驟如下。步驟S601、預(yù)置分類詞語庫、網(wǎng)站分類庫、及網(wǎng)頁分類庫,統(tǒng)計各分類 圖片的被點擊次數(shù)。統(tǒng)計以往用戶使用該查詢詞搜索圖片后,用戶點擊各分類 圖片的次數(shù),記錄在分類詞語庫。步驟S602、對照詞語分類庫,確定查詢詞所屬主分類。^是取用戶輸入的 查詢詞,與詞語分類庫中的詞語進行對比,確定該查詢詞所屬的分類。步驟S603、網(wǎng)絡(luò)搜索服務(wù)器在網(wǎng)絡(luò)上搜索與該查詢詞直接相關(guān)的圖片。步驟S604、在網(wǎng)站分類庫分別獲取各圖片所在網(wǎng)站對于該分類的分類權(quán)重。步驟S605、在網(wǎng)頁分類庫分別獲取各圖片所在網(wǎng)頁的對于該分類的描述 權(quán)重。步驟S606、依據(jù)分類權(quán)重和描述權(quán)重計算每個圖片的綜合相關(guān)值。 步驟S607、提取綜合相關(guān)值大于閾值的圖片。步驟S608、獲取圖片被點擊次數(shù)最多的分類,顯示該分類的圖片。例如, 用戶使用查詢詞"蘋果,,搜索圖片,用戶以往使用查詢詞"蘋果"搜索圖片后, 點擊查看對多的是"數(shù)碼產(chǎn)品"分類的圖片,則直接顯示"數(shù)碼產(chǎn)品,,分類的 圖片。本發(fā)明通過記錄用戶使用查詢詞搜索圖片后,記錄圖片被點擊次數(shù)最多的 分類,表明用戶最需要的是該分類的圖片,則直接顯示該分類的圖片,使用戶 方便、快捷地查看該分類的圖片?;谏鲜鲈诰W(wǎng)絡(luò)上搜索圖片的方法,本發(fā)明還提供一種在網(wǎng)絡(luò)上搜索圖片 的系統(tǒng)。該系統(tǒng)能夠使搜索的圖片與查詢詞緊密相關(guān),提高用戶的體驗感。參與圖7,示出本發(fā)明在網(wǎng)絡(luò)上搜索圖片的系統(tǒng)第一實施例,包括查詢詞分類模塊71,圖片搜索模塊72、分類權(quán)重計算模塊73、描述權(quán)重計算模塊74、 綜合相關(guān)性計算模塊75、及圖片提取模塊76。查詢詞分類模塊71對照預(yù)置的詞語分類庫,確定查詢詞所屬分類。查詢 詞分類模塊71提取用戶輸入的查詢詞,與詞語分類庫中的詞語進行對比,確 定該查詢詞所屬的分類,將該分類信息發(fā)送到分類權(quán)重計算模塊73和描述權(quán) 重計算模塊74。圖片搜索模塊72搜索與查詢詞直接相關(guān)的各圖片,發(fā)送到分類權(quán)重計算 模塊73和描述權(quán)重計算模塊74。分類權(quán)重計算模塊73對照預(yù)置的網(wǎng)站分類庫,分別獲取各圖片所在網(wǎng)站 對于該主分類的分類權(quán)重,并發(fā)送到綜合相關(guān)性計算模塊75。描述權(quán)重計算模塊74對照預(yù)置的網(wǎng)頁分類庫,分別獲取各圖片所在網(wǎng)頁 的對于該主分類的描述權(quán)重,并發(fā)送到綜合相關(guān)性計算模塊75。綜合相關(guān)性計算模塊75依據(jù)分類權(quán)重和描述權(quán)重計算各圖片的綜合相關(guān) 性,并計算結(jié)果發(fā)送到圖片提取模塊76。圖片提取模塊76在圖片搜索模塊72提取綜合相關(guān)性大于闊值的圖片。參與圖8,示出本發(fā)明在網(wǎng)絡(luò)上搜索圖片的系統(tǒng)第二實施例,查詢詞分類 模塊71,圖片搜索模塊72、分類權(quán)重計算模塊73、描述權(quán)重計算模塊74、綜 合相關(guān)性計算模塊75、圖片提取模塊76、圖片搜索領(lǐng)域劃分模塊77、分類描 述詞設(shè)置模塊78、網(wǎng)頁分類庫組成模塊79、分類基準(zhǔn)詞設(shè)置模塊80、網(wǎng)站分 類庫組成模塊81、詞語統(tǒng)計模塊82、及詞語分類庫組成模塊83。圖片搜索領(lǐng)域劃分模塊77劃分圖片搜索領(lǐng)域為若干分類,劃分的原則是 分類明晰,各分類之間交叉小。圖片搜索領(lǐng)域劃分模塊77將劃分結(jié)果發(fā)送到 分類描述詞設(shè)置模塊78和分類基準(zhǔn)詞設(shè)置模塊80。分類描述詞設(shè)置模塊78為每個分類設(shè)置分類描述詞,分類描述詞可以理 解為一個分類的子分類名,表述的是該分類中的一些常見主題。分類描述詞設(shè) 置模塊78將分類描述詞發(fā)送到網(wǎng)頁分類庫組成模塊79。網(wǎng)頁分類庫組成模塊79利用上述分類描述詞分別計算互聯(lián)網(wǎng)上各網(wǎng)頁針 對每個分類的描述權(quán)重,組成網(wǎng)頁分類庫,發(fā)送到描述權(quán)重計算模塊74。分類基準(zhǔn)詞設(shè)置模塊80為每個分類設(shè)置分類基準(zhǔn)詞,分類基準(zhǔn)詞唯一屬 于某個分類,是集中表現(xiàn)該分類特征的詞語。分類基準(zhǔn)詞設(shè)置模塊80將分類 基準(zhǔn)詞發(fā)送到網(wǎng)站分類庫組成模塊81。網(wǎng)站分類庫組成模塊81利用上述分類基準(zhǔn)詞分別計算互聯(lián)網(wǎng)上各網(wǎng)站針 對每個分類的分類權(quán)重,組成網(wǎng)站分類庫,發(fā)送到分類權(quán)重計算模塊73。詞語統(tǒng)計模塊82分別統(tǒng)計各詞語在各網(wǎng)站的出現(xiàn)次數(shù)。詞語統(tǒng)計模塊82 通過記錄用戶的查詢詞,或在詞語庫中調(diào)取詞語,或在專業(yè)網(wǎng)站上提耳又詞語等 方式獲取各詞語,分別統(tǒng)計各詞語在各網(wǎng)站的出現(xiàn)次數(shù)。詞語統(tǒng)計模塊82將 統(tǒng)計結(jié)果發(fā)送到詞語分類庫組成^f莫塊83。詞語分類庫組成模塊83針對每個詞語,提取該詞語出現(xiàn)次數(shù)大于預(yù)設(shè)數(shù) 值的網(wǎng)站,獲取上述網(wǎng)站分類權(quán)重最高的分類,劃歸該詞語為該分類詞語,組 成詞語分類庫,發(fā)送到查詢詞分類模塊71。查詢詞分類模塊71,圖片搜索模塊72、分類權(quán)重計算模塊73、描述權(quán)重 計算模塊74、綜合相關(guān)性計算模塊75、及圖片提取模塊76在本實施例中的功 能和作用與圖7所示實施例相同,不再贅述。以上對本發(fā)明所提供的 一種在網(wǎng)絡(luò)上所搜圖片的方法及系統(tǒng),進行了詳細(xì)施例的說明只是用于幫助理解本發(fā)明的方法及其核心思想;同時,對于本領(lǐng)域 的一般技術(shù)人員,依據(jù)本發(fā)明的思想,在具體實施方式
及應(yīng)用范圍上均會有改 變之處,綜上所述,本說明書內(nèi)容不應(yīng)理解為對本發(fā)明的限制。
權(quán)利要求
1、一種在網(wǎng)絡(luò)上搜索圖片的方法,其特征在于,該方法包括對照預(yù)置的詞語分類庫,確定查詢詞所屬主分類;搜索與所述查詢詞相關(guān)的各圖片,對照預(yù)置的網(wǎng)站分類庫,分別獲取所述各圖片所在網(wǎng)站對于上述主分類的分類權(quán)重;對照預(yù)置的網(wǎng)頁分類庫,分別獲取所述各圖片所在網(wǎng)頁的對于上述主分類的描述權(quán)重;依據(jù)所述分類權(quán)重和描述權(quán)重計算所述各圖片的綜合相關(guān)性,提取綜合相關(guān)性大于閾值的圖片。
2、 如權(quán)利要求l所述的方法,其特征在于,對照預(yù)置的網(wǎng)頁分類庫之前, 還包括劃分圖片搜索領(lǐng)域為若干分類; 為每個分類設(shè)置分類描述詞;利用上述分類描述詞分別計算互聯(lián)網(wǎng)上各網(wǎng)頁針對每個分類的描述權(quán)重, 組成網(wǎng)頁分類庫。
3、 如權(quán)利要求2所述的方法,其特征在于,利用上述分類描述詞分別計 算互聯(lián)網(wǎng)上各網(wǎng)頁針對每個分類的描述權(quán)重,計算方法具體為統(tǒng)計某分類的各分類描述詞在該網(wǎng)頁出現(xiàn)頻次,乘以相應(yīng)的系數(shù); 統(tǒng)計各分類描述詞在該網(wǎng)頁出現(xiàn)位置,乘以相應(yīng)的系數(shù); 將上述乘積相加,得到該網(wǎng)頁針對該分類的描述權(quán)重。
4、 如權(quán)利要求l所述的方法,其特征在于,對照預(yù)置的網(wǎng)站分類庫之前, 還包括劃分圖片搜索領(lǐng)域為若干分類; 為每個分類設(shè)置分類基準(zhǔn)詞;利用上述分類基準(zhǔn)詞分別計算互聯(lián)網(wǎng)上各網(wǎng)站針對每個分類的分類權(quán)重, 組成網(wǎng)站分類庫。
5、 如權(quán)利要求4所述的方法,其特征在于,利用上述分類基準(zhǔn)詞分別計 算互聯(lián)網(wǎng)上各網(wǎng)站針對每個分類的分類權(quán)重,計算方法具體為統(tǒng)計某分類的各分類基準(zhǔn)詞在該網(wǎng)站的出現(xiàn)頻次,乘以相應(yīng)系數(shù); 統(tǒng)計各分類基準(zhǔn)詞在該網(wǎng)站相關(guān)聯(lián)圖片數(shù)之和,乘以相應(yīng)系數(shù);計算上述相關(guān)聯(lián)圖片占該網(wǎng)站圖片總數(shù)的比例,乘以相應(yīng)的系數(shù); 上述乘積相加,得到該網(wǎng)站針對該分類的分類權(quán)重。
6、 如權(quán)利要求4所述的方法,其特征在于,利用上述分類基準(zhǔn)詞分別計 算互聯(lián)網(wǎng)上各網(wǎng)站針對每個分類的分類權(quán)重,計算方法為統(tǒng)計某分類的各分類基準(zhǔn)詞在該網(wǎng)站的出現(xiàn)頻次,乘以相應(yīng)系數(shù)后,加1; 統(tǒng)計各分類基準(zhǔn)詞在該網(wǎng)站相關(guān)聯(lián)圖片數(shù)之和,乘以相應(yīng)系數(shù)后,力口l; 計算上述相關(guān)聯(lián)圖片占該網(wǎng)站圖片總數(shù)的比例;乘以相應(yīng)的系數(shù)后,加1; 上述計算得到的和相乘后,減l,得到該網(wǎng)站針對該分類的分類權(quán)重。
7、 如權(quán)利要求l所述的方法,其特征在于,對照預(yù)置的詞語分類庫之前, 還包括分別統(tǒng)計各詞語在各網(wǎng)站的出現(xiàn)次數(shù);針對每個詞語,提取該詞語出現(xiàn)次數(shù)大于預(yù)設(shè)數(shù)值的網(wǎng)站,獲取上述網(wǎng)站 分類權(quán)重最高的分類,劃歸該詞語為該分類詞語,組成詞語分類庫。
8、 如權(quán)利要求7所述的方法,其特征在于,還包括 提取該詞語出現(xiàn)次數(shù)最多的網(wǎng)站,獲取該網(wǎng)站分類權(quán)重最高的分類,將該分類作為該詞語所屬的主分類,其它分類作為該詞語所屬的次分類。
9、 如權(quán)利要求1至8任一項所述的方法,其特征在于,還包括 如查詢詞屬至少兩個分類,為該查詢詞所屬次分類的圖片建立鏈接; 顯示主分類的圖片和次分類的鏈接。
10、 如權(quán)利要求1至8任一項所述的方法,其特征在于,還包括 統(tǒng)計各分類圖片的被點擊次數(shù);獲取圖片被點擊次數(shù)最多的分類,顯示該分類的圖片。
11、 一種在網(wǎng)絡(luò)上搜索圖片的系統(tǒng),其特征在于,該系統(tǒng)包括查詢詞分類 模塊,圖片搜索模塊、分類權(quán)重計算模塊、描述權(quán)重計算模塊、綜合相關(guān)性計 算模塊、及圖片提取模塊所述查詢詞分類模塊,用于對照預(yù)置的詞語分類庫,確定查詢詞所屬主分類;所述圖片搜索模塊,用于搜索與所述查詢詞相關(guān)的各圖片; 所述分類權(quán)重計算模塊,用于對照預(yù)置的網(wǎng)站分類庫,分別獲取所述各圖片所在網(wǎng)站對于上述主分類的分類權(quán)重;所述描述權(quán)重計算模塊,用于對照預(yù)置的網(wǎng)頁分類庫,分別獲取所述各圖 片所在網(wǎng)頁的對于上述主分類的描述權(quán)重;所述綜合相關(guān)性計算模塊,用于依據(jù)所述分類權(quán)重和描述權(quán)重計算所述各 圖片的綜合相關(guān)性所述圖片提取模塊,用于提取綜合相關(guān)性大于閾值的圖片。
12、 如權(quán)利要求11所述的系統(tǒng),其特征在于,該系統(tǒng)還包括圖片搜索領(lǐng) 域劃分模塊、分類描述詞設(shè)置模塊、及網(wǎng)頁分類庫組成模塊;所述圖片搜索領(lǐng)域劃分模塊,用于劃分圖片搜索領(lǐng)域為若干分類; 所述分類描述詞設(shè)置模塊,用于為每個分類設(shè)置分類描述詞; 所述網(wǎng)頁分類庫組成模塊,用于利用上述分類描述詞分別計算互聯(lián)網(wǎng)上各 網(wǎng)頁針對每個分類的描述權(quán)重,組成網(wǎng)頁分類庫。
13、 如權(quán)利要求12所述的系統(tǒng),其特征在于,該系統(tǒng)還包括分類基準(zhǔn)詞 設(shè)置模塊、網(wǎng)站分類庫組成模塊;所述分類基準(zhǔn)詞設(shè)置模塊,用于為每個分類設(shè)置分類基準(zhǔn)詞; 所述網(wǎng)站分類庫組成模塊,用于利用上述分類基準(zhǔn)詞分別計算互聯(lián)網(wǎng)上各 網(wǎng)站針對每個分類的分類^5l重,組成網(wǎng)站分類庫。
14、 如權(quán)利要求13所述的系統(tǒng),其特征在于,還包括詞語統(tǒng)計才莫塊、詞 語分類庫組成^f莫塊所述詞語統(tǒng)計模塊,用于分別統(tǒng)計各詞語在各網(wǎng)站的出現(xiàn)次數(shù); 所述詞語分類庫組成模塊,用于針對每個詞語,提取該詞語出現(xiàn)次數(shù)大于預(yù)設(shè)數(shù)值的網(wǎng)站,獲取上述網(wǎng)站分類權(quán)重最高的分類,劃歸該詞語為該分類詞語,組成詞語分類庫。
全文摘要
本發(fā)明涉及一種在網(wǎng)絡(luò)上搜索圖片的方法,該方法包括對照預(yù)置的詞語分類庫,確定查詢詞所屬主分類;搜索與所述查詢詞相關(guān)的各圖片,對照預(yù)置的網(wǎng)站分類庫,分別獲取所述各圖片所在網(wǎng)站對于上述主分類的分類權(quán)重;對照預(yù)置的網(wǎng)頁分類庫,分別獲取所述各圖片所在網(wǎng)頁的對于上述主分類的描述權(quán)重;依據(jù)所述分類權(quán)重和描述權(quán)重計算所述各圖片的綜合相關(guān)性,提取綜合相關(guān)性大于閾值的圖片。本發(fā)明同時還公開一種在網(wǎng)絡(luò)上搜索圖片的系統(tǒng)。本發(fā)明解決現(xiàn)有技術(shù)中搜索的圖片與查詢詞相關(guān)性差,用戶體驗感較低的問題。本發(fā)明能夠使搜索的圖片與查詢詞緊密相關(guān),提高用戶的體驗感。
文檔編號G06F17/30GK101246502SQ20081008805
公開日2008年8月20日 申請日期2008年3月27日 優(yōu)先權(quán)日2008年3月27日
發(fā)明者密 田 申請人:騰訊科技(深圳)有限公司