專利名稱:一種提供搜索引擎標(biāo)簽的方法和裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種提供搜索引擎標(biāo)簽的方法和裝置。
背景技術(shù):
目前,用戶在電子商務(wù)網(wǎng)站上搜索商品時(shí)只能根據(jù)商品的客觀屬性來搜索篩選,例如顏色、尺碼等,而對(duì)于一些帶有主觀色彩的搜索,例如搜索詞為“性價(jià)比好的相機(jī)”,通常都是無結(jié)果。對(duì)于主觀語義搜索,當(dāng)前用戶一般需要通過通用搜索引擎先查詢到一些商品型號(hào)再去電商網(wǎng)站上搜索具體商品。這無疑會(huì)增加用戶操作,并且分析可知通用搜索引擎給出的搜索結(jié)果大多基于用戶在BBS等網(wǎng)站上的評(píng)價(jià)。電子商務(wù)網(wǎng)站本身就擁有相當(dāng)豐富的用戶評(píng)論數(shù)據(jù),因此現(xiàn)有技術(shù)中也基于電子商務(wù)網(wǎng)站中的用戶評(píng)論數(shù)據(jù)來獲取搜索引擎的標(biāo)簽。其中的主要技術(shù)路線是從評(píng)論文本中自動(dòng)識(shí)別觀點(diǎn)信息并分析觀點(diǎn),用以獲得用戶對(duì)商品的各個(gè)屬性特征的評(píng)價(jià),然后將挖掘出的評(píng)價(jià)和商品關(guān)聯(lián)形成搜索引擎標(biāo)簽。在得到搜索引擎標(biāo)簽之后即可以使用已有的搜索引擎技術(shù)向用戶提供包含評(píng)價(jià)數(shù)據(jù)的搜索服務(wù),該搜索引擎標(biāo)簽?zāi)軌虮磉_(dá)用戶的主觀意圖,于是采用這種搜索引擎標(biāo)簽?zāi)軌蛑С窒蛴脩籼峁┲饔^意圖搜索服務(wù)?,F(xiàn)有技術(shù)中的一種得到上述搜索引擎標(biāo)簽的方法是,先根據(jù)語義詞典識(shí)別出評(píng)論文本中的觀點(diǎn)詞,例如:好、棒、不錯(cuò)等,然后通過對(duì)觀點(diǎn)詞上下文的截取得到一個(gè)包含觀點(diǎn)詞的具有合適長度并且語義相對(duì)完整的短句,再利用語義分析工具例如斯坦福大學(xué)分析器分析該短句,得到一系列依存關(guān)系,最后對(duì)這些依存關(guān)系進(jìn)行分析,抽取出觀點(diǎn)詞所修飾的對(duì)象即屬性詞,例如性價(jià)比、外觀等。屬性詞也稱“非謂形容詞”、“區(qū)別詞”,是從傳統(tǒng)語法中名詞、動(dòng)詞、形容詞中脫離出來的一類新興詞類。屬性詞只表示人、事物的屬性或特征,具有區(qū)別或分類的作用。屬性詞一般只能作定語,不能作謂語。上述方法中,對(duì)觀點(diǎn)詞的提取依賴于詞典,對(duì)于詞典未收錄的詞則難以提取觀點(diǎn)詞,從而提供標(biāo)簽的范圍有限。另外上述方法中,在提取屬性詞之前需要對(duì)文本基于觀點(diǎn)詞作上下文截取,處理方式效率較低。
發(fā)明內(nèi)容
有鑒于此,本發(fā)明提供一種提供搜索引擎標(biāo)簽的方法和裝置,能夠在更廣的范圍內(nèi)提供搜索引擎標(biāo)簽并且有較高的處理速度。為實(shí)現(xiàn)上述目的,根據(jù)本發(fā)明的一個(gè)方面,提供了一種提供搜索引擎標(biāo)簽的方法。本發(fā)明的提供搜索引擎標(biāo)簽的方法包括:提取句子中的一個(gè)或多個(gè)屬性詞;對(duì)所述句子進(jìn)行依存關(guān)系分析,得出針對(duì)各個(gè)屬性詞的從含有該屬性詞到含有觀點(diǎn)詞的依存關(guān)系路徑;根據(jù)所述依存關(guān)系路徑提取所述句子中各個(gè)所述屬性詞分別對(duì)應(yīng)的觀點(diǎn)詞;用所述屬性詞和所述觀點(diǎn)詞組成搜索引擎標(biāo)簽??蛇x地,所述提取句子中的一個(gè)或多個(gè)屬性詞的步驟之前還包括:按預(yù)設(shè)的規(guī)則對(duì)文本數(shù)據(jù)進(jìn)行過濾;從所述文本數(shù)據(jù)中獲取句子。
可選地,從所述文本數(shù)據(jù)中獲取句子的步驟包括:對(duì)文本數(shù)據(jù)按標(biāo)點(diǎn)符號(hào)進(jìn)行子句劃分得到短子句;獲取所述短子句作為所述句子??蛇x地,對(duì)所述句子進(jìn)行依存關(guān)系分析,得出針對(duì)各個(gè)屬性詞的從含有該屬性詞到含有觀點(diǎn)詞的依存關(guān)系路徑的步驟包括:對(duì)所述句子進(jìn)行依存關(guān)系分析得出該句子的一系列依存關(guān)系;根據(jù)所述屬性詞和所述一系列依存關(guān)系得出針對(duì)各個(gè)屬性詞的從含有該屬性詞經(jīng)由所述一系列依存關(guān)系到含有觀點(diǎn)詞的依存關(guān)系;遍歷所述含有觀點(diǎn)詞的依存關(guān)系從而得出所述依存關(guān)系路徑??蛇x地,根據(jù)所述依存關(guān)系路徑提取所述句子中各個(gè)所述屬性詞分別對(duì)應(yīng)的觀點(diǎn)詞的步驟包括:從所述依存關(guān)系路徑中選擇出現(xiàn)頻率較高的依存關(guān)系路徑;根據(jù)選擇出的依存關(guān)系路徑得出依存關(guān)系規(guī)則;根據(jù)所述依存關(guān)系規(guī)則提取所述句子中各個(gè)屬性詞對(duì)應(yīng)的觀點(diǎn)詞。可選地,用所述屬性詞和所述觀點(diǎn)詞組成搜索引擎標(biāo)簽的步驟之后,還包括:根據(jù)同義詞表,將包含同義的觀點(diǎn)詞的多個(gè)標(biāo)簽合并成一個(gè)標(biāo)簽。根據(jù)本發(fā)明的另一方面,提供了一種提供搜索引擎標(biāo)簽的裝置。本發(fā)明的提供搜索引擎標(biāo)簽的裝置包括:屬性詞提取模塊,用于提取句子中的一個(gè)或多個(gè)屬性詞;依存關(guān)系分析模塊,用于對(duì)所述句子進(jìn)行依存關(guān)系分析,得出針對(duì)各個(gè)屬性詞的從含有該屬性詞到含有觀點(diǎn)詞的依存關(guān)系路徑;觀點(diǎn)詞提取模塊,用于根據(jù)所述依存關(guān)系路徑提取所述句子中各個(gè)所述屬性詞分別對(duì)應(yīng)的觀點(diǎn)詞;搜索引擎標(biāo)簽?zāi)K,用于用所述屬性詞和所述觀點(diǎn)詞組成搜索引擎標(biāo)簽。可選地,還包括預(yù)處理模塊,用于按預(yù)設(shè)的規(guī)則對(duì)文本數(shù)據(jù)進(jìn)行過濾,然后從所述文本數(shù)據(jù)中獲取句子??蛇x地,所述預(yù)處理模塊還用于對(duì)文本數(shù)據(jù)按標(biāo)點(diǎn)符號(hào)進(jìn)行子句劃分得到短子句,然后獲取所述短子句作為所述句子??蛇x地,所述依存關(guān)系分析模塊還用于:對(duì)所述句子進(jìn)行依存關(guān)系分析得出該句子的一系列依存關(guān)系;根據(jù)所述屬性詞和所述一系列依存關(guān)系得出針對(duì)各個(gè)屬性詞的從含有該屬性詞經(jīng)由所述一系列依存關(guān)系到含有觀點(diǎn)詞的依存關(guān)系;遍歷所述含有觀點(diǎn)詞的依存關(guān)系從而得出所述依存關(guān)系路徑??蛇x地,所述觀點(diǎn)詞提取模塊還用于:從所述依存關(guān)系路徑中選擇出現(xiàn)頻率較高的依存關(guān)系路徑;根據(jù)選擇出的依存關(guān)系路徑得出依存關(guān)系規(guī)則;根據(jù)所述依存關(guān)系規(guī)則提取所述句子中各個(gè)屬性詞對(duì)應(yīng)的觀點(diǎn)詞??蛇x地,還包括歸一化模塊,用于根據(jù)同義詞表,將包含同義的觀點(diǎn)詞的多個(gè)標(biāo)簽合并成一個(gè)標(biāo)簽。根據(jù)本發(fā)明的技術(shù)方案,挖掘出屬性詞并根據(jù)依存關(guān)系挖掘?qū)?yīng)的觀點(diǎn)詞,同時(shí)也可以在沒有對(duì)應(yīng)的觀點(diǎn)詞的情況下過濾挖掘的屬性詞。本實(shí)施例的技術(shù)方案不依賴于詞典,所以有助于在更廣的范圍內(nèi)提供搜索引擎標(biāo)簽,而且不需要對(duì)語句做上下文截取,有助于提高處理速度。
附圖用于更好地理解本發(fā)明,不構(gòu)成對(duì)本發(fā)明的不當(dāng)限定。其中:
圖1是根據(jù)本發(fā)明實(shí)施例的提供搜索引擎標(biāo)簽的方法的示意圖;圖2是根據(jù)本發(fā)明實(shí)施例的提供搜索引擎標(biāo)簽的裝置的基本結(jié)構(gòu)的示意圖。
具體實(shí)施例方式以下結(jié)合附圖對(duì)本發(fā)明的示范性實(shí)施例做出說明,其中包括本發(fā)明實(shí)施例的各種細(xì)節(jié)以助于理解,應(yīng)當(dāng)將它們認(rèn)為僅僅是示范性的。因此,本領(lǐng)域普通技術(shù)人員應(yīng)當(dāng)認(rèn)識(shí)至IJ,可以對(duì)這里描述的實(shí)施例做出各種改變和修改,而不會(huì)背離本發(fā)明的范圍和精神。同樣,為了清楚和簡明,以下的描述中省略了對(duì)公知功能和結(jié)構(gòu)的描述。圖1是根據(jù)本發(fā)明實(shí)施例的提供搜索引擎標(biāo)簽的方法的示意圖,如圖1所示,該方法主要包括步驟Sll至步驟S14。步驟Sll:提取句子中的一個(gè)或多個(gè)屬性詞??梢圆捎迷~性模式匹配的方式提取評(píng)論語句中的名詞(NN)、動(dòng)詞(NN)及名詞+動(dòng)詞NN+VV)等復(fù)合形式作為候選屬性詞。這里的句子是從文本數(shù)據(jù)中獲取,可以先按預(yù)設(shè)的規(guī)則對(duì)文本數(shù)據(jù)進(jìn)行過濾,然后對(duì)文本數(shù)據(jù)按標(biāo)點(diǎn)符號(hào)進(jìn)行子句劃分得到短子句,將該短子句作為本步驟中的句子。以上述的文本數(shù)據(jù)是電子商務(wù)網(wǎng)站的商品評(píng)論信息為例,上述的過濾即為對(duì)網(wǎng)站上抓取的原始評(píng)論進(jìn)行預(yù)處理,按規(guī)則過濾掉評(píng)論數(shù)據(jù)中營銷廣告、停用詞及默認(rèn)評(píng)論等無意義語句,再去除同條評(píng)論中大量重復(fù)的字段或語句。步驟S12:對(duì)步驟Sll中的句子進(jìn)行依存關(guān)系分析,得出針對(duì)各個(gè)屬性詞的從含有該屬性詞到含有觀點(diǎn)詞的依存關(guān)系路徑。在本步驟中,具體可以是先對(duì)上述句子進(jìn)行依存關(guān)系分析得出該句子的一系列依存關(guān)系,然后根據(jù)屬性詞和這一系列依存關(guān)系得出針對(duì)各個(gè)屬性詞的從含有該屬性詞經(jīng)由這一系列依存關(guān)系到含有觀點(diǎn)詞的依存關(guān)系,最后遍歷該含有觀點(diǎn)詞的依存關(guān)系從而得出依存關(guān)系路徑。可以看出本步驟中采用了多個(gè)傳遞依存關(guān)系來形成依存關(guān)系路徑,有助于深入地挖掘出觀點(diǎn)詞。步驟S13:根據(jù)步驟S12中的依存關(guān)系路徑提取句子中各個(gè)屬性詞分別對(duì)應(yīng)的觀點(diǎn)詞。如果針對(duì)某個(gè)屬性詞沒有提取到觀點(diǎn)詞,則將該屬性詞從步驟Sll中獲得的屬性詞集合中刪除。本步驟中,具體可以先從上述依存關(guān)系路徑中選擇出現(xiàn)頻率較高的依存關(guān)系路徑,然后根據(jù)選擇出的依存關(guān)系路徑得出依存關(guān)系規(guī)則,再根據(jù)該依存關(guān)系規(guī)則提取句子中各個(gè)屬性詞對(duì)應(yīng)的觀點(diǎn)詞。步驟S14:用屬性詞和觀點(diǎn)詞組成搜索引擎標(biāo)簽。這里的屬性詞是步驟S13之后的屬性詞集合。在本步驟之后,可以按搜索引擎標(biāo)簽中的觀點(diǎn)詞的同義詞作一個(gè)合并,即根據(jù)同義詞表,將包含同義的觀點(diǎn)詞的多個(gè)標(biāo)簽合并成一個(gè)標(biāo)簽。例如,將“性價(jià)比好”、“性價(jià)比高”、和“性價(jià)比無敵”合并成“性價(jià)比高”。標(biāo)簽可以給商品建索引供用戶搜索。但在有些情況下用戶自己輸入的搜索詞可能不是按圖1所示的步驟得出的屬性詞,因此可以繼續(xù)執(zhí)行步驟S15。步驟S15:輸出步驟S14中的搜索引擎標(biāo)簽。根據(jù)本步驟,搜索引擎標(biāo)簽被呈現(xiàn)在用戶使用的終端設(shè)備的人機(jī)界面中,例如網(wǎng)頁上,用戶點(diǎn)擊這種搜索引擎標(biāo)簽時(shí)就將該搜索引擎標(biāo)簽提供給搜索引擎從而啟動(dòng)搜索,使用戶能夠根據(jù)頁面中展示的各種屬性詞來實(shí)現(xiàn)商品的篩選。圖2是根據(jù)本發(fā)明實(shí)施例的提供搜索引擎標(biāo)簽的裝置的基本結(jié)構(gòu)的示意圖。如圖2所示,提供搜索引擎標(biāo)簽的裝置20基本地包括屬性詞提取模塊21、依存關(guān)系分析模塊22、觀點(diǎn)詞提取模塊23、和搜索引擎標(biāo)簽?zāi)K24。屬性詞提取模塊21用于提取句子中的一個(gè)或多個(gè)屬性詞。依存關(guān)系分析模塊22對(duì)所述句子進(jìn)行依存關(guān)系分析,得出針對(duì)各個(gè)屬性詞的從含有該屬性詞到含有觀點(diǎn)詞的依存關(guān)系路徑。觀點(diǎn)詞提取模塊23根據(jù)所述依存關(guān)系路徑提取所述句子中各個(gè)所述屬性詞分別對(duì)應(yīng)的觀點(diǎn)詞。搜索引擎標(biāo)簽?zāi)K24用所述屬性詞和所述觀點(diǎn)詞組成搜索弓I擎標(biāo)簽。提供搜索引擎標(biāo)簽的裝置20還可以包括預(yù)處理模塊(圖中未示出),用于按預(yù)設(shè)的規(guī)則對(duì)文本數(shù)據(jù)進(jìn)行過濾,然后從該文本數(shù)據(jù)中獲取句子。預(yù)處理模塊還可用于對(duì)文本數(shù)據(jù)按標(biāo)點(diǎn)符號(hào)進(jìn)行子句劃分得到短子句,然后獲取該短子句作為所述的句子。提供搜索引擎標(biāo)簽的裝置20還可以包括歸一化模塊(圖中未示出),用于根據(jù)同義詞表,將包含同義的觀點(diǎn)詞的多個(gè)標(biāo)簽合并成一個(gè)標(biāo)簽。依存關(guān)系分析模塊22還可用于對(duì)所述句子進(jìn)行依存關(guān)系分析得出該句子的一系列依存關(guān)系;根據(jù)所述屬性詞和所述一系列依存關(guān)系得出針對(duì)各個(gè)屬性詞的從含有該屬性詞經(jīng)由所述一系列依存關(guān)系到含有觀點(diǎn)詞的依存關(guān)系;遍歷所述含有觀點(diǎn)詞的依存關(guān)系從而得出所述依存關(guān)系路徑。觀點(diǎn)詞提取模塊23還可用于從所述依存關(guān)系路徑中選擇出現(xiàn)頻率較高的依存關(guān)系路徑;根據(jù)選擇出的依存關(guān)系路徑得出依存關(guān)系規(guī)則;根據(jù)所述依存關(guān)系規(guī)則提取所述句子中各個(gè)屬性詞對(duì)應(yīng)的觀點(diǎn)詞。根據(jù)本發(fā)明實(shí)施例的技術(shù)方案,挖掘出屬性詞并根據(jù)依存關(guān)系挖掘?qū)?yīng)的觀點(diǎn)詞,同時(shí)也可以在沒有對(duì)應(yīng)的觀點(diǎn)詞的情況下過濾挖掘的屬性詞。本實(shí)施例的技術(shù)方案不依賴于詞典,所以有助于在更廣的范圍內(nèi)提供搜索引擎標(biāo)簽,而且不需要對(duì)語句做上下文截取,有助于提高處理速度。以上結(jié)合具體實(shí)施例描述了本發(fā)明的基本原理,但是,需要指出的是,對(duì)本領(lǐng)域的普通技術(shù)人員而言,能夠理解本發(fā)明的方法和設(shè)備的全部或者任何步驟或者部件,可以在任何計(jì)算裝置(包括處理器、存儲(chǔ)介質(zhì)等)或者計(jì)算裝置的網(wǎng)絡(luò)中,以硬件、固件、軟件或者它們的組合加以實(shí)現(xiàn),這是本領(lǐng)域普通技術(shù)人員在閱讀了本發(fā)明的說明的情況下運(yùn)用他們的基本編程技能就能實(shí)現(xiàn)的。因此,本發(fā)明的目的還可以通過在任何計(jì)算裝置上運(yùn)行一個(gè)程序或者一組程序來實(shí)現(xiàn)。所述計(jì)算裝置可以是公知的通用裝置。因此,本發(fā)明的目的也可以僅僅通過提供包含實(shí)現(xiàn)所述方法或者裝置的程序代碼的程序產(chǎn)品來實(shí)現(xiàn)。也就是說,這樣的程序產(chǎn)品也構(gòu)成本發(fā)明,并且存儲(chǔ)有這樣的程序產(chǎn)品的存儲(chǔ)介質(zhì)也構(gòu)成本發(fā)明。顯然,所述存儲(chǔ)介質(zhì)可以是任何公知的存儲(chǔ)介質(zhì)或者將來開發(fā)出的任何存儲(chǔ)介質(zhì)。還需要指出的是,在本發(fā)明的裝置和方法中,顯然,各部件或各步驟是可以分解和/或重新組合的。這些分解和/或重新組合應(yīng)視為本發(fā)明的等效方案。并且,執(zhí)行上述系列處理的步驟可以自然地按照說明的順序按時(shí)間順序執(zhí)行,但是并不需要一定按照時(shí)間順序執(zhí)行。某些步驟可以并行或彼此獨(dú)立地執(zhí)行。上述具體實(shí)施方式
,并不構(gòu)成對(duì)本發(fā)明保護(hù)范圍的限制。本領(lǐng)域技術(shù)人員應(yīng)該明白的是,取決于設(shè)計(jì)要求和其他因素,可以發(fā)生各種各樣的修改、組合、子組合和替代。任何在本發(fā)明的精神和原則之內(nèi)所作的修改、等同替換和改進(jìn)等,均應(yīng)包含在本發(fā)明保護(hù)范圍之內(nèi)
權(quán)利要求
1.一種提供搜索引擎標(biāo)簽的方法,其特征在于,包括: 提取句子中的一個(gè)或多個(gè)屬性詞; 對(duì)所述句子進(jìn)行依存關(guān)系分析,得出針對(duì)各個(gè)屬性詞的從含有該屬性詞到含有觀點(diǎn)詞的依存關(guān)系路徑; 根據(jù)所述依存關(guān)系路徑提取所述句子中各個(gè)所述屬性詞分別對(duì)應(yīng)的觀點(diǎn)詞; 用所述屬性詞和所述觀點(diǎn)詞組成搜索引擎標(biāo)簽。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于, 所述提取句子中的一個(gè)或多個(gè)屬性詞的步驟之前還包括:按預(yù)設(shè)的規(guī)則對(duì)文本數(shù)據(jù)進(jìn)行過濾; 從所述文本數(shù)據(jù)中獲取句子。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,從所述文本數(shù)據(jù)中獲取句子的步驟包括: 對(duì)文本數(shù)據(jù)按標(biāo)點(diǎn)符號(hào)進(jìn) 行子句劃分得到短子句; 獲取所述短子句作為所述句子。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,對(duì)所述句子進(jìn)行依存關(guān)系分析,得出針對(duì)各個(gè)屬性詞的從含有該屬性詞到含有觀點(diǎn)詞的依存關(guān)系路徑的步驟包括: 對(duì)所述句子進(jìn)行依存關(guān)系分析得出該句子的一系列依存關(guān)系; 根據(jù)所述屬性詞和所述一系列依存關(guān)系得出針對(duì)各個(gè)屬性詞的從含有該屬性詞經(jīng)由所述一系列依存關(guān)系到含有觀點(diǎn)詞的依存關(guān)系; 遍歷所述含有觀點(diǎn)詞的依存關(guān)系從而得出所述依存關(guān)系路徑。
5.根據(jù)權(quán)利要求1或4所述的方法,其特征在于,根據(jù)所述依存關(guān)系路徑提取所述句子中各個(gè)所述屬性詞分別對(duì)應(yīng)的觀點(diǎn)詞的步驟包括: 從所述依存關(guān)系路徑中選擇出現(xiàn)頻率較聞的依存關(guān)系路徑; 根據(jù)選擇出的依存關(guān)系路徑得出依存關(guān)系規(guī)則; 根據(jù)所述依存關(guān)系規(guī)則提取所述句子中各個(gè)屬性詞對(duì)應(yīng)的觀點(diǎn)詞。
6.根據(jù)權(quán)利要求1至4中任一項(xiàng)所述的方法,其特征在于,用所述屬性詞和所述觀點(diǎn)詞組成搜索引擎標(biāo)簽的步驟之后,還包括:根據(jù)同義詞表,將包含同義的觀點(diǎn)詞的多個(gè)標(biāo)簽合并成一個(gè)標(biāo)簽。
7.一種提供搜索引擎標(biāo)簽的裝置,其特征在于,包括: 屬性詞提取模塊,用于提取句子中的一個(gè)或多個(gè)屬性詞; 依存關(guān)系分析模塊,用于對(duì)所述句子進(jìn)行依存關(guān)系分析,得出針對(duì)各個(gè)屬性詞的從含有該屬性詞到含有觀點(diǎn)詞的依存關(guān)系路徑; 觀點(diǎn)詞提取模塊,用于根據(jù)所述依存關(guān)系路徑提取所述句子中各個(gè)所述屬性詞分別對(duì)應(yīng)的觀點(diǎn)詞; 搜索引擎標(biāo)簽?zāi)K,用于用所述屬性詞和所述觀點(diǎn)詞組成搜索引擎標(biāo)簽。
8.根據(jù)權(quán)利要求7所述的裝置,其特征在于,還包括預(yù)處理模塊,用于按預(yù)設(shè)的規(guī)則對(duì)文本數(shù)據(jù)進(jìn)行過濾,然后從所述文本數(shù)據(jù)中獲取句子。
9.根據(jù)權(quán)利要求8所述的裝置,其特征在于,所述預(yù)處理模塊還用于對(duì)文本數(shù)據(jù)按標(biāo)點(diǎn)符號(hào)進(jìn)行子句劃分得到短子句,然后獲取所述短子句作為所述句子。
10.根據(jù)權(quán)利要求7所述的裝置,其特征在于,所述依存關(guān)系分析模塊還用于:對(duì)所述句子進(jìn)行依存關(guān)系分析得出該句子的一系列依存關(guān)系; 根據(jù)所述屬性詞和所述一系列依存關(guān)系得出針對(duì)各個(gè)屬性詞的從含有該屬性詞經(jīng)由所述一系列依存關(guān)系到含有觀點(diǎn)詞的依存關(guān)系; 遍歷所述含有觀點(diǎn)詞的依存關(guān)系從而得出所述依存關(guān)系路徑。
11.根據(jù)權(quán)利要求7或10所述的裝置,其特征在于,所述觀點(diǎn)詞提取模塊還用于: 從所述依存關(guān)系路徑中選擇出現(xiàn)頻率較聞的依存關(guān)系路徑; 根據(jù)選擇出的依存關(guān)系路徑得出依存關(guān)系規(guī)則; 根據(jù)所述依存關(guān)系規(guī)則提取所述句子中各個(gè)屬性詞對(duì)應(yīng)的觀點(diǎn)詞。
12.根據(jù)權(quán)利要求7至10中任一項(xiàng)所述的裝置,還包括歸一化模塊,用于根據(jù)同義詞表,將包含同義的觀點(diǎn)詞的 多個(gè)標(biāo)簽合并成一個(gè)標(biāo)簽。
全文摘要
本發(fā)明提供一種提供搜索引擎標(biāo)簽的方法和裝置,能夠在更廣的范圍內(nèi)提供搜索引擎標(biāo)簽并且有較高的處理速度。該方法包括提取句子中的一個(gè)或多個(gè)屬性詞;對(duì)所述句子進(jìn)行依存關(guān)系分析,得出針對(duì)各個(gè)屬性詞的從含有該屬性詞到含有觀點(diǎn)詞的依存關(guān)系路徑;根據(jù)所述依存關(guān)系路徑提取所述句子中各個(gè)所述屬性詞分別對(duì)應(yīng)的觀點(diǎn)詞;用所述屬性詞和所述觀點(diǎn)詞組成搜索引擎標(biāo)簽。
文檔編號(hào)G06F17/30GK103150331SQ20131002731
公開日2013年6月12日 申請(qǐng)日期2013年1月24日 優(yōu)先權(quán)日2013年1月24日
發(fā)明者沈瑋, 劉尚堃 申請(qǐng)人:北京京東世紀(jì)貿(mào)易有限公司