本發(fā)明涉及互聯(lián)網(wǎng)
技術(shù)領(lǐng)域:
,尤其涉及一種標(biāo)題處理方法和裝置。
背景技術(shù):
:目前,對(duì)互聯(lián)網(wǎng)視頻標(biāo)題中的美化,通常的做法有兩種:1.采用人工編輯的方式,逐一手工修改已有的內(nèi)容標(biāo)題。2.采用用戶(hù)協(xié)同編輯的社會(huì)化模式,人人可以修改其標(biāo)題。但是,這些標(biāo)題美化方法存在美化時(shí)機(jī)滯后、美化方式趨同、美化效率較低、無(wú)法保證基本美化質(zhì)量等問(wèn)題:技術(shù)實(shí)現(xiàn)要素:技術(shù)問(wèn)題有鑒于此,本發(fā)明要解決的技術(shù)問(wèn)題是,如何提高對(duì)標(biāo)題進(jìn)行美化的效率,提高美化質(zhì)量。解決方案為了解決上述技術(shù)問(wèn)題,根據(jù)本發(fā)明的一實(shí)施例,提供了一種標(biāo)題處理方法,包括:對(duì)原始標(biāo)題進(jìn)行營(yíng)銷(xiāo)內(nèi)容清除處理、用語(yǔ)規(guī)范化處理、冗余內(nèi)容處理和智能糾錯(cuò)處理中的至少一項(xiàng)操作;采用處理后的標(biāo)題替換所述原始標(biāo)題。對(duì)于上述方法,在一種可能的實(shí)現(xiàn)方式中,所述營(yíng)銷(xiāo)內(nèi)容清除處理包括:從待處理標(biāo)題中提取候選內(nèi)容;提取所述候選內(nèi)容的關(guān)聯(lián)特征;根據(jù)所述候選內(nèi)容的關(guān)聯(lián)特征,計(jì)算所述候選內(nèi)容的營(yíng)銷(xiāo)評(píng)分;根據(jù)所述營(yíng)銷(xiāo)評(píng)分和判定閾值,確定所述候選內(nèi)容是否是所述營(yíng)銷(xiāo)內(nèi)容;在所述候選內(nèi)容是所述營(yíng)銷(xiāo)內(nèi)容的情況下,從所述待處理標(biāo)題中刪除所述營(yíng)銷(xiāo)內(nèi)容。對(duì)于上述方法,在一種可能的實(shí)現(xiàn)方式中,所述用語(yǔ)規(guī)范化處理包括以下至少一種處理方式:清除待處理標(biāo)題結(jié)尾處不規(guī)范或無(wú)意義的標(biāo)點(diǎn)符號(hào);清除所述待處理標(biāo)題結(jié)尾處無(wú)意義的數(shù)字;對(duì)所述待處理標(biāo)題中的非常規(guī)網(wǎng)絡(luò)用語(yǔ)進(jìn)行替換;對(duì)所述待處理標(biāo)題結(jié)尾處的資源屬性進(jìn)行識(shí)別替換。對(duì)于上述方法,在一種可能的實(shí)現(xiàn)方式中,所述冗余內(nèi)容處理包括:清除待處理標(biāo)題中具有冗余標(biāo)志的內(nèi)容。對(duì)于上述方法,在一種可能的實(shí)現(xiàn)方式中,所述智能糾錯(cuò)處理包括:對(duì)待處理標(biāo)題進(jìn)行分詞處理,得到各待糾錯(cuò)分詞;對(duì)所述待糾錯(cuò)分詞進(jìn)行音字轉(zhuǎn)換,以獲取所述待糾錯(cuò)分詞對(duì)應(yīng)的待糾錯(cuò)字符串;根據(jù)所述待糾錯(cuò)字符串查找各候選字符串;計(jì)算所述待糾錯(cuò)字符串與各所述候選字符串之間的編輯距離;根據(jù)所述編輯距離確定所述待糾錯(cuò)字符串與各所述候選字符串之間的相似度;根據(jù)各所述相似度,從各所述候選字符串中篩選出所述待糾錯(cuò)字符串的糾錯(cuò)結(jié)果。為了解決上述技術(shù)問(wèn)題,根據(jù)本發(fā)明的另一實(shí)施例,提供了一種標(biāo)題處理裝置,包括:處理模塊,用于對(duì)原始標(biāo)題進(jìn)行營(yíng)銷(xiāo)內(nèi)容清除處理、用語(yǔ)規(guī)范化處理、冗余內(nèi)容處理和智能糾錯(cuò)處理中的至少一項(xiàng)操作;替換模塊,用于采用處理后的標(biāo)題替換所述原始標(biāo)題。對(duì)于上述裝置,在一種可能的實(shí)現(xiàn)方式中,所述處理模塊包括營(yíng)銷(xiāo)內(nèi)容清除處理模塊,所述營(yíng)銷(xiāo)內(nèi)容清除處理模塊包括:內(nèi)容提取子模塊,用于從待處理標(biāo)題中提取候選內(nèi)容;特征提取子模塊,用于提取所述候選內(nèi)容的關(guān)聯(lián)特征;第一評(píng)分子模塊,用于根據(jù)所述候選內(nèi)容的關(guān)聯(lián)特征,計(jì)算所述候選內(nèi)容的營(yíng)銷(xiāo)評(píng)分;內(nèi)容確定子模塊,用于根據(jù)所述營(yíng)銷(xiāo)評(píng)分和判定閾值,確定所述候選內(nèi)容是否是所述營(yíng)銷(xiāo)內(nèi)容;內(nèi)容刪除子模塊,用于在所述候選內(nèi)容是所述營(yíng)銷(xiāo)內(nèi)容的情況下,從所述待處理標(biāo)題中刪除所述營(yíng)銷(xiāo)內(nèi)容。對(duì)于上述裝置,在一種可能的實(shí)現(xiàn)方式中,所述處理模塊還包括用語(yǔ)規(guī)范化處理模塊,所述用語(yǔ)規(guī)范化處理模塊包括以下至少一個(gè)子模塊:第一清除子模塊,用于清除待處理標(biāo)題結(jié)尾處不規(guī)范或無(wú)意義的標(biāo)點(diǎn)符號(hào);第二清除子模塊,用于清除所述待處理標(biāo)題結(jié)尾處無(wú)意義的數(shù)字;第一替換子模塊,用于對(duì)所述待處理標(biāo)題中的非常規(guī)網(wǎng)絡(luò)用語(yǔ)進(jìn)行替換;第二替換子模塊,用于對(duì)所述待處理標(biāo)題結(jié)尾處的資源屬性進(jìn)行識(shí)別替換。對(duì)于上述裝置,在一種可能的實(shí)現(xiàn)方式中,所述處理模塊還包括冗余內(nèi)容處理模塊,用于清除待處理標(biāo)題中具有冗余標(biāo)志的內(nèi)容。對(duì)于上述裝置,在一種可能的實(shí)現(xiàn)方式中,所述處理模塊還包括智能糾錯(cuò)處理模塊,所述智能糾錯(cuò)處理模塊包括:分詞子模塊,用于對(duì)待處理標(biāo)題進(jìn)行分詞處理,得到各待糾錯(cuò)分詞;音字轉(zhuǎn)換子模塊,用于對(duì)所述待糾錯(cuò)分詞進(jìn)行音字轉(zhuǎn)換,以獲取所述待糾錯(cuò)分詞對(duì)應(yīng)的待糾錯(cuò)字符串;查找子模塊,用于根據(jù)所述待糾錯(cuò)字符串查找各候選字符串;編輯距離計(jì)算子模塊,用于計(jì)算所述待糾錯(cuò)字符串與各所述候選字符串之間的編輯距離;相似度確定子模塊,用于根據(jù)所述編輯距離確定所述待糾錯(cuò)字符串與各所述候選字符串之間的相似度;篩選子模塊,用于根據(jù)各所述相似度,從各所述候選字符串中篩選出所述待糾錯(cuò)字符串的糾錯(cuò)結(jié)果。有益效果本發(fā)明實(shí)施例能夠?qū)Υ罅繕?biāo)題自動(dòng)進(jìn)行美化,時(shí)間延遲短,效率高,有利于提高美化質(zhì)量。此外,有利于得到多樣化的美化結(jié)果,不受限于人工的知識(shí)。進(jìn)一步地,還有利于使得標(biāo)題的發(fā)布規(guī)范化,提高用戶(hù)觀看各種多媒體資源的數(shù)量。根據(jù)下面參考附圖對(duì)示例性實(shí)施例的詳細(xì)說(shuō)明,本發(fā)明的其它特征及方面將變得清除。附圖說(shuō)明包含在說(shuō)明書(shū)中并且構(gòu)成說(shuō)明書(shū)的一部分的附圖與說(shuō)明書(shū)一起示出了本發(fā)明的示例性實(shí)施例、特征和方面,并且用于解釋本發(fā)明的原理。圖1示出根據(jù)本發(fā)明一實(shí)施例的標(biāo)題處理方法的流程圖;圖2a和圖2b示出根據(jù)本發(fā)明一實(shí)施例的標(biāo)題處理方法中營(yíng)銷(xiāo)內(nèi)容清除處理的流程圖;圖3示出根據(jù)本發(fā)明一實(shí)施例的標(biāo)題處理方法中用語(yǔ)規(guī)范化處理的流程圖;圖4示出根據(jù)本發(fā)明一實(shí)施例的標(biāo)題處理方法中智能糾錯(cuò)處理的流程圖;圖5示出根據(jù)本發(fā)明一實(shí)施例的標(biāo)題處理裝置的結(jié)構(gòu)框圖;圖6示出根據(jù)本發(fā)明另一實(shí)施例的標(biāo)題處理裝置的結(jié)構(gòu)框圖;圖7示出根據(jù)本發(fā)明另一實(shí)施例的標(biāo)題處理裝置的結(jié)構(gòu)框圖;圖8示出根據(jù)本發(fā)明另一實(shí)施例的標(biāo)題處理裝置中智能糾錯(cuò)處理模塊執(zhí)行智能糾錯(cuò)處理的流程圖;圖9示出根據(jù)本發(fā)明另一實(shí)施例的標(biāo)題處理裝置中雙數(shù)組數(shù)據(jù)結(jié)構(gòu)的示例圖;圖10示出根據(jù)本發(fā)明另一實(shí)施例的標(biāo)題處理裝置的結(jié)構(gòu)框圖。具體實(shí)施方式以下將參考附圖詳細(xì)說(shuō)明本發(fā)明的各種示例性實(shí)施例、特征和方面。附圖中相同的附圖標(biāo)記表示功能相同或相似的元件。盡管在附圖中示出了實(shí)施例的各種方面,但是除非特別指出,不必按比例繪制附圖。在這里專(zhuān)用的詞“示例性”意為“用作例子、實(shí)施例或說(shuō)明性”。這里作為“示例性”所說(shuō)明的任何實(shí)施例不必解釋為優(yōu)于或好于其它實(shí)施例。另外,為了更好的說(shuō)明本發(fā)明,在下文的具體實(shí)施方式中給出了眾多的具體細(xì)節(jié)。本領(lǐng)域技術(shù)人員應(yīng)當(dāng)理解,沒(méi)有某些具體細(xì)節(jié),本發(fā)明同樣可以實(shí)施。在一些實(shí)例中,對(duì)于本領(lǐng)域技術(shù)人員熟知的方法、手段、元件和電路未作詳細(xì)描述,以便于凸顯本發(fā)明的主旨。實(shí)施例1圖1示出根據(jù)本發(fā)明一實(shí)施例的標(biāo)題處理方法的流程圖。如圖1所示,該標(biāo)題處理方法可以包括:步驟101、服務(wù)器對(duì)原始標(biāo)題進(jìn)行營(yíng)銷(xiāo)內(nèi)容清除處理、用語(yǔ)規(guī)范化處理、冗余內(nèi)容處理和智能糾錯(cuò)處理中的至少一項(xiàng)操作;步驟102、服務(wù)器采用處理后的標(biāo)題替換所述原始標(biāo)題。在本發(fā)明實(shí)施例中,服務(wù)器可以自動(dòng)對(duì)資源例如視頻、音頻等的原始標(biāo)題進(jìn)行營(yíng)銷(xiāo)內(nèi)容清除處理、用語(yǔ)規(guī)范化處理、冗余內(nèi)容處理和智能糾錯(cuò)處理等美化處理。其中,營(yíng)銷(xiāo)內(nèi)容清除處理、用語(yǔ)規(guī)范化處理、冗余內(nèi)容處理和智能糾錯(cuò)處理的操作可以采用并行方式執(zhí)行,也可以采用串行方式執(zhí)行。在采用并行方式時(shí),可以對(duì)于每種處理的結(jié)果進(jìn)行綜合,采用綜合處理后輸出的標(biāo)題替換原始標(biāo)題。在采用串行方式時(shí),可以預(yù)先設(shè)置這幾種操作的執(zhí)行順序,并按照所設(shè)定的執(zhí)行順序,進(jìn)行處理。例如,設(shè)定的串行執(zhí)行順序?yàn)椋籂I(yíng)銷(xiāo)內(nèi)容清除處理、用語(yǔ)規(guī)范化處理、冗余內(nèi)容處理和智能糾錯(cuò)處理。這種情況下,服務(wù)器可以先對(duì)原始標(biāo)題進(jìn)行營(yíng)銷(xiāo)內(nèi)容清除處理。再將營(yíng)銷(xiāo)內(nèi)容清除處理所輸出的結(jié)果作為用語(yǔ)規(guī)范化處理的輸入。接著,將用語(yǔ)規(guī)范化處理所輸出的結(jié)果作為冗余內(nèi)容處理的輸入。然后,將冗余內(nèi)容處理所輸出的結(jié)果作為智能糾錯(cuò)處理的輸入。最后,服務(wù)器采用智能糾錯(cuò)處理所輸出的結(jié)果替換原始標(biāo)題。如果設(shè)定的串行執(zhí)行順序?yàn)槠渌捻樞?,其原理與本示例類(lèi)似,在此不再贅述。此外,本實(shí)施例中雖然以執(zhí)行營(yíng)銷(xiāo)內(nèi)容清除處理、用語(yǔ)規(guī)范化處理、冗余內(nèi)容處理和智能糾錯(cuò)處理這四個(gè)操作為例進(jìn)行說(shuō)明,但是,本領(lǐng)域技術(shù)人員應(yīng)能理解,執(zhí)行這四個(gè)操作中的一個(gè)、兩個(gè)或者三個(gè),也能夠達(dá)到美化標(biāo)題的效果。在本實(shí)施例中,將對(duì)于發(fā)布者故意在標(biāo)題中加入的以網(wǎng)絡(luò)營(yíng)銷(xiāo)為目的的內(nèi)容簡(jiǎn)稱(chēng)為營(yíng)銷(xiāo)內(nèi)容,這類(lèi)內(nèi)容與資源例如視頻的內(nèi)容本身關(guān)系不大。對(duì)標(biāo)題進(jìn)行營(yíng)銷(xiāo)內(nèi)容清除處理的過(guò)程具體可以包括在線部分和離線部分。在一種可能的實(shí)現(xiàn)方式中,如圖2a所示,服務(wù)器進(jìn)行營(yíng)銷(xiāo)內(nèi)容清除處理的在線部分可以包括:步驟201a、從待處理標(biāo)題中提取候選內(nèi)容。步驟202a、提取所述候選內(nèi)容的關(guān)聯(lián)特征。步驟203a、根據(jù)所述候選內(nèi)容的關(guān)聯(lián)特征,計(jì)算所述候選內(nèi)容的營(yíng)銷(xiāo)評(píng)分。步驟204a、根據(jù)所述營(yíng)銷(xiāo)評(píng)分和判定閾值,確定所述候選內(nèi)容是否是所述營(yíng)銷(xiāo)內(nèi)容。步驟205a、在所述候選內(nèi)容是所述營(yíng)銷(xiāo)內(nèi)容的情況下,從所述待處理標(biāo)題中刪除所述營(yíng)銷(xiāo)內(nèi)容。其中,在本實(shí)施例中,待處理標(biāo)題既可以是原始標(biāo)題,也可以是經(jīng)過(guò)其他美化處理操作之后的中間狀態(tài)的標(biāo)題。此外,在一種可能的實(shí)現(xiàn)方式中,從待處理標(biāo)題中提取的候選內(nèi)容包括但不限于以下至少一種:具有社交賬號(hào)的文本片段、具有通話(huà)賬號(hào)的文本片段、具有價(jià)格的文本片段、具有網(wǎng)址的文本片段、具有營(yíng)銷(xiāo)詞匯的文本片段。其中,社交賬號(hào)可以包括但不限于QQ號(hào)、微信號(hào)、微博號(hào)、Facebook號(hào)、Twitter號(hào)等。通話(huà)賬號(hào)包括但不限于手機(jī)號(hào)、固定電話(huà)號(hào)等。營(yíng)銷(xiāo)詞匯可以包括營(yíng)銷(xiāo)詞典中的各種關(guān)鍵詞,營(yíng)銷(xiāo)詞典中包括的關(guān)鍵詞可以不斷更新。在一種可能的實(shí)現(xiàn)方式中,所述候選內(nèi)容的關(guān)聯(lián)特征包括但不限于以下至少一種:所述候選內(nèi)容的長(zhǎng)度、所述候選內(nèi)容是否出現(xiàn)營(yíng)銷(xiāo)詞匯、所述候選內(nèi)容是否出現(xiàn)數(shù)字、所述候選內(nèi)容是否出現(xiàn)通話(huà)賬號(hào)、所述候選內(nèi)容是否出現(xiàn)網(wǎng)址、所述候選內(nèi)容是否出現(xiàn)社交賬號(hào)和所述待處理標(biāo)題的資源發(fā)布者的用戶(hù)是否優(yōu)質(zhì)用戶(hù)。在一種可能的實(shí)現(xiàn)方式中,根據(jù)所述候選內(nèi)容的關(guān)聯(lián)特征,計(jì)算所述候選內(nèi)容的營(yíng)銷(xiāo)評(píng)分(步驟203)包括:根據(jù)所述候選內(nèi)容的關(guān)聯(lián)特征對(duì)應(yīng)的特征向量和權(quán)重向量,計(jì)算所述候選內(nèi)容的營(yíng)銷(xiāo)評(píng)分。示例性地,根據(jù)所述候選內(nèi)容的關(guān)聯(lián)特征對(duì)應(yīng)的特征向量和權(quán)重向量,計(jì)算所述候選內(nèi)容的營(yíng)銷(xiāo)評(píng)分,可以包括:采用式1的S型函數(shù),計(jì)算所述候選內(nèi)容的營(yíng)銷(xiāo)評(píng)分,在式1中,y表示所述候選內(nèi)容的營(yíng)銷(xiāo)評(píng)分,x表示所述候選內(nèi)容的特征向量,w表示與x具有相同維度的權(quán)重向量;其中,采用下式2所示的向量?jī)?nèi)積來(lái)計(jì)算wx的值,在式2中,wi為所述候選內(nèi)容的特征向量中的第i個(gè)特征的特征值,xi為所述第i個(gè)特征對(duì)應(yīng)的權(quán)重值,i的取值范圍為從0到n的整數(shù),n為x和w的維度。在一種可能的實(shí)現(xiàn)方式中,根據(jù)所述營(yíng)銷(xiāo)評(píng)分和判定閾值,確定所述候選內(nèi)容是否是所述營(yíng)銷(xiāo)內(nèi)容(步驟204)包括:將所述營(yíng)銷(xiāo)評(píng)分大于判定閾值的所述候選內(nèi)容確定為所述營(yíng)銷(xiāo)內(nèi)容。其中,上述的權(quán)重向量和判定閾值可以通過(guò)離線的樣本訓(xùn)練學(xué)習(xí)過(guò)程來(lái)得到。在一種可能的實(shí)現(xiàn)方式中,如圖2b所示,服務(wù)器進(jìn)行營(yíng)銷(xiāo)內(nèi)容清除處理的離線部分可以包括確定權(quán)重向量的過(guò)程,具體可以包括:步驟201b、獲取各訓(xùn)練樣本,所述訓(xùn)練樣本包括待訓(xùn)練標(biāo)題以及所述待訓(xùn)練標(biāo)題的營(yíng)銷(xiāo)內(nèi)容;步驟202b、根據(jù)所述訓(xùn)練樣本生成正樣本的特征向量和標(biāo)注結(jié)果,所述正樣本的特征向量為所述待訓(xùn)練標(biāo)題的營(yíng)銷(xiāo)內(nèi)容對(duì)應(yīng)的第一特征向量;步驟203b、根據(jù)所述訓(xùn)練樣本生成負(fù)樣本的特征向量和標(biāo)注結(jié)果,所述負(fù)樣本的特征向量為所述待訓(xùn)練標(biāo)題的非營(yíng)銷(xiāo)內(nèi)容對(duì)應(yīng)的第二特征向量;步驟204b、從各所述第一特征向量和各所述第二特征向量中選取預(yù)定數(shù)量的特征向量,代入邏輯回模型或支持向量機(jī)模型進(jìn)行訓(xùn)練,得到權(quán)重向量。在一種可能的實(shí)現(xiàn)方式中,如圖2b所示,該標(biāo)題處理方法的離線部分還包括確定判定閾值的過(guò)程,具體可以包括:步驟205b、根據(jù)訓(xùn)練得到的權(quán)重向量,對(duì)各所述第一特征向量和各所述第二特征向量中未參與訓(xùn)練的特征向量進(jìn)行評(píng)分;步驟206b、選擇不同的閾值統(tǒng)計(jì)未參與訓(xùn)練的特征向量對(duì)應(yīng)的正樣本,以判斷準(zhǔn)確率;步驟207b、將準(zhǔn)確率最高的閾值確定為判定閾值。在一種可能的實(shí)現(xiàn)方式中,如圖3所示,服務(wù)器進(jìn)行用語(yǔ)規(guī)范化處理的具體過(guò)程可以包括以下至少一種處理方式:步驟301、清除待處理標(biāo)題結(jié)尾處不規(guī)范或無(wú)意義的標(biāo)點(diǎn)符號(hào);步驟302、清除所述待處理標(biāo)題結(jié)尾處無(wú)意義的數(shù)字;步驟303、對(duì)所述待處理標(biāo)題中的非常規(guī)網(wǎng)絡(luò)用語(yǔ)進(jìn)行替換;步驟304、對(duì)所述待處理標(biāo)題結(jié)尾處的資源屬性進(jìn)行識(shí)別替換。在本實(shí)施例中,步驟301、步驟302、步驟303和步驟304之間的時(shí)序關(guān)系,可以按照如圖3中的執(zhí)行順序,也可以調(diào)整這幾個(gè)步驟之間的執(zhí)行順序,甚至可以多個(gè)步驟并行執(zhí)行。在一種可能的實(shí)現(xiàn)方式中,服務(wù)器進(jìn)行冗余內(nèi)容處理的具體過(guò)程可以包括:清除待處理標(biāo)題中具有冗余標(biāo)志的內(nèi)容。在一種可能的實(shí)現(xiàn)方式中,如圖4所示,服務(wù)器進(jìn)行智能糾錯(cuò)處理的具體過(guò)程可以包括:步驟401、對(duì)待處理標(biāo)題進(jìn)行分詞處理,得到各待糾錯(cuò)分詞;步驟402、對(duì)所述待糾錯(cuò)分詞進(jìn)行音字轉(zhuǎn)換,以獲取所述待糾錯(cuò)分詞對(duì)應(yīng)的待糾錯(cuò)字符串;步驟403、根據(jù)所述待糾錯(cuò)字符串查找各候選字符串;步驟404、計(jì)算所述待糾錯(cuò)字符串與各所述候選字符串之間的編輯距離;步驟405、根據(jù)所述編輯距離確定所述待糾錯(cuò)字符串與各所述候選字符串之間的相似度;步驟406、根據(jù)各所述相似度,從各所述候選字符串中篩選出所述待糾錯(cuò)字符串的糾錯(cuò)結(jié)果。本實(shí)施例的能夠標(biāo)題處理方法,對(duì)大量標(biāo)題自動(dòng)進(jìn)行美化,時(shí)間延遲短,美化效率高,保證美化質(zhì)量。此外,有利于得到多樣化的美化結(jié)果,不受限于人工的知識(shí)。進(jìn)一步地,還有利于使得標(biāo)題的發(fā)布規(guī)范化,提高用戶(hù)觀看各種多媒體資源的數(shù)量。實(shí)施例2圖5示出根據(jù)本發(fā)明一實(shí)施例的標(biāo)題處理裝置的結(jié)構(gòu)框圖。如圖5所示,該標(biāo)題處理裝置可以包括:處理模塊51,用于對(duì)原始標(biāo)題進(jìn)行營(yíng)銷(xiāo)內(nèi)容清除處理、用語(yǔ)規(guī)范化處理、冗余內(nèi)容處理和智能糾錯(cuò)處理中的至少一項(xiàng)操作;替換模塊52,用于采用處理后的標(biāo)題替換所述原始標(biāo)題。其中,營(yíng)銷(xiāo)內(nèi)容清除處理、用語(yǔ)規(guī)范化處理、冗余內(nèi)容處理和智能糾錯(cuò)處理的操作可以采用并行方式執(zhí)行,也可以采用串行方式執(zhí)行。在采用并行方式時(shí),可以對(duì)于每種處理的結(jié)果進(jìn)行綜合,采用綜合處理后輸出的標(biāo)題替換原始標(biāo)題。在采用串行方式時(shí),可以預(yù)先設(shè)置這幾種操作的執(zhí)行順序,并按照所設(shè)定的執(zhí)行順序,進(jìn)行處理。具體示例可以參見(jiàn)實(shí)施例1的相關(guān)描述。實(shí)施例3圖6示出根據(jù)本發(fā)明另一實(shí)施例的標(biāo)題處理裝置的結(jié)構(gòu)框圖。圖6中標(biāo)號(hào)與圖5相同的組件具有相同的功能,為簡(jiǎn)明起見(jiàn),省略對(duì)這些組件的詳細(xì)說(shuō)明。如圖6所示,與上一實(shí)施例的主要區(qū)別在于,所述處理模塊51包括營(yíng)銷(xiāo)內(nèi)容清除處理模塊61,所述營(yíng)銷(xiāo)內(nèi)容清除處理模塊包括:內(nèi)容提取子模塊611,用于從待處理標(biāo)題中提取候選內(nèi)容;特征提取子模塊612,用于提取所述候選內(nèi)容的關(guān)聯(lián)特征;第一評(píng)分子模塊613,用于根據(jù)所述候選內(nèi)容的關(guān)聯(lián)特征,計(jì)算所述候選內(nèi)容的營(yíng)銷(xiāo)評(píng)分;內(nèi)容確定子模塊614,用于根據(jù)所述營(yíng)銷(xiāo)評(píng)分和判定閾值,確定所述候選內(nèi)容是否是所述營(yíng)銷(xiāo)內(nèi)容;內(nèi)容刪除子模塊615,用于在所述候選內(nèi)容是所述營(yíng)銷(xiāo)內(nèi)容的情況下,從所述待處理標(biāo)題中刪除所述營(yíng)銷(xiāo)內(nèi)容。在一種可能的實(shí)現(xiàn)方式中,所述處理模塊51還包括用語(yǔ)規(guī)范化處理模塊62,所述用語(yǔ)規(guī)范化處理模塊包括以下至少一個(gè)子模塊:第一清除子模塊621,用于清除待處理標(biāo)題結(jié)尾處不規(guī)范或無(wú)意義的標(biāo)點(diǎn)符號(hào);第二清除子模塊622,用于清除所述待處理標(biāo)題結(jié)尾處無(wú)意義的數(shù)字;第一替換子模塊623,用于對(duì)所述待處理標(biāo)題中的非常規(guī)網(wǎng)絡(luò)用語(yǔ)進(jìn)行替換;第二替換子模塊624,用于對(duì)所述待處理標(biāo)題結(jié)尾處的資源屬性進(jìn)行識(shí)別替換。在一種可能的實(shí)現(xiàn)方式中,所述處理模塊51還包括冗余內(nèi)容處理模塊63,用于清除待處理標(biāo)題中具有冗余標(biāo)志的內(nèi)容。在一種可能的實(shí)現(xiàn)方式中,所述處理模塊51還包括智能糾錯(cuò)處理模塊64,所述智能糾錯(cuò)處理模塊64包括:分詞子模塊641,用于對(duì)待處理標(biāo)題進(jìn)行分詞處理,得到各待糾錯(cuò)分詞;音字轉(zhuǎn)換子模塊642,用于對(duì)所述待糾錯(cuò)分詞進(jìn)行音字轉(zhuǎn)換,以獲取所述待糾錯(cuò)分詞對(duì)應(yīng)的待糾錯(cuò)字符串;查找子模塊643,用于根據(jù)所述待糾錯(cuò)字符串查找各候選字符串;編輯距離計(jì)算子模塊644,用于計(jì)算所述待糾錯(cuò)字符串與各所述候選字符串之間的編輯距離;相似度確定子模塊645,用于根據(jù)所述編輯距離確定所述待糾錯(cuò)字符串與各所述候選字符串之間的相似度;篩選子模塊646,用于根據(jù)各所述相似度,從各所述候選字符串中篩選出所述待糾錯(cuò)字符串的糾錯(cuò)結(jié)果。關(guān)于上述實(shí)施例中的裝置,其中各個(gè)模塊執(zhí)行操作的具體方式已經(jīng)在有關(guān)該方法的實(shí)施例中進(jìn)行了詳細(xì)描述,此處將不做詳細(xì)闡述說(shuō)明。本發(fā)明實(shí)施例中的標(biāo)題處理裝置可以設(shè)置在服務(wù)器中。實(shí)施例4本實(shí)施例的標(biāo)題處理方法,可以結(jié)合人工智能和人工編輯兩種優(yōu)勢(shì),對(duì)任意資源例如視頻的標(biāo)題進(jìn)行全自動(dòng)的實(shí)時(shí)美化。如圖7所示,該標(biāo)題處理方法對(duì)應(yīng)的標(biāo)題處理裝置可以劃分為:營(yíng)銷(xiāo)內(nèi)容處理模塊71、用語(yǔ)規(guī)范化處理模塊72、冗余內(nèi)容處理模塊73和智能糾錯(cuò)處理模塊74。在一種示例中,這些模塊在邏輯上可以是串行處理,但是還可以各自獨(dú)立,每一個(gè)模塊出錯(cuò)或者處理失敗,并不影響后一個(gè)模塊的處理邏輯。一個(gè)原始標(biāo)題經(jīng)過(guò)四個(gè)模塊逐一處理后,輸出的標(biāo)題即是美化后的標(biāo)題,可用于替換原始標(biāo)題。下面分別描述各個(gè)模塊的原理。一、營(yíng)銷(xiāo)內(nèi)容處理模塊發(fā)布者故意在標(biāo)題中加入以網(wǎng)絡(luò)營(yíng)銷(xiāo)為目的的內(nèi)容,這類(lèi)內(nèi)容與視頻內(nèi)容本身關(guān)系并不大,營(yíng)銷(xiāo)內(nèi)容處理模塊的主要工作是識(shí)別出這類(lèi)內(nèi)容并從標(biāo)題中清除。營(yíng)銷(xiāo)內(nèi)容處理模塊可以對(duì)標(biāo)題中涉嫌營(yíng)銷(xiāo)的語(yǔ)言片斷進(jìn)行定向清除。營(yíng)銷(xiāo)內(nèi)容片斷定向清除規(guī)則包括但不限于下表1中的任意一項(xiàng)或者多項(xiàng):表1規(guī)則1:出現(xiàn)QQ號(hào)碼或微信號(hào)等社交賬號(hào)的文本片段規(guī)則2:出現(xiàn)手機(jī)號(hào)等通話(huà)賬號(hào)的文本片段規(guī)則3:出現(xiàn)價(jià)格的文本片段規(guī)則4:出現(xiàn)網(wǎng)址的文本片段規(guī)則5:出現(xiàn)營(yíng)銷(xiāo)詞典中關(guān)鍵詞等營(yíng)銷(xiāo)詞匯的文本片段其中,標(biāo)題中各內(nèi)容片段邊界的定義方法有多種。例如:按照常用標(biāo)點(diǎn)符號(hào)(句號(hào)、省略號(hào)、感嘆號(hào)、空格、制表符、結(jié)尾等)或者虛詞(介詞、連詞、助詞等)等為邊界截取。二、用語(yǔ)規(guī)范化處理模塊用語(yǔ)規(guī)范化處理模塊主要工作是對(duì)原始標(biāo)題中不規(guī)范的部分進(jìn)行清除和糾正。不規(guī)范的標(biāo)準(zhǔn)可以預(yù)先定義為包括但不限于如下特點(diǎn)中的任意一項(xiàng)或者多項(xiàng):1)標(biāo)題結(jié)尾處有不規(guī)范或無(wú)意義的標(biāo)點(diǎn)符號(hào);2)標(biāo)題結(jié)尾處有無(wú)意義的數(shù)字;3)標(biāo)題中的“火星文”等非常規(guī)網(wǎng)絡(luò)用語(yǔ)替換;4)標(biāo)題結(jié)尾處的視頻屬性描述文字。對(duì)于不規(guī)范的部分的處理示例如下:1)標(biāo)題末尾可以去掉的標(biāo)點(diǎn)符號(hào),示例性的列舉如下表2所示:表2標(biāo)點(diǎn)說(shuō)明~英文波浪號(hào)~全角波浪號(hào)。。。超過(guò)一個(gè)句號(hào)連續(xù)#@¥%&*所有非規(guī)范的句末符號(hào)2)無(wú)意義的數(shù)字。例如,可以將標(biāo)題結(jié)尾處的數(shù)字一律去掉。3)標(biāo)題中的非常規(guī)網(wǎng)絡(luò)用語(yǔ)例如“火星文”的替換?!盎鹦俏摹迸袛喾椒梢园ǎ哼B續(xù)三個(gè)字符出現(xiàn)在“火星文字列表”中,則認(rèn)為這是一個(gè)“火星文”書(shū)寫(xiě)的標(biāo)題,可以進(jìn)行規(guī)范化替換。例如:原始標(biāo)題為“哭嘚侢醜侢莈形潒乜莈亊,岢媞哭綄?zhuān)H嘚崾嶶笶?!碧鎿Q后為“哭得再丑再?zèng)]形象也沒(méi)事,可是哭完,記得要微笑?!?)標(biāo)題結(jié)尾處的視頻屬性描述文字。對(duì)標(biāo)題中出現(xiàn)視頻屬性本身的描述文字,進(jìn)行識(shí)別替換。其中,視頻屬性文字的示例如下表3所示:表3三、冗余內(nèi)容處理模塊冗余內(nèi)容就是去掉之后不影響整個(gè)標(biāo)題的理解的那部分內(nèi)容。具體可以根據(jù)設(shè)定格式識(shí)別冗余內(nèi)容。冗余內(nèi)容識(shí)別的規(guī)則示例性列舉如下表4所示:表4四、智能糾錯(cuò)處理模塊智能糾錯(cuò)處理模塊,是糾正原本規(guī)范的文字中因?yàn)檩斎敕ǖ脑驅(qū)е碌腻e(cuò)別字。糾錯(cuò)流程可以包括:分詞,音字轉(zhuǎn)換,提取糾錯(cuò)候選,計(jì)算候選的編輯距離,選擇最相似的結(jié)果作為糾錯(cuò)結(jié)果。在智能糾錯(cuò)步驟中,需要離線準(zhǔn)備一個(gè)音字轉(zhuǎn)換表(下稱(chēng)資源a),一個(gè)正確拼寫(xiě)詞典(下稱(chēng)資源b)。例如,資源a為漢字的字形及其讀音的映射表,允許多音。資源b來(lái)自搜索日志的收集并經(jīng)人工整理,都是正確的書(shū)寫(xiě)方式。其中,資源a的實(shí)例如下表5:表5字音邏luo羅luo輯ji資源b的實(shí)例如下表6:表6羅輯思維如圖8所示,智能糾錯(cuò)處理模塊執(zhí)行智能糾錯(cuò)處理可以包括以下步驟:步驟801、分詞。例如,采用通用分詞器對(duì)標(biāo)題進(jìn)行分詞。分詞的一個(gè)示例如下:原始標(biāo)題為“邏輯思維最有深度的一期”。分詞結(jié)果為“邏輯思維”、“最”、“有”、“深度”、“的”、“一”、“期”(得到6個(gè)詞)。步驟802、音字轉(zhuǎn)換。從這一步開(kāi)始,每一步都是針對(duì)分詞結(jié)果中的每一個(gè)詞進(jìn)行的。音字轉(zhuǎn)換,輸入每一個(gè)詞,利用資源a,輸出詞的拼音(不帶音調(diào)),并將多個(gè)字的拼音合成一個(gè)字符串。音字轉(zhuǎn)換的一個(gè)示例如下:輸入:邏輯思維輸出:luojisiwei如果原始標(biāo)題是英文字符串,也可以省略音字轉(zhuǎn)換的步驟。此外,在分詞之后,也可以先判斷分詞結(jié)果中的每一個(gè)詞是否正確拼寫(xiě),再對(duì)不正確的詞繼續(xù)進(jìn)行糾錯(cuò)處理。其中,判斷分詞結(jié)果中的每一個(gè)詞是否正確拼寫(xiě)的方式有多種。例如,如果一個(gè)詞的拼音和漢字不匹配,或者一個(gè)詞在常用詞典中查不到,可以先將該詞判定為不正確拼寫(xiě),作為待糾錯(cuò)分詞進(jìn)行后續(xù)處理。步驟803、提取候選。從資源b中獲取所有“正確拼寫(xiě)”的拼音串前兩個(gè)字母和當(dāng)前詞拼音串相同的,作為候選。提取候選的一個(gè)示例如下:待糾錯(cuò)拼音串:luojisiwei(邏輯思維)候選正確串:luojisiwei(羅輯思維)其中,資源b每一個(gè)詞在使用前,可以按照以下步驟讀入到內(nèi)存:1)從文件中讀入一個(gè)詞;2)將所讀到的詞進(jìn)行音字轉(zhuǎn)換,并將轉(zhuǎn)換得到的拼音拼接成拼音串;3)用雙數(shù)組數(shù)據(jù)結(jié)構(gòu)存儲(chǔ)拼音串及其與原始詞的映射關(guān)系。其中,雙數(shù)組數(shù)據(jù)結(jié)構(gòu)可以參見(jiàn)圖9的示例。如圖9所示,通過(guò)雙數(shù)組數(shù)據(jù)結(jié)構(gòu)可以保存“l(fā)uojisiwei(羅輯思維)”、“l(fā)uojikexue(羅輯科學(xué))”等的正確拼音和漢字。相關(guān)的漢字和拼寫(xiě),按照一定的通過(guò)樹(shù)狀結(jié)構(gòu)進(jìn)行存儲(chǔ)。這樣,不僅有利于后續(xù)的快速查找,還可以減少存儲(chǔ)量。此外,在查找候選時(shí),步驟如下:獲取原始拼音串的前兩個(gè)字母,如上例中的lu在雙數(shù)組形式的資源b中獲取前綴為lu的所有拼音串及其對(duì)應(yīng)原始詞作為糾錯(cuò)候選。步驟804、計(jì)算編輯距離。編輯距離可以是:兩個(gè)字串之間,由一個(gè)轉(zhuǎn)成另一個(gè)所需的最少編輯操作次數(shù)。許可的編輯操作包括但不限于:將一個(gè)字符替換成另一個(gè)字符,插入一個(gè)字符,刪除一個(gè)字符。編輯距離也稱(chēng)為L(zhǎng)evenshtein距離。如詞“kitten”和詞“sitting”的編輯距離是3,分別經(jīng)過(guò)以下步驟可以將“kitten”轉(zhuǎn)換成“sitting”:1)sitten(替換:k→s)2)sittin(替換:e→i)3)sitting(插入:→g)其中,定義基于編輯距離的相似度:在式4中,右邊的分子di,j是字符串i和字符串j的編輯距離,分母max(Li,Lj)是字符串i和字符串j的長(zhǎng)度較大那個(gè)。計(jì)算原始拼音串和每一個(gè)候選拼音串的編輯距離相似度。并經(jīng)過(guò)以下規(guī)則進(jìn)行初步篩選:1)如果原始詞的字個(gè)數(shù)小于3,則只保留編輯距離相似度大于0.95的候選。2)如果原始詞的字個(gè)數(shù)大于或者等于3,但小于5,則只保留編輯距離相似度在0.9以上的候選3)其他情況,只保留編輯距離相似度在0.85以上的候選保留下的候選,按照相似度排序,取相似度最大的候選,作為糾錯(cuò)結(jié)果。例如:luojisiwei(邏輯思維)和luojisiwei(羅輯思維)相似度為100%,成為糾錯(cuò)結(jié)果。步驟805、糾錯(cuò)。對(duì)有糾錯(cuò)結(jié)果的詞,按照糾錯(cuò)結(jié)果替換原始標(biāo)題中的對(duì)應(yīng)詞。采用人工美化標(biāo)題,存在以下缺點(diǎn):1.美化時(shí)機(jī)滯后。常常在內(nèi)容被觀看了一定次數(shù)之后,才可能被美化,而不能在內(nèi)容生成的同時(shí)進(jìn)行美化;2.美化方式趨同。由于美化標(biāo)題依賴(lài)少數(shù)編輯的經(jīng)驗(yàn)知識(shí),因此美化后的標(biāo)題風(fēng)格有限,用詞和句式有限;3.美化效率較低。由于人工的精力有限,往往只能對(duì)少數(shù)熱門(mén)視頻內(nèi)容標(biāo)題進(jìn)行美化。4.無(wú)法保證基本美化質(zhì)量。社會(huì)化協(xié)同編輯的方式無(wú)法保證基本質(zhì)量,且容易被用于過(guò)度營(yíng)銷(xiāo)目的。與人工美化標(biāo)題相比,本發(fā)明實(shí)施例能夠?qū)Υ罅繕?biāo)題自動(dòng)進(jìn)行美化,時(shí)間延遲短,美化效率高。具體而言,本發(fā)明實(shí)施例具有以下優(yōu)點(diǎn):1.可以實(shí)時(shí)對(duì)每個(gè)視頻標(biāo)題進(jìn)行美化,時(shí)間延遲可以忽略(ms級(jí)別的延遲)。2.可以同時(shí)大量對(duì)每個(gè)視頻標(biāo)題進(jìn)行美化,人工所能美化數(shù)量的數(shù)十萬(wàn)倍。3.可以得到多樣的美化結(jié)果,而不受限于人工的知識(shí)。4.可以保證基本的美化質(zhì)量。5.可以示范視頻發(fā)布者美化標(biāo)題的基本規(guī)范。6.可以提高用戶(hù)觀看視頻的數(shù)量。實(shí)施例5圖10示出根據(jù)本發(fā)明另一實(shí)施例的標(biāo)題處理裝置的結(jié)構(gòu)框圖。所述標(biāo)題處理裝置1100可以是具備計(jì)算能力的主機(jī)服務(wù)器、個(gè)人計(jì)算機(jī)PC、或者可攜帶的便攜式計(jì)算機(jī)或終端等。本發(fā)明具體實(shí)施例并不對(duì)計(jì)算節(jié)點(diǎn)的具體實(shí)現(xiàn)做限定。所述標(biāo)題處理裝置1100包括處理器(processor)1110、通信接口(CommunicationsInterface)1120、存儲(chǔ)器(memory)1130和總線1140。其中,處理器1110、通信接口1120、以及存儲(chǔ)器1130通過(guò)總線1140完成相互間的通信。通信接口1120用于與網(wǎng)絡(luò)設(shè)備通信,其中網(wǎng)絡(luò)設(shè)備包括例如虛擬機(jī)管理中心、共享存儲(chǔ)等。處理器1110用于執(zhí)行程序。處理器1110可能是一個(gè)中央處理器CPU,或者是專(zhuān)用集成電路ASIC(ApplicationSpecificIntegratedCircuit),或者是被配置成實(shí)施本發(fā)明實(shí)施例的一個(gè)或多個(gè)集成電路。存儲(chǔ)器1130用于存放文件。存儲(chǔ)器1130可能包含高速RAM存儲(chǔ)器,也可能還包括非易失性存儲(chǔ)器(non-volatilememory),例如至少一個(gè)磁盤(pán)存儲(chǔ)器。存儲(chǔ)器1130也可以是存儲(chǔ)器陣列。存儲(chǔ)器1130還可能被分塊,并且所述塊可按一定的規(guī)則組合成虛擬卷。在一種可能的實(shí)施方式中,上述程序可為包括計(jì)算機(jī)操作指令的程序代碼。該程序具體可用于:執(zhí)行實(shí)施例1和實(shí)施例4中的標(biāo)題處理方法。本領(lǐng)域普通技術(shù)人員可以意識(shí)到,本文所描述的實(shí)施例中的各示例性單元及算法步驟,能夠以電子硬件、或者計(jì)算機(jī)軟件和電子硬件的結(jié)合來(lái)實(shí)現(xiàn)。這些功能究竟以硬件還是軟件形式來(lái)實(shí)現(xiàn),取決于技術(shù)方案的特定應(yīng)用和設(shè)計(jì)約束條件。專(zhuān)業(yè)技術(shù)人員可以針對(duì)特定的應(yīng)用選擇不同的方法來(lái)實(shí)現(xiàn)所描述的功能,但是這種實(shí)現(xiàn)不應(yīng)認(rèn)為超出本發(fā)明的范圍。如果以計(jì)算機(jī)軟件的形式來(lái)實(shí)現(xiàn)所述功能并作為獨(dú)立的產(chǎn)品銷(xiāo)售或使用時(shí),則在一定程度上可認(rèn)為本發(fā)明的技術(shù)方案的全部或部分(例如對(duì)現(xiàn)有技術(shù)做出貢獻(xiàn)的部分)是以計(jì)算機(jī)軟件產(chǎn)品的形式體現(xiàn)的。該計(jì)算機(jī)軟件產(chǎn)品通常存儲(chǔ)在計(jì)算機(jī)可讀取的非易失性存儲(chǔ)介質(zhì)中,包括若干指令用以使得計(jì)算機(jī)設(shè)備(可以是個(gè)人計(jì)算機(jī)、服務(wù)器、或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本發(fā)明各實(shí)施例方法的全部或部分步驟。而前述的存儲(chǔ)介質(zhì)包括U盤(pán)、移動(dòng)硬盤(pán)、只讀存儲(chǔ)器(ROM,Read-OnlyMemory)、隨機(jī)存取存儲(chǔ)器(RAM,RandomAccessMemory)、磁碟或者光盤(pán)等各種可以存儲(chǔ)程序代碼的介質(zhì)。以上所述,僅為本發(fā)明的具體實(shí)施方式,但本發(fā)明的保護(hù)范圍并不局限于此,任何熟悉本
技術(shù)領(lǐng)域:
的技術(shù)人員在本發(fā)明揭露的技術(shù)范圍內(nèi),可輕易想到變化或替換,都應(yīng)涵蓋在本發(fā)明的保護(hù)范圍之內(nèi)。因此,本發(fā)明的保護(hù)范圍應(yīng)以所述權(quán)利要求的保護(hù)范圍為準(zhǔn)。當(dāng)前第1頁(yè)1 2 3