欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

添加專屬擴(kuò)展詞的方法和系統(tǒng)的制作方法

文檔序號(hào):6464187閱讀:188來(lái)源:國(guó)知局
專利名稱:添加專屬擴(kuò)展詞的方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及內(nèi)容信息處理領(lǐng)域,尤其涉及根據(jù)語(yǔ)義對(duì)信息內(nèi)容進(jìn)行 相關(guān)分區(qū)域擴(kuò)充的方法和系統(tǒng)。
背景技術(shù)
由于大量的信息內(nèi)容之間是存在某種聯(lián)系的,用戶在瀏覽當(dāng)前內(nèi)容 時(shí)非常希望能夠看到更多的相關(guān)擴(kuò)展內(nèi)容。在現(xiàn)有的信息處理領(lǐng)域,尤 其是網(wǎng)頁(yè)內(nèi)容的處理方面,主要采用的是在整個(gè)內(nèi)容的后面由人工對(duì)內(nèi) 容進(jìn)行鑒別之后,給出相關(guān)的內(nèi)容作為擴(kuò)充內(nèi)容。
這樣的系統(tǒng)存在至少兩個(gè)明顯的不足,第一個(gè)是由于是只給出整個(gè) 文檔的相關(guān)擴(kuò)充內(nèi)容,而往往在一個(gè)完整的文檔中有多個(gè)不同含意的主 題,無(wú)法針對(duì)這些主題分別給出內(nèi)容的擴(kuò)充。第二個(gè)是由于是人工給出 的擴(kuò)充內(nèi)容,效率不高,且相關(guān)度不精確。
本申請(qǐng)正是需要能夠解決這個(gè)問(wèn)題,將內(nèi)容分區(qū)域,并且根據(jù)語(yǔ)義 相關(guān)找到與當(dāng)前分區(qū)內(nèi)容相關(guān)的專屬擴(kuò)展詞。而且這些擴(kuò)展詞是專屬于 某個(gè)客戶的。例如可以是該客戶的公司名稱、產(chǎn)品名稱等。作為對(duì)原來(lái) 內(nèi)容的語(yǔ)義上的無(wú)縫擴(kuò)充而與內(nèi)容成為一體化的關(guān)鍵詞提供的擴(kuò)充信 息,往往是內(nèi)容作者或用戶沒(méi)有想到的。這對(duì)于幫助或擴(kuò)充用戶對(duì)內(nèi)容 的理解有很大幫助。

發(fā)明內(nèi)容
本發(fā)明的一個(gè)目的是提供 一種內(nèi)容擴(kuò)展的方法,包括將內(nèi)容劃 分成多個(gè)區(qū)域;計(jì)算每個(gè)區(qū)域的區(qū)域文檔向量;計(jì)算每個(gè)區(qū)域文檔向量 與詞條表中的詞條向量的相關(guān)度;選擇其中相關(guān)度最大的若干個(gè)詞條作 為對(duì)應(yīng)區(qū)域的專屬擴(kuò)展詞;和當(dāng)該文章被請(qǐng)求渲染時(shí),將專屬擴(kuò)展詞附 加在對(duì)應(yīng)區(qū)域旁渲染。
本發(fā)明更進(jìn)一步的目的是 一種計(jì)算機(jī)程序產(chǎn)品,存儲(chǔ)在計(jì)算機(jī)可 讀的介質(zhì)上,該計(jì)算機(jī)程序產(chǎn)品具體地包括可讀的程序方法,從而觸發(fā) 計(jì)算機(jī)執(zhí)行上述的方法。
本發(fā)明更進(jìn)一步的目的是 一種計(jì)算機(jī)程序,由計(jì)算機(jī)執(zhí)行而實(shí)現(xiàn) 上述方法。
本發(fā)明還有一個(gè)目的是提供 一種內(nèi)容擴(kuò)展的系統(tǒng),包括分區(qū)裝 置,用于將內(nèi)容劃分成多個(gè)區(qū)域;文檔向量計(jì)算裝置,用于計(jì)算每個(gè)區(qū) 域的區(qū)域文檔向量;文檔與詞條相關(guān)度比較裝置,用于計(jì)算每個(gè)區(qū)域文檔向量與詞條表中的詞條向量的相關(guān)度;專屬擴(kuò)展詞確定裝置,用于選 擇其中相關(guān)度最大的若干個(gè)詞條作為對(duì)應(yīng)區(qū)域的專屬擴(kuò)展詞;和附加裝 置,用于當(dāng)該文章被請(qǐng)求渲染時(shí),將專屬擴(kuò)展詞附加在對(duì)應(yīng)區(qū)域旁渲染。
附圖描述
上述內(nèi)容和其它方面的內(nèi)容,以及本發(fā)明特定優(yōu)選實(shí)施例的特征和 優(yōu)勢(shì)將通過(guò)結(jié)合相應(yīng)附圖的詳細(xì)說(shuō)明更加清楚。其中

圖1是關(guān)于詞條的表現(xiàn)方法和組合方式; 圖2是詞條-文檔(term-document)矩陣;
圖3是高維(r維)詞條空間投影到低維(k維)詞條空間的公式; 圖4是詞條向量表;
圖5是描述了詞條in文檔在二維空間上的投影關(guān)系;
圖6是如何獲得査詢請(qǐng)求的向量;
圖7是根據(jù)本發(fā)明的第一個(gè)實(shí)施例;
圖8是實(shí)現(xiàn)圖7中的實(shí)施例的流程圖10;
圖9是根據(jù)本發(fā)明的第二個(gè)實(shí)施例;
圖10是實(shí)現(xiàn)圖9中的實(shí)施例的流程圖20;
圖11是根據(jù)本發(fā)明的第三個(gè)實(shí)施例;
圖12是實(shí)現(xiàn)圖11中的實(shí)施例的流程圖30;
圖13是根據(jù)本發(fā)明的第四個(gè)實(shí)施例;
圖14是實(shí)現(xiàn)圖13中的實(shí)施例的流程圖40;
圖15是根據(jù)本發(fā)明的第五個(gè)實(shí)施例;
圖16是實(shí)現(xiàn)圖15中的實(shí)施例的流程圖50;
圖17是實(shí)現(xiàn)本發(fā)明實(shí)施例的系統(tǒng)100的結(jié)構(gòu)圖18是本發(fā)明所使用的專屬詞條表200。
所有附圖中,同一附圖標(biāo)記理解為同一單元、特征和結(jié)構(gòu)。
優(yōu)選實(shí)施例描述
說(shuō)明書中定義的內(nèi)容如具體的結(jié)構(gòu)和單元,是用于輔助全面理解本 發(fā)明的優(yōu)選實(shí)施例的。因此,根據(jù)本領(lǐng)域的普通技術(shù)對(duì)本申請(qǐng)描述的實(shí) 施例進(jìn)行的各種改變和修改都被認(rèn)為沒(méi)有脫離本發(fā)明的精神范圍。同 時(shí),為了清楚和簡(jiǎn)要,省略了對(duì)公知的功能和結(jié)構(gòu)的說(shuō)明。
在現(xiàn)有技術(shù)中有大量關(guān)于基于語(yǔ)義搜索的技術(shù),本領(lǐng)域技術(shù)人員可 以利用這些技術(shù)很容易的構(gòu)建詞條向量,以及文檔向量。其中有代表性 的是潛在語(yǔ)義索引模型等技術(shù)。下面介紹潛在語(yǔ)義索引的原理,但不代 表本發(fā)明一定要構(gòu)建在潛在語(yǔ)義索引之上,本發(fā)明可以應(yīng)用在所有的基 于語(yǔ)義的搜索技術(shù)上。潛在語(yǔ)義索引的原理
為了能夠更加容易的解釋LSI原理,下面通過(guò)一個(gè)具體例子來(lái)描述。
設(shè)文檔由n本書的標(biāo)題組成。
圖i中,有下劃線的詞表示詞條。當(dāng)然,對(duì)于本領(lǐng)域技術(shù)人員,存 在很多其他選擇詞條的規(guī)則,可以增加或減少詞條的數(shù)量,也可以改變 詞條的組合方式等。
圖2是16x17詞條-文檔(term-document)矩陣,被稱作A。行代表詞 條(term),列代表文檔(document)。矩陣的值代表該詞條在該文檔中出現(xiàn) 的次數(shù)。
奇異值分解把詞條-文檔矩陣A分解為三個(gè)矩陣的乘積形式,即 A=USVT 公式1
其中,z是奇異值的對(duì)角矩陣。
圖3是潛在語(yǔ)義索引方法通過(guò)降維,將高維(r維)詞條空間投影到低 維(k維)詞條空間.
為方便圖示表示,在本例中選擇k為2,即表示將原詞條空間降維 到二維詞條空間上。矩陣U的前兩列表示了詞條在二維空間中的向量。 獲得的向量組即詞條向量表為圖4
利用這些基本的詞條向量,可以根據(jù) v = qT Uk r'k 公式2
來(lái)合成新的向量。例如文檔向量BP用戶輸入的査詢請(qǐng)求,都可通過(guò)分 析所引用的詞條按公式2相合成。本領(lǐng)域技術(shù)人員很容易明了,在合成 向量時(shí)可以考慮詞條向量的權(quán)重。
圖5描述了詞條和文檔在二維空間上的投影關(guān)系。詞條向量之間的 夾角越小或夾角的余弦值越大,代表詞條和和該文檔的相關(guān)性越大。例 如,以詞條"oscmation"為例,在所有詞條中"delay"與其夾角最小, 即"delay"與其最相關(guān)。
當(dāng)用戶輸入一個(gè)査詢請(qǐng)求時(shí),如"application theory",系統(tǒng)通過(guò)分 析該請(qǐng)求中包含的關(guān)鍵詞"applications "theory",將該兩關(guān)鍵詞相關(guān) 的詞條向量按公式2合成如圖6,從而獲得査詢請(qǐng)求的向量。
通過(guò)計(jì)算文檔向量與該査詢請(qǐng)求向量的夾角的余弦值,其值越大,表示該文檔與査詢請(qǐng)求越相關(guān)。
詞條與文檔的相關(guān)度是計(jì)算詞條向量與文檔向量之間的夾角的余弦
值,其值越大,表示該文檔與查詢請(qǐng)求越相關(guān)。例如,"nonlinear"這個(gè) 詞條與B9的文檔向量間的夾角的余弦值最大,所以與"nonlinear"最 相關(guān)的文檔是B9。
本領(lǐng)域技術(shù)人員已知的實(shí)際應(yīng)用中,通過(guò)上述原理,對(duì)現(xiàn)有的足夠 數(shù)量的文獻(xiàn)進(jìn)行上述處理,即可獲得全面的詞條向量表。計(jì)算文檔向量 的方法是抽取文檔中的詞條,比對(duì)詞條向量表獲得相關(guān)詞條的向量,將 這些向量合成為文檔向量如公式2。為了簡(jiǎn)化的目的,本申請(qǐng)不再詳細(xì) 描述如何獲得詞條向量表,因?yàn)楸绢I(lǐng)域技術(shù)人員可以根據(jù)現(xiàn)有技術(shù)能夠 很容易地獲得詞條向量表。本發(fā)明是在現(xiàn)有的詞條向量表的基礎(chǔ)上描述 的。
相關(guān)的參考文獻(xiàn)如下
1. M.W.Berry.S.T.Dumaiis&G.W.O'Brien. Using Linear Algebra Intelligent Information Retrieval. Computer Science Department CS-94-270 1994-12。
2. 居斌.潛在語(yǔ)義標(biāo)引在中文信息檢索中的研究與實(shí)現(xiàn).計(jì)算機(jī)工程 2007-03。
3. 陳越郭力.隱含語(yǔ)義檢索及其應(yīng)用.信息檢索技術(shù)2001年第6期。
4. Michael W. Berry ,Paul G Young. Using latent semantic indexing for multilanguage information retrieval. Volume 29, Number 6 / 1995年12月
圖7是根據(jù)本發(fā)明的第一個(gè)實(shí)施例。在該實(shí)施例中,有一個(gè)文章1 包括2個(gè)自然段,分別是pll和p12。各個(gè)自然段都具有與其相關(guān)的專 屬擴(kuò)展詞ell和el2。
圖8是實(shí)現(xiàn)圖7中的實(shí)施例的流程圖10。在該實(shí)施例中的內(nèi)容是包 括兩段文字的文檔1。在步驟11,將該文檔1按照自然段來(lái)劃分,從而 劃分成兩個(gè)區(qū)域,分別是all和a12。在步驟12,計(jì)算各個(gè)區(qū)域中的文 字的文檔向量,分別是v(all)和v(al2)。在步驟13,計(jì)算每個(gè)區(qū)域文檔 向量與詞條表中的詞條向量的相關(guān)度。其中,詞條表中的詞條向量是通 過(guò)例如LSI或空間向量模型等現(xiàn)有的基于語(yǔ)義搜索技術(shù)獲得的。其中的 相關(guān)度指,向量與向量之間的夾角或余弦值。并確定其中相關(guān)的最高的 N個(gè)詞條。N可以由系統(tǒng)預(yù)置,例如可以是128。在步驟14,通過(guò)比對(duì) 所述的N個(gè)詞條與專屬擴(kuò)展詞表(如圖18所示)中的詞條來(lái)確定,將 匹配成功的詞條作為相關(guān)的專屬擴(kuò)展詞。在這個(gè)例子中,兩組專屬擴(kuò)展 詞分別為"同仁堂I西安楊生","善存I安利"。各個(gè)專屬擴(kuò)展詞 中使用某個(gè)特殊符號(hào),例如"I"分隔開。在步驟15,當(dāng)該內(nèi)容被請(qǐng)求渲染時(shí),將專屬擴(kuò)展詞附加在對(duì)應(yīng)區(qū)域旁渲染。
圖9是根據(jù)本發(fā)明實(shí)施例的第二個(gè)實(shí)施例。在該實(shí)施例中,文檔2 有6個(gè)自然段,分別是p21-p26。系統(tǒng)將這6個(gè)自然段分成了三個(gè)區(qū)域, 分別是a21-a23。其中,a21包括p21-p22, a22包括p23-p25, a23包括 p26。每個(gè)區(qū)域分別有一組專屬擴(kuò)展詞。
圖10是實(shí)現(xiàn)圖9中的實(shí)施例的流程圖20。在該實(shí)施例中的內(nèi)容是 包括6段文字的文檔2。在步驟21,計(jì)算文章2的每個(gè)段落p21-p26的 文檔向量v(p21)-v(p26);然后,從第一個(gè)向量v(p21)開始計(jì)算與其下一 個(gè)段落的文檔向量的相關(guān)度,如果該相關(guān)度大于某個(gè)門限值則將這些自 然段劃分到相同的區(qū)域,由于(p21,p22), (p23,p24,p25), (p26)這三 個(gè)段落的相鄰段落的文檔向量的相關(guān)度大于門限值,所以劃分為三個(gè)區(qū) 域,分別是a21= (p21,p22), a22= (p23,p24,p25), a23= (p26)。在步 驟22,計(jì)算各個(gè)區(qū)域中的文字的文檔向量,,分別是v(a21)-v(a23)。在 步驟23,計(jì)算每個(gè)區(qū)域文檔向量與詞條表中的詞條向量的相關(guān)度。其中, 詞條表中的詞條向量是通過(guò)例如LSI或則空間向量模型等現(xiàn)有的基于語(yǔ) 義搜索技術(shù)獲得的。其中的相關(guān)度指,向量與向量之間的夾角或余弦值。 并確定其中相關(guān)的最高的N個(gè)詞條。N可以由系統(tǒng)預(yù)置,例如可以是 128。在步驟24,通過(guò)比對(duì)所述的N個(gè)詞條與專屬擴(kuò)展詞表(如圖18 所示)中的詞條來(lái)確定,將匹配成功的詞條作為相關(guān)的專屬擴(kuò)展詞。各 個(gè)專屬擴(kuò)展詞中使用某個(gè)特殊符號(hào),例如"I"分隔開。當(dāng)然,本領(lǐng)域技 術(shù)人員也能夠很容易的實(shí)現(xiàn),將上述的與對(duì)應(yīng)區(qū)域比較而改為與整個(gè)文 章比較。在步驟25,當(dāng)該內(nèi)容被請(qǐng)求渲染時(shí),將專屬擴(kuò)展詞附加在對(duì)應(yīng) 區(qū)域旁渲染。
圖了l是根據(jù)本發(fā)明實(shí)施例的第三個(gè)實(shí)施例。在該實(shí)施例中,文檔3 有8個(gè)自然段,分別是p31-p38。系統(tǒng)將這8個(gè)自然段分成了三個(gè)區(qū)域, 分別是a31-a33。其中,a31包括p31-p32, a32包括p33-p35, a23包括 p36-p38。每個(gè)區(qū)域分別有一組專屬擴(kuò)展詞。
圖12是實(shí)現(xiàn)圖11中的實(shí)施例的流程圖30。在該實(shí)施例中的內(nèi)容是 包括8段文字的文檔3。在步驟31,從起始自然段p31開始,依次將若 干個(gè)相鄰的自然段劃分到一個(gè)區(qū)域,使得各個(gè)區(qū)域的字?jǐn)?shù)大于或等于一 個(gè)預(yù)設(shè)門限,例如300個(gè)字,但如果減去該區(qū)域中最后一個(gè)自然段的字 數(shù)則小于該預(yù)設(shè)門限。例如段落p31-p33總計(jì)字?jǐn)?shù)超過(guò)了 300個(gè),但是 如果減去段落p33的字?jǐn)?shù)則少于300。根據(jù)這樣的方式劃分為三個(gè)區(qū)域, 分別是a31= (p31, p32), a32= (p33,p34,p35), a33= (p36, p37,p38)。 在步驟32,計(jì)算各個(gè)區(qū)域中的文字的文檔向量,分別是v(a31)-v(a33)。 在步驟33,計(jì)算每個(gè)區(qū)域文檔向量與詞條表中的詞條向量的相關(guān)度。其 中,詞條表中的詞條向量是通過(guò)例如LSI或則空間向量模型等現(xiàn)有的基
8于語(yǔ)義搜索技術(shù)獲得的。其中的相關(guān)度指,向量與向量之間的夾角或余
弦值。并確定其中相關(guān)的最高的N個(gè)詞條。N可以由系統(tǒng)預(yù)置,例如可 以是128。在步驟34,通過(guò)比對(duì)所述的N個(gè)詞條與專屬擴(kuò)展詞表(如圖 18所示)中的詞條來(lái)確定,將匹配成功的詞條作為相關(guān)的專屬擴(kuò)展詞。 各個(gè)專屬擴(kuò)展詞中使用某個(gè)特殊符號(hào),例如"I"分隔開。當(dāng)然,本領(lǐng)域 技術(shù)人員也能夠很容易的實(shí)現(xiàn),將上述的整個(gè)文章與比較而改為與對(duì)應(yīng) 區(qū)域比較。在步驟35,當(dāng)該內(nèi)容被請(qǐng)求渲染時(shí),將專屬擴(kuò)展詞附加在對(duì) 應(yīng)區(qū)域旁渲染。
圖13是根據(jù)本發(fā)明的第四個(gè)實(shí)施例。在該實(shí)施例中,有一個(gè)內(nèi)容 包括2個(gè)自然段,分別是p41和p42,以及一個(gè)音頻文件。各個(gè)自然段 都具有與其相關(guān)的專屬擴(kuò)展詞e41和e42。音頻文件也有與其相關(guān)的專 屬擴(kuò)展詞e43。
圖14是實(shí)現(xiàn)圖13中的實(shí)施例的流程圖40。在該實(shí)施例中的內(nèi)容是 包括兩段文字和一個(gè)音頻文件的文檔4。在步驟41,將該文檔4中的文 字內(nèi)容按照自然段來(lái)劃分,從而劃分成2個(gè)區(qū)域,分別是a41和a42, 并將其中的音頻文件單獨(dú)確定為一個(gè)區(qū)域。在步驟42,計(jì)算各個(gè)區(qū)域中 的文字的文檔向量,分別是v(a41)和v(a42),采用的方式是抽取文檔中 的詞條,比對(duì)詞條向量表獲得相關(guān)詞條的向量,將這些向量合成為文檔 向量。對(duì)于音頻文件,先使用speech-to-text功能實(shí)體對(duì)音頻文件進(jìn)行處 理,獲得相應(yīng)的文本,并計(jì)算該文本的文檔向量作為音頻文件的文檔向 量。如果其中的音頻文件被替換為視頻文件,則利用speech-to-text功能 實(shí)體將視頻中的音頻部分變換為音頻文本,和/或利用光學(xué)字符識(shí)別功能 實(shí)體將視頻中的字幕變換為字幕文本,然后計(jì)算音頻文本和/或字幕文本 總的文檔向量作為視頻的文檔向量。此外,對(duì)于包含字幕流的視頻,可 直接利用現(xiàn)有技術(shù)將字幕流變換為字幕文本,采取上述方法計(jì)算文檔向 量。另外,如果內(nèi)容包括圖片,則利用光學(xué)字符識(shí)別功能實(shí)體將圖片中 的字符變換為文本,然后計(jì)算文本的文檔向量作為圖片的文檔向量。在 步驟43,計(jì)算每個(gè)區(qū)域文檔向量與詞條表中的詞條向量的相關(guān)度。其中, 詞條表中的詞條向量是通過(guò)例如LSI或則空間向量模型等現(xiàn)有的基于語(yǔ) 義搜索技術(shù)獲得的。其中的相關(guān)度指,向量與向量之間的夾角或余弦值。 并確定其中相關(guān)的最高的N個(gè)詞條。N可以由系統(tǒng)預(yù)置,例如可以是 128。在步驟44,通過(guò)比對(duì)所述的N個(gè)詞條與專屬擴(kuò)展詞表(如圖18 所示)中的詞條來(lái)確定,將匹配成功的詞條作為相關(guān)的專屬擴(kuò)展詞。在 步驟45,當(dāng)該內(nèi)容被請(qǐng)求渲染時(shí),將專屬擴(kuò)展詞附加在對(duì)應(yīng)區(qū)域旁渲染。
圖15是根據(jù)本發(fā)明的第五個(gè)實(shí)施例。在該實(shí)施例中,有一個(gè)內(nèi)容 包括2個(gè)自然段,分別是p51和p52,以及一個(gè)超鏈接,該超鏈接指向 另一個(gè)文件。各個(gè)自然段都具有與其相關(guān)的專屬擴(kuò)展詞e51和e52。超鏈接也有與其相關(guān)的專屬擴(kuò)展詞e53。
圖16是實(shí)現(xiàn)圖15中的實(shí)施例的流程圖50。在該實(shí)施例中的內(nèi)容是 包括兩段文字和一個(gè)超鏈接的文檔5。在步驟51,將該文檔5中的文字 內(nèi)容按照自然段來(lái)劃分,從而劃分成2個(gè)區(qū)域,分別是a51和a52,并 將其中的音頻文件單獨(dú)確定為一個(gè)區(qū)域。在步驟52,計(jì)算各個(gè)區(qū)域中的 文字的文檔向量,分別是v(all)和v(al2),采用的方式是抽取文檔中的 詞條,比對(duì)詞條向量表獲得相關(guān)詞條的向量,將這些向量合成為文檔向 量。對(duì)于超鏈接則計(jì)算被鏈接到的文檔的文檔向量。即將被鏈接到文檔 中的非文字內(nèi)容采用與實(shí)施例四中相似的方式處理為文本,并與其中的 文字內(nèi)容合成為整個(gè)文件的文字內(nèi)容,計(jì)算合成后的文字并獲得該文檔 向量。在步驟53,計(jì)算每個(gè)區(qū)域文檔向量與詞條表中的詞條向量的相關(guān) 度。其中,詞條表中的詞條向量是通過(guò)例如LSI或則空間向量模型等現(xiàn) 有的基于語(yǔ)義搜索技術(shù)獲得的。其中的相關(guān)度指,向量與向量之間的夾 角的余弦值。并確定其中相關(guān)的最高的N個(gè)詞條。N可以由系統(tǒng)預(yù)置, 例如可以是128。在步驟54,通過(guò)比對(duì)所述的N個(gè)詞條與專屬擴(kuò)展詞表 (如圖18所示)中的詞條來(lái)確定,將匹配成功的詞條作為相關(guān)的專屬 擴(kuò)展詞。在步驟55,當(dāng)該內(nèi)容被請(qǐng)求渲染時(shí),將專屬擴(kuò)展詞附加在對(duì)應(yīng) 區(qū)域旁渲染。
圖17是實(shí)現(xiàn)本發(fā)明實(shí)施例的系統(tǒng)100的結(jié)構(gòu)圖。該系統(tǒng)包括分 區(qū)裝置101,非文字內(nèi)容識(shí)別裝置102,文檔向量計(jì)算裝置109,文檔與 詞條相關(guān)度比較及確定裝置106,專屬擴(kuò)展詞確定裝置107,附加裝置 108,詞條向量表110和專屬擴(kuò)展詞表111。非文字內(nèi)容識(shí)別裝置102又 包括光學(xué)字符識(shí)別(OCR) 103 , Speech-to-text104和超鏈接文檔向 量獲取裝置105。
分區(qū)裝置101用于對(duì)內(nèi)容進(jìn)行分區(qū),如果分區(qū)需要根據(jù)文字內(nèi)容相 鄰段落的文檔向量之間的關(guān)系則需要從文檔向量計(jì)算裝置109獲得相關(guān) 信息。如果分區(qū)后某些區(qū)域具有非文字內(nèi)容,例如音頻,視頻,圖片或 超鏈接,則需要將這部分內(nèi)容提交給非文字內(nèi)容識(shí)別裝置102,通過(guò)對(duì) 應(yīng)的功能模塊將相關(guān)非文字內(nèi)容變換為文本,然后將其傳輸給文檔向量 計(jì)算裝置109。另外,對(duì)于文字內(nèi)容,由分區(qū)裝置101直接傳輸給文檔 向量計(jì)算裝置109。文檔向量計(jì)算裝置109根據(jù)接收到的文檔和詞條向 量表110基于現(xiàn)有的基于語(yǔ)義搜索技術(shù)來(lái)計(jì)算文檔向量。文檔與詞條相 關(guān)度比較及確定裝置106計(jì)算要比較的文檔向量與詞條向量表110中詞 條的向量之間的相關(guān)度,例如計(jì)算向量夾角或向量之間的余弦值;并確 定其中的N個(gè)最相關(guān)的詞。文檔與詞條相關(guān)度比較及確定裝置106將比 較結(jié)果傳輸給專屬擴(kuò)展詞確定裝置107,由專屬擴(kuò)展詞確定裝置107根 據(jù)這N個(gè)相關(guān)詞條以及專屬擴(kuò)展詞表中的詞條來(lái)確定專屬擴(kuò)展詞。附加裝置108將獲得的專屬擴(kuò)展詞附加到相應(yīng)的區(qū)域。
圖18是本發(fā)明使用的專屬擴(kuò)展詞表。其中包括以下字段專屬擴(kuò)
展詞、擁有者。其中專屬擴(kuò)展詞是擁有者期望作為文檔的補(bǔ)充在文檔被 渲染時(shí)附加顯示的內(nèi)容。
盡管本發(fā)明通過(guò)一些特定的優(yōu)選實(shí)施例加以表述,但是本領(lǐng)域的技 術(shù)人員都應(yīng)知道,可能的形式上的各種變化和具體化都沒(méi)有脫離本發(fā)明 的精神以及權(quán)利要求及其等價(jià)內(nèi)容所定義的范圍。
權(quán)利要求
1.一種內(nèi)容擴(kuò)展的方法,包括步驟一將內(nèi)容劃分成多個(gè)區(qū)域,步驟二計(jì)算每個(gè)區(qū)域的區(qū)域文檔向量;步驟三計(jì)算每個(gè)區(qū)域文檔向量與詞條表中的詞條向量的相關(guān)度,并選擇其中相關(guān)度最大的N個(gè)詞條;步驟四將所述的N個(gè)詞條中屬于專屬擴(kuò)展詞表中的詞條確定為相關(guān)的專屬擴(kuò)展詞;步驟五當(dāng)該內(nèi)容被請(qǐng)求渲染時(shí),將所述專屬擴(kuò)展詞附加在對(duì)應(yīng)區(qū)域旁渲染。
2. 根據(jù)權(quán)利要求1的方法,其中內(nèi)容包括文字內(nèi)容,音頻,視頻,圖片 或超鏈接中的至少一種。
3. 根據(jù)權(quán)利要求1-2中任意一個(gè)方法,其中步驟一,包括根據(jù)該文字 內(nèi)容的自然段來(lái)劃分區(qū)域。
4. 根據(jù)權(quán)利要求1-2中任意一個(gè)方法,其中步驟一,包括步驟lh計(jì)算該文字內(nèi)容中各個(gè)自然段的段落文檔向量;步驟12:計(jì)算相鄰段落之間的段落向量文檔的相關(guān)度;和步驟13:將所述相鄰段落之間的段落向量文檔的相關(guān)度與一個(gè)門限值進(jìn)行比較,如果大于門限值則將該相鄰段落劃分到同一個(gè)區(qū)域,否則劃分到不同的區(qū)域。
5. 根據(jù)權(quán)利要求1-2中任意一個(gè)方法,其中步驟一,包括從起始自然段開始,依次將若干個(gè)相鄰的自然段劃分到一個(gè)區(qū)域, 使得各個(gè)區(qū)域的字?jǐn)?shù)大于或等于一個(gè)預(yù)設(shè)門限,但如果減去該區(qū)域中最 后一個(gè)自然段的字?jǐn)?shù)則小于該預(yù)設(shè)門限。
6. 根據(jù)權(quán)利要求1-2中任意一個(gè)方法,其中步驟一,包括將音頻,視頻, 圖片或超鏈接作為一個(gè)區(qū)域。
7. 根據(jù)權(quán)利要求1-7中任意一個(gè)方法,其中步驟二包括將音頻,視頻 或圖片變換為文本,然后計(jì)算該文本的文檔向量作為該音頻,視頻或 圖片的文檔向量。
8. 根據(jù)權(quán)利要求1-7中任意一個(gè)方法,其中步驟二,包括將該超鏈接 的文檔向量是被鏈接的文件的文檔向量。
9. 一種內(nèi)容擴(kuò)展的系統(tǒng),包括分區(qū)裝置,用于將內(nèi)容劃分成多個(gè)區(qū)域; 文檔向量計(jì)算裝置,用于計(jì)算每個(gè)區(qū)域的區(qū)域文檔向量; 文檔與詞條相關(guān)度比較及確定裝置,用于計(jì)算每個(gè)區(qū)域文檔向量與詞條表中的詞條向量的相關(guān)度,并并選擇其中相關(guān)度最大的N個(gè)詞條;專屬擴(kuò)展詞確定裝置,將所述的N個(gè)詞條中屬于專屬擴(kuò)展詞表中的 詞條確定為相關(guān)的專屬擴(kuò)展詞;和附加裝置,用于當(dāng)該文章被請(qǐng)求渲染時(shí),將專屬擴(kuò)展詞附加在對(duì)應(yīng) 區(qū)域旁渲染。
10. 根據(jù)權(quán)利要求11的系統(tǒng),其中內(nèi)容包括文字內(nèi)容,音頻,視頻,圖片或超鏈接中的至少一種。
11. 根據(jù)權(quán)利要求10-11中任意一個(gè)系統(tǒng),其中分區(qū)裝置,包括如果內(nèi)容 包括文字內(nèi)容,根據(jù)該文字內(nèi)容的自然段來(lái)劃分區(qū)域的裝置。
12. 根據(jù)權(quán)利要求10-11中任意一個(gè)系統(tǒng),其中分區(qū)裝置,包括如果內(nèi)容 包括文字內(nèi)容計(jì)算該文字內(nèi)容中各個(gè)自然段的段落文檔向量的裝置; 計(jì)算相鄰段落之間的段落向量文檔的相關(guān)度的裝置;和 將所述相鄰段落之間的段落向量文檔的相關(guān)度與一個(gè)門限值進(jìn)行比較,如果大于門限值則將該相鄰段落劃分到同一個(gè)區(qū)域,否則劃分到不同的區(qū)域的裝置。
13. 根據(jù)權(quán)利要求10-11中任意一個(gè)系統(tǒng),其中分區(qū)裝置,包括如果內(nèi)容包括文字內(nèi)容從起始自然段開始,依次將若干個(gè)相鄰的自然段劃分到一個(gè)區(qū)域, 使得各個(gè)區(qū)域的字?jǐn)?shù)大于或等于一個(gè)預(yù)設(shè)門限,但如果減去該區(qū)域中最 后一個(gè)自然段的字?jǐn)?shù)則小于該預(yù)設(shè)門限的裝置。
14. 根據(jù)權(quán)利要求10-11中任意一個(gè)系統(tǒng),其中分區(qū)裝置,包括如果內(nèi)容 包括音頻,視頻,圖片或超鏈接,則將每個(gè)音頻,視頻,圖片或超鏈 接作為一個(gè)區(qū)域的裝置。
15. 根據(jù)權(quán)利要求10-14中任意一個(gè)系統(tǒng),其中文檔向量計(jì)算裝置,包括 將音頻,視頻或圖片變換為文本,然后計(jì)算該文本的文檔向量作為該 音頻,視頻或圖片的文檔向量的裝置。
16. 根據(jù)權(quán)利要求10-14中任意一個(gè)系統(tǒng),其中文檔向量計(jì)算裝置,包括 將該超鏈接的文檔向量是被鏈接的文件的文檔向量的裝置。
17. —種計(jì)算機(jī)程序產(chǎn)品,存儲(chǔ)在計(jì)算機(jī)可讀的介質(zhì)上,該計(jì)算機(jī)程序產(chǎn) 品具體地包括可讀的程序方法,從而觸發(fā)計(jì)算機(jī)執(zhí)行根據(jù)權(quán)利要求1 到8任意之一的方法。
18. —種計(jì)算機(jī)程序,由計(jì)算機(jī)執(zhí)行而實(shí)現(xiàn)根據(jù)權(quán)利要求1到8任意之一 的方法。
全文摘要
一種內(nèi)容擴(kuò)展的方法,包括將內(nèi)容劃分成多個(gè)區(qū)域;計(jì)算每個(gè)區(qū)域的區(qū)域文檔向量;計(jì)算每個(gè)區(qū)域文檔向量與詞條表中的詞條向量的相關(guān)度;選擇其中相關(guān)度最大的若干個(gè)詞條作為對(duì)應(yīng)區(qū)域的專屬擴(kuò)展詞;當(dāng)該文章被請(qǐng)求渲染時(shí),將專屬擴(kuò)展詞附加在對(duì)應(yīng)區(qū)域旁渲染。
文檔編號(hào)G06F17/30GK101315638SQ200810113168
公開日2008年12月3日 申請(qǐng)日期2008年5月28日 優(yōu)先權(quán)日2008年5月28日
發(fā)明者鋼 裘 申請(qǐng)人:索意互動(dòng)(北京)信息技術(shù)有限公司
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
肇州县| 门源| 观塘区| 五莲县| 霍山县| 南阳市| 化隆| 双鸭山市| 蕉岭县| 蒲江县| 罗源县| 永平县| 淮北市| 社会| 赣州市| 平谷区| 铜陵市| 凉山| 白银市| 依安县| 保定市| 贡山| 广河县| 江津市| 万源市| 小金县| 专栏| 志丹县| 盐亭县| 江门市| 利辛县| 磐石市| 区。| 海城市| 海南省| 曲周县| 博客| 玉山县| 迁西县| 尤溪县| 新邵县|