在內(nèi)容中添加鏈接的方法和設(shè)備的制作方法
【專利摘要】本發(fā)明提供一種在內(nèi)容中添加鏈接的方法和設(shè)備。所述方法包括:對(duì)內(nèi)容進(jìn)行切詞,以獲得詞語(yǔ);從獲得的詞語(yǔ)確定待添加鏈接的候選;確定候選的類別;確定候選的上下文模式;當(dāng)候選的類別與候選的上下文模式對(duì)應(yīng)時(shí),向候選添加鏈接。根據(jù)本發(fā)明的在內(nèi)容中添加鏈接的方法和設(shè)備,可以實(shí)現(xiàn)自動(dòng)在內(nèi)容中添加鏈接,從而可以避免了人工進(jìn)行鏈接的添加,提高了效率。
【專利說(shuō)明】在內(nèi)容中添加鏈接的方法和設(shè)備
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及計(jì)算機(jī)網(wǎng)絡(luò)領(lǐng)域。更具體地講,涉及一種在內(nèi)容中添加鏈接的方法和設(shè)備。
【背景技術(shù)】
[0002]隨著信息技術(shù)的發(fā)展,越來(lái)越多的內(nèi)容出現(xiàn)在網(wǎng)絡(luò)中,供網(wǎng)絡(luò)用戶進(jìn)行瀏覽。然而,用戶在瀏覽內(nèi)容時(shí),可能遇到一些不熟悉的信息,或者希望對(duì)一些信息做進(jìn)一步了解。這時(shí),通常需要將這些信息復(fù)制或輸入到搜索引擎,然后通過(guò)搜索引擎來(lái)檢索這些信息。
[0003]解決上述問(wèn)題的一個(gè)方案是在內(nèi)容中對(duì)這些信息添加鏈接(例如,超級(jí)鏈接),從而用戶可以通過(guò)這些鏈接來(lái)訪問(wèn)相應(yīng)的信息,而不需要另外進(jìn)行搜索。
[0004]然而,在現(xiàn)有技術(shù)中,為了在內(nèi)容中添加鏈接,通常需要人工來(lái)完成鏈接的添加,成本較高,并且效率較低。另外,人工添加鏈接受添加操作的執(zhí)行人員的主觀因素和背景知識(shí)的影響也較大,導(dǎo)致添加的鏈接的質(zhì)量參差不齊,并且無(wú)法準(zhǔn)確反映網(wǎng)絡(luò)用戶對(duì)鏈接的一般需要。因此,需要一種能夠在內(nèi)容中自動(dòng)添加鏈接并且添加的鏈接能夠反映網(wǎng)絡(luò)用戶對(duì)鏈接的需要的鏈接添加技術(shù)。
【發(fā)明內(nèi)容】
[0005]本發(fā)明的目的在于提供一種能夠在內(nèi)容中自動(dòng)添加鏈接的技術(shù),從而不要用人工進(jìn)行鏈接的添加,并且能夠反映網(wǎng)絡(luò)用戶對(duì)鏈接的需要。
[0006]本發(fā)明的一方面提供一種在內(nèi)容中添加鏈接的方法,所述方法包括:對(duì)內(nèi)容進(jìn)行切詞,以獲得詞語(yǔ);從獲得的詞語(yǔ)確定待添加鏈接的候選;確定候選的類別;確定候選的上下文模式;當(dāng)候選的類別與候選的上下文模式對(duì)應(yīng)時(shí),向候選添加鏈接。
[0007]可選地,上下文模式是指候選與候選在內(nèi)容中的上下文之間的語(yǔ)法結(jié)構(gòu)和/或語(yǔ)意結(jié)構(gòu)。
[0008]可選地,從獲得的詞語(yǔ)確定待添加鏈接的候選的步驟包括:根據(jù)在內(nèi)容中的原始次序?qū)Λ@得的詞語(yǔ)進(jìn)行組合,以得到至少一個(gè)第一組合,并且將獲得的各個(gè)詞語(yǔ)分別作為一個(gè)第一組合;從得到的第一組合之中選擇存在于預(yù)定數(shù)據(jù)庫(kù)中的第一組合作為候選。
[0009]可選地,從得到的第一組合之中選擇存在于預(yù)定數(shù)據(jù)庫(kù)中的第一組合作為候選的步驟還包括:當(dāng)在選擇的第一組合之中存在位置上重疊的第一組合時(shí),從重疊的第一組合之中選擇最長(zhǎng)的第一組合作為候選。
[0010]可選地,向候選添加鏈接的步驟包括:當(dāng)候選的類別與候選的上下文模式對(duì)應(yīng)時(shí),確定候選在內(nèi)容中的上下文與候選在其他內(nèi)容中的上下文的相似度;當(dāng)確定的相似度大于預(yù)定閾值時(shí),向候選添加鏈接。
[0011]可選地,向候選添加鏈接的步驟還包括:當(dāng)確定的相似度不大于預(yù)定閾值時(shí),不向候選添加鏈接。
[0012]可選地,確定候選在內(nèi)容中的上下文與候選在其他內(nèi)容中的上下文的相似度的步驟包括:獲取候選在內(nèi)容中的上下文與候選在其他內(nèi)容中的上下文的重復(fù)詞語(yǔ);確定每個(gè)重復(fù)詞語(yǔ)的語(yǔ)意表達(dá)能力;確定的語(yǔ)意表達(dá)能力之中最高的語(yǔ)意表達(dá)能力作為所述相似度。
[0013]可選地,所述其他內(nèi)容具有所述候選并且所述候選已經(jīng)在所述其他內(nèi)容中被添加了鏈接。
[0014]本發(fā)明的另一方面提供一種在內(nèi)容中添加鏈接的設(shè)備,包括:切詞單元,對(duì)內(nèi)容進(jìn)行切詞,以獲得詞語(yǔ);候選確定單元,從獲得的詞語(yǔ)確定待添加鏈接的候選;類別分析單元,確定候選的類別;上下文模式確定單元,確定候選的上下文模式;鏈接添加單元,當(dāng)確定的類別與確定的上下文模式對(duì)應(yīng)時(shí),向候選添加鏈接。
[0015]可選地,上下文模式是指候選與候選在內(nèi)容中的上下文之間的語(yǔ)法結(jié)構(gòu)和/或語(yǔ)意結(jié)構(gòu)。
[0016]可選地,候選確定單元包括:組合單元,根據(jù)在內(nèi)容中的原始次序?qū)Λ@得的詞語(yǔ)進(jìn)行組合,以得到至少一個(gè)第一組合,并且將獲得的各個(gè)詞語(yǔ)分別作為一個(gè)第一組合;選擇單元,從得到的第一組合之中選擇存在于預(yù)定數(shù)據(jù)庫(kù)中的第一組合作為候選。
[0017]可選地,當(dāng)在選擇的第一組合之中存在位置上重疊的第一組合時(shí),選擇單元從重疊的第一組合之中選擇最長(zhǎng)的第一組合作為候選。
[0018]可選地,所述設(shè)備還包括:相似度確定單元,當(dāng)候選的類別與候選的上下文模式對(duì)應(yīng)時(shí),確定候選在內(nèi)容中的上下文與候選在其他內(nèi)容中的上下文的相似度,其中,當(dāng)確定的相似度大于預(yù)定閾值時(shí),鏈接添加單元向候選添加鏈接。
[0019]可選地,當(dāng)確定的相似度不大于預(yù)定閾值時(shí),鏈接添加單元不向候選添加鏈接。
[0020]可選地,所述相似度表示候選在內(nèi)容中的上下文與候選在其他內(nèi)容中的上下文之間的重復(fù)詞語(yǔ)的語(yǔ)意表達(dá)能力之中的最高語(yǔ)意表達(dá)能力。
[0021 ] 可選地,所述其他內(nèi)容具有所述候選并且所述候選已經(jīng)在所述其他內(nèi)容中被添加了鏈接。
[0022]根據(jù)本發(fā)明的在內(nèi)容中添加鏈接的方法和設(shè)備,可以實(shí)現(xiàn)自動(dòng)在內(nèi)容中添加鏈接,從而可以避免了人工進(jìn)行鏈接的添加,提高了效率。此外,根據(jù)本發(fā)明的在內(nèi)容中添加鏈接的方法和設(shè)備在內(nèi)容中所添加的鏈接能夠反映網(wǎng)絡(luò)用戶對(duì)鏈接的需要。
[0023]將在接下來(lái)的描述中部分闡述本發(fā)明另外的方面和/或優(yōu)點(diǎn),還有一部分通過(guò)描述將是清楚的,或者可以經(jīng)過(guò)本發(fā)明的實(shí)施而得知。
【專利附圖】
【附圖說(shuō)明】
[0024]通過(guò)下面結(jié)合附圖進(jìn)行的詳細(xì)描述,本發(fā)明的上述和其它目的、特點(diǎn)和優(yōu)點(diǎn)將會(huì)變得更加清楚,其中:
[0025]圖1是示出根據(jù)本發(fā)明的實(shí)施例的在內(nèi)容中自動(dòng)添加鏈接的方法的流程圖;
[0026]圖2是示出根據(jù)本發(fā)明的另一實(shí)施例的在內(nèi)容中自動(dòng)添加鏈接的方法的流程圖;
[0027]圖3是示出根據(jù)本發(fā)明的實(shí)施例的在內(nèi)容中自動(dòng)添加鏈接的設(shè)備的框圖;
[0028]圖4是示出根據(jù)本發(fā)明的另一實(shí)施例的在內(nèi)容中自動(dòng)添加鏈接的設(shè)備的框圖。
【具體實(shí)施方式】[0029]下面參照附圖詳細(xì)描述本發(fā)明的實(shí)施例。
[0030]圖1是示出根據(jù)本發(fā)明的實(shí)施例的在內(nèi)容中自動(dòng)添加鏈接的方法的流程圖。
[0031]如圖1所示,在步驟101,對(duì)內(nèi)容進(jìn)行切詞,以獲得詞語(yǔ)。可利用現(xiàn)有的切詞技術(shù)對(duì)內(nèi)容進(jìn)行切詞。此外,這里的內(nèi)容可以是具有文字的各種內(nèi)容。
[0032]例如,通過(guò)對(duì)“東北財(cái)經(jīng)大學(xué)會(huì)計(jì)學(xué)院任教”進(jìn)行切詞,可以得到下面的多個(gè)詞語(yǔ):東北、財(cái)經(jīng)、大學(xué)、會(huì)計(jì)、學(xué)院、任教。
[0033]在步驟102,從在步驟101獲得的多個(gè)詞語(yǔ)之中確定待添加鏈接(例如,超級(jí)鏈接)的候選。換言之,從獲得的多個(gè)詞語(yǔ)之中確定需要添加鏈接的詞語(yǔ)。例如,可預(yù)先建立候選數(shù)據(jù)庫(kù),將存在于候選數(shù)據(jù)庫(kù)之中的詞語(yǔ)確定為候選。
[0034]在一個(gè)優(yōu)選實(shí)施例中,為了從獲得的多個(gè)詞語(yǔ)之中確定候選,首先根據(jù)獲得的多個(gè)詞語(yǔ)在內(nèi)容中的原始次序?qū)Λ@得的多個(gè)詞語(yǔ)進(jìn)行組合,以得到至少一個(gè)第一組合。
[0035]例如,仍以上面的“東北財(cái)經(jīng)大學(xué)會(huì)計(jì)學(xué)院任教”為例,第一組合可以是東北財(cái)經(jīng)、財(cái)經(jīng)大學(xué)、財(cái)經(jīng)大學(xué)會(huì)計(jì)、會(huì)計(jì)學(xué)院等,但不能是財(cái)經(jīng)東北、東北大學(xué)等。
[0036]此外,獲得的各個(gè)詞語(yǔ)也可分別作為一個(gè)第一組合。
[0037]隨后,從得到的第一組合之中選擇存在于候選數(shù)據(jù)庫(kù)中的第一組合作為候選。
[0038]優(yōu)選地,當(dāng)選擇出的多個(gè)第一組合在內(nèi)容中的原始位置上存在重疊時(shí),從重疊的第一組合之中選擇最長(zhǎng)的第一組合作為候選。換言之,如果最終得到多個(gè)候選,則最終得到的多個(gè)候選不會(huì)在內(nèi)容中的原始位置上存在重疊。
[0039]例如,仍以上面的“東北財(cái)經(jīng)大學(xué)會(huì)計(jì)學(xué)院任教”為例,第一組合可以是東北財(cái)經(jīng)大學(xué)、東北財(cái)經(jīng)大學(xué)會(huì)計(jì)學(xué)院,這兩個(gè)詞在內(nèi)容的原始位置“東北財(cái)經(jīng)大學(xué)”處存在重疊,因此選擇“東北財(cái)經(jīng)大學(xué)會(huì)計(jì)學(xué)院”作為候選。
[0040]在步驟103,確定每個(gè)候選的類別。例如,可預(yù)先對(duì)候選數(shù)據(jù)庫(kù)中的不同詞語(yǔ)進(jìn)行分類,從而可以確定出不同候選的類別。
[0041]例如,類別可以是自然、文化、地理、歷史、經(jīng)濟(jì)、人物等。然而,本發(fā)明不限于于此,也可以以其他方式進(jìn)行分類。
[0042]在步驟104,確定每個(gè)候選的上下文模式。在本發(fā)明中,上下文模式是指候選與候選在內(nèi)容中的上下文之間的語(yǔ)法結(jié)構(gòu)和/或語(yǔ)意結(jié)構(gòu)。例如,語(yǔ)法結(jié)構(gòu)可以是動(dòng)賓結(jié)構(gòu)、并列結(jié)構(gòu)、偏正結(jié)構(gòu)、主謂結(jié)構(gòu)等。語(yǔ)意結(jié)構(gòu)是指候選與候選的上下文中的特定詞語(yǔ)的組合,也即,存在于候選的上下文中的特定詞語(yǔ)。例如,特定詞語(yǔ)可以是:位于、坐落于、作詞、作曲
坐寸ο
[0043]在步驟105,分別針對(duì)每個(gè)候選確定候選的類別與候選的上下文模式是否對(duì)應(yīng)??深A(yù)先設(shè)置類別與上下文模式之間的對(duì)應(yīng)關(guān)系。例如,可預(yù)先形成類別與上下文模式的映射表,通過(guò)該映射表來(lái)確定候選的類別與候選的上下文模式是否對(duì)應(yīng)。
[0044]當(dāng)在步驟105確定某個(gè)候選的類別與該候選的上下文模式對(duì)應(yīng)時(shí),在步驟106向該候選添加鏈接。換言之,對(duì)于在步驟105中被確定類別與上下文模式對(duì)應(yīng)的候選,在步驟106向該候選添加鏈接。
[0045]可預(yù)先為不同的候選設(shè)置鏈接。例如,候選數(shù)據(jù)庫(kù)中的詞語(yǔ)可與對(duì)應(yīng)的鏈接關(guān)聯(lián)地存儲(chǔ)在候選數(shù)據(jù)庫(kù)中,從而可基于候選從候選數(shù)據(jù)庫(kù)得到與該候選對(duì)應(yīng)的鏈接。
[0046]當(dāng)在步驟105確定某個(gè)候選的類別與該候選的上下文模式不對(duì)應(yīng)時(shí),不向該候選添加鏈接,并結(jié)束該方法。換言之,對(duì)于在步驟105中被確定類別與上下文模式不對(duì)應(yīng)的候選,不向該候選添加鏈接。
[0047]圖2是示出根據(jù)本發(fā)明的另一實(shí)施例的在內(nèi)容中自動(dòng)添加鏈接的方法的流程圖。
[0048]如圖2所示,步驟201-205分別與圖1所示的步驟101-105相同,不再贅述。
[0049]圖2的方法與圖1的方法相比,不同在于,當(dāng)在步驟205確定某個(gè)候選的類別與該候選的上下文模式對(duì)應(yīng)時(shí),在步驟206確定候選在當(dāng)前內(nèi)容中的上下文與候選在其他內(nèi)容中的上下文的相似度。
[0050]這里,其他內(nèi)容是指具有所述候選并且所述候選在其中已經(jīng)被添加了鏈接的內(nèi)容。可預(yù)先獲取不同候選在其他內(nèi)容中的上下文。例如,可預(yù)先收集候選數(shù)據(jù)庫(kù)中的每個(gè)詞語(yǔ)在其他內(nèi)容中的上下文,并與其對(duì)應(yīng)的詞語(yǔ)關(guān)聯(lián)地存儲(chǔ)。
[0051]由于一些詞語(yǔ)(例如,虛詞)基本沒(méi)有語(yǔ)意,導(dǎo)致確定的相似度不準(zhǔn)確。為此,在本發(fā)明的另一個(gè)實(shí)施例中,候選在當(dāng)前內(nèi)容中的上下文與候選在其他內(nèi)容中的上下文的相似度可被定義為候選在當(dāng)前內(nèi)容中的上下文與候選在其他內(nèi)容中的上下文之間的重復(fù)詞語(yǔ)的語(yǔ)意表達(dá)能力之中的最高語(yǔ)意表達(dá)能力。
[0052]這樣,為了確定候選在內(nèi)容中的上下文與候選在其他內(nèi)容中的上下文的相似度,首先獲取候選在內(nèi)容中的上下文與候選在其他內(nèi)容中的上下文的重復(fù)詞語(yǔ),確定每個(gè)重復(fù)詞語(yǔ)的語(yǔ)意表達(dá)能力,然后確定語(yǔ)意表達(dá)能力之中最高的語(yǔ)意表達(dá)能力作為所述相似度。不同詞語(yǔ)的語(yǔ)意表達(dá)能力可被預(yù)先確定,從而可以在使用時(shí)進(jìn)行查詢。此外,應(yīng)該理解,候選在內(nèi)容中的上下文是指在候選附近預(yù)定范圍內(nèi)的內(nèi)容。
[0053]隨后,在步驟207,確定在步驟206中得到的相似度是否大于預(yù)定閾值。
[0054]當(dāng)在步驟207確定相似度大于預(yù)定閾值時(shí),在步驟208向候選添加鏈接。
[0055]當(dāng)在步驟207確定相似度不大于預(yù)定閾值時(shí),不向候選添加鏈接,所述方法結(jié)束。
[0056]圖3是示出根據(jù)本發(fā)明的實(shí)施例的在內(nèi)容中自動(dòng)添加鏈接的設(shè)備的框圖。
[0057]如圖3所示,根據(jù)本發(fā)明的實(shí)施例的在內(nèi)容中自動(dòng)添加鏈接的設(shè)備300包括:切詞單元310、候選確定單元320、類別分析單元330、上下文模式確定單元340、鏈接添加單元350。
[0058]切詞單元310對(duì)內(nèi)容進(jìn)行切詞,以獲得詞語(yǔ)。可利用現(xiàn)有的切詞技術(shù)對(duì)內(nèi)容進(jìn)行切詞。
[0059]候選確定單元320從獲得的詞語(yǔ)確定待添加鏈接的候選。換言之,候選確定單元320從獲得的詞語(yǔ)之中確定需要添加鏈接的詞語(yǔ)。例如,可預(yù)先建立候選數(shù)據(jù)庫(kù),候選確定單元320將存在于候選數(shù)據(jù)庫(kù)之中的詞語(yǔ)確定為候選。
[0060]在一個(gè)優(yōu)選實(shí)施例中,候選確定單元320包括組合單元和選擇單元。
[0061]組合單元根據(jù)在內(nèi)容中的原始次序?qū)Λ@得的多個(gè)詞語(yǔ)進(jìn)行組合,以得到至少一個(gè)第一組合,并且將切詞單元獲得的各個(gè)詞語(yǔ)也分別作為一個(gè)第一組合。選擇單元從得到的第一組合之中選擇存在于預(yù)定數(shù)據(jù)庫(kù)中的第一組合作為候選。
[0062]優(yōu)選地,當(dāng)選擇出的多個(gè)第一組合在內(nèi)容中的原始位置上存在重疊時(shí),選擇單元從重疊的第一組合之中選擇最長(zhǎng)的第一組合作為候選。換言之,如果最終得到多個(gè)候選,則最終得到的多個(gè)候選不會(huì)在內(nèi)容中的原始位置上存在重疊。
[0063]類別分析單元330確定候選的類別。例如,可預(yù)先對(duì)候選數(shù)據(jù)庫(kù)中的不同詞語(yǔ)進(jìn)行分類,從而類別分析單元330可以根據(jù)分類結(jié)果確定出不同候選的類別。
[0064]例如,類別可以是自然、文化、地理、歷史、經(jīng)濟(jì)、人物等。然而,本發(fā)明不限于于此,也可以以其他方式進(jìn)行分類。
[0065]上下文模式確定單元340確定每個(gè)候選的上下文模式。前面已經(jīng)描述了上下文模式的含義,不再贅述。
[0066]鏈接添加單元350可分別針對(duì)每個(gè)候選確定候選的類別與候選的上下文模式是否對(duì)應(yīng)??深A(yù)先設(shè)置類別與上下文模式之間的對(duì)應(yīng)關(guān)系。例如,可預(yù)先形成類別與上下文模式的映射表,鏈接添加單元350通過(guò)該映射表來(lái)確定候選的類別與候選的上下文模式是否對(duì)應(yīng)。
[0067]鏈接添加單元350在確定的類別與確定的上下文模式對(duì)應(yīng)時(shí)向候選添加鏈接。鏈接添加單元350在確定的類別與確定的上下文模式不對(duì)應(yīng)時(shí)不向候選添加鏈接。
[0068]圖4是示出根據(jù)本發(fā)明的另一實(shí)施例的在內(nèi)容中自動(dòng)添加鏈接的設(shè)備的框圖。
[0069]如圖4所示,根據(jù)本發(fā)明的實(shí)施例的在內(nèi)容中自動(dòng)添加鏈接的設(shè)備400包括:切詞單元310、候選確定單元320、類別分析單元330、上下文模式確定單元340、相似度確定單元410、鏈接添加單元420。
[0070]圖4所示的切詞單元310、候選確定單元320、類別分析單元330、上下文模式確定單元340已經(jīng)在前面進(jìn)行了描述,不再贅述。
[0071]相似度確定單元410可分別針對(duì)每個(gè)候選確定候選的類別與候選的上下文模式是否對(duì)應(yīng)。在候選的類別與候選的上下文模式對(duì)應(yīng)時(shí),相似度確定單元410確定候選在內(nèi)容中的上下文與候選在其他內(nèi)容中的上下文的相似度。在候選的類別與候選的上下文模式不對(duì)應(yīng)時(shí),相似度確定單元410停止進(jìn)行操作。
[0072]這里的相似度可以是通過(guò)現(xiàn)有的相似度技術(shù)確定的相似度,也可以是前面描述的本發(fā)明所定義的相似度。
[0073]鏈接添加單元420在由相似度確定單元410確定的相似度大于預(yù)定閾值時(shí),向候選添加鏈接。否則,在由相似度確定單元410確定的相似度不大于預(yù)定閾值時(shí),鏈接添加單元420不向候選添加鏈接。
[0074]根據(jù)本發(fā)明的在內(nèi)容中添加鏈接的方法和設(shè)備,可以實(shí)現(xiàn)自動(dòng)在內(nèi)容中添加鏈接,從而可以避免了人工進(jìn)行鏈接的添加,提高了效率。此外,根據(jù)本發(fā)明的在內(nèi)容中添加鏈接的方法和設(shè)備在內(nèi)容中所添加的鏈接能夠反映網(wǎng)絡(luò)用戶對(duì)鏈接的需要。
[0075]此外,應(yīng)該理解,根據(jù)本發(fā)明的在內(nèi)容中自動(dòng)添加鏈接的方法也可實(shí)現(xiàn)為計(jì)算機(jī)可讀記錄介質(zhì)上的計(jì)算機(jī)可讀代碼。計(jì)算機(jī)可讀記錄介質(zhì)是可存儲(chǔ)其后可由計(jì)算機(jī)系統(tǒng)讀出的數(shù)據(jù)的任意數(shù)據(jù)存儲(chǔ)裝置。計(jì)算機(jī)可讀記錄介質(zhì)的示例包括:只讀存儲(chǔ)器(ROM)、隨機(jī)存取存儲(chǔ)器(RAM)、CD-ROM、磁帶、軟盤、光數(shù)據(jù)存儲(chǔ)裝置和載波(諸如經(jīng)有線或無(wú)線傳輸路徑通過(guò)互聯(lián)網(wǎng)的數(shù)據(jù)傳輸)。計(jì)算機(jī)可讀記錄介質(zhì)也可分布于連接網(wǎng)絡(luò)的計(jì)算機(jī)系統(tǒng),從而計(jì)算機(jī)可讀代碼以分布式存儲(chǔ)和執(zhí)行。此外,完成本發(fā)明的功能程序、代碼和代碼段可容易地被與本發(fā)明相關(guān)的領(lǐng)域的普通程序員在本發(fā)明的范圍之內(nèi)解釋。
[0076]此外,根據(jù)本發(fā)明的示例性實(shí)施例的在內(nèi)容中自動(dòng)添加鏈接的設(shè)備中的各個(gè)單元可被實(shí)現(xiàn)硬件組件。本領(lǐng)域技術(shù)人員根據(jù)限定的各個(gè)單元所執(zhí)行的處理,可以例如使用現(xiàn)場(chǎng)可編程門陣列(FPGA)或?qū)S眉呻娐?ASIC)來(lái)實(shí)現(xiàn)各個(gè)單元。[0077]盡管已經(jīng)參照其示例性實(shí)施例具體顯示和描述了本發(fā)明,但是本領(lǐng)域的技術(shù)人員應(yīng)該理解,在不脫離權(quán)利要求所限定的本發(fā)明的精神和范圍的情況下,可以對(duì)其進(jìn)行形式和細(xì)節(jié)上的各種改變。
【權(quán)利要求】
1.一種在內(nèi)容中添加鏈接的方法,包括: 對(duì)內(nèi)容進(jìn)行切詞,以獲得詞語(yǔ); 從獲得的詞語(yǔ)之中確定待添加鏈接的候選; 確定候選的類別; 確定候選的上下文模式; 當(dāng)候選的類別與候選的上下文模式對(duì)應(yīng)時(shí),向候選添加鏈接。
2.根據(jù)權(quán)利要求1所述的方法,其中,上下文模式是指候選與候選在內(nèi)容中的上下文之間的語(yǔ)法結(jié)構(gòu)和/或語(yǔ)意結(jié)構(gòu)。
3.根據(jù)權(quán)利要求1所述的方法,其中,從獲得的詞語(yǔ)確定待添加鏈接的候選的步驟包括: 根據(jù)在內(nèi)容中的原始次序?qū)Λ@得的詞語(yǔ)進(jìn)行組合,以得到至少一個(gè)第一組合,并且將獲得的各個(gè)詞語(yǔ)分別作為一個(gè)第一組合; 從第一組合之中選擇存在于預(yù)定數(shù)據(jù)庫(kù)中的第一組合作為候選。
4.根據(jù)權(quán)利要求3所述的方 法,其中,從得到的第一組合之中選擇存在于預(yù)定數(shù)據(jù)庫(kù)中的第一組合作為候選的步驟還包括: 當(dāng)在選擇的第一組合之中存在位置上重疊的第一組合時(shí),從重疊的第一組合之中選擇最長(zhǎng)的第一組合作為候選。
5.根據(jù)權(quán)利要求1所述的方法,其中,當(dāng)候選的類別與候選的上下文模式對(duì)應(yīng)時(shí),向候選添加鏈接的步驟包括: 當(dāng)候選的類別與候選的上下文模式對(duì)應(yīng)時(shí),確定候選在內(nèi)容中的上下文與候選在其他內(nèi)容中的上下文的相似度; 當(dāng)確定的相似度大于預(yù)定閾值時(shí),向候選添加鏈接。
6.根據(jù)權(quán)利要求5所述的方法,其中,向候選添加鏈接的步驟還包括: 當(dāng)確定的相似度不大于預(yù)定閾值時(shí),不向候選添加鏈接。
7.根據(jù)權(quán)利要求5所述的方法,其中,確定候選在內(nèi)容中的上下文與候選在其他內(nèi)容中的上下文的相似度的步驟包括: 獲取候選在內(nèi)容中的上下文與候選在其他內(nèi)容中的上下文的重復(fù)詞語(yǔ); 確定每個(gè)重復(fù)詞語(yǔ)的語(yǔ)意表達(dá)能力; 確定的語(yǔ)意表達(dá)能力之中最高的語(yǔ)意表達(dá)能力作為所述相似度。
8.根據(jù)權(quán)利要求5所述的方法,其中,所述其他內(nèi)容具有所述候選并且所述候選已經(jīng)在所述其他內(nèi)容中被添加了鏈接。
9.一種在內(nèi)各中添加鏈接的設(shè)備,包括: 切詞單元,對(duì)內(nèi)容進(jìn)行切詞,以獲得詞語(yǔ); 候選確定單元,從獲得的詞語(yǔ)之中確定待添加鏈接的候選; 類別分析單元,確定候選的類別; 上下文模式確定單元,確定候選的上下文模式; 鏈接添加單元,當(dāng)確定的類別與確定的上下文模式對(duì)應(yīng)時(shí),向候選添加鏈接。
10.根據(jù)權(quán)利要求9所述的設(shè)備,其中,上下文模式是指候選與候選在內(nèi)容中的上下文之間的語(yǔ)法結(jié)構(gòu)和/或語(yǔ)意結(jié)構(gòu)。
11.根據(jù)權(quán)利要求9所述的設(shè)備,其中,候選確定單元包括: 組合單元,根據(jù)在內(nèi)容中的原始次序?qū)Λ@得的詞語(yǔ)進(jìn)行組合,以得到至少一個(gè)第一組合,并且將切詞單元獲得的各個(gè)詞語(yǔ)分別作為一個(gè)第一組合; 選擇單元,從第一組合之中選擇存在于預(yù)定數(shù)據(jù)庫(kù)中的第一組合作為候選。
12.根據(jù)權(quán)利要求11所述的設(shè)備,其中,當(dāng)在選擇的第一組合之中存在位置上重疊的第一組合時(shí),選擇單元從重疊的第一組合之中選擇最長(zhǎng)的第一組合作為候選。
13.根據(jù)權(quán)利要求9所述的設(shè)備,還包括:相似度確定單元,當(dāng)候選的類別與候選的上下文模式對(duì)應(yīng)時(shí),確定候選在內(nèi)容中的上下文與候選在其他內(nèi)容中的上下文的相似度, 其中,當(dāng)確定的相似度大于預(yù)定閾值時(shí),鏈接添加單元向候選添加鏈接。
14.根據(jù)權(quán)利要求13所述的設(shè)備,其中,當(dāng)確定的相似度不大于預(yù)定閾值時(shí),鏈接添加單元不向候選添加鏈接。
15.根據(jù)權(quán)利要求13所述的設(shè)備,其中,所述相似度表示候選在內(nèi)容中的上下文與候選在其他內(nèi)容中的上下文之間的重復(fù)詞語(yǔ)的語(yǔ)意表達(dá)能力之中的最高語(yǔ)意表達(dá)能力。
16.根據(jù)權(quán)利要求13所述的設(shè)備,其中,所述其他內(nèi)容具有所述候選并且所述候選已經(jīng)在所述其他內(nèi)容中被添加 了鏈接。
【文檔編號(hào)】G06F17/30GK103455620SQ201310414978
【公開(kāi)日】2013年12月18日 申請(qǐng)日期:2013年9月12日 優(yōu)先權(quán)日:2013年9月12日
【發(fā)明者】王維維 申請(qǐng)人:百度在線網(wǎng)絡(luò)技術(shù)(北京)有限公司