專利名稱:基于微博平臺的擴展關(guān)鍵詞獲取方法和設(shè)備的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及互聯(lián)網(wǎng)應(yīng)用技術(shù),更具體地,涉及一種基于微博平臺的擴展關(guān)鍵詞獲取方法和設(shè)備。
背景技術(shù):
在互聯(lián)網(wǎng)發(fā)展的今天,微博已逐漸成為人們溝通交流的一種重要方式。如何在龐雜的網(wǎng)絡(luò)數(shù)據(jù)中提取關(guān)聯(lián)的信息以進行更有效的檢索和知識發(fā)現(xiàn)已對互聯(lián)網(wǎng)技術(shù)提出了新的挑戰(zhàn)。例如,與其它互聯(lián)網(wǎng)應(yīng)用類似,當(dāng)用戶在微博平臺的搜索引擎中輸入想要搜索的關(guān)鍵詞時,期望能夠?qū)崟r地提供與所輸入的關(guān)鍵詞相關(guān)聯(lián)的一系列擴展關(guān)鍵詞,從而使得用戶能夠更高效地檢索到所需要的信息,這也是本發(fā)明迫切需要解決的問題。
發(fā)明內(nèi)容
在下文中給出了關(guān)于本發(fā)明的簡要概述,以便提供關(guān)于本發(fā)明的某些方面的基本理解。但是,應(yīng)當(dāng)理解,這個概述并不是關(guān)于本發(fā)明的窮舉性概述。它并不是意圖用來確定本發(fā)明的關(guān)鍵性部分或重要部分,也不是意圖用來限定本發(fā)明的范圍。其目的僅僅是以簡化的形式給出關(guān)于本發(fā)明的某些概念,以此作為稍后給出的更詳細描述的前序。因此,本發(fā)明的目的是提供一種基于微博平臺的擴展關(guān)鍵詞獲取方法和設(shè)備,其能夠在用戶在微博平臺上輸入關(guān)鍵詞進行信息檢索時,通過圖構(gòu)建技術(shù),構(gòu)建出有利于檢索的帶有權(quán)重流向的圖結(jié)構(gòu),從而能夠直觀地、實時地向用戶提供擴展關(guān)鍵詞,進而大大提高了檢索效率。為了實現(xiàn)上述目的,根據(jù)本發(fā)明的實施例的一個方面,提供了一種基于微博平臺的擴展關(guān)鍵詞獲取方法,該方法包括:條目獲取步驟,以輸入的關(guān)鍵詞在微博平臺進行搜索,以獲取與所輸入的關(guān)鍵詞相關(guān)聯(lián)的多個條目;微博條目圖構(gòu)建步驟,以所獲取的多個條目作為微博條目圖的節(jié)點、以各節(jié)點之間的關(guān)系作為微博條目圖的邊,計算微博條目圖的各節(jié)點的權(quán)重和各條邊的權(quán)重,從而構(gòu)建與所輸入的關(guān)鍵詞相關(guān)的微博條目圖;關(guān)鍵詞袋提取步驟,從所獲取的多個條目提取關(guān)鍵詞袋;以及關(guān)鍵詞擴展圖構(gòu)建步驟,以所輸入的關(guān)鍵詞和所提取的關(guān)鍵詞袋中的各個關(guān)鍵詞作為關(guān)鍵詞擴展圖的節(jié)點、以所輸入的關(guān)鍵詞與各個關(guān)鍵詞之間的關(guān)系作為關(guān)鍵詞擴展圖的邊,計算關(guān)鍵詞擴展圖的各節(jié)點的權(quán)重和各條邊的權(quán)重,從而構(gòu)建與所輸入的關(guān)鍵詞相關(guān)的關(guān)鍵詞擴展圖。根據(jù)本發(fā)明的實施例的另一方面,還提供了一種基于微博平臺的擴展關(guān)鍵詞獲取設(shè)備,該設(shè)備包括:條目獲取模塊,被配置成以輸入的關(guān)鍵詞在微博平臺進行搜索,以獲取與所輸入的關(guān)鍵詞相關(guān)聯(lián)的多個條目;微博條目圖構(gòu)建模塊,被配置成以所獲取的多個條目作為微博條目圖的節(jié)點、以各節(jié)點之間的關(guān)系作為微博條目圖的邊,計算微博條目圖的各節(jié)點的權(quán)重和各條邊的權(quán)重,從而構(gòu)建與所輸入的關(guān)鍵詞相關(guān)的微博條目圖;關(guān)鍵詞袋提取模塊,被配置成從所獲取的多個條目提取關(guān)鍵詞袋;以及關(guān)鍵詞擴展圖構(gòu)建模塊,被配置成以所輸入的關(guān)鍵詞和所提取的關(guān)鍵詞袋中的各個關(guān)鍵詞作為關(guān)鍵詞擴展圖的節(jié)點、以所輸入的關(guān)鍵詞與所述各個關(guān)鍵詞之間的關(guān)系作為關(guān)鍵詞擴展圖的邊,計算關(guān)鍵詞擴展圖的各節(jié)點的權(quán)重和各條邊的權(quán)重,從而構(gòu)建與所輸入的關(guān)鍵詞相關(guān)的關(guān)鍵詞擴展圖。另外,根據(jù)本發(fā)明的實施例的又一方面,還提供了一種存儲介質(zhì),該存儲介質(zhì)包括機器可讀的程序代碼,當(dāng)在信息處理設(shè)備上執(zhí)行程序代碼時,該程序代碼使得信息處理設(shè)備執(zhí)行根據(jù)本發(fā)明的基于微博平臺的擴展關(guān)鍵詞獲取方法。此外,根據(jù)本發(fā)明的實施例的再一方面,還提供了一種程序產(chǎn)品,該程序產(chǎn)品包括機器可執(zhí)行的指令,當(dāng)在信息處理設(shè)備上執(zhí)行指令時,該指令使得信息處理設(shè)備執(zhí)行根據(jù)本發(fā)明的基于微博平臺的擴展關(guān)鍵詞獲取方法。因此,根據(jù)本發(fā)明的實施例,能夠通過構(gòu)建帶有權(quán)重流向的關(guān)鍵詞擴展圖,從而直觀地、實時地向用戶呈現(xiàn)與所輸入的關(guān)鍵詞相關(guān)聯(lián)的擴展關(guān)鍵詞,以更高效地進行信息檢索。在下面的說明書部分中給出本發(fā)明實施例的其他方面,其中,詳細說明用于充分地公開本發(fā)明實施例的優(yōu)選實施例,而不對其施加限定。
下面結(jié)合具體的實施例,并參照附圖,對本發(fā)明實施例的上述和其它目的和優(yōu)點做進一步的描述。在附圖中,相同的或?qū)?yīng)的技術(shù)特征或部件將采用相同或?qū)?yīng)的附圖標(biāo)記來表示。圖1示出了根據(jù)本發(fā)明的實施例的基于微博平臺的擴展關(guān)鍵詞獲取方法的流程圖;圖2示意性地示出了所構(gòu)建的微博條目圖;圖3詳細示出了圖1中的微博條目圖構(gòu)建步驟;圖4詳細示出了圖1中的關(guān)鍵詞擴展圖構(gòu)建步驟;圖5示意性地示出了所構(gòu)建的關(guān)鍵詞擴展圖;圖6是示出根據(jù)本發(fā)明的實施例的基于微博平臺的擴展關(guān)鍵詞獲取設(shè)備的功能配置的框圖;圖7詳細示出了圖6中的微博條目圖構(gòu)建模塊的功能配置;圖8詳細示出了圖6中的關(guān)鍵詞擴展圖構(gòu)建模塊的功能配置;以及圖9是示出作為本發(fā)明的實施例中所采用的信息處理設(shè)備的個人計算機的示例性結(jié)構(gòu)的框圖。
具體實施例方式在下文中將結(jié)合附圖對本發(fā)明的示范性實施例進行描述。為了清楚和簡明起見,在說明書中并未描述實際實施方式的所有特征。然而,應(yīng)該了解,在開發(fā)任何這種實際實施例的過程中必須做出很多特定于實施方式的決定,以便實現(xiàn)開發(fā)人員的具體目標(biāo),例如,符合與系統(tǒng)及業(yè)務(wù)相關(guān)的那些限制條件,并且這些限制條件可能會隨著實施方式的不同而有所改變。此外,還應(yīng)該了解,雖然開發(fā)工作有可能是非常復(fù)雜和費時的,但對得益于本公開內(nèi)容的本領(lǐng)域技術(shù)人員來說,這種開發(fā)工作僅僅是例行的任務(wù)。在此,還需要說明的一點是,為了避免因不必要的細節(jié)而模糊了本發(fā)明,在附圖中僅僅示出了與根據(jù)本發(fā)明的方案密切相關(guān)的設(shè)備結(jié)構(gòu)和/或處理步驟,而省略了與本發(fā)明關(guān)系不大的其它細節(jié)。以下參照附圖1至9來描述本發(fā)明的實施例。在本發(fā)明的實施例中,以新浪微博平臺為例進行描述。首先將參照圖1,描述根據(jù)本發(fā)明的實施例的基于微博平臺的擴展關(guān)鍵詞獲取方法。該基于微博平臺的擴展關(guān)鍵詞獲取方法可以包括:條目獲取步驟SlOl:以輸入的關(guān)鍵詞在微博平臺進行搜索,以獲取與所輸入的關(guān)鍵詞相關(guān)聯(lián)的多個條目。具體地,在新浪微博平臺的搜索引擎中輸入想要檢索的關(guān)鍵詞,從而返回與該關(guān)鍵詞相關(guān)聯(lián)的多個條目。微博條目圖構(gòu)建步驟S102:以在步驟SlOl中獲取的多個條目作為微博條目圖的節(jié)點、以各節(jié)點之間的關(guān)系作為微博條目圖的邊,計算微博條目圖的各節(jié)點的權(quán)重和各條邊的權(quán)重,從而構(gòu)建與所輸入的關(guān)鍵詞相關(guān)的微博條目圖。參照圖2,其示意性地示出了所構(gòu)建的微博條目圖。具體地,微博條目圖的節(jié)點可以包括以下類型中的一個或多個:所發(fā)布的微博條目、所轉(zhuǎn)發(fā)的微博條目、與微博條目相關(guān)聯(lián)的評論以及與評論相關(guān)聯(lián)的回復(fù)。其中,所發(fā)布的微博條目包括所輸入的關(guān)鍵詞,而所轉(zhuǎn)發(fā)的微博條目、與微博條目相關(guān)聯(lián)的評論以及與評論相關(guān)聯(lián)的回復(fù)不一定包括所輸入的關(guān)鍵詞。微博條目圖的邊可以包括以下類型中的一個或多個:表示兩個節(jié)點是由同一作者發(fā)布的微博條目的邊、表示一個節(jié)點是對另一節(jié)點的評論、回復(fù)或轉(zhuǎn)發(fā)的邊。由于所構(gòu)建的微博條目圖是帶有權(quán)重流向的圖,因此,接下來將參照圖3詳細描述微博條目圖中各節(jié)點和各條邊的權(quán)重的計算方法。具體地,參照圖3,微博條目圖構(gòu)建步驟S102可以包括第一邊權(quán)重計算子步驟S301和第一節(jié)點權(quán)重計算子步驟S302。在第一邊權(quán)重計算子步驟S301中,可以基于微博條目圖的邊的類型、作者的粉絲數(shù)目以及微博條目圖的各節(jié)點的文本長度,計算微博條目圖的各條邊的權(quán)重。優(yōu)選地,根據(jù)以下公式⑴計算微博條目圖的各條邊的權(quán)重:W1 = Type* ( λ jN(followers) + λ 2N(textlength)) (I)其中,Type表示不同類型的邊的權(quán)重值,其取經(jīng)驗值,通常轉(zhuǎn)發(fā)的權(quán)重值>評論的權(quán)重值> 回復(fù)的權(quán)重值>是同一作者的權(quán)重值;λ 1、λ 2分別表示作者的粉絲數(shù)目的權(quán)重以及文本長度權(quán)重,其分別取經(jīng)驗值,其中如果X1或λ 2之一為0,則僅考慮作者的粉絲數(shù)目或文本長度的影響;Ν()為歸一化公式,以避免值的波動過大從而造成計算偏差,優(yōu)選地,對于粉絲數(shù)目,N(followers) = log (followers),而對于文本長度,
N(al) = -^= al 1=,其中3表示文本長度。應(yīng)理解,此處的歸一化公式僅
V&1 + &2 +...+ an
為示例而非限制,本領(lǐng)域技術(shù)人員可容易想到采用其它歸一化方法來避免數(shù)據(jù)波動過大。上述公式(I)所依據(jù)的理論基礎(chǔ)為:轉(zhuǎn)發(fā)越多、評論越多、回復(fù)越多、內(nèi)容越豐富(即,文本長度越長),則該節(jié)點的權(quán)重越大;同樣地,所發(fā)布的微博或評論會受到作者的影響,作者的粉絲越多,則讀到該微博或評論的機會就越大,從而該節(jié)點的權(quán)重也相應(yīng)地上升。在第一節(jié)點權(quán)重計算子步驟S302中, 可以基于在步驟S301中算出的微博條目圖的邊權(quán)重以及各節(jié)點的出度,利用個性化排序技術(shù)來計算微博條目圖的各節(jié)點的權(quán)重。優(yōu)選地,可以利用以下公式⑵來計算各節(jié)點的權(quán)重:
權(quán)利要求
1.一種基于微博平臺的擴展關(guān)鍵詞獲取方法,包括: 條目獲取步驟,以輸入的關(guān)鍵詞在微博平臺進行搜索,以獲取與所輸入的關(guān)鍵詞相關(guān)聯(lián)的多個條目; 微博條目圖構(gòu)建步驟,以所獲取的多個條目作為微博條目圖的節(jié)點、以各節(jié)點之間的關(guān)系作為所述微博條目圖的邊,計算所述微博條目圖的各節(jié)點的權(quán)重和各條邊的權(quán)重,從而構(gòu)建與所輸入的關(guān)鍵詞相關(guān)的微博條目圖; 關(guān)鍵詞袋提取步驟,從所獲取的多個條目提取關(guān)鍵詞袋;以及 關(guān)鍵詞擴展圖構(gòu)建步驟,以所輸入的關(guān)鍵詞和所提取的關(guān)鍵詞袋中的各個關(guān)鍵詞作為關(guān)鍵詞擴展圖的節(jié)點、以所輸入的關(guān)鍵詞與所述各個關(guān)鍵詞之間的關(guān)系作為所述關(guān)鍵詞擴展圖的邊,計算所述關(guān)鍵詞擴展圖的各節(jié)點的權(quán)重和各條邊的權(quán)重,從而構(gòu)建與所輸入的關(guān)鍵詞相關(guān)的關(guān)鍵詞擴展圖。
2.根據(jù)權(quán)利要求1所述的方法,其中,所述微博條目圖構(gòu)建步驟進一步包括:第一邊權(quán)重計算子步驟,基于所述微博條目圖的邊的類型、作者的粉絲數(shù)目以及所述微博條目圖的各節(jié)點的文本長度,計算所述微博條目圖的各條邊的權(quán)重。
3.根據(jù)權(quán)利要求1所述的方法,其中,所述微博條目圖構(gòu)建步驟進一步包括:第一節(jié)點權(quán)重計算子步驟,基于算出的所述微博條目圖的各條邊的權(quán)重以及各節(jié)點的出度,利用個性化排序技術(shù)計算所述微博條目圖的各節(jié)點的權(quán)重。
4.根據(jù)權(quán)利要求1所述的方法,其中,所述關(guān)鍵詞擴展圖構(gòu)建步驟進一步包括:第二邊權(quán)重計算子步驟,基于所輸入的關(guān)鍵詞與所提取的關(guān)鍵詞袋中的各個關(guān)鍵詞之間的支持度和置信度,計算所述關(guān)鍵詞擴展圖的各條邊的權(quán)重。
5.根據(jù)權(quán)利要求1所述的方法,其中,所述關(guān)鍵詞擴展圖構(gòu)建步驟進一步包括:第二節(jié)點權(quán)重計算子步驟,基于所述微 博條目圖中包括某一關(guān)鍵詞的節(jié)點的權(quán)重,計算關(guān)鍵詞擴展圖中該關(guān)鍵詞節(jié)點的權(quán)重。
6.一種基于微博平臺的擴展關(guān)鍵詞獲取設(shè)備,包括: 條目獲取模塊,被配置成以輸入的關(guān)鍵詞在微博平臺進行搜索,以獲取與所輸入的關(guān)鍵詞相關(guān)聯(lián)的多個條目; 微博條目圖構(gòu)建模塊,被配置成以所獲取的多個條目作為微博條目圖的節(jié)點、以各節(jié)點之間的關(guān)系作為所述微博條目圖的邊,計算所述微博條目圖的各節(jié)點的權(quán)重和各條邊的權(quán)重,從而構(gòu)建與所輸入的關(guān)鍵詞相關(guān)的微博條目圖; 關(guān)鍵詞袋提取模塊,被配置成從所獲取的多個條目提取關(guān)鍵詞袋;以及 關(guān)鍵詞擴展圖構(gòu)建模塊,被配置成以所輸入的關(guān)鍵詞和所提取的關(guān)鍵詞袋中的各個關(guān)鍵詞作為關(guān)鍵詞擴展圖的節(jié)點、以所輸入的關(guān)鍵詞與所述各個關(guān)鍵詞之間的關(guān)系作為所述關(guān)鍵詞擴展圖的邊,計算所述關(guān)鍵詞擴展圖的各節(jié)點的權(quán)重和各條邊的權(quán)重,從而構(gòu)建與所輸入的關(guān)鍵詞相關(guān)的關(guān)鍵詞擴展圖。
7.根據(jù)權(quán)利要求6所述的設(shè)備,其中,所述微博條目圖構(gòu)建模塊進一步包括:第一邊權(quán)重計算子模塊,被配置成基于所述微博條目圖的邊的類型、作者的粉絲數(shù)目以及所述微博條目圖的各節(jié)點的文本長度,計算所述微博條目圖的各條邊的權(quán)重。
8.根據(jù)權(quán)利要求6所述的設(shè)備,其中,所述微博條目圖構(gòu)建模塊進一步包括:第一節(jié)點權(quán)重計算子模塊,被配置成基于算出的所述微博條目圖的各條邊的權(quán)重以及各節(jié)點的出度,利用個性化排序技術(shù)計算所述微博條目圖的各節(jié)點的權(quán)重。
9.根據(jù)權(quán)利要求6所述的設(shè)備,其中,所述關(guān)鍵詞擴展圖構(gòu)建包括進一步包括:第二邊權(quán)重計算子模塊,被配置成基于所輸入的關(guān)鍵詞與所提取的關(guān)鍵詞袋中的各個關(guān)鍵詞之間的支持度和置信度,計算所述關(guān)鍵詞擴展圖的各條邊的權(quán)重。
10.根據(jù)權(quán)利要求6所述的設(shè)備,其中,所述關(guān)鍵詞擴展圖構(gòu)建包括進一步包括:第二節(jié)點權(quán)重計算子模塊,被配置成基于所述微博條目圖中包括某一關(guān)鍵詞的節(jié)點的權(quán)重,計算關(guān)鍵詞擴展圖中該 關(guān)鍵詞節(jié)點的權(quán)重。
全文摘要
本發(fā)明公開了一種基于微博平臺的擴展關(guān)鍵詞獲取方法和設(shè)備,該方法包括條目獲取步驟,以輸入的關(guān)鍵詞在微博平臺進行搜索,以獲取與所輸入的關(guān)鍵詞相關(guān)聯(lián)的多個條目;微博條目圖構(gòu)建步驟,以多個條目作為節(jié)點、以各節(jié)點之間的關(guān)系作為邊,計算微博條目圖的各節(jié)點和各條邊的權(quán)重,從而構(gòu)建微博條目圖;關(guān)鍵詞袋提取步驟,從多個條目提取關(guān)鍵詞袋;以及關(guān)鍵詞擴展圖構(gòu)建步驟,以所輸入的關(guān)鍵詞和關(guān)鍵詞袋中的各個關(guān)鍵詞作為節(jié)點、以所輸入的關(guān)鍵詞與各個關(guān)鍵詞之間的關(guān)系作為邊,計算關(guān)鍵詞擴展圖的各節(jié)點和各條邊的權(quán)重,從而構(gòu)建關(guān)鍵詞擴展圖。根據(jù)本發(fā)明的實施例,能夠?qū)崟r地獲取擴展關(guān)鍵詞,提高了檢索效率,有利于更高效地獲取知識和信息。
文檔編號G06F17/30GK103164415SQ201110410180
公開日2013年6月19日 申請日期2011年12月9日 優(yōu)先權(quán)日2011年12月9日
發(fā)明者張波, 孟遙, 于浩 申請人:富士通株式會社