本發(fā)明涉及移動互聯(lián)網(wǎng)技術(shù),尤其涉及用于微信公眾平臺的信息處理方法、裝置、及系統(tǒng)。
背景技術(shù):
微信是騰訊公司發(fā)布的一款為智能終端提供即時通訊服務(wù)的免費(fèi)應(yīng)用程序,支持跨通信運(yùn)營商、跨操作系統(tǒng)平臺通過網(wǎng)絡(luò)快速發(fā)送免費(fèi)語音短信、視頻、圖片和文字。
隨著微信用戶的增多以及功能愈趨強(qiáng)大,騰訊公司推出了微信公眾平臺以給個人、企業(yè)和組織提供業(yè)務(wù)服務(wù)與用戶管理能力。微信公眾號是開發(fā)者或商家在微信公眾平臺上申請的應(yīng)用賬號。通過公眾號,商家可在微信平臺上實(shí)現(xiàn)和特定群體的文字、圖片、語音、視頻的全方位溝通、互動。
微信公眾平臺由于用戶基數(shù)較大,現(xiàn)有的微信公眾平臺無法完全滿足用戶的需求。例如,目前當(dāng)微信公眾號的訂閱用戶在客戶端進(jìn)入某一公眾號查閱文章內(nèi)容時,無法按照個人需求快速、準(zhǔn)確地搜索到滿足要求的文章內(nèi)容,只能點(diǎn)擊“查看歷史消息”翻閱文章圖文列表。用戶當(dāng)然也無法向微信公眾號提出問題以獲得解答。
技術(shù)實(shí)現(xiàn)要素:
以下給出一個或多個方面的簡要概述以提供對這些方面的基本理解。此概述不是所有構(gòu)想到的方面的詳盡綜覽,并且既非旨在指認(rèn)出所有方面的關(guān)鍵性或決定性要素亦非試圖界定任何或所有方面的范圍。其唯一的目的是要以簡化形式給出一個或多個方面的一些概念以為稍后給出的更加詳細(xì)的描述之序。
根據(jù)本發(fā)明的一方面,提供了一種用于微信公眾平臺的信息處理方法,該微信公眾平臺包括平臺服務(wù)器,該平臺服務(wù)器中包括與各微信公眾號相關(guān)聯(lián)的文檔,其特征在于,該信息處理方法包括接入該平臺服務(wù)器的數(shù)據(jù)接口;經(jīng)由該數(shù)據(jù)接口從該平臺服務(wù)器接收與預(yù)定微信公眾號相關(guān)聯(lián)的文檔集合;經(jīng)由該數(shù)據(jù)接口從該平臺服務(wù)器接收該預(yù)定微信公眾號的用戶輸入的數(shù)據(jù);以及基于該用戶輸入的數(shù)據(jù)從與該預(yù)定微信公眾號相關(guān)聯(lián)的文檔集合中匹配關(guān)聯(lián)文檔。
根據(jù)本發(fā)明的另一方面,提供了一種用于微信公眾平臺的信息處理裝置,該微信公眾平臺包括平臺服務(wù)器,該平臺服務(wù)器中包括與各微信公眾號相關(guān)聯(lián)的文檔,其特征在于,該信息處理裝置包括:通信模塊,該通信模塊接入該平臺服務(wù)器的數(shù)據(jù)接口,經(jīng)由該數(shù)據(jù)接口從該平臺服務(wù)器接收與預(yù)定微信公眾號相關(guān)聯(lián)的文檔集合以及該預(yù)定微信公眾號的用戶輸入的數(shù)據(jù);以及匹配模塊,用于基于該用戶輸入的數(shù)據(jù)從與該預(yù)定微信公眾號相關(guān)聯(lián)的文檔集合中匹配關(guān)聯(lián)文檔。
根據(jù)本發(fā)明的再一方面,還提供了一種信息處理系統(tǒng),包括微信公眾平臺和上述的信息處理裝置,該微信公眾平臺包括平臺服務(wù)器,該平臺服務(wù)器中包括與各微信公眾號相關(guān)聯(lián)的文檔。
根據(jù)本發(fā)明的方案,增強(qiáng)了用戶與微信公眾號的互動。用戶訂閱公眾號即為獲得信息。通過與微信公眾號的增強(qiáng)的互動,用戶可以主動地在微信公眾號中檢索感興趣的內(nèi)容,甚至可以直接提出問題,從微信公眾號的文檔集合中獲得答案。這大大提高了微信公眾號的實(shí)用性。
附圖說明
在結(jié)合以下附圖閱讀本公開的實(shí)施例的詳細(xì)描述之后,能夠更好地理解本發(fā)明的上述特征和優(yōu)點(diǎn)。在附圖中,各組件不一定是按比例繪制,并且具有類似的相關(guān)特性或特征的組件可能具有相同或相近的附圖標(biāo)記。
圖1是示出了根據(jù)本發(fā)明的一方面的用于微信公眾平臺的信息處理裝置的部署環(huán)境的框圖;
圖2是示出了根據(jù)發(fā)明的一方面的用于微信公眾平臺的信息處理裝置的框圖;
圖3是示出了根據(jù)本發(fā)明的第一實(shí)施例的信息處理裝置的框圖;
圖4是示出了根據(jù)本發(fā)明的第二實(shí)施例的信息處理裝置的框圖;
圖5是示出了根據(jù)本發(fā)明的第三實(shí)施例的信息處理裝置的框圖;以及
圖6是示出了根據(jù)本發(fā)明的一方面的用于微信公眾平臺的信息處理方法的流程圖。
具體實(shí)施方式
以下結(jié)合附圖和具體實(shí)施例對本發(fā)明作詳細(xì)描述。注意,以下結(jié)合附圖和具體實(shí)施例描述的諸方面僅是示例性的,而不應(yīng)被理解為對本發(fā)明的保護(hù)范圍進(jìn)行任何限制。
個人、企業(yè)和組織可以通過微信公眾平臺申請微信公眾號,申請獲得公眾微信賬號后,可以進(jìn)入微信公眾平臺的后臺,即登錄微信公眾平臺的平臺服務(wù)器,以實(shí)現(xiàn)實(shí)時交流、消息發(fā)送和素材管理。
目前,微信公眾平臺提供的服務(wù)仍有一定的局限性,例如與用戶主動交互的功能性方面有所欠缺。在本發(fā)明中,提供了一個信息處理裝置作為對微信公眾平臺的功能的增補(bǔ),增強(qiáng)了用戶與微信公眾號的互動,獲得了更多功能性。
圖1是示出了根據(jù)發(fā)明的一方面的用于微信公眾平臺的信息處理裝置的部署環(huán)境的框圖。
在圖1中,部署有微信公眾平臺的平臺服務(wù)器110,微信公眾平臺的服務(wù)由平臺服務(wù)器110提供。在申請獲得微信公眾號后,公眾號管理員通過平臺服務(wù)器110維護(hù)自己的公眾號,例如管理公眾號的素材,即該公眾號向讀者發(fā)布文章的素材。
平臺服務(wù)器110可經(jīng)由網(wǎng)絡(luò)120與用戶終端130通信。例如,用戶終端130上可裝有微信軟件,并訂閱了某微信公眾號。該微信公眾號可向用戶終端130上的微信軟件推送內(nèi)容。
這里的用戶終端130可以是有線終端或無線終端。終端也可被稱為系統(tǒng)、設(shè)備、訂戶單元、訂戶站、移動站、移動臺、移動設(shè)備、遠(yuǎn)程站、遠(yuǎn)程終端、接入終端、用戶終端、終端、通信設(shè)備、用戶代理、用戶設(shè)備、或用戶裝備(UE),例如手機(jī)、ipad等等。
這里的網(wǎng)絡(luò)120可以采用諸如CDMA、TDMA、FDMA、OFDMA、SC-FDMA等各種系統(tǒng)。CDMA系統(tǒng)可實(shí)現(xiàn)諸如通用地面無線電接入(UTRA)、cdma2000等無線電技術(shù)。TDMA系統(tǒng)可實(shí)現(xiàn)諸如全球移動通信系統(tǒng)(GSM)等無線電技術(shù)。OFDMA系統(tǒng)可實(shí)現(xiàn)諸如演進(jìn)型UTRA(E-UTRA)、超移動寬帶(UMB)、IEEE 802.11(Wi-Fi)、IEEE 802.16(WiMAX)、IEEE 802.20、Flash-OFDM等之類的無線電技術(shù)。
微信公眾號的管理者可向平臺服務(wù)器110上傳并管理用于發(fā)布公眾號內(nèi)容的素材。這些素材被用于制作微信公眾號所發(fā)布的文章內(nèi)容。
根據(jù)本發(fā)明的一方面,提供了信息處理裝置140,該信息處理裝置140可以接入平臺服務(wù)器110的數(shù)據(jù)接口,以與平臺服務(wù)器110相通信,如圖1中的雙向箭頭所示。這里的“接入”可以是通過有線鏈接或者無線鏈接來實(shí)現(xiàn)。
圖2是示出了根據(jù)發(fā)明的一方面的用于微信公眾平臺的信息處理裝置200的框圖。這里的信息處理裝置200可以是圖1中所示的信息處理裝置140的示例。
如圖2所示,信息處理裝置200可包括通信模塊210和匹配模塊220。
信息處理裝置200可經(jīng)由通信模塊210接入微信公眾平臺的平臺服務(wù)器的數(shù)據(jù)接口。具體地,通信模塊210可經(jīng)由該數(shù)據(jù)接口從平臺服務(wù)器接收與各微信公眾號相關(guān)聯(lián)的文檔集合。
如前所述,微信公眾號的管理者會向平臺服務(wù)器上傳各種素材以制作微信公眾號發(fā)布的文檔。這些文檔的集合被存儲在平臺服務(wù)器中。通信模塊210可經(jīng)由該數(shù)據(jù)接口獲取與預(yù)定微信公眾號相關(guān)聯(lián)的文檔集合。
另一方面,通信模塊210還可經(jīng)由該數(shù)據(jù)接口獲取該微信公眾號的用戶向該微信公眾號輸入的數(shù)據(jù)。這里的數(shù)據(jù)可以是用戶向微信公眾號輸入的關(guān)鍵詞或者詢問的問題。
例如,該微信公眾號可以是旅游相關(guān)的公眾號,則用戶可能希望檢索與某個主題相關(guān)的內(nèi)容。為此,用戶可輸入某個關(guān)鍵詞來查詢這些內(nèi)容?;蛘撸脩艨赡苡幸粋€旅游方面的問題,也可以向該微信公眾號發(fā)出詢問,以獲得相關(guān)的解答。
匹配模塊220可基于用戶輸入的該數(shù)據(jù)從與該微信公眾號相關(guān)聯(lián)的文檔集合中匹配關(guān)聯(lián)文檔。該關(guān)聯(lián)文檔是與用戶輸入的數(shù)據(jù)相關(guān)的文檔。在用戶輸入的數(shù)據(jù)是關(guān)鍵詞的實(shí)例中,該關(guān)聯(lián)文檔可以是與關(guān)鍵詞相關(guān)的文章內(nèi)容。在用戶輸入的數(shù)據(jù)是問題的實(shí)例中,該關(guān)聯(lián)文檔可以是含有該問題的答案的文章內(nèi)容。
通信模塊210可將關(guān)聯(lián)文檔的相關(guān)信息經(jīng)由數(shù)據(jù)接口輸出給用戶。
以此方式,用戶能夠通過向微信公眾號輸入數(shù)據(jù)的方式,主動地與微信公眾號互動,根據(jù)自身的需要,獲得更多有明確目的的信息。
圖3是示出了根據(jù)本發(fā)明的第一實(shí)施例的信息處理裝置300的框圖。如圖3所示,信息處理裝置300可包括通信模塊310、檢索單元320以及索引化模塊330。
通信模塊310可經(jīng)由信息處理裝置300與平臺服務(wù)器的數(shù)據(jù)接口從平臺服務(wù)器接收與預(yù)定微信公眾號相關(guān)聯(lián)的文檔集合。索引化模塊330可對該文檔集合執(zhí)行索引化分析以獲得文檔集合的索引化形式的文檔數(shù)據(jù)結(jié)構(gòu)。索引化形式的文檔數(shù)據(jù)結(jié)構(gòu)使得基于關(guān)鍵詞的檢索成為可能。
作為一個具體示例,索引化形式的文檔數(shù)據(jù)結(jié)構(gòu)可以是倒排索引。倒排索引是實(shí)現(xiàn)“單詞-文檔矩陣”的一種具體存儲形式,通過倒排索引,可以根據(jù)單詞快速獲取包含這個單詞的文檔列表。倒排索引主要由兩個部分組成:“單詞詞典”和“倒排文件”。
搜索引擎的通常索引單位是單詞,單詞詞典是由文檔集合中出現(xiàn)過的所有單詞構(gòu)成的字符串集合,單詞詞典內(nèi)每條索引項(xiàng)記載單詞本身的一些信息以及指向“倒排列表”的指針。
倒排列表記載了出現(xiàn)過某個單詞的所有文檔的文檔列表及單詞在該文檔中出現(xiàn)的位置信息,每條記錄稱為一個倒排項(xiàng)。倒排列表還可記載某個單詞的單詞頻率信息、文檔頻率信息。根據(jù)倒排列表,即可獲知哪些文檔包含某個單詞。所有單詞的倒排列表往往順序地存儲在磁盤的某個文件里,這個文件即被稱之為倒排文件,倒排文件是存儲倒排索引的物理文件。
有了上述索引化的文檔數(shù)據(jù)結(jié)構(gòu),可以很方便地響應(yīng)用戶的查詢。比如用戶輸入某個關(guān)鍵詞,可以查找倒排索引,從中以讀出包含這個單詞的文檔,這些文檔就是提供給用戶的搜索結(jié)果,而利用單詞頻率信息、文檔頻率信息即可以對這些候選搜索結(jié)果進(jìn)行排序,計算文檔和查詢的相似性,按照相似性得分由高到低排序輸出。
當(dāng)然,倒排索引僅僅是一個示例,任何便于基于關(guān)鍵詞進(jìn)行檢索的索引化形式都是可行的。
對應(yīng)該索引化形式的文檔數(shù)據(jù)結(jié)構(gòu),檢索單元320可基于關(guān)鍵詞來對該索引化形式的文檔數(shù)據(jù)結(jié)構(gòu)進(jìn)行檢索。這里的檢索單元320可以是圖2中所示的匹配模塊220的具體實(shí)例。
在此配置下,通信模塊310可經(jīng)由數(shù)據(jù)接口從平臺服務(wù)器接收該微信公眾號的用戶輸入的數(shù)據(jù),例如關(guān)鍵詞。檢索單元320可以基于該關(guān)鍵詞從與該微信公眾號相關(guān)聯(lián)的索引化形式的文檔數(shù)據(jù)結(jié)構(gòu)檢索關(guān)聯(lián)文檔。
以此方式,通過對微信公眾號中的文章進(jìn)行索引化,使得微信公眾號中的文章能夠被方便地查找,從而使得用戶能夠根據(jù)希望閱讀的內(nèi)容,主動地查找和獲取相應(yīng)的文檔,相比于傳統(tǒng)地單純?yōu)g覽所有歷史文章的方式,大大提高了效率。
圖4是示出了根據(jù)本發(fā)明的第二實(shí)施例的信息處理裝置400的框圖。
與圖3相比,除了通信模塊410、檢索單元420以及索引化模塊430,信息處理裝置400還可包括分類模塊440。
分類模塊440可對文檔集合執(zhí)行分類處理以獲得多個不同類別的文檔子集。每個文檔子集中的每篇文檔具有相關(guān)聯(lián)的分類標(biāo)簽以指示該篇文檔所屬的類別。
這里的類別可以是任何維度的類別。以上旅游相關(guān)的微信公眾號為例,可以對該微信公眾號的文檔集合按照旅游區(qū)域進(jìn)行分類,例如與旅游國家相關(guān)的類別,可以按照美食進(jìn)行分類,例如與不同風(fēng)味的美食相關(guān)的類別等等。
具體而言,分類模塊440可包括文本分類子單元441和分組子單元442。文本分類單元441可對文檔集合中的每篇文檔執(zhí)行文本分類,例如采用SVM分類器或貝葉斯分類器對每篇文檔執(zhí)行文本分類。分組單元442可將屬于同一分類類別的文檔劃分為一個文檔子集。
在此實(shí)例中,索引化模塊430可對每個文檔子集執(zhí)行索引化分析以獲得該文檔子集的索引化形式的文檔數(shù)據(jù)結(jié)構(gòu),例如倒排索引結(jié)構(gòu)。
檢索單元420可包括類別確定子單元421和查找子單元422。在通信模塊410收到用戶輸入的數(shù)據(jù),例如關(guān)鍵詞時,類別確定子單元421可基于該關(guān)鍵詞確定該關(guān)鍵詞所屬的類別。
在一實(shí)例中,類別確定子單元421可將關(guān)鍵詞與所有分類標(biāo)簽執(zhí)行語義相似度計算,具有最高語義相似度的分類標(biāo)簽指示所述關(guān)鍵詞的類別。類別確定子單元421可以任何適用的語義相似度計算算法執(zhí)行此語義相似度計算,例如,文本聚類分析、LDA分析、序列分析(Template Maker)等等。
查找子單元422可基于關(guān)鍵詞從該關(guān)鍵詞所屬的類別的文檔子集的索引化形式的文檔數(shù)據(jù)結(jié)構(gòu),例如倒排索引,查找關(guān)聯(lián)文檔。
通過對文檔進(jìn)行分類后再進(jìn)行索引化,進(jìn)一步提高了檢索效率,提高了檢索的準(zhǔn)確性。
圖5是示出了根據(jù)本發(fā)明的第三實(shí)施例的信息處理裝置500的框圖。
如圖5所示,信息處理裝置500可包括通信模塊510、問答數(shù)據(jù)庫構(gòu)建模塊530以及檢索單元520。
通信模塊310可經(jīng)由信息處理裝置300與平臺服務(wù)器的數(shù)據(jù)接口從平臺服務(wù)器接收與預(yù)定微信公眾號相關(guān)聯(lián)的文檔集合。問答數(shù)據(jù)庫構(gòu)建模塊530可用于基于文檔集合構(gòu)建問答數(shù)據(jù)庫。
如在智能問答領(lǐng)域所熟知的,問答數(shù)據(jù)庫可包括標(biāo)準(zhǔn)問的集合和答案的集合。每個標(biāo)準(zhǔn)問與對應(yīng)的答案相關(guān)聯(lián)。在接收到問題之后,只要能夠定位到問答數(shù)據(jù)庫中的標(biāo)準(zhǔn)問,就可以將該標(biāo)準(zhǔn)問對應(yīng)的答案輸出給用戶作為用戶問題的答案。所述問答數(shù)據(jù)庫包括知識點(diǎn),所述知識點(diǎn)包括標(biāo)準(zhǔn)問、擴(kuò)展問和標(biāo)準(zhǔn)答案,所述標(biāo)準(zhǔn)答案為所述文檔集合中的文檔,所述擴(kuò)展問包括與所述標(biāo)準(zhǔn)答案中的文檔對應(yīng)的至少一個問題語義模板。
在本發(fā)明中,利用問答數(shù)據(jù)庫構(gòu)建模塊530基于與預(yù)定微信公眾號相關(guān)聯(lián)的文檔集合構(gòu)建用于該微信公眾號的問答數(shù)據(jù)庫。問答數(shù)據(jù)庫中包括問題語義模板和問題語義模板對應(yīng)的答案,每個問題語義模板對應(yīng)的答案為所述文檔集合中的文檔,每個所述文檔對應(yīng)至少一個問題語義模板。用戶問句和基于所述用戶問句從所述問答數(shù)據(jù)庫中檢索對應(yīng)的答案一般的形式是“問-答”對。這里的“問”不應(yīng)被狹義地理解為“詢問”,而應(yīng)廣義地來理解為“輸入”,該“輸入”具有對應(yīng)的“輸出”。例如,用戶的一個指令,例如“打開收音機(jī)相關(guān)的文檔”也應(yīng)可以被理解為是一個“問”,此時對應(yīng)的“答”可以是用于執(zhí)行相應(yīng)控制的控制程序的調(diào)用,本實(shí)施例中,答案可以為文檔集合中的文檔、文檔集合中的文檔的鏈接或打開文檔集合中的文檔的鏈接。且當(dāng)用戶詢問某個問題時,可將能夠解答該問題的文檔作為答案推送給用戶。
從這個角度而言,問答數(shù)據(jù)庫由眾多的知識點(diǎn)構(gòu)成,每個知識點(diǎn)為“問-答”對的形式,其中的“問”包括標(biāo)準(zhǔn)問、擴(kuò)展問,“答”為與標(biāo)準(zhǔn)問、擴(kuò)展問對應(yīng)的標(biāo)準(zhǔn)答案,在本發(fā)明中,標(biāo)準(zhǔn)答案即為文檔集合中的文檔。所述擴(kuò)展問是對標(biāo)準(zhǔn)問的擴(kuò)展,因?yàn)橛脩魡柧渫歉鞣N表達(dá)方式,采用擴(kuò)展問能大大提高匹配效率。
具體而言,擴(kuò)展問包括與所述標(biāo)準(zhǔn)答案中的文檔對應(yīng)的至少一個問題語義模板,問題語義模板可以是語義表達(dá)式的形式,以用于與用戶問句進(jìn)行語義相似度計算。在匹配時,用戶問句與問題語義模板進(jìn)行語義相似度計算,以確定問答數(shù)據(jù)庫中的標(biāo)準(zhǔn)問及對應(yīng)的標(biāo)準(zhǔn)答案。
因此,問答數(shù)據(jù)庫構(gòu)建模塊530可基于文檔集合中各文檔的內(nèi)容來反向建立對應(yīng)的問題語義模板。這里的問題語義模板的建立可以有人工的參與,例如,問答數(shù)據(jù)庫構(gòu)建模塊530可響應(yīng)于人工對文檔內(nèi)容的分析建立對應(yīng)的問題語義模板?;蛘撸瑔栴}語義模板的建立也可以沒有人工的參與,例如問答數(shù)據(jù)庫構(gòu)建模塊530可基于文本分析技術(shù)分析文檔的內(nèi)容,并建立對應(yīng)的問題語義模板。
語義表達(dá)式主要由詞、詞類以及他們的“或”關(guān)系構(gòu)成,其核心依賴于“詞類”,詞類簡單的理解,即為一組有共性的詞,這些詞在語義上可以相似也可以不相似,這些詞也可以被標(biāo)注為重要或不重要。語義表達(dá)式與用戶問句關(guān)系與傳統(tǒng)的模板匹配有了很大的不同,在傳統(tǒng)模板匹配中,模板和用戶問句只是匹配與未匹配的關(guān)系,而語義表達(dá)式與用戶問句之間關(guān)系是通過量化的值(語義相似度)來表示,同時這個量化的值與相似問句和用戶問句之間的語義相似度是可以互相比較的。由于語義表達(dá)式要和相似問句一起參與語義相似度計算,所以模板語法的定義不宜復(fù)雜,但又要有足夠的能力表達(dá)語義。
標(biāo)準(zhǔn)問對應(yīng)的擴(kuò)展問除了包括用來表示標(biāo)準(zhǔn)問的知識點(diǎn)語義的語義表達(dá)式,還可以包括自然語句集合。
問答數(shù)據(jù)庫的構(gòu)建是智能問答技術(shù)領(lǐng)域所熟知的,不再贅述。
通信模塊510可經(jīng)由數(shù)據(jù)接口從平臺服務(wù)器接收該微信公眾號的用戶輸入的數(shù)據(jù),例如用戶問題。
檢索單元520可基于該用戶問句從問答數(shù)據(jù)庫中檢索對應(yīng)的答案。這里的檢索單元520可以是圖2中匹配模塊220的實(shí)例。
具體地,檢索單元520可包括語義相似度計算子單元521和問句答案確定子單元522。語義相似度計算子單元521將用戶問句與問答數(shù)據(jù)庫中的問題語義模板執(zhí)行語義相似度計算。該用戶問句與問答數(shù)據(jù)庫中的每個問題語義模板有一個語義相似度。問句答案確定子單元522將與該用戶問句具有最高語義相似度的問題語義模板所對應(yīng)的答案作為用戶問句的答案。如前所述,這里的答案是一些文檔,即將相關(guān)聯(lián)的文檔推送給用戶。
通過構(gòu)建問答數(shù)據(jù)庫的方式,能夠讓用戶以更直觀的方式與微信公眾號互動。簡言之,用戶能夠直接輸入自己想問的問題,而無需自己提煉關(guān)鍵詞,進(jìn)一步提高了微信公眾號對用戶的實(shí)用性。
本發(fā)明還提供了一種信息處理系統(tǒng),包括上述的信息處理裝置和微信公眾平臺。
圖6是示出了根據(jù)本發(fā)明的一方面的用于微信公眾平臺的信息處理方法的流程圖。如圖6所示,信息處理方法600可包括以下步驟:
步驟601:接入微信公眾平臺的平臺服務(wù)器的數(shù)據(jù)接口。
微信公眾平臺提供了一個數(shù)據(jù)接口給第三方的應(yīng)用開發(fā)商。利用該數(shù)據(jù)接口可以獲取微信公眾平臺的平臺服務(wù)器中的一些數(shù)據(jù)。
步驟602:經(jīng)由該數(shù)據(jù)接口從平臺服務(wù)器接收與預(yù)定微信公眾號相關(guān)聯(lián)的文檔集合。
在需要為某個微信公眾號的功能進(jìn)行增補(bǔ)時,可獲得該微信公眾號所有者的授權(quán)。獲得授權(quán)后,可以經(jīng)由數(shù)據(jù)接口接收與預(yù)定微信公眾號相關(guān)聯(lián)的文檔集合。
步驟603:經(jīng)由該數(shù)據(jù)接口從平臺服務(wù)器接收該預(yù)定微信公眾號的用戶輸入的數(shù)據(jù)。
用戶在使用微信時,與微信公眾號互動的數(shù)據(jù)被發(fā)送至平臺服務(wù)器,經(jīng)由該數(shù)據(jù)接口被接收。
在一實(shí)施例中,對文檔集合執(zhí)行索引化分析以獲得文檔集合的索引化形式的文檔數(shù)據(jù)結(jié)構(gòu)。
在另一實(shí)施例中,首先對文檔集合執(zhí)行分類處理以獲得多個不同類別的文檔子集,每個文檔子集中的每篇文檔具有相關(guān)聯(lián)的分類標(biāo)簽以指示該篇文檔所屬的類別。例如可對文檔集合中的每篇文檔執(zhí)行文本分類,然后將屬于同一分類類別的文檔劃分為一個文檔子集。具體地,可采用SVM分類器或貝葉斯分類器對每篇文檔執(zhí)行文本分類。
然后,對每個文檔子集執(zhí)行索引化分析以獲得該文檔子集的索引化形式的文檔數(shù)據(jù)結(jié)構(gòu)。
在再一實(shí)施例中,可基于文檔集合構(gòu)建問答數(shù)據(jù)庫,問答數(shù)據(jù)庫中包括問題語義模板和問題語義模板對應(yīng)的答案,每個問題語義模板對應(yīng)的答案為所述文檔集合中的文檔,每個所述文檔對應(yīng)至少一個問題語義模板。
步驟604:基于用戶輸入的數(shù)據(jù)從與該預(yù)定微信公眾號相關(guān)聯(lián)的文檔集合中匹配關(guān)聯(lián)文檔。
該關(guān)聯(lián)文檔是與用戶輸入的數(shù)據(jù)相關(guān)的文檔。在用戶輸入的數(shù)據(jù)是關(guān)鍵詞的實(shí)例中,該關(guān)聯(lián)文檔可以是與關(guān)鍵詞相關(guān)的文章內(nèi)容。在用戶輸入的數(shù)據(jù)是問題的實(shí)例中,該關(guān)聯(lián)文檔可以是含有該問題的答案的文章內(nèi)容。
在一實(shí)施例中,用戶輸入的數(shù)據(jù)包括用戶搜索的關(guān)鍵詞,可基于關(guān)鍵詞從與該預(yù)定微信公眾號相關(guān)聯(lián)的索引化形式的文檔數(shù)據(jù)結(jié)構(gòu)檢索關(guān)聯(lián)文檔。
在另一實(shí)施例中,文檔集合中的文檔被進(jìn)行了分類,此時可首先基于關(guān)鍵詞確定該關(guān)鍵詞所屬的類別,然后基于該關(guān)鍵詞從關(guān)鍵詞所屬的類別的文檔子集的索引化形式的文檔數(shù)據(jù)結(jié)構(gòu)查找關(guān)聯(lián)文檔。
具體地,在確定類別時,可將關(guān)鍵詞與所有分類標(biāo)簽執(zhí)行語義相似度計算,具有最高語義相似度的分類標(biāo)簽指示該關(guān)鍵詞的類別。
作為示例,該索引化形式的文檔數(shù)據(jù)結(jié)構(gòu)可以為倒排索引,可基于該關(guān)鍵詞通過該關(guān)鍵詞所屬的類別的文檔子集的倒排索引來查找關(guān)聯(lián)文檔。
在再一實(shí)施例中,用戶輸入的數(shù)據(jù)包括用戶提出的用戶問題。此時可基于該用戶問句從問答數(shù)據(jù)庫中檢索對應(yīng)的答案。具體而言,可將用戶問句與問答數(shù)據(jù)庫中的問題語義模板執(zhí)行語義相似度計算,將與該用戶問句具有最高語義相似度的問題語義模板所對應(yīng)的答案作為用戶問句的答案。
所述問答數(shù)據(jù)庫包括知識點(diǎn),所述知識點(diǎn)包括標(biāo)準(zhǔn)問、擴(kuò)展問和標(biāo)準(zhǔn)答案,所述標(biāo)準(zhǔn)答案為所述文檔集合中的文檔,所述擴(kuò)展問包括與所述標(biāo)準(zhǔn)答案中的文檔對應(yīng)的至少一個問題語義模板。
標(biāo)準(zhǔn)問對應(yīng)的擴(kuò)展問包括用來表示標(biāo)準(zhǔn)問的知識點(diǎn)語義的語義表達(dá)式,還可以包括自然語句集合。語義表達(dá)式主要由詞、詞類以及他們的“或”關(guān)系構(gòu)成,其核心依賴于“詞類”,詞類簡單的理解,即為一組有共性的詞,這些詞在語義上可以相似也可以不相似,這些詞也可以被標(biāo)注為重要或不重要。語義表達(dá)式與用戶問句關(guān)系與傳統(tǒng)的模板匹配有了很大的不同,在傳統(tǒng)模板匹配中,模板和用戶問句只是匹配與未匹配的關(guān)系,而語義表達(dá)式與用戶問句之間關(guān)系是通過量化的值(語義相似度)來表示,同時這個量化的值與相似問句和用戶問句之間的語義相似度是可以互相比較的。由于語義表達(dá)式要和相似問句一起參與語義相似度計算,所以模板語法的定義不宜復(fù)雜,但又要有足夠的能力表達(dá)語義。
上述匹配到的關(guān)聯(lián)文檔可經(jīng)由數(shù)據(jù)接口被返回給用戶。
盡管為使解釋簡單化將上述方法圖示并描述為一系列動作,但是應(yīng)理解并領(lǐng)會,這些方法不受動作的次序所限,因?yàn)楦鶕?jù)一個或多個實(shí)施例,一些動作可按不同次序發(fā)生和/或與來自本文中圖示和描述或本文中未圖示和描述但本領(lǐng)域技術(shù)人員可以理解的其他動作并發(fā)地發(fā)生。
根據(jù)本發(fā)明的方案,增強(qiáng)了用戶與微信公眾號的互動。用戶訂閱公眾號即為獲得信息。通過與微信公眾號的增強(qiáng)的互動,用戶可以主動地在微信公眾號中檢索感興趣的內(nèi)容,甚至可以直接提出問題,從微信公眾號的文檔集合中獲得答案。這大大提高了微信公眾號的實(shí)用性。
本領(lǐng)域技術(shù)人員將進(jìn)一步領(lǐng)會,結(jié)合本文中所公開的實(shí)施例來描述的各種解說性邏輯板塊、模塊、電路、和算法步驟可實(shí)現(xiàn)為電子硬件、計算機(jī)軟件、或這兩者的組合。為清楚地解說硬件與軟件的這一可互換性,各種解說性組件、框、模塊、電路、和步驟在上面是以其功能性的形式作一般化描述的。此類功能性是被實(shí)現(xiàn)為硬件還是軟件取決于具體應(yīng)用和施加于整體系統(tǒng)的設(shè)計約束。技術(shù)人員對于每種特定應(yīng)用可用不同的方式來實(shí)現(xiàn)所描述的功能性,但這樣的實(shí)現(xiàn)決策不應(yīng)被解讀成導(dǎo)致脫離了本發(fā)明的范圍。
結(jié)合本文所公開的實(shí)施例描述的各種解說性邏輯模塊、和電路可用通用處理器、數(shù)字信號處理器(DSP)、專用集成電路(ASIC)、現(xiàn)場可編程門陣列(FPGA)或其它可編程邏輯器件、分立的門或晶體管邏輯、分立的硬件組件、或其設(shè)計成執(zhí)行本文所描述功能的任何組合來實(shí)現(xiàn)或執(zhí)行。通用處理器可以是微處理器,但在替換方案中,該處理器可以是任何常規(guī)的處理器、控制器、微控制器、或狀態(tài)機(jī)。處理器還可以被實(shí)現(xiàn)為計算設(shè)備的組合,例如DSP與微處理器的組合、多個微處理器、與DSP核心協(xié)作的一個或多個微處理器、或任何其他此類配置。
結(jié)合本文中公開的實(shí)施例描述的方法或算法的步驟可直接在硬件中、在由處理器執(zhí)行的軟件模塊中、或在這兩者的組合中體現(xiàn)。軟件模塊可駐留在RAM存儲器、閃存、ROM存儲器、EPROM存儲器、EEPROM存儲器、寄存器、硬盤、可移動盤、CD-ROM、或本領(lǐng)域中所知的任何其他形式的存儲介質(zhì)中。示例性存儲介質(zhì)耦合到處理器以使得該處理器能從/向該存儲介質(zhì)讀取和寫入信息。在替換方案中,存儲介質(zhì)可以被整合到處理器。處理器和存儲介質(zhì)可駐留在ASIC中。ASIC可駐留在用戶終端中。在替換方案中,處理器和存儲介質(zhì)可作為分立組件駐留在用戶終端中。
在一個或多個示例性實(shí)施例中,所描述的功能可在硬件、軟件、固件或其任何組合中實(shí)現(xiàn)。如果在軟件中實(shí)現(xiàn)為計算機(jī)程序產(chǎn)品,則各功能可以作為一條或更多條指令或代碼存儲在計算機(jī)可讀介質(zhì)上或藉其進(jìn)行傳送。計算機(jī)可讀介質(zhì)包括計算機(jī)存儲介質(zhì)和通信介質(zhì)兩者,其包括促成計算機(jī)程序從一地向另一地轉(zhuǎn)移的任何介質(zhì)。存儲介質(zhì)可以是能被計算機(jī)訪問的任何可用介質(zhì)。作為示例而非限定,這樣的計算機(jī)可讀介質(zhì)可包括RAM、ROM、EEPROM、CD-ROM或其它光盤存儲、磁盤存儲或其它磁存儲設(shè)備、或能被用來攜帶或存儲指令或數(shù)據(jù)結(jié)構(gòu)形式的合意程序代碼且能被計算機(jī)訪問的任何其它介質(zhì)。任何連接也被正當(dāng)?shù)胤Q為計算機(jī)可讀介質(zhì)。例如,如果軟件是使用同軸電纜、光纖電纜、雙絞線、數(shù)字訂戶線(DSL)、或諸如紅外、無線電、以及微波之類的無線技術(shù)從web網(wǎng)站、服務(wù)器、或其它遠(yuǎn)程源傳送而來,則該同軸電纜、光纖電纜、雙絞線、DSL、或諸如紅外、無線電、以及微波之類的無線技術(shù)就被包括在介質(zhì)的定義之中。如本文中所使用的盤(disk)和碟(disc)包括壓縮碟(CD)、激光碟、光碟、數(shù)字多用碟(DVD)、軟盤和藍(lán)光碟,其中盤(disk)往往以磁的方式再現(xiàn)數(shù)據(jù),而碟(disc)用激光以光學(xué)方式再現(xiàn)數(shù)據(jù)。上述的組合也應(yīng)被包括在計算機(jī)可讀介質(zhì)的范圍內(nèi)。
提供對本公開的先前描述是為使得本領(lǐng)域任何技術(shù)人員皆能夠制作或使用本公開。對本公開的各種修改對本領(lǐng)域技術(shù)人員來說都將是顯而易見的,且本文中所定義的普適原理可被應(yīng)用到其他變體而不會脫離本公開的精神或范圍。由此,本公開并非旨在被限定于本文中所描述的示例和設(shè)計,而是應(yīng)被授予與本文中所公開的原理和新穎性特征相一致的最廣范圍。