欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

基于人工智能的信息處理方法和裝置與流程

文檔序號:12915950閱讀:512來源:國知局
基于人工智能的信息處理方法和裝置與流程

本申請涉及計算機技術領域,具體涉及互聯(lián)網(wǎng)技術領域,尤其涉及基于人工智能的信息處理方法和裝置。



背景技術:

人工智能(artificialintelligence,簡稱ai)技術的快速發(fā)展為人們的日常工作和生活提供了便利。人工智能是研究、開發(fā)用于模擬、延伸和擴展人的智能的理論、方法、技術及應用系統(tǒng)的一門新的技術科學。人工智能是計算機科學的一個分支,它企圖了解智能的實質,并生產(chǎn)出一種新的能以人類智能相似的方式做出反應的智能機器,該領域的研究包括機器人、語言識別、圖像識別、自然語言處理和專家系統(tǒng)等。人工智能越來越多地融入到應用中,結合人工智能的應用可以準確地獲取用戶的興趣點,并按照用戶的興趣點為用戶推送相關的信息。

當今互聯(lián)網(wǎng)和新媒體迅猛發(fā)展,網(wǎng)絡信息各種各樣,如何富于針對性地推送信息就變得至關重要。為了解決這一問題,如何準確地獲取用戶的興趣點就成為了一個值得研究的問題。



技術實現(xiàn)要素:

本申請實施例的目的在于提出一種改進的基于人工智能的信息處理方法和裝置,來解決以上背景技術部分提到的技術問題。

第一方面,本申請實施例提供了一種基于人工智能的信息處理方法,該方法包括:獲取預設時間段內(nèi)的搜索記錄集合;將搜索記錄集合與百科詞條集合進行匹配,并根據(jù)匹配結果從百科詞條集合中選取出第一興趣點集合;將搜索記錄集合與微博話題集合進行匹配,并根據(jù)匹配結果從微博話題集合中選取出第二興趣點集合;將第一興趣點集合和第二興趣點集合加入到興趣點集合中。

在一些實施例中,搜索記錄包括搜索式和搜索量,百科詞條包括詞條名稱和詞條內(nèi)容;將搜索記錄集合與百科詞條集合進行匹配,并根據(jù)匹配結果從百科詞條集合中選取出第一興趣點集合,包括:將搜索記錄集合中的各條搜索記錄的搜索式與百科詞條集合中的各個百科詞條的詞條內(nèi)容進行匹配,獲取匹配成功的百科詞條作為候選百科詞條以生成候選百科詞條集合;從候選百科詞條集合中選取出候選百科詞條的詞條名稱作為第一興趣點以生成第一興趣點集合。

在一些實施例中,百科詞條還包括詞條類別和詞條閱讀量;從候選百科詞條集合中選取出候選百科詞條的詞條名稱作為第一興趣點以生成第一興趣點集合,包括:分別確定候選百科詞條集合中的各個候選百科詞條是否滿足第一預設條件,其中,第一預設條件包括詞條類別屬于預設詞條類別集合中的詞條類別和詞條閱讀量大于預設詞條閱讀量;選取出候選百科詞條集合中滿足第一預設條件的候選百科詞條;將所選取出的候選百科詞條的詞條名稱作為第一興趣點以生成第一興趣點集合。

在一些實施例中,搜索記錄包括搜索式和搜索量,微博話題包括話題名稱和話題內(nèi)容;將搜索記錄集合與微博話題集合進行匹配,并根據(jù)匹配結果從微博話題集合中選取出第二興趣點集合,包括:將搜索記錄集合中的各條搜索記錄的搜索式與微博話題集合中的各個微博話題的話題內(nèi)容進行匹配,獲取匹配成功的微博話題作為候選微博話題以生成候選微博話題集合;從候選微博話題集合中選取出候選微博話題的話題名稱作為第二興趣點以生成第二興趣點集合。

在一些實施例中,微博話題還包括話題類別和話題閱讀量;從候選微博話題集合中選取出候選微博話題的話題名稱作為第二興趣點以生成第二興趣點集合,包括:分別確定候選微博話題集合中的各個候選微博話題是否滿足第二預設條件,其中,第二預設條件包括話題類別屬于預設話題類別集合中的話題類別和話題閱讀量大于預設話題閱讀量;選取出候選微博話題集合中滿足第二預設條件的候選微博話題;將所選取出的候選微博話題的話題名稱作為第二興趣點以生成第二興趣點集合。

在一些實施例中,該方法還包括:分別提取搜索記錄集合中的各條搜索記錄的特征向量;將搜索記錄集合中的各條搜索記錄的特征向量輸入至預先訓練的分類模型,得到搜索記錄集合中的各條搜索記錄的類別,其中,分類模型用于表征搜索記錄的特征向量與搜索記錄的類別的對應關系,搜索記錄的類別包括興趣點類別和非興趣點類別;從搜索記錄集合中的歸屬于興趣點類別的搜索記錄中選取出第三興趣點集合;將第三興趣點集合加入到興趣點集合中。

在一些實施例中,分別提取搜索記錄集合中的各條搜索記錄的特征向量,包括:分別獲取搜索記錄集合中的各條搜索記錄的特征數(shù)據(jù),其中,特征數(shù)據(jù)包括以下至少一項:搜索式、統(tǒng)一資源定位符、搜索時間、搜索量、點擊時間、點擊量;分別從搜索記錄集合中的各條搜索記錄的特征數(shù)據(jù)中提取搜索記錄集合中的各條搜索記錄的特征向量。

在一些實施例中,該方法還包括訓練分類模型的步驟,訓練分類模型的步驟包括:獲取樣本搜索記錄和樣本搜索記錄的類別;提取樣本搜索記錄的特征向量;利用機器學習方法,將樣本搜索記錄的特征向量作為輸入,將樣本搜索記錄的類別作為輸出,訓練得到分類模型。

在一些實施例中,該方法還包括:周期性地獲取周期搜索記錄集合,其中,周期搜索記錄包括周期搜索式和周期搜索量;將興趣點集合中的各個興趣點分別在周期搜索記錄集合中進行匹配,獲取匹配成功的周期搜索記錄的周期搜索量,并作為興趣點集合中的各個興趣點的搜索量;分別確定興趣點集合中的各個興趣點的搜索量是否小于搜索量閾值;將搜索量小于搜索量閾值的興趣點從興趣點集合中刪除。

第二方面,本申請實施例提供了一種基于人工智能的信息處理裝置,該裝置包括:第一獲取單元,配置用于獲取預設時間段內(nèi)的搜索記錄集合;第一選取單元,配置用于將搜索記錄集合與百科詞條集合進行匹配,并根據(jù)匹配結果從百科詞條集合中選取出第一興趣點集合;第二選取單元,配置用于將搜索記錄集合與微博話題集合進行匹配,并根據(jù)匹配結果從微博話題集合中選取出第二興趣點集合;第一加入單元,配置用于將第一興趣點集合和第二興趣點集合加入到興趣點集合中。

在一些實施例中,搜索記錄包括搜索式和搜索量,百科詞條包括詞條名稱和詞條內(nèi)容;第一選取單元包括:第一匹配子單元,配置用于將搜索記錄集合中的各條搜索記錄的搜索式與百科詞條集合中的各個百科詞條的詞條內(nèi)容進行匹配,獲取匹配成功的百科詞條作為候選百科詞條以生成候選百科詞條集合;第一選取子單元,配置用于從候選百科詞條集合中選取出候選百科詞條的詞條名稱作為第一興趣點以生成第一興趣點集合。

在一些實施例中,百科詞條還包括詞條類別和詞條閱讀量;第一選取子單元包括:第一確定模塊,配置用于分別確定候選百科詞條集合中的各個候選百科詞條是否滿足第一預設條件,其中,第一預設條件包括詞條類別屬于預設詞條類別集合中的詞條類別和詞條閱讀量大于預設詞條閱讀量;第一選取模塊,配置用于選取出候選百科詞條集合中滿足第一預設條件的候選百科詞條;第一生成模塊,配置用于將所選取出的候選百科詞條的詞條名稱作為第一興趣點以生成第一興趣點集合。

在一些實施例中,搜索記錄包括搜索式和搜索量,微博話題包括話題名稱和話題內(nèi)容;第二選取單元包括:第二匹配子單元,配置用于將搜索記錄集合中的各條搜索記錄的搜索式與微博話題集合中的各個微博話題的話題內(nèi)容進行匹配,獲取匹配成功的微博話題作為候選微博話題以生成候選微博話題集合;第二選取子單元,配置用于從候選微博話題集合中選取出候選微博話題的話題名稱作為第二興趣點以生成第二興趣點集合。

在一些實施例中,微博話題還包括話題類別和話題閱讀量;第二選取子單元包括:第二確定模塊,配置用于分別確定候選微博話題集合中的各個候選微博話題是否滿足第二預設條件,其中,第二預設條件包括話題類別屬于預設話題類別集合中的話題類別和話題閱讀量大于預設話題閱讀量;第二選取模塊,配置用于選取出候選微博話題集合中滿足第二預設條件的候選微博話題;第二生成模塊,配置用于將所選取出的候選微博話題的話題名稱作為第二興趣點以生成第二興趣點集合。

在一些實施例中,該裝置還包括:提取單元,配置用于分別提取搜索記錄集合中的各條搜索記錄的特征向量;分類單元,配置用于將搜索記錄集合中的各條搜索記錄的特征向量輸入至預先訓練的分類模型,得到搜索記錄集合中的各條搜索記錄的類別,其中,分類模型用于表征搜索記錄的特征向量與搜索記錄的類別的對應關系,搜索記錄的類別包括興趣點類別和非興趣點類別;第三選取單元,配置用于從搜索記錄集合中的歸屬于興趣點類別的搜索記錄中選取出第三興趣點集合;第二加入單元,配置用于將第三興趣點集合加入到興趣點集合中。

在一些實施例中,提取單元包括:第一獲取子單元,配置用于分別獲取搜索記錄集合中的各條搜索記錄的特征數(shù)據(jù),其中,特征數(shù)據(jù)包括以下至少一項:搜索式、統(tǒng)一資源定位符、搜索時間、搜索量、點擊時間、點擊量;第一提取子單元,配置用于分別從搜索記錄集合中的各條搜索記錄的特征數(shù)據(jù)中提取搜索記錄集合中的各條搜索記錄的特征向量。

在一些實施例中,該裝置還包括訓練單元,訓練單元包括:第二獲取子單元,配置用于獲取樣本搜索記錄和樣本搜索記錄的類別;第二提取子單元,配置用于提取樣本搜索記錄的特征向量;訓練子單元,配置用于利用機器學習方法,將樣本搜索記錄的特征向量作為輸入,將樣本搜索記錄的類別作為輸出,訓練得到分類模型。

在一些實施例中,該裝置還包括:第二獲取單元,配置用于周期性地獲取周期搜索記錄集合,其中,周期搜索記錄包括周期搜索式和周期搜索量;匹配單元,配置用于將興趣點集合中的各個興趣點分別在周期搜索記錄集合中進行匹配,獲取匹配成功的周期搜索記錄的周期搜索量,并作為興趣點集合中的各個興趣點的搜索量;確定單元,配置用于分別確定興趣點集合中的各個興趣點的搜索量是否小于搜索量閾值;刪除單元,配置用于將搜索量小于搜索量閾值的興趣點從興趣點集合中刪除。

第三方面,本申請實施例提供了一種服務器,該服務器包括:一個或多個處理器;存儲裝置,用于存儲一個或多個程序;當一個或多個程序被一個或多個處理器執(zhí)行,使得一個或多個處理器實現(xiàn)如第一方面中任一實現(xiàn)方式描述的方法。

第四方面,本申請實施例提供了一種計算機可讀存儲介質,其上存儲有計算機程序,該計算機程序被處理器執(zhí)行時實現(xiàn)如第一方面中任一實現(xiàn)方式描述的方法。

本申請實施例提供的基于人工智能的信息處理方法和裝置,首先獲取預設時間段內(nèi)的搜索記錄集合;然后將搜索記錄集合與百科詞條集合進行匹配,根據(jù)匹配結果從百科詞條集合中選取出第一興趣點集合,并將搜索記錄集合與微博話題集合進行匹配,根據(jù)匹配結果從微博話題集合中選取出第二興趣點集合;最后將第一興趣點集合和第二興趣點集合加入到興趣點集合中。通過人工智能對搜索記錄集合進行處理后自動獲取興趣點集合,實現(xiàn)了興趣點的準確獲取,從而有助于實現(xiàn)富于針對性的信息推送。

附圖說明

通過閱讀參照以下附圖所作的對非限制性實施例所作的詳細描述,本申請的其它特征、目的和優(yōu)點將會變得更明顯:

圖1是本申請可以應用于其中的示例性系統(tǒng)架構圖;

圖2是根據(jù)本申請的基于人工智能的信息處理方法的一個實施例的流程圖;

圖3是根據(jù)本申請的基于人工智能的信息處理方法的又一個實施例的流程圖;

圖4是根據(jù)本申請的基于人工智能的信息處理裝置的一個實施例的結構示意圖;

圖5是適于用來實現(xiàn)本申請實施例的服務器的計算機系統(tǒng)的結構示意圖。

具體實施方式

下面結合附圖和實施例對本申請作進一步的詳細說明??梢岳斫獾氖牵颂幩枋龅木唧w實施例僅僅用于解釋相關發(fā)明,而非對該發(fā)明的限定。另外還需要說明的是,為了便于描述,附圖中僅示出了與有關發(fā)明相關的部分。

需要說明的是,在不沖突的情況下,本申請中的實施例及實施例中的特征可以相互組合。下面將參考附圖并結合實施例來詳細說明本申請。

圖1示出了可以應用本申請的基于人工智能的信息處理方法或基于人工智能的信息處理裝置的示例性系統(tǒng)架構100。

如圖1所示,系統(tǒng)架構100可以包括終端設備101,網(wǎng)絡104和服務器102、103、105。網(wǎng)絡104用以在終端設備101和服務器102、103、105之間提供通信鏈路的介質。網(wǎng)絡104可以包括各種連接類型,例如有線、無線通信鏈路或者光纖電纜等等。

用戶可以使用終端設備101通過網(wǎng)絡104與服務器105交互,以接收或發(fā)送消息等。例如,用戶可以使用終端設備101通過網(wǎng)絡104向服務器105發(fā)送預設時間段內(nèi)的搜索記錄集合。其中,終端設備101可以是各種電子設備,包括但不限于智能手機、平板電腦、電子書閱讀器、膝上型便攜計算機和臺式計算機等等。

服務器102、103可以是各種網(wǎng)站的后臺服務器。例如,服務器102可以是百科類網(wǎng)站的后臺服務器,用于存儲百科詞條集合。服務器103還可以是微博類網(wǎng)站的后臺服務器,用于存儲微博話題集合。

服務器105可以提供各種服務。例如,服務器105可以從終端設備101獲取預設時間段內(nèi)的搜索記錄集合,并對所獲取到的搜索記錄集合進行分析等處理,并得到處理結果(例如興趣點集合)。

需要說明的是,本申請實施例所提供的基于人工智能的信息處理方法一般由服務器105執(zhí)行,相應地,基于人工智能的信息處理裝置一般設置于服務器105中。

應該理解,圖1中的終端設備、網(wǎng)絡和服務器的數(shù)目僅僅是示意性的。根據(jù)實現(xiàn)需要,可以具有任意數(shù)目的終端設備、網(wǎng)絡和服務器。服務器105還可以從搜索類網(wǎng)站的后臺服務器獲取預設時間段內(nèi)的搜索記錄集合,在服務器105從搜索類網(wǎng)站的后臺服務器獲取預設時間段內(nèi)的搜索記錄集合的情況下,系統(tǒng)架構100中設置的終端設備101可以替換為搜索類網(wǎng)站的后臺服務器。

繼續(xù)參考圖2,示出了根據(jù)本申請的基于人工智能的信息處理方法的一個實施例的流程200。該基于人工智能的信息處理方法,包括以下步驟:

步驟201,獲取預設時間段內(nèi)的搜索記錄集合。

在本實施例中,基于人工智能的信息處理方法行于其上的電子設備(例如圖1所示的服務器105)可以首先通過有線連接方式或無線連接方式從終端設備(例如圖1所示的終端設備101)或搜索類網(wǎng)站的后臺服務器獲取預設時間段(例如,一個星期、一個月、一個季度)內(nèi)的搜索記錄集合;然后繼續(xù)執(zhí)行步驟202a和步驟202b。其中,搜索記錄中可以包括但不限于以下至少一項:搜索式、url(uniformresourcelocator,統(tǒng)一資源定位符)、搜索時間、搜索量、點擊時間、點擊量等等。

步驟202a,將搜索記錄集合與百科詞條集合進行匹配,并根據(jù)匹配結果從百科詞條集合中選取出第一興趣點集合。

在本實施例中,基于步驟201所獲取的搜索記錄集合,電子設備可以首先從百科類網(wǎng)站的后臺服務器(例如圖1所示的服務器102)獲取百科詞條集合;然后將搜索記錄集合與百科詞條集合進行匹配,并根據(jù)匹配結果從百科詞條集合中選取出第一興趣點集合。其中,百科詞條也可以被稱為百科條目,是詞條的一種特定表現(xiàn)形式,用以指百科全書中的詞條,是構成百科全書的基本單元,這里的百科全書可以使用紙質和網(wǎng)絡等不同的載體。百科詞條可以包括詞條名稱和詞條內(nèi)容。

在本實施例中,電子設備可以將搜索記錄集合中的各條搜索記錄的搜索式與百科詞條集合中的各個百科詞條的詞條內(nèi)容進行匹配;若一條搜索記錄的搜索式與一個百科詞條的詞條內(nèi)容的匹配度大于第一預設匹配度閾值(例如0.7),則匹配成功,并將該百科詞條作為匹配成功的百科詞條。這里,電子設備可以直接將各個匹配成功的百科詞條的詞條名稱作為各個第一興趣點以生成第一興趣點集合。電子設備也可以從各個匹配成功的百科詞條中選取出部分匹配成功的百科詞條的詞條名稱作為各個第一興趣點以生成第一興趣點集合。其中,第一興趣點通常是實體型興趣點,實體是客觀存在的物體,例如,人物、物品、建筑物等等。

在本實施例的一些可選的實現(xiàn)方式中,電子設備可以首先將搜索記錄集合中的各條搜索記錄的搜索式與百科詞條集合中的各個百科詞條的詞條內(nèi)容進行匹配,獲取匹配成功的百科詞條作為候選百科詞條以生成候選百科詞條集合;然后從候選百科詞條集合中選取出候選百科詞條的詞條名稱作為第一興趣點以生成第一興趣點集合。這里,電子設備可以將候選百科詞條集合中的全部候選百科詞條的詞條名稱作為各個第一興趣點以生成第一興趣點集合。電子設備也可以從候選百科詞條集合中選取出部分候選百科詞條的詞條名稱作為各個第一興趣點以生成第一興趣點集合。其中,搜索記錄可以包括搜索式和搜索量,百科詞條可以包括詞條名稱和詞條內(nèi)容。

這里,對于搜索記錄集合中的每個搜索記錄,電子設備可以首先對該搜索記錄的搜索式進行分詞,以獲取該搜索記錄的關鍵詞集合;然后將該搜索記錄的關鍵詞集合與百科詞條集合中的各個百科詞條的詞條內(nèi)容分別進行逐一匹配,并根據(jù)各個百科詞條的詞條內(nèi)容所包括的該搜索記錄的關鍵詞集合中的關鍵詞的數(shù)目來確定各個百科詞條的詞條內(nèi)容與該搜索記錄的搜索式的匹配度。例如,如果某個百科詞條的詞條內(nèi)容中包括了該搜索記錄的關鍵詞集合中的所有關鍵詞,則可以確定該百科詞條的詞條內(nèi)容與該搜索記錄的搜索式的匹配度為1;而如果某個百科詞條的詞條內(nèi)容中包括了該搜索記錄的關鍵詞集合中的部分關鍵詞,則可以將該百科詞條的詞條內(nèi)容中所包括的該搜索記錄的關鍵詞集合中的關鍵詞的數(shù)目與該搜索記錄的關鍵詞集合中的關鍵詞的數(shù)目的比值作為該百科詞條的詞條內(nèi)容與該搜索記錄的搜索式的匹配度;而如果某個百科詞條的詞條內(nèi)容中不包括該搜索記錄的關鍵詞集合中的任何關鍵詞,則可以確定該百科詞條的詞條內(nèi)容與該搜索記錄的搜索式的匹配度為0。

在本實施例的一些可選地實現(xiàn)方式中,電子設備可以首先分別確定候選百科詞條集合中的各個候選百科詞條是否滿足第一預設條件,其中,第一預設條件可以包括詞條類別屬于預設詞條類別集合中的詞條類別和詞條閱讀量大于預設詞條閱讀量;然后選取出候選百科詞條集合中滿足第一預設條件的候選百科詞條;最后將所選取出的候選百科詞條的詞條名稱作為第一興趣點以生成第一興趣點集合。其中,百科詞條還可以包括詞條類別和詞條閱讀量。作為示例,預設詞條類別集合中可以包括:人物類別、公司類別、品牌類別。預設詞條閱讀量可以是10萬次。對于候選百科詞條集合中的每個候選百科詞條,電子設備可以首先確定該候選百科詞條的類別是否屬于人物類別、公司類別或品牌類別;若是,則進一步確定該候選百科詞條的詞條閱讀量是否大于10萬次;若是,則將候選百科詞條的詞條名稱作為第一興趣點。

步驟202b,將搜索記錄集合與微博話題集合進行匹配,并根據(jù)匹配結果從微博話題集合中選取出第二興趣點集合。

在本實施例中,基于步驟201所獲取的搜索記錄集合,電子設備可以首先從微博類網(wǎng)站的后臺服務器(例如圖1所示的服務器103)獲取微博話題集合;然后將搜索記錄集合與微博話題集合進行匹配,并根據(jù)匹配結果從微博話題集合中選取出第二興趣點集合。其中,微博話題可以是根據(jù)微博熱點、個人興趣、網(wǎng)友討論等多種渠道的內(nèi)容,經(jīng)過補充修飾和加以編輯的,與某個微博話題的話題名稱有關的專題頁面。微博用戶可以進入該頁面發(fā)表微博進行討論,同時微博話題頁面也會自動收錄含有該微博話題的話題名稱的相關微博。例如,在發(fā)布微博時,可以輸入雙井號##,并在兩個#號之間輸入內(nèi)容,此時,兩個#號之間的關鍵詞便可以作為微博話題的話題名稱。在這里,微博話題例如可以包括話題名稱和話題內(nèi)容。

在本實施例中,電子設備可以將搜索記錄集合中的各條搜索記錄的搜索式與微博話題集合中的各個微博話題的話題內(nèi)容進行匹配;若一條搜索記錄的搜索式與一個微博話題的話題內(nèi)容的匹配度大于第二預設匹配度閾值(例如0.7),則匹配成功,并將該微博話題作為匹配成功的微博話題。這里,電子設備可以直接將各個匹配成功的微博話題的話題名稱作為各個第二興趣點以生成第二興趣點集合。電子設備也可以從各個匹配成功的微博話題中選取出部分匹配成功的微博話題的話題名稱作為各個第二興趣點以生成第二興趣點集合。其中,第二興趣點通常是話題型興趣點。

在本實施例的一些可選的實現(xiàn)方式中,電子設備可以首先將搜索記錄集合中的各條搜索記錄的搜索式與微博話題集合中的各個微博話題的話題內(nèi)容進行匹配,獲取匹配成功的微博話題作為候選微博話題以生成候選微博話題集合;然后從候選微博話題集合中選取出候選微博話題的話題名稱作為第二興趣點以生成第二興趣點集合。這里,電子設備可以將候選微博話題集合中的全部候選微博話題的話題名稱作為各個第二興趣點以生成第二興趣點集合。電子設備也可以從候選微博話題集合中選取出部分候選微博話題的話題名稱作為各個第二興趣點以生成第二興趣點集合。其中,搜索記錄可以包括搜索式和搜索量,微博話題可以包括話題名稱和話題內(nèi)容。

這里,對于搜索記錄集合中的每個搜索記錄,電子設備可以首先對該搜索記錄的搜索式進行分詞,以獲取該搜索記錄的關鍵詞集合;然后將該搜索記錄的關鍵詞集合與微博話題集合中的各個微博話題的話題內(nèi)容分別進行逐一匹配,并根據(jù)各個微博話題的話題內(nèi)容所包括的該搜索記錄的關鍵詞集合中的關鍵詞的數(shù)目來確定各個微博話題的話題內(nèi)容與該搜索記錄的搜索式的匹配度。例如,如果某個微博話題的話題內(nèi)容中包括了該搜索記錄的關鍵詞集合中的所有關鍵詞,則可以確定該微博話題的話題內(nèi)容與該搜索記錄的搜索式的匹配度為1;而如果某個微博話題的話題內(nèi)容中包括了該搜索記錄的關鍵詞集合中的部分關鍵詞,則可以將該微博話題的話題內(nèi)容中所包括的該搜索記錄的關鍵詞集合中的關鍵詞的數(shù)目與該搜索記錄的關鍵詞集合中的關鍵詞的數(shù)目的比值作為該微博話題的話題內(nèi)容與該搜索記錄的搜索式的匹配度;而如果某個微博話題的話題內(nèi)容中不包括該搜索記錄的關鍵詞集合中的任何關鍵詞,則可以確定該微博話題的話題內(nèi)容與該搜索記錄的搜索式的匹配度為0。

在本實施例的一些可選地實現(xiàn)方式中,電子設備可以首先分別確定候選微博話題集合中的各個候選微博話題是否滿足第二預設條件,其中,第二預設條件可以包括話題類別屬于預設話題類別集合中的話題類別和話題閱讀量大于預設話題閱讀量;然后選取出候選微博話題集合中滿足第二預設條件的候選微博話題;最后將所選取出的候選微博話題的話題名稱作為第二興趣點以生成第二興趣點集合。其中,微博話題還可以包括話題類別和話題閱讀量。作為示例,預設話題類別集合中可以包括:人物類別、事件類別。預設話題閱讀量可以是10萬次。對于候選微博話題集合中的每個候選微博話題,電子設備可以首先確定該候選微博話題的類別是否屬于人物類別、事件類別;若是,則進一步確定該候選微博話題的話題閱讀量是否大于10萬次;若是,則將候選微博話題的話題名稱作為第二興趣點。

步驟203,將第一興趣點集合和第二興趣點集合加入到興趣點集合中。

在本實施例中,電子設備可以將步驟202a所選取出的第一興趣點集合和步驟202b中所選取出的第二興趣點集合加入到興趣點集合中。其中,電子設備可以直接將第一興趣點集合和第二興趣點集合加入到興趣點集合中,也可以對第一興趣點集合和第二興趣點集合進行去重處理后加入到興趣點集合中。

在本實施例的一些可選的實現(xiàn)方式中,在生成興趣點集合之后,電子設備可以通過以下方式將興趣度降低的興趣點從興趣點集合中刪除:

首先,電子設備可以周期性地獲取周期搜索記錄集合。

具體地,電子設備可以每隔一定的周期(例如,兩個星期、兩個月、半年)獲取該周期內(nèi)的搜索記錄集合,并作為周期搜索記錄集合。其中,周期搜索記錄可以包括周期搜索式和周期搜索量。周期搜索量可以是該周期搜索式在該周期內(nèi)的搜索量。

之后,電子設備可以將興趣點集合中的各個興趣點分別在周期搜索記錄集合中進行匹配,獲取匹配成功的周期搜索記錄的周期搜索量,并作為興趣點集合中的各個興趣點的搜索量。

具體地,對于興趣點集合中的每個興趣點,電子設備可以將該興趣點與周期搜索記錄集合中的各條周期搜索記錄的搜索式分別進行逐一匹配;若一條周期搜索記錄的搜索式與該興趣點的匹配度大于第三預設匹配度閾值(例如0.7),則匹配成功,并將該周期搜索記錄的搜索量作為該興趣點的搜索量;若周期搜索記錄集合中的所有周期搜索記錄的搜索式與該興趣點的匹配度均不大于第三預設匹配度閾值,則匹配不成功,并將該興趣點的搜索量設置為0。

然后,電子設備可以分別確定興趣點集合中的各個興趣點的搜索量是否小于搜索量閾值。

具體地,對于興趣點集合中的每個興趣點,電子設備可以將該興趣點的搜索量與搜索量閾值(例如5千次、1萬次、5萬次)進行比較;若該興趣點的搜索量小于搜索量閾值,則將該興趣點從興趣點集合中刪除;若該興趣點的搜索量不小于搜索量閾值,則繼續(xù)保留該興趣點。

最后,電子設備可以將搜索量小于搜索量閾值的興趣點從興趣點集合中刪除。

本申請實施例提供的基于人工智能的信息處理方法,首先獲取預設時間段內(nèi)的搜索記錄集合;然后將搜索記錄集合與百科詞條集合進行匹配,根據(jù)匹配結果從百科詞條集合中選取出第一興趣點集合,并將搜索記錄集合與微博話題集合進行匹配,根據(jù)匹配結果從微博話題集合中選取出第二興趣點集合;最后將第一興趣點集合和第二興趣點集合加入到興趣點集合中。通過人工智能對搜索記錄集合進行處理后自動獲取興趣點集合,實現(xiàn)了興趣點的準確獲取,從而有助于實現(xiàn)富于針對性的信息推送。

進一步參考圖3,其示出了基于人工智能的信息處理方法的又一個實施例的流程300。該基于人工智能的信息處理方法的流程300,包括以下步驟:

步驟301,獲取預設時間段內(nèi)的搜索記錄集合。

在本實施例中,基于人工智能的信息處理方法行于其上的電子設備(例如圖1所示的服務器105)可以首先通過有線連接方式或無線連接方式從終端設備(例如圖1所示的終端設備101)或搜索類網(wǎng)站的后臺服務器獲取預設時間段(例如,一個星期、一個月、一個季度)內(nèi)的搜索記錄集合;然后繼續(xù)執(zhí)行步驟302a、步驟302b和步驟302c。

步驟302a,將搜索記錄集合與百科詞條集合進行匹配,并根據(jù)匹配結果從百科詞條集合中選取出第一興趣點集合。

步驟302b,將搜索記錄集合與微博話題集合進行匹配,并根據(jù)匹配結果從微博話題集合中選取出第二興趣點集合。

本實施例中的步驟302a和步驟302b可以與圖2所示的步驟202a和步驟202b具有類似的實現(xiàn)方式,在此不再贅述。

步驟302c,分別提取搜索記錄集合中的各條搜索記錄的特征向量。

在本實施例中,對于步驟301所獲取的搜索記錄集合中的每條搜索記錄,電子設備可以首先提取該搜索記錄的特征向量;然后繼續(xù)執(zhí)行步驟303c。其中,搜索記錄的特征向量可以用于描述搜索記錄的內(nèi)容。

在本實施例的一些可選的實現(xiàn)方式中,電子設備可以首先分別獲取搜索記錄集合中的各條搜索記錄的特征數(shù)據(jù);然后分別從搜索記錄集合中的各條搜索記錄的特征數(shù)據(jù)中提取搜索記錄集合中的各條搜索記錄的特征向量。其中,特征數(shù)據(jù)可以包括但不限于以下至少一項:搜索式、url、搜索時間、搜索量、點擊時間、點擊量。作為示例,一個完整的url通??梢园▍f(xié)議類型、域名、路徑和參數(shù)等等。電子設備可以對搜索記錄的url進行泛化處理,去除搜索記錄的url的協(xié)議類型、路徑和參數(shù)等等,僅保留搜索記錄的url的域名,并將搜索記錄的url的域名作為搜索記錄的特征向量。

步驟303c,將搜索記錄集合中的各條搜索記錄的特征向量輸入至預先訓練的分類模型,得到搜索記錄集合中的各條搜索記錄的類別。

在本實施例中,對于步驟302c所提取的搜索記錄集合中的每條搜索記錄的特征向量,電子設備可以首先將該搜索記錄的特征向量輸入至預先訓練的分類模型進行分類,從而得到該搜索記錄的類別;然后繼續(xù)執(zhí)行步驟304c。其中,搜索記錄的類別可以包括興趣點類別和非興趣點類別。

在本實施例中,分類模型可以用于表征搜索記錄的特征向量與搜索記錄的類別的對應關系。這里,電子設備可以通過多種方式訓練分類模型。

在本實施例的一些可選的實現(xiàn)方式中,電子設備可以基于對大量的搜索記錄的特征向量和搜索記錄的類別的統(tǒng)計而生成存儲有多個搜索記錄的特征向量與搜索記錄的類別的對應關系的對應關系表,并將該對應關系表作為分類模型。

在本實施例的一些可選的實現(xiàn)方式中,電子設備還可以按照以下步驟訓練分類模型:

首先,電子設備可以獲取樣本搜索記錄和樣本搜索記錄的類別。

具體地,本領域技術人員可以從搜索記錄集合中選取出部分搜索記錄作為樣本搜索記錄;然后對樣本搜索記錄進行人工分析,從而得到樣本搜索記錄的類別。

然后,電子設備可以提取樣本搜索記錄的特征向量。

具體地,電子設備可以首先獲取樣本搜索記錄的特征數(shù)據(jù);然后分別從樣本搜索記錄的特征數(shù)據(jù)中提取特征向量。其中,特征數(shù)據(jù)可以包括但不限于以下至少一項:搜索式、url、搜索時間、搜索量、點擊時間、點擊量。

最后,電子設備可以利用機器學習方法,將樣本搜索記錄的特征向量作為輸入,將樣本搜索記錄的類別作為輸出,訓練得到分類模型。

具體地,電子設備可以利用機器學習方法,將樣本搜索記錄的特征向量作為輸入,將樣本搜索記錄的類別作為輸出,對例如深度卷積神經(jīng)網(wǎng)絡(deepconvolutionalneuralnetwork,dcnn)進行訓練,得到能夠建立搜索記錄的特征向量和搜索記錄的類別之間準確對應關系的分類模型。

步驟304c,從搜索記錄集合中的歸屬于興趣點類別的搜索記錄中選取出第三興趣點集合。

在本實施例中,基于步驟303c所得到搜索記錄集合中的各條搜索記錄的類別,電子設備可以首先從搜索記錄集合中選取出類別屬于興趣點類別的搜索記錄;然后從所選取出的搜索記錄中選取出第三興趣點集合;最后繼續(xù)執(zhí)行步驟305。其中,第三興趣點集合中通常既包括實體型興趣點,又包括話題型興趣點。

在本實施例中,電子設備可以直接將所選取出的搜索記錄中的搜索式作為第三興趣點以生成第三興趣點集合。電子設備也可以對所選取出的搜索記錄中的搜索式進一步處理,然后將處理后的搜索式作為第三興趣點以生成第三興趣點集合。作為示例,對于所選取出的搜索記錄中的搜索式,可以去除其中的尋址類的搜索式,也可以去除搜索式中的前后綴。

步驟305,將第一興趣點集合、第二興趣點集合和第三興趣點集合加入到興趣點集合中。

在本實施例中,電子設備可以將步驟302a所選取出的第一興趣點集合、步驟302b中所選取出的第二興趣點集合和步驟304c中所選取出的第三興趣點集合加入到興趣點集合中。其中,電子設備可以直接將第一興趣點集合、第二興趣點集合和第三興趣點集合加入到興趣點集合中,也可以對第一興趣點集合、第二興趣點集合和第三興趣點集合進行去重處理后加入到興趣點集合中。

從圖3中可以看出,與圖2對應的實施例相比,本實施例中的基于人工智能的信息處理方法的流程300增加了從搜索記錄集合中選取第三興趣點集合的步驟。由此,本實施例描述的方案所生成的興趣點集合中的興趣點更加全面、豐富。

進一步參考圖4,作為對上述各圖所示方法的實現(xiàn),本申請?zhí)峁┝艘环N基于人工智能的信息處理裝置的一個實施例,該裝置實施例與圖2所示的方法實施例相對應,該裝置具體可以應用于各種電子設備中。

如圖4所示,本實施例的基于人工智能的信息處理裝置400可以包括:第一獲取單元401、第一選取單元402、第二選取單元403和第一加入單元404。其中,第一獲取單元401,配置用于獲取預設時間段內(nèi)的搜索記錄集合;第一選取單元402,配置用于將搜索記錄集合與百科詞條集合進行匹配,并根據(jù)匹配結果從百科詞條集合中選取出第一興趣點集合;第二選取單元403,配置用于將用搜索記錄集合與微博話題集合進行匹配,并根據(jù)匹配結果從微博話題集合中選取出第二興趣點集合;第一加入單元404,配置用于將第一興趣點集合和第二興趣點集合加入到興趣點集合中。

在本實施例中,基于人工智能的信息處理裝置400中:第一獲取單元401、第一選取單元402、第二選取單元403和第一加入單元404的具體處理及其所帶來的技術效果可分別參考圖2對應實施例中的步驟201、步驟202、步驟203和步驟204的相關說明,在此不再贅述。

在本實施例的一些可選的實現(xiàn)方式中,搜索記錄可以包括搜索式和搜索量,百科詞條可以包括詞條名稱和詞條內(nèi)容;第一選取單元402可以包括:第一匹配子單元(圖中未示出),配置用于將搜索記錄集合中的各條搜索記錄的搜索式與百科詞條集合中的各個百科詞條的詞條內(nèi)容進行匹配,獲取匹配成功的百科詞條作為候選百科詞條以生成候選百科詞條集合;第一選取子單元(圖中未示出),配置用于從候選百科詞條集合中選取出候選百科詞條的詞條名稱作為第一興趣點以生成第一興趣點集合。

在本實施例的一些可選的實現(xiàn)方式中,百科詞條還可以包括詞條類別和詞條閱讀量;第一選取子單元可以包括:第一確定模塊(圖中未示出),配置用于分別確定候選百科詞條集合中的各個候選百科詞條是否滿足第一預設條件,其中,第一預設條件可以包括詞條類別屬于預設詞條類別集合中的詞條類別和詞條閱讀量大于預設詞條閱讀量;第一選取模塊(圖中未示出),配置用于選取出候選百科詞條集合中滿足第一預設條件的候選百科詞條;第一生成模塊(圖中未示出),配置用于將所選取出的候選百科詞條的詞條名稱作為第一興趣點以生成第一興趣點集合。

在本實施例的一些可選的實現(xiàn)方式中,搜索記錄可以包括搜索式和搜索量,微博話題可以包括話題名稱和話題內(nèi)容;第二選取單元403可以包括:第二匹配子單元(圖中未示出),配置用于將搜索記錄集合中的各條搜索記錄的搜索式與微博話題集合中的各個微博話題的話題內(nèi)容進行匹配,獲取匹配成功的微博話題作為候選微博話題以生成候選微博話題集合;第二選取子單元(圖中未示出),配置用于從候選微博話題集合中選取出候選微博話題的話題名稱作為第二興趣點以生成第二興趣點集合。

在本實施例的一些可選的實現(xiàn)方式中,微博話題還可以包括話題類別和話題閱讀量;第二選取子單元可以包括:第二確定模塊(圖中未示出),配置用于分別確定候選微博話題集合中的各個候選微博話題是否滿足第二預設條件,其中,第二預設條件可以包括話題類別屬于預設話題類別集合中的話題類別和話題閱讀量大于預設話題閱讀量;第二選取模塊(圖中未示出),配置用于選取出候選微博話題集合中滿足第二預設條件的候選微博話題;第二生成模塊(圖中未示出),配置用于將所選取出的候選微博話題的話題名稱作為第二興趣點以生成第二興趣點集合。

在本實施例的一些可選的實現(xiàn)方式中,基于人工智能的信息處理裝置400還可以包括:提取單元(圖中未示出),配置用于分別提取搜索記錄集合中的各條搜索記錄的特征向量;分類單元(圖中未示出),配置用于將搜索記錄集合中的各條搜索記錄的特征向量輸入至預先訓練的分類模型,得到搜索記錄集合中的各條搜索記錄的類別,其中,分類模型用于表征搜索記錄的特征向量與搜索記錄的類別的對應關系,搜索記錄的類別包括興趣點類別和非興趣點類別;第三選取單元(圖中未示出),配置用于從搜索記錄集合中的歸屬于興趣點類別的搜索記錄中選取出第三興趣點集合;第二加入單元(圖中未示出),配置用于將第三興趣點集合加入到興趣點集合中。

在本實施例的一些可選的實現(xiàn)方式中,提取單元可以包括:第一獲取子單元(圖中未示出),配置用于分別獲取搜索記錄集合中的各條搜索記錄的特征數(shù)據(jù),其中,特征數(shù)據(jù)包括以下至少一項:搜索式、統(tǒng)一資源定位符、搜索時間、搜索量、點擊時間、點擊量;第一提取子單元(圖中未示出),配置用于分別從搜索記錄集合中的各條搜索記錄的特征數(shù)據(jù)中提取搜索記錄集合中的各條搜索記錄的特征向量。

在本實施例的一些可選的實現(xiàn)方式中,基于人工智能的信息處理裝置400還可以包括訓練單元(圖中未示出),訓練單元可以包括:第二獲取子單元(圖中未示出),配置用于獲取樣本搜索記錄和樣本搜索記錄的類別;第二提取子單元(圖中未示出),配置用于提取樣本搜索記錄的特征向量;訓練子單元(圖中未示出),配置用于利用機器學習方法,將樣本搜索記錄的特征向量作為輸入,將樣本搜索記錄的類別作為輸出,訓練得到分類模型。

在本實施例的一些可選的實現(xiàn)方式中,基于人工智能的信息處理裝置400還可以包括:第二獲取單元(圖中未示出),配置用于周期性地獲取周期搜索記錄集合,其中,周期搜索記錄包括周期搜索式和周期搜索量;匹配單元(圖中未示出),配置用于將興趣點集合中的各個興趣點分別在周期搜索記錄集合中進行匹配,獲取匹配成功的周期搜索記錄的周期搜索量,并作為興趣點集合中的各個興趣點的搜索量;確定單元(圖中未示出),配置用于分別確定興趣點集合中的各個興趣點的搜索量是否小于搜索量閾值;刪除單元(圖中未示出),配置用于將搜索量小于搜索量閾值的興趣點從興趣點集合中刪除。

下面參考圖5,其示出了適于用來實現(xiàn)本申請實施例的服務器的計算機系統(tǒng)500的結構示意圖。圖5示出的服務器僅僅是一個示例,不應對本申請實施例的功能和使用范圍帶來任何限制。

如圖5所示,計算機系統(tǒng)500包括中央處理單元(cpu)501,其可以根據(jù)存儲在只讀存儲器(rom)502中的程序或者從存儲部分508加載到隨機訪問存儲器(ram)503中的程序而執(zhí)行各種適當?shù)膭幼骱吞幚?。在ram503中,還存儲有系統(tǒng)500操作所需的各種程序和數(shù)據(jù)。cpu501、rom502以及ram503通過總線504彼此相連。輸入/輸出(i/o)接口505也連接至總線504。

以下部件連接至i/o接口505:包括鍵盤、鼠標等的輸入部分506;包括諸如陰極射線管(crt)、液晶顯示器(lcd)等以及揚聲器等的輸出部分507;包括硬盤等的存儲部分508;以及包括諸如lan卡、調制解調器等的網(wǎng)絡接口卡的通信部分509。通信部分509經(jīng)由諸如因特網(wǎng)的網(wǎng)絡執(zhí)行通信處理。驅動器510也根據(jù)需要連接至i/o接口505??刹鹦督橘|511,諸如磁盤、光盤、磁光盤、半導體存儲器等等,根據(jù)需要安裝在驅動器510上,以便于從其上讀出的計算機程序根據(jù)需要被安裝入存儲部分508。

特別地,根據(jù)本公開的實施例,上文參考流程圖描述的過程可以被實現(xiàn)為計算機軟件程序。例如,本公開的實施例包括一種計算機程序產(chǎn)品,其包括承載在計算機可讀介質上的計算機程序,該計算機程序包含用于執(zhí)行流程圖所示的方法的程序代碼。在這樣的實施例中,該計算機程序可以通過通信部分509從網(wǎng)絡上被下載和安裝,和/或從可拆卸介質511被安裝。在該計算機程序被中央處理單元(cpu)501執(zhí)行時,執(zhí)行本申請的方法中限定的上述功能。

需要說明的是,本申請上述的計算機可讀介質可以是計算機可讀信號介質或者計算機可讀存儲介質或者是上述兩者的任意組合。計算機可讀存儲介質例如可以是——但不限于——電、磁、光、電磁、紅外線、或半導體的系統(tǒng)、裝置或器件,或者任意以上的組合。計算機可讀存儲介質的更具體的例子可以包括但不限于:具有一個或多個導線的電連接、便攜式計算機磁盤、硬盤、隨機訪問存儲器(ram)、只讀存儲器(rom)、可擦式可編程只讀存儲器(eprom或閃存)、光纖、便攜式緊湊磁盤只讀存儲器(cd-rom)、光存儲器件、磁存儲器件、或者上述的任意合適的組合。在本申請中,計算機可讀存儲介質可以是任何包含或存儲程序的有形介質,該程序可以被指令執(zhí)行系統(tǒng)、裝置或者器件使用或者與其結合使用。而在本申請中,計算機可讀的信號介質可以包括在基帶中或者作為載波一部分傳播的數(shù)據(jù)信號,其中承載了計算機可讀的程序代碼。這種傳播的數(shù)據(jù)信號可以采用多種形式,包括但不限于電磁信號、光信號或上述的任意合適的組合。計算機可讀的信號介質還可以是計算機可讀存儲介質以外的任何計算機可讀介質,該計算機可讀介質可以發(fā)送、傳播或者傳輸用于由指令執(zhí)行系統(tǒng)、裝置或者器件使用或者與其結合使用的程序。計算機可讀介質上包含的程序代碼可以用任何適當?shù)慕橘|傳輸,包括但不限于:無線、電線、光纜、rf等等,或者上述的任意合適的組合。

附圖中的流程圖和框圖,圖示了按照本申請各種實施例的系統(tǒng)、方法和計算機程序產(chǎn)品的可能實現(xiàn)的體系架構、功能和操作。在這點上,流程圖或框圖中的每個方框可以代表一個模塊、程序段、或代碼的一部分,該模塊、程序段、或代碼的一部分包含一個或多個用于實現(xiàn)規(guī)定的邏輯功能的可執(zhí)行指令。也應當注意,在有些作為替換的實現(xiàn)中,方框中所標注的功能也可以以不同于附圖中所標注的順序發(fā)生。例如,兩個接連地表示的方框實際上可以基本并行地執(zhí)行,它們有時也可以按相反的順序執(zhí)行,這依所涉及的功能而定。也要注意的是,框圖和/或流程圖中的每個方框、以及框圖和/或流程圖中的方框的組合,可以用執(zhí)行規(guī)定的功能或操作的專用的基于硬件的系統(tǒng)來實現(xiàn),或者可以用專用硬件與計算機指令的組合來實現(xiàn)。

描述于本申請實施例中所涉及到的單元可以通過軟件的方式實現(xiàn),也可以通過硬件的方式來實現(xiàn)。所描述的單元也可以設置在處理器中,例如,可以描述為:一種處理器包括第一獲取單元、第一選取單元、第二選取單元和第一加入單元。其中,這些單元的名稱在某種情況下并不構成對該單元本身的限定,例如,第一獲取單元還可以被描述為“獲取預設時間段內(nèi)的搜索記錄集合的單元”。

作為另一方面,本申請還提供了一種計算機可讀介質,該計算機可讀介質可以是上述實施例中描述的服務器中所包含的;也可以是單獨存在,而未裝配入該服務器中。上述計算機可讀介質承載有一個或者多個程序,當上述一個或者多個程序被該服務器執(zhí)行時,使得該服務器:獲取預設時間段內(nèi)的搜索記錄集合;將搜索記錄集合與百科詞條集合進行匹配,并根據(jù)匹配結果從百科詞條集合中選取出第一興趣點集合;將搜索記錄集合與微博話題集合進行匹配,并根據(jù)匹配結果從微博話題集合中選取出第二興趣點集合;將第一興趣點集合和第二興趣點集合加入到興趣點集合中。

以上描述僅為本申請的較佳實施例以及對所運用技術原理的說明。本領域技術人員應當理解,本申請中所涉及的發(fā)明范圍,并不限于上述技術特征的特定組合而成的技術方案,同時也應涵蓋在不脫離上述發(fā)明構思的情況下,由上述技術特征或其等同特征進行任意組合而形成的其它技術方案。例如上述特征與本申請中公開的(但不限于)具有類似功能的技術特征進行互相替換而形成的技術方案。

當前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
永丰县| 五原县| 潼南县| 穆棱市| 周口市| 深水埗区| 哈密市| 虎林市| 兴国县| 光山县| 卢湾区| 莲花县| 荔浦县| 淳安县| 广水市| 耿马| 泽州县| 嘉兴市| 临潭县| 闽侯县| 田林县| 萝北县| 壤塘县| 印江| 台安县| 龙口市| 长子县| 苍梧县| 灌阳县| 南丰县| 达拉特旗| 尉氏县| 万源市| 仁化县| 芜湖县| 诸暨市| 巴彦县| 上虞市| 海阳市| 乐安县| 乌兰浩特市|