欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

使用基于特征的聚類來為推薦感興趣的項產(chǎn)生定型簡表的方法和裝置的制作方法

文檔序號:7748382閱讀:297來源:國知局
專利名稱:使用基于特征的聚類來為推薦感興趣的項產(chǎn)生定型簡表的方法和裝置的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及用于推薦感興趣的項諸如電視節(jié)目的方法和裝置,更特別地,涉及在用戶的購買或者觀看歷史可用前推薦節(jié)目和其它感興趣的項的技術(shù)。
背景技術(shù)
隨著可用于電視觀眾的頻道數(shù)目增加,連同在這種頻道上可用的各種節(jié)目內(nèi)容,對于電視觀眾來說識別感興趣的電視節(jié)目已經(jīng)變得日益復(fù)雜。電子節(jié)目指南(EPG)識別可用的電視節(jié)目,例如通過名稱、時間、日期和頻道,并通過允許可用的電視節(jié)目按照個人偏好檢索和存儲便利感興趣的節(jié)目的識別。
已經(jīng)有一些推薦工具被提出或者被建議用來推薦電視節(jié)目和其它感興趣的項目。電視節(jié)目推薦工具例如施加用戶偏好給EPG以獲得一組推薦的節(jié)目,這些節(jié)目可能對于一個特定的觀眾有興趣。一般說,電視節(jié)目推薦工具使用隱式或者顯式的技術(shù)或者使用上述技術(shù)的某種組合來獲得觀眾的偏好。隱式電視節(jié)目推薦工具根據(jù)從觀眾的觀看歷史導(dǎo)出的信息以魯莽的方式產(chǎn)生電視節(jié)目推薦。另一方面,顯式電視節(jié)目推薦工具明確詢問觀眾關(guān)于他們對節(jié)目屬性的偏好,諸如名稱、類型、演員、頻道、和日期/時間,以導(dǎo)出觀眾的簡表和產(chǎn)生推薦。
雖然當(dāng)前可用的推薦工具幫助用戶識別感興趣的項目,但是它們?nèi)匀辉馐芤恍┫拗?,如果能夠克服這些限制的話,則將極大地改善這種推薦工具的方便性和性能。例如,為能包容廣泛的內(nèi)容,顯式推薦工具在初始化時過于單調(diào)乏味,要求每一個新的用戶回答非常詳盡的調(diào)查,這些調(diào)查非常粗糙地指定用戶的偏好。盡管隱式電視節(jié)目推薦工具通過觀察觀看行為不明顯地導(dǎo)出簡表,但是它們需要長期的時間才能精確。另外,這種隱式電視節(jié)目推薦工具至少需要最小量的觀看歷史來開始做出任何推薦。從而這種隱式電視節(jié)目推薦工具在被首次得到時不能做出任何推薦。
因此需要一種方法和裝置,它們能夠在足夠的個人觀看歷史可用前不明顯地推薦項目諸如電視節(jié)目。另外,需要一種用于根據(jù)第三方的觀看習(xí)慣為給定用戶產(chǎn)生節(jié)目推薦的方法和裝置。

發(fā)明內(nèi)容
總體上,公開了一種用于給用戶推薦感興趣的項目的方法和裝置,諸如電視節(jié)目推薦。根據(jù)本發(fā)明的一個方面,在可得到用戶的觀看歷史或者購買歷史前-諸如當(dāng)用戶首次得到推薦器時產(chǎn)生推薦。最初,使用來自一個或者多個第三方的觀看歷史或者購買歷史來給一個特定用戶推薦感興趣的項目。
處理第三方觀看或購買歷史以產(chǎn)生定型簡表(stereotypicalprofile),該簡表反映由有代表性的觀眾所選擇的項目的典型模式。每一定型簡表是在某些方面彼此相似的項目(數(shù)據(jù)點)的一個群(cluster)。用戶選擇感興趣的定型來用最接近他或她自己的興趣的項目初始化他或她的簡表。
聚類例程把第三方觀看或購買歷史(數(shù)據(jù)集)劃分為群(cluster),使得在一群中的點(例如電視節(jié)目)比任何其它群更接近該群的平均值。使用每一群的平均值,根據(jù)在該數(shù)據(jù)點到每一群之間的距離把一個給定的數(shù)據(jù)點-諸如電視節(jié)目分配給一個群。
還公開了平均值計算例程,用于計算一群的符號平均值(symbolicmean)。對于基于項的平均值計算,在兩個項之間的距離計算在項級上執(zhí)行,而作為結(jié)果產(chǎn)生的群平均值由選擇的平均值項的特征值組成。這樣,選擇任何展現(xiàn)最小方差的一個或者多個項來作為該群的平均值。
參考下面詳細(xì)的說明和附圖,可以更完整地理解本發(fā)明、以及本發(fā)明的進一步的特征和優(yōu)點。


圖1是根據(jù)本發(fā)明的一個電視節(jié)目推薦器的原理框圖;圖2是取自圖1的示例節(jié)目數(shù)據(jù)庫的樣本表;圖3是說明體現(xiàn)本發(fā)明原理的圖1的定型簡表的處理的流程圖;圖4是說明體現(xiàn)本發(fā)明原理的圖1的聚類例程的流程圖;圖5是說明體現(xiàn)本發(fā)明原理的圖1的平均值計算例程的流程圖;圖6是說明體現(xiàn)本發(fā)明原理的圖1的距離計算例程的流程圖;圖7A是取自一個示例頻道特征值發(fā)生表中的一個樣本表,所述頻道特征值發(fā)生表為每一類指示每一頻道特征值的發(fā)生的數(shù)目;圖7B是取自一個示例特征值對距離表中的一個樣本表,所述特征值對距離表指示從圖7A所示示例計數(shù)中計算的每一特征值對之間的距離;圖8是說明體現(xiàn)本發(fā)明原理的圖1的聚類性能評價例程的流程圖。
具體實施例方式
圖1表示根據(jù)本發(fā)明的電視節(jié)目推薦器100。如圖1所示,示例電視節(jié)目推薦器100估計節(jié)目數(shù)據(jù)庫200中的節(jié)目,以識別一個特定觀眾感興趣的節(jié)目,所述節(jié)目數(shù)據(jù)庫200將在下面結(jié)合圖2討論。該組被推薦的節(jié)目可以呈現(xiàn)給觀眾,例如使用采用眾所周知的屏上呈現(xiàn)技術(shù)的頂置終端/電視(未示出)。雖然這里是在電視節(jié)目推薦的上下文中說明了本發(fā)明,但是本發(fā)明可以應(yīng)用于任何基于對用戶行為的評價,諸如觀看歷史或者購買歷史而自動產(chǎn)生的推薦。
根據(jù)本發(fā)明的一個特征,電視節(jié)目推薦器100可以在用戶的觀看歷史140可得到之前-諸如當(dāng)用戶首次得到電視節(jié)目推薦器100時產(chǎn)生電視節(jié)目推薦。如圖1所示,電視節(jié)目推薦器100最初使用來自一個或者多個第三方的觀看歷史130來給一個特定用戶推薦感興趣的節(jié)目。一般說,第三方觀看歷史130基于一個或者多個樣本人群的觀看習(xí)慣,該樣本人群具有代表大量人數(shù)的人口統(tǒng)計學(xué)特性,諸如年齡、收入、性別和教育。
如圖1所示,第三方觀看歷史130包括一組由給定的人群觀看的和未觀看的節(jié)目。通過觀察由給定的人群實際觀看的節(jié)目來得到被觀看的一組節(jié)目。通過例如隨機采樣節(jié)目數(shù)據(jù)庫200中的節(jié)目來得到未被觀看的一組節(jié)目。在另一個變更中,根據(jù)序號為No.09/819,286的美國專利申請的教導(dǎo)得到未被觀看的一組節(jié)目,所述美國專利申請在2001年3月28日提交,名稱為“An Adaptive Sampling Techniquefor Selecting Negative Examples for Artificial IntelligenceApplications”,轉(zhuǎn)讓給本發(fā)明的受讓人,在這里引用作為參考。
根據(jù)本發(fā)明的另一個特征,電視節(jié)目推薦器100處理第三方觀看歷史130來產(chǎn)生定型簡表,它反映由有代表性的觀眾所觀看的電視節(jié)目的典型模式。如下面進一步討論的,定型簡表是一群在某些方面彼此相似的電視節(jié)目(數(shù)據(jù)點)。這樣,一個給定的群相應(yīng)于取自展現(xiàn)一個特定模式的、第三方觀看歷史130中的一個特定的電視節(jié)目段。
根據(jù)本發(fā)明來處理第三方觀看歷史130以提供展現(xiàn)某特定模式的節(jié)目群。之后,用戶可以選擇最相關(guān)的定型,從而用最接近他或她自己的興趣的節(jié)目初始化他或她的簡表。然后根據(jù)每個單獨用戶他們自己的記錄樣式以及給予節(jié)目的反饋,定型簡表調(diào)整并朝向每一單個用戶的特定的、個人觀看行為發(fā)展。在一個實施例中,當(dāng)決定節(jié)目得分時,可以對取自用戶自己的觀看歷史140的節(jié)目比取自第三方觀看歷史130的節(jié)目給予較高的權(quán)。
電視節(jié)目推薦器100可以被具體化為任何計算設(shè)備,諸如個人計算機或者工作站,其包括諸如中央處理單元(CPU)的處理器115、和存儲器120,諸如RAM和/或ROM。電視節(jié)目推薦器100還可以具體化為例如在頂置終端或者顯示器(未示出)中的專用集成電路(ASIC)。另外,電視節(jié)目推薦器100可以具體化為許多可得到的電視節(jié)目推薦器,諸如由位于加利福尼亞的Sunnyvale市的Tivo公司生產(chǎn)的市售TivoTM系統(tǒng),或者在下述美國專利申請中說明的序號No.09/466,406,在1999年12月17日提交,名稱為“Method andApparatus for Recommending Television Programming UsingDecision Tress”、序號No.09/498,271,于2000年2月4日提交,名稱為“Bayesian TV Show Recommender”、和序號No.09/627,139,在2000年7月27日提交,名稱為“Three-way Media RecommendationMethod and System”,或者它們的任何組合,每一個都在這里引用作為參考,按照這里所修改的以完成本發(fā)明的特征和功能。
如圖1所示,和在下面結(jié)合圖2到8的進一步討論,電視節(jié)目推薦器100包括節(jié)目數(shù)據(jù)庫200、定型簡表過程300、聚類例程400、平均值計算例程500、距離計算例程600和聚類性能評價例程800。一般說,節(jié)目數(shù)據(jù)庫200可以具體化為公知的電子節(jié)目指南和可以為在一個給定時間間隔內(nèi)可用的每一節(jié)目記錄信息。定型簡表過程300(i)處理第三方觀看歷史130以產(chǎn)生反映由有代表性的觀眾所觀看的電視節(jié)目的典型模式的定型簡表;(ii)允許用戶選擇最相關(guān)的定型從而初始化他或她的簡表;(iii)根據(jù)選擇的定型產(chǎn)生推薦。
聚類例程400由定型簡表過程300調(diào)用來把第三方觀看歷史130(數(shù)據(jù)集)劃分為群,使得在一群中的點(電視節(jié)目)比任何其它群更接近該群的平均值(質(zhì)心)。聚類例程400調(diào)用平均值計算例程500計算一個群的符號平均值。聚類例程400調(diào)用距離計算例程600以根據(jù)在給定電視節(jié)目和一給定群的平均值之間的距離評價一個電視節(jié)目對每一群的接近度。最后,聚類例程400調(diào)用聚類性能評價例程800以確定何時已滿足用于建立群的停止標(biāo)準(zhǔn)。
圖2是取自圖1的節(jié)目數(shù)據(jù)庫(EPG)200的一個樣本表。如前面指出的,節(jié)目數(shù)據(jù)庫200為在一個給定時間間隔內(nèi)可用的每一個節(jié)目記錄信息。如圖2所示,節(jié)目數(shù)據(jù)庫200包含多條記錄,諸如205到220條,每一條與一個節(jié)目關(guān)聯(lián)。對于每一個節(jié)目,節(jié)目數(shù)據(jù)庫200分別在欄240和245中表示出與該節(jié)目相關(guān)的日期/時間和頻道。另外,分別在欄250、255和270為每一節(jié)目標(biāo)識出名稱、類型和演員。另外公知的特征(未示出)-諸如節(jié)目的持續(xù)時間和描述也可以包含在節(jié)目數(shù)據(jù)庫200中。
圖3是一個流程圖,說明結(jié)合本發(fā)明特征的定型簡表過程300的示例實現(xiàn)。如前面指出的,定型簡表過程300(i)處理第三方觀看歷史130以產(chǎn)生反映由有代表性的觀眾觀看的電視節(jié)目的典型模式的定型簡表;(ii)允許用戶選擇最相關(guān)的定型從而初始化他或她的簡表;(iii)根據(jù)選擇的定型產(chǎn)生推薦。注意,可以例如在工廠中脫機執(zhí)行第三方觀看歷史130的處理,和可以給用戶提供安裝有產(chǎn)生的定型簡表的電視節(jié)目推薦器100以由用戶進行選擇。
這樣,如圖3所示,定型簡表過程300最初在步驟310收集第三方觀看歷史130。之后,定型簡表過程300在步驟320執(zhí)行聚類例程400以產(chǎn)生相應(yīng)于定型簡表的節(jié)目群,聚類例程400在下面結(jié)合圖4討論。如下面進一步論述的,示例聚類例程400可以使用一個無監(jiān)督數(shù)據(jù)聚類算法,諸如“k-平均值”聚類例程來觀看歷史數(shù)據(jù)集130。如前面指出的,聚類例程400把第三方觀看歷史130(數(shù)據(jù)集)劃分為群,使得在一群中的點(電視節(jié)目)比對任何其它群更接近該群的平均值(質(zhì)心)。
然后定型簡表過程300在步驟330給每一群指定一個用于表征每一定型簡表的一個或者多個標(biāo)簽。在一個示范實施例中,該群的平均值成為整群的有代表性的電視節(jié)目,而該平均值節(jié)目的特征可以用來標(biāo)記該群。例如,可以配置電視節(jié)目推薦器100使得類型對每一群為主要因素或是定義特征。
在步驟340,把標(biāo)記的定型簡表展示給每一用戶以便選擇最接近該用戶興趣的定型簡表。用于形成每一被選擇的群的節(jié)目可以被認(rèn)為是該定型的“典型觀看歷史”,并且可以用來為每一群構(gòu)建一個定型簡表。這樣,在步驟350為該用戶產(chǎn)生一個觀看歷史,它包括來自選擇的定型簡表中的節(jié)目。最后,在步驟360把在前一步驟產(chǎn)生的觀看歷史應(yīng)用到節(jié)目推薦器以獲得節(jié)目推薦。該節(jié)目推薦器可以具體化為任何常規(guī)節(jié)目推薦器,諸如上面所涉及的那些推薦器,雖然在這里進行了修改,但是其對于具有本技術(shù)領(lǐng)域一般技能的人是顯然的。程序控制在步驟370結(jié)束。
圖4是一個流程圖,說明結(jié)合本發(fā)明特征的聚類例程400的示例實現(xiàn)。如前面指出的,聚類例程400在步驟320由定型簡表過程300調(diào)用來把第三方觀看歷史130(數(shù)據(jù)集)劃分為群,使得在一個群中的點(電視節(jié)目)比任何其它群都接近該群的平均值(質(zhì)心)。一般說,聚類例程集中于在一個樣本數(shù)據(jù)集中尋找例子分組的無監(jiān)督任務(wù)。本發(fā)明使用k-平均值聚類算法把一個數(shù)據(jù)集劃分為k個群。如下面討論的,到聚類例程400的兩個主要參數(shù)是(i)用于尋找最接近的群的距離量度,其在下面結(jié)合圖6說明;(ii)k,要建立的群的數(shù)目。
示例聚類例程400使用動態(tài)值k,條件是當(dāng)進一步聚類示例數(shù)據(jù)不產(chǎn)生分類精度的任何改善時已達到一個穩(wěn)定的k。另外,群的大小被遞增到記錄一個空群的點。這樣,當(dāng)已達到群的一個平常水平時,聚類停止。
如圖4所示,聚類例程400在步驟410最初建立k個群。該示例聚類例程400通過選擇一個最小數(shù)目的群,例如兩個而開始。對這一固定數(shù)目,聚類例程400處理整個觀看歷史數(shù)據(jù)集130,經(jīng)過幾次迭代,達到兩個可以被認(rèn)為穩(wěn)定的群(亦即不會有節(jié)目再從一群移動到另一群,即使該算法再進行一次迭代)。在步驟420使用一個或者多個節(jié)目初始化當(dāng)前k個群。
在一個示范實施例中,在步驟420,使用從第三方觀看歷史130中選擇的某些種子節(jié)目來初始化這些群。用于初始化群的節(jié)目可以隨機或者順序選擇。在順序?qū)崿F(xiàn)中,可以使用從在觀看歷史130中第一節(jié)目開始的節(jié)目或者使用從觀看歷史130中某一隨機點開始的節(jié)目來初始化這些群。在另一個變更中,用于初始化每一群的那些節(jié)目的數(shù)目可以被改變。最后,可以用一個或者多個“假設(shè)的”節(jié)目初始化這些群,所述“假設(shè)的”節(jié)目由從第三方觀看歷史130中的節(jié)目中隨機選擇的特征值組成。
之后,聚類例程400在步驟430啟動平均值計算例程500以便計算每一群的當(dāng)前平均值,平均值計算例程500在下面結(jié)合圖5說明。然后聚類例程400在步驟440執(zhí)行距離計算例程600以決定第三方觀看歷史130中的每一節(jié)目與各個群之間的距離,距離計算例程600將在下面結(jié)合圖6說明。然后,在步驟460,把觀看歷史130中的每一節(jié)目分配給最接近的群。
在步驟470,執(zhí)行測試以確定是否有任何節(jié)目從一群移動到另一群。如果在步驟470確定某節(jié)目已經(jīng)從一群移動到另一群,則程序控制返回到步驟430并以上述方式繼續(xù),直到識別出一組穩(wěn)定的群。然而,如果在步驟470確定沒有節(jié)目從一群移動到另一群,則程序控制前進到步驟480。
在步驟480執(zhí)行進一步的測試以確定是否已滿足一個指定的性能標(biāo)準(zhǔn)或者是否識別出一個空群(總稱“停止標(biāo)準(zhǔn)”)。如果在步驟480決定尚未滿足停止標(biāo)準(zhǔn),則在步驟485遞增k值,程序控制返回到步驟420并以上述方式繼續(xù)。然而,如果在步驟480決定停止標(biāo)準(zhǔn)已經(jīng)滿足,則程序控制終止。下面將結(jié)合圖8進一步討論停止標(biāo)準(zhǔn)的評價。
示例聚類例程400只在一群中放置節(jié)目,從而建立所謂的“脆”(crisp)群。一個進一步的變更采用模糊聚類,它允許一個特殊的例子(電視節(jié)目)部分地屬于多個群。在模糊聚類方法中,給電視節(jié)目分配一個權(quán),該權(quán)表示一個電視節(jié)目離該群平均值有多接近。該權(quán)可以視電視節(jié)目離開群平均值的距離平方的倒數(shù)而定。與單一電視節(jié)目相關(guān)的所有群的權(quán)的和加起來一定是100%。
群的符號平均值的計算圖5是描述結(jié)合了本發(fā)明的特征的平均值計算例程500的一個示例實現(xiàn)的流程圖。如前面指出的,平均值計算例程500由聚類例程400調(diào)用來計算一個群的平均值。對于數(shù)值數(shù)據(jù),該平均值是使方差最小的值。把該概念擴展到符號數(shù)據(jù),可以通過尋找使群內(nèi)方差最小的值xμ來確定群的平均值(并因此確定此群的半徑或范圍)。
Var(J)=Σi∈J(xi-xμ)2---(1)]]>群半徑R(J)=Var(J)---(2)]]>式中J是取自同一類的(觀看的或不觀看的)一群電視節(jié)目,xi是對應(yīng)演出i的符號特征值,xμ是取自J中的一個電視節(jié)目的特征值,使得它使Var(J)最小。
這樣,如圖5所示,平均值計算例程500最初在步驟510識別當(dāng)前在一個給定的群J中的節(jié)目。對于在考慮中的當(dāng)前的符號屬性,在步驟520,使用等式(1)為每一可能的符號值xμ計算群J的方差。在步驟530,選擇使該方差最小的符號值xμ作為平均值。
在步驟540,執(zhí)行測試以確定是否存在另外要被考慮的符號屬性。如果在步驟540確定存在另外要被考慮的符號屬性,則程序控制返回到步驟520并以上述方式繼續(xù)。然而,如果在步驟540確定不存在另外要被考慮的符號屬性,則程序控制返回到聚類例程400。
就計算上來說,J中的每一符號特征值都被作為xμ,而使方差最小的符號值成為J中在考慮中的符號屬性的平均值。有兩類可能的平均值計算,稱為基于表示的平均值和基于特征的平均值。
基于特征的符號平均值這里討論的示例平均值計算例程500是基于特征的,其中產(chǎn)生的群平均值由從群J中的例子(節(jié)目)抽取的特征值組成,因為符號屬性的平均值必須是其可能的值之一。然而,重要的是注意群平均值可以是“假設(shè)的”電視節(jié)目。該假設(shè)的節(jié)目的特征值可以包括從一個例子中(例如EBC)中抽取的頻道值和從另一個例子(例如BBC世界新聞,實際上它從未在EBC上播出)抽取的名稱值。這樣,選擇展示最小方差的任何特征值來表示該特征的平均值。對于所有特征位置,重復(fù)平均值計算例程500,直到在步驟540確定所有特征(亦即符號屬性)已經(jīng)被考慮。使用這樣得到的、作為結(jié)果的假設(shè)節(jié)目來表示該群的平均值。
基于節(jié)目的符號平均值在另外一個變更中,在用于方差的等式(1)中,xi可以是電視節(jié)目i自身,相似地xμ可以是群J中使在群J中的該組節(jié)目上的方差最小的(多個)節(jié)目。在這種情況下,節(jié)目之間的距離而不是個別特征值之間的距離是要被最小化的相關(guān)的量度。另外在這種情況下產(chǎn)生的平均值不是假設(shè)的節(jié)目,而正是從集合J中提取的節(jié)目。使用在群J中這樣找到的、使在群J中所有節(jié)目的方差最小的任何節(jié)目來表示該群的平均值。
使用多節(jié)目的符號平均值上面討論的示例平均值計算例程500使用對應(yīng)每一可能特征的一個單一特征值來表征一個群的平均值(而不管是在基于特征還是基于節(jié)目的實現(xiàn))。然而,已經(jīng)發(fā)現(xiàn),在平均值計算中只依賴對應(yīng)每一特征的一個特征值經(jīng)常導(dǎo)致不合適的聚類,因為該平均值不再是該群的一個代表性的群中心。換句話說,也許不希望只由一個節(jié)目表示一個群,而是多個節(jié)目表示平均值或者可以使用多個平均值表示該群。于是,在另外一個變更中,可以用多個平均值或者對應(yīng)每一可能的特征的多個特征值表示一個群。這樣,在步驟530,選擇使方差最小的N個特征(對應(yīng)基于特征的符號平均值)或N個節(jié)目(對應(yīng)基于節(jié)目的符號平均值),這里N是用于表示一群中的平均值的節(jié)目的數(shù)目。
節(jié)目和群之間的距離計算如前面指出,聚類例程400調(diào)用距離計算例程600,根據(jù)在一個給定的電視節(jié)目和一個給定群的平均值之間的距離來估計一個電視節(jié)目對每一群的接近度。該計算的距離量度量化了在一個樣本數(shù)據(jù)集中的各個例子之間的區(qū)別以決定一群的范圍。為能夠聚類用戶簡表,必須計算觀看歷史中的任何兩個電視節(jié)目之間的距離。一般說,彼此接近的電視節(jié)目趨向于歸于一群。存在一些相對直接的技術(shù)來計算兩個數(shù)字值矢量之間的距離,諸如歐幾里德距離,曼哈頓距離和馬哈拉諾比斯(Mahalanobis)距離。
然而,在電視節(jié)目矢量的場合,不能使用現(xiàn)有的距離計算技術(shù),因為電視節(jié)目主要由符號特征值組成。例如,兩個電視節(jié)目,諸如EBC在2001年3月22日晚8點廣播的“朋友”的一集和FEX在2001年3月25日晚8點廣播的“西蒙一家”一集,可以使用下面的特征矢量表示名稱朋友 名稱西蒙一家頻道EBC 頻道FEX廣播日期2001.03.22廣播日期2001.03.25
廣播時間20:00 廣播時間20:00顯然,不能使用已知的數(shù)值距離量度來計算特征值“EBC”和“FEX”之間的距離。值差量度(VDM)是用于測量在符號特征值域中的特征值之間的距離的一種現(xiàn)有技術(shù)。VDM技術(shù)為每一特征的每一可能值考慮所有實例的分類的總相似性。使用這一方法,根據(jù)在訓(xùn)練集中的例子,用統(tǒng)計方法導(dǎo)出定義一個特征的所有值之間的距離的一個矩陣。關(guān)于用于計算符號特征值之間的距離的VDM技術(shù)的更詳細(xì)的討論例如見Stanfill和Waltz所著“Toward Memory-Based Reasoning”,Communication of the ACM,2912,1213-1228(1986),在此結(jié)合作為參考。
本發(fā)明使用VDM技術(shù)或其變更來計算在兩個電視節(jié)目或其他感興趣的項目之間的特征值之間的距離。原來的VDM建議在兩個特征值之間的距離計算中使用權(quán)項,它使得距離量度不對稱。修改的VDM(MVDM)省略了該權(quán)項以使距離矩陣對稱。關(guān)于用于計算符號特征值之間的距離的MVDM技術(shù)的更詳細(xì)的討論例如見Cost和Salzberg所著“AWeighted Nearest Neighbor Algorithm For Learning WithSymbolic Feature”Machine Learning,Vol.10,57-58,波士頓,馬薩諸塞州,Kluwer Publishers(1993),在此結(jié)合作為參考。
根據(jù)MVDM,對于一個特定的特征在兩個值V1和V2之間的距離δ由下式給出δ(V1,V2)=∑|C1i/C1-C2i/C2|r等式(3)在本發(fā)明的節(jié)目推薦環(huán)境中,MVDM等式(3)被變換成用于特殊處理類別“觀看的(watched)”和“未觀看的(not_watched)”。
δ(V1,V2)=|C1_watchedC1_total-C2_watchedC2_total|+]]>|C1_not_watchedC1_total-C2_not_watchedC2_total|]]>等式(4)在等式(4)中,V1和V2是在考慮中的特征的兩個可能的值。繼續(xù)上面的例子,對于特征“頻道”第一值V1等于“EBC”,第二值V2等于“FEX”。這些值之間的距離是這些例子被分類成的所有類的總和。用于本發(fā)明的示例節(jié)目推薦器實施例的相關(guān)類是“觀看的”和“未觀看的”。C1i是V1(EBC)被分類到類i(i等于意指被觀看類別的1)的次數(shù),而C1(C1_Total)是V1在該數(shù)據(jù)集中出現(xiàn)的總次數(shù)。值“r”是常數(shù),通常設(shè)定為1。
如果這些值對于所有分類都以相同的相關(guān)頻率出現(xiàn)的話,就由等式(4)定義的量度將這些值看成是相似的。項C1i/C1表示平均余數(shù)將被分類為i的概率,假定所討論的這一特征具有值V1。這樣,如果兩個值對于所有可能的分類都給出相似的概率,則這兩個值相似。等式(4)通過對于所有分類尋找這些概率的差的和來計算兩個值之間的總相似性。兩個電視節(jié)目之間的距離是這兩個電視節(jié)目矢量的相應(yīng)特征值之間的距離的和。
圖7A是對應(yīng)與特征“頻道”相關(guān)的特征值的距離表的一部分。圖7A規(guī)劃對應(yīng)每一類的每一頻道特征值的發(fā)生數(shù)目。圖7A所示數(shù)值取自示例第三方觀看歷史130。
圖7B表示使用MVDM等式(4)從圖7A所示示例計數(shù)計算的每一特征值對之間的距離。直覺上看,EBC和ABS應(yīng)該彼此接近,因為它們大多數(shù)發(fā)生在觀看的類中而不發(fā)生(ABS具有小的未觀看分量)在未觀看的類中。圖7B用EBC和ABS之間的小的(非零)距離來確認(rèn)了這一直覺。另一方面,ASPN大多數(shù)在未觀看類中發(fā)生,因此對于這一數(shù)據(jù)集對EBC和ABS兩者都應(yīng)該“遠(yuǎn)”。圖7B將EBC和ASPN之間的距離規(guī)劃為1.895,在最大可能距離2.0之外。相似地,在ABS和ASPN之間的距離也很高,其值為1.828。
這樣,如圖6所示,距離計算例程600最初在步驟610識別第三方觀看歷史130中的節(jié)目。對于在考慮下的當(dāng)前節(jié)目,距離計算例程600在步驟620使用等式(4)計算每一符號特征值到每一群平均值(由平均值計算例程500確定的)的相應(yīng)特征的距離。
在步驟630,通過合計在相應(yīng)特征值之間的距離計算在當(dāng)前節(jié)目和群平均值之間的距離。在步驟640,執(zhí)行測試以確定在第三方觀看歷史130中是否還有另外要考慮的節(jié)目。如果在步驟640確定,在第三方觀看歷史130中還有另外要考慮的節(jié)目,則在步驟650識別下一節(jié)目,程序控制前進到步驟620,以上述方式繼續(xù)。
然而,如果在步驟640確定,在第三方觀看歷史130中沒有另外要考慮的節(jié)目,則程序控制返回到聚類例程400。
如前面在名稱為“從多節(jié)目導(dǎo)出的符號平均值”小節(jié)中所討論的,可以使用對應(yīng)每一可能特征(不管是在基于特征的還是基于節(jié)目的實現(xiàn)中)的一些特征值來表征一個群的平均值。然后,通過距離計算例程600的一個變更把從多平均值產(chǎn)生的結(jié)果集中以通過投票達成一致的決定。例如,現(xiàn)在在步驟620計算在一個節(jié)目的一個給定特征值與對應(yīng)各個平均值的每一相應(yīng)特征值之間的距離。集中最小的距離結(jié)果并用于投票,例如通過使用多數(shù)投票或者專家的混合以便達成一致的決定。對于這些技術(shù)的更詳細(xì)的討論,例如見J.Kittler等人所著“combing Classifiers”,in Proc.of the 13thInt’l Conf.OnPattern Recognition,Vol.II,897-901,維也納,奧地利,(1996),在此結(jié)合作為參考。
停止標(biāo)準(zhǔn)如前面指出的,聚類例程400調(diào)用圖8所示聚類性能評價例程800,以確定何時已滿足用于建立群的停止標(biāo)準(zhǔn)。示例聚類例程400使用動態(tài)值k,使用的條件是當(dāng)對示例數(shù)據(jù)的進一步的聚類不會產(chǎn)生分類精度的任何改善時已經(jīng)達到一個穩(wěn)定的k。另外,可以遞增群的大小到記錄空群的點。這樣,當(dāng)達到群的一個平常水平時,聚類停止。
示例聚類性能評價例程800使用取自第三方觀看歷史130中的一個節(jié)目子集(測試數(shù)據(jù)集)來測試聚類例程400的分類精度。對在測試集中的每一個節(jié)目,聚類性能評價例程800確定最接近它的群(其群平均值是最接近的),并比較該群和在考慮下的節(jié)目的類標(biāo)簽。把匹配的類標(biāo)簽的百分比變換為聚類例程400的精度。
這樣,如圖8所示,聚類性能評價例程800最初在步驟810從第三方觀看歷史130收集節(jié)目的子集作為測試數(shù)據(jù)集。之后,在步驟820,根據(jù)在該群中觀看的和未觀看的節(jié)目的百分比給每一群分配一個類標(biāo)簽。例如,如果在一群中的大多數(shù)節(jié)目是觀看過的,則可以給該群分配一個“觀看的”標(biāo)簽。
在步驟830識別最接近該測試集中的每一節(jié)目的群,并且比較所分配的群的類標(biāo)簽以確定該節(jié)目實際是否被觀看。在其中使用多個節(jié)目表示一個群的平均值的實現(xiàn)中,可以使用(到每一節(jié)目的)平均距離或投票方案。在程序控制返回到聚類例程400之前,在步驟840確定匹配的類標(biāo)簽的百分比。如果分類精度已經(jīng)達到一個預(yù)定的閾值,則聚類例程400結(jié)束。
應(yīng)該理解,這里表示的實施例和變更僅為說明本發(fā)明的原理,本技術(shù)領(lǐng)域的熟練人員可以在不脫離本發(fā)明的范圍和精神的情況下實現(xiàn)各種修改。
權(quán)利要求
1.一種用于表征多個項(205,210,220)J的方法,每一所述項(205,210,220)具有至少一個符號屬性,每一所述符號屬性具有至少一個可能的值,所述方法包括步驟為每一所述符號屬性的每一所述可能的符號值xμ計算所述多個項(205,210,220)J的方差;和通過為每一所述符號屬性選擇使所述方差最小的至少一個符號值xμ作為平均符號值,來用至少一個平均值項表征所述多個項(205,210,220)J。
2.如權(quán)利要求1所述的方法,其中,用于每一所述符號屬性的所述平均符號值包括所述多個項(205,210,220)的所述平均值。
3.如權(quán)利要求1所述的方法,其中,用于每一所述符號屬性的所述平均符號值包括一個或者多個假設(shè)項。
4.如權(quán)利要求1所述的方法,進一步包括如下步驟使用取自所述多個項(205,210,220)的所述至少一個平均值的至少一個符號值給所述多個項(205,210,220)分配一個標(biāo)簽。
5.如權(quán)利要求1所述的方法,其中,所述多個項(205,210,220)是包括相似項(205,210,220)的群。
6.如權(quán)利要求1所述的方法,其中,所述項(205,210,220)是節(jié)目和/或內(nèi)容和/或產(chǎn)品。
7.如權(quán)利要求1所述的方法,其中,所述計算方差的步驟按如下執(zhí)行Var(J)=∑i∈J(xi-xμ)2式中J是取自同一類的項(205,210,220)的一個群,xi是用于項i的符號特征值,xμ是取自J中的一個項(205,210,220)的屬性值,使得它使所述Var(J)最小。
8.一種用于表征多個項(205,210,220)J的系統(tǒng)(100),每一所述項(205,210,220)具有至少一個符號屬性,每一所述符號屬性具有至少一個可能的值,所述系統(tǒng)(100)包括存儲器(120),用于存儲計算機可讀代碼;和處理器(115),可操作地耦合于所述存儲器(120),所述處理器(115)被配置為為每一所述符號屬性的每一所述可能的符號值xμ計算所述多個項(205,210,220)J的方差;和通過為每一所述符號屬性選擇使所述方差最小化的至少一個符號值xμ作為平均符號值,來用至少一個平均值項表征所述多個項。
9.如權(quán)利要求8所述的系統(tǒng)(100),其中,用于每一所述符號屬性的所述平均符號值包括所述多個項(205,210,220)的所述平均值。
10.如權(quán)利要求8所述的系統(tǒng)(100),其中,用于每一所述符號屬性的所述平均符號值包括一個或者多個假設(shè)項。
11.如權(quán)利要求8所述的系統(tǒng)(100),其中,所述處理器(115)被進一步配置為使用取自所述多個項(205,210,220)的所述至少一個平均值的至少一個符號值給所述多個項(205,210,220)分配一個標(biāo)簽。
12.如權(quán)利要求8所述的系統(tǒng)(100),其中,所述多個項(205,210,220)是包括相似項(205,210,220)的群。
13.如權(quán)利要求8所述的系統(tǒng)(100),其中,所述處理器(115)按如下計算所述方差Var(J)=∑i∈J(xi-xμ)2式中J是取自同一類的項(205,210,220)的一個群,xi是用于項i的符號特征值,xμ是取自J中的一個項(205,210,220)的屬性值,使得它使所述Var(J)最小。
14.一種計算機程序產(chǎn)品,使可編程設(shè)備在當(dāng)執(zhí)行所述計算機程序產(chǎn)品時能夠起到在權(quán)利要求8到13中任何一個權(quán)利要求所定義的系統(tǒng)的作用。
全文摘要
公開了一種用于在可得到用戶的觀看歷史或購買歷史前向用戶推薦感興趣的項目,諸如電視節(jié)目推薦的方法和裝置。處理第三方觀看或購買歷史來產(chǎn)生定型簡表,它反映由有代表性的觀眾所選擇的項的典型模式。用戶可以從產(chǎn)生的定型簡表選擇最相關(guān)的(多個)定型,從而使用最接近他或她自己的興趣的項初始化他或她的簡表。聚類例程使用k平均值聚類算法來把第三方觀看或購買歷史(數(shù)據(jù)集)劃分為群,使得在一群中的點(例如電視節(jié)目)比任何其它群更接近該群的平均值。平均值計算例程計算群的符號平均值。對于基于特征的平均值計算,在特征(符號屬性)級別上執(zhí)行在兩個項之間的距離計算,作為結(jié)果產(chǎn)生的群平均值由從在該群中的例子(節(jié)目)中抽取的特征值組成。作為結(jié)果產(chǎn)生的群平均值可以是一個“假設(shè)的”電視節(jié)目,這一假設(shè)的節(jié)目的個別特征值從任一例子中抽取。
文檔編號H04N7/16GK1586076SQ02822388
公開日2005年2月23日 申請日期2002年11月6日 優(yōu)先權(quán)日2001年11月13日
發(fā)明者K·庫拉帕蒂, S·V·R·古特塔 申請人:皇家飛利浦電子股份有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
乳山市| 隆尧县| 慈利县| 敦煌市| 孙吴县| 施甸县| 连南| 宜宾县| 临漳县| 镇远县| 汝阳县| 郧西县| 阳曲县| 东山县| 秦安县| 临漳县| 玉环县| 莱西市| 和平区| 二手房| 通辽市| 调兵山市| 宜丰县| 高邑县| 台北县| 屏山县| 黄平县| 郁南县| 舞阳县| 乌兰浩特市| 报价| 金沙县| 锡林浩特市| 乌拉特中旗| 南投县| 汪清县| 辽阳市| 紫阳县| 都匀市| 香河县| 千阳县|