專利名稱:標注多媒體內(nèi)容的方法、生成推薦內(nèi)容的方法及系統(tǒng)的制作方法
技術領域:
本申請涉及一種標注多媒體內(nèi)容的方法、生成推薦內(nèi)容的方法及系統(tǒng),尤其涉及一種根據(jù)收錄的多媒體內(nèi)容的標題對所述多媒體內(nèi)容進行標注,并且基于用戶的網(wǎng)絡訪問日志個性化地生成推薦的多媒體內(nèi)容的方法和系統(tǒng)。
背景技術:
目前的多媒體內(nèi)容網(wǎng)站(如視頻網(wǎng)站)大多對其提供的多媒體內(nèi)容進行分類,用戶根據(jù)網(wǎng)站上提供的分類標簽或者特定的專題(如熱門視頻)查找感興趣的多媒體內(nèi)容項目。多數(shù)多媒體內(nèi)容網(wǎng)站也會根據(jù)用戶的觀看歷史推薦一些用戶可能感興趣的多媒體內(nèi)容。然而,多數(shù)的多媒體內(nèi)容網(wǎng)站僅提供二級或至多三級的分類,產(chǎn)生有限數(shù)量的內(nèi)容主題;而基于用戶的觀看歷史推薦內(nèi)容無法解決冷啟動的問題,并且推薦的內(nèi)容具有一定的局限性,不能從用戶一般的網(wǎng)絡行為產(chǎn)生推薦內(nèi)容。
發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種標注多媒體內(nèi)容的方法、生成推薦內(nèi)容的方法及系統(tǒng),使用具有不同粒度的興趣實體詞對多媒體內(nèi)容進行標注,并且根據(jù)用戶的一般網(wǎng)絡搜索記錄來提取用戶的興趣實體詞并推薦與提取的興趣實體詞匹配的多媒體內(nèi)容,從而用戶可個性化地訂閱多媒體內(nèi)容,并且可為用戶推薦個性化的多媒體內(nèi)容。根據(jù)本發(fā)明的一方面,提供一種標注多媒體內(nèi)容的方法,包括:獲取包括多媒體內(nèi)容及其標題的內(nèi)容項目;對所述標題進行自然語言分析,以提取一個或多個名詞;將提取的每個名詞分別與包括多個實體詞的實體詞典進行匹配,以產(chǎn)生一個或多個興趣實體詞;將所述興趣實體詞存儲為所述內(nèi)容項目的第一標注信息。優(yōu)選地,所述的方法還包括:從獲取的內(nèi)容項目的標題切出至少一個詞;通過將從所述標題切出的詞與包括多種專業(yè)詞語的專名庫進行匹配來確定一個或多個所述內(nèi)容項目的興趣詞。優(yōu)選地,所述專名庫包括關于每個詞的不同粒度的興趣詞,并且通過與所述專名庫匹配確定不同粒度的興趣詞。優(yōu)選地,所述的方法還包括:將所述興趣詞存儲為所述內(nèi)容項目的第二標注信息。優(yōu)選地,獲取的內(nèi)容項目還包括一個或多個內(nèi)容標簽,并且所述方法還包括:將所述一個或多個內(nèi)容標簽存儲所述內(nèi)容項目的第三標注信息。優(yōu)選地,將所述第一標注信息、第二標注信息以及第三標注信息一同存儲為內(nèi)容項目的標注信息。優(yōu)選地,將所述多媒體內(nèi)容以及其標注信息存儲在多媒體庫中。根據(jù)本發(fā)明的另一方面,提供一種標注多媒體內(nèi)容的系統(tǒng),包括:內(nèi)容接收單元,用于獲取包括多媒體內(nèi)容及其標題的內(nèi)容項目;自然語言分析單元,用于對所述標題進行自然語言分析,以提取一個或多個名詞,并且將提取的每個名詞分別與包括多個實體詞的實體詞典進行匹配,以產(chǎn)生一個或多個興趣實體詞;內(nèi)容收錄單元,用于將所述興趣實體詞存儲為所述內(nèi)容項目的第一標注信息。優(yōu)選地,所述的系統(tǒng)還包括:切詞分析單元,用于從獲取的內(nèi)容項目的標題切出至少一個詞,并且通過將從所述標題切出的詞與包括多種專業(yè)詞語的專名庫進行匹配來確定一個或多個所述內(nèi)容項目的興趣詞。優(yōu)選地,所述專名庫包括關于每個詞的不同粒度的興趣詞,并且通過與所述專名庫匹配確定不同粒度的興趣詞。優(yōu)選地,內(nèi)容收錄單元還將所述興趣詞存儲為所述內(nèi)容項目的第二標注信息。優(yōu)選地,獲取的內(nèi)容項目還包括一個或多個內(nèi)容標簽,并且內(nèi)容收錄單元還將所述一個或多個內(nèi)容標簽存儲所述內(nèi)容項目的第三標注信息。優(yōu)選地,內(nèi)容收錄單元將所述第一標注信息、第二標注信息以及第三標注信息一同存儲為內(nèi)容項目的標注信息。優(yōu)選地,內(nèi)容收錄單元將所述多媒體內(nèi)容以及其標注信息存儲在多媒體庫中。根據(jù)本發(fā)明的另一方面,提供一種生成推薦內(nèi)容的方法,包括:獲取從多條產(chǎn)品線采集的網(wǎng)絡訪問日志,所述網(wǎng)絡訪問日志包括各個用戶的網(wǎng)絡訪問記錄;對每個用戶的網(wǎng)絡訪問記錄進行分析,其中,對每條網(wǎng)絡訪問記錄進行自然語言分析,從每條網(wǎng)絡訪問記錄提取一個或多個名詞,通過分別將提取的每個名詞與實體詞典庫進行匹配來確定興趣實體詞;根據(jù)為每個用戶篩選出的興趣實體詞,為所述用戶生成推薦內(nèi)容,其中,從包括多媒體內(nèi)容以及其多項標注信息的多媒體庫選取標注信息與所述篩選的興趣實體詞匹配的多媒體內(nèi)容作為推薦內(nèi)容。優(yōu)選地,所述對每個用戶的網(wǎng)絡訪問記錄進行分析的步驟還包括:對于多媒體內(nèi)容的網(wǎng)絡訪問記錄,從所述網(wǎng)絡訪問記錄提取多媒體內(nèi)容的內(nèi)容標簽,并且為所述用戶生成推薦內(nèi)容的步驟還包括:從多媒體庫分別選取標注信息與提取的多媒體內(nèi)容的內(nèi)容標簽匹配的多媒體內(nèi)容添加到生成的推薦內(nèi)容。優(yōu)選地,對每個用戶的網(wǎng)絡訪問記錄進行分析的步驟還包括:對每條網(wǎng)絡訪問記錄進行切詞,將切出的至少一個詞與包括多種專業(yè)詞語的專名庫進行匹配來確定一個或多個興趣詞。優(yōu)選地,對每個用戶的網(wǎng)絡訪問記錄進行分析的步驟還包括:對從每條網(wǎng)絡訪問記錄確定的興趣詞加權(quán),并且選擇預定個數(shù)的權(quán)值高的興趣詞;其中,所述用戶生成推薦內(nèi)容的步驟還包括:從多媒體庫分別選取標注信息與選擇的興趣詞匹配的多媒體內(nèi)容添加到生成的推薦內(nèi)容。優(yōu)選地,所述的方法還包括:從為每個用戶生成的推薦內(nèi)容篩選出預定個數(shù)的推薦內(nèi)容項目作為最終的推薦內(nèi)容。優(yōu)選地,所述的方法還包括:接收用戶創(chuàng)建的興趣標簽,并且從多媒體庫分別選取標注信息與接收的興趣標簽匹配的多媒體內(nèi)容作為推薦內(nèi)容。優(yōu)選地,所述的方法還包括:響應于來自用戶的請求,提供從所述用戶的網(wǎng)絡訪問記錄提取的預定個數(shù)的興趣實體詞、興趣詞以及內(nèi)容標簽。根據(jù)本發(fā)明的另一方面,提供一種生成推薦內(nèi)容的系統(tǒng),包括:日志獲取單元,用于獲取從多條產(chǎn)品線采集的網(wǎng)絡訪問日志,所述網(wǎng)絡訪問日志包括各個用戶的網(wǎng)絡訪問記錄;日志分析單元,用于對每個用戶的網(wǎng)絡訪問記錄進行分析,其中,對每條網(wǎng)絡訪問記錄進行自然語言分析,從每條網(wǎng)絡訪問記錄提取一個或多個名詞,通過分別將提取的每個名詞與實體詞典庫進行匹配來確定興趣實體詞;推薦內(nèi)容生成單元,用于根據(jù)為每個用戶篩選出的興趣實體詞,為所述用戶生成推薦內(nèi)容,其中,從包括多媒體內(nèi)容以及其多項標注信息的多媒體庫選取標注信息與所述篩選的興趣實體詞匹配的多媒體內(nèi)容作為推薦內(nèi)容。優(yōu)選地,日志分析單元在對每個用戶的網(wǎng)絡訪問記錄進行分析時,對于多媒體內(nèi)容的網(wǎng)絡訪問記錄,還從所述網(wǎng)絡訪問記錄提取多媒體內(nèi)容的內(nèi)容標簽,并且推薦內(nèi)容生成單元從多媒體庫分別選取標注信息與提取的多媒體內(nèi)容的內(nèi)容標簽匹配的多媒體內(nèi)容添加到生成的推薦內(nèi)容。優(yōu)選地,日志分析單元在對每個用戶的網(wǎng)絡訪問記錄進行分析時,還對每條網(wǎng)絡訪問記錄進行切詞,將切出的至少一個詞與包括多種專業(yè)詞語的專名庫進行匹配來確定一個或多個興趣詞。優(yōu)選地,日志分析單元還對從每條網(wǎng)絡訪問記錄確定的興趣詞加權(quán),并且選擇預定個數(shù)的權(quán)值高的興趣詞,其中,推薦內(nèi)容生成單元還從多媒體庫分別選取標注信息與選擇的興趣詞匹配的多媒體內(nèi)容添加到生成的推薦內(nèi)容。優(yōu)選地,推薦內(nèi)容生成單元還從為每個用戶生成的推薦內(nèi)容篩選出預定個數(shù)的推薦內(nèi)容項目作為最終的推薦內(nèi)容。優(yōu)選地,所述的系統(tǒng)還包括:接收單元,用于接收用戶創(chuàng)建的興趣標簽,其中,推薦內(nèi)容生成單元從多媒體庫分別選取標注信息與接收的興趣標簽匹配的多媒體內(nèi)容作為推薦內(nèi)容。優(yōu)選地,所述系統(tǒng)響應于來自用戶的請求,提供從所述用戶的網(wǎng)絡訪問記錄提取的預定個數(shù)的興趣實體詞、興趣詞以及內(nèi)容標簽。
通過下面結(jié)合附圖進行的描述,本發(fā)明的上述和其他目的和特點將會變得更加清楚,其中:圖1是示出根據(jù)本發(fā)明的示例性實施例的標注多媒體內(nèi)容的方法的流程圖;圖2是示出根據(jù)本發(fā)明的示例性實施例的標注多媒體內(nèi)容的系統(tǒng)的邏輯框圖;圖3是示出根據(jù)本發(fā)明的示例性實施例的生成推薦內(nèi)容的方法的流程圖;圖4是示出根據(jù)本發(fā)明的示例性實施例的生成推薦內(nèi)容的系統(tǒng)的邏輯框圖。
具體實施例方式以下,將參照附圖來詳細說明本發(fā)明的實施例。本發(fā)明的總體發(fā)明構(gòu)思是,在收錄如視頻、音樂等多媒體內(nèi)容項目時,對所述多媒體內(nèi)容項目的信息(如標題、自帶標簽等)進行多種分析處理,為所述多媒體內(nèi)容項目產(chǎn)生較豐富的標注信息;當向用戶提供推薦內(nèi)容時,通過對用戶的網(wǎng)絡行為進行分析來挖掘用戶的興趣點,根據(jù)提供涉及挖掘的興趣點的多媒體內(nèi)容。圖1是示出根據(jù)本發(fā)明的示例性實施例的標注多媒體內(nèi)容的方法的流程圖。參照圖1,在步驟S110,獲取多媒體的內(nèi)容項目。所述內(nèi)容項目可以是用戶上傳的一條視頻或音頻,也可以是自特定網(wǎng)站收錄的多媒體內(nèi)容項目。內(nèi)容項目包括多媒體內(nèi)容以及其標題。根據(jù)本發(fā)明的可選實施例,所述內(nèi)容項目還可以包括一個或多個預先標注的內(nèi)容標簽(例如用戶上傳視頻時標注的關鍵詞、視頻網(wǎng)站對所述視頻項目標注的標簽等)。在步驟S120,對獲取的內(nèi)容項目中的標題進行自然語言分析,以提取一個或多個名詞??墒褂猛ǔ5淖匀徽Z音分析算法或應用來提取所述名詞。例如,對標題“范冰冰出席戛納國際電影節(jié)”進行自然語言分析后,可提取出“范冰冰”以及“戛納國際電影節(jié)”等名詞;而對標題“范爺出席戛納國際電影節(jié)”進行自然語言分析后,可提取出“范爺”以及“戛納國際電影節(jié)”等名詞。在步驟S130,將提取的每個名詞分別與包括多個實體詞的實體詞典進行匹配,以產(chǎn)生一個或多個興趣實體詞。例如,將“范冰冰”以及“戛納國際電影節(jié)”分別與實體詞典進行匹配后,可仍匹配出“范冰冰”以及“戛納國際電影節(jié)”兩個興趣實體詞;而將從標題“范爺出席戛納國際電影節(jié)”提取出的“范爺”以及“戛納國際電影節(jié)”與實體詞典進行匹配后,也匹配出“范冰冰”以及“戛納國際電影節(jié)”兩個興趣實體詞。在步驟S140,將所述興趣實體詞存儲為所述內(nèi)容項目的第一標注信息。根據(jù)本發(fā)明的優(yōu)選實施例,所述標注多媒體內(nèi)容的方法還包括:從獲取的內(nèi)容項目的標題切出至少一個詞,并且通過將從所述標題切出的詞與包括多種專業(yè)詞語的專名庫進行匹配來確定一個或多個所述內(nèi)容項目的興趣詞。所述專名庫包括關于每個詞的不同粒度的興趣詞,例如,大粒度的娛樂、體育、汽車等,小粒度的范冰冰、屌絲、切糕等。因此,通過與所述專名庫匹配可確定不同粒度的興趣詞。例如,對標題“范冰冰出席戛納國際電影節(jié)”進行切詞后,得到“范冰冰”、“出席”以及“戛納國際電影節(jié)”三個詞,當將“范冰冰”與實體詞典進行匹配時,可得到“娛樂”、“影星”和“范冰冰”三個興趣詞。此后,將確定的所述興趣詞存儲為所述內(nèi)容項目的第二標注信息。前面提到,在步驟SllO獲取的內(nèi)容項目可還包括一個或多個預先標注的內(nèi)容標簽。此時,根據(jù)本發(fā)明的優(yōu)選實施例,還將所述一個或多個內(nèi)容標簽存儲所述內(nèi)容項目的第
二標注息。根據(jù)本發(fā)明的示例性實施例,將所述第一標注信息、第二標注信息以及第三標注信息一同存儲為內(nèi)容項目的標注信息,而不對這三種標注信息進行區(qū)分。根據(jù)本發(fā)明的示例性實施例,將所述多媒體內(nèi)容以及其標注信息存儲在多媒體庫中。圖2是示出根據(jù)本發(fā)明的示例性實施例的標注多媒體內(nèi)容的系統(tǒng)的邏輯框圖。參照圖2,根據(jù)本發(fā)明的示例性實施例的標注多媒體內(nèi)容的系統(tǒng)包括內(nèi)容接收單元210、自然語言(NLP)分析單元230和內(nèi)容收錄單元240。內(nèi)容接收單元210獲取包括多媒體內(nèi)容及其標題的內(nèi)容項目。所述內(nèi)容項目可以是用戶上傳的一條視頻或音頻,也可以是自特定網(wǎng)站收錄的內(nèi)容項目。根據(jù)本發(fā)明的可選實施例,所述內(nèi)容項目還包括一個或多個預先標注的內(nèi)容標簽。NLP分析單元230通過對內(nèi)容接收單元210獲取的所述標題進行自然語言分析來提取一個或多個名詞,并且將提取的每個名詞分別與包括多個實體詞的實體詞典進行匹配,以產(chǎn)生一個或多個興趣實體詞。內(nèi)容收錄單元240將NLP分析單元230產(chǎn)生的所述興趣實體詞存儲為所述內(nèi)容項目的第一標注信息。根據(jù)本發(fā)明的優(yōu)選實施例,所述標注多媒體內(nèi)容的系統(tǒng)還包括切詞分析單元220。切詞分析單元220從獲取的內(nèi)容項目的標題切出至少一個詞,并且通過將從所述標題切出的詞與包括多種專業(yè)詞語的專名庫進行匹配來確定一個或多個所述內(nèi)容項目的興趣詞。根據(jù)本發(fā)明的優(yōu)選實施例,所述專名庫包括關于每個詞的不同粒度的興趣詞,并且通過與所述專名庫匹配確定不同粒度的興趣詞。在這種情況下,內(nèi)容收錄單元240還將切詞分析單元220確定的所述興趣詞存儲為所述內(nèi)容項目的第二標注信息。如前所述,獲取的內(nèi)容項目可還包括一個或多個內(nèi)容標簽。此時,根據(jù)本發(fā)明的優(yōu)選實施例,內(nèi)容收錄單元240還將所述一個或多個內(nèi)容標簽存儲所述內(nèi)容項目的第三標注信息。根據(jù)本發(fā)明的示例性實施例,內(nèi)容收錄單元240將為內(nèi)容項目產(chǎn)生的第一標注信息、第二標注信息以及第三標注信息一同存儲為內(nèi)容項目的標注信息。根據(jù)本發(fā)明的示例性實施例,內(nèi)容收錄單元240將所述多媒體內(nèi)容以及其標注信息存儲在多媒體庫中。如前所述,本發(fā)明的標注多媒體內(nèi)容的方法和系統(tǒng)通過對多媒體內(nèi)容項目的標題進行如自然語言分析和切詞分析,產(chǎn)生規(guī)范、不同粒度的標注信息。圖3是示出根據(jù)本發(fā)明的示例性實施例的生成推薦內(nèi)容的方法的流程圖。在步驟S310,獲取從多條產(chǎn)品線采集的網(wǎng)絡訪問日志,所述網(wǎng)絡訪問日志包括各個用戶的網(wǎng)絡訪問記錄。這里的網(wǎng)絡訪問日志不限于多媒體內(nèi)容觀看日志,而可以搜索日志、新聞瀏覽日志、社交網(wǎng)站活動日志等??蓪⒕W(wǎng)絡訪問日志按照用戶整理成為各個用戶的網(wǎng)絡訪問記錄。步驟S320 S330是針對每個用戶執(zhí)行的步驟。以下描述對每個用戶的網(wǎng)絡訪問記錄進行處理并生成推薦內(nèi)容的操作。在步驟S320,對每個用戶的網(wǎng)絡訪問記錄進行分析。其中,對用戶的每條網(wǎng)絡訪問記錄進行自然語言分析,從每條網(wǎng)絡訪問記錄提取一個或多個名詞,并且通過分別將提取的每個名詞與實體詞典庫進行匹配來確定興趣實體詞。例如,網(wǎng)絡訪問記錄顯示用戶近期經(jīng)常瀏覽有關范冰冰的娛樂新聞,則可通過對相應的網(wǎng)絡訪問記錄進行分析,挖掘出“范冰冰”的這個用戶興趣點。在步驟S330,根據(jù)為所述用戶篩選出的興趣實體詞,為所述用戶生成推薦內(nèi)容,其中,從包括多媒體內(nèi)容以及其多項標注信息的多媒體庫選取標注信息與所述篩選的興趣實體詞匹配的多媒體內(nèi)容作為推薦內(nèi)容。這里所說標注信息與興趣實體詞匹配是指在多項標注信息中包含所述興趣實體詞。根據(jù)本發(fā)明的優(yōu)選實施例,步驟S320還包括:如果所述網(wǎng)絡訪問記錄多媒體內(nèi)容的網(wǎng)絡訪問記錄,則從所述網(wǎng)絡訪問記錄提取多媒體內(nèi)容的內(nèi)容標簽,并且步驟S330還包括:從多媒體庫分別選取標注信息與提取的多媒體內(nèi)容的內(nèi)容標簽匹配的多媒體內(nèi)容添加到生成的推薦內(nèi)容。這里所說標注信息與內(nèi)容標簽匹配是指在多項標注信息中包含與所述內(nèi)容標簽實質(zhì)相似的標注信息,可根據(jù)設計的需要確定所述實質(zhì)相似的標準。根據(jù)本發(fā)明的優(yōu)選實施例,步驟S320還包括:對每條網(wǎng)絡訪問記錄進行切詞,將切出的至少一個詞與包括多種專業(yè)詞語的專名庫進行匹配來確定一個或多個興趣詞。根據(jù)本發(fā)明的另一優(yōu)選實施例,在步驟S320,還對從每條網(wǎng)絡訪問記錄確定的興趣詞加權(quán),并且選擇預定個數(shù)的權(quán)值高的興趣詞。然后,在步驟S330,從多媒體庫分別選取標注信息與選擇的興趣詞匹配的多媒體內(nèi)容添加到生成的推薦內(nèi)容。這里所說標注信息與興趣詞匹配是指在多項標注信息中包含所述興趣詞。根據(jù)本發(fā)明的優(yōu)選實施例,所述生成推薦內(nèi)容的方法還包括:對根據(jù)興趣實體詞、興趣詞和/或內(nèi)容標簽為每個用戶生成的推薦內(nèi)容進行篩選,選出預定個數(shù)的推薦內(nèi)容項目作為最終的推薦內(nèi)容。根據(jù)本發(fā)明的優(yōu)選實施例,所述生成推薦內(nèi)容的方法還包括:接收用戶創(chuàng)建的興趣標簽,并且從多媒體庫分別選取標注信息與接收的興趣標簽匹配的多媒體內(nèi)容作為推薦內(nèi)容。這樣,可根據(jù)用戶提供的興趣點來生成推薦內(nèi)容。這里所說標注信息與內(nèi)容標簽匹配是指在多項標注信息中包含與所述內(nèi)容標簽實質(zhì)相似的標注信息,可根據(jù)設計的需要確定所述實質(zhì)相似的標準。根據(jù)本發(fā)明的優(yōu)選實施例,所述生成推薦內(nèi)容的方法還包括:響應于來自用戶的請求(如打開特定網(wǎng)頁的請求),提供從所述用戶的網(wǎng)絡訪問記錄提取的預定個數(shù)的興趣實體詞、興趣詞以及內(nèi)容標簽。用戶可從提供的這些興趣實體詞、興趣詞以及內(nèi)容標簽選擇自己感興趣的主題,并進行多媒體內(nèi)容(如視頻)的定制。圖4是示出根據(jù)本發(fā)明的示例性實施例的生成推薦內(nèi)容的系統(tǒng)的邏輯框圖。參照圖4,根據(jù)本發(fā)明的示例性實施例的生成推薦內(nèi)容的系統(tǒng)包括日志獲取單元410、日志分析單元420和推薦內(nèi)容生成單元430。日志獲取單元410獲取從多條產(chǎn)品線采集的網(wǎng)絡訪問日志,所述網(wǎng)絡訪問日志包括各個用戶的網(wǎng)絡訪問記錄。這里的網(wǎng)絡訪問日志不限于多媒體內(nèi)容觀看日志,而可以搜索日志、新聞瀏覽日志、社交網(wǎng)站活動日志等??蓪⒕W(wǎng)絡訪問日志按照用戶整理成為各個用戶的網(wǎng)絡訪問記錄。日志分析單元420對每個用戶的網(wǎng)絡訪問記錄進行分析,其中,對每條網(wǎng)絡訪問記錄進行自然語言分析,從每條網(wǎng)絡訪問記錄提取一個或多個名詞,通過分別將提取的每個名詞與實體詞典庫進行匹配來確定興趣實體詞。推薦內(nèi)容生成單元430根據(jù)日志分析單元420為每個用戶篩選出的興趣實體詞,為所述用戶生成推薦內(nèi)容,其中,從包括多媒體內(nèi)容以及其多項標注信息的多媒體庫選取標注信息與所述篩選的興趣實體詞匹配的多媒體內(nèi)容作為推薦內(nèi)容。根據(jù)本發(fā)明的優(yōu)選實施例,日志分析單元420在對每個用戶的網(wǎng)絡訪問記錄進行分析時,對于多媒體內(nèi)容的網(wǎng)絡訪問記錄,還從所述網(wǎng)絡訪問記錄提取多媒體內(nèi)容的內(nèi)容標簽;推薦內(nèi)容生成單元430還從多媒體庫分別選取標注信息與提取的多媒體內(nèi)容的內(nèi)容標簽匹配的多媒體內(nèi)容添加到生成的推薦內(nèi)容。根據(jù)本發(fā)明的優(yōu)選實施例,日志分析單元420在對每個用戶的網(wǎng)絡訪問記錄進行分析時,還對每條網(wǎng)絡訪問記錄進行切詞,將切出的至少一個詞與包括多種專業(yè)詞語的專名庫進行匹配來確定一個或多個興趣詞。根據(jù)本發(fā)明的另一優(yōu)選實施例,日志分析單元420還對從每條網(wǎng)絡訪問記錄確定的興趣詞加權(quán),并且選擇預定個數(shù)的權(quán)值高的興趣詞;推薦內(nèi)容生成單元430從多媒體庫分別選取標注信息與選擇的興趣詞匹配的多媒體內(nèi)容添加到生成的推薦內(nèi)容。
根據(jù)本發(fā)明的優(yōu)選實施例,推薦內(nèi)容生成單元430還對根據(jù)興趣實體2詞、興趣詞和/或內(nèi)容標簽生成的推薦內(nèi)容進行篩選,從為每個用戶生成的推薦內(nèi)容篩選出預定個數(shù)的推薦內(nèi)容作為最終的推薦內(nèi)容。根據(jù)本發(fā)明的優(yōu)選實施例,所述生成推薦內(nèi)容的系統(tǒng)還包括接收單元(未顯示),用于接收用戶創(chuàng)建的興趣標簽。推薦內(nèi)容生成單元430從多媒體庫分別選取標注信息與接收的興趣標簽匹配的多媒體內(nèi)容作為推薦內(nèi)容。根據(jù)本發(fā)明的優(yōu)選實施例,所述生成推薦內(nèi)容的系統(tǒng)還響應于來自用戶的請求,提供從所述用戶的網(wǎng)絡訪問記錄提取的預定個數(shù)的興趣實體詞、興趣詞以及內(nèi)容標簽,從而用戶可選擇個性化地定制多媒體內(nèi)容的興趣主題。由此可見,本發(fā)明的生成推薦內(nèi)容的方法及系統(tǒng)可從用戶的各種網(wǎng)絡訪問記錄中挖掘用戶的興趣點,并且相應地生成推薦內(nèi)容。即使用戶先前并未訪問過多媒體內(nèi)容網(wǎng)站,也可通過其其他的網(wǎng)絡行為找到其興趣點,為其推薦可能感興趣的多媒體內(nèi)容。從上述參照附圖對本發(fā)明的示例性實施例的描述可以看出,本發(fā)明的標注多媒體內(nèi)容的方法、生成推薦內(nèi)容的方法及系統(tǒng)在收錄多媒體內(nèi)容項目(如電影、電視劇、視頻新聞、視頻報道等)時,對所述多媒體內(nèi)容項目的輔助信息進行相對深度的分析,并進行準確、多粒度的豐富標注。同時,通過用戶的各種網(wǎng)絡行為來挖掘用戶的興趣點,從而提供用戶可能感興趣的多媒體內(nèi)容推薦,增強了用戶的網(wǎng)絡體驗。需要指出,根據(jù)實施的需要,可將本申請中描述的各個步驟拆分為更多步驟,也可將兩個或多個步驟或者步驟的部分操作組合成新的步驟,以實現(xiàn)本發(fā)明的目的。上述根據(jù)本發(fā)明的方法可在硬件、固件中實現(xiàn),或者被實現(xiàn)為可存儲在記錄介質(zhì)(諸如CD R0M、RAM、軟盤、硬盤或磁光盤)中的軟件或計算機代碼,或者被實現(xiàn)通過網(wǎng)絡下載的原始存儲在遠程記錄介質(zhì)或非暫時機器可讀介質(zhì)中并將被存儲在本地記錄介質(zhì)中的計算機代碼,從而在此描述的方法可被存儲在使用通用計算機、專用處理器或者可編程或?qū)S糜布?諸如ASIC或FPGA)的記錄介質(zhì)上的這樣的軟件處理??梢岳斫猓嬎銠C、處理器、微處理器控制器或可編程硬件包括可存儲或接收軟件或計算機代碼的存儲組件(例如,RAM、ROM、閃存等),當所述軟件或計算機代碼被計算機、處理器或硬件訪問且執(zhí)行時,實現(xiàn)在此描述的處理方法。此外,當通用計算機訪問用于實現(xiàn)在此示出的處理的代碼時,代碼的執(zhí)行將通用計算機轉(zhuǎn)換為用于執(zhí)行在此示出的處理的專用計算機。盡管已參照優(yōu)選實施例表示和描述了本發(fā)明,但本領域技術人員應該理解,在不脫離由權(quán)利要求限定的本發(fā)明的精神和范圍的情況下,可以對這些實施例進行各種修改和變換。
權(quán)利要求
1.一種標注多媒體內(nèi)容的方法,包括: 獲取包括多媒體內(nèi)容及其標題的內(nèi)容項目; 對所述標題進行自然語言分析,以提取一個或多個名詞; 將提取的每個名詞分別與包括多個實體詞的實體詞典進行匹配,以產(chǎn)生一個或多個興趣實體詞; 將所述興趣實體詞存儲為所述內(nèi)容項目的第一標注信息。
2.如權(quán)利要求1所述的方法,還包括: 從獲取的內(nèi)容項目的標題切出至少一個詞; 通過將從所述標題切出的詞與包括多種專業(yè)詞語的專名庫進行匹配來確定一個或多個所述內(nèi)容項目的興趣詞。
3.如權(quán)利要求2所述的方法,其特征在于,所述專名庫包括關于每個詞的不同粒度的興趣詞,并且通過與所述專名庫匹配確定不同粒度的興趣詞。
4.如權(quán)利要求3所述的方法,還包括:將所述興趣詞存儲為所述內(nèi)容項目的第二標注信息。
5.如權(quán)利要求4所述的方法,其特征在于,獲取的內(nèi)容項目還包括一個或多個內(nèi)容標簽,并且所述方法還包括:將所述一個或多個內(nèi)容標簽存儲所述內(nèi)容項目的第三標注信息。
6.如權(quán)利要求5所述的方法,其特征在于,將所述第一標注信息、第二標注信息以及第三標注信息一同存儲為內(nèi)容項目的標注信息。
7.如權(quán)利要求6所述的方法,其特征在于,將所述多媒體內(nèi)容以及其標注信息存儲在多媒體庫中。
8.—種標注多媒體內(nèi)容的系統(tǒng),包括: 內(nèi)容接收單元,用于獲取包括多媒體內(nèi)容及其標題的內(nèi)容項目; 自然語言分析單元,用于對所述標題進行自然語言分析,以提取一個或多個名詞,并且將提取的每個名詞分別與包括多個實體詞的實體詞典進行匹配,以產(chǎn)生一個或多個興趣實體詞; 內(nèi)容收錄單元,用于將所述興趣實體詞存儲為所述內(nèi)容項目的第一標注信息。
9.如權(quán)利要求8所述的系統(tǒng),還包括: 切詞分析單元,用于從獲取的內(nèi)容項目的標題切出至少一個詞,并且通過將從所述標題切出的詞與包括多種專業(yè)詞語的專名庫進行匹配來確定一個或多個所述內(nèi)容項目的興趣詞。
10.如權(quán)利要求9所述的系統(tǒng),其特征在于,所述專名庫包括關于每個詞的不同粒度的興趣詞,并且通過與所述專名庫匹配確定不同粒度的興趣詞。
11.如權(quán)利要求10所述的系統(tǒng),其特征在于,內(nèi)容收錄單元還將所述興趣詞存儲為所述內(nèi)容項目的第二標注信息。
12.如權(quán)利要求11所述的系統(tǒng),其特征在于,獲取的內(nèi)容項目還包括一個或多個內(nèi)容標簽,并且內(nèi)容收錄單元還將所述一個或多個內(nèi)容標簽存儲所述內(nèi)容項目的第三標注信肩、O
13.如權(quán)利要求12所述的系統(tǒng), 其特征在于,內(nèi)容收錄單元將所述第一標注信息、第二標注信息以及第三標注信息一同存儲為內(nèi)容項目的標注信息。
14.如權(quán)利要求13所述的系統(tǒng),其特征在于,內(nèi)容收錄單元將所述多媒體內(nèi)容以及其標注信息存儲在多媒體庫中。
15.—種生成推薦內(nèi)容的方法,包括: 獲取從多條產(chǎn)品線采集的網(wǎng)絡訪問日志,所述網(wǎng)絡訪問日志包括各個用戶的網(wǎng)絡訪問記錄; 對每個用戶的網(wǎng)絡訪問記錄進行分析,其中,對每條網(wǎng)絡訪問記錄進行自然語言分析,從每條網(wǎng)絡訪問記錄提取一個或多個名詞,通過分別將提取的每個名詞與實體詞典庫進行匹配來確定興趣實體詞; 根據(jù)為每個用戶篩選出的興趣實體詞,為所述用戶生成推薦內(nèi)容,其中,從包括多媒體內(nèi)容以及其多項標注信息的多媒體庫選取標注信息與所述篩選的興趣實體詞匹配的多媒體內(nèi)容作為推薦內(nèi)容。
16.如權(quán)利要求15所述的方法,其特征在于,所述對每個用戶的網(wǎng)絡訪問記錄進行分析的步驟還包括:對于多媒體內(nèi)容的網(wǎng)絡訪問記錄,從所述網(wǎng)絡訪問記錄提取多媒體內(nèi)容的內(nèi)容標簽,并且為所述用戶生成推薦內(nèi)容的步驟還包括:從多媒體庫分別選取標注信息與提取的多媒體內(nèi)容的內(nèi)容標簽匹配的多媒體內(nèi)容添加到生成的推薦內(nèi)容。
17.如權(quán)利要求16所述的方法,其特征在于,對每個用戶的網(wǎng)絡訪問記錄進行分析的步驟還包括:對每條網(wǎng)絡訪問記錄進行切詞,將切出的至少一個詞與包括多種專業(yè)詞語的專名庫進行匹配來確定一個或多個興趣詞。
18.如權(quán)利要求17所述的方法,其特征在于,對每個用戶的網(wǎng)絡訪問記錄進行分析的步驟還包括:對從每條網(wǎng)絡訪問記錄確定的興趣詞加權(quán),并且選擇預定個數(shù)的權(quán)值高的興趣詞, 其中,所述用戶生成推薦內(nèi)容的步驟還包括:從多媒體庫分別選取標注信息與選擇的興趣詞匹配的多媒體內(nèi)容添加到生成的推薦內(nèi)容。
19.如權(quán)利要求18所述的方法,還包括:從為每個用戶生成的推薦內(nèi)容篩選出預定個數(shù)的推薦內(nèi)容項目作為最終的推薦內(nèi)容。
20.如權(quán)利要求15-19任一項所述的方法,還包括:接收用戶創(chuàng)建的興趣標簽,并且從多媒體庫分別選取標注信息與接收的興趣標簽匹配的多媒體內(nèi)容作為推薦內(nèi)容。
21.如權(quán)利要求20所述的方法,還包括:響應于來自用戶的請求,提供從所述用戶的網(wǎng)絡訪問記錄提取的預定個數(shù)的興趣實體詞、興趣詞以及內(nèi)容標簽。
22.—種生成推薦內(nèi)容的系統(tǒng),包括: 日志獲取單元,用于獲取從多條產(chǎn)品線采集的網(wǎng)絡訪問日志,所述網(wǎng)絡訪問日志包括各個用戶的網(wǎng)絡訪問記錄; 日志分析單元,用于對每個用戶的網(wǎng)絡訪問記錄進行分析,其中,對每條網(wǎng)絡訪問記錄進行自然語言分析,從每條網(wǎng)絡訪問記錄提取一個或多個名詞,通過分別將提取的每個名詞與實體詞典庫進行匹配來確定興趣實體詞; 推薦內(nèi)容生成單元,用于根據(jù)為每個用戶篩選出的興趣實體詞,為所述用戶生成推薦內(nèi)容,其中,從包括多媒體內(nèi)容以及其多項標注信息的多媒體庫選取標注信息與所述篩選的興趣實體詞匹配的多媒體內(nèi)容作為推薦內(nèi)容。
23.如權(quán)利要求22所述的系統(tǒng),其特征在于,日志分析單元在對每個用戶的網(wǎng)絡訪問記錄進行分析時,對于多媒體內(nèi)容的網(wǎng)絡訪問記錄,還從所述網(wǎng)絡訪問記錄提取多媒體內(nèi)容的內(nèi)容標簽,并且推薦內(nèi)容生成單元從多媒體庫分別選取標注信息與提取的多媒體內(nèi)容的內(nèi)容標簽匹配的多媒體內(nèi)容添加到生成的推薦內(nèi)容。
24.如權(quán)利要求23所述的系統(tǒng),其特征在于,日志分析單元在對每個用戶的網(wǎng)絡訪問記錄進行分析時,還對每條網(wǎng)絡訪問記錄進行切詞,將切出的至少一個詞與包括多種專業(yè)詞語的專名庫進行匹配來確定一個或多個興趣詞。
25.如權(quán)利要求24所述的系統(tǒng),其特征在于,日志分析單元還對從每條網(wǎng)絡訪問記錄確定的興趣詞加權(quán),并且選擇預定個數(shù)的權(quán)值高的興趣詞, 其中,推薦內(nèi)容生成單元還從多媒體庫分別選取標注信息與選擇的興趣詞匹配的多媒體內(nèi)容添加到生成的推薦內(nèi)容。
26.如權(quán)利要求25所述的系統(tǒng),其特征在于,推薦內(nèi)容生成單元還從為每個用戶生成的推薦內(nèi)容篩選出預 定個數(shù)的推薦內(nèi)容項目作為最終的推薦內(nèi)容。
27.如權(quán)利要求22-26任一項所述的系統(tǒng),還包括:接收單元,用于接收用戶創(chuàng)建的興趣標簽, 其中,推薦內(nèi)容生成單元從多媒體庫分別選取標注信息與接收的興趣標簽匹配的多媒體內(nèi)容作為推薦內(nèi)容。
28.如權(quán)利要求27所述的系統(tǒng),其特征在于,所述系統(tǒng)響應于來自用戶的請求,提供從所述用戶的網(wǎng)絡訪問記錄提取的預定個數(shù)的興趣實體詞、興趣詞以及內(nèi)容標簽。
全文摘要
提供一種標注多媒體內(nèi)容的方法、生成推薦內(nèi)容的方法及系統(tǒng)。一種標注多媒體內(nèi)容的方法包括獲取包括多媒體內(nèi)容及其標題的內(nèi)容項目;對所述標題進行自然語言分析,以提取一個或多個名詞;將提取的每個名詞分別與包括多個實體詞的實體詞典進行匹配,以產(chǎn)生一個或多個興趣實體詞;將所述興趣實體詞存儲為所述內(nèi)容項目的第一標注信息。
文檔編號G06F17/30GK103207917SQ20131014833
公開日2013年7月17日 申請日期2013年4月25日 優(yōu)先權(quán)日2013年4月25日
發(fā)明者李達 申請人:百度在線網(wǎng)絡技術(北京)有限公司