專利名稱:用于改編文本內容以適應在線社區(qū)的語言行為的方法和系統(tǒng)的制作方法
技術領域:
本發(fā)明涉及在線社區(qū)內的組群電子通信。
背景技術:
在這里,詞語“在線”是指簡單使用計算和電子設備與社區(qū)的成員進行交互??山浻梢蛱鼐W(Web 2.0)如郵件列表、討論論壇或社交網絡,或者經由內聯網/以太網如公司的合作工作臺、實踐社區(qū)等等接入在線社區(qū)。在線社區(qū)又被稱為虛擬社區(qū),其由一個或多個管理員創(chuàng)建,表示組群(集體)電子通信場所,該電子通信場所在對于特定主題感興趣的那些人之間是非實時(異步交互)的,其可以例如具有社會的、商業(yè)的或教育的屬性。對該話題感興趣的任意用戶可以加入該社 區(qū)并且從而與它的成員交互。在這里,他們可以交換(發(fā)表和/或觀看)文本內容、多媒體或更一般而言語音、數據。在一些在線社區(qū)中,僅通過口令標識的注冊用戶可以發(fā)表和/或觀看內容。這些在線社區(qū)主要是基于語言的,因為在某種意義上書寫的電子通信大體上是用于用戶組群形成社區(qū)的唯一方式。這是因為,除了引起成員興趣的話題之外,通常通過組群在該組群電子通信場所中改編并且實踐特定的、交互式的語言行為來創(chuàng)建在線社區(qū)。這使得在在線社區(qū)中一些語言實踐隨著時間的推移變得儀式化,從而標記屬于該社區(qū)的等級。換句話說,屬于一個在線社區(qū)表明其自身共享詞匯、語言登記簿、語言學慣例、縮寫、首字母縮寫、通信協(xié)議、代碼、句法特征以及被它的成員以及被常規(guī)的語言學規(guī)范統(tǒng)一地識別和期望的概念。作為實例,在一些在線社區(qū)中-法國的首都被稱為“埃菲爾鐵塔城”;(在例如內聯網上的合作工作臺中的)團隊領導被稱為“老板”;表達“長期演進”被稱為“LTE”,詞語“早上好”被稱為“gm”,對立的足球隊被稱為“失敗者”,由該在線社區(qū)組織的游戲的獲勝隊被稱為“國王”;-消息用“大家好”開始,并且問題用“先行謝過”或“謝謝您的回答”結束;-使用非正式T論壇(如法語或西班牙語)。應該注意,這些語言實踐本身可能有一些語言學上的正當性,但是在概念、詞匯表并且特別是語義學中可以發(fā)現它們是專用于該在線社區(qū)的。這是僅由在線社區(qū)的常規(guī)成員共享的語言文化。在這種情況下,其被視為生態(tài)系統(tǒng)。因此,到在線社區(qū)的社區(qū)連接涉及改編并且使用該社區(qū)專用的語言和公共代碼。對于特定在線社區(qū)中的新成員,只有所書寫的通信(消息、注解、評論、問題或更一般性而言電子文本)的措詞如該社區(qū)的常規(guī)成員所期望那樣時,發(fā)表該書寫的通信才能成功。等效地,只有該新成員識別(解碼)該在線社區(qū)的語言實踐,才能在閱讀時最佳地理解由該在線社區(qū)公布的書寫通信。否則,任意新成員將感覺被該在線社區(qū)排斥。這是因為當用戶加入在線社區(qū)時他或她面臨的其中一個主要障礙無疑是變成該社區(qū)的“真實”成員所需要的改編努力。該改編通過具體而言鑒于該社區(qū)的語言行為而快速理解和/或正確措詞書寫文本,來表明其自身。由在線社區(qū)的成員對于由新成員(其因此還不熟悉該社區(qū)的詞匯表和語義學)發(fā)表的消息(具體而言是問題)作出解釋可能花費大量時間并且因此改變該社區(qū)的響應率。新用戶(或新成員)還將需要更多時間來理解來自該在線社區(qū)的通信。
發(fā)明內容
本發(fā)明的一個目的在于改正前述缺點。本發(fā)明的另一個目的在于向在線社區(qū)的用戶建議一種新的增值服務。本發(fā)明的另一個目的在于將書寫的電子通信的內容改編適應(對準)在線社區(qū)的語言行為。
本發(fā)明的另一個目的在于保證在線社區(qū)的通信場所的內容的統(tǒng)一表示。本發(fā)明的另一個目的在于促進并且改善在公司的網絡中進行信息共享的效率。本發(fā)明的另一個目的在于有助于新成員融入到在線社區(qū)。本發(fā)明的另一個目的在于從語言學觀點表征在線社區(qū)。本發(fā)明的另一個目的在于促進在線社區(qū)的興旺發(fā)達。本發(fā)明的另一個目的在于促進新用戶出現屬于虛擬社區(qū)的感覺。本發(fā)明的另一個目的在于建議一種促進在線社區(qū)之中的通信的出現的社會技術設備。本發(fā)明的另一個目的在于提高組群電子通信的效率。本發(fā)明的另一個目的在于標識在線社區(qū)的語言行為。為此目的,根據第一個方面,本發(fā)明涉及一種用于改編文本內容以適應在線社區(qū)的語言行為的方法,其中該方法包括以下步驟-建立該在線社區(qū)的語義學標記云;-基于該語義學標記云,確定該文本內容的至少一個概念的至少一個語義學鄰域;-在所確定的語義學鄰域的輔助之下重新表達該文本內容。根據第二個方面,本發(fā)明涉及一種用于改編文本內容以適應在線社區(qū)的語言行為的設備,該設備包括以下模塊-語義學分析器,其被配置為建立該在線社區(qū)的語義學標記云;-語義學鄰近度計算器,其被配置為基于該語義學標記云,確定至少一個文本內容概念的至少一個語義學鄰域;-文本內容的語義學重新表達器,其使用所確定的語義學鄰域。根據第三個方面,本發(fā)明涉及一種實現在存儲介質上的計算機程序產品,該計算機程序產品可以被實現在計算機處理單元之中并且包括用于實現上述方法的指令。
在閱讀了參考附圖所完成的優(yōu)選實施方式的以下描述之后,本發(fā)明的其他特點和優(yōu)點將變得更加清楚和完整,其中
圖I示意性地描述了用于語義學上改編一條文本內容以適應特定語言行為的設備的模塊;圖2示意性地描述了用于語義學上改編一條文本內容以適應特定語言行為的設備的非限制的功能架構。
具體實施例方式圖I描述了要與在線社區(qū)51交互的用戶20。這里,“與在線社區(qū)交互”是指在該社區(qū)的電子通信空間發(fā)表和/或讀取電子文本內容。作 為非限制性的實例,在線社區(qū)51是-社交網絡如“Facebook ”、“Twitter ”、“mySpace ” 或 “hi5 -個人索引服務,又被稱為folksonomy(社交標記)如“delicious ”、“youtube ”、“flickr ” 或“yoolink ” ;-在線論壇如 www. commentcamarche. net、http://forum, hardware, fr/ 或http: //voyageforum. com/ ;或-內聯網或以太網如合作工作臺上的用戶的組群。在用戶20與一個在線社區(qū)51交互時,由語義學改編器10輔助他或她。語義學改編器10被配置為做出由用戶生成的關于在線社區(qū)51的語言實踐的文本內容的語義學投影。該語義學投影旨在最佳地改編用戶20希望發(fā)表的文本內容,以適應在線社區(qū)51的語言實踐。為此目的,語義學改編器10裝配有多個模塊,包括語義學分析器I、語義學鄰近度計算器2和語義學重新表達器3。語義學分析器I被配置為建立在線社區(qū)51的標記(或關鍵字)的語義學云。為此,語義學分析器I進行在線社區(qū)51中所公布的文本交換的常規(guī)分析。這些交換通常被組織成討論線程(例如論壇中的單個討論主題、“Flickr ”中的單個集合、合作工作臺中的單個項目、由“Facebook ”上的好友組群公布的一條內容)。由語義學分析器I建立的該語義學標記云是在線社區(qū)51的特征術語的語義學濃縮。這些術語配備有至少一個度量以強調它們在在線社區(qū)51的語言實踐中的重要性。作為實例,一個度量可以是在交互中使用已經被發(fā)表在該在線社區(qū)51之中的特定概念的頻率。在該情況下,由用于反映每個概念在該在線社區(qū)51中的出現的權重來表征每個概念。在變形中,或者相組合地,該度量還可以涉及其他屬性,如來自信息論的香農(Shannon)分布,其反映一個概念所包括的信息量。這樣,該語義學標記云不僅僅是在在線社區(qū)51中最常用的術語的列表,而是它的真實的語義學濃縮。作為實例,語義學標記云可以同時反映一條文本內容的最常見的概念以及它們在該內容中的語義學鄰域(樹形結構中的語義學標記云、3D語義學標記云)。這些概念可以涉及例如-禮節(jié)的規(guī)則(消息的引入和結束、招呼消息、先行謝過);-縮寫;-語言登記簿和詞匯表(例如商業(yè)詞匯表、常用/正式/熟知/流行/俚語登記簿);
-派生語言學索引(微笑符或表情);-表達標點(以大寫字母書寫,復制相同的符號(例如多個感嘆號)以傳達意見或感覺的強度);-交互的語用學(姓的使用,非正式T格式的使用)。有利地,語義學標記云能夠僅在專用于在線社區(qū)51的語言實踐的幫助之下概括在線社區(qū)51的復雜內容。換句話說,語義學分析器I能夠基于在在線社區(qū)51通常實施的情況來獲得在線社區(qū)51的語義學圖像。與用戶希望在在線社區(qū)51中發(fā)表/閱讀的任意文本內容獨立地獲得在線社區(qū)51的語義學標記云。語義學鄰近度計算器2可操作來基于由語義學分析器I建立的語義學標記云來提供由用戶20基于預定義的語義學鄰近度報告(通過同義、類同義、或主觀邏輯分析等等) 所生成的一條文本內容的語義學鄰域。語義學鄰近度計算器2被配置為在語義學標記云中確定由分別最能代表在用戶20生成的文本內容中所標識的概念的術語/概念構成的語義學鄰域。換句話說,每個確定的語義學鄰域優(yōu)選地包括在語義學上接近用戶生成的文本內容中的所標識的概念的多個概念。優(yōu)選地,語義學鄰近度計算器2使用本體元數據4(如WordNet 、SentiWordNet⑧、Conc印tNet 的那些元數據)和/或由用戶20預先定義的或自動生成的詞匯表。該元數據4輔助語義學鄰近度計算器2標識由用戶20生成的文本內容中所包括的概念,這些概念的相應的語義學鄰域被假設在語義學標記云中發(fā)現。更通常而言,語義學鄰近度計算器2是一種“語義學代理”,因為它的功能是響應于關于一條特定文本內容的請求來提供至少一個語義學鄰域。語義學代理是導向在線通信平臺或更具體而言導向社交系統(tǒng)(社交網絡和社交“標記”系統(tǒng)如“Facebook ”或“Flickr ”)的一條本體元數據或網關元數據。語義學重新表達器3能夠-根據語義學鄰近度計算器2,從語義學標記云中獲取語義學上最接近由用戶20生成的內容的術語/概念的那些術語/概念;并且-在獲取的術語/概念的幫助之下,相應地重新表達由用戶20生成的文本內容。因此由用戶20生成的內容在從語義學標記云選擇的語義學鄰域的幫助之下被改編,并且隨后被提供給用戶20。在用戶20拒絕改編的文本內容的情況中,優(yōu)選地向該用戶提供與前一個改編不同的新改編。為此,語義學重新表達器3通過繼續(xù)執(zhí)行語義學鄰近度的測量,針對用戶20生成的內容在由語義學鄰近度計算器2確定的語義學鄰域的內容的層次處進行查找,其步驟包括-估計由用戶20生成的概念£與在線社區(qū)51的語義學云塑之間的語義學距離;-在概念£的附近搜索另一個概念使得^與£之間的語義學距離最??;-推薦概念^來代替概念£,^更適合該社區(qū)的語言行為。已經描述了用于測量語義學距離的不同技術,例如在(Langages et Modeles Objets 07 Toulouse, 2007 發(fā)表的 Μ· Z MAALA 等人的 “Distance semantique entreconcepts definis en ^5")中。也可以使用語義學相似性或者語義學關系的程度的測量。參考圖2,其示出了用戶與在線社區(qū)51的交互的過程。在語義學上改編一條文本內容以適應在線社區(qū)51的語言行為以以下方式支持前述功能模型-在任意發(fā)表包括文本評論21的內容之前,響應于用戶20的請求或者自動地向設備發(fā)送該評論,以改編文本內容以適應在線社區(qū)51的語言行為(圖2中的步驟11);-使用本體元數據4(圖2中的步驟12),語義學鄰近度計算器2標識評論21中的至少一個概念;
-再次使用本體元數據4(圖2中的步驟12),語義學鄰近度計算器2在在線社區(qū)51的語義學標記云31中搜索(圖2中的步驟13)該文本評論21中所標識的每個概念的至少一個語義學鄰域;-在語義學重新表達器3的幫助之下,根據語義學鄰近度計算器2獲取語義學上最接近的標記云概念31,然后將其提供給評論21,從而產生被改編為適應在線社區(qū)51的語言行為的評論22。向用戶20發(fā)送改編后的評論22(圖2中的步驟14);-用戶自由地完全地或部分地贊成或取消對評論21做出的改變(圖2中的步驟15)。優(yōu)選地,立刻為用戶20強調在由用戶20生成的原始內容中修改的概念,以便助于識別所做出的改變,從而加速用戶30對于這些概念20的認識,這使得新用戶20出現屬于在線社區(qū)51的感覺。應該注意,被改編為適應目標在線社區(qū)的語言行為的文本內容僅僅是一種建議,用戶20可以忽視或拒絕。換句話說,在沒有用戶的明確贊成的情況下不能直接發(fā)表編輯后的文本內容。此外,上述方法還可以用于根據在線社區(qū)的應用行為來闡明該社區(qū)的通信空間中的一條標識的文本內容(例如被選擇的)。作為實例,使用專用于在線社區(qū)的詞典能夠向不熟悉該社區(qū)的任意其他用戶(例如與該社區(qū)的成員的年齡非常不同的用戶)闡明由該社區(qū)公布的一條文本內容。由于改進和方便了不同網絡術語之間的交流,所述方法特別可應用于商業(yè)網絡中。由于該方法,商業(yè)間合作工作臺的、具有不同的商業(yè)詞匯表/文化的成員將具有更好的相互理解。該方法還能夠協(xié)調所使用的詞匯表(例如相同的縮寫、相同的技術術語)。上述方法展示了一定數量的優(yōu)點。其能夠將一條文本電子內容的本體與目標在線社區(qū)的本體對準,這使得其能直接被該社區(qū)的成員理解??梢詫⒃撛O備實現成與Web瀏覽器相關聯的擴展或功能的形式并且它們的使用可以是自動的或者由用戶發(fā)起的??梢岳缭谂c原始文本內容相同的位置中、在新窗口 /標簽或在實際氣泡中顯示由該設備改編的文本內容,同時-使其優(yōu)選地能夠區(qū)分所做的改變;并且-使得用戶能夠贊成或忽略該建議(或者甚至禁止該改編擴展/功能)。
權利要求
1.一種用于改編文本內容以適應在線社區(qū)的語言行為的方法,其中所述方法包括以下步驟 -建立所述在線社區(qū)的語義學標記云; -基于所述語義學標記云,確定所述文本內容的至少一個概念的至少一個語義學鄰域; -在所確定的語義學鄰域的輔助之下重新表達所述文本內容。
2.如權利要求I所述的方法,其特征在于,其進一步包括在本體元數據的幫助之下標識包括在所述文本內容之中的至少一個概念的步驟。
3.如權利要求I或2中的一項所述的方法,其特征在于,根據預定義的語義學鄰近度報告來完成確定至少一個語義學鄰域的步驟。
4.如權利要求I到3中的一項所述的方法,其特征在于,所確定的語義學鄰域包括與所述文本內容中所標識的所述概念在語義學上接近的多個概念。
5.如權利要求I到4中的一項所述的方法,其特征在于,所述文本內容的重新表達包括選擇所確定的語義學標記云概念來代替所述文本內容中所標識的所述概念的步驟。
6.如權利要求5所述的方法,其特征在于,所選擇的概念是在語義學上接近所述文本內容中所標識的所述概念的概念。
7.一種用于改編文本內容以適應在線社區(qū)的語言行為的設備,所述設備包括以下模塊 -語義學分析器(I),其被配置為建立所述在線社區(qū)(51)的語義學標記云; -語義學鄰近度計算器(2),其被配置為基于所述語義學標記云,確定至少一個文本內容概念的至少一個語義學鄰域; -文本內容的語義學重新表達器(3),其使用所確定的語義學鄰域。
8.如權利要求7所述的設備,其特征在于,其進一步包括本體元數據(4),所述本體元數據使得能夠標識在所述文本內容之中所包括的至少一個概念。
9.一種實現在存儲介質上的計算機程序產品,所述計算機程序產品可以實現在計算機處理單元之中并且包括用于實現如權利要求I到6中的一項所述的方法的指令。
10.如權利要求9所述的計算機程序產品,其特征在于,其是與Web瀏覽器相關聯的擴展。
全文摘要
一種用于改編文本內容以適應在線社區(qū)的語言行為的方法,包括以下步驟建立該在線社區(qū)的語義學標記云;基于該語義學標記云,確定該文本內容的至少一個概念的至少一個語義學鄰域;在所確定的語義學鄰域的輔助之下重新表達該文本內容。
文檔編號G06Q10/10GK102844775SQ201180018338
公開日2012年12月26日 申請日期2011年4月14日 優(yōu)先權日2010年4月27日
發(fā)明者J·斯坦, H·阿希 申請人:阿爾卡特朗訊