專利名稱:配有文字的視聽制品;在視聽制品中將語音和文字序列合理地結合的方法以及用于線性 ...的制作方法
背景技術:
以前的視聽演播常借助于編配字幕(美國專利第3199115號和美國專利第5097349號)或氣泡型圖注(美國專利第1240774號和美國專利第2524276號)來對演播中的語音部分進行文字譯釋。
此前的字幕通常用于以另一種不同的語言來說某一單詞的情況同時發(fā)生。這種情況是比較零亂和少見的,并且缺少一種被控制的模式來完成某一聲音序列與另一文字序列的特定關聯(lián)。另外,字幕文字的位置距離畫面動作也較遠。
此前的閃現(xiàn)卡片,每個顯示一個單詞,試圖通過反復強調(diào)和非自然的練習來訓練閱讀。雖然最終也有一些效果,但是使用這種卡片需要較長時間的學習和一文化教練(母親或?qū)W校教師)親臨現(xiàn)場。并且,這種卡片不提供本發(fā)明通過在敘述性的視聽介質(zhì)中提供對象所提供的關聯(lián)能力,而該視聽介質(zhì)能在其文化教育部分之外引起學生的興趣。
美國專利第5241671號揭示在計算機屏幕上顯示一篇文章的文本時可對有的單詞加下劃線而有的不加。當用戶從文本中選中某個單詞時,該單詞的定義即出現(xiàn)在屏幕上的某個窗口中,并可聽到該單詞的發(fā)音。另外,還可以同時顯示一個聲頻語音圖符。
同步字幕制品(Closed-captioned works)中提供獨立的區(qū)域或相鄰的方框,該區(qū)域或方框中可顯示成組的單詞。同步字幕系統(tǒng)中在屏幕的底部或其它遠離演講者或演員的位置顯示成組的單詞。同步字幕中的單詞以不同的背景出現(xiàn)在視頻畫面場景的兩側(cè)、下面或上面,該背景通常是白色的。幫助聾啞人的具有直觀聽覺的手勢語言符號單獨顯示在鄰近的方框中。這些方框顯示技術可能對觀眾造成侵犯。
教學用視聽在播放時,有一位教師面對攝象機鏡頭進行講解,同時在講解者的前面顯示出相應的書面文字。視聽者厭倦這種形式,尤其是年輕的視聽者會因此而失去對所討論的主題內(nèi)容的興趣。
發(fā)明概要簡單地說,本發(fā)明包括一種視聽制品及其制作方法,其中利用通常所見制品的正常設置,即伴隨言語或其它語音的圖象幀或段的一般常見序列,另外疊加上與視聽者順序聽到的語音序列相關或相應的文字序列。我們稱其為“同位”(euthetic)(位置適當?shù)?字幕。上下文中,如果語音詞匯和書面詞匯是同一個單詞,則二者是相應的。一種語言的語音詞匯與另一種語言中具有相同含義的書面詞匯是該上下文中的相關的詞匯。
根據(jù)本發(fā)明的某些實施例,每一文字出現(xiàn)在講演者頭部的附近、上面或相關的地方。這樣視/聽者可以同時觀察到書面詞匯、語音詞匯以及相伴的面部、唇部和頭部運動表情,通過靠近和正對嘴巴產(chǎn)生一種單詞是從嘴巴中發(fā)出的印象。根據(jù)另外一些實施例,每一文字出現(xiàn)在使用手語的人的手的附近、上面或相關的地方。根據(jù)本發(fā)明的另外一些實施例,點字文字“顯示”在與說話人的語音詞匯相關的某一單獨的設備上。
本發(fā)明與不需指導的通常為娛樂、信息或其它非文化意圖的目的而制作的視聽制品一起使用。它可以作為新產(chǎn)品的組件或者先前視聽制品的改進與這些資料一起使用。本發(fā)明還可以用于新制作的文化教育意圖的為應用本發(fā)明而設計的資料。這種新制作的文化教育意圖的實施本發(fā)明的資料對學生來說要比現(xiàn)有的用于文化教育目的的視聽資料少一些厭煩和脅迫感。
本發(fā)明的視聽制品可以線性播放,也可以通過編程和使用多媒體計算機平臺集成制作一種可以由視/聽者提供附加指令進行交互式操作的制品。這是本發(fā)明的一個特征。
本方法在社會工作中具有一定的實用性。因其中有大量的工作需要使用某一語言中的基本詞匯如本文中所述在視聽制品上編配文字,并向某一群體反復廣播或展示該制品,教會其中的一部分人在閱讀時能夠認識這些詞匯。這是本方法的另一特征。
附圖簡介
圖1是先有技術;圖2是某一講演者的立面視圖序列,其中書面文字出現(xiàn)在講演者嘴邊的不同平面上;圖3是某一講演者的立面視圖序列,其中書面文字出現(xiàn)在講演者嘴邊的同一平面上;圖4是一流程圖,其中示意本發(fā)明中所使用的步驟和設備部件;圖5是另一流程圖,其中示意本發(fā)明的一個交互式制品的制作過程,該制品中同時包括直觀語音和文字;圖6是一流程圖,其中示意使用本發(fā)明中的另一些步驟和設備部件;圖7是一流程圖,其中示意擴展視聽制品中的音頻部分以助于協(xié)調(diào)聲音和文字的方法;圖8是一嘴巴附近有一單詞的講演者的正向立面視圖;圖9是圖8的一個部分示意性平面視圖,其中畫出了對話平面;圖10是一電視機屏幕的透視圖,上面有處在不同位置的一個講演者;圖11是另一講演者的另一透視圖;圖12a-b是依據(jù)本發(fā)明實施同位字幕的一種方法的流程圖;圖13a-b是依據(jù)本發(fā)明實施同位字幕的另一系統(tǒng)和方法的流程圖;圖14是依據(jù)本發(fā)明實施同位字幕的另一系統(tǒng)和方法的一個流程圖;圖15a-b根據(jù)本發(fā)明的某一方面的示意波形延展;圖16是依據(jù)本發(fā)明實施同位字幕的另一系統(tǒng)和方法的一個流程圖;圖17是圖16中所述系統(tǒng)和方法關于計算機工作站的更詳細一些的流程圖;圖18是關于圖17中所述計算機工作站的更詳細一些的流程圖;圖19a-d是應用同位字幕的表示;圖20a-b是依據(jù)本發(fā)明應用同位字幕所得到的四象限方位的表示;圖21是描述依據(jù)本發(fā)明同位字幕直觀應用的流程圖;圖22是依據(jù)本發(fā)明的一個多媒體平臺的示意圖;圖23是依據(jù)本發(fā)明的一種交互能力的流程圖;圖24是圖23中所描述的交互式單詞發(fā)音的流程圖;圖25是依據(jù)本發(fā)明的一個阻視區(qū)(blockout zone)的示意性表示;
圖26是本發(fā)明的一個使用手勢語言的實施例的示意性表示。
較佳實施例描述圖1表示先前技術的一個屏幕1,其上有一個典型的視聽畫面2(陰影區(qū)),畫面2中有一先前技術的同步字幕框3,里面寫有“in thehouse”幾個單詞;畫面中還有先前技術的一個手語框4以及位于下面里面寫有“at eleven”幾個單詞的長條形的單詞跟蹤區(qū)5。區(qū)域5中的單詞沿箭頭A的方向移動。與畫面2相關的包括對話在內(nèi)的聲音多半從聲源區(qū)6中發(fā)出。
依據(jù)本發(fā)明的單詞或其它符號通常安插在聲源區(qū)6中視聽的畫面部分;不過,單詞也可以疊加在畫面2的其它部分上,其中視聽者的注意力由他或她對該視聽的興趣來引導,如哪里有動作、該動作的位置與聲源是否一致等。
在某一較佳實施例中,本發(fā)明將單詞疊加在視聽中的講演者的參考平面(即與觀察屏幕平面不平行的平面)里。因為觀察者的參考平面是所視的屏幕的平面,單詞從該平面中移動到演員的世界里的過程就更容易和直觀地觀察到,對觀察者來說,看起來就象是三維物體一樣。
參照圖2-3,某一視聽制品中講演者S具有頭部H和嘴巴M,書面文字“l(fā)ook”在其被說出時出現(xiàn)在平面P1里。平面P1近似地和連接說話人兩只耳朵的直線(圖中未畫出)垂直。每個單詞最好出現(xiàn)在其被說出或發(fā)出的那一短暫的時間段里。但是,該單詞還可以剛好出現(xiàn)在其被說出的前后,只要它的出現(xiàn)與前面或隨后說出的單詞或聲音不發(fā)生干擾。判斷標準是當每個單詞被說出時,有一相關的相應書面單詞或文字提供給視聽者。本發(fā)明在為演播提供一有意義的語音詞匯(或其它聲音)序列的同時,還提供一相應的書面單詞、數(shù)字或其它文字的序列,以此在視聽者的頭腦中一次一個地完成語音詞匯或聲音與文字的關聯(lián)。
演播中將許多書面詞匯或文字一次一個地與相應的語音詞匯對應,其目的在于為視聽者提供一個在自然的情景中關聯(lián)相應的聲音和情景的機會,以便能夠記住該聲音和情景之間的關聯(lián),這樣,將來再演播該聲音或情景中的任一個時,視聽者都應能記起另外一個。當這種目的是為了文化、外語學習和教育時,本發(fā)明還有另外一個優(yōu)點,即增加理解過程的清晰性,其中視聽者可以從視覺、聽覺或兩方面的刺激來接收和理解該單詞,這依賴于他或她的能力、注意力或相對于顯示該視聽制品的部件的位置。第二個優(yōu)點是外語聲道的翻譯,通過在嘴邊或附近安插書面翻譯來加強理解。第三個優(yōu)點是可以通過同時顯示兩串字符,提供同時雙語言演播,其中一串用說話者的語言,另一串用另外一種不同的語言,二者都與相應的語音同時出現(xiàn)。當語音序列播放的速度太快以至于無法在視覺上為其編配相應的文字時,視/聽介質(zhì)中受其影響的那部分可以對聲音進行數(shù)字化擴展,而在視覺上通過數(shù)字或模擬手段進行擴展,以獲得可理解的關聯(lián)。
二字詞、三字詞或四字詞(二、三或四個單詞的序列)可以同時顯示,其目的是在單個單詞顯示的速度過快時,使聾子或者不是說視聽制品聲道上的語言的人能夠理解。兩種情況下其意圖在提供字幕時應使用觀察者已經(jīng)理解的語言。在這種情況下,應當使用盡可能少的單詞,但是對有關的詞組必需保證有足夠的閱讀理解時間。同步字幕或外文電影字幕的目的局限于對敘述性或娛樂性節(jié)目的理解而不是與聲音的關聯(lián),上述方法是它們的一種替代品。
根據(jù)本發(fā)明的另外一個實施例,一個或多個單詞出現(xiàn)在與使用手語的人的手的位置相關的地方,以便在這些單詞和某個手語元素之間能有一關聯(lián)。通過這種方法,可以為視聽者提供一個在自然的情景中關聯(lián)相應的單詞的機會,其目的是要記住該單詞和相應手語元素之間存在著關聯(lián)。
根據(jù)本發(fā)明的另外一個實施例,視聽制品中的單詞只對使用特殊閱讀設備的觀察者可見。這有些類似于三維立體電影,只有當觀眾戴上一種特殊類型的眼鏡時才能看見。實際上使用一種特殊類型的眼鏡正是實現(xiàn)該實施例的一種較佳方法。
本發(fā)明中的單詞作為制品的必備部分疊加在制品的畫面情景上一起顯示。畫面情景包括人物、家具、天空、背景市景等要素。單詞可以疊加在一個或多個畫面部分上,這樣可以防止對畫面元素的某一部分的觀察或?qū)Ξ嬅嬖氐哪骋徊糠值膯为氂^察,其中的書面文字是透明或半透明的,或者由線框字符組成。
在說多個單詞時,一次向視聽者顯示多個書面詞匯使得如果不是不可能,就是很難將聲音與其相應的書面詞匯正確地關聯(lián)。因此,重要的是,每一聲音與其相應的書面詞匯在顯示時,采用的方式應盡可能使得視聽者能夠更容易地關聯(lián)這兩個元素。為避免分神和混淆,除了單詞的附圖、手語表示和外語譯文外,每個語音詞匯只應與其唯一的一個相關文字相伴。只要不是在說出前面或后面的單詞期間產(chǎn)生這些顯示,該單詞或這些單詞可以在其被說出之前、期間或之后顯示。
只要每個單詞和符號都要與其相應的語音關聯(lián),可以在發(fā)聲期間出現(xiàn)多個單詞或符號。例如,在說“thank-you”時,單詞“thank-you”和“merci”可以同時出現(xiàn)。
在視聽播放期間,通常是有說話期間,在該期間發(fā)聲,而在其間是沒有說話聲的時間段。在本發(fā)明的一次一詞過程里,書面文字只在下述時間段里出現(xiàn)(1)說出前面單詞后的沒有說話聲的時間段里;(2)說當前單詞時;(3)接在說出當前單詞后,說出下一單詞前的沒有說話聲的時間段里。
在畫面場景中顯示基于字母的文字時,在不識字的學生的頭腦中,這些文字就是要記住的標志圖符,這需要調(diào)動大腦記憶整個視覺圖象的那部分機制,正如膠卷接收光線生成相片一樣。
同步伴隨語音或圖象對象的字母文字的具有創(chuàng)造性的分段顯示能夠在學生的頭腦中建立起書面文字(“正?!睍鴮?,但作為標志圖符來理解)與同時顯示的一個或多個對象之間的可恢復的關聯(lián)。經(jīng)過多次重復后,再顯示該基于字母單詞的隨后顯示(標志圖符)時,將會在學生的頭腦中回憶起相應的對象,即語音詞匯。顯然,這定義了一個閱讀過程,而對其能力的訓練則是本發(fā)明的目的之一。
配對語音和書面詞匯的同一過程還可以反過來訓練認識某一給定語言的學生學會說該語言。在這種情況下,對象就是書面文字或標志圖符,而學習目標則是語音詞匯。
學習強度的關鍵,尤其是對于嬰兒,在于要在一種“自然的,,環(huán)境里提供關聯(lián),該環(huán)境與小孩學說話的環(huán)境相似。小孩學說話的環(huán)境通常一般不包括正式的演講課程,與本發(fā)明直觀引進的環(huán)境是同一類型的環(huán)境。在本發(fā)明的較佳線性實施例中,向視聽者提供某一故事的環(huán)境或者其它演示,其主要目的并不在于傳授文化。當一個人在學說話時,容易受到直觀的圖象和動作的影響,它們在學習者的環(huán)境中由代理人(如父母)分別演示或暗示,并且充當將與并行出現(xiàn)的語音相關聯(lián)的對象。本發(fā)明的環(huán)境中直觀的圖象和動作在學習者的環(huán)境中由代理人(如父母)分別演示或暗示,并且充當將與并行出現(xiàn)的語音相關聯(lián)的對象。由于在學習者的環(huán)境中的代理人,這種環(huán)境中包括有意義的串行語音序列,而不是制造隨機語音的規(guī)則。這種自然的語言學習環(huán)境出現(xiàn)在典型的電影中,其中描繪了自然的交流情景,在電影播放期間通過自然的重現(xiàn)向觀眾展現(xiàn)同一個單詞。自然環(huán)境和電影仿真都提供了動作和對象之間的關聯(lián)以及與其相應的解說語音,本發(fā)明在自然環(huán)境的視聽仿真中將這種關聯(lián)機會擴展到了書面文字上。
本方法在訓練閱讀時,向?qū)W生演示的是整個單詞而不是單詞的一個個音節(jié)或字母。觀察和記憶一個完整的單詞類似于觀察和記憶一個符號,如一張貓的畫面或一個漢語方塊字等,其中的單詞據(jù)信是由人的大腦以相同的方式進行處理。作為一個整體來觀察每個單詞(或情景閱讀)提供了基于在大腦中開發(fā)關聯(lián)的一種訓練方法,這種關聯(lián)是被直觀地記住或銘記并通過關聯(lián)而非人腦的分析(基于字母、音節(jié)或語音的閱讀所要求的)來回憶的。
當兩種書寫形式,即一個為文字形式,另一個為圖示形式,在顯示時相應于同一語音詞匯時,這兩種形式可以融合成一個或由其中之一變化成另外一個,以示二者是相關的或甚至是同一個。例如,當一個人在電視中說出單詞“cat”時,書面單詞“c-a-t”可以演變成一張貓的畫片。
由本發(fā)明所建立的關聯(lián)不管是已有視聽的上下文還是將要創(chuàng)建的,都以一種常規(guī)的、自然的畫面情景出現(xiàn)。例如,這種關聯(lián)可以出現(xiàn)在電影場景中,其中一個偵探正在與一個嫌疑犯進行交談;也可以出現(xiàn)在電視中,其中一個演員正在演唱;還可以出現(xiàn)在電視新聞廣播中,其中一個氣象預報員正一邊解說一邊在地圖上指指點點。在所有上述這些事例中,其目的都可不必包括文化目的。
本發(fā)明還可以用于訓練唇語閱讀,其中當語音和文字顯示出現(xiàn)時還可同時觀察到作為制品的視頻部分的一部分的嘴唇的運動。
將單詞放在位于所顯示畫面的區(qū)域中的上下文的源點(contextualsource)的地方或其附近的一個好處是,在觀察者聽到某個單詞時能夠更容易地看到該單詞,而與此同時還能保持對制品中所發(fā)生的動作的注意力。雖然人眼可以看到位于觀察屏幕的外圍邊緣處甚至是畫面區(qū)域之外的單詞,但在閱讀這些單詞時,若想同時保持對視聽制品中的動作元素的注意力還是比較困難的。而這一點正是本發(fā)明比同步字幕要優(yōu)越的原因之一。再者,同步字幕一次要同時顯示多個單詞,這妨礙了單個單詞對單個聲音的關聯(lián)。另外,本發(fā)明按與說話人的空間關系顯示單詞,這減輕了脅迫感并減小了書面文字所占用的屏幕區(qū)域。
當兩個人進行交談時,不管他們是否是面對面,二人之間的某一平面都可以作為用來顯示書面文字的平面。當其中的一個人不在攝象機鏡頭里時,該技術同樣適用,其中觀眾能意識到鏡頭外的哪個人的相對位置。
每個書面單詞的字母的顏色、形狀和其它特性在設計時應注意不要造成一種緊迫感。例如,如果單詞所在的背景畫面部分的顏色是深藍色的,單詞的字母的顏色則應是淺藍色的或具有其它亮度的藍顏色。再者,書面單詞還可以以透明或半透明的形式顯示,這樣可以繼續(xù)看到背景被遮擋的那部分。另外,一個單詞還可以以顏色、字體或其它形式編碼安插在源點中。
再次看一下圖2-3,當說話人(S)的頭(H)轉(zhuǎn)動時,平面P1,近似地和連接說話人兩只耳朵的直線垂直,移動到三個(3)新的位置P2-P4。在說單詞“AT”時透視地出現(xiàn)在平面P2中;在說單“SPOT”時透視地出現(xiàn)在平面P3中;最后在說單詞“GO”時出現(xiàn)在平面P4中。每個單詞在說出時位于頭部或其附近甚至上面,而且最好位于說話人的嘴部(M)或其附近。請注意,當說話人(S)的頭部(H)轉(zhuǎn)動時,同時也發(fā)生了傾斜來抬高下巴(參見平面P4)。書寫方向最好反映頭部從一邊到一邊以及上和下的方向。
在圖3中,所有說出的單詞都出現(xiàn)在平面PP上,而平面PP則與播放視聽的屏幕在同一平面上或與其平行。
圖4中描述了制作視聽制品的裝置,其中包括一個操作員平臺;一臺用來產(chǎn)生所需文字(如單詞“l(fā)ook”)的視頻文本發(fā)生器;用于提供上面尚無文字的制品的視頻制品輸入裝置;一臺數(shù)字光學操縱器,用于提供結合文本和視聽制品的裝置,從而在適當?shù)钠矫娣较蛏咸峁┍景l(fā)明的語音/文字關聯(lián)。這種操作制作出一種具有創(chuàng)造性的視聽制品,其中在制品中從頭到尾都有這種關聯(lián),并且在觀看和聽的時候可以不必中斷由本發(fā)明的線性實施例所制作的演播。
在說出單詞的時候,成組的字母貼在、印在、疊加在或者位于畫面中最容易觀察到的部分。當說話人的頭部可見時,單詞則應位于嘴部或其附近,以暗示單詞是從該嘴巴中發(fā)出的。該序列持續(xù)于整個制品(如果需要,制品中的一段)中所有或相當數(shù)量的語音。字母可以是任意大小、字體或顏色。在一較佳實施例中,大小、字體、顏色或其它圖形屬性在選擇時要能反映背景顏色以及每一語音的情緒和意向內(nèi)容。對于背景來說,每一書面單詞缺省地都應是透明的、半透明的、線框狀的或者取某一亮度的背景顏色,并要足以與背景顏色區(qū)分開來,以便在保持可見性的情況下避免在單詞消失之后留下視網(wǎng)膜暈影(retinal halo)或鬼影圖象。對于情緒、意向或含義,舉例來說,惱怒的詞匯應當具有紅顏色和尖銳邊界的字樣,而催眠曲的歌詞則應具有軟色調(diào)和柔軟、卷曲的字樣。情緒上中性的單詞應當使用缺省的顏色來顯示。語音的細微差別可以通過音量、語氣、音調(diào)或其它聲音屬性的變化來表現(xiàn),圖形屬性的目的就在于為視聽者提供一種與語音的細微差別平行的動態(tài)圖形,從而達到增強將來可以由大腦回憶起的關聯(lián)的目的。
自然的交流情景盛行于視聽制品中。這些情景包括上面所提到的一個偵探質(zhì)問一個嫌疑犯的情景。在包括自然的交流情景的場景中安插單詞提供了一種用于建立聲音和所期望的文字之間的關聯(lián)的工具,而同時視聽者仍能保持對制品中自然的交流情景的注意力。
在圖5中,本發(fā)明的線性實施例可通過編制一種計算機程序用于創(chuàng)建一個交互式的實施例,該程序允許視/聽者停止視聽播放,于正在播放視聽的屏幕上彈出一個菜單,通過選擇提供單詞的定義、語法和句子的上下文用法或其它信息。交互式的制品由視/聽者的操作來播放,該視/聽者使用一種可編程的教學裝置,該裝置用于使用上述程序顯示上述制品,停止上述制品而查看所選的文字并獲得有關該文字的附加信息。
在圖6中,視聽制品由計算機圖形設計者在其工作站上創(chuàng)建,工作站的屏幕上向設計者顯示的是制品的視頻信號(模擬或數(shù)字形式)。在對幀(每秒30幅的畫面序列)進行處理時,設計者創(chuàng)建一計算機圖形或文本(即一個單詞)并將其疊加到一幀或多幀的視頻信號上,幀數(shù)的多少依賴于說出相應單詞所需要的時間長短。說一個單詞所需要的時間長短,在日常英語(或其它語言)會話中,很多單詞都不相同,從六十分之一秒到二分之一秒不等。借助于動畫技術和使用畫盒軟件可以將其它字符加到該單詞中字符的字體以及在選定的平面上該單詞的方向上。
圖7示意延長聲像制品中說出某個單詞的時間的方法,其目的是為了給相關的書面文字提供更長的顯示時間。這種對一個單詞能夠聽到的時間延長或延展過程首先在硬盤上將單詞的聲音數(shù)字化為一個波形,然后再對該波形重新進行配置。這種技術不會改變音調(diào)和語氣。
圖8中的頭部(H’)面向觀察者的右首,如圖中虛的源點線(SL)所示。直線(SL)位于說話人的參考對話平面(P5)(未畫出)上。垂直的觀察者參考平面(A)對于觀察者來說所看到的只是一條直線。該平面保持固定不變。直線(SL)象一根烤肉的叉子串起單詞“WOW”。
單詞(WOW)的始點與說話人的頭部(H′)之間的距離最好在距離(d2)之內(nèi),而距離(d2)則是說話人具有鼻子(N)的臉部(F)的寬度(d1)的兩倍(如圖8所示)。將單詞(WOW)置于范圍2d1之內(nèi)為說話人的頭部處于比較近的位置的場景提供了一個比較好的結果。當頭部處于遠景中距離很遠時,單詞可以比頭大,但仍然需要靠近頭部(H′)或移至觀察者感興趣的對象處,在這種情況下,距離(d2)可以是距離(d1)的3或4倍。
圖9是圖8的一個示意性的平面視圖,其中給出了對話平面(P5)、平面A(180度觀察者參考平面)和平面B(90度平面)。具有源點線(SL)的對話平面(P5)中包括出現(xiàn)于該方向的單詞“WOW”。出現(xiàn)在其它對話平面(P6)和(p7)(離觀察者平面(A),即180度的觀察者參考平面25度)上的單詞也能閱讀,但是因為放在靠近觀察者參考平面(A)(觀察者的主視平面)的對話平面上的單詞讀起來比較困難,所以本發(fā)明的實際應用中很少使用這種放置方法(在該“阻視區(qū)”內(nèi))。
圖10給出了電視機21的屏幕20,其上帶有控制按鈕22和23。說話人的頭/臉的位置跟圖2中一樣是以多視角的形式顯示的。屏幕20左邊的視圖顯示了頭(H)、臉(F)和上面帶有源點線(SL1)的對話平面(P1)。臉平面(FP1)與對話平面(P1)垂直。源點線(SL1)與臉平面(FP1)垂直。當說話人站著或坐著時,臉平面通常位于與水平線垂直的平面上。源點線(SL1)直線地等分單詞“l(fā)ook”。其它源點線(SL2)、(SL3)和(SL4)分別位于它們各自的對話平面(p2)、(p3)和(p4)上,每條線都直線地等分其各自的單詞。
最后,圖11給出的一個帶有頭(H3)、臉(F3)和嘴(M)的說話人(S2)。臉平面(FP2)與對話平面(圖中未畫出)垂直。位于對話平面(圖中未畫出)上的源點線(SL3)等分單詞“fast”。因為當說話人(S2)向后靠或?qū)⑵浔巢哭D(zhuǎn)向觀察者時頭部(H3)可能會沿任何方向移動,源點線(SL3)上的單詞在該方向上由頭部(H3)說出時,在各種情況下都應放在對話平面上,除非對話平面的方向不利于單詞的閱讀時。例如,假設說話人(S2)處于站姿并且背對觀察者,單詞“fast”如果此時放在對話平面上的話,將處于觀察者無法閱讀的一個角度。為避免這種情況,在保證識別性的情況下,單詞“fast”應盡可能地放在離對話平面較近的平面上。這種情況下,單詞“fast”將位于如此選定的平面中的某一透視方向上,給人一種該單詞正遠離頭部(H3)的印象。
如果時間允許,單詞“fast”可以先在使嘴部(M)的某一部分模糊的位置上出現(xiàn),然后迅速地沿對話平面的直線(SL5)移動。也可以是,例如,如果單詞將在屏幕上總共停留千分之0.024秒,則該單詞可在嘴部(M)出現(xiàn)千分之0.008秒,然后沿直線(SL3)移動千分之0.008秒,最后在消失以前再在該直線上停留千分之0.008秒。
將單詞放在源點線和透視平面上的目的在于造成單詞是從嘴巴中說出來的感覺,從而使得單詞能以視聽場景的三維空間中的物體的形式出現(xiàn)。作為一個物體,該書面單詞同樣要受到其它物體所受到的物理定律的約束。因此,在使用本發(fā)明的視聽制品中,如果有人走到說話人的前面,則說話人的聲音有可能被遮住,將暫時看不到書面單詞的一部分或全部。本發(fā)明這方面的目的是為了讓單詞看起來象是真的物體,這是一種年輕人普遍接受的概念,對于那些要求單詞對用戶友好而不是抽象的人來說,尤其如此。
單詞的位置看起來應具有透視感,其中的字母大小應遞增或遞減(參見圖8,其中左邊的字母“W”比字母“O”要小,而字母“O”又比它右邊的字母“W”要小)。具有透視感的單詞看起來要有一定的方向,包括在該方向上的移動的狀態(tài)。具有透視感靠近說話人嘴部的單詞要看起來象是從該嘴中說出的。在不影響作為交流的一部分的說話人的面部表情的情況下,單詞要盡可能地位于靠近嘴部的地方。
在一制品當中并不是所有的語音詞匯都需要顯示與其相應的書面單詞,因為制品中所選定的某一使用階段中在文字方面可能提供特殊的難度或由于其它原因不需要文字。
本發(fā)明的較佳用法是將單詞、其它字數(shù)字符號或其它文字按照一有意義的順序放在磁帶、膠卷、計算機磁盤、光盤或其它介質(zhì)上,按以上所述方法提供了它們與相應的磁帶、膠卷、光盤或計算機磁盤的語音部分的關聯(lián)。這種順序可能持續(xù)貫串膠卷或磁帶的首尾。本發(fā)明的視聽制品最好具有一定的娛樂性,或者存在具有上下文關系的主題和內(nèi)容。視/聽者在其進行娛樂或其它內(nèi)容時,不需要作出特別的努力即可完成學習過程。
本發(fā)明在制品的畫面區(qū)中建立語音詞匯的視覺感,好象每個單詞都可見,并且具有維度、顏色、字體、運動和其它屬性。單詞的維度就是單詞在顯示屏幕平面或與之有一定角度的平面上的方向。在該方向上的單詞如畫面中的其它元素一樣是三維的。
文字可以包括字母、單詞、圖象或其它符號。
根據(jù)本發(fā)明的另外一個實施例,文字是按點字法來顯示的,并且最好放在一臺單獨的設備上。人們(例如有視覺障礙的人)可以在聽聲頻節(jié)目時使用該設備。類似于其它實施例,可以在點字文字和語音表示之間建立其一一對應關系。這樣便可以為用戶提供一個在自然的情景中關聯(lián)相應的文字的機會,其目的是要記住該文字與相應語音之間存在著關聯(lián)。例子在此舉一個娛樂性視頻游戲的例子。玩此游戲的人在其中可以利用一定數(shù)量的圖示(文字圖表)對象。各圖表可以用光標拖動。每個對象都可以用鼠標單擊,該對象隨即漸變(“變形”)成其相應的書面單詞(標志圖符),同時出現(xiàn)一畫外音或一正說話的頭象說出該單詞。
本游戲的目的是要創(chuàng)建一排圖示對象,并由它們形成一個有意義的序列。一旦玩游戲的人安排好了這排對象,只要雙擊鼠標即可激發(fā)各對象從左到右、一次一個地變形成其相應的書面單詞(標志圖符),同時伴有相應的語音對象。然后該序列由說話人從左到右大聲地重復,其間每個單詞突然由一對象“伴音”。
在玩該游戲過程中,如果由拖動所創(chuàng)建的對象沒能形成一個有意義的序列,雙擊鼠標時將沒有輸出,并且不能得分。
顏色和字體圖形的差別可以隨對話的有意義的表述的自然進展而變化。這樣,本發(fā)明的整體“有機外觀”(organic look)將創(chuàng)建出一種新型的標準“情感圖形詞匯表”。例如,下述顏色和圖形可以用于以下情感情感顏色 圖形高興白色或粉紅色閃爍/閃耀悲傷藍色或黑色 哥特體惱怒紅色黑體性 紫色波浪形字體和顏色的差別也可以用來關聯(lián)物理現(xiàn)實,如在自然界中發(fā)現(xiàn)的等。物性顏色 圖形冷灰色/冰藍色冰條熱橙黃色/紅色火苗濕乳白色 水滴這種關聯(lián)基于一般感覺或/和已有的關于人的情感和學習記憶的顏色、紋理等的圖形效果之間的關聯(lián)的研究。另外,現(xiàn)有的計算機圖形軟件的某些功能,包括視覺現(xiàn)象,如“閃光”和“輻射”等,可以用來增強關聯(lián)的效果。
根據(jù)本發(fā)明,敘述性上下文中的同位字幕可以通過多種途徑來實現(xiàn)。圖12a-b示意了手工應用同位字幕的步驟。
圖13a-b描述了一個電視導播系統(tǒng)以及應用同位字幕的方法。
圖14描述了一個在不影響音調(diào)或語氣、不造成明顯失真的情況下放慢語音速度的系統(tǒng)和方法。圖15a-b分別是單詞“future”的正常和擴展波形,擴展時使用的是圖14中所描述的系統(tǒng)和方法。圖15b中波形的音調(diào)與圖15a中的相同,因為在擴展時波的振幅保持不變。
當使用小數(shù)乘法器(fractional multiplier)而不是全整數(shù)乘法器(whole number multiplier)對波形進行擴展時,使用本發(fā)明的另外一個實施例比較好。例如,當需要將波形的長度延長一半(增加50%)而不是一倍(增加100%)時,已知的方法只是隨機地選擇波形的某些部分進行擴展。而根據(jù)本發(fā)明的特點,對于波形各部分的隨機選擇僅局限于元音部分。這可以由該領域中普通技術人員公知的裝置來完成。
圖16描述一個應用同位字幕的數(shù)字系統(tǒng)和方法,其中使用已有的字符動畫軟件來放置單詞。
圖17-21涉及本發(fā)明的另外一個實施例,是一個關于直觀同位字幕的系統(tǒng)和方法。圖17是圖16中所描述的系統(tǒng)和方法,其中根據(jù)本發(fā)明的這一實施例應用了同位字幕軟件。圖18是一流程圖,是對圖16和17中所描述的系統(tǒng)和方法中所使用的計算機工作站的進一步的詳細描述。
圖19a-d展示根據(jù)本發(fā)明應用同位字幕的細節(jié)。圖20a-b描述某一同位字幕單詞所處的虛擬的三維空間的四個象限。圖21是某一軟件模塊的流程圖,該軟件模塊用來在虛擬三維空間的四個象限中為同位字幕單詞選擇一個較好的方向。這種軟件最好在計算機工作站系統(tǒng)上運行。這里可以使用本領域普通技術人員已知的各種輸入設備,而比較好的一種是由用戶使用鼠標來指定象限和畫出源點線,然后使用鍵盤確定輸入。運行上述軟件模塊的計算機系統(tǒng)應自動地將單詞放置在源點線上,其中源點線最好能穿過小寫字母主體的中心處(排印工人所熟知的“×高度”),如字母“e”中的水平橫線。系統(tǒng)和軟件安放好單詞之后,相應的源點線即被刪除。
圖22是一示意圖描述一根據(jù)本發(fā)明制作交互式同位字幕制品的多媒體平臺以及與之結合使用的一交互式的多媒體計算機工作站。圖23是一實現(xiàn)交互能力的軟件的流程圖。
圖24是圖23中所描述的交互式單詞發(fā)音法的流程圖。根據(jù)本發(fā)明的這一特色,當用戶在某一特定的單詞上停下同位字幕視聽制品的播放時,可以就此上一堂發(fā)音課。用戶面前最好能有一跟某計算機相連的麥克風,該計算機上裝有音波分析軟件,能將用戶對單詞發(fā)音的波形與存儲在計算機文件里的正確發(fā)音的標準波形進行比較。然后計算機向用戶提供反饋,或者對正確的發(fā)音進行肯定(如“很好”或“棒極了”),或者提示用戶把單詞再說一遍。
圖23中所描述的其它選項最好作成用戶可以選擇的交互式應用程序的菜單。例如,用戶可以選擇一書寫應用程序,該程序允許用戶對所顯示的單詞進行摹仿,摹仿的手段可以是通過鍵盤鍵入該單詞,也可以使用電子書寫板書寫并將輸出傳給手寫體識別軟件。該交互式系統(tǒng)最好能提供一反饋通知用戶他/她所鍵入/書寫的單詞是否正確。
圖25示意如何在圖9中所描述的前向“阻視區(qū)”中放置單詞。作為一種方式,單詞可以選擇放在該區(qū)域中(圖25中通過直線AA的平面上),使得單詞看起來象是從講演者的嘴中發(fā)出的。
一個或多個單詞也可以出現(xiàn)在與使用手語的人的手的位置相關的地方,以便在這些單詞和某個手語元素之間能有一關聯(lián)。圖26中描述了本發(fā)明的這一實施例的一個例子,其中電視屏幕上有一講演者和一嵌入的矩形區(qū)域,該區(qū)域中有一人手正作同步的手語翻譯。當講演者說出單詞“future”時,手語翻譯將對該單詞作出相應的翻譯,同時在嵌入的矩形區(qū)域中將顯示出與該手語元素相關聯(lián)的單詞“Future”。
權利要求
1.使某一人口群落熟悉某一區(qū)域所說語言中的某一書面詞匯組的一種方法,包括(a)使要建立的多個視聽制品的每一視聽制品中都包括多個的圖段,每一圖段中都包括一系列的語音;(b)相應與上述語音在上述圖段里一次一個地疊加上書面單詞,使得每一語音與每一書面單詞相關;(c)在上述制品中,為上述書面詞匯組中的每一個單詞提供至少一個圖段;以及(d)在一段時間里,于上述區(qū)域中的一定范圍內(nèi),廣播或介紹上述制品。據(jù)此,上述人口群落可以熟悉上述語言中的上述書面詞匯。
2.教育學生的一種方法,包括(a)制作一件或多件包含自然交流情景的視聽制品,每一制品在該情景中都包括一些同時伴有相應文字的多個語音,每一視聽中都包含一自然地引導學生的注意力的區(qū)域,該區(qū)域包括(i)第一部分,語音看上去從中發(fā)出,或?qū)W生的視線由語音的含義引向該部分,(ii)第二部分,伴隨每一語音同時顯示上述文字,使得在學生的大腦中能夠形成該語音與其相應文字之間的關聯(lián);(b)讓學生可以得到上述制品;以及(c)允許學生額外地選擇視聽安排,但前提條件是該學生業(yè)已對每一語音都聽過一定的次數(shù),并且在聽的時候同時觀看了其相應的文字,以幫助學習各語音與各文字之間的對應關系。
3.權利要求2的方法,其中第一和第二部分相互重疊。
4.一種視聽制品,內(nèi)含將向視聽者顯示的具有自然交流情景的畫面場景,包括(a)在該場景中由人或其它發(fā)音者說出的一系列語音;(b)與上述語音序列相關的文字序列,在畫面場景中簡要地放置一文字,伴隨所聽到的語音同時顯示一相對應的文字,使得在視聽者的大腦中能夠形成每一語音與其相應文字之間的關聯(lián)。
5.權利要求4的視聽制品,其中說話人有兩只耳朵,文字出現(xiàn)在某一對話平面上,該對話平面基本上垂直于通過連接說話人兩只耳朵的直線。
6.權利要求4的視聽制品,該制品在一平面上的平的屏幕上播放,其中的文字出現(xiàn)在該屏幕所在的平面上或與之成一角度的平面上。
7.權利要求4的視聽制品,其中每一文字都與說話人的頭部緊密相關。
8.權利要求4的視聽制品,其中的視聽具有娛樂性內(nèi)容。
9.權利要求4的視聽制品,其中的視聽具有教育性內(nèi)容。
10.權利要求4的視聽制品,其中在任一給定的時間僅向觀察者顯示一個文字。
11.權利要求4的視聽制品,其中在同一時間里同時顯示兩個文字,每個文字都與一個語音相關聯(lián)。
12.在視聽演播的圖象、幀或段上放置文字序列的一種方法,其中的圖象、幀或其它段上,在聲音發(fā)出期間,有一個人或無生命的發(fā)音器,該方法包括(a)選擇一個操作員控制的包含視頻文本設備的設備裝置;(b)使該視頻文本設備顯示一定數(shù)量的單詞,每一單詞有各種便于檢索的大小、形狀和方向;(c)放置每一圖象序列讓該裝置的操作員觀察;(d)使用視頻文本設備選擇上述顯示的單詞;(e)將上述選定的單詞傳送到某一選定的圖象、幀或段中的固定的位置上。使得上述單詞出現(xiàn)在某一段上,暫時地和局部地與單詞的語音相互關聯(lián)。
13.權利要求12的方法,其中單詞放在靠近說話人頭部的地方。
14.一種訓練裝置,包括可控的顯示裝置,顯示權利要求4中的視聽制品以及其它訓練信息。
15.權利要求4的視聽制品,其中的語音序列是一系列由無說話聲的間隔隔開的語音詞匯,在某一段時間里顯示出與每一語音詞匯相關的每一文字,其中該段時間包括說該單詞的時間段及其前后無說話聲的時間段。
16.權利要求4的視聽制品,其中的視頻演播包括非教育性的場景,該場景中疊加有上述文字。
17.權利要求6的視聽制品,其中的單詞透視地出現(xiàn)在上述文字平面上,這些平面與上述平的屏幕平面之間至少相差60度。
18.權利要求4的視聽制品,其中的畫面場景具有吸引注意力的動作區(qū),而文字就放在這些區(qū)域中。
19.權利要求4的視聽制品,其中的畫面場景具有聲源區(qū),而文字就放在這些區(qū)域中。
20.權利要求4的視聽制品,其中的單詞透視地出現(xiàn)在某一源點線上。
21.一種基于計算機的資料處理系統(tǒng),用于多個圖段的同位字幕每一圖段包括語音,該系統(tǒng)包括(a)用于處理數(shù)據(jù)的計算機處理器;(b)用于存儲數(shù)據(jù)的存儲器;(c)在代表多個上述包含語音的圖段的數(shù)據(jù)上相應于上述語音一次一個地疊加表示書面單詞的數(shù)據(jù)的裝置,使得每一語音與每一書面單詞相互關聯(lián)。
22.權利要求21中所述的系統(tǒng),其中的疊加方法包括(a)輸入第一模擬視頻信號的裝置;(b)將上述模擬視頻信號轉(zhuǎn)換成視頻數(shù)字數(shù)據(jù)的裝置;(c)一次一幀地顯示上述視頻數(shù)字數(shù)據(jù)的裝置;(d)從用戶單詞數(shù)據(jù)和象限數(shù)據(jù)輸入的裝置;(e)在視頻數(shù)字數(shù)據(jù)中將單詞數(shù)據(jù)與根據(jù)象限數(shù)據(jù)和其它預定的標準結合的裝置;(f)將上述視頻數(shù)字數(shù)據(jù)轉(zhuǎn)換成第二模擬視頻信號的裝置;(g)輸出第二模擬視頻信號的裝置。
23.權利要求21中所述的系統(tǒng),其中從用戶單詞數(shù)據(jù)和象限數(shù)據(jù)輸入的裝置包括(a)允許用戶選擇象限的裝置;(b)允許用戶畫源點線的裝置;(c)為源點線計算一角度的裝置;(d)允許用戶輸入單詞數(shù)據(jù)的裝置;(e)沿源點線自動放置單詞的裝置。
24.一種基于計算機的系統(tǒng),允許用戶交互地操作同位字幕視聽制品,該系統(tǒng)包括(a)顯示該視聽制品的裝置;(b)暫停上述視聽制品顯示的裝置;(c)允許用戶指定一個單詞的裝置;(d)據(jù)上述用戶所指定的單詞進一步處理數(shù)據(jù)的裝置。
25.權利要求24中所述的系統(tǒng),其中允許用戶指定一個單詞的裝置允許用戶指定一個單詞,并在暫停上述視聽制品顯示時顯示該單詞。
26.權利要求24中所述的系統(tǒng),其中據(jù)上述單詞進一步處理數(shù)據(jù)的裝置包括(a)存儲標準數(shù)據(jù)的裝置,該數(shù)據(jù)表示多個單詞的正確發(fā)音;(b)從用戶聲音數(shù)據(jù)輸入的裝置,該數(shù)據(jù)表示用戶對單詞的發(fā)音;(c)對上述單詞比較聲音數(shù)據(jù)和標準數(shù)據(jù)的裝置;(d)相應于比較聲音數(shù)據(jù)的裝置,向用戶指出其對單詞的發(fā)音是否正確的裝置。
全文摘要
本發(fā)明是一種視聽制品及其制作方法。該制品的畫面中同時配有文字,每當聽到一個單詞或其它語音時,即可看到與該聲音相關的文字。這樣,以后再顯示該語音或文字時應當能夠在原視聽者的頭腦中喚起另一方。每個單詞將適當?shù)爻霈F(xiàn)在某一可見透視圖中靠近講演者嘴巴的地方。該制品可以線性播放,也可以在視/聽者的計算機控制下,同時帶有其它訓練材料。
文檔編號G10L15/00GK1134210SQ94194021
公開日1996年10月23日 申請日期1994年9月23日 優(yōu)先權日1993年9月24日
發(fā)明者W·E·柯克西, K·S·莫里斯 申請人:里德斯皮克公司