本發(fā)明涉及辦公軟件技術領域,特別涉及一種拼寫檢查方法及裝置。
背景技術:
用戶在使用辦公軟件制作或編輯文檔的時候,經常會有針對文檔內容進行拼寫檢查的需求,為滿足用戶的這種需求,辦公軟件為用戶提供了對文檔拼寫檢查的功能。
現有的一種拼寫檢查方法,是根據文檔內容,確定該文檔內容所使用的語言,然后調用所確定語言對應的詞庫對該文檔內容進行拼寫檢查。
這種方法依賴于確定文檔內容所使用的語言的準確度,因為有的語言即使屬于不同種類,但其相似度較高,可能會導致確定文檔內容所使用的語言時出現偏差,從而導致調用錯誤的詞庫,使得拼寫檢查的準確率低,用戶體驗較差。比如,西班牙語和英語屬于不同種類的語言,但其有些單詞很相近,都是由英文字母構成,對于使用西班牙語的文檔,如果將其所使用的語言判斷為英語,調用英語的詞庫對該文檔內容進行拼寫檢查,會使得拼寫檢查的準確率低,用戶體驗較差。
技術實現要素:
為解決上述問題,本發(fā)明實施例公開了一種拼寫檢查方法及裝置。技術方案如下:
一種拼寫檢查方法,包括:
接收用戶針對目標文檔的文檔內容進行拼寫檢查的指令;
確定用于檢查所述文檔內容的至少一種第一語言;
針對確定的用于檢查所述文檔內容的每種第一語言,確定包含該第一語言的語言集合,所述語言集合中的每種語言均屬于同一語系;分別調用所述語言集合中的每種語言對應的詞庫對所述文檔內容中使用該第一語言的相應內容進 行拼寫檢查。
在本發(fā)明的一種具體實施方式中,所述確定用于檢查所述文檔內容的至少一種第一語言,包括:
接收用戶輸入的至少一種第一語言;
將接收到的所述至少一種第一語言確定為用于檢查所述文檔內容的第一語言。
在本發(fā)明的一種具體實施方式中,所述確定用于檢查所述文檔內容的至少一種第一語言,包括:
確定所述文檔內容中每個詞的字符編碼;
根據每個詞的字符編碼,確定所述文檔內容使用的每種第一語言;
將所述文檔內容使用的每種第一語言確定為用于檢查所述文檔內容的第一語言。
在本發(fā)明的一種具體實施方式中,所述確定用于檢查所述文檔內容的至少一種第一語言,包括:
確定所述文檔內容中每個詞的字符編碼;
根據每個詞的字符編碼,確定所述文檔內容使用的每種第一語言;
針對所述文檔內容使用的每種第一語言,確定在所述文檔內容中使用該第一語言的詞的數量與所述文檔內容中所有的詞的數量的比例;
根據所述文檔內容使用的每種第一語言對應的比例,確定用于檢查所述文檔內容的至少一種第一語言。
在本發(fā)明的一種具體實施方式中,所述分別調用所述語言集合中的每種語言對應的詞庫對所述文檔內容中使用該第一語言的相應內容進行拼寫檢查,包括:
分別調用所述語言集合中的每種語言對應的詞庫拼寫檢查所述文檔內容中使用該第一語言的詞、語句和段落中的至少一種。
在本發(fā)明的一種具體實施方式中,還包括:
輸出針對所述文檔內容的拼寫檢查結果。
一種拼寫檢查裝置,包括:
指令接收模塊,用于接收用戶針對目標文檔的文檔內容進行拼寫檢查的指令;
語言確定模塊,用于確定用于檢查所述文檔內容的至少一種第一語言;
集合確定模塊,用于針對所述語言確定模塊確定的用于檢查所述文檔內容的每種第一語言,確定包含該第一語言的語言集合,所述語言集合中的每種語言均屬于同一語系;
拼寫檢查模塊,用于分別調用所述集合確定模塊確定的語言集合中的每種語言對應的詞庫對所述文檔內容中使用該第一語言的相應內容進行拼寫檢查。
在本發(fā)明的一種具體實施方式中,所述語言確定模塊,具體用于:
接收用戶輸入的至少一種第一語言;
將接收到的所述至少一種第一語言確定為用于檢查所述文檔內容的第一語言。
在本發(fā)明的一種具體實施方式中,所述語言確定模塊,具體用于:
確定所述文檔內容中每個詞的字符編碼;
根據每個詞的字符編碼,確定所述文檔內容使用的每種第一語言;
將所述文檔內容使用的每種第一語言確定為用于檢查所述文檔內容的第一語言。
在本發(fā)明的一種具體實施方式中,所述語言確定模塊,具體用于:
確定所述文檔內容中每個詞的字符編碼;
根據每個詞的字符編碼,確定所述文檔內容使用的每種第一語言;
針對所述文檔內容使用的每種第一語言,確定在所述文檔內容中使用該第一語言的詞的數量與所述文檔內容中所有的詞的數量的比例;
根據所述文檔內容使用的每種第一語言對應的比例,確定用于檢查所述文 檔內容的至少一種第一語言。
在本發(fā)明的一種具體實施方式中,所述拼寫檢查模塊,具體用于:
分別調用所述語言集合中的每種語言對應的詞庫拼寫檢查所述文檔內容中使用該第一語言的詞、語句和段落中的至少一種。
在本發(fā)明的一種具體實施方式中,還包括:
結果輸出模塊,用于輸出針對所述文檔內容的拼寫檢查結果。
應用本發(fā)明實施例所提供的技術方案,在針對目標文檔的文檔內容進行拼寫檢查時,針對確定的用于檢查該文檔內容的每種第一語言,確定包含該第一語言的語言集合,該語言集合中的每種語言均屬于同一語系,分別調用該語言集合中的每種語言對應的詞庫對該文檔內容中使用該第一語言的相應內容進行拼寫檢查,同一語系的語言的相似度較高,分別調用第一語言及與第一語言相近的語言的詞庫對文檔內容進行拼寫檢查,提高了拼寫檢查的準確率,提升了用戶體驗。
附圖說明
為了更清楚地說明本發(fā)明實施例或現有技術中的技術方案,下面將對實施例或現有技術描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于本領域普通技術人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據這些附圖獲得其他的附圖。
圖1為本發(fā)明實施例中拼寫檢查方法的一種實施流程圖;
圖2為本發(fā)明實施例中拼寫檢查裝置的一種結構示意圖。
具體實施方式
為了使本領域技術人員更好地理解本發(fā)明實施例中的技術方案,下面將結合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例。基于本發(fā)明中的實施例,本領域普通技術人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。
參見圖1所示,為本發(fā)明實施例所提供的一種拼寫檢查方法的實施流程圖, 該方法可以包括以下步驟:
S110:接收用戶針對目標文檔的文檔內容進行拼寫檢查的指令。
在實際應用中,用于編輯目標文檔的辦公軟件可以在其菜單中設置拼寫檢查菜單項,或者設置拼寫檢查按鈕,當用戶在該辦公軟件中打開目標文檔,并有針對該目標文檔的文檔內容進行拼寫檢查的需求時,可以點擊相應的菜單項或者點擊相應的按鈕,即可發(fā)出針對該目標文檔的文檔內容進行拼寫檢查的指令。當然,用戶可以針對目標文檔的全部文檔內容進行拼寫檢查,還可以選擇性地針對目標文檔的部分文檔內容進行拼寫檢查,具體的可以通過提供相應的設置項由用戶進行設定。
接收到用戶針對目標文檔的文檔內容進行拼寫檢查的指令后,可以繼續(xù)執(zhí)行步驟S120的操作。
S120:確定用于檢查所述文檔內容的至少一種第一語言;
可以理解的是,每個文檔的文檔內容都是由一種或多種語言構成的,辦公軟件在執(zhí)行針對某個文檔的拼寫檢查任務時,可以使用一種或多種語言對該文檔的文檔內容進行拼寫檢查。當接收到用戶針對目標文檔的文檔內容進行拼寫檢查的指令后,可以進一步確定用于檢查該文檔內容的至少一種第一語言。比如,某個文檔的文檔內容包含漢語和英語兩種語言,但實際需求是,只需要使用漢語對該文檔內容進行拼寫檢查,這種情況下,可以確定用于檢查該文檔內容的第一語言為漢語。
在本發(fā)明的一種具體實施方式中,步驟S120可以包括以下兩個步驟:
步驟一:接收用戶輸入的至少一種第一語言;
步驟二:將接收到的所述至少一種第一語言確定為用于檢查所述文檔內容的第一語言。
用戶在針對目標文檔的文檔內容發(fā)出進行拼寫檢查的指令后,可以進一步輸入用于檢查該文檔內容的至少一種第一語言。也就是由用戶指定使用哪一種或幾種第一語言對該文檔內容進行拼寫檢查。
在實際應用中,接收到用戶針對目標文檔的文檔內容進行拼寫檢查的指令后,可以提供語言輸入界面,由用戶輸入用于檢查該文檔內容的至少一種第一 語言,當然還可以提供相應的語言選項,由用戶選擇用于檢查該文檔內容的至少一種第一語言。
或者,用戶在針對目標文檔的文檔內容發(fā)出進行拼寫檢查的指令的同時,輸入用于檢查該文檔內容的至少一種第一語言。
接收到用戶輸入的至少一種第一語言后,可以將接收到的第一語言確定為用于檢查該文檔內容的第一語言。
在實際應用中,用戶對于自己所要進行拼寫檢查的目標文檔的文檔內容所使用的語言更為清楚,根據用戶指定的第一語言對目標文檔的文檔內容進行拼寫檢查,更有針對性。
在本發(fā)明的另一種具體實施方式中,步驟S120可以包括以下三個步驟:
第一個步驟:確定所述文檔內容中每個詞的字符編碼;
第二個步驟:根據每個詞的字符編碼,確定所述文檔內容使用的每種第一語言;
第三個步驟:將所述文檔內容使用的每種第一語言確定為用于檢查所述文檔內容的第一語言。
為方便理解,將上述三個步驟結合起來進行說明。
可以理解的是,不同的詞具有不同的字符編碼。字符編碼也稱為字集碼,是把字符集中的字符編碼為指定集合中某一對象,以便文本在計算機中存儲和通過通信網絡的傳遞。常見的字符編碼包括將拉丁字母表編碼成摩斯電碼和ASCII。對于構成文檔內容的每個詞,根據該詞的字符編碼,可以確定該詞屬于哪種語言。
接收到用戶針對目標文檔的文檔內容進行拼寫檢查的指令后,可以確定該文檔內容中每個詞的字符編碼。根據每個詞的字符編碼,可以確定該文檔內容使用的每種第一語言。將該文檔內容使用的每種第一語言確定為用于檢查該文檔內容的第一語言。這樣,可以對目標文檔的文檔內容進行更為全面的拼寫檢查。
在本發(fā)明的另一種具體實施方式中,步驟S120可以包括以下四個步驟:
步驟一:確定所述文檔內容中每個詞的字符編碼;
步驟二:根據每個詞的字符編碼,確定所述文檔內容使用的每種第一語言;
步驟三:針對所述文檔內容使用的每種第一語言,確定在所述文檔內容中使用該第一語言的詞的數量與所述文檔內容中所有的詞的數量的比例;
步驟四:根據所述文檔內容使用的每種第一語言對應的比例,確定用于檢查所述文檔內容的至少一種第一語言。
為方便描述,將上述四個步驟結合起來進行說明。
如前所述,不同的詞具有不同的字符編碼。字符編碼也稱為字集碼,是把字符集中的字符編碼為指定集合中某一對象,以便文本在計算機中存儲和通過通信網絡的傳遞。常見的字符編碼包括將拉丁字母表編碼成摩斯電碼和ASCII。對于構成文檔內容的每個詞,根據該詞的字符編碼,可以確定該詞屬于哪種語言。
接收到用戶針對目標文檔的文檔內容進行拼寫檢查的指令后,可以確定該文檔內容中每個詞的字符編碼。根據每個詞的字符編碼,可以確定該文檔內容使用的每種第一語言。
在實際應用中,目標文檔的文檔內容可能使用了一種或多種第一語言,但某種第一語言在該文檔內容中使用的頻率可能并不高,比如,目標文檔的文檔內容大部分使用漢語,只有小部分內容為英語縮寫。
針對確定的該文檔內容所使用的每種第一語言,可以確定在該文檔內容中使用該第一語言的詞的數量與該文檔內容中所有的詞的數量的比例。比如,上例中,在目標文檔的文檔內容中使用漢語的詞的數量與該文檔內容中所有的詞的數量的比例為90%,在目標文檔的文檔內容中使用英語的詞的數量與該文檔內容中所有的詞的數量的比例為10%。需要說明的是,本發(fā)明實施例中詞為一個語言單位,在漢語中每個字為一個詞,在英語中每個單詞為一個詞。
根據確定的每種第一語言對應的比例,可以確定用于檢查該文檔內容的至少一種第一語言。具體的,可以設定一個閾值,當某種第一語言對應的比例高于該閾值時,將該第一語言確定為用于檢查該文檔內容的第一語言,或者,可以根據所確定的每種第一語言對應的比例的高低,按照比例高低順序對第一語 言進行排序,選擇排名在前的一種或多種第一語言作為用于檢查該文檔內容的第一語言。
S130:針對確定的用于檢查所述文檔內容的每種第一語言,確定包含該第一語言的語言集合,所述語言集合中的每種語言均屬于同一語系;分別調用所述語言集合中的每種語言對應的詞庫對所述文檔內容中使用該第一語言的相應內容進行拼寫檢查。
有的語言的某些語音、詞匯、語法規(guī)則之間具有一定的對應關系,可以根據這些對應關系,對各種語言進行歸類,對應到相應的語系。比如,目前一種歸類結果是,西班牙語和英語屬于印歐語系,漢語和藏語屬于漢藏語系等。
在步驟S120確定出用于檢查該文檔內容的至少一種第一語言后,可以進一步針對確定的用于檢查該文檔內容的每種第一語言,確定包含該第一語言的語言集合,在該語言集合中的每種語言均屬于同一語系。
比如,步驟S120確定用于檢查目標文檔的文檔內容的第一語言為漢語和英語,則針對漢語,可以確定包含漢語的語言集合中的語言為漢語和藏語,針對英語,可以確定包含英語的語言集合中的語言為英語和西班牙語。當然,在實際應用中,可以預先配置哪些語言屬于同一語系,在確定用于檢查文檔內容的第一語言后,將該第一語言,及與該第一語言屬于同一語系的語言作為一個語言集合。
不同的語言具有不同的詞庫,針對確定的用于檢查該文檔內容的每種第一語言,可以分別調用該第一語言對應的語言集合中的每種語言對應的詞庫對該文檔內容中使用該第一語言的相應內容進行拼寫檢查。
為方便理解,舉例說明:
上例中,針對漢語,確定的包含漢語的語言集合中的語言為漢語和藏語,可以分別調用漢語的詞庫和藏語的詞庫對該文檔內容中使用漢語的相應內容進行拼寫檢查;
針對英語,確定的包含英語的語言集合中的語言為英語和西班牙語,可以分別調用英語的詞庫和西班牙語的詞庫對該文檔內容中使用英語的相應內容進行拼寫檢查。
在實際應用中,針對目標文檔的文檔內容所使用的每種第一語言,如果該第一語言沒有被確定為用于檢查該文檔內容的第一語言,則針對于該文檔內容中使用該第一語言的相應內容進行拼寫檢查的語言,可以是確定用于檢查該文檔內容的至少一種第一語言中的任何一種語言,還可以是預先設置的一種默認語言。比如,目標文檔的文檔內容所使用的第一語言包括:漢語、英語,確定的用于檢查該文檔內容的第一語言為漢語,則對于該文檔內容中使用英語的相應內容可以使用漢語進行拼寫檢查,還可以使用默認的其他語言對其進行拼寫檢查。
在本發(fā)明的一種具體實施方式中,可以分別調用所述語言集合中的每種語言對應的詞庫拼寫檢查所述文檔內容中使用該第一語言的詞、語句和段落中的至少一種。
在本發(fā)明的一個實施例中,步驟S130之后,可以輸出針對所述文檔內容的拼寫檢查結果,以方便用戶針對拼寫檢查結果對目標文檔的文檔內容進行相應的修正。
應用本發(fā)明實施例所提供的技術方案,在針對目標文檔的文檔內容進行拼寫檢查時,針對確定的用于檢查該文檔內容的每種第一語言,確定包含該第一語言的語言集合,該語言集合中的每種語言均屬于同一語系,分別調用該語言集合中的每種語言對應的詞庫對該文檔內容中使用該第一語言的相應內容進行拼寫檢查,同一語系的語言的相似度較高,分別調用第一語言及與第一語言相近的語言的詞庫對文檔內容進行拼寫檢查,提高了拼寫檢查的準確率,提升了用戶體驗。
相應于上面的方法實施例,本發(fā)明實施例還提供了一種拼寫檢查裝置,參見圖2所示,該裝置可以包括以下模塊:
指令接收模塊210,用于接收用戶針對目標文檔的文檔內容進行拼寫檢查的指令;
語言確定模塊220,用于確定用于檢查所述文檔內容的至少一種第一語言;
集合確定模塊230,用于針對所述語言確定模塊220確定的用于檢查所述文檔內容的每種第一語言,確定包含該第一語言的語言集合,所述語言集合中的每種語言均屬于同一語系;
拼寫檢查模塊240,用于分別調用所述集合確定模塊230確定的語言集合中的每種語言對應的詞庫對所述文檔內容中使用該第一語言的相應內容進行拼寫檢查。
應用本發(fā)明實施例所提供的裝置,在針對目標文檔的文檔內容進行拼寫檢查時,針對確定的用于檢查該文檔內容的每種第一語言,確定包含該第一語言的語言集合,該語言集合中的每種語言均屬于同一語系,分別調用該語言集合中的每種語言對應的詞庫對該文檔內容中使用該第一語言的相應內容進行拼寫檢查,同一語系的語言的相似度較高,分別調用第一語言及與第一語言相近的語言的詞庫對文檔內容進行拼寫檢查,提高了拼寫檢查的準確率,提升了用戶體驗。
在本發(fā)明的一種具體實施方式中,所述語言確定模塊220,具體用于:
接收用戶輸入的至少一種第一語言;
將接收到的所述至少一種第一語言確定為用于檢查所述文檔內容的第一語言。
在本發(fā)明的一種具體實施方式中,所述語言確定模塊220,具體用于:
確定所述文檔內容中每個詞的字符編碼;
根據每個詞的字符編碼,確定所述文檔內容使用的每種第一語言;
將所述文檔內容使用的每種第一語言確定為用于檢查所述文檔內容的第一語言。
在本發(fā)明的一種具體實施方式中,所述語言確定模塊220,具體用于:
確定所述文檔內容中每個詞的字符編碼;
根據每個詞的字符編碼,確定所述文檔內容使用的每種第一語言;
針對所述文檔內容使用的每種第一語言,確定在所述文檔內容中使用該第一語言的詞的數量與所述文檔內容中所有的詞的數量的比例;
根據所述文檔內容使用的每種第一語言對應的比例,確定用于檢查所述文檔內容的至少一種第一語言。
在本發(fā)明的一種具體實施方式中,所述拼寫檢查模塊240,具體用于:
分別調用所述語言集合中的每種語言對應的詞庫拼寫檢查所述文檔內容中使用該第一語言的詞、語句和段落中的至少一種。
在本發(fā)明的一種具體實施方式中,還包括:
結果輸出模塊,用于輸出針對所述文檔內容的拼寫檢查結果。
需要說明的是,在本文中,諸如第一和第二等之類的關系術語僅僅用來將一個實體或者操作與另一個實體或操作區(qū)分開來,而不一定要求或者暗示這些實體或操作之間存在任何這種實際的關系或者順序。而且,術語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、物品或者設備不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、物品或者設備所固有的要素。在沒有更多限制的情況下,由語句“包括一個……”限定的要素,并不排除在包括所述要素的過程、方法、物品或者設備中還存在另外的相同要素。
本說明書中的各個實施例均采用相關的方式描述,各個實施例之間相同相似的部分互相參見即可,每個實施例重點說明的都是與其他實施例的不同之處。尤其,對于裝置實施例而言,由于其基本相似于方法實施例,所以描述的比較簡單,相關之處參見方法實施例的部分說明即可。
本領域普通技術人員可以理解實現上述方法實施方式中的全部或部分步驟是可以通過程序來指令相關的硬件來完成,所述的程序可以存儲于計算機可讀取存儲介質中,這里所稱得的存儲介質,如:ROM/RAM、磁碟、光盤等。
以上所述僅為本發(fā)明的較佳實施例而已,并非用于限定本發(fā)明的保護范圍。凡在本發(fā)明的精神和原則之內所作的任何修改、等同替換、改進等,均包含在本發(fā)明的保護范圍內。