網(wǎng)頁輸出選擇的制作方法
【專利說明】
【背景技術(shù)】
[0001]可以選擇網(wǎng)頁的部分以用于打印、存儲或傳輸。例如,用戶可以拷貝網(wǎng)頁的部分并且打印所選拷貝部分。選擇網(wǎng)頁的部分可以允許用戶在更少附加混亂的情況下打印對用戶更相關(guān)的網(wǎng)頁部分。
【附圖說明】
[0002]附圖描述示例實施例。以下詳細描述參照附圖,其中:
圖1是圖示了選擇要輸出的網(wǎng)頁部分的計算系統(tǒng)的一個示例的框圖。
[0003]圖2是圖示了選擇要輸出的網(wǎng)頁部分的方法的一個示例的流程圖。
[0004]圖3A是圖示了選擇要輸出的網(wǎng)頁部分的一個示例的圖表。
[0005]圖3B是圖不了對要輸出的網(wǎng)頁部分分組的一個不例的圖表。
【具體實施方式】
[0006]在一個實現(xiàn)中,處理器基于網(wǎng)頁區(qū)段的自動評分來自動確定網(wǎng)頁的哪些區(qū)段以用于輸出,諸如用于打印或數(shù)字剪輯??梢曰谟蓱?yīng)用到多個用戶對各種網(wǎng)頁的之前選擇的機器學(xué)習(xí)方法確定的特征和權(quán)重來為區(qū)段評分。與各種網(wǎng)頁特征有關(guān)的一大群人的偏好可以用于自動創(chuàng)建用于為不同特征基于其與很可能被期望用于輸出的區(qū)域的關(guān)系而進行加權(quán)的方式。在一個實現(xiàn)中,該方法應(yīng)用到文檔對象模型使得為每一個節(jié)點基于其特征根據(jù)由機器學(xué)習(xí)方法確定的用于特征的權(quán)重來評分。
[0007]打印、剪輯或存儲來自網(wǎng)頁的信息在未保存不相關(guān)的信息的情況下可以更有意義并且更容易領(lǐng)悟。相比于用戶剪切和粘貼或選擇多個區(qū)段,自動選擇網(wǎng)頁的區(qū)域可以更快速地施行并且具有更多的靈活性。例如,可以自動選擇非連續(xù)區(qū)段。
[0008]圖1是圖示了選擇要輸出的網(wǎng)頁部分的計算系統(tǒng)100的一個示例的框圖。例如,計算系統(tǒng)100可以自動確定網(wǎng)頁區(qū)段以用于輸出,諸如用于打印、數(shù)字剪輯、存儲和/或傳輸。計算系統(tǒng)100可以基于多個用戶之前選擇的網(wǎng)頁部分來自動確定區(qū)段。例如,機器學(xué)習(xí)方法可以應(yīng)用于確定更常被選擇用于輸出的網(wǎng)頁的特征??梢苑治鼍W(wǎng)頁的特征以確定哪些區(qū)段包括確定為值得輸出的特征,并且可以自動選擇那些區(qū)段以用于輸出。計算系統(tǒng)100可以包括處理器101、機器可讀存儲介質(zhì)102和存儲裝置107。計算系統(tǒng)可以包括單個裝置內(nèi)的組件,或者組件可以經(jīng)由網(wǎng)絡(luò)通信。
[0009]處理器101可以是中央處理單元(CPU)、基于半導(dǎo)體的微處理器或適合用于檢索和執(zhí)行指令的任何其它設(shè)備。作為替換或附加于提取、解碼和執(zhí)行指令,處理器101可以包括一個或多個集成電路(1C)或其它電子電路,其包括用于施行以下所描述的功能性的多個電子組件。以下所描述的功能性可以由多個處理器施行。
[0010]存儲裝置107可以是與處理器101通信的任何合適的存儲裝置。存儲裝置107可以存儲關(guān)于網(wǎng)頁的之前選擇的信息以用于輸出,諸如用于打印和/或數(shù)字剪輯。例如,數(shù)字剪輯可以涉及存儲網(wǎng)頁的區(qū)段以用于稍后檢索,諸如剪輯圖片或處方以存儲在單個儲存庫中。存儲裝置107可以存儲關(guān)于網(wǎng)頁108的所選區(qū)段的特征的信息。存儲裝置107可以從處理器101接收關(guān)于特征的信息。在一個實現(xiàn)中,存儲裝置存儲關(guān)于網(wǎng)頁選擇的信息,并且處理器101確定關(guān)于選擇的特征的信息。在一個實現(xiàn)中,存儲裝置107存儲關(guān)于周期性更新的網(wǎng)絡(luò)(web)選擇的信息,諸如其中處理器每周更新關(guān)于特征和/或權(quán)重的信息。在一個實現(xiàn)中,針對其中接收到選擇信息的每一個新網(wǎng)頁而調(diào)節(jié)權(quán)重。
[0011]處理器101可以與機器可讀存儲介質(zhì)102通信。機器可讀存儲介質(zhì)102可以是任何合適的機器可讀介質(zhì),諸如存儲可執(zhí)行指令或其它數(shù)據(jù)的電子、磁、光學(xué)或其它物理存儲設(shè)備(例如硬盤驅(qū)動器、隨機存取存儲器、閃速存儲器等)。機器可讀存儲介質(zhì)105可以是例如計算機可讀非暫時性介質(zhì)。機器可讀存儲介質(zhì)102可以包括網(wǎng)頁特征加權(quán)指令103、網(wǎng)頁選擇評分指令104、區(qū)段選擇指令105和輸出指令106。指令可以與打印機應(yīng)用或用于數(shù)字剪輯的應(yīng)用相關(guān)聯(lián)。例如,處理器可以是接收向客戶端打印或向客戶端云賬戶輸出內(nèi)容的請求的網(wǎng)絡(luò)服務(wù)器。
[0012]網(wǎng)頁特征加權(quán)指令103可以包括基于網(wǎng)頁的之前選擇確定如何為網(wǎng)頁內(nèi)的特征加權(quán)的指令。例如,可以基于網(wǎng)頁108的所選區(qū)段的特征來確定加權(quán)。網(wǎng)頁的區(qū)段可以以任何合適的方式來描繪。例如,區(qū)段可以是由特定文檔對象模型節(jié)點表示的網(wǎng)頁的部分。在一些情況中,特征可以手動選擇,并且處理器101可以為不同特征的相對重要性基于其在網(wǎng)頁108的所選區(qū)段的特征集合內(nèi)的頻率而自動加權(quán)。可以基于存在于區(qū)段中的特征和特征的相關(guān)聯(lián)的權(quán)重或加權(quán)方法而向網(wǎng)頁的區(qū)段分配特征值。權(quán)重可以涉及例如與特征的出現(xiàn)數(shù)目或與指示特征的存在或缺失的二進制值相乘的值。在一些情況中,權(quán)重可以包括與特征值比較的值,諸如從與網(wǎng)絡(luò)內(nèi)容相關(guān)聯(lián)的定位值減去權(quán)重。
[0013]網(wǎng)頁區(qū)段評分指令104可以包括基于網(wǎng)頁的特征和與那些特征相關(guān)聯(lián)的權(quán)重為網(wǎng)頁的區(qū)段評分的指令。例如,可以合計權(quán)重和特征信息以確定與網(wǎng)頁的特定區(qū)段相關(guān)聯(lián)的得分??梢愿鶕?jù)與特定特征相關(guān)聯(lián)的權(quán)重向在網(wǎng)頁區(qū)段中發(fā)現(xiàn)的每一個特征分配特征值。
[0014]區(qū)段選擇指令105可以包括基于不同區(qū)段的評分選擇網(wǎng)頁區(qū)段的指令。例如,可以選擇具有最高X得分、閾值以上得分和/或最高Y百分數(shù)以內(nèi)的區(qū)段。
[0015]輸出指令106可以包括輸出網(wǎng)頁的所選區(qū)段的指令。輸出指令106可以包括傳輸、顯示或存儲所選區(qū)段的指令。在一個實現(xiàn)中,輸出所選區(qū)段涉及輸出要打印和/或數(shù)字剪輯以供存儲的所選區(qū)段。
[0016]圖2是圖示了選擇要輸出的網(wǎng)頁部分的方法的一個示例的流程圖。處理器可以自動確定網(wǎng)頁部分以輸出,諸如以打印、數(shù)字剪輯或傳輸。在一個實現(xiàn)中,用戶可以選擇用戶接口輸入機制,諸如用于打印的按鈕,并且處理器自動確定要輸出當(dāng)前查看的網(wǎng)頁的哪些部分。可以向用戶示出該部分以進行預(yù)覽使得用戶可以編輯自動選擇。選擇可以是基于網(wǎng)頁的不同部分的特征和與不同部分相關(guān)聯(lián)的權(quán)重。權(quán)重可以基于涉及訪問各種網(wǎng)頁的一組用戶選擇用于輸出的內(nèi)容類型的數(shù)據(jù)來確定。方法可以例如由圖1的處理器101實現(xiàn)。
[0017]在200處開始,處理器確定網(wǎng)頁區(qū)段的特征??梢砸匀魏魏线m的方式將文檔劃分成區(qū)段。在一個實現(xiàn)中,將文檔劃分成樹結(jié)構(gòu),并且每一個區(qū)段是樹結(jié)構(gòu)中的節(jié)點或連接節(jié)點的分組。在一個實現(xiàn)中,文檔是網(wǎng)頁,并且樹結(jié)構(gòu)是與網(wǎng)頁相關(guān)聯(lián)的文檔對象模型結(jié)構(gòu)。
[0018]特征可以是從用于確定很可能與選擇用于輸出的區(qū)段(諸如文檔對象模型節(jié)點)相關(guān)聯(lián)的特征的機器學(xué)習(xí)方法確定的任何合適的特征。特征可以涉及例如定位、中心距離、區(qū)域大小、文本區(qū)域大小比例、字體大小、字體大小流行度、字體顏色流行度、文本字符的數(shù)目、HTML標(biāo)簽重要性、HTML標(biāo)簽密度和/或鏈接密度。機器學(xué)習(xí)方法可以用于確定很可能指示輸出的意圖的特征列表和每一個特征的相對重要性或權(quán)重。
[0019]處理器可以比較一組特征與網(wǎng)頁區(qū)段的內(nèi)容和樣式以確定區(qū)段內(nèi)的特征。可以基于由機器學(xué)習(xí)方法確定的特定特征的加權(quán)來向特定區(qū)段的每一個特征分配值。確定特征的存在可以涉及分配二進制值以表示特征的存在或缺失。在一個實現(xiàn)中,處理器確定區(qū)段中的特征存在程度并且基于存在程度分配特征值。
[0020]繼續(xù)到201,處理器基于用于確定權(quán)重的機器學(xué)習(xí)方法分別向每一個特征分配權(quán)重。機器學(xué)習(xí)方法可以是任何合適的自動化學(xué)習(xí)方法,諸如邏輯回歸模型。用于分配權(quán)重的處理器可以執(zhí)行機器學(xué)習(xí)方法以確定相關(guān)特征和相對權(quán)重。在一些情況中,不同的處理器執(zhí)行機器學(xué)習(xí)方法并且存儲關(guān)于當(dāng)確定要輸出的網(wǎng)頁部分時訪問的特征和權(quán)重的信息。用于機器學(xué)習(xí)的訓(xùn)練數(shù)據(jù)集合可以是選擇用于輸出的網(wǎng)頁的部分。在一個實現(xiàn)中,與所選內(nèi)容相關(guān)聯(lián)的文檔對象模型節(jié)點的特征被分析和根據(jù)特定特征在確定選擇用于輸出中的與節(jié)點相關(guān)聯(lián)的內(nèi)容的統(tǒng)計可能性中的重要性來加權(quán)。
[0021]特征值可以是例如反映特征是否存在于特定區(qū)段中的二進制值。在一些情況中,值可以與特征相關(guān)聯(lián),并且值用于確定適當(dāng)?shù)奶卣髦?,諸如其中不同的權(quán)重用于與特征相關(guān)聯(lián)的值的不同范圍。在一些情況中,針對特征確定值,并且值與用于特征的權(quán)重相乘使得特征的較大存在性將導(dǎo)致比與較低值相關(guān)聯(lián)的特征值更高的特征。在一些情況中,可以利用負值為特征加權(quán)。例如,特定特征可以有利于并非將很可能被選擇用于輸出的部分的區(qū)段來加權(quán)。
[0022]特征可以是確定為影響用戶將會選擇網(wǎng)頁的區(qū)段以用于輸出的可能性的任何合適特征。在一個實現(xiàn)中,區(qū)段的內(nèi)容相對于網(wǎng)頁的定位是特征。訓(xùn)練數(shù)據(jù)可以被學(xué)習(xí)方法用于確定很可能選擇用戶輸出的內(nèi)容的優(yōu)選定位。優(yōu)選定位可以用于為與節(jié)點相關(guān)聯(lián)的內(nèi)容的左定位加權(quán)。作為示例,優(yōu)選定位可以基于與頁面大小除以節(jié)點數(shù)目以確定特征值有關(guān)的所選內(nèi)容的定位總和來確定。確定可以針對訓(xùn)練集合中的每一個頁面而做出使得值被加和并且除以訓(xùn)練集合中的網(wǎng)頁數(shù)目以確定特征值。可以(諸如通過從定位減去優(yōu)選定位并且使用結(jié)果作為用于特征的權(quán)重以確定特征值)將網(wǎng)頁上的內(nèi)容的定位與優(yōu)選定位比較。定位可以是例如網(wǎng)頁上的左、右、上、下、中心X或中心Y定位。
[0023]區(qū)段內(nèi)容的相對區(qū)域大小可以是所考慮的特征。例如,可以比較相比于整個網(wǎng)頁的區(qū)域的區(qū)段內(nèi)容的區(qū)域。然后可以將權(quán)重與結(jié)果得到的值相乘來考慮以示出區(qū)域?qū)κ欠駪?yīng)當(dāng)輸出某物的重要性。
[0024]可以考慮與作為整體的網(wǎng)頁中的頻率相比的區(qū)段中的特征頻率。例如,字體顏色可以被視為特征。在一個實現(xiàn)中,可以將具有字體顏色的網(wǎng)頁上的字符的百分數(shù)與特定顏色的區(qū)段上的字符的百分數(shù)比較。類似的特征可以用于字體大小。可以將區(qū)段中的可見字符數(shù)目與作為整體的頁面上的可見字符數(shù)目比較。可以將區(qū)段中的其它標(biāo)簽或HTML的