Python 制作自動化翻譯工具
媽媽再也不用擔心我的英語瞭。
一個可能你似曾相識的場景
閱讀內容包含大量英文的 PPT、Word、Excel 或者記事本時,由於英語不熟悉,為瞭流利地閱讀,需要打開瀏覽器進入谷歌翻譯的主界面,然後把英文復制到谷歌翻譯的輸入框中,最後又把翻譯結果復制回 PPT、Word 和 Excel。
要是一個兩個單詞還好,要是發現有 100 個單詞不認識,就必須復制粘貼 200 次,如此機械性重復性的工作,應該交給程序來做,這就是我設計下面這個自動化翻譯工具的初衷。
提升辦公效率的法寶
如上圖,運行程序並保持後臺運行,在電腦上的任何一個軟件中選擇一段文本,並 Ctrl + C 復制到系統剪貼板中,程序就會自動幫助我們完成翻譯,並將翻譯結果自動復制到系統剪貼版中,隻需 Ctrl + V,就完成瞭翻譯結果對原文的替換。
編碼實現
程序主要分為兩部分,第一部分為谷歌翻譯爬蟲,第二部分就是實現這個將翻譯結果自動替換的業務邏輯。
谷歌翻譯爬蟲
通過瀏覽器 F12 開發者工具,很容易定位到翻譯請求的 URL: http://translate.google.cn/translate_a/single?client=t&sl=en&tl=zh-CN&hl=zh-CN&dt=at&dt=bd&dt=ex&dt=ld&dt=md&dt=qca&dt=rw&dt=rm&dt=ss &dt=t&ie=UTF-8&oe=UTF-8&clearbtn=1&otf=1&pc=1&srcrom=0&ssel=0&tsel=0&kc=2
這個請求接受兩個參數,一個就是我們要翻譯的字符串 q,另一個是用於用戶認證的 tk(token),其中 q 很容易構造,tk 的構造就需要花費一番心力瞭,需要我們調試 js 代碼,這裡參考 Github 上大神的輪子: https://github.com/cocoa520/Google_TK
谷歌翻譯爬蟲的主要代碼如下:
def translate(tk, content): if len(content) > 4891: print("翻譯的長度超過限制!!!") return param = {'tk': tk, 'q': content} result = requests.get("""http://translate.google.cn/translate_a/single?client=t&sl=en &tl=zh-CN&hl=zh-CN&dt=at&dt=bd&dt=ex&dt=ld&dt=md&dt=qca&dt=rw&dt=rm&dt=ss &dt=t&ie=UTF-8&oe=UTF-8&clearbtn=1&otf=1&pc=1&srcrom=0&ssel=0&tsel=0&kc=2""", params=param) data = result.json() print(data[0][0][0])
返回結果是 json 形式的,翻譯結果保存在結果的第一個元組中。
Python 操作系統剪貼板
將讀取剪貼板的內容的代碼封裝成函數如下:
def getText():#讀取剪切板 # 打開剪貼板 w.OpenClipboard() # 讀取剪貼板的內容 d = w.GetClipboardData(win32con.CF_TEXT) # 關閉剪貼板 w.CloseClipboard() try: return d.decode('utf-8') except: return d.decode('gbk')
返回值 d 是字節類型的,需要解碼,中文按 gbk 格式解碼,英文按 utf-8 解碼。
類似地,寫入剪貼板的代碼如下:
def setText(aString):#寫入剪切板 # 打開剪貼板 w.OpenClipboard() # 清空剪貼板 w.EmptyClipboard() # 寫入剪貼板 w.SetClipboardText(aString) # 關閉剪貼板 w.CloseClipboard()
實現將翻譯結果自動替換原文的邏輯的代碼如下:
while(True): # 如果剪貼板正在被占用 try: cs = getText() except: time.sleep(1) cs = getText() print('cs',cs) if cs and cs != ls: print('準備翻譯') content = getText() tk = js.getTk(content) res = translate(tk, content) setText(res) time.sleep(1) ls = res
值得註意的是,系統剪貼板對象是單例模式的,在操作系統范圍內隻有一個,而且讀寫剪貼板都是互斥的,在讀(寫)剪貼板的同時不允許任何對剪貼板的寫(讀)操作。試想這樣一種情景,我們在其他軟件中 Ctrl + C 寫入剪貼板,而此時我們的程序代碼正好執行到讀剪貼板那一行,毫無疑問會報錯,我的解決辦法是使用 try…except 語句延時 1 s再讀取,這樣可以大大降低讀寫碰撞的概率,但無疑消耗瞭程序性能。最好的辦法是判斷剪貼板對象句柄是否被占用,其實我一直在尋找是否存在判斷剪貼板對象句柄是否被占用的 API,但是一直沒有找到
項目地址
https://github.com/Python3Spiders/GoogleAutoTranslationTool
以上就是Python 實現自動化翻譯和替換的腳本的詳細內容,更多關於python 自動化翻譯的資料請關註WalkonNet其它相關文章!
推薦閱讀:
- 如何用python實現復制粘貼功能
- Python對象與json數據的轉換問題實例詳解
- Python實現自動發消息自定義內容的操作代碼
- Python之qq自動發消息的示例代碼
- python3 googletrans超時報錯問題及翻譯工具優化方案 附源碼