PDF 簡體/正體轉換 github 及 TODO
Posted by tjwei on 星期日, 7月 08, 2012 with No comments
如前篇所說, 這也許是你第一個能找到的 pdf 簡體/正體轉換器,source code 已放上 github 了:https://github.com/tjwei/translatePDF
影片可以看看大致上的效果。
TODO:
- outline 雖然翻譯了,但是沒有作用。
- 處理更多不同類型中文編碼,比方 latex 產生的 pdf 目前都無法處理。PDF 放中文的方式有很多種,目前只能處理其中一種情況而已,只是許多所謂文字版的簡體 pdf 都是這種情況。。
- 接上 google/bing 翻譯。
- ocr 處理「掃描版」的 PDF
- 美化介面。
- 轉成 javascript 網頁版
Readme:
可將一些簡體的文字版 PDF 轉成繁體。 需安裝 pdfrw, opencc, pdftk, chardet, fontTools, droid-sans-fallback.ttf fontTools 可用 pip 安裝,其他可用 apt-get 安裝。 執行方式為 python xxx.pdf usage: tpdfrw.py [-h] [--opencc-config OPENCC_CONFIG] [--default-ttf DEFAULT_TTF] [--output-prefix OUTPUT_PREFIX] input [output] Translate a PDF file from/to different variations of Chinese language positional arguments: input input pdf file output output pdf file name (default: None) optional arguments: -h, --help show this help message and exit --opencc-config OPENCC_CONFIG opencc config (default: zhs2zhtw_vp.ini) --default-ttf DEFAULT_TTF default TTF font file name (default: /usr/share/fonts/truetype/droid/DroidSansFallback.ttf) --output-prefix OUTPUT_PREFIX default output prefix. Ignored when output file name is given (default: [translated]) PyOpenCC.py 是從 opencc source code 裡面拿來的 ctypes wrapper。
0 意見:
張貼留言