PDF 簡體/正體轉換 github 及 TODO
Posted by tjwei on 星期日, 7月 08, 2012 with No comments
如前篇所說, 這也許是你第一個能找到的 pdf 簡體/正體轉換器,source code 已放上 github 了:https://github.com/tjwei/translatePDF
影片可以看看大致上的效果。
TODO:
- outline 雖然翻譯了,但是沒有作用。
- 處理更多不同類型中文編碼,比方 latex 產生的 pdf 目前都無法處理。PDF 放中文的方式有很多種,目前只能處理其中一種情況而已,只是許多所謂文字版的簡體 pdf 都是這種情況。。
- 接上 google/bing 翻譯。
- ocr 處理「掃描版」的 PDF
- 美化介面。
- 轉成 javascript 網頁版
Readme:
可將一些簡體的文字版 PDF 轉成繁體。
需安裝 pdfrw, opencc, pdftk, chardet, fontTools, droid-sans-fallback.ttf
fontTools 可用 pip 安裝,其他可用 apt-get 安裝。
執行方式為 python xxx.pdf
usage: tpdfrw.py [-h] [--opencc-config OPENCC_CONFIG]
[--default-ttf DEFAULT_TTF] [--output-prefix OUTPUT_PREFIX]
input [output]
Translate a PDF file from/to different variations of Chinese language
positional arguments:
input input pdf file
output output pdf file name (default: None)
optional arguments:
-h, --help show this help message and exit
--opencc-config OPENCC_CONFIG
opencc config (default: zhs2zhtw_vp.ini)
--default-ttf DEFAULT_TTF
default TTF font file name (default:
/usr/share/fonts/truetype/droid/DroidSansFallback.ttf)
--output-prefix OUTPUT_PREFIX
default output prefix. Ignored when output file name
is given (default: [translated])
PyOpenCC.py 是從 opencc source code 裡面拿來的 ctypes wrapper。
0 意見:
張貼留言