PDF 簡體/正體轉換 github 及 TODO

Posted by TJ Wei on 星期日, 7月 08, 2012 with No comments

前篇所說, 這也許是你第一個能找到的 pdf 簡體/正體轉換器,source code 已放上 github 了:https://github.com/tjwei/translatePDF

影片可以看看大致上的效果。



TODO:
  • outline 雖然翻譯了,但是沒有作用。
  • 處理更多不同類型中文編碼,比方 latex 產生的 pdf 目前都無法處理。PDF 放中文的方式有很多種目前只能處理其中一種情況而已,只是許多所謂文字版的簡體 pdf 都是這種情況。。
  • 接上 google/bing 翻譯。
  • ocr 處理「掃描版」的 PDF
  • 美化介面。
  • 轉成 javascript 網頁版

Readme:
可將一些簡體的文字版 PDF 轉成繁體。
需安裝 pdfrw, opencc, pdftk, chardet, fontTools, droid-sans-fallback.ttf
fontTools 可用 pip 安裝,其他可用 apt-get 安裝。
執行方式為 python xxx.pdf

usage: tpdfrw.py [-h] [--opencc-config OPENCC_CONFIG]
                 [--default-ttf DEFAULT_TTF] [--output-prefix OUTPUT_PREFIX]
                 input [output]

Translate a PDF file from/to different variations of Chinese language

positional arguments:
  input                 input pdf file
  output                output pdf file name (default: None)

optional arguments:
  -h, --help            show this help message and exit
  --opencc-config OPENCC_CONFIG
                        opencc config (default: zhs2zhtw_vp.ini)
  --default-ttf DEFAULT_TTF
                        default TTF font file name (default:
                        /usr/share/fonts/truetype/droid/DroidSansFallback.ttf)
  --output-prefix OUTPUT_PREFIX
                        default output prefix. Ignored when output file name
                        is given (default: [translated])


PyOpenCC.py 是從 opencc source code 裡面拿來的 ctypes wrapper。

Categories: , ,