如何將PDF格式轉化為mdx格式,這樣就可以放進歐路詞典中了?
同問
同問 專業英語 只有pdf版
得有資料來源,換句話說,掃描版的pdf就不行(至多給pdf做一個詞頭索引)。至於mdx怎麼製作,可參考
http://
pdawiki。com
裡的教程,不過沒有程式設計基礎就很難做。
之前我把國外的一本書《the name of plants》即《植物名稱》轉成了mdx格式的電子詞典。
原書:
裡面有大把大把詞源學內容,我很喜歡~
而且乍一看,排班不錯嘛,轉成mdx(使用g站writemdict)還不是分分鐘的事?
但,文字複製出來一看,我就發現有很嚴重的錯行問題。轉成xml、轉成docx、轉成txt都無濟於事。
不過最終我還是搞定了,主要使用pdfminer,以及花費了數小時的苦逼勞作。
成果:
好吧我只看懂菊花的學名是在形容顏色。。
好像並沒有教你怎麼提取pdf做詞典。。
反正pdf很邪惡的啦!你要做好準備,有堅韌不拔之毅力!
——————————-又發現新大6————————————-pdf暴力切割法——————
簡單提一下ghost script:
這是各種蹂躪、操練pdf文件的法寶,pdf界的ffmpeg,神器。。。
好吧跟ffmpeg一樣,ghostscript其實不是特別完美,也是個命令列工具。
它可以用來:切割、合併pdf
切:
gc ^
-o cropped。pdf ^
-sDEVICE=pdfwrite ^
-c “[/CropBox [0 0 395。22 842]” ^
-c “ /PAGES pdfmark” ^
-f page1。pdf
將page1。pdf切成CropBox [左 下 右 上]定義的矩形,儲存為cropped。pdf
並:
gc -sDEVICE=pdfwrite -dBATCH -dNOPAUSE -dQUIET -sOutputFile=out。pdf page1。pdf cropped。pdf
gc是gs9。21\bin\gc。exe這個命令列工具,原名大概是gs_console。exe。。。被我強行簡寫改名
\
\
\
將PDF格式轉化為mdx格式(大致思路):
1。將每一頁全部匯出為單個pdf文件。page1。pdf、page2。pdf……
2。根據目錄確定每一詞條所在檔案。比如:Alder-ene Reaction在page2。pdf
3。使用pdf miner確定詞條入口的位置。比如:標題“Alder-ene Reaction”在Alder[左 下 右 上]定義的矩形位置。
4。使用gs將page2。pdf一切兩。切割分界線是Alder[上],這樣,切割後,page2。pdf上部分是上一詞條的內容,下部分是下一詞條的內容。
5。如此切割每一詞條入口所在檔案。
6。歸併。確保歸併完後每一pdf有且僅有一個詞條的內容。
7。將pdf們轉換為html們
8。將html們編入mdx格式
~~~~~~~撒花~~~~~~~~~~~~
3、4兩部比較有難度。其他都是小意思。
\
\
\
p。s。如此情況建議放棄mdx詞典格式或者複雜的PDF格式。
淘寶有人代做。沒錯我是其中之一。100一本,不限詞條數目,不限原材料格式,可先免費製作前100條看效果