您當前的位置:首頁 > 書法

如何將PDF格式轉化為mdx格式,這樣就可以放進歐路詞典中了?

作者:由 sharon 發表于 書法時間:2015-12-03

如何將PDF格式轉化為mdx格式,這樣就可以放進歐路詞典中了?迷路的小白2017-02-09 03:38:40

同問

如何將PDF格式轉化為mdx格式,這樣就可以放進歐路詞典中了?愛吃土豆的花生2017-03-08 21:54:17

同問 專業英語 只有pdf版

如何將PDF格式轉化為mdx格式,這樣就可以放進歐路詞典中了?匿名使用者2017-04-22 17:10:14

得有資料來源,換句話說,掃描版的pdf就不行(至多給pdf做一個詞頭索引)。至於mdx怎麼製作,可參考

http://

pdawiki。com

裡的教程,不過沒有程式設計基礎就很難做。

如何將PDF格式轉化為mdx格式,這樣就可以放進歐路詞典中了?KnIfER2017-06-30 11:35:33

之前我把國外的一本書《the name of plants》即《植物名稱》轉成了mdx格式的電子詞典。

原書:

如何將PDF格式轉化為mdx格式,這樣就可以放進歐路詞典中了?

裡面有大把大把詞源學內容,我很喜歡~

而且乍一看,排班不錯嘛,轉成mdx(使用g站writemdict)還不是分分鐘的事?

但,文字複製出來一看,我就發現有很嚴重的錯行問題。轉成xml、轉成docx、轉成txt都無濟於事。

不過最終我還是搞定了,主要使用pdfminer,以及花費了數小時的苦逼勞作。

成果:

如何將PDF格式轉化為mdx格式,這樣就可以放進歐路詞典中了?

如何將PDF格式轉化為mdx格式,這樣就可以放進歐路詞典中了?

好吧我只看懂菊花的學名是在形容顏色。。

好像並沒有教你怎麼提取pdf做詞典。。

反正pdf很邪惡的啦!你要做好準備,有堅韌不拔之毅力!

——————————-又發現新大6————————————-pdf暴力切割法——————

簡單提一下ghost script:

這是各種蹂躪、操練pdf文件的法寶,pdf界的ffmpeg,神器。。。

好吧跟ffmpeg一樣,ghostscript其實不是特別完美,也是個命令列工具。

它可以用來:切割、合併pdf

切:

gc ^

-o cropped。pdf ^

-sDEVICE=pdfwrite ^

-c “[/CropBox [0 0 395。22 842]” ^

-c “ /PAGES pdfmark” ^

-f page1。pdf

將page1。pdf切成CropBox [左 下 右 上]定義的矩形,儲存為cropped。pdf

並:

gc -sDEVICE=pdfwrite -dBATCH -dNOPAUSE -dQUIET -sOutputFile=out。pdf page1。pdf cropped。pdf

gc是gs9。21\bin\gc。exe這個命令列工具,原名大概是gs_console。exe。。。被我強行簡寫改名

\

\

\

將PDF格式轉化為mdx格式(大致思路):

1。將每一頁全部匯出為單個pdf文件。page1。pdf、page2。pdf……

2。根據目錄確定每一詞條所在檔案。比如:Alder-ene Reaction在page2。pdf

3。使用pdf miner確定詞條入口的位置。比如:標題“Alder-ene Reaction”在Alder[左 下 右 上]定義的矩形位置。

4。使用gs將page2。pdf一切兩。切割分界線是Alder[上],這樣,切割後,page2。pdf上部分是上一詞條的內容,下部分是下一詞條的內容。

5。如此切割每一詞條入口所在檔案。

6。歸併。確保歸併完後每一pdf有且僅有一個詞條的內容。

7。將pdf們轉換為html們

8。將html們編入mdx格式

~~~~~~~撒花~~~~~~~~~~~~

3、4兩部比較有難度。其他都是小意思。

\

\

\

p。s。如此情況建議放棄mdx詞典格式或者複雜的PDF格式。

如何將PDF格式轉化為mdx格式,這樣就可以放進歐路詞典中了?匿名使用者2017-11-24 18:01:10

淘寶有人代做。沒錯我是其中之一。100一本,不限詞條數目,不限原材料格式,可先免費製作前100條看效果

標簽: PDF  詞條  MDX  格式  轉成