Python如何通過編程實現pdf文字轉word文檔?

有沒有相關代碼可供參考?
3 個回答
小小猿爱嘻嘻
2019-01-18

這個不難,主要用到2個庫,一個是pdfminer3k,一個是python-docx,其中pdfminer3k用來解析pdf提取出文本內容,python-docx用來將解析出的文本內容寫入word文檔,下面我簡單介紹一下實現過程,實驗環境win10+python3.6+pycharm5.0,主要內容如下:

這裡為了方便說明問題,我新建了一個test.pdf文件,測試內容如下,後面就是圍繞這個文件展開解析:

Python如何通過編程實現pdf文字轉word文檔?

1.首先安裝pdfminer3k和python-docx,這個直接在cmd窗口輸入命令“pip install pdfminer3k python-docx”就行,如下:

Python如何通過編程實現pdf文字轉word文檔?

2.安裝成功後,我們就可以編寫程序來實現pdf文字轉word文檔功能了,主要分為2步,先解析pdf文件,提取出文本內容,接著再將文本內容寫入word文檔中,主要代碼及截圖如下:

  • 解析pdf文件文本內容,基本思路就是創建一個pdf解析器,然後一頁一頁解析,提取出文本內容,主要代碼如下:

Python如何通過編程實現pdf文字轉word文檔?

Python如何通過編程實現pdf文字轉word文檔?

  • 寫入word文檔,這步很簡單,就是將上一步解析出的文本內容直接按段落添加到word文檔中就行,這裡可以對字體字號進行設置,主要代碼如下:

Python如何通過編程實現pdf文字轉word文檔?

  • 點擊運行程序,就會在當前的目錄下生成一個abc.docx文檔,打開這個word文檔,就是轉化後的內容,如下:

Python如何通過編程實現pdf文字轉word文檔?

至此,我們就完成了利用python將pdf文本轉化為word文檔的功能。總的來說,整個過程不難,主要分為2步,先利用pdfminer3k解析pdf文件,提取出文本內容,再利用python-docx將提取出來的文本內容寫入word文檔中就行,只要你有一定的python基礎,熟悉一下相關代碼和示例,多調試幾遍代碼,很快就能掌握的,網上也有相關教程和資料,感興趣的話,可以搜一下,希望以上分享的內容能對你有所幫助吧,也歡迎大家評論、留言。

譬如朝露
2019-01-17

由相應的程序員編程實現

魔镜---魔镜
2019-01-17

網上已經有這種程序 免費了,沒必要開發。

相關推薦

推薦中...