OCRmyPDF 逆天開源!GitHub狂攬15萬+星,模糊掃描PDF秒變高清可搜文檔!
什么是 OCRmyPDF ?
PDF
是存儲和交換掃描文檔的最佳格式。不幸的是,PDF
可能很難修改。OCRmyPDF
是一個 Python
應用程序和庫,可以輕松地將圖像處理和 OCR
(可識別、可搜索的文本)應用于現有 PDF
,通過向掃描的 PDF
文件添加 OCR
文本層,使你可以搜索或復制粘貼它們。
鏡像下載
在群暉上以 Docker 方式安裝。
在注冊表中搜索 ocrmypdf
,選擇第一個 jbarlow83/ocrmypdf
,版本選擇 latest
。
本文寫作時, latest
版本對應為 v15.4.2
;
你也可以使用命令行,用 SSH
客戶端登錄到群暉后,依次執行下面的命令
docker pull jbarlow83/ocrmypdf:latest
如果拉不動,可以試試 docker
代理網站:https://dockerproxy.com/,但是會多幾個步驟
docker pull dockerproxy.com/jbarlow83/ocrmypdf:latest
docker tag dockerproxy.com/jbarlow83/ocrmypdf:latest jbarlow83/ocrmypdf:latest
docker rmi dockerproxy.com/jbarlow83/ocrmypdf:latest
下載完成后,可以在 映像
中找到
準備工作
【說明】:
- 與典型的
Docker
容器不同,OCRmyPDF Docker
容器是短暫的,它為一個 OCR
作業運行并終止,就像命令行程序一樣。因此,我們通常使用 --rm
參數在容器退出時將其刪除。 - 默認情況下,
Docker
鏡像包括英語、德語、簡體中文、法語、葡萄牙語和西班牙語,所以中文用戶不需要添加語言包。
在 docker
文件夾中,創建一個新文件夾 ocrmypdf
mkdir -p /volume1/docker/ocrmypdf
cd /volume1/docker/ocrmypdf
準備一個文檔用于測試,這是網頁上打印生成的 pdf
文件,直接搜索 sam
是沒有 沒有匹配項
將這個文檔放入 ocrmypdf
,命名為 input.pdf
測試驗證
為了方便起見,創建一個 shell
別名來隱藏 Docker
命令。通過使用 alias
命令,為長或復雜的命令創建簡短且易記的別名,以便更快地執行常用操作或減少輸入的工作量
alias docker_ocrmypdf='docker run --rm -i --user "$(id -u):$(id -g)" --workdir /data -v "$PWD:/data" jbarlow83/ocrmypdf:latest'
docker_ocrmypdf /data/input.pdf /data/output.pdf
其中:
-- rm
:表示在容器退出時,會將其刪除;--user "$(id -u):$(id -g)"
:用于指定在容器內運行的用戶和組,確保容器內的進程以與宿主機相同的用戶權限運行,以防止權限問題;--workdir /data
:指定容器內的工作目錄;-v "$PWD:/data"
:將 /volume1/docker/ocrmypdf
映射到了容器內的 /data
;
運行完成后,會在 ocrmypdf
中看到多出了一個文件 output.pdf
下載到本地后,用 pdf
閱讀器打開后,繼續搜索 sam
顯示有 2
處匹配
第二處
OCRmyPDF
不僅提供了基本的 OCR
功能,還包括一些高級功能,如自動旋轉、自動裁剪、去除文本陰影、增強圖像質量等。它使用了一些優秀的開源工具和庫,如 Tesseract OCR
引擎、Ghostscript
和 ImageMagick
,以提供強大的 OCR
和 PDF
處理功能,當然,OCRmyPDF
無法打開使用數字證書加密的文檔。
參考文檔
ocrmypdf/OCRmyPDF: OCRmyPDF adds an OCR text layer to scanned PDF files, allowing them to be searched
地址:https://github.com/ocrmypdf/OCRmyPDF
OCRmyPDF documentation
地址:https://ocrmypdf.readthedocs.io
jbarlow83/ocrmypdf - Docker Image | Docker Hub
地址:https://hub.docker.com/r/jbarlow83/ocrmypdf
該文章在 2025/2/5 17:14:28 編輯過