2020年07月一覧

PythonでOCR(その3)

業務事務処理で書類をスキャンしてPDFで保管しているものの、テキスト情報が埋め込まれていないため再利用の範囲が狭くなってしまう課題があります。 スキャンして生成したPDFを画像に変換し、OCR情報のみを持ったPDFを作成、その後にオリジナルのPDFにオーバレイ処理を行う事でOCR処理済みのPDFを生成してみました。