PythonでOCR(その3)
業務事務処理で書類をスキャンしてPDFで保管しているものの、テキスト情報が埋め込まれていないため再利用の範囲が狭くなってしまう課題があります。 スキャンして生成したPDFを画像に変換し、OCR情報のみを持ったPDFを作成、その後にオリジナルのPDFにオーバレイ処理を行う事でOCR処理済みのPDFを生成してみました。
いちいちな面倒事を少しでも簡単にできれば明日はもっと楽しくなるハズ!
業務事務処理で書類をスキャンしてPDFで保管しているものの、テキスト情報が埋め込まれていないため再利用の範囲が狭くなってしまう課題があります。 スキャンして生成したPDFを画像に変換し、OCR情報のみを持ったPDFを作成、その後にオリジナルのPDFにオーバレイ処理を行う事でOCR処理済みのPDFを生成してみました。
業務事務処理で書類をスキャンしてPDFで保管しているものの、テキスト情報が埋め込まれていないため再利用の範囲が狭くなってしまう課題があります。 スキャンして生成したPDFを画像に変換してOCRを行ったうえで、再度PDFを生成してみました。その結末は・・・笑
業務事務処理で書類をスキャンしてPDFで保管してメールやワークフローで処理する際に、RPAを活用する機会が増えている状況です。RPAでもOCRができればもっと便利なのに・・・というケース、結構ありますよね OCRのエンジン自体が高価だった時代に比較するとビックリな結果が・・・笑