ClearScanはAcrobatから画像にOCRをかける時の手法。ClearScanの有無でスキャンした文書のできが違ってくる。
左がスキャンしたままの画像の状態。右が、モノクロ処理をかけた後にClearScanをかけた状態(ビットマップデータなのでちょっと画像サイズが大きいので注意)
「銀河英雄伝説4」から抜粋
画像サイズとしては、
スキャン直後の無圧縮JPEGで352ページで550MB、
モノクロ処理+ClearScan後の画像が、45MB。
ClearScanを使う事で、見掛け上の画質を向上させつつ、サイズを大幅に減少させられることができる。ただし現時点のClearScanは動作にクセがあり、うまく使うには注意すべき事項がある。ここではそのポイントを紹介する。
AcrobatのOCR動作の流れ
1.画像ファイルを読み込む
2.ななめ補正をかける
--------------------------
3.文字を認識する
4.透明テキストを埋め込む
5.認識した画像内の文字画像と同じ形のTrueTypeフォントを合成し、画像と置換する。
6.処理対処の画像(またはページ)全体で同じ(または類似した)フォントを最適化する。
という流れになる(厳密な順番は違うかも知れないので、これはあくまで参考)
斜め補正を綺麗に働かせる
1,2については前回の記事を参考。ななめ補正を綺麗に動かすポイントを書いています。
http://aikotobaha.blogspot.com/2010/05/blog-post_23.html
文字認識率を上げる
3、4のポイントはOCR全般における課題です。正しくOCRできれば検索も正しく働きますし、究極的にはClearScanとか気にせず、直接テキストデータにできてしまいます(ここまでの認識率には到達するにはまだまだかかりそうですが)。
現時点のOCRに正しく文字を認識させるポイントは、認識させる画像のモノクロ変換です。グレースケールでは無く、モノクロです。
グレースケールと、モノクロで認識率やその後の可読性を検証しましたが、結論としては活字が主な場合はモノクロ変換したほうが、可読性・認識率の点で上です。グレースケールやカラー取り込みのままだとOCR時(ClearScanを使っても使わなくても)に輪郭部分がボヤけてしまい、ページ全体を表示した際に個々の文字が薄くなり読みにくいです。
*モノクロ = 完全に白黒の2色のみで表現
*グレースケール = 白黒の2色を256段階に濃淡を調整できる(灰色等がある)
画像のモノクロ変換にはななめ補正のところで紹介している、ImageMagicがおすすめ。オプションに -monochrome をつけるだけですので、ななめ補正の時に行う処理として一括してやってしまいましょう。
これで可読性と認識率を大幅に向上させられます。
フォントの最適化の注意
5,6の時に気をつけることとして、フォントの最適化です。
普通最適化を行う範囲は大きければ大きいほどいいのですが、ClearScanの場合は広範囲(複数ページ)に対して最適化が働くと、精度が下がってしまい、違う形なのに同じとみなされてしまう現象が発生します。
こうなるともう見れたものではなく、文字が重なってしまったり、ちょっとおかしな文字が表示されてしまいます。
この現象を避けるには、単純ですがClearScanをかける単位を小さくすればよいです。
NGな例
1) スキャンした画像を輪郭切り取り+モノクロ変換する(この時点では1ページ=1画像ファイル)
2) 画像を結合して、画像埋め込みPDFファイルを作成する。
3) ClearScanをかける
OKな例
1) スキャンした画像を輪郭切り取り+モノクロ変換する(この時点では1ページ=1画像ファイル)
2) 個別の画像に対してClearScanをかける(1ページ=1PDFファイル)
3) PDFを結合する。
この2パターンは全く異なる結果になるので、注意してください。
慣れてくると、1冊300ページほどの本をPDF化するのにオペレーションする時間(スキャン時間や画像変換、OCR等の自動処理を除くと)は10分ほどです。
0 件のコメント:
コメントを投稿