2010年6月5日土曜日

Acrobat 「ClearScan」のポイント


このエントリーをはてなブックマークに追加


*Acrobat Standard 9 を使っています *

ClearScanはAcrobatから画像にOCRをかける時の手法。ClearScanの有無でスキャンした文書のできが違ってくる。

左がスキャンしたままの画像の状態。右が、モノクロ処理をかけた後にClearScanをかけた状態(ビットマップデータなのでちょっと画像サイズが大きいので注意)

「銀河英雄伝説4」から抜粋


画像サイズとしては、
スキャン直後の無圧縮JPEGで352ページで550MB、
モノクロ処理+ClearScan後の画像が、45MB。

ClearScanを使う事で、見掛け上の画質を向上させつつ、サイズを大幅に減少させられることができる。ただし現時点のClearScanは動作にクセがあり、うまく使うには注意すべき事項がある。ここではそのポイントを紹介する。


AcrobatのOCR動作の流れ

1.画像ファイルを読み込む
2.ななめ補正をかける
--------------------------
3.文字を認識する
4.透明テキストを埋め込む
5.認識した画像内の文字画像と同じ形のTrueTypeフォントを合成し、画像と置換する。
6.処理対処の画像(またはページ)全体で同じ(または類似した)フォントを最適化する。

という流れになる(厳密な順番は違うかも知れないので、これはあくまで参考)


斜め補正を綺麗に働かせる

1,2については前回の記事を参考。ななめ補正を綺麗に動かすポイントを書いています。
http://aikotobaha.blogspot.com/2010/05/blog-post_23.html


文字認識率を上げる

3、4のポイントはOCR全般における課題です。正しくOCRできれば検索も正しく働きますし、究極的にはClearScanとか気にせず、直接テキストデータにできてしまいます(ここまでの認識率には到達するにはまだまだかかりそうですが)。

現時点のOCRに正しく文字を認識させるポイントは、認識させる画像のモノクロ変換です。グレースケールでは無く、モノクロです。

グレースケールと、モノクロで認識率やその後の可読性を検証しましたが、結論としては活字が主な場合はモノクロ変換したほうが、可読性・認識率の点で上です。グレースケールやカラー取り込みのままだとOCR時(ClearScanを使っても使わなくても)に輪郭部分がボヤけてしまい、ページ全体を表示した際に個々の文字が薄くなり読みにくいです。

*モノクロ = 完全に白黒の2色のみで表現
*グレースケール = 白黒の2色を256段階に濃淡を調整できる(灰色等がある)

画像のモノクロ変換にはななめ補正のところで紹介している、ImageMagicがおすすめ。オプションに -monochrome をつけるだけですので、ななめ補正の時に行う処理として一括してやってしまいましょう。

これで可読性と認識率を大幅に向上させられます。


フォントの最適化の注意

5,6の時に気をつけることとして、フォントの最適化です。

普通最適化を行う範囲は大きければ大きいほどいいのですが、ClearScanの場合は広範囲(複数ページ)に対して最適化が働くと、精度が下がってしまい、違う形なのに同じとみなされてしまう現象が発生します。

こうなるともう見れたものではなく、文字が重なってしまったり、ちょっとおかしな文字が表示されてしまいます。

この現象を避けるには、単純ですがClearScanをかける単位を小さくすればよいです。

NGな例
1) スキャンした画像を輪郭切り取り+モノクロ変換する(この時点では1ページ=1画像ファイル)
2) 画像を結合して、画像埋め込みPDFファイルを作成する。
3) ClearScanをかける

OKな例
1) スキャンした画像を輪郭切り取り+モノクロ変換する(この時点では1ページ=1画像ファイル)
2) 個別の画像に対してClearScanをかける(1ページ=1PDFファイル)
3) PDFを結合する。

この2パターンは全く異なる結果になるので、注意してください。

慣れてくると、1冊300ページほどの本をPDF化するのにオペレーションする時間(スキャン時間や画像変換、OCR等の自動処理を除くと)は10分ほどです。


0 件のコメント:

コメントを投稿