OSSはアルミニウムの翼で飛ぶ: Acrobat 「ClearScan」のポイント

＊Acrobat Standard 9 を使っています＊

ClearScanはAcrobatから画像にOCRをかける時の手法。ClearScanの有無でスキャンした文書のできが違ってくる。

左がスキャンしたままの画像の状態。右が、モノクロ処理をかけた後にClearScanをかけた状態（ビットマップデータなのでちょっと画像サイズが大きいので注意）

「銀河英雄伝説４」から抜粋

画像サイズとしては、
スキャン直後の無圧縮JPEGで352ページで550MB、
モノクロ処理＋ClearScan後の画像が、45MB。

ClearScanを使う事で、見掛け上の画質を向上させつつ、サイズを大幅に減少させられることができる。ただし現時点のClearScanは動作にクセがあり、うまく使うには注意すべき事項がある。ここではそのポイントを紹介する。

AcrobatのOCR動作の流れ

1．画像ファイルを読み込む
2．ななめ補正をかける
--------------------------
3．文字を認識する
4．透明テキストを埋め込む
5．認識した画像内の文字画像と同じ形のTrueTypeフォントを合成し、画像と置換する。
6．処理対処の画像（またはページ）全体で同じ（または類似した）フォントを最適化する。

という流れになる（厳密な順番は違うかも知れないので、これはあくまで参考）

斜め補正を綺麗に働かせる

1，2については前回の記事を参考。ななめ補正を綺麗に動かすポイントを書いています。
http://aikotobaha.blogspot.com/2010/05/blog-post_23.html

文字認識率を上げる

3、4のポイントはOCR全般における課題です。正しくOCRできれば検索も正しく働きますし、究極的にはClearScanとか気にせず、直接テキストデータにできてしまいます（ここまでの認識率には到達するにはまだまだかかりそうですが）。

現時点のOCRに正しく文字を認識させるポイントは、認識させる画像のモノクロ変換です。グレースケールでは無く、モノクロです。

グレースケールと、モノクロで認識率やその後の可読性を検証しましたが、結論としては活字が主な場合はモノクロ変換したほうが、可読性・認識率の点で上です。グレースケールやカラー取り込みのままだとOCR時（ClearScanを使っても使わなくても）に輪郭部分がボヤけてしまい、ページ全体を表示した際に個々の文字が薄くなり読みにくいです。

＊モノクロ = 完全に白黒の2色のみで表現
＊グレースケール = 白黒の2色を256段階に濃淡を調整できる（灰色等がある）

画像のモノクロ変換にはななめ補正のところで紹介している、ImageMagicがおすすめ。オプションに -monochrome をつけるだけですので、ななめ補正の時に行う処理として一括してやってしまいましょう。

これで可読性と認識率を大幅に向上させられます。

フォントの最適化の注意

5，6の時に気をつけることとして、フォントの最適化です。

普通最適化を行う範囲は大きければ大きいほどいいのですが、ClearScanの場合は広範囲（複数ページ）に対して最適化が働くと、精度が下がってしまい、違う形なのに同じとみなされてしまう現象が発生します。

こうなるともう見れたものではなく、文字が重なってしまったり、ちょっとおかしな文字が表示されてしまいます。

この現象を避けるには、単純ですがClearScanをかける単位を小さくすればよいです。

NGな例
1）スキャンした画像を輪郭切り取り＋モノクロ変換する（この時点では1ページ=1画像ファイル）
2) 画像を結合して、画像埋め込みPDFファイルを作成する。
3) ClearScanをかける

OKな例
1）スキャンした画像を輪郭切り取り＋モノクロ変換する（この時点では1ページ=1画像ファイル）
2) 個別の画像に対してClearScanをかける（1ページ=1PDFファイル）
3) PDFを結合する。

この2パターンは全く異なる結果になるので、注意してください。

慣れてくると、1冊300ページほどの本をPDF化するのにオペレーションする時間（スキャン時間や画像変換、OCR等の自動処理を除くと）は10分ほどです。

OSSはアルミニウムの翼で飛ぶ Tweet

Acrobat 「ClearScan」のポイント

関連記事

0 件のコメント:

コメントを投稿

執筆書籍

Search in this Blog

Top10 - weekly

Archives

Labels