書籍を裁断してスキャンする場合、pdf化した文章のが斜めになってしまう事がよくある。
その対策に関する考察
これが発生する要因はスキャナやOCRソフトの持つ斜め補正機能による。
この斜め補正は紙をスキャンして画像ファイルにする時と、その画像ファイにOCRをかける時に働く。
1番目の画像ファイルにかけるOCRはOFFが基本。なぜならおかしな補正が入ってしまい文章の一部が切れてしまった事を気づかずに原本を処分してしまうと、後で修正が聞かず致命的だからだ。
なので書籍の電子化は まず斜め補正無しで原本をスキャンして画像ファイルにする。そしてその画像ファイルにOCRをかけてPDFにするといのが今のところのベストな方法だと考えている。
*詳しくこちらのエントリーを参考。
http://aikotobaha.blogspot.com/2010/04/blog-post.html
そのためOCR機能での斜め補正を使う事になるがここでも誤った補正がかかり斜めになってしまう場合がある。
OCRソフトが誤った斜め補正をかけてしまう要因に「そもそも取り込んだ画像データが真四角ではない」というのが大きい。
裁断した書籍はどんなに丁寧にやったとしても裁断した側に歪みができてしまい、「サイズ自動検知」でスキャンを行うと真四角ではない画像ができてしまう。
OCRは斜め補正に使う指標に画像全体にまたがる線(つまり4つのフチ)を使う傾向があり、裁断した側に歪みがある画像ではこれが発生しやすい。
この問題を回避するにはできるだけ書籍のサイズにあった固定(指定)サイズでスキャンを行うだけでよい。
ただしここに一工夫必要で、裁断した本は実際のサイズよりも小さくなってしまうため、サイズ指定すると裁断した側に隙間ができてしまう。この隙間が厄介で、スキャンした紙の質によっては隙間部分の境界に線が入ってしまう。
そしてその境界に入った線を基準にOCRがかかりやっぱり斜めになってしまう。
回避するにはサイズ指定で取り込んだ画像データをImageMagic等のツールで4編を内側に向けて少したげ切り取ってやる事で、境界線を消すことができる。
ImageMagicはコマンドラインからのツールでなので簡単にバッチ化できるのでかなり使える。
こういった処理を事前にかけることで斜めになるリスクをかなり回避でき、綺麗なPDFドキュメントが作成できる。
参考
>> 自炊電子書籍作成に便利な一括画像処理バッチ
0 件のコメント:
コメントを投稿