2010年4月19日月曜日

書籍の電子化


このエントリーをはてなブックマークに追加


面白いと聞けばついついポチって本を買ってしまう。Amazonは常連。

ただ本は場所を食う。密度が高く、きっちりと空間に収まる本は引っ越し時には数百Kgもの重さになっている。そこで数年前から取り組んでいるのは、読み終わった本はスキャナでPDF化して、元の本は破棄してしまう。

PDF化した本で面白かったものはiPhoneやノートPCに保存しておき、出張の移動中などに眺めている。iPhoneでは解像度の関係で大きめな本はきついが、iPadが発売されれば画面の問題は解消され、より快適になると思う。

参考
>> iPad と Goodreader で電子書籍
>> 電子書籍リーダーとしての Kindle DX と iPad 比較

電子化のメリットは以下
(1)書籍内を検索できるようになる。特に技術書はありがたい。
(2)何百冊でも場所をとらない、簡単に持ち運べる


しかしデメリットもある
(1)裁断した本はごみになってしまう(原本を大事にする人には向かない
(2)付箋を貼ったり、パラパラ流し読みがしづらい
(3)消えるときは一瞬(バックアップはしっかりと


本をスキャンしてPDF化するにはいくつかコツが必要になる。2年ほど電子書籍化して運用した際のノウハウをここに記載しておく(ここでは裁断を前提としているので注意)


スキャナ

まず必要となるのがスキャナ。それも通常のものではなくドキュメントスキャナと呼ばれる。

現在は下記を使用している。性能的には満足。PDF化する上で必須のAcrobat Standard製品版が付属してくるのもありがたい。

Canon ドキュメントスキャナ― imageFORMULA DR-2010C A4対応 CISセンサー 読取速度A4カラー20枚/分,A4白黒20枚/分 給紙枚数50枚



裁断機

次に必要なものが裁断機。技術書など、分厚いものを裁断しているのでパワーのあるヤツを選んでいる。

改良型裁断機・ペーパーカッター:裁断厚さ:3.7cm





では具体的にスキャンの手順

(1)裁断する

あまり考えることは無い、背表紙をバッサリいく。文字や挿絵が消えない範囲で、やや多めに切ったほうがよい。けちって背表紙に近すぎる位置を切ると、背の部分のノリが残ってしまい、綺麗に本が分解されない。



(2)スキャンする

いくつかポイントがある。大抵のスキャナは初めからPDF化してくれるようなっているが、それは使わない。以下のスキャナ設定を行い、スキャンをしていく。

1. 各ページがばらばらの画像ファイルとなるように保存する。JPG等の圧縮形式の場合は最低圧縮。
2.カラースキャン・最高解像度
3.ななめ補正無し
4.裏移り除去
5.スキャンサイズは手動で明示的に本のサイズを指定する。

一度スキャンして電子化してしまうと本は捨ててしまうので、可能な限り最大の解像度で取っておく。また、スキャナのななめ補正は便利だが、たまにとんでもない補正をかけるので外す。多少斜めになっていても後でAcrobatのOCR機能で補正できる。

裏移りは文庫本など薄い紙では必須。

また重要なのがスキャン対象の本のサイズを明確に指定すること。自動判別だと1ページ目、2ページ目で画像サイズが変わってしまい綺麗にPDFにできない。

ここでスキャンしたデータは原版として、大事に保存しておく。直接加工もせず、のちに素晴らしいOCR方法が見つかったらそれを行うために取っておく。


(3)画像を補正する

断裁した本は実際のA4,B5といったサイズより若干小さくなっているので、スキャンした画像の淵には空白が入る。時にはページ自身の影移りで輪郭が移りこんでしまう。

この部分はのちにOCR化する際の邪魔になるので削除しておく。また書籍が白黒の場合はモノクロ変換することで、後のOCR精度を上げることができる。

ImageMagicを使って、四隅を削除しつつ、モノクロ変換する例
set OCRDIR=H:\ocr\world\%TODAY%_%NOWTIME%

mkdir %OCRDIR%
for %%i in (*.jpg) do F:\Tool\ImageMagick-6.5.8-6\convert  -monochrome -quality 100 -crop 2400x3436+40+30 %%i %OCRDIR%\%%i
こういった一括変換をかける場合にサイズの自動認識で微妙にサイズが異なるファイルだと都合が悪いので、できる限り手動設定している。


(4)OCRする

ここでAcrobatを使いOCRをかける。

「文書」→「OCRテキスト認識」→「OCRを使用して複数のファイルのテキストを認識」を選択し、今までスキャンした個別のファイルに対してスキャンをかけていく。

OCRパラメータは「日本語」「600bpi(最低)」「ClearScan」を選択する。

このClearScanはかなり使えるパラメータで、スキャンしたファイル内の文字に似たTrueTypeフォントを合成して埋め込んでくれ、スキャンした画像に限りなく近い形で表示できるうえに、画像ファイルよりもサイズを落とすことができる。

*ただし、ClearScanで作られたPDFは読めるViewerが限られるので注意。

また、ここで個別のページに対してOCRをかけているのは、ClearScanを1つのPDF内の大量のページにかけると、文字の最適が強く働いてしまい、表示が崩れてしまう事が多いため。


(5)結合する

4で各ページが個別のPDFファイルになるので、最後に一括して結合することで晴れてPDF書籍の完成となる。好みに応じて開き方等を設定する。

本来ならこんな手順を踏まずに、最初から電子版で購入したいところだが、日本の電子書籍事情は原始時代と同様。早く電子書籍時代が来てほしいものだ。

0 件のコメント:

コメントを投稿