OSSはアルミニウムの翼で飛ぶ: 書籍の電子化

面白いと聞けばついついポチって本を買ってしまう。Ａｍａｚｏｎは常連。

ただ本は場所を食う。密度が高く、きっちりと空間に収まる本は引っ越し時には数百Kgもの重さになっている。そこで数年前から取り組んでいるのは、読み終わった本はスキャナでPDF化して、元の本は破棄してしまう。

ＰＤＦ化した本で面白かったものはiPhoneやノートPCに保存しておき、出張の移動中などに眺めている。iPhoneでは解像度の関係で大きめな本はきついが、iPadが発売されれば画面の問題は解消され、より快適になると思う。

参考
>> iPad と Goodreader で電子書籍
>> 電子書籍リーダーとしての Kindle DX と iPad 比較

電子化のメリットは以下
（１）書籍内を検索できるようになる。特に技術書はありがたい。
（２）何百冊でも場所をとらない、簡単に持ち運べる

しかしデメリットもある
（１）裁断した本はごみになってしまう（原本を大事にする人には向かない
（２）付箋を貼ったり、パラパラ流し読みがしづらい
（３）消えるときは一瞬（バックアップはしっかりと

本をスキャンしてPDF化するにはいくつかコツが必要になる。2年ほど電子書籍化して運用した際のノウハウをここに記載しておく（ここでは裁断を前提としているので注意）

スキャナ

まず必要となるのがスキャナ。それも通常のものではなくドキュメントスキャナと呼ばれる。

現在は下記を使用している。性能的には満足。PDF化する上で必須のAcrobat Standard製品版が付属してくるのもありがたい。

Canon ドキュメントスキャナ― imageFORMULA DR-2010C A4対応 CISセンサー読取速度A4カラー20枚/分,A4白黒20枚/分給紙枚数50枚

裁断機

次に必要なものが裁断機。技術書など、分厚いものを裁断しているのでパワーのあるヤツを選んでいる。

改良型裁断機・ペーパーカッター：裁断厚さ：3.7cm

では具体的にスキャンの手順

（１）裁断する

あまり考えることは無い、背表紙をバッサリいく。文字や挿絵が消えない範囲で、やや多めに切ったほうがよい。けちって背表紙に近すぎる位置を切ると、背の部分のノリが残ってしまい、綺麗に本が分解されない。

（２）スキャンする

いくつかポイントがある。大抵のスキャナは初めからＰＤＦ化してくれるようなっているが、それは使わない。以下のスキャナ設定を行い、スキャンをしていく。

1．各ページがばらばらの画像ファイルとなるように保存する。ＪＰＧ等の圧縮形式の場合は最低圧縮。
２．カラースキャン・最高解像度
３．ななめ補正無し
４．裏移り除去
５．スキャンサイズは手動で明示的に本のサイズを指定する。

一度スキャンして電子化してしまうと本は捨ててしまうので、可能な限り最大の解像度で取っておく。また、スキャナのななめ補正は便利だが、たまにとんでもない補正をかけるので外す。多少斜めになっていても後でＡｃｒｏｂａｔのＯＣＲ機能で補正できる。

裏移りは文庫本など薄い紙では必須。

また重要なのがスキャン対象の本のサイズを明確に指定すること。自動判別だと1ページ目、2ページ目で画像サイズが変わってしまい綺麗にＰＤＦにできない。

ここでスキャンしたデータは原版として、大事に保存しておく。直接加工もせず、のちに素晴らしいＯＣＲ方法が見つかったらそれを行うために取っておく。

（３）画像を補正する

断裁した本は実際のＡ４，Ｂ５といったサイズより若干小さくなっているので、スキャンした画像の淵には空白が入る。時にはページ自身の影移りで輪郭が移りこんでしまう。

この部分はのちにＯＣＲ化する際の邪魔になるので削除しておく。また書籍が白黒の場合はモノクロ変換することで、後のＯＣＲ精度を上げることができる。

ＩｍａｇｅＭａｇｉｃを使って、四隅を削除しつつ、モノクロ変換する例

set OCRDIR=H:\ocr\world\%TODAY%_%NOWTIME%

mkdir %OCRDIR%
for %%i in (*.jpg) do F:\Tool\ImageMagick-6.5.8-6\convert  -monochrome -quality 100 -crop 2400x3436+40+30 %%i %OCRDIR%\%%i

こういった一括変換をかける場合にサイズの自動認識で微妙にサイズが異なるファイルだと都合が悪いので、できる限り手動設定している。

（４）ＯＣＲする

ここでＡｃｒｏｂａｔを使いＯＣＲをかける。

「文書」→「ＯＣＲテキスト認識」→「ＯＣＲを使用して複数のファイルのテキストを認識」を選択し、今までスキャンした個別のファイルに対してスキャンをかけていく。

ＯＣＲパラメータは「日本語」「600bpi(最低)」「ＣｌｅａｒＳｃａｎ」を選択する。

このＣｌｅａｒＳｃａｎはかなり使えるパラメータで、スキャンしたファイル内の文字に似たＴｒｕｅＴｙｐｅフォントを合成して埋め込んでくれ、スキャンした画像に限りなく近い形で表示できるうえに、画像ファイルよりもサイズを落とすことができる。

＊ただし、ＣｌｅａｒＳｃａｎで作られたＰＤＦは読めるＶｉｅwerが限られるので注意。

また、ここで個別のページに対してＯＣＲをかけているのは、ＣｌｅａｒＳｃａｎを1つのＰＤＦ内の大量のページにかけると、文字の最適が強く働いてしまい、表示が崩れてしまう事が多いため。

（５）結合する

４で各ページが個別のＰＤＦファイルになるので、最後に一括して結合することで晴れてＰＤＦ書籍の完成となる。好みに応じて開き方等を設定する。

本来ならこんな手順を踏まずに、最初から電子版で購入したいところだが、日本の電子書籍事情は原始時代と同様。早く電子書籍時代が来てほしいものだ。

OSSはアルミニウムの翼で飛ぶ Tweet

書籍の電子化

関連記事

0 件のコメント:

コメントを投稿

執筆書籍

Search in this Blog

Top10 - weekly

Archives

Labels