じぶん更新日記

1997年5月6日開設
Copyright(C)長谷川芳典



11月のインデックスへ戻る
最新版へ戻る

 ScanSnap SV600で画像取込後の補正作業。
  • A:取り込んだ画像の中で書類面がうまく認識されなかったページに補正作業を行う。
  • B:検索可能なPDFに変換しているところ。
↓の記事参照。

2015年11月11日(水)


【思ったこと】
151111(水)論文別刷も紙媒体からPDFへ

 今年に入ってから紙媒体から電子媒体へのペーパーレス化が進んでいる。すでに全学の委員会や教授会では、出席者はノートパソコンやタブレットを持参し、事前にダウンロードしたPDF資料を閲覧することになっており、また私の授業では印刷物は配布せず、受講生は授業専用サイトから事前にレジュメ資料などをダウンロードして予復習していただくよう指示している。

 この流れに合わせて、少し前から、私の書いた紀要論文や刊行物などもPDF化してネット上で公開する作業を進めている。現時点ではこんな感じ。作業が終わったファイルについては、区別しやすいように「PDF形式、簡易検索機能」を付加している。

 この作業で役に立っているのがScanSnap SV600というスキャナである。原稿を置いたまま読み取りができるので手間がかからない。特に、ブックプレッサーを購入してから、生画像の歪みがかなり解消できるようになった。

 この読み取りシステムでは、最終的に検索可能なPDFファイルを作成することができる。専門的なことは分からないが、OCR機能により読み取り画像の位置にテキスト化された裏ファイルを連結し、検索語を入力すると、画像上の対応位置がマーク表示される仕組みになっているようである。

 検索可能なファイルを作成することで、本来画像であったはずのPDFファイルでも、ある程度のコピー&ペーストができるようになっている。試しに、こちらの論文の冒頭部分をAdobeのリーダーでコピー&ペースとしてみたところ以下のようになった。
本研究は,生まれて初めて日本語の文字を習得するさい,ひらがなやカタカナに比べて漢字の習得のほうが容易であるか否か,また早期に習得した漢字がどの潤童保持されるかについて1年間にわたる縦断的検討を行なうことを目的とする.
 現在の一般的な文字教育では,ひらがな→カタカナ→漢字というステップで日本語に必要な文字が教えられている.このうち,漢字は3000字から6mO字余りが必要であるとされているが,【'】学習指導要領の定めるところによれば,小学校卒業までに教えられる文字は,約1000字,つまり日常生活で必要な文字数の3分の1から6分の1にすぎない.
OCRで誤認識されたのは、アンダーラインをつけた3箇所のみであり、かなり良い精度となっている。

 受講生限定の教材としても利用するため、いくつかの学術雑誌掲載論文やいくつかの刊行物もアップロードしているが、著作権の問題があるので、これらはすべて個別にパスワードを設定している。

 上掲の写真にもあるように、ScanSnap SV600では時たま、書類画面が自動認識されず、手動で補正を行う必要が出てくることがある。失敗を繰り返しているうちに、
  • ブックプレッサーで書類を押さえつける時に、親指が写り込んでしまった場合
  • 服の一部や床などが写り込んでしまった場合
に要補正となる可能性が高くなることが分かってきた。親指を外側に伸ばしたり、部屋の照明を暗くすることでかなりの高い確率で補正作業なしに取り込めるようになっている。

 スキャナで読み込んだ印刷物は、書籍以外はすべて資源ゴミとして廃棄している。刊行時に無料で提供されている30部程度の別刷もこのさいまとめて廃棄した。