じぶん更新日記

1997年5月6日開設
Copyright(C)長谷川芳典



02月のインデックスへ戻る
最新版へ戻る

 時計台前の紅梅。2月17日掲載の白梅とともに、今が見頃となっている。周辺の樹木の位置関係で、白梅のほうは朝方、紅梅は昼休み前後のみ日が当たる。

2016年02月19日(金)


【思ったこと】
160219(金)「スキャナ+OCR」と検索機能の恩恵

 2月下旬に入って、一連の用務が一段落し、室内の書類や書籍の整理のための時間がとれるようになってきた。

 定年退職まであと2年と1ヶ月となったこともあり、現物を残す必要の無い書類については、スキャナで読み込み、現物はシュレッダーにかけるようにしている【昨年11月11日の日記参照。】

 スキャナはずっと同じ機械を使い続けているが、最近では、歪みの補正などをしなくても、ほぼ検索機能つきのPDFファイルとして保存できるようになってきた。機械の性能は変わらなくても、使用者側、つまり私自身のスキルが向上すると補正が不要になるというのだからまことに興味深い。

 私が思いついた方法というのは、まずは室内の照明を消すこと。これにより、ブックプレッサー(分厚い本などを押さえつけるアクリル板)の反射を防ぐことができる。また、黒いカバンを首からかけてお腹のあたりを覆うというのもコツの1つである。スキャナに衣服の一部が写ってしまうと(←お腹が出ているから写る)補正を要求されることがあるが、黒いカバンをぶら下げているとその部分が読み取りエリアから外されるため、自動補正だけで済むようになる。

 スキャナでは、書類はあくまで画像として読み取られるが、その後のOCR作業(検索機能つきPDFファイル化)ではかなりの精度でテキスト化ができるようになっている。一番最近PDF化したこちらの論文の冒頭部分をテキストとしてコピーペーストしてみると、
本稿は、言語行動およびルール支配行動に関する行動分析学的研究の流れを概括し、1990年 代に登場した「関係フレーム理論」によってどのような新しい視点が生まれたのかについて論じ ることを目的とする。なお、後述するように、行動分析学では、言語行動は発信者(話し手、 発語者)の行動、ルール支配行動は受信者(聞き手、自己ルール実践者)の行動として位置づけ られており、表裏一体をなすものである*'。
となり、文末の脚注番号「*1」が「*'」と変換されている以外はすべて正確にテキスト化できていることが分かる。

 以前、古いスキャナで画像としてだけ読み込んでいた書類も、いったんPDFファイル化したのち、PDF編集ソフト(私の使っているのは「JUST PDF3 高度編集」)で「検索可能なPDFドキュメント」として保存すれば、かなりの程度でテキスト化できる。

 こうした機能は、歳をとればとるほど重宝する。記憶力が衰えるにつれて、印刷媒体のままだとどこに書いてあったか思い出せないことが多いが、検索機能のおかげで、該当する段落を迅速に見つけ出すことができるからである。もし私が30年前に定年を迎えていたとしたら、毎日、「あれはどこに書いてあったのだろう?」ばかりに明け暮れることになっていたはずで、今の時代の技術の進歩の恩恵は計り知れないところがある。

 なお、公開されているPDFファイルでも、たいがいは、検索機能が埋め込まれているか、最初からテキストを保持してPDF化されているようである。もっとも、古い書籍の復刻版などでは、OCRのミスにより、とんでもない言葉に化けていることがある。

 最近、Skinner財団から無料公開されているSCIENCE AND HUMAN BEHAVIORをチェックしていたところ、リンク先284頁の2行目右端に「01」という数字が闖入していることに気づいた。書棚から印刷媒体の原本を取り出してみると、当該箇所は、
Whatever the self may be, it is apparently not identical with the physical organism. The organism behaves, while the self initiates or directs behavior.
となっており、私のほうでフォントを大きく表示した「or」が「01」に誤変換されていることが判明した。おそらく、復刻版作成の初期の仮定でOCRの誤変換が見落とされたものと推測される。なお、この284〜285頁のあたりは、原本のレイアウトと復刻版のレイアウトに数行のズレがあり、改行位置も異なっているため、引用する際には注意が必要。