PDFの限界

Pocket

PDF化=電子化と捉える人が多いが、これは誤解だ。PDFは文字データとして抽出できないものが数多くあり、検索した際、内容が該当しても検出されないことがある。よほど運がよくない限りて人の目に留まることのないPDFも存在し、このようなPDFはどんなに価値のある内容でも、ゴミファイルになってしまう。
とはいえ、これだけPDFが使われている現在、いきなりポストPDFへ移行するわけにはいかない。本稿では、PDFの限界を見定め、将来に向けてどうすればいいのか考察する。

PDFとは

PDFは印刷物のデザインを確認するために編み出された形式で、Portable Document Format の略である。
印刷物のデザインは通常、IllustratorやInDeignといった高価な専用ソフトを使って作られる。そのデザインを他の人に確認してもらうためには、ふつう同じ専用ソフトが必要だ。それだけなく、バージョンが合わないとファイルが開かないし、そのデザインで使われているフォントを持っていないと、代用フォントではデザインが崩れてしまう、などなどいろいろ厄介な問題がある。
そのため、専用ソフトがなくてもデザインが確認できるようにファイルをPDF化し、それを無料のPDFリーダーで閲覧する技術が開発された。注1

注1
もっともデザイン・印刷業界では、デザインの確認にPDFを使うことはめったにない。デザインを見せるときは印刷したり、jpgなどの汎用的な画像形式にすればすむからだ。

これが、公官庁の電子化の掛け声に乗っかって広まったのが今日のPDFの姿である。

PDF化=電子化 といえるのか

電子化とは、紙の文書などをコンピューターで扱えるデータにすることだ。
なぜ、電子化が必要なのか?

まず最初にあげられるのは、紙媒体のまま保管するより保管コスト軽減に役立つから。
しかし電子化されたデータは必要なときに、すぐに取り出せなければ保管する意味がない。膨大なデータから特定のデータを取り出す場合、ふつう検索する。ところが、PDFは文字データを抽出できないものもあり、内容が該当しても検出されない。

データを検出されないPDFとはどういうものか、詳しく説明する。
たとえば、MS-Wordなどで文字入力して作った文書をPDF化した場合、ふつうPDFリーダーの検索機能を使って文中の語句を検出することができる。こうしたPDFは、文書の内容を文字データとして保持しているからである。しかし、紙媒体からスキャニングしてPDF化したものには、文書の画面を画像データにしてしまうため、文字データはなく、したがって語句を検出できない。

「いや、透明PDFがあるじゃないか」
と言う人がいるかもしれない。
透明PDFとは、上記のような画像データのPDF(以下、「画像PDF」と称す)から、OCRで文字を読み取り、透明な文字レイヤー上にレイアウトし直して、元の画像に重ねてPDFを作り直す技術、またはその技術で作ったPDFのことである。この透明PDFを使えば該当語句を検出できるし、文字のコピーも可能になる。注2

注2
透明PDFの弱点は、OCRの文字認識の精度にある。確かにここ数年で文字の認識率は向上した。しかしレイアウトを認識できないため、ページ番号を本文に含めてしまったり、紙面の汚れやゴミを記号に変換したりして、意味をなさない文章に改竄する恐れがある。

しかし、透明PDFがあるからいいんだということにはならない。
問題は、透明PDFではない画像PDFが大量に出回っており、今なお、紙媒体からスキャニングしてPDF化する際、透明PDFではなく、画像PDFを日々量産しているという現実があることなのだ。画像PDFを透明PDFに作り直そうという殊勝な人がいたとしても、それが文字検索のできるPDFかどうかは、いちいちPDFリーダーで開いてみないとわからない。判別にも手間がかかってしまう。

しかし画像PDFを放置したまま、いくら高価な検索システムを導入しても、検出洩れするPDFが続出する。その検出洩れしたPDFにどんな重要なことが書かれていたとしても、それはゴミファイルでしかない。
喩えて言うならこうだ。
がんばって100万円をへソくってタンスの奥に隠したものの、ひきだしが開かなくて、お金が取り出せない!

とりあえずは、今あるPDFを生かそう

ではどうすればいいのか?
どのようなアイディアにせよ、実施するには関係者(PDFユーザー=パソコンユーザーほぼ全員)の理解とコストがかかり、一気に進めるのは無理だ。まずは、既存のPDFをもっとうまく生かしていこう。

具体的には、画像PDFも含めて検索ができるようタグ付けし、そのタグを検索するシステムを構築するという方法が有効である。
たとえば、ホームページ上に学術論文をPDF形式で大量に蓄積しているとする。
論文をどのような形で、検索絞り込みしたいか考えてみる。
「著者名」「タイトル」「キーワード」「発表年」等、検索したい項目が決まったら、各論文からそれらの項目を具体的に抽出し、PDFにタグとして関連付ける。つまり一つのPDFに「デジタルエイド」「PDFの限界」「PDF, HTML, EPUB, 検索」「2015年」というタグを付ける。検索システムはPDFそのものではなく、タグを検索し、該当するPDFを絞り込む。(図1)
PDFをタグ検索する
これはデジタルエイドがCD用の論文検索機能として提供しているシステムだが、ホームページでも使える。注3

注3
間違っても、PDFのしおり機能や検索機能に頼ってはならない。PDFの機能は使いにくく、貧弱で、PDFリーダーによってはまともに動かなかったりする。

PDFへの依存を減らそう

「タグ付すれば検出できるのだから、PDFのままでいいじゃないか」
と思う人がいるかもしれない。しかしタグはPDFに直接埋め込むわけではなく、単に関連付けしているだけなので、ちょっとファイルを移動するだけでタグがはがれてしまう。
さらに問題なのは、今現在、重要と思われるキーワードをすべてタグに含めたとしても、将来、何が注目されるかわからない。今はまったく見向きもされないことを、先見の明のある論者が論文中で言及していたとしても、検出できない。
将来の研究者に現在の成果を継承するという観点で考えれば、論文ファイルには以下の4要件が必要になる。

  1. 全文を自由語検索できる。
  2. 検索に必要なタグを論文ファイルに自在に埋め込める。
  3. パソコン環境に依存せず、誰もが閲覧・印刷等できる。
  4. 画像や動画・音声などのデータも扱えること。

この4要件を満たすものとして、最有力なのはホームページで使われるHTMLである。
PDFではなくHTMLにすれば、将来、インターネット上で展開し、スマートフォンなどの新しいデバイスでも閲覧できるようになる。
もし、数式を文字として入れたいとか、縦書きにしたいとかいうのであれば、電子書籍のオープンフォーマットであるEPUB3.0という手もある。EPUBはHTMLを参照して作られているので、技術さえあれば、HTMLからEPUB3.0に変換することは可能だ。

EPUB3.0は通常、電子ブックリーダーで閲覧するが、GoogleChromeのユーザーならプラグインとしてEPUBリーダーを実装すれば、EPUBファイルが閲覧できる。
また、松島智氏が開発したBiB/i(ビビ)のようなWebサイト設置型のリーダーもあり、これをホームページに導入すれば、どんなパソコンでそのままEPUB形式の論文が閲覧できる。

「HTMLにせよ、EPUB3.0にせよ、そこへ変換する技術が必要だ」と思う人がいるかもしれない。
Excelなどの使えないHTML変換機能の話は別にすると、ふつうの人はHTMLが書けない。
書けなくても構わない。印刷屋にWord原稿を回して、印刷用の版組みをしてもらうように、CD/DVD制作サボート業者にWord原稿を突っ込んで、HTMLを作らせればいいのだ。注4

注4
原著論文はJ-STAGEのデータベースに登録しているので、自分で論文を新しいフォーマットにする必要はないと考えている人がいるかもしれない。データベースのメンテナンスはコストかかる。将来、国が財政危機に陥ったとき、J-STAGEの運用が停止する事態はありうる。そんなとき、学会が著作権を持つ原著論文のデータを持っていないということになると、新たにシステムを構築したり、別のシステムに乗り換えたりすることすらできなくなる。

まとめ

PDF化=電子化ではない。PDFからデータの抽出できない画像PDFが数多く存在し、しかもデータが抽出できるPDFと抽出できないPDFの区別もつきにくい。そのため、検索されず、十分活用されないゴミPDFが生じる。とりあえず、PDFに検索タグをつけるなりしてその場をしのぎながら、ファイルのHTML化等を進めよう。

「せっかくPDF化する技術を身に付けたのに、これじゃだめなのか」
とがっかりしないでほしい。
PDFにせよ、これまでちゃんとまとまった形でデータが残せたこと自体はいいことなのだから。これが紙媒体なら散逸する可能性が高い。元データさえあれば、将来への希望につながる。
さあ、これから将来のために、まっとうな電子化を目指そう。

Pocket

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

CAPTCHA