制作お役立ち便利帳
文字に関するご質問

Q 文字原稿の代わりにPDFは使えますか?

A

PDFが作られた経緯はいくつも考えられます。

① WordやExcelなどMicrosoftOfficeで作って保存する際にPDFを指定した場合。
② 複合機などで文書をスキャンしてPDF保存した場合。
③ オフセット印刷などの目的でInDesignなどで作成した場合。

これらのうち、①はWordやExcelなどに変換するソフトも入手でき、PDFからテキストファイルを取りだして、再編集をすることも可能なことは多いと考えられます。

③の場合は簡単にテキストファイルが取りだせる場合と取りだせない場合があります。AdobeReaderなどでPDFを開いて文字の全選択ができればテキストファイルをカット&ペーストで取りだすことができます。しかし商業印刷では多様なフォントを使用するので、実際に使用した文字だけをアウトライン化した図形としてPDFにした場合は、そのままではテキストファイルは取りだせません。またフォント埋め込みをしたPDFでは、画面から文字の選択が可能であっても、カット&ペーストをすると意味不明な文字列になる場合があり、テキストファイルとして取りだせないかもしれません。

②は紙面が図像・画像化されていますので、そのままでは文字選択とか文字検索はできません。テキストファイルを取りだすにはOCRにかける必要があり、そのためのソフトも多くあります。またAdobeAcrobatというPDFの加工ツールにもOCR機能があり、そこでは③でアウトライン化された文字(Adobeイラストレータで作られた場合を含め)でもOCR機能が使えます。ただしOCR機能に完全を期待することはできません。取りだしたテキストファイルには人が気づきにくい間違いもありますので、緻密な校正が必要になります。

いずれにしてもワープロやDTPソフトのファイルとは違って、PDFでは文字列ではなく文字単位でコード、フォント、座標位置などの情報を持つことができる反面、文章や文節と言う流れの情報は扱わないので、例えば紙面中に縦中横、横中縦があるとか横書きと縦書きが混在していたら、日本語としては誤ったつながりのテキストが取得されてしまうことがよくあります。例えば表組の表頭・表側部分では縦横の組方向の判別がつかないために、テキストを1文字づつ手で編集し直さねばならないことが多いです。つまりよほど単純な紙面でない限りPDFを文字原稿の代わりに使うのは無理が生じがちです。

しかし雑誌で過去10年分のPDFがあって再利用したいという場合には、同じパターンの記事が多くあると考えられますので、最初にPDFがどのような構造になっていてるのかを解析して、テキストファイルの適切な取り出し方法を見つければ、若干編集作業が必要であってもコンテンツの再利用や電子書籍化はうんと楽になります。PDFの再利用は最初にかならず実験が必要になると考えておけばよいでしょう。