PDFが作られた経緯はいくつも考えられます。
① WordやExcelなどMicrosoftOfficeで作って保存する際にPDFを指定した場合。
② 複合機などで文書をスキャンしてPDF保存した場合。
③ オフセット印刷などの目的でInDesignなどで作成した場合。
これらのうち、①はWordやExcelなどに変換するソフトも入手でき、PDFからテキストファイルを取りだして、再編集をすることも可能なことは多いと考えられます。
③の場合は簡単にテキストファイルが取りだせる場合と取りだせない場合があります。AdobeReaderなどでPDFを開いて文字の全選択ができればテキストファイルをカット&ペーストで取りだすことができます。しかし商業印刷では多様なフォントを使用するので、実際に使用した文字だけをアウトライン化した図形としてPDFにした場合は、そのままではテキストファイルは取りだせません。またフォント埋め込みをしたPDFでは、画面から文字の選択が可能であっても、カット&ペーストをすると意味不明な文字列になる場合があり、テキストファイルとして取りだせないかもしれません。
②は紙面が図像・画像化されていますので、そのままでは文字選択とか文字検索はできません。テキストファイルを取りだすにはOCRにかける必要があり、そのためのソフトも多くあります。またAdobeAcrobatというPDFの加工ツールにもOCR機能があり、そこでは③でアウトライン化された文字(Adobeイラストレータで作られた場合を含め)でもOCR機能が使えます。ただしOCR機能に完全を期待することはできません。取りだしたテキストファイルには人が気づきにくい間違いもありますので、緻密な校正が必要になります。
いずれにしてもワープロやDTPソフトのファイルとは違って、PDFでは文字列ではなく文字単位でコード、フォント、座標位置などの情報を持つことができる反面、文章や文節と言う流れの情報は扱わないので、例えば紙面中に縦中横、横中縦があるとか横書きと縦書きが混在していたら、日本語としては誤ったつながりのテキストが取得されてしまうことがよくあります。例えば表組の表頭・表側部分では縦横の組方向の判別がつかないために、テキストを1文字づつ手で編集し直さねばならないことが多いです。つまりよほど単純な紙面でない限りPDFを文字原稿の代わりに使うのは無理が生じがちです。
しかし雑誌で過去10年分のPDFがあって再利用したいという場合には、同じパターンの記事が多くあると考えられますので、最初にPDFがどのような構造になっていてるのかを解析して、テキストファイルの適切な取り出し方法を見つければ、若干編集作業が必要であってもコンテンツの再利用や電子書籍化はうんと楽になります。PDFの再利用は最初にかならず実験が必要になると考えておけばよいでしょう。
日本語は元は縦組であって、文字は原稿用紙のようにマス目に並ぶような組み方がされていました。そこでは数字には漢数字が使われ、桁の表示も十百千万億のように漢字で表すものでした。しかしカタカナ語の増加と共にアルファベットや算用数字・英記号も日本語表記の中に増えて、それを縦組でどのように表現(組版)するのかについては、いくつもの方式が生まれました。

この例では、WCCやWHOなどの略語ではアルファベットを縦に並べていますが、数字2桁の場合は左の例のように縦中横の組み方をしています。また括弧(パーレン)類は右の例では全角ですが、左の例では2分(半角)になっています。これらはどちらが良いか悪いかという問題ではなく、文章中に出現する記号・約物・数字・アルファベットなどの扱いについて、何らかの統一がされていますので、読みにくさとか見っとも無さにはなっていません。
それには原稿を書いた後で、それらの統一をする作業が必要になり、「【Q】一流のDTPなのに文字組がきたない(横組み)」と同様に原稿整理を行っているからです。特に横書きのワードプロセッサで原稿を書いている場合は漢数字とか縦中横を気にすることはありませんので、それらを縦組みにする際に統一を図る作業は増えていしまいます。
出版制作の段階では、プロの編集者や校正者が原稿をチェックして統一的な使い方になるように整理してからDTP作業に入りますが、もし原稿整理がされていないとプロのDTPソフトで統一感のない、紙面の中のアキにムラのある文字組になってしまいます。
オフィスの文書を縦書きにすることは滅多にありませんが、横書きの原稿を集めて縦組の出版物を作る場合には、原稿整理は2段階になる場合が多いでしょう。まず一旦文字原稿をプログラムによって記号・約物・全角/半角 など一括変換をして、さらに縦組に適切な文字や記号になっているかを人が再調整する必要があります。
AdobeInDesignなどのDTPソフトは、日本の伝統的な文字組版の規則を考慮して作られているので、初期設定のママでも恥ずかしくない文字組にはなりますし、メニュー・ダイアログの設定を変えても使い方が適切ならば問題ないはずです。しかし文字の並びがいびつになる原因はDTPソフトの機能以外にもあり、そもそも原稿に使っている文字種が不適切な場合は、どのようなソフトを使おうともバラけた文字の並びになってしまうことがあります。
例えば、日本語ワープロが登場以来、カナ・数字・アルファベットには全角と半角があり、オフィスではなんとなく使い分けられていますが、出版目的にはこれらの用法に厳格な規則を定めていて、混在してみっともないことにはなりません。もし曖昧な使い分けをしていたならば、文字組の結果は不均一になります。
とりわけ、!“#$%&‘()*+-?/@ などは、全角と半角の使い分けが混同しがちな文字種で、混じって使われていると、前後の文字との間隔がバラバラになってしまいます。また欧文でしか使われない []{}‘’や、和文でしか使われない 「」『』【】を、違う言語の文字と組み合わせてしまっても、文字組版はきれいにいかない場合があります。それは欧文と和文の境界には少しのスペース(4分の1~3分の1)を開ける習慣がありますが、上記の記号・約物・括弧類が和欧入り混じるとDTPソフトではうまく並べにくいからです。特にパソコンのキー入力では引用符“”と ″がうまく使い分けにくいので、誤用が起こりがちです。
和文中に欧文の単語や行が挿入される場合には、行末にどこで折り返すかの処理が大きな問題になります。欧文単語の途中で行が折り返せないので単語単位で行の切れ目を決めることから、英字間が空いてまばらに文字が配列されるみっともないところが出てきてしまいます。それを避けるのはDTPソフトでは難しく、多くの場合に人が原稿のどこかに改行やスペースを入れて調整しています。

和文欧文が混じる場合の文字の並びにはフォントの選択も関係していて、日本で作られた欧文フォントならば和文との整合を考えてデザインされていますが、デザインが面白いからといって海外のフォントをネットからダウンロードして使う際には、そのままではベースラインの位置がずれてしまうことがあります。この場合はその欧文の部分だけベースラインの調整が必要になり、これも手作業になります。
出版の制作過程ではこういった記号や約物などの利用規則を知っている編集者や校正者が原稿をチェックして統一的な使い方になるように整理していますので、DTPソフトで組んだ結果が適切なものとなりますが、もし原稿整理がされていないとDTPソフトでもワードプロセッサと同程度の文字組になってしまいます。原稿整理は、記号・約物・全角/半角 などの統一はプログラムによって一律に変換するやり方がありますが、前述のように誤用とか不適切な使い方とか行末処理による文字間のばらつきなどは、文字組の結果を見てから人が再調整するしかありません。
今のパソコンはUnicode(ISO/IEC 10646)など8ビット単位(UTF-8)で複数バイトの文字を扱えるようになっているので、どこからでも世界中の言語のWebにアクセスできますが、パソコンの中に外国語のフォントが無いと、表示上は□■▭▯などに置き換えられて読むことができません。
「【Q】カタログと同じフォントをWebにも使いたい。」では、WebフォントというWebサーバ側にインストールされたフォントをページデータと共に利用者に送りつけて、Webを最初に作った時のフォントがそのまま再現できる仕組みを説明しましたが、そもそもWebサーバには外国人向けのフォントをわざわざ入れないので外国では表示ができません。
例えば欧米の人が日本のWebを見たならばどうなるでしょうか? 今は機械翻訳も進んでいるので、外国語も(読めるかどうかは別にして)そのまま表示してほしいという要望も出てきました。そこでGoogleは世界中の言語を一つのフォントセットで表現するNotoFontsを開発しました(参考)。これは□などが豆腐文字と呼ばれたので“No more Tofu”の略だと言われています。Webページにこのフォント指定が広まれば、外国文字が見えないことは減っていきます。
NotoFontsの日本語部分はAdobeが制作したもので、活字メーカーであったイワタによる本格的なデザインがされていて、ウェイトも7種類あります。これはWebフォントとしても画期的なことで、従来は画面ではウェイトが不足していたのが欧文並にカバーされています。また従来の日本語Webフォントのちゃんとしたものは有料であったのがGoogle(Adobe)のものは無料であるので、外国のみならず日本国内でも需要が高まるかもしれません。

これらの印刷用にも使えるフォントは、Adobeからオープンソースのゴシック体フォント。「源ノ角ゴシック」として無料提供され、パソコン用のダウンロードサイト(例えば窓の杜)から手に入れることができます。これは日本・中国・韓国で使われている文字を網羅したゴシック体のフォント「Source Han Sans」のうち、日本語部分だけですが、日中韓で使われている漢字を統一されたデザインで利用できるので、東アジアに向けた印刷物やWebページ、ソフトなどに便利かもしれません。(参考)
しかし提供されている書体は角ゴシックのみなので、今これだけで紙面構成をするのは難しいのですが、このフォントは改変や再配布が自由なので、丸ゴシックなども提供され始めています。

文字コードが世界共通になろうとしていることを追いかけて、フォントも最低限のデザインは世界共通になろうとしてるのでしょう。
Webブラウザによる文字表示は、一般的にはそのパソコン内部にあるフォントで行うようになっているので、Webを最初に作った時のデザインが再現するわけではありません。具体的にはOSによって標準フォントは決まってしまいます。
| Windows | メイリオ、MSゴシック、MS明朝、など |
|---|---|
| MacOS | ヒラギノ角ゴシック、ヒラギノ明朝、など |
| iOS | HiraKakuPro、HiraMinPro、など |
| Android | モトヤLシーダ、モトヤLマルベリ、など |
ただしOSの更新で入れ替わったり、利用者がツールを使って変更している場合もあります。
そこでデザイン性が重要な画面ではフォントを画像化してWebに貼り付けることが行われましたが、画像化した文字は検索の対象ではなくなってしまうとか、音声読み上げに対応できない、また修正が行い難くなるので、印刷用と同等のフォントをWebでも任意に使える方法として、Webフォントという仕組みが使われるようになりました。
Webフォントとは、Webサーバ側にインストールされたフォントをページデータと共に利用者に送りつけて、Webを最初に作った時のフォントがそのまま再現できる仕組みで、WebがCSS3(カスケーディングスタイルシート)に対応している場合に使えます。
各Webページの記述の中に、そのページで使うフォントの種類や名前や置いてある場所を書いておくと、利用者がどこのどんな端末からそのページを呼び出しても、サーバー上の該当フォントを参照するようになるので、表示は利用者のパソコン内のフォント環境の制約がなくなります。
この仕組みを使うと、フォントの選択によるデザインの表現領域が広がり、印刷紙面のような詰め組みもできるようにしたところもあります。ただし使用するフォントは欧文では多くの無料フォントがありますが、日本語では無料のものは印刷用とは対応がとれなかったり、印刷用フォントのすべてがWebフォントには対応していないなどで、有料でWebフォントを入手するか利用ライセンス契約をWebサーバを運営する側が結ぶ必要があります。(Webページを閲覧している利用者の負担にはなりません。)
日本語Webフォントは各フォントメーカーが提供するもの以外に、Softbankのフォントプラスのように複数のメーカーのフォントを扱うところもあります。これらのフォントの種類を見定めた上で印刷用のフォントも選択すれば、カタログと同じフォントでWeb上の表現もできるようになります。
Webフォントの利用方法や料金もいくつかの方式があり、そのWebサイトがCMSを使ったものであるのかどうか、利用者数がどれくらいあるのか、課金方式がページビューに応じた方法か固定料金なのか、などによって選択する方式が異なってきます。
一般文書やDTPのページをPDFにすると、どこに持って行っても同じように再現される約束ですが、実際には、①PDFを作成する時点で元ページとは異なってしまう要素や、②PDFを表示するプログラムや環境が異なるために変わってしまう要素があります。
ページの再現を厳密にしなければならない場合は、PDF作成後に、PDFを再表示するプログラムで確認をすれば万全ですが、同時に作成時にもいくつか注意をしておいた方がよいでしょう。
画面への表示では左右は1000~2000ドットの中に文字組版をしますが、印刷では1桁以上細かい単位になり、PDF化の際に文字の位置情報を計算し直すのですが、画面では行末あるいは文字枠に納まらなかった最後の字が納まってしまったり、また納まっていた字が納まらくなったりすることがあります。
こういうことが起こらないようにするには、行の最後の文字の後ろに僅かでも空間があるようにしておくのがよいでしょう。
またWindowsのフォントはPDF化の際にフォント埋め込みはしませんので、他のWindows環境でPDFを再現する場合には問題なくても、それ以外の環境に於いては再現時に該当フォントがないということになります。
従って同一フォント再現を第一に考えるならば、フォント埋め込みのできるもので制作をした方がよいでしょう。特に見出しや装飾的に見なれない欧文フォントを使用する場合は、うまく再現されないとデザインの崩れにもなりますので、気を付ける必要があります。
PDFの表示はAdobe製品やPDF専門ツールで行うだけでなく、Webブラウザなどで表示する場合もあります。PDF専門のツールでは、そのPDFがどのように作られているのかを調べて適切な表示を行うことができます。
しかしWebブラウザやメールソフト、クラウド上のデータ管理ソフトなどが、文書データの一つとしてPDFを扱う場合は、文書内容がどのようなものかを示すだけの簡易表示をしているだけの場合があり、フォントはそのシステムの都合で適当なものに代替されて表示されることがあります。こういった場合でもPCにPDFファイルをダウンロードして表示をすれば、問題ないものが多いと思います。
ネット上で利用するPDFビューアとかPDFリーダーが多くなっていますが、これらはPCの場合のようにPDFをダウンロードして表示するのではなく、サーバー(クラウド)側でPDFをイメージ化してスマホやタブレットの端末に送るものもあり、端末側では一切の設定などが出来ないので、その場合は「読めればよい」簡易表示をしているだけだと考えた方がよいでしょう。
組版とは印刷物などを制作する際の文字の配列の決まりで、紙面構成やデザインの一部でもあります。古くは活字1本々々を組んで印刷版にしていたことからできた用語ですが、今はコンピュータによって文字を並べるので、そのためのソフトウェアの能力として組版レベルが問題にされます。
人が手書きをする時には、句読点を行頭に付けることはしませんが、電子メールやメモ帳アプリでは行頭に打つことも可能で、こういう場合は行頭行末禁則というルールは適応されておらず「組版はしていない」ので、手書きよりも読みにくい紙面になってしまう可能性があります。組版の最低限としては、人が読むのに好ましくない文字の配列を避けるテクニックで、ワードプロセッサやWebはこの最低限のレベルはクリアしています。
さらに目が行や段落に沿って文字を追っていく際に違和感を覚えず、ストレスなく読み続けられるための編集上の工夫がいろいろあって、それを実現する組版処理が次のレベルで、ルビ、見出し、かっこ、文字間隔の調整などがあって、これによって何時間も長文を読んでも疲れにくいように配慮しています。
例えば漢字に読み仮名をつけるルビは、以前は新聞では使わずに括弧書きをしていましたが、文章が中断されて煩雑になるので、新聞活字が大きくなるにつれてルビも使われるようになりました。上等なワードプロセッサやEPUB3の電子書籍はこの中級レベルの組版はクリアしています。
その上のレベルの組版は書籍などで複雑な内容をわかりやすい紙面にするために工夫されていた事柄で、印刷業界で行われていたことを中心に「JIS X 4051:2004 日本語文書の組版方法」という工業規格になっています(Wikipediaに解説有り)。その内容を継承したW3Cの「日本語組版処理の要件(日本語版)」には図版入りで解説があります。この一部分がEPUB3の日本語の規格となりました。InDesignなど現在のDTPソフトはEPUB3よりももっと組版機能が多く、この規格にだいたい沿った内容が備わっています。
しかし実際の高度な組版というのはこれら標準化された要素以外にも多くあり、DTPソフトを使っていても手作業で行うことになります。これらは数式化学式など特定分野にしか使われないもので、また出版社ごとにルールが微妙に異なったりするので、DTPの一般機能には入れられなかったものです。
組版の最低限レベルは読者のストレスをなくすためですが、中級レベルになると編集者や制作者が効率的に紙面統一の作業を進めるための要素が増え、高度な組版になると出版社や著者の好みの要素にも応えるものと考えてもいいでしょう。
印字できる文字に置き換えて処理してよいものと、外字作成をしなければ印字できないものががありますので、印字の使用目的や、該当する名前の原稿を元に判断して進めることになります。
宛名印刷をするパソコンがWindowsの場合に、通常入出力しているいわゆる第1第2水準の「シフトJIS」は、JISの漢字符号の規格では『JIS X 0208(非漢字、第1、第2水準漢字)』というもので、6355文字が使われてきましたが、今日では中国の漢字を含むいわゆる「ユニコード」(規格名称は『JIS X 0221(国際符号化文字集合)』で漢字はほぼ1万字)もWindows標準のフォントで表示・印刷できますので、中国人を含むかなり多くの名前が扱えるようになっています。
ただし、「ユニコード」は仮名漢字変換では出てこない文字もあり、WindowsIMEパッドから部首や画数で呼び出して使うことになります。そこにもない文字は存在する文字に置き換えるか外字作成をします。
日本の人名の外字は大別すると、次の4つになります。
このうち、手書きの際の誤字は学校や自治体文書では書き換えるように、(戸籍と同じ文字でなければならないという特別な処理を除いて)JIS漢字の範囲のものに置き換えることが一般的です。
派生字(異体字)は渡辺の辺の古い字が何十種類もあるような問題で、これらの派生は元は手書きの際の変化で、書く度に異なっていた可能性もあります。JIS漢字にも古い形が何種類か含まれていますので、最も近い字が選ばれます。これらもWindowsIMEパッドの部首などで選びます。
画数変更をした字というのは、本家分家の区別とか、名前の画数占いなどからきていて、誤字と同じ様に通常使用ではJIS漢字の範囲のものに置き換えることが一般的です。
変態仮名を使っている人は既に滅多におられないと思います。
しかし、郵便配達には置き換えが通用しても、どうしても手書きのとおりの印字が必要であると判断した場合は、外字作成をすることになります。
Windowsのバージョンによって外字作成の方法が若干異なります。また基本的には外字を作成したパソコンからでないとプリントはできませんし、アプリケーションソフトによっては外字を認識しない場合もあるので、事前にテストをするかWordなどMicrosoftOfficeの中のソフトを使って宛名印字することになります。
ここで作成する外字は、特定のフォントのみに適用するか、どのフォントに対しても適用するかが選べます。
Windows7では、外字エディターというソフトを起動するので、「スタート」→「すべてのプログラム」→「アクセサリ」→「システムツール」→「外字エディター」と選択します。(Windows8では、「ファイル名を指定して実行」の「名前」のところに「eudcedit」と入れて、eudceditを実行します)
すると64x64ドットのお絵描きプログラムのようなものが現れ、また既存のフォントの字形から必要部分をカット&ペーストして合成することも、それに描きくわえたり消したりできるので、既存フォントと似たものが簡単に作成できます。
作成された外字は、F040~F9FCまでの文字コード領域に割り当てることができ、文字入力はWindowsIMEパッドの、「文字一覧」→「シフトJIS」→「外字」のところから選択することになります。
作成された外字を保存するとか別のWindowsパソコンで使用したい場合は、\windows\fonts\ の下にある、ENDC.EUF と ENDC.TFF の2つのファイルをセットにしてコピーします。宛名印刷を外注される場合には、この2ファイルを添付してください。
文字コードが同じでもフォントによって文字デザインが異なるので、文字入力をした時点での画面と印刷用出力が変わって見えた例でしょう。似た現象に文字化けがありますが、それは主に機種依存文字などJISなど標準の文字種でないものの場合に起こる現象です。
字形の一部が変わるのはフォントデザインの問題ですが、これはJISX2013規格書の中で包摂として説明されている範囲であれば許容されるものです。同じ明朝体を冠した書体であっても包摂の範囲の内での細部デザインは異なる場合があります。
文字の形の細部は楷書体・明朝体・ゴシック体などデザインの差でも変わるもので、しんにょうの形などはそれぞれ大きく異なってしまいます。(例:進 進 進)
また現在主に使われている常用漢字は、いわゆる戦前の旧字(正字)の形とは異なる手書きに近い字形要素が採用されてていて、常用漢字以外の正字は前述の包摂の範囲の変化は許されているので、一貫性がとれない場合があります。(例:尊敬 尊敬)
つまり字形の完全な再現が必要ならフォントを指定する必要があります。例えば漢字の学習用ならそれ用のフォントを使用すると学校教育と合わせられます。一方で特徴のあるデザインのフォントを選んで印刷する場合は、楷書、行書など毛筆書体のように明朝体とは細部のデザインが大幅に変わることがあります。
今日のDTPでは、写真植字の時代よりも多くのフォントが用意されていているので、過去の見本帳と似たDTPフォントに置き換えて制作されるのが一般的ですが、中にはDTPにはない写植独自のフォントも一部あります。
できれば最初の時点でDTPで使えるフォントの見本を提出してもらって、その中から写植からの置き換えフォントを選んでいただくのがよいでしょう。
DTPのフォントを載せた印刷のガイドブックや見本帳も売られていて、あらかじめDTPのフォントを選んで指定することも可能ですが、実際にDTP制作するところにそのフォントが存在するとは限らないので、やはりあらかじめフォント確認をしてから指定するのが実際的です。
欧文の場合はフォントセットの文字数が少ないので、DTP側はフォントが必要になった時点で入手して使うことも可能ですが、日本語フォントは企業単位で契約して使われる場合が多いので、突発的に異なるフォントを使用することは困難になります。
また校正を発注者側で行おうとすると、発注者側にも同じフォントが導入されている必要があります。そのようなことができない場合でも校正をPDFファイルで受け取るように、印刷時のフォントを実際に埋め込んだPDFが使われることがありますが、この場合の修正作業は受け取った側では不可能で、単なるチェック用となります。
使用可能なフォントは制作システムやプリンタ毎に異なるので、DTPで使うフォントはあらかじめ打ち合わせしておくようにしましょう。
文書作成やグラフィックソフトの画面上は平面のように見えてもデータとしては文字や図形や画像などが複雑に重ねあわされた構造をしていますので、そのデータを別のシステムに移して再現しようとした場合に、重ねられたものの扱いが変わってしまって、結果的に何かが消えたり、不要なものが現れたり、位置が狂ったりすることがあります。
特にAdobeなどのプロ用グラフィックソフトでは重ね合わせた結果について手動でオーバープリント/ノックアウトの指示が細かく可能になっているものの、プリンタによってはこういった機能に完全には対応していないものがあるので、図形との組み合わせや重ね合わせがされた文字は、出力の処理が異なると見え方が変わることに注意が必要です。
つまりこういう指定をする場合には、それに対応した出力環境で作業をするか、そういう出力環境で校正出しを依頼することになります。
これを避けるには、ポストスクリプトなどプリンタの種類が異なると図形や文字要素の処理順番が異なることには影響を受けない、jpegなどの統合画像にしてしまう作り方もあります。
またMicrosoftOfficeにおいても、制作段階のソフトのバージョンをプリント時ソフトのバージョンに差があると、重なりや位置に狂いが出る場合があり、データわたしよる場合でも、事前のテストによる確認や校正作業が欠かせません。