日本の国内規格
日本の国内文字コードには、古くからJIS X0201(1バイト)とJIS X0208(2バイト)があります。英数字はJIS X0201とJIS X0208の両方の文字集合に収容されています。
JIS X0201とJIS X0208を一つにしたのがシフトJISです。シフトJISでは英数字は重複してしまいます。その時代には1バイトは半角文字、2バイトは全角文字と呼ばれていました。
1980年代から2000年頃まではシフトJISが主流でした。ただし、シフトJISを採用していないワープロ専用機も多く使われていました。
Unicode
1980年代の終わり頃にはUnicodeが開発されました。現在は多くのアプリケーションがUnicodeを用いており、文字コードの主流はUnicodeになっていると見られます。
Unicodeは各国の国内コードとの互換性を保つことを優先課題のひとつとしており、日本の国内文字コードとの互換性のために、半角文字と全角文字の両方に異なるコードポイントを与えています。次のようになります。
表:Unicodeの英数字コードポイント
文字 半角文字 全角文字
A~Z U+0041~U+005A U+FF21~U+FF3A
a~z U+0061~U+007A U+FF41~U+FF5A
0~9 U+0030~U+0039 U+FF11~U+FF19
なお、Unicodeは、同じ文字の表示系を2通り以上の文字列(コードポイントシーケンス)で表すことを認めており、正規化という概念を導入して、統一的に扱うことができます。しかし、正規化を実際に実装して利用しているケースは少なく、従って、日本語のテキストでは半角文字と全角文字が混在する状態と見られます。
文字コードのことはここではあまり詳しく説明しません。詳しくは、「PDFインフラストラクチャ解説」をご参照ください。