PHPで日本語を扱うときの注意点

日本語は英語とは異なり、1文字を2バイト以上で表すマルチバイト文字であるため、文字コードに注意する必要があります。文字コードは、文字一つ一つを符号化した(番号に置き換えた)ものです。日本語文字コードの代表的なものにはJIS、Shift_JIS、EUC-JP、UTF-8があります。

文字コードの種類

1バイト形文字コード(半角文字)

ASCII(アスキー)
JIS X 0201(JISローマ字、カタカナ)

2バイト形文字コード(全角文字)

JIS X 0208
ISO-2022-JP(JIS)
Shift_JIS
EUC-JP
JIS X 0212(補助漢字)

多言語文字コード

Unicode(ユニコード)
UTF-8
UTF-16

JIS はJIS規格で規定されたもので、メールなどでよく利用されます。Shift_JISはWindowsやMacなどで標準的に使用されています。EUC-JPのEUCはExtendend UNIX Codeの略で、UNIXでよく使用されています。また、UTF-8はUnicodeという、世界の多言語を同時に表す方式の一つで、最近よく利用されています。PHPはほとんどのOSで利用できますが、元々はUNIXで使用するために開発された言語です。Shift_JISやUnicodeで記述することも出来ますが、文字化けなどの問題を起こすこともありますので、EUC-JPで記述することが望ましいでしょう。