2006 年 3 月 14 日 23 時 56 分

文字コード関係のモジュール


このアーカイブは同期化されません。 mixi の日記が更新されても、このアーカイブには反映されません。


ハンドルを乗っ取る方法はわかった。
では、文字コードの変換を考えてみよう。
(文字集合の符号化方式の変換)を考えてみよう。

日本語の文字コードには、ポピュラーなものに、
SHIFT JIS, JIS, EUC の三種類がある。
それぞれ、Windows, 電子メール、UNIX で使用されている。

それらは、利用している文字集合こそ殆ど同じなのだが、
符号化方式(エンコーディング)が異なるため、
プログラムで取り扱うには非常に面倒である。

しかしながら、Perl においては、
符号化方式の変換を行うためのモジュールが、
有志によって製作されており、公開されているため、
それらを使って簡単に実装することができる。

古いが、未だに幅広く使われているのが、jcode.pl だ。

これは Perl 4 時代からあるパッケージで、
CGI = BBS などと言われていた時代に、
数え切れない場所で利用された実績を誇るスクリプトである。

そして、後継として多く利用されている Jcode モジュール。

これは、jcode.pl に対してオブジェクト指向と、
Unicode に対応したバージョンである。

jcode 互換のインタフェースを持っているため、
システムやデータベースの Unicode 対応と共に、
jcode.pl から移行したケースが多い。

そして、最先端を行っているのが、Encode モジュールだ。
これは、Perl 5.8 系の標準でもある。

日本語に限らず、IANA に登録されている
世界の文字コードに対応する勢いすらあり、
Perl の文字コードの基盤技術になりつつある。

では、明日はこれらのモジュールの力を借りて、
文字コードの変換を行ってみよう。



Copyright (c) 1994-2007 Project Loafer. All rights reserved.