出社3日目

今日はPerlの文字列処理に集中。

Perl文字コードに関する操作

例えば、CP932で書かれたファイルをバイナリデータとして読み込み解析する場合、Perlだと内部コードはUTF8になるので、文字列リテラルとの照合の際、そのままだと正しい結果にならない。
さらに、元々CP932用に書かれたコードの場合、文字列照合のためにエスケープシーケンスで「\x12\x34」といった具合に、コードで直接表記されているため、それをUTF8用に置き換えると、文字列リテラルの内部コードが変わるのに合わせて、コードの表記も変えなければならない。もしくは、コード表記そのものを止めて、文字列リテラルに置き換えるのもアリかも知れない。