[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: アーカイブUTF-8化



武藤@Debianぷろじぇくとです。

At Mon, 13 Feb 2012 00:31:40 +0900,
AYANOKOUZI, Ryuunosuke wrote:
> > ・nkfを通しているのですが、「ヘッダにUTF-8 MIMEが含まれているけれども本文は
> >   ISO-2022-JP」のメールが化けます。具体的には綾小路さんのメールがUser-Agentに
> >   UTF-8、本文ISO-2022-JPで、UTF-8が使われてしまって本文が化けています。
> >   (→フロー的には自動判定じゃないと面倒なので、MIMEの中身をマジメに見て変換
> >   といったことは避けたい…)
> 
> 言いだしっぺの私のメールが文字化けすると言うことなので、自動判定だけど、
> MIME の中身をマジメに見て変換する perl スクリプトを書いてみました。
> 
> | nkf -ew | mhonarc
> のように、メール 1 通ごとにパイプを噛ませているのであれば、
> 
> | perl debian-www-maildecoder.tidy.pl | mhonarc
> とすると、マジメに変換してくれます。

ありがとうございます。手元で試した限りではうまくいってるかんじです。

> 問題点:
> 
> 1. ヘッダフィールド名の大文字小文字が換わることがあります。
>    例えば、X-MLServer が X-Mlserver になったりします。

これは大きな問題にはならなそうです。

> 2. charset を見てデコードしていますが、未対応の charset の場合
>    (例えば ISO-2022-JP-2 の場合) は、
>    デコードしたい文字列からエンコードの推測を行います。
>    推測に失敗した箇所は出力されません。

これはしょうがないのでまぁいいか。

> 3. nkf -mw に比べて処理時間が23倍程度に増加。
>    (100 通のメールを 1 通ずつ処理した場合)

1通ごとに実行するのはよいけど、全部ビルドし直すのは辛い(できなくは
ないけどusersあたりは2日がかりになりそう)、というかんじですね。

導入したいと思いますが、この作っていただいたフィルタのライセンスは
どうしましょう?
-- 
武藤 健志@ kmuto @ kmuto.jp
           Debian/JPプロジェクト   (kmuto@debian.org, kmuto@debian.or.jp)
           株式会社トップスタジオ  (kmuto@xxxxxxxxxxxxxxx)
URI: http://kmuto.jp/ (Debianな話題など)