[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
Re: アーカイブUTF-8化
武藤@Debianぷろじぇくとです。
At Mon, 13 Feb 2012 00:31:40 +0900,
AYANOKOUZI, Ryuunosuke wrote:
> > ・nkfを通しているのですが、「ヘッダにUTF-8 MIMEが含まれているけれども本文は
> > ISO-2022-JP」のメールが化けます。具体的には綾小路さんのメールがUser-Agentに
> > UTF-8、本文ISO-2022-JPで、UTF-8が使われてしまって本文が化けています。
> > (→フロー的には自動判定じゃないと面倒なので、MIMEの中身をマジメに見て変換
> > といったことは避けたい…)
>
> 言いだしっぺの私のメールが文字化けすると言うことなので、自動判定だけど、
> MIME の中身をマジメに見て変換する perl スクリプトを書いてみました。
>
> | nkf -ew | mhonarc
> のように、メール 1 通ごとにパイプを噛ませているのであれば、
>
> | perl debian-www-maildecoder.tidy.pl | mhonarc
> とすると、マジメに変換してくれます。
ありがとうございます。手元で試した限りではうまくいってるかんじです。
> 問題点:
>
> 1. ヘッダフィールド名の大文字小文字が換わることがあります。
> 例えば、X-MLServer が X-Mlserver になったりします。
これは大きな問題にはならなそうです。
> 2. charset を見てデコードしていますが、未対応の charset の場合
> (例えば ISO-2022-JP-2 の場合) は、
> デコードしたい文字列からエンコードの推測を行います。
> 推測に失敗した箇所は出力されません。
これはしょうがないのでまぁいいか。
> 3. nkf -mw に比べて処理時間が23倍程度に増加。
> (100 通のメールを 1 通ずつ処理した場合)
1通ごとに実行するのはよいけど、全部ビルドし直すのは辛い(できなくは
ないけどusersあたりは2日がかりになりそう)、というかんじですね。
導入したいと思いますが、この作っていただいたフィルタのライセンスは
どうしましょう?
--
武藤 健志@ kmuto @ kmuto.jp
Debian/JPプロジェクト (kmuto@debian.org, kmuto@debian.or.jp)
株式会社トップスタジオ (kmuto@xxxxxxxxxxxxxxx)
URI: http://kmuto.jp/ (Debianな話題など)