[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: アーカイブUTF-8化

From: Kenshi Muto <kmuto@xxxxxxxx>
Subject: Re: アーカイブUTF-8化
Date: Mon, 13 Feb 2012 08:54:28 +0900
List-help: <mailto:debian-www-ctl@debian.or.jp?body=help>
List-id: debian-www.debian.or.jp
List-owner: <mailto:debian-www-admin@debian.or.jp>
List-post: <mailto:debian-www@debian.or.jp>
List-software: fml [fml 4.0.3 release (20011202/4.0.3)]
List-unsubscribe: <mailto:debian-www-ctl@debian.or.jp?body=unsubscribe>
X-ml-info: If you have a question, send e-mail with the body "help" (without quotes) to the address debian-www-ctl@debian.or.jp; help=<mailto:debian-www-ctl@debian.or.jp?body=help>
X-ml-name: debian-www
X-mlserver: fml [fml 4.0.3 release (20011202/4.0.3)]; post only (only members can post)
X-original-to: debian-www-dist@debian.or.jp
X-spam-checker-version: SpamAssassin 3.2.5 (2008-06-10) on osdn.debian.or.jp
X-spam-level:
X-spam-status: No, score=-0.2 required=10.0 tests=AWL,KI,TVD_SPACE_RATIO autolearn=disabled version=3.2.5
References: <20120212012553.54EF71A784D@xxxxxxxxxxxxxxxxxxxx> <87zkcovzj9.wl%i38w7i3@xxxxxxxxxxx>
Message-id: <20120212235428.0D0D11A7840@xxxxxxxxxxxxxxxxxxxx>
X-mail-count: 18738
User-agent: Wanderlust/2.15.9 (Almost Unreal) SEMI/1.14.6 (Maruoka) FLIM/1.14.9 (Goj$(D+W(B) APEL/10.8 Emacs/23.2 (x86_64-pc-linux-gnu) MULE/6.0 (HANACHIRUSATO)

武藤＠Debianぷろじぇくとです。

At Mon, 13 Feb 2012 00:31:40 +0900,
AYANOKOUZI, Ryuunosuke wrote:
> > ・nkfを通しているのですが、「ヘッダにUTF-8 MIMEが含まれているけれども本文は
> >   ISO-2022-JP」のメールが化けます。具体的には綾小路さんのメールがUser-Agentに
> >   UTF-8、本文ISO-2022-JPで、UTF-8が使われてしまって本文が化けています。
> >   (→フロー的には自動判定じゃないと面倒なので、MIMEの中身をマジメに見て変換
> >   といったことは避けたい…)
> 
> 言いだしっぺの私のメールが文字化けすると言うことなので、自動判定だけど、
> MIME の中身をマジメに見て変換する perl スクリプトを書いてみました。
> 
> | nkf -ew | mhonarc
> のように、メール 1 通ごとにパイプを噛ませているのであれば、
> 
> | perl debian-www-maildecoder.tidy.pl | mhonarc
> とすると、マジメに変換してくれます。

ありがとうございます。手元で試した限りではうまくいってるかんじです。

> 問題点:
> 
> 1. ヘッダフィールド名の大文字小文字が換わることがあります。
>    例えば、X-MLServer が X-Mlserver になったりします。

これは大きな問題にはならなそうです。

> 2. charset を見てデコードしていますが、未対応の charset の場合
>    (例えば ISO-2022-JP-2 の場合) は、
>    デコードしたい文字列からエンコードの推測を行います。
>    推測に失敗した箇所は出力されません。

これはしょうがないのでまぁいいか。

> 3. nkf -mw に比べて処理時間が23倍程度に増加。
>    (100 通のメールを 1 通ずつ処理した場合)

1通ごとに実行するのはよいけど、全部ビルドし直すのは辛い(できなくは
ないけどusersあたりは2日がかりになりそう)、というかんじですね。

導入したいと思いますが、この作っていただいたフィルタのライセンスは
どうしましょう？
-- 
武藤 健志＠ kmuto @ kmuto.jp
           Debian/JPプロジェクト   (kmuto@debian.org, kmuto@debian.or.jp)
           株式会社トップスタジオ  (kmuto@xxxxxxxxxxxxxxx)
URI: http://kmuto.jp/ (Debianな話題など)

Follow-Ups:
- Re: アーカイブUTF-8化
  - From: AYANOKOUZI, Ryuunosuke

References:
- アーカイブUTF-8化
  - From: Kenshi Muto
- Re: アーカイブUTF-8化
  - From: AYANOKOUZI, Ryuunosuke

Prev by Date: develnews #28 (2/5) 査読願
Next by Date: Debian JP master SVN www commits (rev.1235)
Previous by thread: Re: アーカイブUTF-8化
Next by thread: Re: アーカイブUTF-8化
Index(es):
- Date
- Thread