[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
Re: アーカイブUTF-8化
- From: "AYANOKOUZI, Ryuunosuke" <i38w7i3@xxxxxxxxxxx>
- Subject: Re: アーカイブUTF-8化
- Date: Mon, 13 Feb 2012 00:31:40 +0900
- Dkim-signature: v=1; a=rsa-sha256; c=relaxed/relaxed; d=yahoo.co.jp; s=yj20110701; t=1329060699; bh=jj2gEPKGJS8JbkH9iPBQjJFJlqnPQlumFG5pJCGa1rY=; h=Received:X-Apparently-From:Date:Message-ID:From:To:Subject:In-Reply-To:References:User-Agent:MIME-Version:Content-Type:Content-Transfer-Encoding; b=dEir0ymVUEE2HCEIe4mbFLv6yZNgIk46D/9FBAC0kwViBufpF1gkZimSSyuNKea1LSZECl6oZLuJ9LVS8ZMKAkt0tLaK29Bz/++TZASP4IU4JqxqPrXK1Q6Z+yd5Z7bciI9AUby50YYpPW0Di0fIj6Ns4skIPJnEGQhxrKuDJcE=
- Domainkey-signature: a=rsa-sha1; q=dns; c=nofws; s=yj20110701; d=yahoo.co.jp; h=Received:X-Apparently-From:Date:Message-ID:From:To:Subject:In-Reply-To:References:User-Agent:MIME-Version:Content-Type:Content-Transfer-Encoding; b=pwxECPbFSKdpsC0eauTirFgLfA180amtP9HWeHwBI8TG0Lf2rv2Y3xb68BaWyF4rJlrrGFirI73mg5Y4YXMfM134IjJAu9o3+ZYU3zX43i2O4pin6B8K/jpm5vE1arFHIS136YcnKPEuOT2qv8O/GWYt5g6cPLaOWrLnyhDMxJ8= ;
- List-help: <mailto:debian-www-ctl@debian.or.jp?body=help>
- List-id: debian-www.debian.or.jp
- List-owner: <mailto:debian-www-admin@debian.or.jp>
- List-post: <mailto:debian-www@debian.or.jp>
- List-software: fml [fml 4.0.3 release (20011202/4.0.3)]
- List-unsubscribe: <mailto:debian-www-ctl@debian.or.jp?body=unsubscribe>
- X-apparently-from: <i38w7i3@xxxxxxxxxxx>
- X-ml-info: If you have a question, send e-mail with the body "help" (without quotes) to the address debian-www-ctl@debian.or.jp; help=<mailto:debian-www-ctl@debian.or.jp?body=help>
- X-ml-name: debian-www
- X-mlserver: fml [fml 4.0.3 release (20011202/4.0.3)]; post only (only members can post)
- X-spam-checker-version: SpamAssassin 3.2.5 (2008-06-10) on osdn.debian.or.jp
- X-spam-level:
- X-spam-status: No, score=0.5 required=10.0 tests=KI,TVD_SPACE_RATIO autolearn=disabled version=3.2.5
- References: <20120212012553.54EF71A784D@xxxxxxxxxxxxxxxxxxxx>
- Message-id: <87zkcovzj9.wl%i38w7i3@xxxxxxxxxxx>
- X-mail-count: 18735
- User-agent: Wanderlust/2.14.0 (Africa) SEMI/1.14.6 (Maruoka) FLIM/1.14.9 (Gojō) APEL/10.8 Emacs/23.2 (i486-pc-linux-gnu) MULE/6.0 (HANACHIRUSATO)
綾小路です。
> MLのアーカイブ(lists.debian.or.jp)をUTF-8に切り替えました。
対応していただき、ありがとうございます。
> ・nkfを通しているのですが、「ヘッダにUTF-8 MIMEが含まれているけれども本文は
> ISO-2022-JP」のメールが化けます。具体的には綾小路さんのメールがUser-Agentに
> UTF-8、本文ISO-2022-JPで、UTF-8が使われてしまって本文が化けています。
> (→フロー的には自動判定じゃないと面倒なので、MIMEの中身をマジメに見て変換
> といったことは避けたい…)
言いだしっぺの私のメールが文字化けすると言うことなので、自動判定だけど、
MIME の中身をマジメに見て変換する perl スクリプトを書いてみました。
| nkf -ew | mhonarc
のように、メール 1 通ごとにパイプを噛ませているのであれば、
| perl debian-www-maildecoder.tidy.pl | mhonarc
とすると、マジメに変換してくれます。
問題点:
1. ヘッダフィールド名の大文字小文字が換わることがあります。
例えば、X-MLServer が X-Mlserver になったりします。
2. charset を見てデコードしていますが、未対応の charset の場合
(例えば ISO-2022-JP-2 の場合) は、
デコードしたい文字列からエンコードの推測を行います。
推測に失敗した箇所は出力されません。
3. nkf -mw に比べて処理時間が23倍程度に増加。
(100 通のメールを 1 通ずつ処理した場合)
綾小路龍之介
--
AYANOKOUZI, Ryuunosuke <i38w7i3@xxxxxxxxxxx>
Attachment:
debian-www-maildecoder.tidy.pl
Description: Binary data
Attachment:
pgpPZWz5wsW7Y.pgp
Description: PGP signature