[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
org/sitemap 文字化け
- From: Tomohiro KUBOTA <tkubota@xxxxxxxxxxx>
- Subject: org/sitemap 文字化け
- Date: Fri, 6 Jul 2001 08:33:00 +0900
- X-ml-info: If you have a question, send e-mail with the body "help" (without quotes) to the address debian-www-ctl@debian.or.jp; help=<mailto:debian-www-ctl@debian.or.jp?body=help>
- X-ml-name: debian-www
- X-mlserver: fml [fml 3.0pl#17]; post only (only members can post)
- Message-id: <87d77f0wvr.wl@xxxxxxxxxxxxxxxxxxxxx>
- X-mail-count: 02338
- User-agent: Wanderlust/1.1.1 (Purple Rain) EMY/1.13.8 (Tastes differ) FLIM/1.13.2 (Kasanui) APEL/10.2 Emacs/20.7 (i386-debian-linux-gnu) MULE/4.1 (AOI)
どうも、久保田です。
debian-{www,i18n}@org のほうで話題にしているのですが、www.debian.org
のサイトマップの日本語のページが文字化けしています。
http://www.debian.org/sitemap
このサイトマップは各ページ wml ソースの先頭にある title="hogehoge" を
自動的に収集して作られています (と思う) が、その hogehoge のなかに
0x22 (つまり、「"」) が含まれている場合に文字化けするようです。
大別して、ふたつの解決策があるように思います。
ひとつは、wml パーサを改良すること。リンク先の各ページのタイトルは
文字化けしていないので、何らかの方法があるように思えます。
もうひとつは、別のエンコーディングに移行してしまうという方法です。
いまどき <META HTTP-EQUIV="Content-Type" CONTENT="text/html;
charset=arege"> を理解しないブラウザなんてないだろう、という
憶測に基いています。候補となるエンコーディングは EUC-JP だと思います。
(Shift_JIS は 2 バイト文字の 2 バイト目に 0x40-0x7e が現れる
のであまり改善にならないし、UTF-8 は現時点では尚早。たぶん
w3/emacs (without Mule-UCS) とかだと見れないだろうし。)
ほんらいは debian-www@org などで進めるべき話題ですが、最近の
日本語のウェブページ事情に詳しい人が、こちらのほうが多いだろうから、
こちらでも平行して議論したいと思います。
ちなみに、Debian のウェブページに使われている他のエンコーディング
のなかでは、Big5 が 2 バイト目に 0x40-0x7e が現れるのみで、0x22 が
問題になるのは ISO-2022-JP のみです。
---
久保田智広 Tomohiro KUBOTA <kubota@debian.org>
http://www.debian.or.jp/~kubota/
"Introduction to I18N" http://www.debian.org/doc/manuals/intro-i18n/