[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

org/sitemap 文字化け



どうも、久保田です。

debian-{www,i18n}@org のほうで話題にしているのですが、www.debian.org
のサイトマップの日本語のページが文字化けしています。

  http://www.debian.org/sitemap

このサイトマップは各ページ wml ソースの先頭にある title="hogehoge" を
自動的に収集して作られています (と思う) が、その hogehoge のなかに
0x22 (つまり、「"」) が含まれている場合に文字化けするようです。

大別して、ふたつの解決策があるように思います。

ひとつは、wml パーサを改良すること。リンク先の各ページのタイトルは
文字化けしていないので、何らかの方法があるように思えます。
	
もうひとつは、別のエンコーディングに移行してしまうという方法です。
いまどき <META HTTP-EQUIV="Content-Type" CONTENT="text/html;
charset=arege"> を理解しないブラウザなんてないだろう、という
憶測に基いています。候補となるエンコーディングは EUC-JP だと思います。
(Shift_JIS は 2 バイト文字の 2 バイト目に 0x40-0x7e が現れる
のであまり改善にならないし、UTF-8 は現時点では尚早。たぶん
w3/emacs (without Mule-UCS) とかだと見れないだろうし。)

ほんらいは debian-www@org などで進めるべき話題ですが、最近の
日本語のウェブページ事情に詳しい人が、こちらのほうが多いだろうから、
こちらでも平行して議論したいと思います。

ちなみに、Debian のウェブページに使われている他のエンコーディング
のなかでは、Big5 が 2 バイト目に 0x40-0x7e が現れるのみで、0x22 が
問題になるのは ISO-2022-JP のみです。

---
久保田智広 Tomohiro KUBOTA <kubota@debian.org>
http://www.debian.or.jp/~kubota/
"Introduction to I18N"  http://www.debian.org/doc/manuals/intro-i18n/