[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: org/sitemap 文字化け



久保田です。

At Tue, 10 Jul 2001 22:03:53 +0900,
Seiji Kaneko <skaneko@xxxxxxxxxxxx> wrote:

> 個人的には、やっぱり latin が混在できないので EUC-JP はヤ
> です。Bug 関係の翻訳でも iso-8859-1 は出てきますし、そこは
> 私は実体参照で逃げてしまったけど、こんなこと翻訳者にさせて
> いたら敷居が高くなるだけです :-)

ISO-2022-JP encoding では、ISO-8859-1 character set は使えませんけど。
(ちなみに、ISO-2022-JP-2 なら使えます。が、そういうことで
いいのでしょうか?)

ISO-8859-1 文字を使いたくなる場面というのは、たぶん原文で
人名に使われている場合だと思いますが、われわれだって英文では
名前を ASCII 文字に置き換えて表現しているのですから、
ISO-8859-1 文字が出てくる人名も、相当する ASCII 文字に置き
換えてしまってもいいと思います。実体参照は、使ってもいいけど
使わないのも可、という位置付けだと思います。

ところで、ISO-2022 (ISO-2022-JP ではなく) を使って日本語と
ISO-8859-1 文字とを混在させたページの例ってありますか?
じつは、webwml/japanese 以下にいくつか (たぶん誤って)
EUC-JP で書かれたページがあるのですが、それらは html 化
されたときには ISO-2022-JP になっているのです。その過程の
どこかでエンコーディングが変換されているはずなのですが、
ISO-8859-1 文字はそこを正しく通ることができるのかなあ、と
いうのが心配で。

私は ISO-2022-JP の利点は、EUC-JP / Shift_JIS だと自動判別を
誤る場合がある、ということだけだと思っていました。。。

---
久保田智広 Tomohiro KUBOTA <kubota@debian.org>
http://www.debian.or.jp/~kubota/
"Introduction to I18N"  http://www.debian.org/doc/manuals/intro-i18n/