[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
[debian-devel:13074] Re: jgroff patch handling on latin1 (Re: linuxdoc-tools: no Korean .txt output!)
> ライブラリがどう変換してくれるかに依存します。
> groff が iconv(3) を使うとして、エラーの出る文字については
> 「?」に置き換えるなど、気を利かせてくれれば、manpage 全体が
> エラーで読めないという事態は防げますが、それでも「?橋」に
> なるでしょう。
どこがどういけないか通じていないかもしれないので、補足。
1. JIS X 0208 の「高」という文字は、「くち高」と「はしご高」の
両方の字形を包摂した文字概念である。
2. Big5 由来のコード集合は、字形集合であり、字形の異なる
「くち高」と「はしご高」はそれぞれ別のコードポイントを持つ。
3. JIS X 0208 の「包摂高」は、「くち高」と「はしご高」の
両方であり、「はしご高」を明らかに排除した「くち高」や、
その逆とは両立しない。したがって、「包摂高」、「くち高」、「はしご高」
の三つのコードポイントが統合コードポイント集合には必要である。
4. しかし、Unicode には対応するコードポイントは二つしかないため、
おそらく「包摂高」という文字は Unicode には存在しない。
5. 「くち高」でない「はしご高」、あるいは「はしご高」でない「くち高」
は「包摂高」とは違うものなので、これらの間の直接のマッピングは
正しくない。「包摂高」+「異体タグ」を「くち高」、「はしご高」の
いずれかの字形コードにマップするのは正しい。
6. でもそんなことをいまさら言ってもしかたないので、「包摂高」は「くち高」
のコードポイントにマップすることにして、「はしご高」は「包摂高」+
「異体タグ」にしましょう、という解がある。(樋浦の提案?)
7. この様な「異体」がどれくらいあるかは、Unicode 3.0 の CJK ファイルを
見てみるとよい。
--
伊藤 希 (のぞみ)
nozomi@xxxxxxxxxxxxxxxxxx