[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: DPN 翻訳作業の今後の方針 (原文に対する翻訳文候補)



綾小路です。

At Tue, 7 Feb 2012 08:58:06 +0900,
KURASHIKI Satoru wrote:
> 
> At Mon, 6 Feb 2012 15:25:08 +0900,
> AYANOKOUZI, Ryuunosuke wrote:
> >
> > 原文に対する翻訳文の表現を統一するための第一歩として、index.wml 内の
> > パターン化されたと判断できる部分に翻訳文の候補を付け加えて訳者の皆様に
> > 提供できるようになりました。今後は翻訳文候補を加えたものを添付します。
> > これをすることで、類似した原文に対応する翻訳文の表現を訳者の方が
> > 翻訳済み DPN から探したり再翻訳する手間が省けます。参考に、未翻訳である
> > DPN-2010-16 を翻訳する場合に提供されるファイルを添付しました。
> 
> > 原文がパターン化されていると判断された場合、翻訳文候補が 1 つだけ
> > 挙げられます。翻訳文の候補は、翻訳済み DPN の原文と翻訳文の対応関係を
> > 基にして適当に(類似度、同一の翻訳文の数を基準に) 選択されます。
> 
> 素晴らしい取り組みですね。
> 
> どのような実装かよくわかってないですが、他言語でも汎用がきく
> ようなものですか?

多言語でも汎用的に利用できます。
基本的には翻訳先の言語の種類に制限はありません。
翻訳先言語の種類に制限を加えたくなかったため、
原文側に 2 つの制限を設けています。

1. 原文が英語であること。

理由:
原文同士の類似度判定に Ngram を使っているため。

2. 翻訳文候補の単位は xpath で指定できるものに限定されること。

理由:
原文と翻訳文とで xpath が同じものを原文と翻訳文の対応関係としているため。
例えば、文節単位で翻訳文候補を挙げることは出来ません。

> あと、英語版の記者にも認知してもらったら、定型文を定型文の
> まま (気まぐれに表記を変えない) 配慮をしてもらえたりしない
> ですかねぇ。

原文側の記者に定型文の表現ゆれを減らすように提言することには賛成です。
ただし、定型文と思しき箇所の原文側に表現のゆれがあることは非常にまれであり、
一度変化すると、その変化は次号からは踏襲されています。
例えば 2011 年に 15 回発行された DPN の Want to continue reading DPN? の節は
DPN-2011-15 を除けば全て同一です。また、New and noteworthy packages の節の
1 段落目は 05 と 06 の間で変更があったものの、01 - 05 と 06 - 15
のそれぞれではほとんど同じです。

これは、原文の記者チームには定型文のストックがあり、これに適当な引数
(各号で異なる情報、例えば「不安定版に追加されたパッケージの数」等)
を与えて記事を生成していることが推測されます。

これが真実の場合、原文の記者チームへの提言には、
別アプローチを取るべきではないかと思います。

常に同じものに関しては wml の include プリプロセッサを使い、
一部違う (引数が必要な) ものに関してはマクロプリプロセッサを使うこと、
これがベストな選択だと思います。
原文側は定型文からなる記事を生成する部分を wml に任せることができ、
翻訳側は定型文の翻訳の回数が減ります。

今のところ、原文側の表記ゆれに対応させるため、原文同士の Ngram
類似度を計算しています。類似度が閾値 (0.5) を下回らなければ、
翻訳文候補が挙げられます。

上に挙げたアプローチが原文の記者チームに認められ、定型文の翻訳が済めば、
そもそもNgram 類似度に基づく翻訳文候補の計算は必要なくなるため、
翻訳版の公開スピードは上がると期待されます。

> > テストで感じた 2 つの問題点とその解決策。
> >
> > 1. 同一 or 類似の原文に対する翻訳文表現が統一されていない箇所がある。
> >
> > 解決策:
> > メーリングリストで原文と翻訳文を示し、適切な翻訳文を選択する機会を設けます。
> > できれば次の DPN が発行される前に完了したいです。
> > 翻訳文候補は翻訳済み DPN から選ばれるため、翻訳済み DPN の翻訳文表現が
> > 統一されれば、翻訳文候補には統一化された翻訳文以外を挙がらないようになります。
> 
> これで問題ないと思います。既存翻訳にも目配り頂いているなかで
> 反映される、という意図ですよね。

そうです。1 週間程度待って、反対のレスポンスが無ければ順次
翻訳ゆれのある部分をメーリングリストに流す予定です。

> > 2. タグやその属性、属性値の対応関係チェックが行われない。
> >
> > 解決策:
> > 翻訳によりタグ位置の入れ替えなどが起きることは避けられず、
> > 単純なツリー構造の比較ではチェックできません。
> > 該当箇所の担当訳者の方にこれらチェックをお願いします。
> 
> これも仕方ないですね。あくまで、利用できる訳文候補を最初から
> 一緒につけてもらえる、ということだと理解しました。

Ngram 類似度が 1.0 の場合は原文同士が完全に一致している
と言うことなので、マークアップ構造のチェックは要らないかもしれません。
ただし、Ngram 類似度が 1.0 の場合であっても、
原文に対する翻訳文が常に同じものであるとは限りません。
このような場合、翻訳文の選択は多数決で行われます。
(同じ翻訳文の数が多いものが選択されます。)
このため、翻訳文の意味内容の確認は訳者の方々にお願いすることになります。

よろしくお願いします。
綾小路龍之介
-- 
AYANOKOUZI, Ryuunosuke <i38w7i3@xxxxxxxxxxx>