[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

[debian-users:31856] Re: 縦書き PDF で pdftotext( または pdf2txt.pl)



大竹です。

At Fri, 22 Feb 2002 10:55:53 +0900,
knok@xxxxxxxxxxxxx (NOKUBI Takatsugu) wrote:
> 
> <4rkb5kg8@xxxxxxxxxxxxx>の記事において
> ohtake@xxxxxxxxさんは書きました。
> 
> >> 文字が縦方向に書かれているものだと 1文字単位になってしまいます。
> >> 
> >>    (PDFイメージ)     (抽出されたテキスト)
> >>     あ                   あ
> >>     い                   い
> >>     う           →      う
> >>     え                   え
> >>     お                   お
> 
>   以前 namazu-devel にて 
> http://www.namazu.org/ml/namazu-devel-ja/msg02092.html こういう話題が
> あったのですが、そのテキストは pdftotext -raw でもやはり縦になるのでしょ
> うか?

上記URLを確認しました。
で、私も"-raw"オプションを付けているので、上記URLのケースでは問題
ありません。
私が行いたかった事は、新聞の様なイメージの縦書きスタイルPDFからの
という事でした。
で、渥美さんのコメントが大変ヒントになり、なんとか解決しそうです。
# 実際、時間がまだ取れない為、組み込んではいませんが。

更に、実際には"pdftotext"ではなく"pdf2txt.pl"を使ってたりします。
"pdftotext"だと、1文字単位などという極端な感じにはなりません。
しかし、行間で単語が分離してしまう為、同様な感じにはなってしまいます。

# で、縦の「」、句読点、長音とかをどうしようかと思案しているところです。

> # 自分はそういう PDF 文書を持っていなのでちょっと確認できません。

新聞 PDFで検索すると一般ヒットします。
-- 
OHTAKE Kinya    mailto:ohtake@xxxxxxxx