[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

[debian-users:31841] 縦書き PDF で pdftotext(または pdf2txt.pl)



大竹です。

NamazuでPDFを検索対象にしようとしているのですが、ちょっとこういう事
ができないかなぁと思いまして、皆様にお聞きしたいと思います。

文字が横方向に書かれているPDFファイルからの抽出は問題なくできます。

   (PDFイメージ)     (抽出されたテキスト)
    あいうえお    →     あいうえお

文字が縦方向に書かれているものだと 1文字単位になってしまいます。

   (PDFイメージ)     (抽出されたテキスト)
    あ                   あ
    い                   い
    う           →      う
    え                   え
    お                   お

何となく、そういうものでしようがないとは思うのですが、

   (PDFイメージ)     (抽出されたテキスト)
    あ
    い
    う           →      あいうえお
    え
    お

みたいにはできないものかと思いまして。
こういった事は無理でしょうか?
-- 
OHTAKE Kinya    mailto:ohtake@xxxxxxxx