[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

[debian-users:31844] Re: 縦書き PDF で pdftotext( または pdf2txt.pl)



静岡大学の渥美です.

多くの方からコメントがあると思いますが...

At Thu, 21 Feb 2002 17:05:15 +0900, OHTAKE Kinya <ohtake@xxxxxxxx> wrote:
> 文字が縦方向に書かれているものだと 1文字単位になってしまいます。
> 
>    (PDFイメージ)     (抽出されたテキスト)
>     あ                   あ
>     い                   い
>     う           →      う
>     え                   え
>     お                   お
> 
> 何となく、そういうものでしようがないとは思うのですが、
> 
>    (PDFイメージ)     (抽出されたテキスト)
>
>
>     う           →      あいうえお
>
>
> 
> みたいにはできないものかと思いまして。
> こういった事は無理でしょうか?

textになってから,下記のフィルタを通すと一行のつながります.長くなりすぎ
るのが難点かも.

pdf2textプログラム | awk '{printf("%s", $0);} END {print "";}'

--
静岡大学総合情報処理センター 専任教官 渥美 清隆
  E-mail: kiyotaka@xxxxxxxxx
  URL: http://www.ka-lab.ac