[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
[debian-users:31856] Re: 縦書き PDF で pdftotext( または pdf2txt.pl)
- From: OHTAKE Kinya <ohtake@xxxxxxxx>
- Subject: [debian-users:31856] Re: 縦書き PDF で pdftotext( または pdf2txt.pl)
- Date: Fri, 22 Feb 2002 13:29:49 +0900
- Organization: J-SYS
- X-face: "&]u["p**>d3C[&Jwd39B5{;;6%xQo&tjS0ds7pAin^HR+}.*J=Yupgbx.s1E))"CC}l&DJ rg6mSg;~5|R)0s`5wG?`6t4pVnc+Oa5~QB&eW\wGWhp.9cs*>A;lw>F"Bh2n`R.*k.DkJuP(K3[SvX ]v'RH7m;.Z9go$P>kJ7W(`^Xw.f^!(H!8vIW\*-i"<~<YQs;EmaeH1HP*=%@F
- X-face-version: X-Face utility v1.3.6.13 - "Eleanor Rigby (remix)"
- X-ml-info: If you have a question, send e-mail with the body "help" (without quotes) to the address debian-users-ctl@debian.or.jp; help=<mailto:debian-users-ctl@debian.or.jp?body=help>
- X-ml-name: debian-users
- X-mlserver: fml [fml 3.0pl#17]; post only (only members can post)
- Message-id: <u1sa16mc@xxxxxxxxxxxxx>
- X-mail-count: 31856
- User-agent: Wanderlust/2.8.1 (Something) SEMI/1.14.3 (Ushinoya) FLIM/1.14.3 (Unebigorymae) APEL/10.3 MULE XEmacs/21.4 (patch 6) (Common Lisp) (i386-debian-linux)
大竹です。
At Fri, 22 Feb 2002 10:55:53 +0900,
knok@xxxxxxxxxxxxx (NOKUBI Takatsugu) wrote:
>
> <4rkb5kg8@xxxxxxxxxxxxx>の記事において
> ohtake@xxxxxxxxさんは書きました。
>
> >> 文字が縦方向に書かれているものだと 1文字単位になってしまいます。
> >>
> >> (PDFイメージ) (抽出されたテキスト)
> >> あ あ
> >> い い
> >> う → う
> >> え え
> >> お お
>
> 以前 namazu-devel にて
> http://www.namazu.org/ml/namazu-devel-ja/msg02092.html こういう話題が
> あったのですが、そのテキストは pdftotext -raw でもやはり縦になるのでしょ
> うか?
上記URLを確認しました。
で、私も"-raw"オプションを付けているので、上記URLのケースでは問題
ありません。
私が行いたかった事は、新聞の様なイメージの縦書きスタイルPDFからの
という事でした。
で、渥美さんのコメントが大変ヒントになり、なんとか解決しそうです。
# 実際、時間がまだ取れない為、組み込んではいませんが。
更に、実際には"pdftotext"ではなく"pdf2txt.pl"を使ってたりします。
"pdftotext"だと、1文字単位などという極端な感じにはなりません。
しかし、行間で単語が分離してしまう為、同様な感じにはなってしまいます。
# で、縦の「」、句読点、長音とかをどうしようかと思案しているところです。
> # 自分はそういう PDF 文書を持っていなのでちょっと確認できません。
新聞 PDFで検索すると一般ヒットします。
--
OHTAKE Kinya mailto:ohtake@xxxxxxxx