[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
[debian-users:55360] Re: Beautifulsoup のバグ
こんばんは、櫻井です。
Pythonの話題になったので私も少し。Python標準のHTMLParserでも時々パース出来ずに例外を吐いてしまうページがあります。
ので今回もそれと同系統の話かなぁと思ってROMってました。私の場合は必要な部分だけreで切り抜いてパースしてます。
Debianのaptか、pipやeasy_installか、ソース取ってきてsetup.pyか、パッケージ管理も色々ですよね。rubyやperlでも同じ悩みがあるとどこかで読みました。
私は断然apt派です:-)
では失礼します。
11/06/08 Akihiro Terasaki <aki@xxxxxxxxx>:
> こんばんは。寺崎彰洋です。
>
> BeautifulSoup は存在も知らなかったですし、 python は
> ちょっと使ってみてるだけ、という者ですが。
>
> On Mon, Jun 06, 2011 at 00:27 +0900,
> mlus wrote:
>> def setPriceDatas(data, url):
>> page = urllib2.urlopen(url)
>> soup = BeautifulSoup(page)
>> date_strs = soup.findAll(['span'], attrs={"class" : "date"})
>>
>> ※url は 文字列データのURL表記です。
>>
>> この時点(インスタンス作成直後) で エラーが上がります。
>
> ------------------------------------------------------------
> #!/usr/bin/python
>
> from BeautifulSoup import BeautifulSoup
>
> soup = BeautifulSoup('<html><span class="date">2011/06/08</span></html>')
> print soup.findAll(['span'], attrs={"class" : "date"})
> ------------------------------------------------------------
>
> このようなファイルを作って実行してみましたがエラーには
> なりませんでした。どうやったらエラーが発生するのでしょうか?
> --
> Akihiro Terasaki
>
>