[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

[debian-users:55360] Re: Beautifulsoup のバグ



こんばんは、櫻井です。

Pythonの話題になったので私も少し。Python標準のHTMLParserでも時々パース出来ずに例外を吐いてしまうページがあります。

ので今回もそれと同系統の話かなぁと思ってROMってました。私の場合は必要な部分だけreで切り抜いてパースしてます。

Debianのaptか、pipやeasy_installか、ソース取ってきてsetup.pyか、パッケージ管理も色々ですよね。rubyやperlでも同じ悩みがあるとどこかで読みました。

私は断然apt派です:-)
では失礼します。

11/06/08 Akihiro Terasaki <aki@xxxxxxxxx>:
>   こんばんは。寺崎彰洋です。
>
>   BeautifulSoup は存在も知らなかったですし、 python は
> ちょっと使ってみてるだけ、という者ですが。
>
> On Mon, Jun 06, 2011 at 00:27 +0900,
> mlus wrote:
>> def setPriceDatas(data, url):
>>   page = urllib2.urlopen(url)
>>   soup = BeautifulSoup(page)
>>   date_strs = soup.findAll(['span'], attrs={"class" : "date"})
>>
>> ※url は 文字列データのURL表記です。
>>
>> この時点(インスタンス作成直後) で エラーが上がります。
>
> ------------------------------------------------------------
> #!/usr/bin/python
>
> from BeautifulSoup import BeautifulSoup
>
> soup = BeautifulSoup('<html><span class="date">2011/06/08</span></html>')
> print soup.findAll(['span'], attrs={"class" : "date"})
> ------------------------------------------------------------
>
> このようなファイルを作って実行してみましたがエラーには
> なりませんでした。どうやったらエラーが発生するのでしょうか?
> --
> Akihiro Terasaki
>
>