Google App EngineでもXPathが使える!XPathEvaluator Extension for BeautifulSoup(BSXPath)をリリース - 風柳メモ
覚書など
- いまだにXPathもついでにDOMもよく把握していないので、きっと動作は怪しいと思います(をい)*1。
- 一応、
http://svn.coderepos.org/share/lang/javascript/javascript-xpath/trunk/test/functional/data/を使った試験はしています。
2009/3/24現在のデータ(0000~0012)において、0002のうちの2つがNG、あとはOKとなっています。
0002でNGなのは、'.//blockquote/text()'と'.//blockquote/node()'。
BeautifulSoupの特性なのか、'<...>\n <...>'のようなHTMLがあった場合、テキストノードとして後ろのタグ前のスペースが無視されてしまう模様。根が深そうなので対応困難っぽいです…。- アーカイブファイルには試験用スクリプト(TEST_BSXPath.py)と、まとめて試験する用のWindowsコマンドプロンプト用バッチファイル(testbsx.cmd)(とそのテスト結果)を同梱しています。
バッチファイルを実行すると".\testbsxresult"フォルダを作ってその中に結果を保存します。- BeautifulSoupは3.1.0*よりも3.0.7*の方が、Parseエラーが出にくいようです。
Currently the 3.0.x series is better at parsing bad HTML than the 3.1 series.- 速度的な面は期待しないで下さい。結構遅いかもです。速くする方法があったら教えて下さい。
- Pythonも初心者なので、かなりおかしな書き方をしていると思われます。こうした方がよいというアドバイスは歓迎です。
PyXMLもlxmlもだめなので、BeautifulSoupですか。
Comments [0]