tableget.py HTML から表を取り出す
HTML の table 要素をタブ区切り表形式(TSV)にする Python スクリプト。
関数
- tableget(html, anchor=True)
- TSV のリストを返します。
引数:
html: HTML 文字列(Unicode 文字列か Ascii)
anchor: リンクをテキスト中に入れるか
スクリプトをそのまま実行するとローカルにある指定した HTML を table?.txt という形式の名前で TSV にして出力します。
ネストした表ではエラーを出しますので HTML ソースを書き換えてあらかじめ外に出しておいてください。
Python のプログラムを組めるのでしたら上記の tableget 関数を呼ぶスクリプトを書けば応用が効くでしょう。
« 「2007年上半期ライトノベルサイト杯」作品リストにライトHノベル補完 | トップページ | 「2007年上半期ライトノベルサイト杯」投票 »
「Python」カテゴリの記事
- from __future__ import hatsune(2008.09.15)
- Pygame1.8.1出たよ!(2008.08.02)
- それは kokoro.py と言うプログラム(2008.04.27)
- smf2txt.py ‐ SMF をテキストに(2008.04.09)
- 2007年下半期ライトノベルサイト杯結果と、同じのに投票した方々(2008.01.28)
« 「2007年上半期ライトノベルサイト杯」作品リストにライトHノベル補完 | トップページ | 「2007年上半期ライトノベルサイト杯」投票 »