« 「2007年上半期ライトノベルサイト杯」作品リストにライトHノベル補完 | トップページ | 「2007年上半期ライトノベルサイト杯」投票 »

2007年7月15日

tableget.py HTML から表を取り出す

HTML の table 要素をタブ区切り表形式(TSV)にする Python スクリプト。

関数

tableget(html, anchor=True)
TSV のリストを返します。

引数:
html:    HTML 文字列(Unicode 文字列か Ascii)
anchor: リンクをテキスト中に入れるか

スクリプトをそのまま実行するとローカルにある指定した HTML を table?.txt という形式の名前で TSV にして出力します。 ネストした表ではエラーを出しますので HTML ソースを書き換えてあらかじめ外に出しておいてください。

Python のプログラムを組めるのでしたら上記の tableget 関数を呼ぶスクリプトを書けば応用が効くでしょう。

« 「2007年上半期ライトノベルサイト杯」作品リストにライトHノベル補完 | トップページ | 「2007年上半期ライトノベルサイト杯」投票 »

Python」カテゴリの記事

トラックバック

この記事のトラックバックURL:
http://app.cocolog-nifty.com/t/trackback/68856/15764544

この記事へのトラックバック一覧です: tableget.py HTML から表を取り出す:

« 「2007年上半期ライトノベルサイト杯」作品リストにライトHノベル補完 | トップページ | 「2007年上半期ライトノベルサイト杯」投票 »

ブログ妖精

  • ココロ

Affiliate

無料ブログはココログ