« ココログの過去ログ・アーカイブ作成 ver.1.0.1 | トップページ | 修正と XML-RPC と BOM »

2005年2月19日

utf-8 テキストファイルの <, >, & を html 用にエスケープ ver.1.0.1

# 要 Python

# Python 等プログラムのソースを html に貼り付ける時に使用。
# 丸のまま貼り付けられるように pre 要素としてタグで囲ってあります。

# コマンドライン引数として対象ファイル名を渡す物なので、
# 「ドラッグ・アンド・ドロップで Python プログラムにファイルを渡す」
# を使うと便利。

# 結果は拡張子を ".txt" に変えたファイルに出力されるので、
# 元々の拡張子が ".txt" の場合は予め他に変更しておくこと。
import sys, os.path
from xml.sax.saxutils import escape
for i in sys.argv[1:]:
    print os.path.basename(i),
    root, ext = os.path.splitext(i)
    if ext == ".txt":
        print u"error: 自身の書き換えは出来ません"
        continue
    f = file(root + ".txt", "w")
    f.write((u"\ufeff<pre>\n%s</pre>" % escape( # BOM を足す
        unicode(file(i).read(), "utf-8").lstrip(u"\ufeff")) # BOM があれば抜く
             ).encode("utf-8"))
    f.close()
    print "ok."
# 好きに流用してください

« ココログの過去ログ・アーカイブ作成 ver.1.0.1 | トップページ | 修正と XML-RPC と BOM »

Python」カテゴリの記事

パソコン・インターネット」カテゴリの記事

トラックバック

この記事のトラックバックURL:
http://app.cocolog-nifty.com/t/trackback/68856/2997350

この記事へのトラックバック一覧です: utf-8 テキストファイルの <, >, & を html 用にエスケープ ver.1.0.1:

« ココログの過去ログ・アーカイブ作成 ver.1.0.1 | トップページ | 修正と XML-RPC と BOM »

ブログ妖精

  • ココロ

Affiliate

無料ブログはココログ