2012-01-01から1年間の記事一覧

Python で simpleXML ライク。

SimpleXML は、PHP で XML を簡単に扱うためのモジュールで、XML のデータを PHP の連想配列などのデータ型で扱うことができます。Python でも、XML データを辞書(dict,dictionary)型やリスト(list)型で扱えたら便利です。次に掲げるページでも、SimpleXML …

Python:re.findall, HTMLから文字列を抽出するのに便利。

HTMLから文字列を抽出するときに、re モジュールの findall() を使うと便利ですね。特にリンク文字列を抽出したいときに重宝しています。 例えば、次のようなリスト要素の中に A要素が入っている場合。 <li><span class="span"><a href="#%E3%82%A2%E3%82%AB%E3%83%9A%E3%83%A9">アカペラ</a></span></li> 次のように括弧で抽出したい部分を指定すると…