2012-01-01から1ヶ月間の記事一覧

Python:re.findall, HTMLから文字列を抽出するのに便利。

HTMLから文字列を抽出するときに、re モジュールの findall() を使うと便利ですね。特にリンク文字列を抽出したいときに重宝しています。 例えば、次のようなリスト要素の中に A要素が入っている場合。 <li><span class="span"><a href="#%E3%82%A2%E3%82%AB%E3%83%9A%E3%83%A9">アカペラ</a></span></li> 次のように括弧で抽出したい部分を指定すると…