phaの日記

パーティーは終わった

正規表現



ちょっと苦戦しています。
HTMLを検索したときに

<embed src="http://www.youtube.com/v/ほにゃらら" width="425" height="350">

というタグを検出する正規表現は、

<embed src=\"http:\/\/www.youtube.com\/v\/([^\"]+)\" [^>]+>

とやったらうまくいった(正しい?)。だけど、でもembedタグの中の属性の順番って違うことがあるよね。

<embed src="http://www.youtube.com/v/ほにゃらら" width="425" height="350">
<embed width="425" src="http://www.youtube.com/v/ほにゃらら" height="350">
<embed width="425" height="350" src="http://www.youtube.com/v/ほにゃらら">

これらを全てひっかける正規表現ってどう書いたらいいんでしょうか。

追記

<embed[^>]*src=\"http:\/\/www.youtube.com\/v\/([^\"]+)\"[^>]*>

って書いたらうまくいった。

  • "?"は0文字か1文字
  • "*"は0文字以上の連続
  • "+"は1文字以上の連続