Pythonで文章中からカタカナの語句を取り出す

Pythonを使って文章中からカタカナで出来た語句を取り出すって事を最近やりました。

こんな感じのコードで

token = re.compile(u'[ァ-ヴー]+')
results = token.findall(u"このテキストデータはテストです。")

こうするとresultsリストの中には「テキストデータ」と「テスト」という文字列が入っています。
キーポイントは「ヴ」の後に続く「ー」です。これが無いとデータみたいな単語はデとタという二つの文字に分割されちゃいます。

それにしてもPythonの文字コードの問題は頭が痛い…しっかり整理すればいいんだろうけど面倒なんでその場さえ上手くいけばいいやと相変わらずサボってしまう。