Oto kod mam:Jak upewnić się, że funkcja re.findall() zatrzymuje się we właściwym miejscu?
a='<title>aaa</title><title>aaa2</title><title>aaa3</title>'
import re
re.findall(r'<(title)>(.*)<(/title)>', a)
Wynikiem jest:
[('title', 'aaa</title><title>aaa2</title><title>aaa3', '/title')]
Jeśli kiedykolwiek zaprojektował robota, żeby mnie tytuły stron internetowych, mogę skończyć z czymś takim raczej niż tytuł strony internetowej.
Moje pytanie brzmi: w jaki sposób ograniczyć findall
do pojedynczego <title></title>
?
Można użyć BeautifulSoup do analizowania HTML zamiast Regex – Achrome
http://stackoverflow.com/a/1732454/193892 –