Próbuję zeskrobać strony za pomocą BeatifulSoupZeskrobać tylko tekst, w obrębie elementu HTML, który ma klasę, używając piękny zupę
import urllib2
from bs4 import BeautifulSoup
url='http://www.xpn.org/playlists/xpn-playlist'
page = urllib2.urlopen(url)
soup = BeautifulSoup(page.read())
for link in soup.find_all("li", class_="song"):
print link
Problemem jest tekst chciałbym wrócić nie jest zamknięty w jego własnym znaczniku html
<li class="song"> <a href="/default.htm" onclick="return clickreturnvalue()
" onmouseout="delayhidemenu()" onmouseover="dropdownmenu(this, event, menu1,
'100px','Death Vessel','Mandan Dink','Stay Close')">Buy</a>
Chuck Ragan - Rotterdam - Folkadelphia Session</li>
Co chcę powrócić Chuck Ragan - Rotterdam - Folkadelphia Session
bonusowe punkty: dane zwrócone jest w formacie artysty/utworu/A lbum. Jaka byłaby właściwa struktura danych do przechowywania i manipulowania tymi informacjami?
Dzięki człowiek! Jak dokładnie działa [5:]? –
To usunie pierwsze 5 znaków. zobacz [to pytanie] (http://stackoverflow.com/questions/509211/explain-pythons-slice-notation). –
I około * Jaka byłaby właściwa struktura danych do przechowywania i manipulowania tymi informacjami? *, Może wykorzystywać bazę danych? –