2010-12-15 2 views
6

Szukałem kilku tutoriali/innych pytań na stosie/dokumentacji i nadal nie mogę tego rozgryźć. ugh !!!Python (newbie) Przetwarza XML z API call

Wykonywanie żądania API i parsowanie (chcesz przypisać do zmiennych, ale to jest premia do tego pytania), To właśnie próbuję. Dlaczego nie mogę podać tytułu i linku do elementów?

#!/usr/bin/python 

# Screen Scraper for Subs 
import urllib 
from xml.etree import ElementTree as ET 

show = 'heroes' 
season = '4' 
language = 'en' 
limit = '1' 

requestURL = 'http://api.allsubs.org/index.php?' \ 
      + 'search=' + show \ 
      + '+season+' + season \ 
      + '&language=' + language \ 
      + '&limit=' + limit 

root = ET.parse(urllib.urlopen(requestURL)).getroot() 
print root 
print '\n' 

items = root.findall('items') 
for item in items: 
    item.find('title').text # should print: <![CDATA[Heroes Season 4 Subtitles]]> 
    item.find('link').text # Should print: http://www.allsubs.org/subs-download/heroes+season+4/1223435/ 

XML Response

 <AllSubsAPI> 
     <title>AllSubs API: Subtitles Search</title> 
     <link>http://www.allsubs.org</link> 
     <description><![CDATA[Subtitles Search for Heroes Season 4]]></description> 
     <language>en-us</language> 
     <results>1</results> 
     <found_results>24</found_results> 
<items> 
    <item> 
      <title><![CDATA[Heroes Season 4 Subtitles]]></title> 
      <link>http://www.allsubs.org/subs-download/heroes+season+4/1223435/</link> 
      <filename>heroes-season-4-english-heroes-season-4-en.zip</filename> 
      <files_in_archive>Heroes - 4x01-02 - Orientation.HDTV.FQM.en.srt|Heroes - 4x17 - The Art of Deception.HDTV.2HD.en.srt|Heroes - 4x07 - Strange Attractors.HDTV.LOL.en.srt|Heroes - 4x08 - Once Upon a Time in Texas.HDTV.2HD.en.srt|Heroes - 4x07 - Strange Attractors.720p HDTV.DIMENSION.en.srt|Heroes - 4x05 - Hysterical Blindness.720p HDTV.X264.en.srt|Heroes - 4x09 - Shadowboxing.HDTV.LOL.en.srt|Heroes - 4x16 - Pass Fail.HDTV.LOL.en.srt|Heroes - 4x04 - Acceptance.HDTV.en.srt|Heroes - 4x01-02 - Orientation.720p HDTV.DIMENSION.en.srt|Heroes - 4x06 - Tabula Rasa.HDTV.NoTV.en.srt|Heroes - 4x10 - Brother's Keeper.HDTV.FQM.en.srt|Heroes - 4x04 - Acceptance.HDTV.FQM.en.srt|Heroes - 4x14 - Let It Bleed.720p HDTV.DIMENSION.en.srt|Heroes - 4x06 - Tabula Rasa.720p HDTV.SiTV.en.srt|Heroes - 4x08 - Once Upon a Time in Texas.HDTV.NoTV.en.srt|Heroes - 4x12 - The Fifth Stage.HDTV.LOL.en.srt|Heroes - 4x19 - Brave New World.HDTV.LOL.en.srt|Heroes - 4x15 - Close to You.720p HDTV.DIMENSION.en.srt|Heroes - 4x03 - Ink.720p HDTV.DIMENSION.en.srt|Heroes - 4x11 - Thanksgiving.720p HDTV.DIMENSION.en.srt|Heroes - 4x13 - Upon This Rock.720p HDTV.DIMENSION.en.srt|Heroes - 4x13 - Upon This Rock.HDTV.LOL.en.srt|Heroes - 4x14 - Let It Bleed.HDTV.LOL.en.srt|Heroes - 4x15 - Close to You.HDTV.LOL.en.srt|Heroes - 4x12 - The Fifth Stage.720p HDTV.DIMENSION.en.srt|Heroes - 4x18 - The Wall.HDTV.LOL.en.srt|Heroes - 4x08 - Once Upon a Time in Texas.720p HDTV.CTU.en.srt|Heroes - 4x17 - The Art of Deception.HDTV.CTU.en.srt|Heroes - 4x09 - Shadowboxing.720p HDTV.DIMENSION.en.srt|Heroes - 4x10 - Brother's Keeper.720p HDTV.DIMENSION.en.srt|Heroes - 4x04 - Acceptance.720p HDTV.CTU.en.srt|Heroes - 4x11 - Thanksgiving.HDTV.FQM.en.srt|Heroes - 4x03 - Ink.HDTV.FQM.en.srt|Heroes - 4x05 - Hysterical Blindness.HDTV.XII.en.srt|</files_in_archive> 
      <languages>en</languages> 
      <added_on>2010-02-16</added_on> 
    </item> 

</items> 
</AllSubsAPI> 

UPDATE:

To działało, dzięki za pomoc i wskazując na moją literówkę

items = root.findall('items/item') 
for item in items: 
    print item.find('title').text 
    print item.find('link').text 
+1

http://api.allsubs.org/index.php?search=heros+season+4&language=en&limit=1 to requestURL, a otrzymuję brak wyników - I Myślę, że nie masz racji ... – Spacedman

+1

ah, show = 'bohaterowie' z E nie "herosami"! Spróbuj tego! – Spacedman

Odpowiedz

4
items = root.findall('items') 

powinny być

items = root.findall('items/item') 
2

Nie wykonuje się iteracji elementów "element", w rzeczywistości wykonuje się iterację elementów "elementów".

myślę, że powinno być:

items = root.findall('items') 
childItems = items.findall('item') 
for childItem in childItems: 
    childItem.find('title').text # should print: <![CDATA[Heroes Season 4 Subtitles]]> 
    childItem.find('link').text # Should print: http://www.allsubs.org/subs-download/heroes+season+4/1223435 
3

Działa to dla mnie. Uwaga używam urllib2 dostać przez pełnomocnika:

import urllib2 
from xml.etree import ElementTree as ET 

show = 'heroes' 
season = '4' 
language = 'en' 
limit = '1' 

requestURL = 'http://api.allsubs.org/index.php?' \ 
      + 'search=' + show \ 
      + '+season+' + season \ 
      + '&language=' + language \ 
      + '&limit=' + limit 

root = ET.parse(urllib2.urlopen(requestURL)).getroot() 
print root 
print '\n' 

items = root.findall('items')[0].findall('item') 
for item in items: 
    print item.find('title').text # should print: <![CDATA[Heroes Season 4 Subtitles]]> 
    print item.find('link').text # Should print: http://www.allsubs.org/subs-download/heroes+season+4/1223435/ 

zauważyć, że FindAll („przedmioty”) stwierdza, „Pozycje” Tag, co chcesz pętli nad (myślę) to „element” tagi w tym, więc my findall() z nich. Ponadto musisz wydrukować, aby uzyskać coś z python.

Również, jeśli mogę to zrobić z limitem = 2, otrzymuję:

Traceback (most recent call last): 
    File "heros.py", line 18, in <module> 
    root = ET.parse(urllib2.urlopen(requestURL)).getroot() 
    File "/usr/lib/python2.6/xml/etree/ElementTree.py", line 862, in parse 
    tree.parse(source, parser) 
    File "/usr/lib/python2.6/xml/etree/ElementTree.py", line 586, in parse 
    parser.feed(data) 
    File "/usr/lib/python2.6/xml/etree/ElementTree.py", line 1245, in feed 
    self._parser.Parse(data, 0) 
xml.parsers.expat.ExpatError: not well-formed (invalid token): line 24, column 95 

nie jestem pewien XML wracając z tego API jest dobrze wykształcona - nie ma „xml” elementem w początek na początek. Nie ufałbym temu ...

+0

Tak, nie wiem, czy wiedzą, co robią na tej stronie, dziękuję za nagłówki –

+0

, więc urllib2 jest używany dla serwerów proxy? –

+0

to jedna z dobrych rzeczy, które robi - respektuje ustawienia środowiska http_proxy i proxy za jego pośrednictwem. – Spacedman