2012-11-03 12 views
5

muszę pełzać w dół wszystkie komentarze (ponad 2.600.000 komentarze, ponad 5000 stron) do Gangnam Style autorstwa Psy wideo z serwisu YouTube, zobacz: http://www.youtube.com/all_comments?v=9bZkp7q19f0howto crawl wszystkie komentarze jeden klip z YouTube ponad 100 strona

problem polega na:

1) Jeśli używam usługi GData, Google udostępnia jedynie nie więcej niż 1000 komentarz karmi

2) gdybym bezpośrednio indeksowania znaczniki HTML:

site(http://www.youtube.com/all_comments?v=9bZkp7q19f0&page=$(page)) 

przez zwiększenie parametru strony, nie powiedzie się po stronie # 101, gdzie brak komentarzy wyświetlanych na stronie.

Tak więc wszyscy, jak mogę obejść ten problem?

P.S: Mój robot jest implementowany jako rozszerzenie chrome przy użyciu javascript, który sprawdza tagi komentarzy załadowanej strony, a następnie ładuje następną stronę.

+0

Nie jestem do końca pewny, ale czy nie musisz płacić za więcej komentarzy? Myślę, że to jest powód, dla którego istnieje limit. – ioanb7

+0

dzięki za porady, ale nie jestem zaznajomiony z zakupem kwoty usługi z google; masz jakieś takie miłe doświadczenie? lub gdzie mogę znaleźć pokrewny dokument? –

+0

[stackoverflow - jak pobrać więcej niż 1000] (http://stackoverflow.com/questions/264154/google-appengine-how-to-fetch-more-than-1000) - Czy to ci pomaga? :-) – ioanb7

Odpowiedz

1

Możesz być w stanie wyodrębnić dane, przeszukując strony i włamując się do kodu napotkanych problemów, ale to nie jest właściwy sposób.

Powinieneś użyć do tego celu youtube api i sprawdzić inne developer resources dotyczące tego.

+1

Próbowałem już apikacji gtata youtube, ale google ogranicza zwrócony wynik do nie więcej niż 1000, sprawdź [YouTube API Ref] (https://developers.google.com/youtube/2.0/reference?hl=en). ..i nawet ręcznie klikam stronę all_comments, nadal nie mogę przejść do strony # 102. –

+0

Czy udało Ci się pobrać nawet 1000 komentarzy. Mogę pobrać tylko 99.: - / –