Pracuję nad projektem wykrywania społeczności z danymi na Twitterze, gdzie muszę utworzyć sieć na podstawie relacji. Zebrałem i odfiltrowałem 200 000 identyfikatorów UID. Kolejny krok to stworzenie sieci przyjaciół/obserwujących.Czy istnieje lepszy sposób na zbieranie danych z Twittera?
Używam skryptów Ruby i klejnotów na Twitterze do zbierania, przetwarzania i przechowywania danych. Aby pokonać limit połączeń API, używam serwera proxy Apigee, więc na razie nie ma problemu z ograniczaniem stawek.
Wezwanie do uzyskania stanu relacji między dwoma UID jest pod adresem: https://dev.twitter.com/docs/api/1/get/friendships/show
muszę przyspieszyć proces zbierania danych. Obecnie mam wiele skryptów uruchomionych jednocześnie w moim terminalu. Uważam, że ta metoda jest bardzo trudna do zarządzania i skalowania. Czy istnieje szybszy, skuteczniejszy i łatwiejszy do zrobienia sposób na zrobienie tego samego? Czy istnieje zupełnie inne i lepsze podejście, którego mi brakuje?
jeśli 1 odpowiedź nie pomaga, należy rozważyć dodanie informacji o tym, dlaczego uważasz, że to trwa zbyt długo. Jeśli masz kilka skryptów z uruchomionym symulatorem, odpowiednie może być narzędzie do sterowania zadaniami lub skrypt główny. Biorąc pod uwagę aspekt programowania sieciowego w twoim projekcie, pomyślałbym, że będą w tym pomocne kamienie rubinowe. Jak głęboko patrzyłeś na ten front. Skalowanie może oznaczać, że musisz spojrzeć na GNU-równoległe, Amazon Elastic Cloud lub inne. A co z narzędziami do przetwarzania danych na dużą skalę, takimi jak Hadoop (prawie na pewno wymagałyby niestandardowego kodowania w java lub ??). Powodzenia. – shellter
I patrząc na link dev.twitter, który zawierasz, json doc, wygląda na gotowy do załadowania do MongoDB. (To od osoby, która jest w rozdziale 4 MongoDB w akcji (Manning Press, bez powiązań).). Książka zawiera przykład pobierania danych ze Twittera bezpośrednio do DB. Więc może warto zobaczyć. Powodzenia. – shellter
Narzędzie kontroli pracy lub skrypt główny jest tym, na co patrzę. Jakieś sugestie dla nich? Czy zmiana języka programowania spowoduje znaczny wzrost prędkości? – s2n