Chciałbym stworzyć pewien rodzaj rozproszonej konfiguracji do uruchamiania ton małych/prostych zapytań sieciowych REST w środowisku produkcyjnym. Dla każdego 5-10 powiązanych zapytań, które są wykonywane z węzła, wygeneruję bardzo małą ilość danych pochodnych, które będą musiały być przechowywane w standardowej relacyjnej bazie danych (takiej jak PostgreSQL).Rozwiązanie do dystrybucji WIELU prostych zadań sieciowych?
Jakie platformy są zbudowane dla tego typu zestawu problemów? Natura, rozmiary danych i ilości wydają się sprzeczne z nastawieniem Hadoop. Istnieje również więcej architektur opartych na siatce, takich jak Condor i Sun Grid Engine, o których już wspominałem. Nie jestem pewien, czy te platformy mają jakiekolwiek odzyskiwanie po błędach (sprawdzanie, czy zadanie się powiedzie).
Co naprawdę chciałbym, to kolejka typu FIFO, do której mogę dodać zadania, z końcowym wynikiem aktualizacji mojej bazy danych.
Wszelkie sugestie dotyczące najlepszego narzędzia do pracy?
Brzmi dość podobnie do (zastrzeżonego) programu monitorowania, który kończę. Czasami pobiera z wielu adresów URL w konfigurowalnych odstępach czasu, analizując i zapisując wyniki w bazie danych PostgreSQL. Zaimplementowałem to jako pojedynczy program w C++, który utrzymuje priorytetową kolejkę zadań pobierania (w rzeczywistości std :: map, ponieważ zadania muszą zostać usunięte, gdy monitoring jest wyłączony) i używa libcurl do pobierania. Nie zajmowałem się zbieraniem wyników, głównie dlatego, że program monitorujący i baza danych znajdują się na tym samym serwerze. Tak naprawdę nie korzystałem z platformy, więc +1 :-) –