2013-09-29 27 views
5

Jestem trochę zdezorientowany terminami "Planowanie zadań" i "Planowanie zadań" w Hadoop, kiedy czytałem o opóźnionym harmonogramie targów in this slide.Harmonogram zadań i zadań W Hadoop

Proszę mnie poprawić jeśli się mylę w moich następujących założeniach:

  1. Domyślny planista, Pojemność scheduler i Fair planiści są ważne tylko na poziomie pracy, gdy wiele miejsc pracy są zaplanowane przez użytkownika. Nie odgrywają żadnej roli, jeśli w systemie jest tylko jedno zadanie. Te algorytmy szeregowania stanowią podstawę do "planowania zadań". Każde zadanie może mieć wiele map i zmniejszać liczbę zadań oraz sposób przypisywania ich do każdego komputera? Jak są zaplanowane zadania dla pojedynczego zadania? Na jakiej podstawie "planowanie zadań"?

+1

Nie jestem pewien, o czym mówisz. Otworzyłem prezentowaną prezentację i nie ma jednej wzmianki o określeniu "planowanie zadań" lub "planowanie zadań". Przyjrzałem się także pełnemu tekstowi i nie ma jednej wzmianki o "planowaniu zadań" i tylko jednej wzmiance o "planowaniu zadań", w którym autorzy wyjaśniają, jak działa planowanie zadań w Hadoop (wersja 1, nie wersja 2). Wskaż konkretne sekcje w arkuszu planowania opóźnień lub prezentacji, które są mylące. – cabad

+0

Nie zrozumiałem slajdów 6 i 7, w których pokazane są zaplanowane zadania każdego zadania. – GoT

Odpowiedz

5

W przypadku fair scheduler, gdy istnieje pojedynczy praca działa, że ​​praca wykorzystuje całą gromadę. Po przesłaniu innych zadań, zwolnione gniazda zadań są przypisywane do nowych zadań, dzięki czemu każde zadanie otrzymuje mniej więcej tyle samo czasu procesora.

W przeciwieństwie do domyślnego harmonogramu Haoop Hadoop, który tworzy kolejkę zadań, pozwala to na zakończenie krótkich zadań w rozsądnym czasie, nie powodując przy tym długich zadań. Jest to także łatwy sposób udostępniania klastra między wieloma użytkownikami. Uczciwe współużytkowanie może również działać z priorytetami pracy - priorytety są używane jako wagi do określania ułamka całkowitego czasu obliczeń, które otrzymuje każda praca.

Urządzenie o nazwie CapacityScheduler zostało zaprojektowane w celu umożliwienia współdzielenia dużego klastra, zapewniając jednocześnie każdej organizacji minimalną gwarancję wydajności. Główną ideą jest to, że dostępne zasoby w klastrze Hadoop Map-Reduce są podzielone na kilka organizacji, które wspólnie finansują klaster w oparciu o potrzeby obliczeniowe. Dodatkową korzyścią jest to, że organizacja może uzyskać dostęp do nadwyżki przepustowości, z której inni nie korzystają. Zapewnia to elastyczność organizacjom w opłacalny sposób.

+0

Więc można założyć, że typ programu planującego zadania nie odgrywa żadnej roli, jeśli w systemie istnieje tylko jedno zadanie – GoT

+0

Jeśli w systemie istnieje tylko jedno zadanie, w jaki sposób są zaplanowane zadania na różnych maszynach dla tego zadania? – GoT

+1

W przypadku uczciwego harmonogramu, zadanie dla tej sprawy zadania wykorzystuje całą moc klastra, jak wspomniano powyżej. –