2016-03-07 17 views
5

Przygotowuję potok w "Data Factory" Azure, w celu pobrania płaskich plików z pamięci i załadowania ich do tabel w bazie danych Azure SQL DB.Zrozumienie czasu rozpoczęcia i zakończenia pętli dla fabryki danych Azure

Szablon tego potoku określa, że ​​potrzebuję czasu rozpoczęcia i zakończenia, który the tutorial mówi, aby ustawić 1 dzień.

Próbuję to zrozumieć. Jeśli było to zadanie CRON w systemie Linux lub zaplanowane zadanie w systemie Windows Server, to po prostu powiedziałbym, kiedy zacząć (tj. Codziennie o 6 rano), a jego ukończenie zajmie jednak dużo czasu.

To prowadzi mnie do kilku powiązanych pytań:

  • Dlaczego trzeba określić czas zakończenia?
  • Co zrobić, jeśli nie wiem, ile czasu zajmie uruchomienie?
  • Jeśli ustawię go zbyt daleko w przyszłości, czy istnieje ryzyko, że rurociąg danych nie zakończy się w odpowiednim czasie?
  • Jeśli ustawię to za wcześnie, czy rurociąg się zepsuje?
  • Dlaczego trudno kodowane jako data zamiast częstotliwości (tj mówi używać tego formatu - „2014-10-14T16: 32: 41Z”)

znalazłem a prior question który rzuca trochę nie wiem jak zrobić częstotliwość zamiast sztywno zakodowanych dat, ale moje pytania powyżej pozostają bez odpowiedzi przez rozwiązanie.

Odpowiedz

4

Harmonogram 1-dniowy to tylko przykład podkreślający koncepcję, zgodnie z którą można oczekiwać 24 okien aktywności, jeśli częstotliwość jest ustawiona na godzinę przez 1 dzień, jak pokazano w przykładzie.

Dlaczego muszę podać godzinę zakończenia?

Nie musisz określać czasu zakończenia, jeśli chcesz, aby potok przebiegał przez czas nieokreślony. Jednak możesz mieć biznesowe powody, by ustawić czas zakończenia, podobny do rocznego cyklu biznesowego. Całkowity czas rozpoczęcia i zakończenia potoku odnosi się do gromadzenia czynności w nim. Działania będą przebiegać zgodnie z ustawioną częstotliwością (godzinową, dzienną itd.) Dla aktywności i dostępności zestawów danych. Możesz także ustawić czas rozpoczęcia działań, przesunąć lub opóźnić (na przykład, jeśli chcesz przetworzyć wczorajsze dane dzisiaj) lub ustawić datę początkową w przeszłości, aby wypełnić dane zapasowe.

Dlaczego jest on zakodowany jako data zamiast częstotliwości?

Powodem, dla którego początek i koniec potoku jest data, a nie częstotliwość, jest to, że jest to ogólny przedział czasu, w którym aktywny jest potok, a poszczególne czynności przetwarzania dotyczą częstości i czasu ich uruchamiania.

Co zrobić, jeśli nie wiem, ile czasu zajmie uruchomienie?

Po rozpoczęciu działań będą one wykonywane do końca. Jeśli przekroczą datę zakończenia, rurociąg po prostu nie rozpocznie nowych działań.

Jeśli ustawię go zbyt daleko w przyszłości, czy istnieje ryzyko, że rurociąg danych nie zakończy się w odpowiednim czasie?

Nie, ukończenie w odpowiednim czasie ma tylko związek z rozmiarem klastra, wolumenem danych i ustawieniem współbieżności.

Jeśli ustawię to za wcześnie, czy rurociąg się zepsuje?

Patrz wyżej

Świadczymy tego rodzaju złożoności harmonogramem, dzięki czemu można mieć znacznie większą elastyczność w koordynowaniu wielu usług jednocześnie pozwalając ADF zarządzanie zasobami Cloud, zamiast po prostu akurat zadanie cron. Więcej informacji na temat planowania w naszej dokumentacji można znaleźć tutaj: https://azure.microsoft.com/en-us/documentation/articles/data-factory-scheduling-and-execution/

+0

Witam @Sonia, jakikolwiek pomysł na zmianę strefy czasowej w fabryce danych? Obecnie jest oparty na UTC. – Ariox66

+1

Myślę, że kluczową rzeczą, o której tu nie ma, jest to, że kiedy określasz godziny rozpoczęcia i zakończenia oraz harmonogramy, generuje ono dużą listę "czasów". Więc jeśli masz harmonogram dzienny przez 3 lata, wygeneruje 3 wpisy 365 razy timelice. Możesz iść i pracować z tymi konkretnymi czasami. Jeśli chcesz uruchomić zadanie z parametrem "timeslice" w przeszłości, możesz go znaleźć i uruchomić. Jeśli chcesz uruchomić jeden na przyszłość, aby go przetestować ... pecha, nie mogłem go uruchomić (chociaż wciąż się uczę) –

0

Dlaczego muszę podać godzinę zakończenia?

W ADF1, jeśli określasz czas rozpoczęcia, musisz podać czas zakończenia. Jeśli nie określisz czasu rozpoczęcia i zakończenia, nie ma problemu, możesz wdrożyć potok, ale działania w potoku nie będą uruchamiane.