Załóżmy, że masz DAG-a z przepływem powietrza, który nie ma sensu zasypywania, co oznacza, że po jego uruchomieniu raz, jego kolejne uruchomienie szybko byłoby zupełnie bezcelowe.Jak zapobiec przepływowi powietrza z zasypywania działek?
Na przykład, jeśli ładujesz dane z jakiegoś źródła, które jest aktualizowane tylko co godzinę w bazie danych, zasypywanie, które następuje szybko po sobie, będzie po prostu importować te same dane raz za razem.
Jest to szczególnie denerwujące, gdy tworzysz nowe, godzinne zadanie, i uruchamia ono N
ilość razy dla każdej godziny, którą przegapił, wykonując nadmiarową pracę, zanim zacznie działać w podanym przedziale.
Jedynym rozwiązaniem można myślę, że to coś specjalnie odradzane w FAQ of the docs
Zalecamy przed użyciem wartości dynamiczne jak datą_początkową, zwłaszcza
datetime.now()
jak to może być dość kłopotliwe.
Czy istnieje sposób, aby wyłączyć zasypywanie w przypadku DAG, czy powinienem wykonać powyższe czynności?
Dzięki. Jest to o wiele lepsze niż narzędzie LatestOnlyOperator. – m0meni
Ustawiłem catchup_by_default = False, ale Airflow wciąż wypełnia zadania. Każdy pomysł, dlaczego? Używam wersji 1.8 –
@OllieGlass Czy na pewno zastosowałeś ją do właściwego pojemnika, nie wiem dokładnie, co to jest twoja konfiguracja, ale to na pewno ma znaczenie. Możesz także spróbować zastosować go do określonych DAG, jeśli nie masz pewności. – sage88