Używam Apache Pig .11.1 z Hadoop 2.0.5.Błąd połączenia w Apache Pig
Większość prostych zadań wykonywanych przez Pig pracuje doskonale.
Jednak, gdy próbuję użyć GROUP BY na dużym zbiorze danych lub operator LIMIT, otrzymuję te błędy połączenia:
2013-07-29 13:24:08,591 [main] INFO org.apache.hadoop.mapred.ClientServiceDelegate - Application state is completed. FinalApplicationStatus=SUCCEEDED. Redirecting to job history server
013-07-29 11:57:29,421 [main] INFO org.apache.hadoop.ipc.Client - Retrying connect to server: 0.0.0.0/0.0.0.0:10020. Already tried 0 time(s); retry policy is RetryUpToMaximumCountWithFixedSleep(maxRetries=10, sleepTime=1 SECONDS)
2013-07-29 11:57:30,421 [main] INFO org.apache.hadoop.ipc.Client - Retrying connect to server: 0.0.0.0/0.0.0.0:10020. Already tried 1 time(s); retry policy is RetryUpToMaximumCountWithFixedSleep(maxRetries=10, sleepTime=1 SECONDS)
2013-07-29 11:57:31,422 [main] INFO org.apache.hadoop.ipc.Client - Retrying connect to server: 0.0.0.0/0.0.0.0:10020. Already tried 2 time(s); retry policy is RetryUpToMaximumCountWithFixedSleep(maxRetries=10, sleepTime=1 SECONDS)
...
2013-07-29 13:24:18,597 [main] INFO org.apache.hadoop.ipc.Client - Retrying connect to server: 0.0.0.0/0.0.0.0:10020. Already tried 9 time(s); retry policy is RetryUpToMaximumCountWithFixedSleep(maxRetries=10, sleepTime=1 SECONDS)
2013-07-29 13:24:18,598 [main] ERROR org.apache.hadoop.security.UserGroupInformation - PriviledgedActionException as:gpadmin (auth:SIMPLE) cause:java.io.IOException
Najdziwniejsze jest to, że po tych błędów utrzymanie pojawiające przez około 2 minuty , zatrzymają się, a na dole pojawi się poprawny wynik.
Tak więc Hadoop działa poprawnie i oblicza prawidłowe wyjście. Problemem są tylko te błędy połączeń, które ciągle pojawiają się.
Operator LIMIT
zawsze otrzymuje ten błąd. Zdarza się zarówno w trybie MapReduce, jak i lokalnym. Operator GROUP BY
będzie działał poprawnie na małych zestawach danych.
Jedną rzeczą, którą zauważyłem jest to, że gdy pojawia się ten błąd, zadanie utworzyło i uruchomiło wiele plików JAR podczas pracy. Jednak po kilku minutach pojawienia się tego komunikatu, na końcu pojawia się poprawny wynik.
Wszelkie sugestie, jak pozbyć się tych wiadomości?
Czy Twój identyfikator jest lokalny? Jeśli nie, próbuje uzyskać do niego dostęp w wersji 0.0.0.0. Być może nie odbiera ona lokalizacji namenode z core-site.xml lub masz plik/etc/hosts, który jest pomieszany. –
Nazewnik jest lokalny. core-site.xml i/etc/hosts wydają się być poprawnie skonfigurowane, ponieważ większość moich innych zadań Pig/Hadoop działa w sposób, w jaki powinny.Dodatkowo, prawidłowe wyniki pracy pojawiają się po wyświetleniu błędów połączenia przez kilka minut. Więc myślę, że problemem jest coś innego. –
@AndyBotelho Prawdopodobnie warto sprawdzić logi serwera jobhistora –