2016-12-01 81 views
7

Zainstalowałem 3-węzłowy klasterek AWS ElasticMapReduce bootstrapped za pomocą Apache Spark. Z moim komputerze lokalnym, można uzyskać dostęp do węzła głównego przez SSH:Jak mogę podłączyć PySpark (komputer lokalny) do mojego klastra EMR?

ssh -i <key> [email protected] Po ssh'd do węzła głównego, można uzyskać dostęp PySpark poprzez pyspark. Dodatkowo (chociaż niepewnie) skonfigurowałem grupę zabezpieczeń mojego głównego węzła, aby akceptowała ruch TCP z adresu IP mojej lokalnej maszyny, konkretnie na porcie 7077.

Jednak nadal jestem w stanie połączyć moje lokalną instancję PySpark do mojego klastra:

MASTER=spark://ec2-master-node-public-address:7077 ./bin/pyspark

powyższych wyników poleceń w szeregu wyjątków i powoduje PySpark się w stanie zainicjować obiekt SparkContext .

Czy ktoś wie, jak skutecznie utworzyć zdalne połączenie, takie jak to, które opisuję powyżej?

Odpowiedz

2

O ile twój lokalny komputer nie jest głównym węzłem dla klastra, nie możesz tego zrobić. Nie będziesz mógł tego zrobić z AWS EMR.

+0

Proszę wyjaśnić, dlaczego? Chciałbym to również zrobić, ale muszę być w stanie wyjaśnić, dlaczego nie mogę tego zrobić, jeśli to podejście nie zadziała. – thebigdog

+0

Szczerze mówiąc, nie przeszkadza mi to w głosowaniu w dół, ale możesz mieć choć trochę przyzwoitości, by skomentować, dlaczego rozważenie odpowiedzi jest ważne ... – eliasah

+0

To zaczyna być zabawne ... Nie podoba ci się odpowiedź i idziesz dalej? To ważna odpowiedź! – eliasah