Zainstalowałem 3-węzłowy klasterek AWS ElasticMapReduce bootstrapped za pomocą Apache Spark. Z moim komputerze lokalnym, można uzyskać dostęp do węzła głównego przez SSH:Jak mogę podłączyć PySpark (komputer lokalny) do mojego klastra EMR?
ssh -i <key> [email protected]
Po ssh'd do węzła głównego, można uzyskać dostęp PySpark poprzez pyspark
. Dodatkowo (chociaż niepewnie) skonfigurowałem grupę zabezpieczeń mojego głównego węzła, aby akceptowała ruch TCP z adresu IP mojej lokalnej maszyny, konkretnie na porcie 7077
.
Jednak nadal jestem w stanie połączyć moje lokalną instancję PySpark do mojego klastra:
MASTER=spark://ec2-master-node-public-address:7077 ./bin/pyspark
powyższych wyników poleceń w szeregu wyjątków i powoduje PySpark się w stanie zainicjować obiekt SparkContext .
Czy ktoś wie, jak skutecznie utworzyć zdalne połączenie, takie jak to, które opisuję powyżej?
Proszę wyjaśnić, dlaczego? Chciałbym to również zrobić, ale muszę być w stanie wyjaśnić, dlaczego nie mogę tego zrobić, jeśli to podejście nie zadziała. – thebigdog
Szczerze mówiąc, nie przeszkadza mi to w głosowaniu w dół, ale możesz mieć choć trochę przyzwoitości, by skomentować, dlaczego rozważenie odpowiedzi jest ważne ... – eliasah
To zaczyna być zabawne ... Nie podoba ci się odpowiedź i idziesz dalej? To ważna odpowiedź! – eliasah