Jestem zainteresowany technikami uczenia się rozproszonego przetwarzania. Jako programista Java prawdopodobnie zacznę od wersji Hadoop. Czy możesz polecić niektóre książki/samouczki/artykuły na początek?Od czego zacząć od obliczeń rozproszonych?
Odpowiedz
Najpierw możesz przeczytać niektóre dokumenty związane z MapReduce i rozproszonym przetwarzaniem, aby lepiej to zrozumieć. Oto niektóre chciałbym polecić:
MapReduce: uproszczony Przetwarzanie danych na duże skupiska, http://www.usenix.org/events/osdi04/tech/full_papers/dean/dean_html/
Bigtable: rozproszony system dla przechowywania danych strukturalnych, http://www.usenix.org/events/osdi06/tech/chang/chang_html/
Driada: Rozproszone programy równoległe do danych z sekwencyjnych bloków konstrukcyjnych, http://pdos.csail.mit.edu/6.824-2007/papers/isard-dryad.pdf
Krajobraz równoległych komputerów ng badania: Widok z Berkeley, http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.67.8705&rep=rep1&type=pdf
Z drugiej strony, jeśli chcesz wiedzieć lepiej od Hadoop, może można zacząć czytać Hadoop MapReduce kod źródłowy ramy.
Oto niektóre zasoby od Yahoo! Developer Network
tutorial:
http://developer.yahoo.com/hadoop/tutorial/
kurs wprowadzający (wymaga Siverlight, westchnienie):
Obecnie bookwise chciałbym sprawdzić - Hadoop A Definitive Guide. Jest napisany przez Toma White'a, który pracuje już od dłuższego czasu i pracuje w Cloudera z Doug Cutting (twórcą Hadoop).
Również po stronie darmowej Jimmy Lin z UMD napisał książkę pod tytułem: Data-Intensive Text Processing with MapReduce. Oto link do ostatecznej wersji przedprodukcyjnej (link podany przez autora na jego website).
Podcast All Things Hadoop http://allthingshadoop.com/podcast ma dobrą treść i dobrych gości. Wiele z nich ma na celu rozpoczęcie pracy z Distributed Computing.
MIT 6.824 to najlepsze rzeczy. Jedynie czytanie gazet Google związanych z Hadoopem nie wystarczy. Systematyczne uczenie się jest wymagane, jeśli chcesz wejść głębiej.
Hadoop niekoniecznie jest najlepszym narzędziem do rozwiązywania wszystkich problemów związanych z przetwarzaniem rozproszonym. Pomimo swojej mocy ma także bardzo stromą krzywą uczenia się i koszty posiadania. Możesz chcieć wyjaśnić swoje wymagania i szukać odpowiednich alternatyw w świecie Java, takich jak HTCondor, JPPF lub GridGain (moje przeprosiny dla tych, których nie wspomnę).
Jeśli szukasz wiedzy na temat rozproszonej platformy obliczeniowej, która jest mniej skomplikowana niż Hadoop, możesz wypróbować Zillabyte. Aby zbudować aplikacje na platformie, musisz znać tylko Ruby lub Pythona.
Jak powiedział LoLo, Hadoop jest potężnym rozwiązaniem, ale na początku może być trudne.
Aby uzyskać informacje na temat materiałów rozproszonych, należy wypróbować numer http://ocw.mit.edu/courses/electrical-engineering-and-computer-science/6-824-distributed-computer-systems-engineering-spring-2006/syllabus/. W kursie jest także kilka zasobów rekomendowanych.