2010-12-29 30 views
5

Chcesz zrozumieć czy Netezza lub Hadoop jest właściwym wyborem dla poniższych celów:jak działa netezza? jak to się ma do Hadoop?

  • pliki ściąganie z kilku źródeł online o znacznej wielkości w czasach więcej niż GB.

  • Czyszczenie, filtrowanie, przekształcanie i obliczanie dalszych informacji z kanałów.

  • Generowanie metryk na temat różnych wymiarów kostki zbliżona do hurtowni danych, jak to zrobić, i

  • webapps pomocy aby uzyskać dostęp do ostatecznych danych/metryki szybciej za pomocą SQL lub innych standardowych mechanizmów.

Odpowiedz

5

Jak to działa:
Ponieważ dane są ładowane do urządzenia, to w inteligentny sposób rozdziela każdą tabelę poprzek 108 SPUS.
Zwykle dysk twardy jest najwolniejszą częścią komputera. Wyobraź sobie, że 108 z nich kręci się od razu, ładując mały kawałek stołu. W ten sposób Netezza osiąga czas ładowania wynoszący 500 gigabajtów na godzinę.
Po załadowaniu i zapisaniu jednego arkusza na każdym urządzeniu SPU (komputer na karcie z układem scalonym), każda kolumna jest analizowana w celu uzyskania statystyk opisowych, takich jak wartości minimalne i maksymalne. Te wartości to przechowywane na każdym ze 108 jednostek SPU zamiast indeksów, co wymaga czasu, aby utworzyć, zaktualizować i odebrać niepotrzebne miejsce.
Wyobraź sobie swoje środowisko bez potrzeby tworzenia indeksów. Gdy nadszedł czas na wysłanie zapytania do danych, główny komputer wewnątrz urządzenia wysyła zapytania do SPU, aby sprawdzić, które z nich zawierają wymagane dane.
Tylko jednostki SPU, które zawierają odpowiednie dane zwracają informacje, w związku z tym mniejszy przepływ informacji w sieci do serwera Business Intelligence/Analytics. Do łączenia danych jest jeszcze lepiej.
Urządzenie dystrybuuje dane w wielu tabelach w wielu jednostkach SPU za pomocą klucza. Każde SPU zawiera częściowe dane dla wielu tabel.Łączy części każdej tabeli lokalnie na każdym SPU zwracając tylko wynik lokalny. Wszystkie "wyniki lokalne" są montowane wewnętrznie w szafce, a następnie zwracane do serwera Business Intelligence/Analytics jako wynik zapytania. Ta metodologia przyczynia się także do historii prędkości.
Kluczem do tego wszystkiego jest "mniejszy przepływ danych w sieci". Urządzenie zwraca dane wymagane tylko na serwerze Business Intelligence/Analytics w sieci 1000/100 MB organizacji.
To bardzo różni się od tradycyjnego przetwarzania, w którym oprogramowanie Business Intelligence/Analytics zazwyczaj wyodrębnia większość danych z bazy danych w celu przetworzenia na własnym serwerze. Baza danych wykonuje pracę w celu ustalenia wymaganych danych, zwracając mniejszy wynik podzestawu do serwera Business Intelligence/Analytics .
Kopia zapasowa i nadmiarowość
Aby zrozumieć, w jaki sposób dane i system są skonfigurowane na prawie 100% czasu sprawności, ważne jest, aby zrozumieć projekt wewnętrzny w postaci . Korzysta z zewnętrznej, najszybszej, jednej trzeciej części każdego dysku 400-gigabajtowego do przechowywania danych i pobierania danych. Jedna trzecia magazynu dyskowego przechowuje statystyki opisowe, a pozostałe trzecie gromadzą dane w postaci kopii zapasowych w postaci innych SPU. Każda szafka Appliance zawiera również 4 dodatkowe moduły SPU do automatycznego przełączania awaryjnego dowolnego z 108 modułów SPU.
odebrał http://www2.sas.com

+1

Chcemy tylko wspomnieć, że obecne prędkości ładowania w systemach Netezza wynoszą obecnie 2 TB +/godz. – cairnz

2

Chciałbym rozważyć oddzielenie projektu procesu wsadowego ETL i dalszych zapytań SQL. Myślę, że następujące liczby są ważne do oceny decyzji:

a) Ile danych wierszy chcesz przetwarzać codziennie?
b) Ile danych wierszy chcesz przechowywać w systemie?
c) Jaki będzie rozmiar zbioru danych RDBMS.
d) Jakiego rodzaju SQL'ów będziesz miał? Mam na myśli - czy są tam ad-hoc SQL lub dobrze zaplanowane raporty. Kolejne pytania - potrzebujesz jonów między dwoma dużymi tabelami.

Po udzieleniu odpowiedzi na powyższe pytania będzie można udzielić lepszych odpowiedzi. Na przykład, rozważałbym Netezzę jako opcję, gdy potrzebne są połączenia bardzo dużych tabel i hadoop - jeśli potrzebujesz przechowywać terabajty danych.

+0

Sql ad hoc muszą być obsługiwane i są najczęściej używane. – sandeepkunkunuru

+0

Tak, teraz są trzy duże stoły po ETL. Większość zapytań znajduje się na jednej z tych tabel lub na kostce zbudowanej przy użyciu tych tabel. Przewiduje się jednak, że przyłączenia będą wymagane w przyszłości. – sandeepkunkunuru

2

Z twoich odpowiedzi wynika, że ​​Netezza może lepiej pasować do twoich potrzeb. Obsługuje zapytania ad-hoc bardzo dobrze, a najnowsza wersja ich oprogramowania ma wbudowane wsparcie dla pakietów zbiorczych i kostek. Ponadto, Netezza działa w skali terabajtów danych, więc powinieneś być w stanie przetworzyć dane, które masz dostępne.

0

Jeśli masz do czynienia ze scenariuszem ELT, gdzie trzeba załadować ogromne ilości plików i przetwarza je później jak filtr, transformacji i ładowania go do tranditional baz danych Analytics można użyć Hadoop załadować pliki a następnie Netezza jako miejsce docelowe lub obszar hurtowni danych. Za pomocą hadoopu możesz umieścić wszystkie swoje pliki w HDFS, a następnie odczytać za pomocą narzędzia ETL w celu przekształcenia, filtrowania itp. Lub użyć Hive SQL, aby zapisać zapytanie w tych plikach. Jednak magazyn danych oparty na hadoopie HIve nie obsługuje aktualizacji i nie obsługuje wszystkich instrukcji SQL. Dlatego lepiej jest odczytać te pliki z HDFS, zastosować filtry, transformację i załadować wynik do tradycyjnego urządzenia hurtowni danych, takiego jak netezza, aby pisać zapytania dla kostek.

Jeśli codziennie ładujesz GB danych do Netezza z lądowaniem, postojami i obszarem mart, najprawdopodobniej skończy się to na użyciu dużej ilości miejsca. W tym scenariuszu możesz sprawić, że przestrzeń lądowania będzie na odcinku, a następnie sprawisz, że obszary postoju i martwe będą netezzą. Jeśli zapytania są proste i nie wykonuje się bardzo skomplikowanych filtrów itp. Lub aktualizacje źródła mogą być w stanie zarządzać wszystkim za pomocą hadoop.

Podsumowując, hadoop jest idealny do dużych ilości danych, ale nie obsługuje wszystkich funkcji tradycyjnej hurtowni danych.

Możesz sprawdzić ten link, aby zobaczyć różnice: http://dwbitechguru.blogspot.ca/2014/12/how-to-select-between-hadoop-vs-netezza.html