2011-10-15 8 views
8

Mamy klastra (hadoop, świnia), który przekazuje dane 350 Gb (rośnie kilka GB tygodniowo).NoSql lub MySQL do analizy danych

Wszystkie te dane muszą zostać udostępnione Analytics.

Mamy rozwiązanie Msyql ze schematem gwiaździstym (do tego załadowane są tylko części danych). Ale martwić się może, jak daleko można to rozciągnąć?

Czy powinienem szukać NoSQL podobnego do Hive do analizy danych?

ja przeczytać ten artykuł http://anders.com/cms/282/Distributed.Data/Hadoop/Hbase/Hive

Jak duży jest Big Data i kiedy powinienem być odwracając z MySQL? Czy sztywność strukturalna Mysql spowoduje problemy?

Obecnie dane są tylko kilka GB (w MySQL), ale z pewnością będą rosnąć. Co z klastrowaniem MySQL?

Czy powinienem iść w ogóle tą ścieżką?

Odpowiedz

14

350Gb (rośnie kilka GB tygodniowo) ... Wszystkie te dane muszą być udostępnione Analytics

Czy masz guru MySQL w domu? Jeśli tak, sure => po prostu utwórz i rozbuduj ten klaster MySQL. Jedynym problemem z tym rozwiązaniem nie jest to, że jest to MySQL i nie jest to, że jest to , a nie a NoSQL => jest dosłownie, ponieważ wymaga eksperta, aby go skonfigurować i zawsze być tam z boku w przypadku to musi zostać zmienione. Ale zgadnij, co => SQL jest MUCH lepsze i prostsze do analityki, niż symulacja SQL na mapie/redukującej.

Coś, co może stać się późniejszym problemem z rozwiązaniem MySQL jest Oracle. Więc upewnij się, że rozumiesz, jakie funkcje MySQL możesz używać za darmo i jakie funkcje musiałbyś zapłacić.

Jeśli masz , a nie posiadasz eksperta MySQL w domu, lub nie chcesz za nie płacić, zdecydowanie możesz skorzystać z NoSQL. Nie oznacza to, że nie potrzebujesz wiedzy o produktach NoSQL, ale konfigurowanie i uruchamianie węzłów X jako pojedynczego systemu jest niezwykle prostym i naturalnym procesem dla rozwiązań NoSQL.

Na przykład w Riaku i kilku innych bestsellerach NoSQL, większość komplikacji dystrybucji jest rozwiązywana przez produkt bez konieczności wykonywania jakichkolwiek czynności => to naprawdę jest takie proste.

Cena płacisz NoSQL traci SQL (myśleć o miłych cech agregowania) i konsystencji, która jest ewentualny, a jeśli ściśle robi Analytics, dla ciebie, spójność nie może być cena w ogóle.

W zamian otrzymujesz bardzo naturalną obsługę dużych zbiorów danych, odporność na uszkodzenia i much more.

Jeśli jesteś w przestrzeni Hadooooxyz i możesz zapłacić, spójrz na Hadapt, która obiecuje 5-krotną wydajność Hive.

1

przełączać podczas uruchamiania mający rodzaje problemów nakreślonych w coś jak to pytanie porównawczej: https://dba.stackexchange.com/questions/5/what-are-the-differences-between-nosql-and-a-traditional-rdbms

Poza tym, to trochę trudno odpowiedzieć na pytanie poza ogólne rady, ponieważ nie stanowią konkretny problem, który próbujesz rozwiązać (np. skalowanie, szybkość odczytu, problemy z wymaganiem 100% spójności itd.).

+0

Czy powinienem mieć problemy z próbą pompowania coraz większej ilości danych do mysql? – AlgoMan

+0

Nie chodzi o ilość przechowywanych danych, ponieważ chodzi o to, jak są one wykorzystywane, oraz o to, w jaki sposób ich wykorzystanie i bazowy projekt bazy danych wpływa na wynikową wydajność/zaspokaja potrzeby biznesowe. Myślę, że moim zdaniem, (a) NoSQL nie jest w żaden sposób zamiennikiem MySQL, jest to po prostu kolejna opcja i (b) jest to "właściwe narzędzie do właściwej pracy". – jefflunt

2

Pytanie ma oczywiście już wiele miesięcy, ale ... Niedawno natknąłem się na InfiniDB, który stawia frontend MySQL na wysoce skalowalnym silniku Big Data opartym na MapReduce, przeznaczonym specjalnie do analiz. Może to być rozwiązanie tego problemu - w zasadzie powinno się w nim pojawić i wymagać bardzo niewiele administracji i kilku zmian w kodzie. Skalowanie w jednym miejscu lub na wielu serwerach jest obsługiwane ...