5

W dzisiejszych czasach wyzwaniem było stworzenie hurtowni danych do przechowywania i przetwarzania ogromnej ilości danych. Szacowana kwota to ponad 7 miliardów wydarzeń dziennie. Dane powinny być przechowywane przez 7 dni. Średni rozmiar wydarzenia to ~ 0,5 - 1 Kb. Musimy przetworzyć dane na:Wybieranie hurtowni danych dużych

  • generowanie raportów;
  • modele pociągów.

Obecnie jestem oceny:

  • Google BigQuery
  • Redshift
  • Stratio + Cassandra + AWS + EMR + EBS
  • Cloudera + AWS

Więc Zainteresowany:

  • rozwiązanie używać wewnątrz firmy (ram, setup, bazy danych, ilość węzłów, itp)
  • jakieś przykłady realne koszty/porównanie jeśli to możliwe
  • złożoność zarządzania (devops)
+2

Pytania dotyczące ** profesjonalnej administrowania infrastrukturą związaną z serwerem lub siecią ** nie dotyczą tematu przepełnienia stosu, chyba że dotyczą bezpośrednio narzędzi programujących lub programistycznych. Możesz uzyskać pomoc w [Błąd serwera] (http://serverfault.com/tour). –

+0

@MoralesBatovski to nie jest, temat jest większy i obejmuje rozwiązania programowe i frameworki takie jak z firmy Stratio i Cloudera. A bigquery jest elastyczny i działa tylko poprzez API ... –

+0

zbyt szeroki i offtopic. –

Odpowiedz

1

Używamy BigQuery, plusy:

  • SQL, kolumna oparte
  • obsługuje dane JSON w kolumnach -> zaleta, niestrukturalnych
  • Bardzo tani 1 Petabajt około 21 000 USD miesięcznie.
  • zarządzane usługi przez Google, nie ma devops
  • 100 000 wierszy/sekundę zdolność połykanie
  • patrz slajd #24 z połączonego prezentacji

Więcej przypadków użycia i architektury można znaleźć: http://www.slideshare.net/martonkodok/complex-realtime-event-analytics-using-bigquery-crunch-warmup

+0

wszelkie minusy znalezione na podstawie twojego doświadczenia? –

+2

Brak profesjonalnej obsługi, dziwne błędy interfejsu API, wymagają bardzo zaawansowanych programistów SQL, ale jest to zabawne. – Pentium10

4

Niedawno napisał to podsumowanie na podstawie serii Mark Lit porównującej BigQuery, Spark, Hive, Presto, ElasticSearch, AWS Redshift, AWS EMR i Google Dataproc:

https://cloud.google.com/blog/big-data/2016/05/bigquery-and-dataproc-shine-in-independent-big-data-platform-comparison

Podsumowanie Podsumowując:

  • samego zestawu danych (1 mld wierszy), te same pytania, wiele technologii i konfiguracje.
  • BigQuery był najszybszy do uruchomienia zapytań: 2 sekundy.
  • Domyślnie BigQuery był szybki: nie było potrzeby optymalizacji ani wstępnego przetwarzania danych. 1 miliard wierszy załadowano w ciągu 25 minut, a dane były gotowe do zapytania.
  • Inne rozwiązania zajęły godziny, aby załadować dane (przy znacznych kosztach) i były wielokrotnie wolniejsze niż BigQuery.

Jednak najlepszym testem porównawczym, jaki można uzyskać, jest to, że: próba gry BigQuery powinna być szybka i łatwa. Następnie spróbuj znaleźć inną platformę, która wczytuje dane tak szybko, zapyta je szybko lub zbliża się do ceny. Mark próbował i to były jego odkrycia.

+0

dzięki dobry post –