Mam trochę doświadczenia z Apache Spark i Spark-SQL. Ostatnio znalazłem projekt Apache Drill. Czy możesz opisać mi, jakie są najważniejsze zalety/różnice między nimi? Przeczytałem już Fast Hadoop Analytics (Cloudera Impala vs Spark/Shark vs Apache Drill) , ale ten temat nadal jest dla mnie niejasny.Apache Drill kontra Spark
9
A
Odpowiedz
17
Oto artykuł natknąłem który omawia niektóre z technologii SQL: http://www.zdnet.com/article/sql-and-hadoop-its-complicated/
Wiertarka różni się zasadniczo zarówno doświadczenia użytkownika i architektury. Na przykład:
- Drill to bezpłatny silnik zapytań bez schematów. Na przykład możesz wskazać go w katalogu plików dzienników JSON lub Parquet (w lokalnym polu, udziale NFS, S3, HDFS, MapR-FS itd.) I uruchomić zapytanie. Nie trzeba ładować danych, tworzyć schematów i zarządzać nimi ani wstępnie przetwarzać danych.
- Drill korzysta wewnętrznie z modelu dokumentu JSON, który pozwala mu przesyłać dane o dowolnej strukturze. Wiele nowoczesnych danych jest złożonych, co oznacza, że rekord może zawierać zagnieżdżone struktury i tablice, a nazwy pól mogą w rzeczywistości kodować wartości takie jak znaczniki czasu lub adresy URL stron internetowych. Wiertarka pozwala zwykłym narzędziom BI bezproblemowo działać na takich danych, bez konieczności wcześniejszego spłaszczenia danych.
- Wiertarka działa z wieloma nierelacyjnymi magazynami danych, w tym Hadoop, bazami danych NoSQL (MongoDB, HBase) i pamięcią masową w chmurze. Dodatkowe datastore zostaną dodane.
Wiertło 1.0 zostało właśnie wydane (19 maja 2015 r.). Możesz go łatwo pobrać na laptopa i grać z nim bez żadnej infrastruktury (Hadoop, NoSQL itp.).
http://www.javacodegeeks.com/2015/12/apache-spark-vs-apache-drill.html – TechDog