hadoop

    25Ciepło

    5Odpowiedz

    W przeszłości tworzyłem WebAnalytics przy użyciu kostek OLAP działających na MySQL. Teraz kostka OLAP, tak jak jej użyłem, to po prostu duży stół (ok, był przechowywany nieco mądrzejszy), gdzie każdy

    8Ciepło

    4Odpowiedz

    Biorąc pod uwagę scenariusz następujący schemat HBase (from the official FAQ) ... Jak można zaprojektować tabelę HBase dla wielu-do-wielu stowarzyszenie między dwa podmioty, na przykład studentów i Ki

    8Ciepło

    5Odpowiedz

    Zamierzamy kupić nowy sprzęt, który zostanie użyty tylko dla klastra Hadoop, a my utknęliśmy na tym, co powinniśmy kupić. Powiedzmy, że mamy budżet w wysokości 5 tys. USD, jeśli kupimy dwie bardzo ład

    11Ciepło

    10Odpowiedz

    Chciałbym analizować ciągły strumień danych (dostęp za pośrednictwem protokołu HTTP) przy użyciu podejścia MapReduce, więc zajmuję się Apache Hadoop. Niestety wygląda na to, że Hadoop spodziewa się, ż

    9Ciepło

    1Odpowiedz

    Dla osób, które wdrożyły HBase w swoich własnych klastrach, czy uważają Państwo, że jest wystarczająco stabilny do wykorzystania w produkcji? Z jakimi typami problemów lub problemów napotkasz? Widzę k

    5Ciepło

    2Odpowiedz

    Czy ktoś ma jakieś pojęcie o pracy zarówno z CloudStore i HDFS. Chciałbym zobaczyć, jak daleko skaluje się CloudStore i jak intensywnie zostało użyte w produkcji. CloudStore wydaje się być w pełni fun

    10Ciepło

    2Odpowiedz

    Dokumentacja Hbase wyjaśnia, że ​​należy grupować podobne kolumny w rodziny kolumn, ponieważ fizyczne przechowywanie odbywa się według rodziny kolumn. Ale co to znaczy umieścić dwie rodziny kolumn w t

    5Ciepło

    2Odpowiedz

    W ciągu ostatnich kilku tygodni pracowałem z komputerowymi bibliotekami programowania Apache Mahout w moim wolnym czasie. Jestem ciekawy, jak inni korzystają z tych bibliotek.

    14Ciepło

    7Odpowiedz

    Jak mogę wymazać DFS w Hadoop?

    51Ciepło

    3Odpowiedz

    Pracuję nad projektem wykorzystującym Hadoop i wydaje się on natywnie zawierać Java i zapewnia obsługę przesyłania strumieniowego dla Pythona. Czy wybór jednego z nich ma wpływ na wydajność? Jestem wy