2013-03-18 18 views
5

Uczę się frameworków Hadoop i MapReduce. Do tej pory odtwarzałem pliki tekstowe i przetwarzałem je, wykorzystując framework MapReduce.Hadoop i inny format danych wejściowych, takich jak obraz, dźwięk, wideo

Kiedy zacząłem MapReduce nauczyć się pierwszego popularnego przykładu znalazłem WORDCOUNT, który jest scenariuszem przetwarzania pliku tekstowego. Następnie napisałem własną logikę, aby przetworzyć niektóre pliki tekstowe i wyświetlane wyniki. Udało mi się w tej sprawie.

Ale muszę przejść do różnych formatów danych wejściowych. Ponieważ w prawdziwym świecie nie będziemy przetwarzać tylko plików tekstowych. Potrzebuję zbadać przetwarzanie w różnych formatach, takich jak obrazy, audio, wideo za pomocą ramy MapReduce. Ale staram się znaleźć trafne przykłady, które mogłyby służyć mojemu celowi. Potrzebuję przykładów i samouczków na MapReduce z różnymi formatami wejść od tekstu do wideo.

Edit:

Znaczy przeładunkowe zdjęcia, pliki wideo i audio. Nie tylko plik tekstowy.

Edycja 2:

przykład: Say Mam 10 lat .bmp obrazów (gdzie kompresji i dekompresji nie jest zaangażowany), których rozmiar jest 450GB. Muszę przeanalizować każdy obraz w folderze i powinienem wyświetlić obrazy, które są podobne (Porównując wzorzec podobieństwa pikseli). I powinienem wylistować obrazy, które zostały utworzone/zmodyfikowane pomiędzy "Od" "Do" daty. Załóżmy, że obrazy zostały utworzone/zmodyfikowane w okresie od stycznia 2013 r. Do lutego 2013 r. W tym zestawie obrazów. Jak mogę to zrobić?

Byłbym szczęśliwy, gdyby ktoś mi pomógł podróżować po właściwej ścieżce !!

Odpowiedz

3

Po skonfigurowaniu programu odwzorowującego i reduktora można określić typ danych wejściowych/wyjściowych oraz typy danych wartości. Tutaj możesz obsługiwać różne typy danych w sposób, jaki myślę, że chcesz zrobić.

tutaj jest przykładem (choć źle sformatowany), który używa int typ danych do obliczenia średniej:

http://souravgulati.webs.com/apps/forums/topics/show/8539120-hadoop-map-reduce-example-calculate-mean-in-map-reduce

zmienił

Gdy mamy do czynienia z tych typów plików, to znowu pomaga mieć przykład tego, co konkretnie próbujesz osiągnąć. na przykład jeśli używasz dźwięku: czy korzystasz z plików .wav? Byłoby dobrze wiedzieć, ponieważ możesz przetwarzać dane przy użyciu bajtowego typu danych. w przeciwnym razie, jeśli używasz plików .mp3, z którymi masz kompresję.

To samo dotyczy obrazów, plików .bmp, które moim zdaniem nie są skompresowane i można je łatwo manipulować zmniejszając mapę przy użyciu typów danych typu int lub byte. pliki korzystające z dowolnej kompresji najprawdopodobniej wymagałyby pewnego rodzaju wstępnego przetworzenia przed uruchomieniem pracy.

Większość tutoriali zawiera informacje o liczbie słów lub czymś tak prostym. byłoby lepiej mieć konkretny problem do rozwiązania, aby uzyskać lepszą radę.

soooo, co próbujesz zrobić z pracą z mapreduce? policzyć liczbę pikseli w obrazie? wytłoczyć obraz? obliczyć średnią objętość pliku audio?

edit

Co masz opisane są 2 różne zadania mapred (chyba, że ​​chcesz tylko przeprowadzić analizę wszystkich obrazów między czynności do z datami).

Co można spróbować zrobić (i jest to opis wysoki poziom bez kodu) jest następujący (i to przy mojej głowie, bo nie używałem MapReduce w ten sposób):

ponieważ twoje zmapowane zadanie wymaga porównania dwóch plików graficznych naraz, musisz uruchomić wiele plików, aby zmniejszyć liczbę zadań, aby uzyskać wszystkie możliwe porównania plików. to może trochę potrwać!

potrzebujesz swojego programu odwzorowującego, aby wprowadzać dwa pliki naraz i wykonać zadanie porównywania mapreduce. uruchamiasz tę pracę tyle razy, ile potrzeba, aby przetworzyć wszystkie kombinacje źródłowych plików obrazów. możesz koordynować te zadania z czymś takim jak [oozie] [1]

teraz możesz zapytać - jak porównać dwa pliki obrazów w mapreduce? Znowu, nie zrobiłem tego, ale może to wskazywać Cię w dobrym kierunku - zajrzeć do pracy mapreduce z wielu źródeł plików: Hadoop mapper reading from 2 different source input files

+0

Cóż, mylić my. Przepraszam za to :(Zmieniłem moje pytanie, jeszcze raz przejrzyj to. Dzięki! – BinaryMee

+0

zobacz poprawioną odpowiedź – Tucker

+0

Ponownie zredagowałem pytanie – BinaryMee

3

HIPI to framework do przetwarzania obrazu pliku obrazu z MapReduce.

Here to artykuł poświęcony wysokowydajnemu przetwarzaniu wideo w chmurze. To nie jest dokładnie MapReduce, ale bardzo podobne do MapReduce.

Pamiętaj, że ich nie wypróbowałem, ale zrobiłem trochę Googling i to są najbliższe dostępne zasoby.

+0

HIPI mają pewne problemy z mojego doświadczenia. Przeczytaj poniższy wpis na blogu. http://worldofbigdata-inaction.blogspot.in/2017/02/processing-images-in-hadoop-using.html – Jobs