2010-03-11 8 views
9

Apache Pig może wczytać dane z plików sekwencyjnych Hadoop użyciu skarbonka SequenceFileLoader:Przechowywanie danych do SequenceFile z Apache Pig

REGISTER /home/hadoop/pig/contrib/piggybank/java/piggybank.jar;

DEFINE SequenceFileLoader org.apache.pig.piggybank.storage.SequenceFileLoader();

log = LOAD '/data/logs' USING SequenceFileLoader AS (...)

Czy tam również biblioteka które pozwoliłyby zapisywać pliki sekwencji Hadoop od Pig?

Odpowiedz

2

To tylko kwestia wdrożenia StoreFunc, aby to zrobić.

Jest to możliwe teraz, chociaż stanie się nieco łatwiejsze, gdy pojawi się Pig 0.7, ponieważ zawiera kompletny przeprojektowanie interfejsów Load/Store.

W „Hadoop Dodatek” Twitter ma zamiar otworzyć źródło obejmuje otwartych źródeł w github, kod do generowania obciążenia i przechowywać funcs na podstawie protokołów Google bufory (budynku na wejścia/wyjścia dla formatów sam - już ty oczywiście te pliki sekwencji. Sprawdź, czy potrzebujesz przykładów, jak zrobić mniej trywialne rzeczy. Powinno być jednak dość proste.