Mam dane wejściowe w spłaszczonym pliku. Chcę znormalizować te dane, dzieląc je na tabele. Czy mogę to zrobić dokładnie z pandas
- to znaczy, odczytując spłaszczone dane do instancji DataFrame
, a następnie stosując niektóre funkcje, aby uzyskać powstałe instancje DataFrame
?pandy: normalizowanie DataFrame
Przykład:
dane jest mi dane na dysku w postaci pliku CSV tak:
ItemId ClientId PriceQuoted ItemDescription
1 1 10 scroll of Sneak
1 2 12 scroll of Sneak
1 3 13 scroll of Sneak
2 2 2500 scroll of Invisible
2 4 2200 scroll of Invisible
Chcę utworzyć dwie DataFrames:
ItemId ItemDescription
1 scroll of Sneak
2 scroll of Invisibile
i
ItemId ClientId PriceQuoted
1 1 10
1 2 12
1 3 13
2 2 2500
2 4 2200
Jeśli pandas
ma tylko dobre rozwiązanie w najprostszym przypadku (normalizacja daje wyniki w 2 tabelach z relacją wiele do jednego - tak jak w powyższym przykładzie), to może wystarczyć dla moich aktualnych potrzeb. Być może jednak będę potrzebować bardziej ogólnego rozwiązania w przyszłości.