2016-05-03 40 views
5

Wpadłem na ten błąd, próbując przeanalizować kilka dat za pomocą parse_dates of pandas.read_csv(). W poniższym fragmencie kodu próbuję analizować daty o formacie dd/mm/yy, co prowadzi do nieprawidłowej konwersji. W niektórych przypadkach pole daty jest traktowane jako miesiąc i odwrotnie.pd.read_csv niepoprawne przetwarzanie pola daty/miesiąca po ustawieniu parse_date = ['nazwa kolumny']

Aby zachować prostotę, w niektórych przypadkach dd/mm/yy przekształcić na yyyy-dd-mm zamiast yyyy-mm-dd.

Przypadek 1:

04/10/96 is parsed as 1996-04-10, which is wrong. 

Przypadek 2:

15/07/97 is parsed as 1997-07-15, which is correct. 

Przypadek 3:

10/12/97 is parsed as 1997-10-12, which is wrong. 

Kod próbki

import pandas as pd 

df = pd.read_csv('date_time.csv') 
print 'Data in csv:' 
print df 
print df['start_date'].dtypes 

print '----------------------------------------------' 

df = pd.read_csv('date_time.csv', parse_dates = ['start_date']) 
print 'Data after parsing:' 
print df 
print df['start_date'].dtypes 

Prąd wyjściowy

---------------------- 
Data in csv: 
---------------------- 
    start_date 
0 04/10/96 
1 15/07/97 
2 10/12/97 
3 06/03/99 
4  //1994 
5 /02/1967 
object 
---------------------- 
Data after parsing: 
---------------------- 
    start_date 
0 1996-04-10 
1 1997-07-15 
2 1997-10-12 
3 1999-06-03 
4 1994-01-01 
5 1967-02-01 
datetime64[ns] 

oczekiwany wynik

---------------------- 
Data in csv: 
---------------------- 
    start_date 
0 04/10/96 
1 15/07/97 
2 10/12/97 
3 06/03/99 
4  //1994 
5 /02/1967 
object 
---------------------- 
Data after parsing: 
---------------------- 
    start_date 

0 1996-10-04 
1 1997-07-15 
2 1997-12-10 
3 1999-03-06 
4 1994-01-01 
5 1967-02-01 
datetime64[ns] 

Więcej Komentarze:

mogę użyć date_parser lub pandas.to_datetime() określenie właściwego formatu daty. Ale w moim przypadku mam kilka pól daty, takich jak ['//1997', '/02/1967'], dla których muszę przekonwertować ['01/01/1997','01/02/1967']. parse_dates pomaga mi w przekształceniu tego typu pól daty w oczekiwany format, nie zmuszając mnie do napisania dodatkowej linii kodu.

Czy istnieje rozwiązanie tego problemu?

Bug link @GitHub: https://github.com/pydata/pandas/issues/13063

+0

Czy spróbuj zaktualizować do najnowszej wersji 0.18 pand? Czy problem nadal istnieje? –

+0

Czy próbowałeś ustawić 'infer_datetime_format' na' True'? – IanS

+1

Mam dokładnie ten sam problem! Moim tymczasowym rozwiązaniem było odczytanie wartości z pliku Excel (zamiast CSV), gdzie daty są analizowane zgodnie z lokalnymi ustawieniami systemu, ale wiem, że nie jest to rozwiązanie, które pasuje do większości programistów. Otrzymujesz poprawne daty, gdy dzień> 12, ponieważ pandy zdają sobie sprawę, że nie może to być wartość miesięczna. – Shovalt

Odpowiedz

3

w wersji pandy 0.18.0 można dodać parametr dayfirst=True i wtedy to działa:

import pandas as pd 
import io 

temp=u"""start_date 
04/10/96 
15/07/97 
10/12/97 
06/03/99 
//1994 
/02/1967 
""" 
#after testing replace io.StringIO(temp) to filename 
df = pd.read_csv(io.StringIO(temp), parse_dates = ['start_date'], dayfirst=True) 
    start_date 
0 1996-10-04 
1 1997-07-15 
2 1997-12-10 
3 1999-03-06 
4 1994-01-01 
5 1967-02-01 

Innym rozwiązaniem:

Można parsowania z to_datetime z różnymi parametrami format i errors='coerce', a następnie combine_first:

date1 = pd.to_datetime(df['start_date'], format='%d/%m/%y', errors='coerce') 
print date1 
0 1996-10-04 
1 1997-07-15 
2 1997-12-10 
3 1999-03-06 
4   NaT 
5   NaT 
Name: start_date, dtype: datetime64[ns] 

date2 = pd.to_datetime(df['start_date'], format='/%m/%Y', errors='coerce') 
print date2 
0   NaT 
1   NaT 
2   NaT 
3   NaT 
4   NaT 
5 1967-02-01 
Name: start_date, dtype: datetime64[ns] 

date3 = pd.to_datetime(df['start_date'], format='//%Y', errors='coerce') 
print date3 
0   NaT 
1   NaT 
2   NaT 
3   NaT 
4 1994-01-01 
5   NaT 
Name: start_date, dtype: datetime64[ns] 
print date1.combine_first(date2).combine_first(date3) 
0 1996-10-04 
1 1997-07-15 
2 1997-12-10 
3 1999-03-06 
4 1994-01-01 
5 1967-02-01 
Name: start_date, dtype: datetime64[ns] 
+0

Dzięki @jezrael. To super. :) Doceniam twój trud, twoje starania. Nie wiedziałem o 'dayFirst = True'. Ale nie rozumiem, dlaczego musi istnieć inny parametr, aby uzyskać właściwy format daty. Czy nie byłoby lepiej, gdyby 'parse_dates' mógł go poprawnie przetworzyć? –

+0

Trudne pytanie, myślę, że 'ajcr' jako twórca' pand' może lepiej wyjaśnić. Ale myślę, że chodzi o wydajność. – jezrael