Wpadłem na ten błąd, próbując przeanalizować kilka dat za pomocą parse_dates of pandas.read_csv()
. W poniższym fragmencie kodu próbuję analizować daty o formacie dd/mm/yy
, co prowadzi do nieprawidłowej konwersji. W niektórych przypadkach pole daty jest traktowane jako miesiąc i odwrotnie.pd.read_csv niepoprawne przetwarzanie pola daty/miesiąca po ustawieniu parse_date = ['nazwa kolumny']
Aby zachować prostotę, w niektórych przypadkach dd/mm/yy
przekształcić na yyyy-dd-mm
zamiast yyyy-mm-dd
.
Przypadek 1:
04/10/96 is parsed as 1996-04-10, which is wrong.
Przypadek 2:
15/07/97 is parsed as 1997-07-15, which is correct.
Przypadek 3:
10/12/97 is parsed as 1997-10-12, which is wrong.
Kod próbki
import pandas as pd
df = pd.read_csv('date_time.csv')
print 'Data in csv:'
print df
print df['start_date'].dtypes
print '----------------------------------------------'
df = pd.read_csv('date_time.csv', parse_dates = ['start_date'])
print 'Data after parsing:'
print df
print df['start_date'].dtypes
Prąd wyjściowy
----------------------
Data in csv:
----------------------
start_date
0 04/10/96
1 15/07/97
2 10/12/97
3 06/03/99
4 //1994
5 /02/1967
object
----------------------
Data after parsing:
----------------------
start_date
0 1996-04-10
1 1997-07-15
2 1997-10-12
3 1999-06-03
4 1994-01-01
5 1967-02-01
datetime64[ns]
oczekiwany wynik
----------------------
Data in csv:
----------------------
start_date
0 04/10/96
1 15/07/97
2 10/12/97
3 06/03/99
4 //1994
5 /02/1967
object
----------------------
Data after parsing:
----------------------
start_date
0 1996-10-04
1 1997-07-15
2 1997-12-10
3 1999-03-06
4 1994-01-01
5 1967-02-01
datetime64[ns]
Więcej Komentarze:
mogę użyć date_parser
lub pandas.to_datetime()
określenie właściwego formatu daty. Ale w moim przypadku mam kilka pól daty, takich jak ['//1997', '/02/1967']
, dla których muszę przekonwertować ['01/01/1997','01/02/1967']
. parse_dates
pomaga mi w przekształceniu tego typu pól daty w oczekiwany format, nie zmuszając mnie do napisania dodatkowej linii kodu.
Czy istnieje rozwiązanie tego problemu?
Bug link @GitHub: https://github.com/pydata/pandas/issues/13063
Czy spróbuj zaktualizować do najnowszej wersji 0.18 pand? Czy problem nadal istnieje? –
Czy próbowałeś ustawić 'infer_datetime_format' na' True'? – IanS
Mam dokładnie ten sam problem! Moim tymczasowym rozwiązaniem było odczytanie wartości z pliku Excel (zamiast CSV), gdzie daty są analizowane zgodnie z lokalnymi ustawieniami systemu, ale wiem, że nie jest to rozwiązanie, które pasuje do większości programistów. Otrzymujesz poprawne daty, gdy dzień> 12, ponieważ pandy zdają sobie sprawę, że nie może to być wartość miesięczna. – Shovalt