Próbuję załadować sklearn.dataset i brakuje kolumny, zgodnie z kluczami (target_names, target & DESCR). Próbowałem różnych metod, aby uwzględnić ostatnią kolumnę, ale z błędami.Ładowanie zestawu danych raka SKLearn w Pandas DataFrame
import numpy as np
import pandas as pd
from sklearn.datasets import load_breast_cancer
cancer = load_breast_cancer()
print cancer.keys()
są klucze [ 'target_names', 'dane', "docelowej 'DESCR', 'feature_names']
data = pd.DataFrame(cancer.data, columns=[cancer.feature_names])
print data.describe()
kodem powyżej, funkcja zwraca 30 kolumn, kiedy potrzebuję 31 kolumn. Jaki jest najlepszy sposób, aby załadować scikit-zestaw danych w pandas DataFrame.
Czy możesz wyjaśnić, dlaczego nie powinno być 31 kolumn? Jeśli użyjesz 'cancer.data.shape' lub sprawdzisz [opis dataset] (http://scikit-learn.org/stable/modules/generated/sklearn.datasets.load_breast_cancer.html), wydaje się, że jest tylko 30 kolumny w zestawie danych. Którą kolumnę przegapiłeś? –
Brakuje kolumny target/target_names z dataset.keys(), ponieważ nie została jeszcze załadowana do ramki danych. – pythonhunter