Mam DataFrame który wygląda tak:Korzystanie Pandy próbki DataFrame użyciu wagi określonej kolumny za
index name city
0 Yam Hadera
1 Meow Hadera
2 Don Hadera
3 Jazz Hadera
4 Bond Tel Aviv
5 James Tel Aviv
chcę Pandy losowo wybierać wartości, używając liczby występów w kolumnie city
(niby za pomocą: df.city.value_counts()
), więc wyniki mojej funkcji magicznego, załóżmy:
df.magic_sample(3, weight_column='city')
może wyglądać następująco:
0 Yam Hadera
1 Meow Hadera
2 Bond Tel Aviv
Dzięki! :)
Dzięki! Ostatecznie, dla większych zestawów danych, wybiera mniej niż wartości "N" w ogólnym (w twoim przykładzie, N = 3). Czy istnieje sposób, aby to zrobić, aby uzyskać dokładnie N wartości w sumie? – Infinity
@Infinity Co by się stało, gdybyś miał 10 grup z 2 rzędami i N = 3? –
Jak skomentował @TedPetrou, ta metoda próbkowania nie zawsze działa, ponieważ można tylko próbkować całkowitą liczbę wierszy z grupy, ale * waga * całkowita liczba wierszy * może być ułamkowa. – Psidom