Użycie dplyr do podsumowania zestawu danych, chcę wywołać n_distinct, aby policzyć liczbę niepowtarzalnych wystąpień w kolumnie. Jednak chcę również wykonać kolejne zestawienie() dla wszystkich unikalnych wystąpień w kolumnie, w której spełniony jest warunek w innej kolumnie.dplyr n_distinct z warunkiem
Przykład dataframe nazwie "A":
A B
1 Y
2 N
3 Y
1 Y
a %>% summarise(count = n_distinct(A))
Jednak chcę też dodać liczbę n_distinct(A)
gdzie B == "Y"
Rezultatem powinno być:
count
3
po dodaniu oszustwa datkowe wynik powinien być:
count
2
Efektem końcowym staram się osiągnąć to oba zdania połączone w jedno połączenie, które daje mi wynik jak
count_all count_BisY
3 2
Jaki jest właściwy sposób, aby przejść na ten temat z dplyr?
można spróbować użyć: a%>% podsumowania (count = n_distinct (A [B == 'Y']))? – Gopala
@ user3949008 Błąd: Wejście do n_distinct() musi być pojedynczą nazwą zmiennej z zestawu danych –
Niestety, działa to n_distinct (df $ A [df $ B == 'Y']). – Gopala