Big Data/R
[R] 10. 데이터 정제 (2) - 결측치 제거하기
nanee_
2021. 6. 17. 11:41
728x90
반응형
SMALL
[R] 9. 데이터 정제 (1) - 결측치 찾기
# 결측치 찾기 - 결측치 의의 : 누락된 값, 비어있는 값 결측치 있으면 함수가 적용되지 않거나 분석 결과가 왜곡되는 결과가 발생한다. 그래서 결측치를 제거한 후에 분석을 실시해야한다. 표기
nanee-it.tistory.com
** 위의 글과 이어지는 글입니다.
# 결측치 제거하기
- dplyr 패키지 로드
library(dplyr)
- score 가 NA인 데이터만 출력
df %>% filter(is.na(score))
- score 가 결측치가 아닌 데이터만 출력하기
! : 부정(NOT)
df %>% filter(!is.na(score))
- 결측치 제외한 데이터로 분석하기
df_nomiss <- df %>% filter(!is.na(score))
결측치가 없는 데이터만 출력된 값을 새로운 변수에 할당을 해주었다.
- score 합계 산출
sum(df_nomiss$score)
[1] 14
- score 평균 산출
score(df_nomiss$score)
[1] 4
# 여러 변수 동시에 결측치가 없는 데이터 출력
- score, sex 결측치 제외
df_nomiss <- df %>%
filter(!is.na(score) & ! is.na(sex))
df_nomiss
- 모든 변수에 결측치가 없는 데이터 추출
df_nomiss2 <- na.omit(df)
df_nomiss2
실제로는 결측치에도 의미가 부여된 경우가 있기 때문에
분석에 사용한 가능한 행까지 지나치게 제거될 가능성이 있으므로
모든 결측치를 제거하는 방법은 추천하지 않는다.
728x90
반응형
LIST