Big Data/R

[R] 10. 데이터 정제 (2) - 결측치 제거하기

nanee_ 2021. 6. 17. 11:41
728x90
반응형
SMALL
 

[R] 9. 데이터 정제 (1) - 결측치 찾기

# 결측치 찾기 - 결측치 의의 : 누락된 값, 비어있는 값 결측치 있으면 함수가 적용되지 않거나 분석 결과가 왜곡되는 결과가 발생한다. 그래서 결측치를 제거한 후에 분석을 실시해야한다. 표기

nanee-it.tistory.com

** 위의 글과 이어지는 글입니다.

 

 

# 결측치 제거하기

 

- dplyr 패키지 로드

library(dplyr)

 

- score 가 NA인 데이터만 출력

df %>% filter(is.na(score))

 

- score 가 결측치가 아닌 데이터만 출력하기

! : 부정(NOT)

df %>% filter(!is.na(score))

 

- 결측치 제외한 데이터로 분석하기

df_nomiss <- df %>% filter(!is.na(score))

결측치가 없는 데이터만 출력된 값을 새로운 변수에 할당을 해주었다.

 

- score 합계 산출

sum(df_nomiss$score)

[1] 14

 

- score 평균 산출

score(df_nomiss$score)

[1] 4

 

 

# 여러 변수 동시에 결측치가 없는 데이터 출력

 

- score, sex 결측치 제외

df_nomiss <- df %>%
	filter(!is.na(score) & ! is.na(sex))
    
df_nomiss

 

- 모든 변수에 결측치가 없는 데이터 추출

df_nomiss2 <- na.omit(df)
df_nomiss2

실제로는 결측치에도 의미가 부여된 경우가 있기 때문에

분석에 사용한 가능한 행까지 지나치게 제거될 가능성이 있으므로

모든 결측치를 제거하는 방법은 추천하지 않는다.

 

 

 

728x90
반응형
LIST