본문 바로가기
Big Data/R

[R] 9. 데이터 정제 (1) - 결측치 찾기

by nanee_ 2021. 6. 17.
728x90
반응형
SMALL

# 결측치 찾기

 

- 결측치 의의

: 누락된 값, 비어있는 값

결측치 있으면 함수가 적용되지 않거나 분석 결과가 왜곡되는 결과가 발생한다.

그래서 결측치를 제거한 후에 분석을 실시해야한다.

 

표기법 : NA (대문자 없고, 따옴표 없음)

              - Not Available의 약자

 

- 결측치가 포함된 데이터프레임 생성

df <- data.frame(sex = c("M", "F", NA, "M", "F"),
		score = c(5, 4, 3, 4, NA))
df             

 

- 결측치 확인

is.na() : NA 가 있는 곳에 TRUE 로 표시 된다.

is.na(df)

 

- 결측치 빈도 출력

table(is.na())

table(is.na(df))

 

- 각 변수별로 결측치 확인

$로 변수에 접근

table(is.na(df$sex))

 

- 결측치가 포함된 상태로 분석 시도

mean(df$sex)

argument is not numeric or logical: returning NA

라는 경고메시지가 뜬다

 

sum(df$score)

결측치가 존재하는 상태로 sum()을 하게 되면 NA가 출력된다.

728x90
반응형
LIST