728x90
반응형
SMALL
# 결측치 찾기
- 결측치 의의
: 누락된 값, 비어있는 값
결측치 있으면 함수가 적용되지 않거나 분석 결과가 왜곡되는 결과가 발생한다.
그래서 결측치를 제거한 후에 분석을 실시해야한다.
표기법 : NA (대문자 없고, 따옴표 없음)
- Not Available의 약자
- 결측치가 포함된 데이터프레임 생성
df <- data.frame(sex = c("M", "F", NA, "M", "F"),
score = c(5, 4, 3, 4, NA))
df
- 결측치 확인
is.na() : NA 가 있는 곳에 TRUE 로 표시 된다.
is.na(df)
- 결측치 빈도 출력
table(is.na())
table(is.na(df))
- 각 변수별로 결측치 확인
$로 변수에 접근
table(is.na(df$sex))
- 결측치가 포함된 상태로 분석 시도
mean(df$sex)
argument is not numeric or logical: returning NA
라는 경고메시지가 뜬다
sum(df$score)
결측치가 존재하는 상태로 sum()을 하게 되면 NA가 출력된다.
728x90
반응형
LIST
'Big Data > R' 카테고리의 다른 글
[R] 11. 데이터 정제 (3) - 결측치 제외, 대체하기 (0) | 2021.06.18 |
---|---|
[R] 10. 데이터 정제 (2) - 결측치 제거하기 (0) | 2021.06.17 |
[R] 8. dplyr 패키지로 mpg 데이터 분석 (2) (0) | 2021.06.15 |
[R] 7. dplyr패키지로 mpg 데이터 분석 (1) (0) | 2021.06.15 |
[R] 6. 데이터 전처리 - dplyr패키지(2) (0) | 2021.06.15 |