728x90
반응형
SMALL
[R] 9. 데이터 정제 (1) - 결측치 찾기
# 결측치 찾기 - 결측치 의의 : 누락된 값, 비어있는 값 결측치 있으면 함수가 적용되지 않거나 분석 결과가 왜곡되는 결과가 발생한다. 그래서 결측치를 제거한 후에 분석을 실시해야한다. 표기
nanee-it.tistory.com
** 위의 글과 이어지는 글입니다.
# 결측치 제거하기
- dplyr 패키지 로드
library(dplyr)
- score 가 NA인 데이터만 출력
df %>% filter(is.na(score))
- score 가 결측치가 아닌 데이터만 출력하기
! : 부정(NOT)
df %>% filter(!is.na(score))
- 결측치 제외한 데이터로 분석하기
df_nomiss <- df %>% filter(!is.na(score))
결측치가 없는 데이터만 출력된 값을 새로운 변수에 할당을 해주었다.
- score 합계 산출
sum(df_nomiss$score)
[1] 14
- score 평균 산출
score(df_nomiss$score)
[1] 4
# 여러 변수 동시에 결측치가 없는 데이터 출력
- score, sex 결측치 제외
df_nomiss <- df %>%
filter(!is.na(score) & ! is.na(sex))
df_nomiss
- 모든 변수에 결측치가 없는 데이터 추출
df_nomiss2 <- na.omit(df)
df_nomiss2
실제로는 결측치에도 의미가 부여된 경우가 있기 때문에
분석에 사용한 가능한 행까지 지나치게 제거될 가능성이 있으므로
모든 결측치를 제거하는 방법은 추천하지 않는다.
728x90
반응형
LIST
'Big Data > R' 카테고리의 다른 글
[R] 11. 데이터 정제 (3) - 결측치 제외, 대체하기 (0) | 2021.06.18 |
---|---|
[R] 9. 데이터 정제 (1) - 결측치 찾기 (0) | 2021.06.17 |
[R] 8. dplyr 패키지로 mpg 데이터 분석 (2) (0) | 2021.06.15 |
[R] 7. dplyr패키지로 mpg 데이터 분석 (1) (0) | 2021.06.15 |
[R] 6. 데이터 전처리 - dplyr패키지(2) (0) | 2021.06.15 |