[R] 4. ggplot2 패키지, mpg 데이터로 그래프 그리기
# ggplot2
: 통계 프로그래밍 언어 R을 위한 오픈 소스 데이터 시각화 패키지 입니다 .
2005 년 에 Hadley Wickham이 만든 ggplot2는 Leland Wilkinson 의 Grammar of Graphics ( 그래프를 스케일 및 레이어와 같은 의미론적 구성 요소로 나누는 데이터 시각화를 위한 일반적인 체계 )의 구현입니다 .
ggplot2는 R의 기본 그래픽을 대체 할 수 있으며 웹 및 일반 배율의 인쇄 디스플레이에 대한 여러 기본값을 포함합니다다. 2005 년부터 ggplot2는 가장 인기있는 R 패키지 중 하나가되었습니다.
출처 : https://en.wikipedia.org/wiki/Ggplot2 위키피디아
ggplot2 - Wikipedia
ggplot2 and base graphics defaults for a simple scatterplot image ggplot2 is an open-source data visualization package for the statistical programming language R. Created by Hadley Wickham in 2005, ggplot2 is an implementation of Leland Wilkinson's Grammar
en.wikipedia.org
# 패키지 설치
# ggplot2 패키지 설치
install.packages("ggplot2")
# 패키지 로드
library(ggplot2)
# 빈도 막대 그래프 그리기
data <- c("a", "a", "b", "c")
qplot(data)
data 라는 변수에 값들을 입력해주고,
qplot(data) Quick plot 을 이용해 빈도막대그래프를 그린다.
변수 data 안의 값들 중에
"a"는 2번,
"b", "c" 는 1번씩 입력되었다.
출력 해보면 오른쪽 밑의 plot 창에 이러한 그래프가 바로 출력된다.
# mpg 데이터 실습
- MPG(Mile Per Gallon) : 1999 ~ 2008년 미국에서 출시된 자동차 연비데이터
(ggplot2 에서 제공하는 예제 데이터)
- 변수명
manufacturer | 제조사 |
model | 자동차 모델명 |
displ | 배기량 |
year | 생산 연도 |
cyl | 실린더 개수 |
trans | 변속기 종류 |
drv | 구동방식 |
cty | 도시 연비 |
hwy | 고속도로 연비 |
fl | 연료 종류 |
class | 자동차 종류 |
# mpg 데이터를 활용한 그래프 그리기
qplot(data = mpg, x = hwy)
qplot() 함수로 mpg 데이터의 hwy(고속도로 연비) 변수를 활용해서 빈도막대그래프를 그려보았다.
qplot(data = mpg, x = cty)
qplot() 함수로 mpg 데이터의 cty(도시 연비) 변수를 활용해 빈도막대그래프를 그려보았다.
# 산점도 그래프
qplot(data = mpg, x = drv, y = hwy)
# colour
qplot(data = mpg, x = drv, y = hwy, colour = manufacturer)
x축은 drv(구동방식), y축은 hwy(고속도로 연비) 로 지정해서 산점도 그래프를 그릴 수 있다.
구동방식에 따른 고속도로 연비가 어떤지 확인해볼 수 있다.
제조업체 별로 구분해서 보고싶다면 colour = manufacturer 로 색을 지정해줘서 더 보기 쉽게 그래프를 그릴 수도 있다.
# 선 그래프
qplot(data = mpg, x = drv, y = hwy, geom = "line")
geom = "line" 으로 선 그래프로 출력할 수 있다.
선 그래프로는 값들이 어디에 분포되어있는지만 알 수 있어서 위의 산점도 그래프보다는 구체적으로 파악하기 어렵다.
# 상자 수염 그림
qplot(data = mpg, x = drv, y = hwy, geom = "boxplot")
box plot은 자료로부터 얻어낸 통계량인 5가지 요약 수치(다섯 숫자 요약, five-number summary)를 가지고 그린다. 이 때 5가지 요약 수치란 최솟값(min), 제 1사분위(Q1), 제 2사분위(Q2, 중앙값median), 제 3사분위(Q3), 최댓값(max)을 일컫는 말이다. 히스토그램과는 다르게 집단이 여러개인 경우에도 한 공간에 수월하게 나타낼수 있다.
출처 : https://ko.wikipedia.org/wiki/%EC%83%81%EC%9E%90_%EC%88%98%EC%97%BC_%EA%B7%B8%EB%A6%BC 위키피디아
상자 수염 그림 - 위키백과, 우리 모두의 백과사전
위키백과, 우리 모두의 백과사전. 기술 통계학에서 '상자 수염 그림'(box-and-whisker plot, box-and-whisker diagram) 또는 '상자 그림'(box plot, boxplot)은 수치적 자료를 표현하는 그래프이다. 이 그래프는 가공
ko.wikipedia.org
drv의 f 에는 그래프를 벗어난 점들이 찍혀져 있는 것을 볼 수 있는데, 이를 Outliner point(이상치 점) 이라고 한다.
이상치 점은 Q1 - 1.5(Q3 - Q1)보다 작거나, Q3 + 1.5(Q3 - Q1)보다 큰 관측치에 표시되게 된다.
qplot(data = mpg, x = drv, y = hwy, geom = "boxplot", colour = drv)
box plot도 colour를 이용해 drv별로 색을 지정해 준다면 이런 식으로 출력된다.