본문 바로가기
Big Data/R

[R] 4. ggplot2 패키지, mpg 데이터로 그래프 그리기

by nanee_ 2021. 5. 27.
728x90
반응형
SMALL

# ggplot2

: 통계 프로그래밍 언어 R을 위한 오픈 소스 데이터 시각화 패키지 입니다 . 

2005 년  Hadley Wickham이 만든 ggplot2는 Leland Wilkinson  Grammar of Graphics ( 그래프를 스케일 및 레이어와 같은 의미론적 구성 요소로 나누는 데이터 시각화를 위한 일반적인 체계 )의 구현입니다 . 

ggplot2는 R의 기본 그래픽을 대체 할 수 있으며 웹 및 일반 배율의 인쇄 디스플레이에 대한 여러 기본값을 포함합니다다. 2005 년부터 ggplot2는 가장 인기있는 R 패키지 중 하나가되었습니다.

출처 : https://en.wikipedia.org/wiki/Ggplot2 위키피디아

 

ggplot2 - Wikipedia

ggplot2 and base graphics defaults for a simple scatterplot image ggplot2 is an open-source data visualization package for the statistical programming language R. Created by Hadley Wickham in 2005, ggplot2 is an implementation of Leland Wilkinson's Grammar

en.wikipedia.org

 

 

 

# 패키지 설치

# ggplot2 패키지 설치 
install.packages("ggplot2")

# 패키지 로드
library(ggplot2)

 

 

# 빈도 막대 그래프 그리기

data <- c("a", "a", "b", "c")

qplot(data)

data 라는 변수에 값들을 입력해주고,

 

qplot(data)  Quick plot 을 이용해 빈도막대그래프를 그린다.

 

변수 data 안의 값들 중에

"a"는 2번,

"b", "c" 는 1번씩 입력되었다.

 

출력 해보면 오른쪽 밑의 plot 창에 이러한 그래프가 바로 출력된다. 

 

 

# mpg 데이터 실습

- MPG(Mile Per Gallon) : 1999 ~ 2008년 미국에서 출시된 자동차 연비데이터

(ggplot2 에서 제공하는 예제 데이터)

 

- 변수명

manufacturer 제조사
model 자동차 모델명
displ 배기량
year 생산 연도
cyl 실린더 개수
trans 변속기 종류
drv 구동방식
cty 도시 연비
hwy 고속도로 연비
fl 연료 종류
class 자동차 종류

 

 

# mpg 데이터를 활용한 그래프 그리기

qplot(data = mpg, x = hwy)

qplot() 함수로 mpg 데이터의 hwy(고속도로 연비) 변수를 활용해서 빈도막대그래프를 그려보았다.

 

 

qplot(data = mpg, x = cty)

qplot() 함수로 mpg 데이터의 cty(도시 연비) 변수를 활용해 빈도막대그래프를 그려보았다.

 

 

 

# 산점도 그래프

qplot(data = mpg, x = drv, y = hwy)

# colour
qplot(data = mpg, x = drv, y = hwy, colour = manufacturer)

 

x축은 drv(구동방식), y축은 hwy(고속도로 연비) 로 지정해서 산점도 그래프를 그릴 수 있다.

구동방식에 따른 고속도로 연비가 어떤지 확인해볼 수 있다.

 

 

제조업체 별로 구분해서 보고싶다면 colour = manufacturer색을 지정해줘서 더 보기 쉽게 그래프를 그릴 수도 있다.

 

 

# 선 그래프 

qplot(data = mpg, x = drv, y = hwy, geom = "line")

geom = "line" 으로 선 그래프로 출력할 수 있다.

선 그래프로는 값들이 어디에 분포되어있는지만 알 수 있어서 위의 산점도 그래프보다는 구체적으로 파악하기 어렵다.

 

 

# 상자 수염 그림

qplot(data = mpg, x = drv, y = hwy, geom = "boxplot")

box plot은 자료로부터 얻어낸 통계량인 5가지 요약 수치(다섯 숫자 요약, five-number summary)를 가지고 그린다. 이 때 5가지 요약 수치란 최솟값(min), 제 1사분위(Q1), 제 2사분위(Q2, 중앙값median), 제 3사분위(Q3), 최댓값(max)을 일컫는 말이다. 히스토그램과는 다르게 집단이 여러개인 경우에도 한 공간에 수월하게 나타낼수 있다.

출처 : https://ko.wikipedia.org/wiki/%EC%83%81%EC%9E%90_%EC%88%98%EC%97%BC_%EA%B7%B8%EB%A6%BC 위키피디아

 

상자 수염 그림 - 위키백과, 우리 모두의 백과사전

위키백과, 우리 모두의 백과사전. 기술 통계학에서 '상자 수염 그림'(box-and-whisker plot, box-and-whisker diagram) 또는 '상자 그림'(box plot, boxplot)은 수치적 자료를 표현하는 그래프이다. 이 그래프는 가공

ko.wikipedia.org

 

drv의 f 에는 그래프를 벗어난 점들이 찍혀져 있는 것을 볼 수 있는데, 이를 Outliner point(이상치 점) 이라고 한다.

이상치 점은 Q1 - 1.5(Q3 - Q1)보다 작거나, Q3 + 1.5(Q3 - Q1)보다 큰 관측치에 표시되게 된다.

 

qplot(data = mpg, x = drv, y = hwy, geom = "boxplot", colour = drv)

box plot도 colour를 이용해 drv별로 색을 지정해 준다면 이런 식으로 출력된다.

728x90
반응형
LIST