본문 바로가기

database/R Programming

[R Programming] R을 통한 데이터의 시각화

반응형

R은 데이터를 처리하는 프로그램이니만큼 엑셀처럼 데이터를 시각화하는 것이 가능하다. 

데이터를 시각화하는 것은 누구나 알듯이 데이터가 어떠한 방식으로 연관되어 있는지 한 눈에 알아볼 수 있게 하기 위해서이다.

plot을 이용하여 시각화

 

기본함수인 plot을 이용하여 간단하게 시각화를 할 수 있다. 

plot의 기본입력값은 두개가 들어간다. plot(x,y)를 입력했을 때 x와 y에 대한 그래프가 만들어진다.

 

> x <- 3
> y <- 5
> plot(x,y)

 

위와 같은 가장 단순한 값을 입력했을 경우 (x,y)자리에 점이 찍히게 된다.

 

 

> x <- c(2,4)
> y <- c(3,5)
> plot(x,y)

이와 같은 값을 줄 경우 (2,4)와 (3,5)에 각각 점이 찍힌다. 

 

선으로 표현하고 싶을 경우 type을 설정해준다. 

 

> plot(x, y, type= "l")

 

type = 'l' 로 설정할 경우 위와 같이 선으로 표시된다. 

 

> plot(diamonds$carat, diamonds$price)

 

diamonds data의 carot과 price를 plot을 통해 시각화하면 이렇게 둘 사이의 관계를 파악하는데 도움이 된다.

 

 

ggplot2 패키지를 사용하여 데이터 시각화하기

 

ggplot2를 사용할 경우 이미지를 다양하게 보여줄 수 있다.

ggplot 함수에 들어가는 값은 ggplot(data, aes(x축, y축)이다.

 

> p <- ggplot(diamonds, aes(carat, price))
> p + geom_point()

 

가장 기본이 되는 모양으로 위에서 plot을 사용한 것과 비슷한 이미지가 만들어진다.

위의 값의 경우 값들이 너무 다양하기 때문에 mtcars data를 사용해보겠다.

 

> p <- ggplot(mtcars, aes(wt, mpg))

p의 값을 위와 같이 설정해 두고 이 p를 이용하여 다양하게 시각화 해볼 수 있다.

 

기본

> p + geom_point()

 

colour 사용

 

x축과 y축에 사용되지 않은 다른 값을 색으로 보여줄 수 있다.

> p + geom_point(aes(colour= factor(cyl)))

 

 

shape 사용

 

colour 대신 shape의 사용도 가능하다

 

> p + geom_point(aes(shape= factor(cyl)))

 

 

 

 

색과 크기 고정값 주기

 

> p + geom_point(colour="red", size=3)

 

 

 

데이터 시각화를 간단하게 알아보았다. 기회가 된다면 ggplot2 패키지를 좀 더 자세히 다뤄봐야겠다.

반응형