본문 바로가기

반응형

database/R Programming

(6)
[R Programming] R을 통한 데이터의 시각화 R은 데이터를 처리하는 프로그램이니만큼 엑셀처럼 데이터를 시각화하는 것이 가능하다. 데이터를 시각화하는 것은 누구나 알듯이 데이터가 어떠한 방식으로 연관되어 있는지 한 눈에 알아볼 수 있게 하기 위해서이다. plot을 이용하여 시각화 기본함수인 plot을 이용하여 간단하게 시각화를 할 수 있다. plot의 기본입력값은 두개가 들어간다. plot(x,y)를 입력했을 때 x와 y에 대한 그래프가 만들어진다. > x y plot(x,y) 위와 같은 가장 단순한 값을 입력했을 경우 (x,y)자리에 점이 찍히게 된다. > x y plot(x,y) 이와 같은 값을 줄 경우 (2,4)와 (3,5)에 각각 점이 찍힌다. 선으로 표현하고 싶을 경우 type을 설정해준다. > plot(x, y, type= "l") typ..
[R Programming] 데이터 프레임(Data frame) 만들기 / 데이터 추가하기 / data.frame() 데이터 프레임(Data frame) 데이터 프레임은 2차원 형태의 데이터이다. 행렬(matrix)과 다른 점은 여러가지의 자료형을 하나의 데이터로 가지고 있을 수 있다는 것이다. 데이터 프레임 생성 / data.frame() data.frame()을 통해 데이터 프레임을 생성할 수 있다. > date Temper day temper_Date temper_Date date Temper day 1 220128 -2 Fri 2 220129 -8 Sat 3 220130 -10 Sun 4 220131 -9 Mon 5 220201 -4 Tue 값을 넣은 벡터들(이후에 데이터 형식 정리해서 올릴 예정, 여기서는 date, Temper, day)을 data.frame()에 적용하여 데이터 프레임을 생성할 수 있다. 데..
[R Programming] 원하는 데이터 찾기 / 데이터 필터링 / 데이터 추출하기 비교연산자로 true인 행을 찾아서 출력하기 diamonds[diamonds$cut=="Good", ] diamonds 데이터에서 cut의 값을 Good 과 비교하고 true인 행만 출력한다. diamonds[diamonds$cut=="Good" & diamonds$color=="I", ] diamonds 데이터에서 cut의 값이 Good이면서 color의 값이 I인 행만 출력한다. filter() 함수 사용하기 dplyr패키지 함수이다. filter(diamonds, color=="I") diamonds %>% filter(color=="I") diamonds 에서 color가 I인 행을 출력한다. 같은 dplyr 패키지에 있는 파이프연산자( %>% )를 활용하면 아랫줄과 같이 나타낼 수 있다. fil..
[R Programming] 데이터 함수에 적용하기 / 파이프 연산자 / %>% 파이프 연산자 / %>% 파이프 연산자는 파이프라는 이름처럼 왼쪽에서 오른쪽으로 데이터가 전달되는 연산자이다. 왼쪽의 데이터를 전달받아 오른쪽의 연산을 진행한다. dplyr 패키지에서 제공한다. 왼쪽의 데이터를 그대로 함수에 적용시킬 수 있고, 중복사용이 가능하기 때문에 유용한 연산자이다. > colnames(sleep) [1] "extra" "group" "ID" > sum((filter(sleep, group==1))$extra) [1] 7.5 > sleep %>% colnames() [1] "extra" "group" "ID" > (sleep %>% filter(group==1))$extra %>% sum() [1] 7.5 파이프 연산자를 이용하면 함수에 데이터를 직접 입력할 때 보다 더 직관적인 ..
[R Programming] mode() / 데이터 자료형 확인하기 데이터의 자료형을 확인하는 함수는 mode(), typeof(), class()가 있다. 그 중 자료형을 가장 단순하게 나누는 mode()에 대해서 정리해보고자 한다. mode() 1. numeric (숫자) 정수와 실수의 구분 없이 numeric을 출력한다. > x y mode(x) [1] "numeric" > mode(y) [1] "numeric" NaN(Not a Number)값에 대해서도 numeric을 출력한다. 따라서 NaN값도 연산이 가능하다. NaN이 포함된 연산의 결과로 NaN을 출력한다. > z mode(z) [1] "numeric" > z + 3 [1] NaN 2. character (문자) character 표현은 큰따옴표( "" ) 와 작은따옴표 ( ' ' ) 둘 다 가능하다. >..
[R Programming] Data 확인하기 / View() / head() / tail() 인덱스(index) 배열 인덱스가 [0]부터 시작하는 다른 프로그래밍 언어들과 다르게, R의 인덱스는 [1]부터 시작한다. data() data(data)를 이용해 data를 Environment에 추가한다. data(diamonds) 위의 코드를 입력하면 RStudio package에 내장되어 있는 다이아몬드 데이터셋을 불러온다. 이처럼 처음에 values에 diamonds가 추가되는 것을 확인할 수 있다. 잠시 기다리면 Data로 들어간다. diamonds는 53940개의 행을 가진 data이다. diamonds는 ggplot2 패키지 안에 내장되어 있기 때문에 ggplot2 패키지를 추가하고, 체크해주어야한다. Veiw() data 전체를 확인하고 싶을 경우 Veiw(data)를 사용한다. View..

반응형