728x90

R은 통계프로그래밍 언어로 일반인이 사용하기 쉽게 만든 언어이다.

그러나 필자는 프로그래머이고 비 프로그래머의 인식으로 접근하기 힘든면이 있다.

강의 또한 그러하다. 강의 곳곳에 프로그래머적인 시선이 들어있으니 참고하여 필요없으면 넘겨라.


참고:

[개발환경 셋팅하기]R설치 및 환경변수 등록-(1)

[개발환경 셋팅하기]RStudio설치-(2)

[개발환경 셋팅하기]RStudio프로젝트 만들기-(3)


특정 데이터의 빈도수를 보는 것을 히스토그램이라고 한다.

산포도와 더불어서 자주사용하는 그래프중 하나로 현재 상태를 개략적으로 볼 수 있다.

히스토그램을 사용하는 방법은 아래와 같다.

히스토그램 사용하기


hist - 히스토그램을 보여준다. main을 등록하면 타이틀을 변경할 수 있다. 그외의 plot에 등장하던 속성을 몇개 사용할 수있다. breaks 속성으로 최소값 최대값 범위와 간격도 지정할 수 있다.



해당 데이터는 위 사이트에서 받아온 육군 장병들의 신체사이즈를 api로 내놓은 것이다.

데이터가 정확하지는 않아서 (뒤에가니까 단위도 같이 기제되어있음) 잘라서 사용해야했다.

일단 데이터는 팩터형으로 왔는데 내부 데이터는 문자열이였다.

따라서 먼저 문자열 벡터형으로 바꿔야했고 문자열 벡터형을 다시 숫자로 변환해줘야했다.


ds <- read.csv('육군 신체측정정보.csv')

height <- as.numeric(as.character(ds$신장.센티미터[1:10000]))

hist(height,main='육군 현역 신장')


먼저 10000개의 데이터를 자른다. 뒤로는 단위가 있을수도 있고 필자생각에는 1만개도 충분하다 생각함.

그다음 해당 데이터는 팩터형이기에 히스토그램을 그리려면 연속형이여야한다.

일단 팩터형은 넣을 수 없기에 팩터형을 벡터형으로 바꿔줘야한다.

문자열이니 as.character로 변환한뒤 다시 as.numeric으로 숫자로 바꾼다.




이렇게 히스토그램분포를 확인할 수 있다.


ds <- read.csv('육군 신체측정정보.csv')

height <- as.numeric(as.character(ds$신장.센티미터[1:10000]))

minV=round(min(height))-1

maxV=round(max(height))+1

hist(height,main='육군 현역 신장',breaks=seq(minV,maxV,10))


beaks에 벡터에 넣으면 해당 값에 맞게 범위와 간격도 줄 수 있다.

이 때 범위는 반드시 데이터를 다 포함하고 있는 범위여야한다.



+ Recent posts