haileyjpark

[통계학개론] 히스토그램, 상자그림, 다섯수치요약 본문

카테고리 없음

[통계학개론] 히스토그램, 상자그림, 다섯수치요약

개발하는 헤일리 2024. 4. 14. 23:05
반응형

통계학개론 수업 내용을 토대로, R studio로 히스토그램, 상자그림, 다섯수치요약을 표현하는 방법을 정리해보았습니다.

 

"어느 사무실의 20명 직원이 한 달 동안 완료한 프로젝트 수" :  3, 5, 7, 2, 5, 8, 4, 6, 3, 5, 7, 2, 4, 8, 5, 6, 7, 3, 6, 2

이 데이터를 사용하여 RStudio에서 히스토그램, 상자그림, 다섯 수치 요약을 생성하는 방법과 그 결과에 대해 설명하겠습니다.

 

 

 

히스토그램 (Histogram)

히스토그램은 데이터의 분포를 시각화하는 막대 그래프입니다. 각 막대는 특정 범위의 데이터 값을 나타내며, 막대의 높이는 해당 범위에 속하는 데이터 포인트의 수를 보여 줍니다.

 

 

히스토그램을 표현하는 데에 사용되는 R언어의 hist() 함수는 데이터의 분포를 시각화하는 데 사용되는 중요한 함수 중 하나이며, 기본 형태는 다음과 같습니다.

hist(x, breaks, col, main, xlab, xlim, ylim, ...)

 

  • x: 데이터 벡터. 히스토그램을 그리기 위한 원시 데이터입니다.
  • breaks: 히스토그램에서 막대의 수 또는 막대의 경계를 정의하는 데 사용됩니다. 이 값은 막대의 수를 직접 설정하거나, 막대를 나누는 기준(구간)을 자동으로 조정하는 방식으로 사용할 수 있습니다. breaks=10이라고 설정하면, 데이터 범위를 균등하게 10개의 구간으로 나누어 각 구간에 해당하는 막대를 그립니다. 
  • col: 막대의 색상을 지정합니다.
  • main: 히스토그램의 제목을 설정하는 데 사용됩니다. 이 문자열 값은 그래프 상단 중앙에 표시되어 그래프의 주 내용을 설명합니다. 만약 main=""으로 설정되어 있다면, 그래프에 제목이 표시되지 않습니다.
  • xlab: x축의 라벨입니다. 이 문자열 값은 x축 아래에 위치하여 축이 나타내는 데이터의 종류나 단위 등을 설명합니다. xlab="Number of complete projects"라고 설정하면, x축 아래에 "Number of complete projects"라고 라벨이 붙습니다.
  • xlim: x축의 범위를 지정합니다.
  • ylim: y축의 범위를 지정합니다.

 

 

간단한 사용 예시는 다음과 같습니다.

이 예시에서는 평균 50, 표준편차 10의 정규 분포에서 100개의 샘플을 추출하고, 이 데이터를 사용하여 히스토그램을 그립니다. 막대는 파란색으로 표시되고, x축의 범위는 20에서 80까지 설정됩니다.

# 임의의 데이터 생성
data <- rnorm(100, mean=50, sd=10)

# 히스토그램 생성
hist(data, breaks=20, col="blue", main="Histogram of Data", xlab="Data values", xlim=c(20, 80))

 

 

 

R studio에서 "어느 사무실의 20명 직원이 한 달 동안 완료한 프로젝트 수"  데이터를 가지고 작성한 코드 스크립트와 결과 히스토그램은 다음과 같습니다.

 

왼쪽의 히스토그램은 hist(data)로 데이터만 가지고 hist 함수로 그린 기본적인 히스토그램 입니다.

오른쪽의 히스토그램은 main을 ""로 설정하여 그래프의 제목을 없애고, xlab 인자로 X축이 의미하는 것을 명시했으며, breaks 인자로 데이터의 구간을 10개로 나눈 그래프입니다.

 

 

 

상자그림 (Boxplot)

상자그림은 은 데이터의 분포를 요약하여 보여 주는 그래프로, 특히 중앙값, 사분위수, 최소값, 최대값, 그리고 이상치를 시각적으로 나타내어  데이터의 중심 경향, 분산, 비대칭도 및 이상치를 한 눈에 파악할 수 있게 해 줍니다.

 

 


상자그림의 구성 요소

  • 중앙값 (Median): 데이터의 중앙값을 가로선으로 표시합니다. 데이터의 절반은 이 값보다 크고, 절반은 작습니다.
  • 사분위수 (Quartiles):
    • Q1 (하위 사분위수, 25% 위치): 데이터의 25%가 이 값보다 작거나 같습니다.
    • Q3 (상위 사분위수, 75% 위치): 데이터의 75%가 이 값보다 작거나 같습니다.
  • IQR (Interquartile Range, 사분위수 범위): Q3와 Q1의 차이입니다. 이 범위 내에 데이터의 중간 50%가 포함됩니다.
  • 상자 (Box): Q1에서 Q3까지의 범위를 나타내며, 데이터의 중앙 50%를 포함합니다.
  • 수염 (Whiskers): 일반적으로 Q1에서 1.5IQR 아래의 값과, Q3에서 1.5IQR 위의 값을 연결합니다. 데이터 포인트가 이 범위 밖에 있으면 이상치로 간주됩니다.
  • 이상치 (Outliers): 상자 외부에 위치한 데이터 포인트는 점으로 표시되며, 이상치로 간주됩니다.

 

 

R studio에서 "어느 사무실의 20명 직원이 한 달 동안 완료한 프로젝트 수"  데이터를 가지고 작성한 코드 스크립트와 결과 상자그림은 다음과 같습니다.

 

 

두 개의 상자그림은 모두 ylab이라는 인자를 사용해서 y축의 데이터가 의미하는 바를 나타냈습니다.

오른쪽의 상자그림은 왼쪽의 상자그림의 데이터셋과 비교할 때 더 큰 값인 18과 22가 포함되어 있습니다.

이 값들은 이상치로 나타날 수 있으며, 상자그림에서 이러한 이상치들은 상자 밖의 점으로 표시됩니다. 이러한 이상치 포함으로 인해 중앙값, 사분위수, 수염의 길이와 위치가 조정됩니다.

 

이렇게 상자그림을 통해 데이터의 분포가 대칭인지, 어느 쪽으로 치우쳐 있는지, 중앙값 주변에 데이터가 어떻게 분포하는지 등을 쉽게 확인할 수 있습니다.

 

 

 

 

다섯 수치 요약 (Five Number Summary)

 

다섯 수치 요약은 데이터의 분포를 요약하는 기본적인 통계 방법 중 하나입니다. 이 요약은 다음 다섯 가지 주요 수치로 구성됩니다.

  • 최소값 (Minimum): 데이터 셋의 가장 작은 값.
  • 하위 사분위수 (Q1, First Quartile): 데이터를 낮은 순으로 정렬했을 때 하위 25%의 값에 해당하는 지점. 이 값 이하로 데이터의 25%가 위치합니다.
  • 중앙값 (Median, Q2): 데이터를 순서대로 나열했을 때 가운데 위치하는 값. 데이터의 중간 값을 나타내며, 이 값 이하와 이상으로 데이터가 50%씩 나뉩니다.
  • 상위 사분위수 (Q3, Third Quartile): 데이터를 낮은 순으로 정렬했을 때 상위 25%의 값에 해당하는 지점. 이 값 이상으로 데이터의 25%가 위치합니다.
  • 최대값 (Maximum): 데이터 셋의 가장 큰 값.

 

 

 

R studio에서 "어느 사무실의 20명 직원이 한 달 동안 완료한 프로젝트 수"  데이터를 가지고 작성한 코드 스크립트와 다섯 수치 요약의 결과값은 다음과 같습니다.

 

 

 

이 수치들은 다음과 같이 해석됩니다:

 

  • 최소값 (Minimum): 2.0 - 이 데이터 세트에서 가장 작은 값은 2입니다. 즉, 한 달 동안 가장 적게 프로젝트를 완료한 직원의 수가 2개입니다.
  • 하위 사분위수 (Q1): 3.0 - 직원들이 완료한 프로젝트 수를 낮은 순으로 정렬했을 때, 하위 25%는 3개 이하의 프로젝트를 완료했습니다.
  • 중앙값 (Median): 5.0 - 중앙값이 5이므로, 직원들이 완료한 프로젝트의 중간 수는 5개입니다.
  • 상위 사분위수 (Q3): 6.5 - 상위 25%의 직원들은 6.5개 이상의 프로젝트를 완료했습니다. 여기서 6.5는 두 데이터 포인트(6과 7)의 평균으로 계산된 값입니다.
  • 최대값 (Maximum): 8.0 - 이 데이터 세트에서 가장 큰 값은 8입니다. 즉, 한 달 동안 가장 많은 프로젝트를 완료한 직원은 8개의 프로젝트를 마쳤습니다.

 

 


이 다섯 수치 요약은 직원들의 프로젝트 완료 패턴을 이해하는 데 도움을 줍니다. 예를 들어, 대부분의 직원들이 한 달 동안 3개에서 6.5개의 프로젝트를 완료했다는 것을 알 수 있습니다. 또한, 이 데이터는 비교적 균일하게 분포하고 있는 것으로 보이며, 특히 최대값과 최소값 사이의 차이가 크지 않습니다.