데이터 기술하기 - 위치, 산포

2023. 9. 18. 02:07에러_error

반응형

"데이터를 표현하는 통계적 방법"
▷위치척도 loaation
-데이터의 대표값: 산술평균, 가중평균, 중앙값, 최빈값 등▷비대칭도 Skewness
-자료집단이 대표치를 중심으로 좌/우 쪽으로 치우쳐 있는지 치우쳤다면 얼마나 치우쳐 있는지
-피어슨 비대칭계수 (Pearsos˙s CS)
-" 왜도" 라고도 불린다.▶위치척도 Location
- 데이터 집합의 중심 경향을 기술하는 데 사용되는 값
- 일반적 위치척도 : 평균,중위수, 최빈값
- 산술평균은 가장 널리 사용되는 위치척도이다

▷산술평균_모평균 μ [뮤] = ∑x/n μ는 모평균을 의미하며 그리스어 소문자"뮤"를 활용하여 표현함 N은 모집단 내의 값으 개수 x는 어떤 특정한 값 ∑는 그리스어 대문자"시그마"이며 더하기 연산을 의미 ∑x는 모집단 x값의 총합을 의미함 모집단의 측정 가능한 특성을 모수 parameter라 부름 > 모평균은 모수의 대표적인 예시임 산술평균_표본평균

▷첨도 Kurtosis
-분포의 뽀족한 정도 측정
-첨도계수(Coefficient of kurtosis, CK)

▷산포척도 dispersion
-데이터가 퍼져있는 정도 범위 평균절대편차, 분산,표준편차, 변동계수

▷산술평균_표본평균
var(x) = 𝛴x / n
var(x) 는 표본평균을 의미하며"엑스바"라고 표현함
n은 표본의 개수
x는 어떤 특정한 값
𝛴는 그리스어 대문자"시그마"이며 더하기 연산을 의미
𝛴x는 모집단 x값의 총합을 의미하며 측정 가능한 표본의 특성을 표본통계량 Sample statistics이라 하며
표본평균은 표본통계량의 대표적이 예시임중위수 median
최소에서 최대의 순서로 정렬된 값들의 중간점
중앙값, 중간값, 중위값
산술평균의 특성은
등간척도 또는 비율척도가 요구됨
평군 계산에 모든 데이터 값들이 포함되어야 함
평균은 유일한 값
평균으로부터 각 값들깢의 편차의 합은 0이다
평균의 약점은 매우 크거나 작은값 outliers에 의하여 영향을 받는다는것

 

위치척도 

-중위수 최소에서 최대의 순서로 정렬된 값들의 중간값 (위치 = 2/(n+1))
-적어도 순서척도가 요구된다
-중위수보다 큰 관측치는 전체의 50%, 작은 관측치도 전체의 50%
-중위수는 데이터 집합 안에 단 하나만 존재
-극도로 작거나 큰 값에 영향 받지않음

최빈값
-가장 빈번하게 출현하는 관측치 값
-명목척도 데이터에서도 사용될수 있음
-극도로 작거나 큰 값에 영향 받지않음
-평균, 중앙값과 달리 값이 여러 개일 수 있음
- 이봉분포 최빈값이 2개일 경우
- 데이터에 따라 존재 하지 않을수도 있다.

평균,중위수,최빈값 및 왜도 skewness

분포의 양,음은 꼬리의 방향에 의해 좌우됨
최빈값은 항상 분포의 봉우리에 나타남
기울어진 분포의 경우 평균은 분포의 꼬리 방향에 나타남
중위수는 언제나 최빈값과 평균의 사이에 나타남

 

 

산포

-중심으로부터 데이터가 흩어진 정도

-중심성향의 측도는 데이터가 어떻게 분포되어 있는가에 대해 아무런 정보를 제공하지 않음

-평균만으로 데이터를 비교하려는 것은 의사결정의 위험성을 높임
 
범위 range
Range = Largest value-Smallest value
-계산이 쉽다 . 극단적인 데이터만을 사용하는 단점이 있다. 데이터의 분포 무시, 극단값에 민감

분산 variance
- 데이터가 평균으로 부터 얼마나 퍼져있는가
-평균으로부터 제곱편차에 대한 산술평균

-측정단위의 제곱된 값이어서 사용에 약산 어려움이있다


표준편차 standard deviation
-분산의 루트 square root 값

-데이터의 원래단위를 사용하여 분산에 비해 활용하기 쉬움
산포척도 중 가장 널리 사용된다



분산과 표준편차의 특징
-항상 0보다 같거나 크고 모든 데이커값이 같을 경우에만 0이됨
-동일한 값을 데이터 값에 더하거나 빼주어도 분산이나 표준편차는 변하지 않음

 

변동계수 coefficient of variation :CV
-월급의 표준편차 = 20만원, 학생들 성적의 표준편차 =15점 > 비교 가능한가?
-표준편차를 평균의 퍼센트로 표시
-데이터의 상대적 산포

 

변동계수의 사용
다른 단위를 가진 변수들의 비교 (월급 VS 시험성적)

-단위는 같으나 평균에 큰 차이가 나는 변수들의 비교 

변동계숙의 예제
-학생수와 직장인 연봉
-강의실 당 학생수를 알아보니 표본평균은 44명, 표본표준편차는 8명이었다. CV는 ?

표본 표준편차는 표본 평균의 18.2%

  

-장인들의 연봉에 조사 결과 표본평균은 2,940만원, 표본 표준편차는 165만 6천5백원이엇다, CV는?

 

-강의실 당 학생수의 CV가 직장인 연봉의 CV 크므로 강의실 당 학생수의 산포가 크다고 할 수 있다.

반응형

'에러_error' 카테고리의 다른 글

mac_pandas _seaborn 에러~  (0) 2023.06.14