안녕하세요! Inventors 입니다.
약속드린 대로 <재미로 배우는 통계> 1편과 함께 돌아왔습니다.
오늘의 내용
기술통계학 기초인 단변량분석(Univariate Analysis)부터 시작합니다. 통계에 사전지식이 있거나 지루하다고 느끼시는 분은 넘어가셔도 좋습니다.
간단한 시작
1. 일본에서 온 섬유원단 생산자 나카모토씨가 있다고 합시다. 그는 한국 시장에 자신의 패션 브랜드를 런칭하고자 합니다.
2. 본격적으로 사업을 시작하기 전에, 그는 한국사람들이 패션에 얼마나 많은 돈을 소비하는지 알고 싶어합니다.
3. 나카모토씨는 한국에 리서치 업체를 고용하여 한국 사람들이 1년에 얼마나 많은 돈을 패션(의류) 에 소비하는지 조사합니다.
4. 리서치 업체는 한국 사람 1000명을 대상으로 한 조사를 통해 나카모토씨가 의뢰한 정보를 얻습니다.
그렇다면 여기서 질문, 나카모토씨가 원한 것은 "한국사람들이 1년에 얼마나 많은 돈을 패션에 소비하느냐?"인데 리서치 업체는 왜 1000명만을 대상으로 조사를 한 것일까요? 한국사람 전체에 대한 조사를 하지 않구요?
이때 1000명을 표본, 영어로는 Sample 이라고 하고
한국 전체 인구를 모집단, 영어로는 Population 이라고 합니다.
- 2017년 6월 기준 대한민국 인구는 약 5170만명 이라고 하는데요. 리서치 업체 입장에서는 5170만명을 일일히 조사해 데이터를 얻기는 매우 고되고 비용이 많이 드는 작업일 것입니다.
- 따라서 리서치 업체는 나카모토씨가 의뢰한 조사대상(한국 국민) 중의 일부(1000명) 만을 조사하여 의뢰받은 업무를 처리하고자 합니다.
- 이때, 리서치 업체가 울릉도 주민만을 대상으로 조사를 진행하게 되면 어떻게 될까요?
상대적으로, 백화점이나 옷가게가 주위에 많이 있는 수도권보다는 의류 소비기회가 적은 울릉도 주민들이 패션에 더 적은 돈을 사용할 것입니다. 따라서 울릉도 주민만을 대상으로 한 조사결과는 한국 국민을 적절히 대표한다고 볼 수 없겠습니다. 나카모토씨가 그 조사결과를 본다면 사업계획을 철회할 지도 모르지요.
그래서 리서치 업체는 적절한 방법으로 표본을 선택해야 합니다.
이 적절한 방법을 과학적 방법(scientific method) 이라고 합니다.
통계학에서는 이 과학적 방법이 발전되고 적용됩니다. 자세한 내용은 앞으로 다루도록 하겠습니다.
요약
모집단(population) - 통계적인 관찰의 대상이 되는 집단 전체. (출처: 두산백과)
표본(sample) - 모집단을 대표하는 집단
오늘은 컴퓨터가 너무 뜨거워져서 여기까지 하겠습니다. 쉬운 내용이긴 하지만 기초부터 시작해서 심화까지 다룰 예정이니 잘 부탁드립니다.
처음뵙네요. 보팅하고 갑니다. 자주 포스팅 부탁드립니다.
네 어제부터 시작했습니다. 잘 부탁드립니다! :)