PinkWink / DataScience

책) 파이썬으로 데이터 주무르기 - 소스코드 및 데이터 공개
http://pinkwink.kr/1070
246 stars 502 forks source link

Chap2 90p 함수 사용 질문입니다. #29

Closed mug200ml closed 6 years ago

mug200ml commented 6 years ago

파이썬 초보로 정말 유용하면서도 재미있게 따라하고 있습니다.

제가 궁금한것은 p90 out[27]의 실행 결과에 궁금한 것이 있습니다.

sum   mean  
65000 2 32500 1
5000 2 5000 2
10000 1 10000 1
105000 4 52500 2
10000 1 10000 1
35000 1 35000 1
5000 2 5000 2

위 결과를 보면 sum은 제대로 계산된것 같은데 mean의 값은 계산이 이상합니다. mean라면 산술평균이 나와야 할 것 같은데 mean은 값과 갯수가 이상합니다.

이러면 데이터 가공이 잘못된 것이 아닌가 궁금합니다.

PinkWink commented 6 years ago

첫줄을 읽어보면 합계(sum) 금액 65000, 합계 갯수 2개~~~~

그 다음 mean 컬럼에서는 평균 금액 32500, 평균 갯수 1개.. 라는 뜻입니다.^^

mug200ml commented 6 years ago

답변감사합니다. 그런데 그 다음줄 둘째줄보면 합계와 평균을이 같은데 이것은 해석을 어떻게 해야 할까요? 그 아래도 이런 행이 있는데 이유가 무엇일까요?

제가 한 데이터와 책에 있는 데이터 값은 같습니다.

PinkWink commented 6 years ago

02 sales-funnel 2018-09-07 22-29-53

위 그림은 데이터 원본을 캡쳐한 것인데요. Craig의 CPU는 항목이 두 개입니다. 그러나 maintenance는 항목은 하나인데 거기에 적힌 Quantity가 2입니다.

두 항목 이상이면 평균이 적용될 수 있지만, 한 항목만 있는경우는 평균이 그대로입니다.