1과목 데이터의 이해
# 1과목 데이터의 이해
### 암묵지와 형식지
- 암묵지: 개인에게 습득되어 드러나지 않은 지식
- 형식지: 문서나 메뉴얼처럼 표출되어 공유할 수 있는 지식
개인에게 **내면화**된 암묵지가 조직의 지식으로 **공통화**되기 위해서는 **표출화**하고 이를 다시 개인의 지식으로 **연결화**하는 과정으로 상호작용한다.
### DIKW 피라미드
- Data: 객관적인 사실
- Information: 데이터의 의미가 도출
- Knowledge: 정보를 개인적인 경험과 결합, 고유의 지식으로 내재화
- Wisdom: 지식과 아이디어와 결합
|DIKW|예시|
|:--:|:---|
|Wisdom|A의 다른 물건도 저렴할 거라는 추측|
|Knowledge|더 저렴한 A로부터 연필을 구매 결심|
|Information|A 연필이 더 저렴|
|Data|A는 100원, B는 200원에 연필을 판매|
### 데이터 단위
**T**B테라바이트 < **P**B페타바이트 < **E**B엑사바이트 < **Z**B제타바이트 < **Y**B요타바이트
### 데이터베이스의 특징
#### 일반적인 특징 (내적)
- 통합된 데이터: 유니크
- 저장된 데이터
- 공용 데이터
- 변환하는 데이터: 삽입, 수정, 삭제로 최신의 정확한 데이터를 유지
#### 다양한 측면에서 특징 (외적)
- 정보의 축적 및 전달
- 정보이용
- 정보관리
- 정보기술발전
- 경제 및 산업적
#### 트랜젝션 특성
- 원자성
- 일관성
- 고립성
- 지속성
### DM와 DW
- Data Warehouse: 의사결정을 하기 위해 공통의 형식으로 변환해 관리, DB에서 부서별 SCHEMA 복사 생성
- Data Mart: DW로부터 추출된 특정 목표를 달성하는데 필요한 데이터를 제공 역할, DW의 SCHEMA에서 특정 데이터들을 JOIN
> Data Lake: 방대한 데이터와 새로운 포맷의 데이터를 수집, 축적, 활용해야 하는 니즈가 증가로 ETL, DW 구축 및 관리로는 한계가 있어서 도입
### 빅데이터의 새로운 특징 4V
- Volume
- Variety
- Velocity
- Value 혹은 Veracity
### 빅데이터의 기능
- 사회, 경제, 문화, 생활 전반에 혁명적 변화
- 산업 전반의 생산성 향상, 새로운 범주의 산업 생성
- 렌즈를 통해 현미경이 생물학 발전에 끼쳤던 영향만큼 산업 발전에 영향 (구글의 Ngram Viewer)
- 플랫폼으로서 다양한 서드파티 비지니스에 활용 (페이스북, 카카오톡 등)
### 빅데이터가 만들어낸 변화
- 사전처리 → 사**후**처리 : 가능한 많은 데이터를 모으고 조합하여 숨은 인사이트를 발굴
- 표본조사 → **전**수조사 : 클라우드 발전으로 데이터 처리 비용이 감소
- 질 → **양** : 양이 증가할수록 정확도가 높아짐
- 인과관계 → 상관관계
### 빅데이터의 위기 요인과 통제방안
- 사생활 침해
- 책임 원칙 훼손
- 데이터 오용
|위기 요인|통제 방안|예시|
|:--:|:--:|:--:|
|사생활 침해|동의 → 책임|구글의 사용자 행동 패턴 예측|
|책임 원칙 훼손|결과 기반의 책임 원칙 고수|범죄 발생 이전에 체포|
|데이터 오용|알고리즘 허용|비행기 탑승 금지자 목록에 상원 위원이 포함|
### 개인정보 비식별 기술
- 데이터 마스킹
- 가명 처리
- 총계 처리
- 데이터 값 삭제
- 데이터 범주화
### 데이터 사이언티스트 요구 역량
- Hard Skill : 빅데이터의 이론적 지식, 분석 기술에 대한 숙련
- Soft Skill : 통찰력 있는 분석, 설득력 있는 전달, 협력
2과목 데이터분석 기획
# 2과목 데이터분석 기획
### 분석 주제
분석의 대상과 분석의 방법을 무엇을 아느냐에 따라 선택
- Optimization최적화
- Solution
- Discovery
- Insight
### KDD 분석 방법론
분석가의 관점
1. 데이터셋 선택
2. 데이터 전처리
3. 데이터 변환
4. 데이터 마이닝
5. 데이터 마이닝 결과 평가
### CRISP-DM 분석 방법론
기획자의 관점
1. 업무 이해
2. 데이터 이해
3. 데이터 준비
4. 모델링
5. 평가
6. 전개
### 빅데이터 분석 방법론
1. 분석 기획
- 비니지스 이해 및 범위 설정
- 프로젝트 정의 및 게획 수립
- 프로젝트 위험 계획 수립
2. 데이터 준비
- 필요 데이터 정의
- 데이터 스토어 설계
- 데이터 수집 및 정합성 검정
3. 데이터 분석
- 분석용 데이터 준비
- 텍스트 분석
- 탐색적 분석
- 모델링
- 모델 평가 및 검증
- 모델 적용 및 운영 방안 수립
4. 시스템 구현
- 설계 및 구현
- 시스템 텍스트 및 운영
5. 평가 및 전개
- 모델 발전계획 수립
- 프로젝트 평가 및 보고
### 분석 과제 발굴 방법론
분석 대상이 무엇인지 알고 있는가?
- YES : 상향식 접근법
- NO : 하향식 접근법
#### 하향식 접근법
1. 문제 탐색
1. 비즈니스 모델 탐색 기법
- 9 Block 모델을 5개 영역으로 단순화
- 규제와 감사
- 제품
- 고객
- 업무
- 지원 인프라
2. 분석기회 발굴 및 범위 확장
- 경쟁자 확대
- 대체재, 경쟁자, 신규 진입자
- 거시적 관점
- 사회, 기술, 경제, 환경, 정치
- 시장 니즈 탐색
- 고객, 채널, 영향자들
- 역량의 재해석
- 내부 역량, 파트너 네트워크
3. 외부 참조 모델 기반 문제 탐색
4. 분석 유스케이스
2. 문제 정의
- 비즈니스 문제를 **데이터 문제로 변환**하여 과제를 정의
3. 해결 방안 탐색
- 어떻게 해결할 것인지 방안을 탐색
- 기존 시스템으로 가능
- 분석 역량이 없다면 역량을 확보
- 기존 시스템으로 불가능
- 분석 역량이 있다면 시스템 고도화
- 분석 역량이 없다면 아웃소싱
4. 타당성 검토
- 경제적, 기술적 타당성 등을 검토
#### 상향식 접근법
빅데이터를 분석하여 가치를 찾아서 과제를 발굴
1. 지도/비지도 학습
2. 프로토 타입
### 분석 마스터플랜 수립 프레임워크
- 우선순위 고려 요소
- 전략적 중요도
- 비즈니스 성과/ROI
- 실행 용이성
- 적용 우선 순위 결정
- 적용 범위/방식 고려 요소
- 업무 내재화 적용 수준
- 분석 데이터 적용 수준
- 기술 적용 수준
- Analytics 구현 로드맵 수립
### 분석 거버넌스 체계 수립
분석 거버넌스 체계는 아래의 영역의 시스템을 갖추면 분석 환경이 수립된다.
- Organization : 분석 기획 및 관리를 수행
- 분석 수준 진단
- 분석 교육
- 분석 개발/확산/평가 프로세스
- 분석 전문 인력
분석 준비도 및 성숙도로 진단 결과 4분면으로 구분
- **준**비형
- **정**착형
- **확**산형
- **도**입형
### 데이터 분석 조직 유형
- 집중 구조
- 기능 구조
- 분산 구조
참여 방법
토요일 오전 10시 30분에 아래 google meet 링크를 통해 접속 https://meet.google.com/jyx-mxnq-kpk
이 이슈 assignees에 자신의 github 계정을 추가 약 1시간 30분 분량의 할 내용에 대해 댓글 작성 (최소 모임 시작 전까지) 구글 캘린더 일정 등록 메일 확인을 통해서도 가능 (일정 관리에 도움도 드립니다) 모임 시간에 각자 개발 관련된 공부 진행
모임 끝난 후 공부한 내용 정리 & 링크 추가 => 최소 다음 모각코 전까지 확인 가능해야 함.
주의: 회사일 혹은 마감 기한 임박한 일 처리의 경우는 최대한 자제해 주세요. 주말 아침에 일하면 우울하니까요. ㅜㅜ
190회차 포함 스탬프가 달성되면 스타벅스 씨솔트 카라멜 콜드 브루를 드립니다. 부지런히 참석해 주시는 분들에게 감사 드립니다.