Closed sujung0816 closed 2 years ago
12/09 친절한 AI 1강
인공지능
인간이 만들어낸 지능 어떤 목적을 성공적으로 달성할 수 있는 장치 기계나 컴퓨터를 인간과 비슷하게 동작하는 기술 즉, 인공지능이란 => 인간이 만든 기계나 컴퓨터가 목적을 달성하도록 만든 기술
AI는 인식: 오늘 날씨 알려줘(사운드 듣고 인식) 이해: 학습, 분석(아 날씨? ㅇㅋ) 반응: 결과(오늘 날씨는 이렇대)
튜링테스트 질문자가 벽을 넘어 사람과 인공지능에게 "어디에 사니?"라고 질문했을때 인공지능과 사람이 각각 대답 대답을 통해 어느쪽이 사람이고, 어느쪽이 AI인지 선택하게 됨 튜링테스트를 통과하는 기준은 3명중 1명이 인공지능에게 속아넘어가게 되면 통과.(33%의 확률)
12/10 친절한AI 2강
[인공지능이 활성화된 이유]
빅데이터의 등장
빅데이터를 처리할 수 있는 하드웨어의 등장
알고리즘의 발전
12/11 친절한AI 7강
[머신러닝이란?]
인공지능 범주 안에 머신러닝, 머신러닝 방법론 안에 딥러닝 인공지능 - 기계나 컴퓨터가 인간 지능 모방해 인간과 비슷하게 만들어짐 머신러닝 - 인공지능의 분야. 컴퓨터가 데이터를 이용해 학습하는 알고리즘 기술 딥러닝 - 인공신경망을 사용해 머신러닝 모델링 방법 중 하나
머신러닝-> 기계 학습. 기계가 사람처럼 학습을 하게 만드는 것 학습에서 가장 중요한 것은 데이터. 머신러닝에서도 데이터를 통해 기계가 학습함 머신러닝을 하려면 데이터가 먼저 준비돼있어야함.
고양이 이미지를 판별해 -> 세상에 다양한 고양이 이미지를 통한 학습 진행 -> 기존 컴퓨터보다 더 높은 확률로 고양이 이미지 판별 -> 금융권으로 가면 해당 거래가 사기인지 아닌지 판별도 가능해짐. 정해져있는 룰이 아닌 전반적인 양상을 보고 판단.
12/14 8강
분류: 여러개의 카테고리가 있을 때 내가 가지고 있는건 어떤 카테고리에 속하는지 분류. ex. 동물사진분류, 손글씨 숫자 이미지 분류, 뉴스 기사 분류, 콜센터 고객 목소리 감정 분류 등
회귀: 분류는 정해져있는 몇개의 카테고리 안에서 어떤 것에 해당하는지 판단이었으나, 회귀는 이런 이런 상황이 주어졌을때 값이 얼마나 나오는지 예측하는 것. x축에 따라서 y축이 어떻게 변하게 될지. ex. 설탕 섭취량에 따른 혈압 수치, 평균 학력에 따른 월간 독서량, 출연 배우에 따른 영화 평점 등 어떤 값이 주어졌을 때 어떤 값이 나오는지 .
예측: 회귀라는 개념에 시간 데이터가 포함 회귀와 푸는 방식은 비슷하나 시간 개념이 추가됨 ex. 이번 주말에 미세 먼지 농도, 요일별 강릉행 기차표 판매율, 다음달 휘발유 가격 등
이상값 감지: Anomaly Detection. 파란물고기 중 빨간 물고기 찾기 등 평소와 다른 패턴, 다른 값이 나타나면 파악. ex. 주식 사기 거래 감지, 신용카드 이상 사용 감지, 비정상 세포 감지
그룹화: 어떤 특징을 기준으로 가지고 있는 데이터를 그루핑 ex. 이 물건을 산 고객이 함께 산 물건, 페이스북 알수도 있는 사람
강화학습: 어떤 행동을 강화시키는 방향으로 학습을 시킴 ex. 게임(체스, 알파고 등), 로봇(공장 자동화), 자율주행 등
12/15 9강 머신러닝의 종류와 특징 - 지도학습, 비지도학습, 강화학습
분류/ 회귀/ 예측(supervised learning) =>지도학습, 감독학습 수학공부할때 문제지만 있고 정답지가 없으면 틀린 문제는 정답을 알 수 없어 틀린 문제는 계속 틀리게 됨 해설지, 선생님이 있으면 정답 비교 가능 이런 것들을 통해 틀렸구나를 인지하며 학습해감. 머신러닝에서 정답을 제공할때는 라벨, 레이블, 타겟, 클래스 등으로 부름. 모두 같은 의미로 컴퓨터에게 제공하는 정답이라고 보면 됨
이상값 감지, 그룹화(unsupervised learning) => 비 지도학습, 비 감독학습 공부할때 지도자나 감독관, 정답지도 없는 경우인데 분류/회귀/예측과는 푸는 문제 방식이 다른 것임. 데이터간의 특징과 특성을 살펴보며 그 안에서 패턴이나 차이점을 구별 및 학습을 하게 됨
강화학습(Reinforcement learning) => 목표 지향 학습 목표를 달성하기 위해 머신이 학습하게 됨 팬케이크를 뒤집는 로봇-> 팬케이크를 망치지 않고, 잘 뒤집어야 한다가 목표. 아 이렇게 하면 잘되네, 이렇게 하면 안되네 경험 데이터를 쌓아 학습을 진행하게 됨 강화학습은 정답을 제공하지 않고, 보상을 제공함 어떤 액션에 따른 보상을 제공. 인과관계가 중요하고 스스로한 경험 데이터를 학습함
따라서, 일반적으로 머신러닝 성능이 가장 좋은 것은 분류/회귀/예측 다만 레이블링 작업을 해서 시간은 오래걸릴 수 있음
12/16 10강 머신러닝의 방법, 어떻게 공부하지? - 수많은 머신러닝 방법 공부법
종류는 무엇을 만들것인가 방법은 어떻게 만들것인가 블랙커피같은 경우 어떤 방법으로 만들어도 맛있음 카페라떼는 에스프레소 머신이나 더치가 어울림. 핸드드립이랑은 안어울림 어떤 종류를 만들때 어떤 방법으로 만드는 것이 좋더라는 커피 공식이 있음
머신러닝또한 어떤 종류를 만들때 어떤 방법으로 만들어야하는지 공식이 있음
처음부터 모든 머신러닝의 종류와 방법을 공부하려고 하기보단 내가 어떤 머신러닝 방법과 종류를 배우고 풀어야할지 고민
추천사이트
12/17 11강 근데, 딥러닝은 뭔가요? 딥러닝의 개념, 인공신경망
### 1. 딥러닝이란?
딥러닝이란 인공신경망을 활용해 층을 깊게 쌓아가며 학습하는 것
딥러닝은 다양한 분야에서 이용
인공신경망이 여러개 깊게 쌓이게 되면 딥 뉴럴 네트워크, 그 분야를 통틀어 딥러닝이라고 함
딥러닝 안에는 MLP, CNN, RNN 등이 있음
인공신경망이 단순하게 있는 형태를 쉘로우러닝, 아래 그림처럼 레이어가 여러층 쌓이면 Deep neural network
Deep neural nerwork처럼 층을 깊게 쌓아가면서 학습이 일어나는 것을 딥러닝
딥러닝은 고사양의 하드웨어가 필요.
딥러닝은 많은 데이터가 있을때 좋은 결과가 있기때문에 전통적인 머신러닝보다 더욱 고사양의 하드웨어 필요
딥러닝은 데이터 양이 많기때문에 학습시간이 더 오래걸림
전통적인 머신러닝이 몇 초~ 몇 시간인경우 딥러닝은 몇 일~ 몇 주 소요됨
특징이 다름
데이터가 있으면 최종값이 있는데 최종값에 영향을 미치는 것이 feature, 특징, 변수 등이라고 말함
전통적인 머신러닝을 할 때는 데이터를 모두 모은 후, 사람이 feature extraction 해준다음에 학습을 시킴
딥러닝은 feature extraction이 스스로 할 수 있게 됨
머신러닝 이해하기 Feature은 label에 영향을 주는 독립 변수 영향을 받는 종속변수가 label ex. 출연자가 feature, 유튜브 시청 횟수가 label. 횟수가 늘어난다고 출연자가 늘어나진 않음
머신러닝이 하는일 w와 b를 알아내는 것이 머신러닝이 하는 일.
러신머닝 예시 위의 주어진 식을 data라고 할 수 있음 데이터라는 여러개 실제 값을 바탕으로 w와 b를 구할 수 있고, w와 b를 구하면 X에 어떤 값을 넣어도 Y를 예측할 수 있음
머신러닝 정의 w와b를 알아내며 학습하는 과정
머신러닝 : 데이터를 이용해 컴퓨터를 학습시키는 것
데이터, 어떻게 준비해야하나요?
문제 정의 = 어떤 문제를 해결하고 싶은가? 데이터 수집 = 필요한 데이터 모으기 (공개 데이터 활용, 자체 데이터 수집) 데이터 전처리(데이터 손질하기) = 데이터 형식 맞추기, 비어있는 값 채우기 연관 데이터 추가
문제 정의 = 어떤 재료를 준비할 것인가? 데이터 수집 = 김밥 패키지 구매, 시장가서 장봐오기 데이터전처리, 연관 데이터 추가 = 계란 지단으로 만들기, 재료들 비슷한 사이즈로 만들기
[국내 공개 데이터]
[국외]
인공지능이란 어떤 목적을 성공적으로 달성할 수 있는 장치. 데이터 준비 : 문제 정의>데이터수집>데이터전처리> 연관데이터 추가> 훈련데이터 훈련데이터를 이용해 머신러닝 모델을 학습시키게 됨 - 머신러닝 모델을 학습시킨 후 실전에 투입 머신러닝은 항상 훈련에 최적화, 실전에는 일반화 돼야함. 이때 나오는 개념이 오버피팅/언더피팅
언더피팅이란?
예시 수능 시험공부할 때 교과서에만 치중하면 거기서 나온 문제는 잘 맞추지만, 수능을 잘 볼 수 없음 따라서 수능을 잘보기 위해서는 다양한 학습지와 교과서등을 봐야함
알고리즘이란?
어떤 문제의 해결을 위해(어떤 문제를 풀것인지), 입력된 자료를 토대로 원하는 출력(데이터에 관련된 내용)을 유도하여 내는 규칙(어떤 규칙을 만들어 내는 것)
모델이란?
학습이 잘 일어났다고 판단이 되면 학습을 종료하고, 학습을 종료한 시점에 주어진 수식을 모델이라고 함
알고리즘은 w와 b 자리에 특정 숫자가 아닌 문자가 들어간 함수 형태가 주어진다면 최종적으로 학습이 끝나면 w와 b에 숫자가 들어감
주어진 데이터를 가지고 학습을 하게 되며, 어떤 방식으로 학습하냐-> 알고리즘 선택한 알고리즘으로 학습-> 학습의 최종 결과물은 모델
1.문제정의
분류/ 회귀/ 예측/ 이상값감지/ 그룹화/ 강화학습
데이터수집/ 데이터전처리/ 데이터 추가
알고리즘 선택
지도학습/ 비지도학습/ 강화학습
모델학습
학습용 데이터 + 알고리즘 = 모델
모델 평가
언더피팅/ 오버피팅/ 모델용량/ 평가지표
알고리즘/데이터 수정
최종단계: 모델 활용 모델 활용은 local, web, app에서 사용할 수 있음
data = datum.자료를 뜻하는 단순 형태의 단어인데, 이 곳에서 시작됨. 즉 데이터는 자료들이 여러개 뭉쳐져 있는 형태. 데이터는 그 자체만으로는 의미가 없음. 단순 숫자임
dikw 피라미드 data(최저층)->information->knowledge->wisdom(최고층)의 형태임
빅데이터란 기술이다 > 단순 크고 많은 양의 데이터가 아닌, 데이터를 추출하고 저장, 관리, 추출, 처리 등 모든 것을 포함
빅데이터 > 데이터 저장, 데이터 관리, 데이터 추출, 데이터 처리, 데이터 시각화, 데이터 분석
차근차근 직접
기성품 활용
먼저 생각할것 인공지능 모델을 어떻게 사용할 것인가. 내가 어디까지 직접 할 수 있을까.
문제정의 데이터 준비 알고리즘 선택 모델 학습 모델 평가 알고리즘/데이터수정
애저 ML 스튜디오의 머신 러닝의 모델
강화학습은 아직 애저에서 제공하고 있지 않음
풀려는 문제 종류에 따라 알고리즘이 달라짐
이진분류란?
이진분류는 지도학습->분류에 해당 지도학습의 가장 큰 특징은 데이터를 레이블 해야함 데이터의 레이블값(정답값)을 꼭 준비해줘야함
이진분류의 종류
X가 Y에 영향을 주는데 얼마나 주는지를 표현하는게 가중치인 W X가 0의 값을 가질때 레이블이 기본적으로 갖는 값 데이터를 주는 것은 피쳐와 레이블, 피쳐와 레이블을 보고 머신러닝 모델이 w와b를 구함
weight는 azure 나이, 형제배우자, 요금 등이 있음
피쳐가 전부다 0일경우 생존여부는 기본적으로 0.56정도
남성과 여성인경우 여성인경우 w가 1.2, 남성인경우 w가 -1.2
True positive (TP) : 트루/포지티브로 나눠짐. 포지티브는 모델이 예측한값이 True일때 positive라고 함. True는 실제 데이터가 True일때. 모델이 True라고 예측하고 실제 결과가 True일때 True positive라고함 False Positive(FP) : 모델이 예측한 결과는 True이나 실제 결과는 False일때. 모델이 예측한 결과가 틀렸다.
False Negative(FN): 모델이 예측한게 False일때 모델이 예측한게 틀렸음. 모델은 False라고 예측했는데 실제 결과는 True True Negative(TN) : 원래 결과도 False, 모델 예측도 False
Accuracy = 모델이 실제로 맞춘 데이터의 개수가 몇개냐. Percision = 진짜 모델이 맞춘것이 몇개냐. 모델이 True라고 예측한 것 중 진짜 True의 개수 Recall = 원래 데이터가 True중 모델이 True라고 맞춘 개수는 몇개냐 F1 Score =precision과 Recall의 중간값
강의 정리