SKKUCS / graduationProject

2018-2
2 stars 0 forks source link

보고서 준비 #19

Open JesungKoo opened 5 years ago

JesungKoo commented 5 years ago
  1. 설치 및 종속성 문제 명시적으로 해결하기 1-1. 우리가 어떤 라이브러리, 어떤 프레임워크 사용해서 어떻게 진행했는지 이야기 1-2. 설계의 독창성을 입증해야함. 완전한 구현체를 가져온 것이 아니라, 이미 잘 짜여진 라이브러리의 함수만 빌려온 것이 되어야 함.

  2. 적용 이론 및 수식 확실히 하기. 2-1. 현재 다음 서적을 참고하고 있음: Hands-on machine learning, 밑바닥부터 배우는 딥러닝, 3분 딥러닝 텐서플로맛, 인공지능을 위한 수학, 강화학습 첫걸음 2-2. 우리의 지금 과정은 결국 마리오 게임을 MDP 문제로 정의하고, DQN을 사용하는걸로 생각됨. 이미 여러번 진행된 프로젝트임. Sean Klein 기말과제, Rob Sylvester DQN

  3. 1항과 2항에 대한 문서화 필수.

WinteringAsch commented 5 years ago

현재까지 짜인 코드에, 어떤 식이 적용되었는지 정리가 필요함

WinteringAsch commented 5 years ago

Gabe Grand 기말과제 이 논문의 경우에는, 우리는 참고만 하는 것이 맞는듯함. 너무 방식이 다르네...

  1. 위 논문은 FCEUX를 이용, 거의 MDP에 근접한 방법을 이용해서 학습을 진행.
  2. State를 13x16의 Grid world와 0~3(Nothing/Object/Enemy/Mario)의 값을 이용해 표현, 이미 여기에서 우리랑 구현 방식이 다르다.
  3. 위 State를 세분화하여 적 유무/처치가능여부/빈공간/막힘 등등의 Features들을 구현함. Features 코드

가능할때, 저 논문의 6-A System Describtion 부분에 나오는 설치법을 참고해 설치 가능한지 한번 확인 바람... 나는 맥북이 아니라 따라하기가 힘들 것으로 보임.

WinteringAsch commented 5 years ago

현재 Sean Klein 기말과제 이거 읽어보는중, 이거 읽고 코드 수정후에 얘기해준 Flow Chart 작성예정

JesungKoo commented 5 years ago

와! 참고문헌 20개!

WinteringAsch commented 5 years ago

Codes.zip 파일들 정리하면서 누락된 코드들 압축해서 올려둠

WinteringAsch commented 5 years ago

http://openresearch.ai/t/a3c-asynchronous-methods-for-deep-reinforcement-learning/25 'Thread 수에 따라 매우 효과적으로 scale-up 된다.' A3C 적용시키고, AVX 트윅해서 우리 환경에서 학습 빨리 시키는걸 목표로 합시다...

WinteringAsch commented 5 years ago

일단 Flow chart, 더 작성중... https://drive.google.com/file/d/15aGIuz5iBuPXnOKugCIOGCQzQeEtBaO9/view?usp=sharing

WinteringAsch commented 5 years ago

Model.pptx

WinteringAsch commented 5 years ago

impression.docx 결론 및 소감