보고서 준비 - Githubissues

JesungKoo commented 5 years ago

설치 및 종속성 문제 명시적으로 해결하기 1-1. 우리가 어떤 라이브러리, 어떤 프레임워크 사용해서 어떻게 진행했는지 이야기 1-2. 설계의 독창성을 입증해야함. 완전한 구현체를 가져온 것이 아니라, 이미 잘 짜여진 라이브러리의 함수만 빌려온 것이 되어야 함.
적용 이론 및 수식 확실히 하기. 2-1. 현재 다음 서적을 참고하고 있음: Hands-on machine learning, 밑바닥부터 배우는 딥러닝, 3분 딥러닝 텐서플로맛, 인공지능을 위한 수학, 강화학습 첫걸음 2-2. 우리의 지금 과정은 결국 마리오 게임을 MDP 문제로 정의하고, DQN을 사용하는걸로 생각됨. 이미 여러번 진행된 프로젝트임. Sean Klein 기말과제, Rob Sylvester DQN
1항과 2항에 대한 문서화 필수.

WinteringAsch commented 5 years ago

현재까지 짜인 코드에, 어떤 식이 적용되었는지 정리가 필요함

WinteringAsch commented 5 years ago

Gabe Grand 기말과제 이 논문의 경우에는, 우리는 참고만 하는 것이 맞는듯함. 너무 방식이 다르네...

위 논문은 FCEUX를 이용, 거의 MDP에 근접한 방법을 이용해서 학습을 진행.
State를 13x16의 Grid world와 0~3(Nothing/Object/Enemy/Mario)의 값을 이용해 표현, 이미 여기에서 우리랑 구현 방식이 다르다.
위 State를 세분화하여 적 유무/처치가능여부/빈공간/막힘 등등의 Features들을 구현함. Features 코드

가능할때, 저 논문의 6-A System Describtion 부분에 나오는 설치법을 참고해 설치 가능한지 한번 확인 바람... 나는 맥북이 아니라 따라하기가 힘들 것으로 보임.

WinteringAsch commented 5 years ago

현재 Sean Klein 기말과제 이거 읽어보는중, 이거 읽고 코드 수정후에 얘기해준 Flow Chart 작성예정

JesungKoo commented 5 years ago

와! 참고문헌 20개!

WinteringAsch commented 5 years ago

Codes.zip 파일들 정리하면서 누락된 코드들 압축해서 올려둠

WinteringAsch commented 5 years ago

http://openresearch.ai/t/a3c-asynchronous-methods-for-deep-reinforcement-learning/25 'Thread 수에 따라 매우 효과적으로 scale-up 된다.' A3C 적용시키고, AVX 트윅해서 우리 환경에서 학습 빨리 시키는걸 목표로 합시다...

WinteringAsch commented 5 years ago

WinteringAsch commented 5 years ago

WinteringAsch commented 5 years ago

impression.docx 결론 및 소감

SKKUCS / graduationProject