KaggleBreak / databreak-blog

DataBreak Official Blog
https://databreak.netlify.com/
MIT License
3 stars 0 forks source link

It’s Only Natural: An Excessively Deep Dive Into Natural Gradient Optimization #5

Closed Youngpyoryu closed 5 years ago

Youngpyoryu commented 5 years ago

Title & Topic

Machine learning에 필요한 Gradient Optimization에 전반적인 설명

Upload schedule

3월 24일에 시작하여, 3월 31일날 끝내는 것을 목표로 합니다.

좀 늦었습니다 4월 14일날 업로드 합니다.

Reference

https://towardsdatascience.com/its-only-natural-an-excessively-deep-dive-into-natural-gradient-optimization-75d464b89dbb

syleeie2310 commented 5 years ago

내용이 많던데 고생하셨습니다 @Youngpyoryu 님

내용이 어렵다보니깐 쉽게 읽히지가 않는 것 같아요. 아무래도 번역하는 건 그만큼 어려운 거겠죠..저도 어렵습니다 ㅜㅜ

우선 오타나 부자연스런 것 위주로 리뷰 드렸는데, 꼭 아래 코멘트가 아니더라도 다시 한번 읽어보시고 전체적으로 읽는 분들이 어떻게 보실 지 생각해보시고 수정하시면 좋을 것 같아요.!

아래 코멘트입니다.


저는 이야기를 들려드리자면, 이 전에 거의 들었던 이야기 중 하나였지만 다른것보다 다른 강조점이 있습니다. => 이 말은 연결하기가 부자연스러운 것 같은데 아예 빼는게 어떨까요? 꼭 번역 그대로 넣을 필요는 없을 것 같아서요!

그러나 이것은 손실의 1계 미분일 뿐이며 곡률이나 당신의 1계 미분이 얼마나 빨리 변하는 지에 대해선 알려주지 않습니다.  => 그냥 1차 미분으로 통일하는게 헷갈리지 않을 것 같은데 어떻게 생각하세요?/ 똑같은 말이긴 한데.. 뒤에는 1차 미분으로 되어 있어서요

현재 그라디언트를 따라갈 것입니다”대신 “내 모델이 이전에 예측한 분포의 입실론 거리 내에서 예측하는 분포를 유지하는 조건하에 나의 현재 그라디언트를 따라갈 것입니다. “라고 말합니다.  => 현재 그라디언트를 따라갈 것입니다” 대신 (띄어쓰기) => 앞에는 엡실론이라고 되어있는데 뒤에는 입실론이라고 되어 있어요. 하나로 통일하는게 어떨까 싶어요 엡실론으로

매개 변수 공간에서이 임의적 배율을 ??수정하려고 하는 것입니다. => ?? 가 머에요??? =? Natural Gradient Learning이라는 접근 방식에 대해서 강하고 직관적인 이해를 구축하려 합니다. (카카오 번역 하니깐 이런 식으로 나오네요)

등호 위의 def는 오른쪽에있는 것이 왼쪽에있는 기호의 정의라는 것을 의미합니다. 오른쪽 용어는 두 부분으로 구성됩니다. => 등호 위의 def는 오른쪽에 있는 것이 왼쪽에 있는 기호의 정의라는 것을 의미합니다. 오른쪽 용어는 두 부분으로 구성됩니다. (띄어쓰기)

첫째, 손실 함수의 매개변수들에 대한 그라디언트가 있습니다 (이것은보다 일반적인 그라디언트 디센트 단계에서 사용되는 것과 동일한 그라디언트입니다).  => 첫째, 손실 함수의 매개변수들에 대한 그라디언트가 있습니다 (이것은 보다 일반적인 그라디언트 디센트 단계에서 사용되는 것과 동일한 그라디언트입니다). 

우리는 모든 p-theta 항들의 그라디언트를보고 있습니다.  => 우리는 모든 p-theta 항들의 그라디언트를 보고 있습니다. 

 특히 우도도(likelihood)를 논의 할 때, 그리고 전반적인 직감을 파악할 필요가 없습니다 =>  특히 우도(likelihood)를 논의 할 때, 그리고 전반적인 직감을 파악할 필요가 없습니다

일반적으로 분류 손실은 교차 엔트로피 함수이지만보다 광범위하게는 모델의 예상 확률 분포와 실제 목표 값을 입력하고 대상에서 멀리 떨어져있을 때 더 높은 값을 갖는 함수입니다.  => 일반적으로 분류 손실은 교차 엔트로피 함수이지만 보다 광범위하게는 모델의 예상 확률 분포와 실제 목표 값을 입력하고 대상에서 멀리 떨어져 있을 때 더 높은 값을 갖는 함수입니다. 

  1. 곡률 에 대한 정보를 제공합니다.
  2. 그것은 손실 공간에서 모델의 움직임과는 별도로 예측된 분포 공간에서 모델의 움직임을 직접 제어하는 방법을 제공합니다. => 여기 글씨크기 하나 줄이는 게 좋을 것 같아요. 지금 너무 커요..

현대 그라데이션 강하의 놀라운 경이 중 하나는 1차 방법으로 완성 된 것입니다. => 놀라운 경이 이상해요 -> 놀라운 점 중 하나는

1차 방법은 2계 미분이 아닌 당신이 업데이트하려는 매개 변수에 대한 미분만을 계산하는 방법입니다. 1계 도함수를 사용하면 특정 지점에서 곡선에 대한 접선(다차원 버전)만을 알 수 있습니다. 그 접선이 얼마나 빨리 변하는지 알지 못합니다 : 2계 미분 또는 더 구체적으로 말하자면, 주어진 방향에서 함수가 가지는 곡률 수준. => 마찬가지로 1계, 2계 미분을 1차 2차로 바꾸시는게 좋을 것 같아요.

만약 당시이 점마다 그래디언트가 가변적인 지역에 있다면 (예를 들어, 높은 분산), 당신의 그래디언트 미니배치 추정은 어떤 의미에서는 더 확실하지 않다는 것입니다.  => 만약 당시 이 점마다 그래디언트가 가변적인 지역에 있다면 (예를 들어, 높은 분산), 당신의 그래디언트 미니배치 추정은 어떤 의미에서는 더 확실하지 않다는 것입니다.  (띄어쓰기)

Natural 그라디언트가 실제로 기계적으로 수행하는 작업은 매개 변수 업데이트를 그라디언트의 2계 미분으로 나누는 것입니다. => 2차 미분

이외에 2계 미분은 모두 2차 미분으로 변경하는 것으로 제안드립니다. 고생하셨습니다.

syleeie2310 commented 5 years ago

md 파일 수정하신다음에 다시 리뷰 받을 필요는 없고 아래 페이스북 포스팅 참고하셔서 직접 꼭 이번주에 올려주세요 (필수), 아래 포스팅 가이드 또는 제가 페이스북에 올린 글 참고하시면 됩니다.

https://github.com/KaggleBreak/databreak-blog/blob/master/GUIDELINE.md

@Youngpyoryu 님

syleeie2310 commented 5 years ago

페북 올렸으니 마감 처리 하겠습니다! ㅎㅎ