Random Forest 10-Fold 결과값 오류

mjaysonnn commented 6 years ago

10-Fold 하고 난 Error rate

Random Forest

Best 14.587134%

Average - 18%

Linear Regressor

165.235583%

Gradient Boosting

Best 16.046951%

Average - 18%

현재 Bayesian Optimization 을 돌리면서 더 나은 Parameter를 찾아보려고 합니다 .

15% 이하면 괜찮을까요? Random Forest 으로 10-Fold 할때 14.7% 나온적이 있긴 합니다

제가 세미나 했던 논문 중

Predicting Cloud Performance0for-HPC-Applications-a-User-oriented-Approach.pdf 에서

논문

이건 relative error 가 below 15%라고 나옵니다. (Ernest를 활용하여 예측 값이랑 실험 결과값이랑 비교할때 error rate가 달라질수는 있겠네요.)

kmu-leeky commented 6 years ago

오케이. 일단 RF 와 GB 가 성능이 비슷한건 그대로네. 노트북에서 한가지 작업한 파일이 있는데, 지금 까지 우리 실험 시나리오를 보니 너무 동떨어진 값들 (십만이 넘어가는 행/열의 갯수)의 경우에 에러가 큰 게 보여서, 이런것들을 삭제한 파일을 새롭게 Ernest 폴더에 latency_filtered.csv 로 만들었어. 중복되는 몇개 기록도 삭제하고.

새로운 파일로 성능 측정 해볼 필요도 있을듯.

아래는 left row, left column 갯수

kmu-leeky commented 6 years ago

그리고 metric 의 경우에는 relative error 말고 다른걸 쓰는것도 생각해볼 필요가 있을듯. 다른 이슈에 업데이트 해줄께.

mjaysonnn commented 6 years ago

넵 알겠습니다~

mjaysonnn commented 6 years ago

결과 더 좋아졌습니다. Linear Regression도 확 늘었습니다.

random forest -> 12.772243% -> with BO - 11.492682%

gradient boost -> 14.494192%

Linear Regression -> 23.031055%

(ref)RF의 cross_val_score

0.987326272217

latency.csv 썻을때 score은 0.76 이였는데 많이 올라갔습니다.

kmu-leeky commented 6 years ago

너무 동떨어진 지점의 데이터가 하나 있으니, 그건 도저히 예측을 못한것 같네. 만약에 그 동떨어진 지점의 데이터를 포함하려면 중간 사이 값들의 실험을 더 해야 할듯. 예를 들어 800000 을 포함시키려면 최소한, 700000, 600000, 500000 등도 있었어야 했을듯.

mjaysonnn commented 6 years ago

넵 그러면 latency.csv 에서 빠진 데이터를 보면서 근접한 행렬 들을 실험 돌려보겠습니다.

kmu-leeky commented 6 years ago

실험을 해볼래? 그러면 left column 을 800000 정도, left row 는 500000 정도, right column 도 500000 정도 까지 해보면 될것 같기는 해. 중간에 필요한건 100000 정도 간격으로 채워가면 될듯.. 참고로 이건 급한건 아닌것 같으니 다른 작업이랑 우선순위 잘 조절 해봐.

mjaysonnn commented 6 years ago

넵 알겠습니다 ~

kmu-leeky commented 6 years ago

@mjaysonnn 위에서 얘기한 " left column 을 800000 정도, left row 는 500000 정도, right column 도 500000 정도 까지 해보면 될것 같기는 해. 중간에 필요한건 100000 정도 간격으로 채워가면 될듯." 이걸 반드시 해야 할것 같네. feature importance 를 보고 있는데, long-thin short-wide 애들이 없으니까 lrXlcXrc 만 중요하다고 나오고, 다른 feature 들은 다들 무시를 해버리네.. 실험을 해서 결과를 한번 봐야겠다.

kmu-leeky commented 6 years ago

long-thin, short-wide 제외한 경우의 실험결과 참조 http://203.246.113.170:8891/notebooks/Figures/feature-importance.ipynb

mjaysonnn commented 6 years ago

넵 그러면 long-thin & wide fat 행렬인

lr	lc	rc	경우
128	1000000~8000000	128	8가지
100000~8000000	128	128	8가지
128	128	1000000~8000000	8가지

이렇게 실험을 돌리고 결과 올려보겠습니다.

kmu-leeky commented 6 years ago

오케이. 그런데 2번째 경우에도 100000~8000000 까지 할수있지 않아? 3번째가 된다면?

mjaysonnn commented 6 years ago

네 됩니다 800000까지 그럼 해보겠습니다~

2018년 1월 28일 (일) 오후 7:51, Kyungyong Lee notifications@github.com님이 작성:

오케이. 그런데 2번째 경우에도 100000~8000000 까지 할수있지 않아? 3번째가 된다면?

— You are receiving this because you were mentioned. Reply to this email directly, view it on GitHub https://github.com/kmu-leeky/cloud-2018/issues/5#issuecomment-361053862, or mute the thread https://github.com/notifications/unsubscribe-auth/ANgUURVgHHoh-M5XcqkFLibJc4knUdz-ks5tPFE3gaJpZM4Rt4oD .

-- http://ace.kookmin.ac.kr

mjaysonnn commented 6 years ago

총 24 row를 latency.csv에 추가를 했습니다.

latency-1.1.csv 라는 새로운 csv파일에 저장되어있습니다

그리고 feature-importance 코드를 실행해보니

compute feature에만 치우쳐지지는 않습니다.

코드

mjaysonnn commented 6 years ago

참고로

Random Forest에 10-Fold를 하면

오류가 더 줄어들었습니다

13% 오류율도 나옵니다. 이 데이터로 Gradient Boosting 돌려보겠습니다.

kmu-leeky commented 6 years ago

not an issue any more.

kmu-leeky / cloud-2018

Random Forest 10-Fold 결과값 오류 #5