Closed mjaysonnn closed 6 years ago
오케이. 일단 RF 와 GB 가 성능이 비슷한건 그대로네. 노트북에서 한가지 작업한 파일이 있는데, 지금 까지 우리 실험 시나리오를 보니 너무 동떨어진 값들 (십만이 넘어가는 행/열의 갯수)의 경우에 에러가 큰 게 보여서, 이런것들을 삭제한 파일을 새롭게 Ernest 폴더에 latency_filtered.csv 로 만들었어. 중복되는 몇개 기록도 삭제하고.
새로운 파일로 성능 측정 해볼 필요도 있을듯.
아래는 left row, left column 갯수
그리고 metric 의 경우에는 relative error 말고 다른걸 쓰는것도 생각해볼 필요가 있을듯. 다른 이슈에 업데이트 해줄께.
넵 알겠습니다~
결과 더 좋아졌습니다. Linear Regression도 확 늘었습니다.
random forest -> 12.772243% -> with BO - 11.492682%
gradient boost -> 14.494192%
Linear Regression -> 23.031055%
(ref)RF의 cross_val_score
0.987326272217
latency.csv 썻을때 score은 0.76 이였는데 많이 올라갔습니다.
너무 동떨어진 지점의 데이터가 하나 있으니, 그건 도저히 예측을 못한것 같네. 만약에 그 동떨어진 지점의 데이터를 포함하려면 중간 사이 값들의 실험을 더 해야 할듯. 예를 들어 800000 을 포함시키려면 최소한, 700000, 600000, 500000 등도 있었어야 했을듯.
넵 그러면 latency.csv 에서 빠진 데이터를 보면서 근접한 행렬 들을 실험 돌려보겠습니다.
실험을 해볼래? 그러면 left column 을 800000 정도, left row 는 500000 정도, right column 도 500000 정도 까지 해보면 될것 같기는 해. 중간에 필요한건 100000 정도 간격으로 채워가면 될듯.. 참고로 이건 급한건 아닌것 같으니 다른 작업이랑 우선순위 잘 조절 해봐.
넵 알겠습니다 ~
@mjaysonnn 위에서 얘기한 " left column 을 800000 정도, left row 는 500000 정도, right column 도 500000 정도 까지 해보면 될것 같기는 해. 중간에 필요한건 100000 정도 간격으로 채워가면 될듯." 이걸 반드시 해야 할것 같네. feature importance 를 보고 있는데, long-thin short-wide 애들이 없으니까 lrXlcXrc 만 중요하다고 나오고, 다른 feature 들은 다들 무시를 해버리네.. 실험을 해서 결과를 한번 봐야겠다.
long-thin, short-wide 제외한 경우의 실험결과 참조 http://203.246.113.170:8891/notebooks/Figures/feature-importance.ipynb
넵 그러면 long-thin & wide fat 행렬인
lr | lc | rc | 경우 |
---|---|---|---|
128 | 1000000~8000000 | 128 | 8가지 |
100000~8000000 | 128 | 128 | 8가지 |
128 | 128 | 1000000~8000000 | 8가지 |
이렇게 실험을 돌리고 결과 올려보겠습니다.
오케이. 그런데 2번째 경우에도 100000~8000000 까지 할수있지 않아? 3번째가 된다면?
네 됩니다 800000까지 그럼 해보겠습니다~
2018년 1월 28일 (일) 오후 7:51, Kyungyong Lee notifications@github.com님이 작성:
오케이. 그런데 2번째 경우에도 100000~8000000 까지 할수있지 않아? 3번째가 된다면?
— You are receiving this because you were mentioned. Reply to this email directly, view it on GitHub https://github.com/kmu-leeky/cloud-2018/issues/5#issuecomment-361053862, or mute the thread https://github.com/notifications/unsubscribe-auth/ANgUURVgHHoh-M5XcqkFLibJc4knUdz-ks5tPFE3gaJpZM4Rt4oD .
총 24 row를 latency.csv에 추가를 했습니다.
latency-1.1.csv 라는 새로운 csv파일에 저장되어있습니다
그리고 feature-importance 코드를 실행해보니
compute feature에만 치우쳐지지는 않습니다.
참고로
Random Forest에 10-Fold를 하면
오류가 더 줄어들었습니다
13% 오류율도 나옵니다. 이 데이터로 Gradient Boosting 돌려보겠습니다.
not an issue any more.
10-Fold 하고 난 Error rate
Best 14.587134%
Average - 18%
165.235583%
Best 16.046951%
Average - 18%
현재 Bayesian Optimization 을 돌리면서 더 나은 Parameter를 찾아보려고 합니다 .
15% 이하면 괜찮을까요? Random Forest 으로 10-Fold 할때 14.7% 나온적이 있긴 합니다
제가 세미나 했던 논문 중
Predicting Cloud Performance0for-HPC-Applications-a-User-oriented-Approach.pdf 에서
논문
이건 relative error 가 below 15%라고 나옵니다. (Ernest를 활용하여 예측 값이랑 실험 결과값이랑 비교할때 error rate가 달라질수는 있겠네요.)