kyungheee / 2024-Samsung-AI-Challenge-Black-box-Optimization

2024 Samsung AI Challenge : Black-box Optimization
0 stars 0 forks source link

데이터 분포를 어떻게 조절할지 생각해보아야 함. #22

Open rhycha opened 1 month ago

rhycha commented 1 month ago

데이터 분포와 최적화된 파라미터 사이의 균형점

1. -> 최대한 많은 데이터를 쓰는 것이 아닌, 데이터 분포를 조절해서 파라미터 최적값을 얻는 게 중요 필요없는 값 삭제, 과잉분포된 데이터 테이퍼링 등.

2. X랑 Y간의 관계를 단순하게 리니어하게 만드는 게 중요함 (시도해볼 수 있는 방법) 애초에 리니어라고 다 가정하고, 전처리단계에서 다 변환시켜버리기. <- 함수 추측하는 모듈 찾아보기

3. validation할 때도, 데이터 구간 분포에 따라 가중치를 다르게 두던지, 공평하게 추출한 데이터만 쓰든지 해야할 듯.

==== 원문 이를 해결하기 위해 모델 기반 최적화(model-based optimization) 방법이 사용됩니다. 모델 기반 최적화는 시뮬레이션이나 과거 데이터를 활용하여 최적의 파라미터를 찾는 방법입니다. 특히, 새로운 데이터 조회 없이 과거 데이터로부터 학습한 모델을 활용해 복잡한 공정의 입력 변수를 최적화하는 과정을 오프라인 모델 기반 최적화(Offline Model-based Optimization)라고 합니다.

이 문제의 어려움 중 하나는 기존 데이터로만 학습해야 하므로, 데이터 분포에서 벗어난 파라미터에 대해 학습된 모델이 이를 제대로 반영하지 못할 가능성이 높다는 점입니다. 특히 최적화된 파라미터는 기존 데이터와 많이 차이가 날 가능성이 큽니다. 따라서, 데이터 분포와 최적화된 파라미터 사이의 균형점을 잘 찾는 것이 중요합니다.

kyungheee commented 1 month ago

paper

@rhycha 영섭씨가 말씀하신 내용이랑 비슷한 논문 찾았어여

kyungheee commented 1 month ago

image

이 그림은 DDOM(Denoising Diffusion Optimization Models)의 개념을 설명하는 다이어그램으로, 주요 개념들을 시각적으로 나타내고 있습니다. 아래에서 각 부분에 대해 자세히 설명하겠습니다.

1. Original D 및 Reweighted D

2. Forward Diffusion (순방향 확산 과정)

3. Reverse Diffusion (역방향 확산 과정)

전체적인 맥락

이러한 과정은 고차원 공간에서 복잡한 함수의 최적화를 효과적으로 수행할 수 있게 해줍니다. DDOM은 특히 기존 데이터셋에 없는 더 높은 함수 값을 찾아내기 위해 사용될 수 있는 강력한 방법론을 제공합니다.

kyungheee commented 1 month ago

https://process-mining.tistory.com/182 이거 보시면 diffusion model 원리에 대해 이해 가실거에유