데이터 분포를 어떻게 조절할지 생각해보아야 함.

rhycha commented 3 months ago

데이터 분포와 최적화된 파라미터 사이의 균형점

1. -> 최대한 많은 데이터를 쓰는 것이 아닌, 데이터 분포를 조절해서 파라미터 최적값을 얻는 게 중요 필요없는 값 삭제, 과잉분포된 데이터 테이퍼링 등.

2. X랑 Y간의 관계를 단순하게 리니어하게 만드는 게 중요함 (시도해볼 수 있는 방법) 애초에 리니어라고 다 가정하고, 전처리단계에서 다 변환시켜버리기. <- 함수 추측하는 모듈 찾아보기

3. validation할 때도, 데이터 구간 분포에 따라 가중치를 다르게 두던지, 공평하게 추출한 데이터만 쓰든지 해야할 듯.

==== 원문 이를 해결하기 위해 모델 기반 최적화(model-based optimization) 방법이 사용됩니다. 모델 기반 최적화는 시뮬레이션이나 과거 데이터를 활용하여 최적의 파라미터를 찾는 방법입니다. 특히, 새로운 데이터 조회 없이 과거 데이터로부터 학습한 모델을 활용해 복잡한 공정의 입력 변수를 최적화하는 과정을 오프라인 모델 기반 최적화(Offline Model-based Optimization)라고 합니다.

이 문제의 어려움 중 하나는 기존 데이터로만 학습해야 하므로, 데이터 분포에서 벗어난 파라미터에 대해 학습된 모델이 이를 제대로 반영하지 못할 가능성이 높다는 점입니다. 특히 최적화된 파라미터는 기존 데이터와 많이 차이가 날 가능성이 큽니다. 따라서, 데이터 분포와 최적화된 파라미터 사이의 균형점을 잘 찾는 것이 중요합니다.

kyungheee commented 3 months ago

paper

@rhycha 영섭씨가 말씀하신 내용이랑 비슷한 논문 찾았어여

kyungheee commented 3 months ago

이 그림은 DDOM(Denoising Diffusion Optimization Models)의 개념을 설명하는 다이어그램으로, 주요 개념들을 시각적으로 나타내고 있습니다. 아래에서 각 부분에 대해 자세히 설명하겠습니다.

1. Original D 및 Reweighted D

Original D: 이 부분은 원래의 데이터셋을 나타냅니다. 이 데이터셋에는 다양한 함수 값에 대응하는 입력 데이터가 포함되어 있습니다.
- 여기서 동그라미는 서로 다른 함수 값을 나타내며, 그 크기는 함수 값의 중요도를 시각적으로 나타냅니다.
Reweighted D: 이 부분은 데이터셋의 재가중치 후의 결과를 나타냅니다.
- 중요한 (즉, 높은 함수 값을 가진) 데이터 포인트가 더 큰 가중치를 받게 되어, 더 큰 동그라미로 표시됩니다. 재가중치 후 데이터셋은 중요한 데이터 포인트에 더 집중하게 됩니다.

2. Forward Diffusion (순방향 확산 과정)

이 과정에서는 원래의 입력 데이터 ( x_0 )를 점진적으로 노이즈를 추가해 변형합니다.
( x_0 )에서 시작해 ( x_1 ), ( x_2 ), ... , ( x_T )로 노이즈가 추가되면서 완전히 노이즈가 포함된 상태에 도달하게 됩니다.
이 과정은 데이터의 구조를 점진적으로 파괴하는 방향으로 진행됩니다.

3. Reverse Diffusion (역방향 확산 과정)

여기서는 주어진 함수 값 ( y )를 기준으로, 노이즈가 있는 데이터 ( x_T )를 점진적으로 노이즈를 제거하며 원래 데이터 ( x_0 )로 복원하는 과정을 나타냅니다.
이 과정에서 중요한 것은 "Score Function" ( \nabla_x \log p_t(x_t) )입니다. 이 함수는 각 단계에서 데이터가 올바른 방향으로 복원되도록 하는 역할을 합니다.
( y )는 우리가 원하는 함수 값을 나타내며, 이를 통해 데이터가 해당 함수 값에 대응하는 최적의 입력 값으로 복원되도록 합니다.

전체적인 맥락

이 다이어그램은 DDOM이 어떻게 동작하는지를 시각적으로 설명하고 있습니다. 먼저, 데이터를 재가중치하여 중요한 데이터 포인트에 집중한 후, Forward Diffusion 과정을 통해 데이터를 점진적으로 노이즈화합니다. 그런 다음, Reverse Diffusion 과정을 통해 주어진 함수 값에 대응하는 최적의 입력 값을 찾아냅니다.

이러한 과정은 고차원 공간에서 복잡한 함수의 최적화를 효과적으로 수행할 수 있게 해줍니다. DDOM은 특히 기존 데이터셋에 없는 더 높은 함수 값을 찾아내기 위해 사용될 수 있는 강력한 방법론을 제공합니다.

kyungheee commented 3 months ago

https://process-mining.tistory.com/182 이거 보시면 diffusion model 원리에 대해 이해 가실거에유

kyungheee / 2024-Samsung-AI-Challenge-Black-box-Optimization