xxxnell / how-do-vits-work

(ICLR 2022 Spotlight) Official PyTorch implementation of "How Do Vision Transformers Work?"
https://arxiv.org/abs/2202.06709
Apache License 2.0
798 stars 77 forks source link

∆ Log amplitude 관련 질문드립니다. #21

Closed jhcha08 closed 1 year ago

jhcha08 commented 1 year ago

안녕하세요. 논문 흥미롭게 잘 읽었습니다. 좋은 논문 감사드립니다.

∆ Log amplitude 관련 질문을 드리려고 합니다.

Figure 2 (a) 그래프에서, 특정 frequency에서의 ∆ Log amplitude가 정확히 무엇을 뜻하는지 조금 헷갈립니다.

예를 들어, ResNet에서 0.5π 부분의 ∆ Log amplitude는 약 -6이며, 이 -6이라는 것은 0.0π의 amplitude와 0.5π의 amplitude의 상대적인 크기 차이라고 저는 이해했습니다.

하지만 Figure 2의 "∆ Log amplitude is the difference between the log amplitude at normalized frequency 0.0π (center) and at 1.0π (boundary)."라는 문장을 봤을 때는, 단순히 ∆ Log amplitude가 그래프의 모든 부분에서 0.0π의 amplitude와 1.0π의 amplitude의 상대적인 크기 차이를 뜻하는 것이라고 생각했습니다.

따라서 ∆ Log amplitude에 대한 제 이해가 논문에 쓰여져 있는 것과 다른 것 같은데, 혹시 제가 잘못 이해하고 있는 것인지 여쭙고 싶습니다.

미리 감사드립니다.

xxxnell commented 1 year ago

안녕하세요! 관심가져주시고 질문해주셔서 감사드립니다.

네, 처음 이해하신 게 맞습니다. 즉, 정확한 정의는 다음과 같습니다.

∆ Log amplitude (f) = Log amplitude (f) - Log amplitude (f = 0.0π)

Fig 2의 caption은 잘못되었고 다음이 빠졌습니다. "∆ Log amplitude of high-frequency signals is the difference between the log amplitude at normalized frequency 0.0π (center) and at 1.0π (boundary)." 혼동을 드려 죄송합니다.

혹시 더 문의사항 있으시면 issue나 제 개인 메일로 편하게 연락주시기 바랍니다. 다시한번 질문 감사드립니다.