Open 4pygmalion opened 7 months ago
파일 참조: 노트북 파일
transformer 구조에서 attention 값은 layer 수 만큼 아래 같은 shape으로 얻어짐
Charcot-Marie-Tooth disease을 예시로 보면
(layer, num_heads, sequence_length)으로 전체 mean 집계하면 아래와 같은 예시를 얻을 수 있음
Charcot-Marie-Tooth disease, type 4B2
[('Onion bulb formation', tensor(0.0672, device='cuda:0')),
('Hyporeflexia', tensor(0.0672, device='cuda:0')),
('Kyphoscoliosis', tensor(0.0671, device='cuda:0')),
('Areflexia', tensor(0.0670, device='cuda:0')),
('Decreased motor nerve conduction velocity',
tensor(0.0670, device='cuda:0')),
('Segmental peripheral demyelination/remyelination',
tensor(0.0668, device='cuda:0')),
('Pes cavus', tensor(0.0668, device='cuda:0')),
('Split hand', tensor(0.0667, device='cuda:0')),
('Difficulty walking', tensor(0.0665, device='cuda:0')),
('Talipes equinovarus', tensor(0.0665, device='cuda:0')),
('Steppage gait', tensor(0.0665, device='cuda:0')),
('Juvenile onset', tensor(0.0662, device='cuda:0')),
('Distal amyotrophy', tensor(0.0662, device='cuda:0')),
('Distal muscle weakness', tensor(0.0662, device='cuda:0')),
('Ulnar claw', tensor(0.0661, device='cuda:0'))]
해당 결과가 집계방식에 따라 상이한 결과를 보임
다만 상위에 'Onion bulb formation'에 나오는 결과는 동일했던 것으로 기억함 (확인 필요합니다.)
추가로, attention weight 해석에 관한 (논문)[https://arxiv.org/pdf/1906.04341.pdf] 참고해보면 head별로 매우 다른 패턴에 주목하고 있음을 알 수 있음
그럼에도 불구하고 많은 사전연구(<2019)들은 mean, max 집계로 해석함
그래서 새로운 해석 방법 제시하는 논문도 존재(참조)
Previous work analyzing how representations are formed by the Transformer’s multi-head attention mechanism focused on either the average or the maximum attention weights over all heads (Voita et al., 2018; Tang et al., 2018), but neither method explicitly takes into account the varying importance of different heads.
추가 참조
Legacy code
- train_simple_clr.py: Pretrained model 생성
- finetune.py: 파인튜닝 모델 생성 해당 실험의 파라미터 http://182.208.81.130:16003/#/experiments/25/runs/89f8a261b7d34bb3be5dc294b538b7ff
들어가지네여;;;;
Legacy code train_simple_clr.py: Pretrained model 생성 finetune.py: 파인튜닝 모델 생성 해당 실험의 파라미터 http://182.208.81.130:16003/#/experiments/25/runs/89f8a261b7d34bb3be5dc294b538b7ff
이거 아마 향후 1년간 이 상태일 것 같아요. ㅎㅎ;;;MLflow도 저희가고나서 아무도 안쓰시내요 ㅠㅠ
LLM enhanced semantic similarity 논문의 우수성을 증명하기 위한 근거는 아래와 같습니다.
필요 모델
필요한 결과물
[x] : Figure1. LaRA. Method overview(https://github.com/4pygmalion/LaRa/blob/main/data/images/LaRa.png) @4pygmalion
[ ] : Table1. Demographic characteristics (In-house dataset의 환자의 내용) @wjeong53
=> 의미: 본문내에 큰 의미는 없고, 우리의 환자데이터셋이 엄청 특이케이스로 뽑힌 환자들이 아니며 일반적인 rare disease patients로 분석했다라는 것의 근거만 마련하면 될 것 같습니다. 보통 의학 논문에서 Result1으로 환자의 인구학적 통계들을 많이 제시하는데, 저희도 ML문제이지만, 그 분석대상은 희귀질환환자(의료계)니까, 넣어도 괜찮을 것 같습니다. 이건 의견잇으면 알려주세요. => 기타: 3ASC에서도 비슷하게 논문에 테이블 넣었어요. 아래의 manuscript에 table1을 참고해보셔도 좋을 듯합니다.
[ ] : Figure2. Disease prioritization performance in In-house dataset @wjeong53
[ ] : Figure 3: Disease prioritization performance in publicitly available dataset @wjeong53
[ ] : Figure 4: Individual case review (posthoc interpretation) @wjeong53
고려사항
Authorship
References
[1] 3ASC_v2.docx [2] Pheno2disease: Bioinformatics에서 SOTA라고 주장하는 방법론의 논문입니다. https://academic.oup.com/bib/article/24/4/bbad172/7185480?login=false [3] (https://zenodo.org/records/3905420)