4pygmalion / LaRa

LaRA: Large-language-model based semantic similarity for RAre disease
Apache License 2.0
3 stars 0 forks source link

특허문서 #4

Open 4pygmalion opened 7 months ago

4pygmalion commented 7 months ago

URL

To-Do

wjeong53 commented 7 months ago

2024-03-08

초안 작성 완료. 변리사님 전달 완료

4pygmalion commented 7 months ago

감사합니다, 출원전에 명세서 나오면 저희 공유주세요. 가능하면 권리범위 확장이나 구성도 검토해볼게요.

4pygmalion commented 7 months ago

커멘트

상열이형 커맨트) 기존의 증상유사도 계산 방식 (HPO구조 + Information content)을 극복하는 발명으로 잘 소개 + 구성해주신것 같고

전달한 보완사항

  1. 모델 학습 과정에 있어 학습용 가상 환자 데이터 (Synthetic data)를 만드는 데이터 합성 단계 자기 지도 학습 (Self-supervised learning, SSL)은 모델이 라벨없는 데이터를 이용해, 데이터 내 규칙을 찾아, 더 나은 표현력을 얻을 수 있게 학습하는 기법이다. 학습을 위해 라벨이 있는 대용량의 데이터를 구하기 힘든 한계를 극복을 해줄 수 있는 기법이기도 하다. 자기 지도 학습은 언어모델에서는 Masked langunage modeling, 비전분야에서는 회전변환예측(rotation predition), 위상정보예측(relative positional prediction)등이 사용된다. 본 발명에서는 가상의 환자를 생성하는 기법(Synthetic data generation)을 통해 복수의 HPO의 집합인 질환을 구분하게 할 수 있다. 가상의 데이터를 생성할 수 있는 방법은 여러가지가 있지만 이번 발명에서는 질병의 알려진 전체 증상 중 무작위로 샘플링을 하여 해당 질병의 가상의 환자 데이터를 생성하여 SSL에 사용을 한다. 예를 들어, HPO에 알려진 A질환으로부터, K개의 복수의 표현형정보를 샘플링하여, A질환을 가진 가상환자 환자의 표현형집합을 생성할 수 있다. 즉, K개의 표현형정보를 가진 가상의 이 환자는 A질환을 가질 확률이 높은 가상환자를 생성하는 것이다.

  2. 가상 환자 합성 데이터를 이용한 자기지도학습 (Self supervised learning, SSL) 단계 가상으로 생성된 환자 데이터를 이용하여 자기 지도 학습 (SSL)을 진행한다. 이 때, 다양한 질병에 대한 구별력을 학습시키기 위한 방법으로, 자기지도학습 내의 차별적 접근방식들(Discriminative approach)로 SSL을 할 수 있다. SSL 내 차별적 접근방식의 대표적으로, 대조 학습 (contrastive learning)을 사용할 수 있고, 대조 학습은 같은 기원(origin)의 데이터 쌍의 표현 (representation)을 가깝게 만들고, 다른 데이터 쌍의 표현을 멀게 만들도록 학습한다. 예를 들어, A질환의 샘플링을 통해 K, K’개의 증상의 집합을 만들었다면, 이 두 집합의 표현은 공간상에서 가깝게 표현해야한다. 한편, A질환과 B질환의 복수의 표현형집합은 공간상에서 멀도록 학습한다. 최종적으로 학습된 모델은 N개의 증상 표현형을 하나의 벡터로 집계 (aggregate)하여 반환한다. 대조 학습을 진행하기 위해 잘 알려진 SimCLR, SimCSE, CURL과 같은 프레임워크 모델을 사용할 수 있다.