the-world-congress-project / .github

0 stars 0 forks source link

TWC 프로젝트에서 기존 해결책 재사용을 위한 기준 설정 #201

Open hwna00 opened 1 month ago

hwna00 commented 1 month ago

설명

새로운 wish가 기존의 해결책(resolution)을 사용할 수 있는 기준을 설정해야 합니다. 이를 통해 AI 호출 비용을 줄이고, 이미 존재하는 해결책을 재사용할 수 있도록 합니다. 새로운 wish와 기존 wish 간의 유사성을 기반으로 다음과 같은 방법을 제안합니다.

제안된 기준

  1. 유사도 임계값 설정

    • 임베딩 유사도: 새로운 wish와 기존 wish의 텍스트 임베딩 벡터 간의 코사인 유사도 또는 유클리드 거리를 계산합니다. 일정 임계값 이상인 경우 동일한 해결책을 사용하도록 합니다.
      • 예시: 코사인 유사도가 0.8 이상이면 동일한 해결책 사용.
  2. 주제 및 키워드 기반 필터링

    • 주제 모델링: Latent Dirichlet Allocation (LDA)와 같은 주제 모델링 기법을 사용하여 wish 텍스트의 주제를 추출하고 비교합니다. 동일한 주제의 wish는 같은 해결책을 사용합니다.
      • 예시: 동일한 주제에 속한 wish는 동일한 해결책 사용.
    • 키워드 추출: 텍스트에서 주요 키워드를 추출하여 비교합니다. 높은 비율(예: 70%)로 키워드가 일치하는 경우 동일한 해결책을 사용합니다.
      • 예시: 키워드가 70% 이상 일치하면 동일한 해결책 사용.
  3. 비즈니스 로직 기반 조건 설정

    • 카테고리 기반: wish를 특정 카테고리로 분류하고, 동일한 카테고리의 wish는 같은 해결책을 사용합니다.
      • 예시: 환경 문제와 관련된 wish는 동일한 해결책 사용.
    • 사용자 정의 규칙: 도메인 전문가와 협의하여 특정 규칙을 설정합니다. 예를 들어, 특정 키워드를 포함하는 wish는 동일한 해결책을 사용합니다.
      • 예시: "기후 변화"를 언급하는 wish는 동일한 해결책 사용.

작업 항목

  1. 임베딩 유사도 계산 구현

    • wish 임베딩 간의 코사인 유사도 또는 유클리드 거리 계산.
    • 유사도 임계값 설정 (예: 코사인 유사도 0.8).
  2. 주제 및 키워드 기반 필터 구현

    • 주제 모델링을 통해 wish 분류.
    • wish 텍스트에서 키워드 추출 및 비교.
    • 키워드 매칭 임계값 설정 (예: 70%).
  3. 비즈니스 로직 기반 조건 정의

    • 도메인 전문가와 협력하여 사용자 정의 규칙 설정.
    • wish 카테고리 기반 분류 구현.