231105/ DP-Mentor meeting

doxgxxn commented 1 year ago

⭐ 각자 메모한 것들 취합하겠습니다!

doxgxxn commented 1 year ago

번역은 구글 api가 편할것이다

하둡은 쓸필요 없을것이다

새로운 여행지 추가학습은 어떻게 할 것인지

경로 자체를 만드는 모델, 미리 만든 것이 아닌

knn , rnn?

모델 또한 라벨링을 해서 최적의 추천을 찾아줘야한다

키워드를 뽑아주는 모델, 요약해주는 모델 이 좋을 것이다

요약, 키워드에 대한 정확도를 0~1로 뽑아줄 수 있다면 베스트

커뮤니티나 리드미에서 파인튜닝 방법을 찾아볼 것 없다면 이미 파인튜닝 된 것인지 확인하고 원본 모델로 가서 확인

데이터 플로우:

아키텍쳐 구조도: -> 도커 덩어리 단위, 시스템 단위로 구분 (상호작용을 어떻게 할것인지) ex) EDA 도커 , 학습 도커, 큐 도커, 배포용 로드밸런서?

다음 미팅까지 데이터플로우, 아키텍쳐, 모델 인풋 아웃풋 확정

입력값 -> 라벨링 (퍼센트) -> 어떤식으로 추천할 것인지 결정

Sam1000won commented 1 year ago

여행지 추천 3 일에 가까운 것에 보여지는 형식인거 같음

RNN 모델을 사용해서 순서를 사용해서 크롤링 경로를 만들어 주지 않을까?? 이름보다 위도 경도를 넣어서 학습을 시키면 되지 않을까

완성 된것에 대한 피드백

여행지 탐색해주는 느낌이 아주 강함.

자연어를 통해서 하나를 통해서 출력

어떤 여행을 가고 싶으면 이것이다. -> knn에 가까운 느낌

방향성을 아주 중요하게 -> 입력과 출력은 아주 확실하게.

크롤링을 할때 모든 정보를 가져오는거.

사용하는건 좋은데

하둡을 사용할때 스파크를 사용할 때

csv

하둡은 스파크 사용하는 용도로..

데이터 플로우랑 데이터를 어떻게 할지 그림을 좀 그려줘야

모델에 입력을 넣는 것

영어로 하는것보다 한글로 하는것보다 한글로 된 모델을 사용하는것을 추천.

구글링 말고

재학습을 해줘야 함. 파인 튜닝을 원하는 값을 찾아가지 못하기 때문에

질문에 대한 라벨링을 점수, 0,1로 표현. 스케일링을 점수로 만들어서

키워드를 뽑아서 요약을 해주는 모델을 하나 더 사용하는것.

문제를 하나를

요약

자연어를 받아서 출력을 해도 또 다시 질문을 해서 사용하는것.

모델 재학습 - 파인튜닝 방법도 같이 올려둠. 대체적으로는 비슷함.

문장 혹은 그림을 넣어주면 ~것 몇프로 바꿔주는 것.

https://huggingface.co/openai/clip-vit-large-patch14 참고해서 텍스트를 찾아주는것.

아틱텍쳐

시스탬을 통해서 데이터 베이스에 쌓고 학습한 모델을 어디에 배포를 해서 웹 사이트를 요청한 것을 어디로 가는지 데이터를 접근해서 보여주는 시스템 덩어리.

데이터 플로우. api - eda

docker는 여러개로 나눠서.

각 기능별로 하는 도커를 사용.

학습만 하는 도커, eda를 하는 도커, 데이터를 분산하는 도커,

학습하는 것을 테스트 데이터로 사용해서 유사한가를 비교

정성적으로 비슷한 수준은 가는지? 아님 가는지 확인.

docker file 참고 할만한 예시

docker는 가상머신 다음번에 올릴때는 아무것도 설치가 안되어있음 그래서 여러가지 이미지로 저장하는것.

메모리가 부족하거나 시스템이 죽을 수 있는 경우, docker만 내렸다가 다시 올리면 서비스 운영을 다시 할 수 있음

tjkpolisher commented 1 year ago

크롤링할 때는 어지간한 정보는 다 살려서 저장해 놓는 걸로!(원하는 것만 가져왔다가 추가로 필요한 게 생기면 또 크롤링해야 하는 불상사를 방지하기 위함)
10만 개 데이터까지는 그냥 csv로 저장해도 문제 없으니, 하이브도 필수는 아님.
그 이상으로 가서 스파크를 써야 병렬 처리를 하기 위해 하이브를 사용하는 이점이 생김.(애초에 그 이하의 데이터는 스파크가 더 효율이 떨어질 수도 있음)
한글 사용하는 모델을 가져와서 사용하는 게 시간적으로 이득일 수 있음
하지만 달리 모델에 대안이 없을 경우, 파파고나 구글 번역기 API를 앞에 붙여서 설계를 할 수 밖에 없음
정보를 요약해주는 모델도 있음
트랜스포머 모델 사용보다는 라벨링 쪽으로 방향을 틀어보는 게 좋을 것 같음
특성을 추출하고 그 특성의 정확도를 뽑는 게 좋음(특정 자연어의 라벨이 세 가지가 해당된다는 식으로. 퍼센트까지 추출할 수 있으면 정확한 추천 가능)
파인 튜닝 방법은 모델 개발자 쪽에서 블로그나 깃허브 등에 매뉴얼로 올려놓음
그렇다 해도 사실 허깅페이스 등에서 구할 수 있는 모델은 대부분 파인 튜닝의 방법이 비슷하긴 함
하지만 모델 개발자가 적어 놓은 파인 튜닝 방법을 참고하는 게 좋음 + 그게 안 되면 커뮤니티 등에 찾아보면 됨
데이터 플로우는 모델이 확정되어야 하니까, 아키텍쳐(시스템) 및 인풋/아웃풋을 확정해서 가져오기

참고: 제안서에 들어간 플로우차트는 데이터 플로우 그림으로 발전시키는 게 좋아보임

리뷰 크롤링하는 김에 네이버 지식인에서 여행 코스 추천해달라는 글도 크롤링해서 테스트 데이터로 써보는 것도 나쁘지 않을 듯?

8trider commented 1 year ago

회의록

무엇을 할 것 인가 여행지 추천, 경로 보여주기

모델은 트랜스토머 모델 웹크롤링은 셀레니움으로 리뷰 긁어오기.

질문 트랜스포머 모델 질문 영어로 학습된 모델 하지만 우리는 한글로 입력을 받으니까, 번역 API를 연동해서 써야할지? 그래도 된다 그러면 번역시간만 2~3일 잡아야 할걸?

감성분석 긍정 별점 4~5개 부정 별점 1~2개 감성사전에서 나오는 점수로 긍정 부정 파악.

고객에게 리뷰도 받아보기? 이걸로 재학습 데이터.

경로는 어떻게? 테이블에서 찾아서 설정된 여행 경로를 출력.

경로 생성 모델 - RNN모델을 활용하는 방안 모색(위경도) 경로를 만들어 주는 것을 고려해 보아라. 새로운 여행지를 추가로 학습할 여지

십만건 이하의 크롤링이라면 SQL로 충분하다.

데이터플로우 그려보기 라벨링, 요약을 해주는 모델

모델에서 키워드를 뽑아내줘야 한다. 점수로 변환할 수 있으면 더 좋다.

https://huggingface.co/openai/clip-vit-large-patch14 이런 식으로 라벨링 데이터와 값을 출력하게 한다.

일순위 아키텍처

모델 인풋 아웃풋 확정 하는거로

도커를 각 기능마다 하나씩 구성해보자

네이버 지식인의 질문글을 테스트데이터로?~?~ 우리 모델의 결과와 지식인의 답변글을 정성적으로 비교해 보는 방법. 밸리데이션 데이터로 활용한다.

Felicette1963 commented 1 year ago

오늘 회의

모델 논제: 어떤 모델을 쓰는 것이 좋은가? 답: RNN 모델 [경로 추천 모델] 답: 목업 페이지를 보고 강사님이 예시로 든 모델

https://huggingface.co/openai/clip-vit-large-patch14 설명: 키워드를 뽑아주는 모델 [라벨링 모델]
- 이미지에 키워드 입력시 입력된 키워드 중 가장 정확도가 맞아가는 라벨 선택 모델
  
  논제: 파인 튜닝 방법 답: 허깅 페이스 API 답: 모델 github에 들어가면 Read.me or 커뮤니티에 적혀있다. 답: 위 방법이 없을 경우 최초모델 부분을 가면 파인 튜닝 방법이 적혀있다.
웹수집

논제1: 리뷰 수집 예정 / 리뷰형식은 어캐 되고 유형은 어떤 유형으로 긁어 올건지 답: 크롤링 방법: 샐리니윰 추천 / 동적 수집 요망 답: 페이지에 있는 걸 그대로 수집

논제2: 리뷰를 통해 감성분석을 진행 방법 답: 별점이 있는 리뷰를 긁어서 긍정(4-5) / 부정(1-2)점의 기준을 세워서 한다. 답: 감성사전을 찾아 볼것
Docker 논제: 도커 구성은 어떻게 할 것인가? 답: 각 서비스 마다 도커를 구성 도커 컴포즈로 도커 통합
DB 논제: 지금 현재까지 상황으로 하둡이 필요한가? 답: 필요하지 않다. 학습 데이터는 CSV로 관리가 가능하다.

다음 회의 까지 할 것

아키텍처 구조도 그릴 것 [시스템 덩어리[도커]를 기준으로 구조를 그리고 짤 것]
모델 선정 / 모델 Input / Output 결정

DJMLteam2 / DP_main

231105/ DP-Mentor meeting #7

모델 논제: 어떤 모델을 쓰는 것이 좋은가? 답: RNN 모델 [경로 추천 모델] 답: 목업 페이지를 보고 강사님이 예시로 든 모델

이미지에 키워드 입력시 입력된 키워드 중 가장 정확도가 맞아가는 라벨 선택 모델

논제: 파인 튜닝 방법 답: 허깅 페이스 API 답: 모델 github에 들어가면 Read.me or 커뮤니티에 적혀있다. 답: 위 방법이 없을 경우 최초모델 부분을 가면 파인 튜닝 방법이 적혀있다.

웹수집

논제1: 리뷰 수집 예정 / 리뷰형식은 어캐 되고 유형은 어떤 유형으로 긁어 올건지 답: 크롤링 방법: 샐리니윰 추천 / 동적 수집 요망 답: 페이지에 있는 걸 그대로 수집

논제2: 리뷰를 통해 감성분석을 진행 방법 답: 별점이 있는 리뷰를 긁어서 긍정(4-5) / 부정(1-2)점의 기준을 세워서 한다. 답: 감성사전을 찾아 볼것