Open doxgxxn opened 1 year ago
번역은 구글 api가 편할것이다
하둡은 쓸필요 없을것이다
새로운 여행지 추가학습은 어떻게 할 것인지
경로 자체를 만드는 모델, 미리 만든 것이 아닌
knn , rnn?
모델 또한 라벨링을 해서 최적의 추천을 찾아줘야한다
키워드를 뽑아주는 모델, 요약해주는 모델 이 좋을 것이다
요약, 키워드에 대한 정확도를 0~1로 뽑아줄 수 있다면 베스트
커뮤니티나 리드미에서 파인튜닝 방법을 찾아볼 것 없다면 이미 파인튜닝 된 것인지 확인하고 원본 모델로 가서 확인
데이터 플로우:
아키텍쳐 구조도: -> 도커 덩어리 단위, 시스템 단위로 구분 (상호작용을 어떻게 할것인지) ex) EDA 도커 , 학습 도커, 큐 도커, 배포용 로드밸런서?
다음 미팅까지 데이터플로우, 아키텍쳐, 모델 인풋 아웃풋 확정
입력값 -> 라벨링 (퍼센트) -> 어떤식으로 추천할 것인지 결정
여행지 추천 3 일에 가까운 것에 보여지는 형식인거 같음
RNN 모델을 사용해서 순서를 사용해서 크롤링 경로를 만들어 주지 않을까?? 이름보다 위도 경도를 넣어서 학습을 시키면 되지 않을까
완성 된것에 대한 피드백
여행지 탐색해주는 느낌이 아주 강함.
자연어를 통해서 하나를 통해서 출력
어떤 여행을 가고 싶으면 이것이다. -> knn에 가까운 느낌
방향성을 아주 중요하게 -> 입력과 출력은 아주 확실하게.
크롤링을 할때 모든 정보를 가져오는거.
사용하는건 좋은데
하둡을 사용할때 스파크를 사용할 때
csv
하둡은 스파크 사용하는 용도로..
데이터 플로우랑 데이터를 어떻게 할지 그림을 좀 그려줘야
모델에 입력을 넣는 것
영어로 하는것보다 한글로 하는것보다 한글로 된 모델을 사용하는것을 추천.
구글링 말고
재학습을 해줘야 함. 파인 튜닝을 원하는 값을 찾아가지 못하기 때문에
질문에 대한 라벨링을 점수, 0,1로 표현. 스케일링을 점수로 만들어서
키워드를 뽑아서 요약을 해주는 모델을 하나 더 사용하는것.
문제를 하나를
요약
자연어를 받아서 출력을 해도 또 다시 질문을 해서 사용하는것.
모델 재학습 - 파인튜닝 방법도 같이 올려둠. 대체적으로는 비슷함.
문장 혹은 그림을 넣어주면 ~것 몇프로 바꿔주는 것.
https://huggingface.co/openai/clip-vit-large-patch14 참고해서 텍스트를 찾아주는것.
아틱텍쳐
시스탬을 통해서 데이터 베이스에 쌓고 학습한 모델을 어디에 배포를 해서 웹 사이트를 요청한 것을 어디로 가는지 데이터를 접근해서 보여주는 시스템 덩어리.
데이터 플로우. api - eda
docker는 여러개로 나눠서.
각 기능별로 하는 도커를 사용.
학습만 하는 도커, eda를 하는 도커, 데이터를 분산하는 도커,
학습하는 것을 테스트 데이터로 사용해서 유사한가를 비교
정성적으로 비슷한 수준은 가는지? 아님 가는지 확인.
docker file 참고 할만한 예시
docker는 가상머신 다음번에 올릴때는 아무것도 설치가 안되어있음 그래서 여러가지 이미지로 저장하는것.
메모리가 부족하거나 시스템이 죽을 수 있는 경우, docker만 내렸다가 다시 올리면 서비스 운영을 다시 할 수 있음
참고: 제안서에 들어간 플로우차트는 데이터 플로우 그림으로 발전시키는 게 좋아보임
회의록
무엇을 할 것 인가 여행지 추천, 경로 보여주기
모델은 트랜스토머 모델 웹크롤링은 셀레니움으로 리뷰 긁어오기.
질문 트랜스포머 모델 질문 영어로 학습된 모델 하지만 우리는 한글로 입력을 받으니까, 번역 API를 연동해서 써야할지? 그래도 된다 그러면 번역시간만 2~3일 잡아야 할걸?
감성분석 긍정 별점 4~5개 부정 별점 1~2개 감성사전에서 나오는 점수로 긍정 부정 파악.
고객에게 리뷰도 받아보기? 이걸로 재학습 데이터.
경로는 어떻게? 테이블에서 찾아서 설정된 여행 경로를 출력.
경로 생성 모델 - RNN모델을 활용하는 방안 모색(위경도) 경로를 만들어 주는 것을 고려해 보아라. 새로운 여행지를 추가로 학습할 여지
십만건 이하의 크롤링이라면 SQL로 충분하다.
데이터플로우 그려보기 라벨링, 요약을 해주는 모델
모델에서 키워드를 뽑아내줘야 한다. 점수로 변환할 수 있으면 더 좋다.
https://huggingface.co/openai/clip-vit-large-patch14 이런 식으로 라벨링 데이터와 값을 출력하게 한다.
일순위 아키텍처
모델 인풋 아웃풋 확정 하는거로
도커를 각 기능마다 하나씩 구성해보자
네이버 지식인의 질문글을 테스트데이터로?~?~ 우리 모델의 결과와 지식인의 답변글을 정성적으로 비교해 보는 방법. 밸리데이션 데이터로 활용한다.
오늘 회의
https://huggingface.co/openai/clip-vit-large-patch14 설명: 키워드를 뽑아주는 모델 [라벨링 모델]
Docker 논제: 도커 구성은 어떻게 할 것인가? 답: 각 서비스 마다 도커를 구성 도커 컴포즈로 도커 통합
DB 논제: 지금 현재까지 상황으로 하둡이 필요한가? 답: 필요하지 않다. 학습 데이터는 CSV로 관리가 가능하다.
다음 회의 까지 할 것
⭐ 각자 메모한 것들 취합하겠습니다!