Open bowbowbow opened 7 years ago
별점순으로 재정렬시켜 보여주는 것도 좋을 것!
일단 좋은 아이디어로 보입니다. 그런데 추가 질문드려요. 1] 저렇게 보여주기 위해서 우리에게 얼마만큼의 데이터가 필요할까요? -> 대부분은 거의 실제 적용되지 않은 점수들만 보일꺼 같은데요. 2] 1]과 같은 경우에, 한명만 좋아요 한 글이 최 상위로 올라가는 효과가 발생하지는 않을가요?
@hyonzin 좋은 생각인 것 같습니다.
@charsyam 1, 2번 질문을 해결하는 것이 이 프로젝트에서 가장 핵심적인 사항이라고 생각합니다. 브레인스토밍 관점에서 이 문제에 대해 제가 생각한 것을 답변드립니다.
무한한 URL이 존재하는 웹에서는 제한된 양의 컨텐츠로 이뤄지는 음악, 영화, 쇼핑몰에서 이뤄지는 추천과 달리 협업 필터링(collaborative filtering) 방식이 효용을 내기 어렵다고 생각했습니다. URL이 너무 많아서 같은 URL을 좋아할 확률이 매우 낮기 때문입니다.
그래서 구글이 만들어지고 검색 세상을 제패한지 10년이 넘었지만 아직까지 검색 결과로 유저들에게 보편적으로 가장 만족스러운 결과를 제공하는 것이라고 생각합니다.
어떻게 하면 이렇게 무한한 URL들 중에서, 적은 개수의 평가 정보로, 유저들이 평가한 URL이 서로 히트되기 어려운 제약조건들 속에서 유저 개개인이 다르게 느낄 글의 가치를 예측할 수 있을까? 에 대해 고민했습니다.
그리고 이 문제 대한 단서는 추천기술 자체가 아니라 유저가 인터넷을 사용하는 맥락 속에 있다고 생각했습니다. 어떻게 머신 러닝에 대해 공부하기 시작한 학생 개발자가 머신러닝/딥러닝 강의라는 글을 머신러닝이 뉴스에 자주 나오니까 뭔지 궁금해서 알아보려고 검색한 국문학과 학생보다 더 만족할지에 대해 알 수 있을까요?
머신러닝/딥러닝 강의 이 글에는 개발자 자주 접하는 용어인 Cost, C++, XOR, Cloud와 같은 용어가 등장합니다. 각 유저가 브라우저에서 방문한 페이지 안의 키워드를 전처리해뒀다면 당연히 전자가 후자보다 일치할 가능성이 높다는 것을 알 수 있을 것입니다.
그러나 이렇게 키워드 들의 일치로 예상 평가를 확인한다면 학생 개발자가 머신러닝/딥러닝 강의라는 글이 기계학습-나무위키 보다 더 만족 할지에 대해서 알기 어렵습니다.
이렇게 키워드가 유사하며 페이지랭크 또한 유사하다면 검색 주체의 퍼스널 데이터가 개입 됐을 때 구분할 수 있다고 생각합니다. 이 경우 검색 주체를 표현하는 가장 대표적인 키워드는 "학생", "공부"입니다.
이 때 머신러닝/딥러닝 강의 글에서 계속해서 등장하는 "강의"라는 키워드에 이 글이 "학생", "공부"와 더 가깝다는 것을 알 수 있습니다.
또한 동일한 컨텐츠 작성자의 타겟은 거의 유사하며 글의 수준또한 비슷하다고 가정했을 때 머신러닝/딥러닝 강의 글의 작성자가 "학생"과 연관된 글을 작성하는 경향을 보이는 것을 구글 검색을 이용해서 확인할 수 있기 때문에 전자가 더 만족스럽다는 판단을 내릴 수 있습니다.
익스텐션을 통한 구글 검색은 클라이언트의 자원을 이용해서 할 수 있기 때문에 특정 서버 ip에서 과도한 트래픽을 발생시켜 제한될 문제가 없습니다.
@bowbowbow 추가로, 우리가 과연 특정 글에만 관심을 가져야 할지에 대해서도 고민해 보는게 어떨까요? 보통 좋은 글을 가진 블로그면, 그 전체 글들이 다 좋을 수도 있지 않을까요?
@charsyam 유저 A가 좋아한 글을 가진 블로그라면 유저 A는 그 블로그의 전체 글을 좋아할 것이라고 생각합니다. 우리가 직접 테스트해보고 효용을 검증할 수 있는 개발 관련 글에 대해서 먼저 관심을 가지고 시도해보는 것이 좋다고 생각합니다.
개인화 홈을 포기하고 아래 두 가지에만 완전히 집중하는 건 어떨까요?
@bowbowbow 이러면 검색 하는 경우 이외에 쓸 경우가 거의 없지 않을까요? 중간중간 추천을 해줄수도 없구요?
@charsyam 이렇게 범위를 좁히면 검색 하는 상황외에는 쓸 경우가 없다는 것에 동의합니다. 그러나 하루에 35억 건의 검색이 발생하는 구글 검색에서 확실한 효용이 있는 유틸리티가 된다면 의미있지 않을까요?
개발 기간 6개월이 지나고도 유지보수되고 지속되는 프로그램이 되려면 좁은 범위에서 더 확실하게 만드는게 현실적이지 않을까요?
만약 이 좁은 시장에서 인기를 얻는다면 추후에 쌓인 데이터를 이용해서 개인화 홈 처럼 범위를 넓힐 수 있지 않을까요?
@bowbowbow 1] 우리의 앱을 사용할 사용자층이 어떻게 되나요? 2] 전애도 질문했지만 어느 정도로 데이터를 모을 수 있어야 실제로 의미있게 결과를 보여줄 수 있을까요? 3] 검색을 한다는 것은 내가 찾고자 하는 것을 알고 있을때인데 그러지 못할 경우는 어떻게 해야할까요?
뭔가 고민을 계속 해보는 것은 좋아보입니다 ㅎㅎㅎ 다만 초기에 한두달은 계속 관련 자삭을 공부하면서 기획을 다듬는것도 필요할듯 합니다 ㅎㅎㅎ
이 문제에 대한 대화 기록
지금 해결하려는 문제가 모호하고, 정말 서비스를 원하는 사람이 있을지에 대한 피드백을 UX 강의 멘토님으로 부터 받았습니다. 그리고 강의를 듣고 다시 생각해봤습니다.
해결하려는 문제 : 구글 검색 결과에서 좋은 자료를 찾기으려면 일일히 클릭 해보고 읽어봐야 내게 도움되는 자료 찾을 수 있는데 이 과정이 귀찮고 오래걸린다.
이상적인 상태 : 일일히 들어가보지 않아도 검색 결과 중에 가장 내게 좋은 자료를 바로 찾을 수 있다.
솔루션 : 검색 결과에 개인화된 별점을 표시해서 일일히 들어가지 않아도 좋은 자료를 쉽고 빠르게 찾을 수 있게 만들자.
"머신러닝"에 대한 구글 검색 결과 화면
머신 러닝을 공부하는 대학생이 본 검색 결과
요즘 화제가 되는 머신러닝이 뭔지 알아보려는 국문학과 학생 에게 보여지는 화면