codestates / ds-TIL

Data Science TIL page
2 stars 1 forks source link

[TIL]DSFT01 윤현태 #5

Open hyuntae-yun opened 4 years ago

hyuntae-yun commented 4 years ago

data science, TIL --> DS 를 배우려면 어떻게 해야하는지, 그리고 앞으로 강의 내용이 어떤식으로 흘러갈 것인지에 대해 배웠다. TIL이 뭔지도 알게 되었고, 오늘 첫 시작이다.

오티에서 누군가가 1주일 1 논문 리뷰를 했는데, 오늘 새로운 마음가짐을 통해 나도 해볼 작정이다.

시작 논문 이름은 Deep Reinforcement Learning for Mention-Ranking Coreference Models 으로 예전에 읽으려다가 의지 박약으로 실패했다. 내 의지를 시험하며 시작하기에는 아주 좋은 논문이다.

hyuntae-yun commented 4 years ago

TIL day2

우리는 많은 정보를 찾아야 하고, 또 검색해야 하는데, 가장 중요한 건 어떻게 질문하는지다. 그래서 무엇보다, 원인과 경험(시행착오)을 설명하고, 관련성이 있는 코드를 첨부하여 피드백을 받는 것이 좋은 개발자가 될 수 있는 지름길이 될 것이다. 그리고 내가 무엇을 모르는지를 알기 위해서는, 내가 무엇을 아는지 먼저 돌아볼 필요가 있었다.

그리고 만약 현업에서 내가 물어보고자 할 때는, 코드를 붙이기 전에 상황 설명을 먼저 하고, 재현해 볼 수 있는 환경까지 제공하면 좋을 것 같다.

Q&A를 직접해보고 ,어떻게 제목을 써야하는지, 어떻게 질문을 해야하는지등을 배웠다.

마크 다운이 굉장히 유용했다

파이썬에 대해서 설명하는 블로그를 작성했는데, 다양한 방법으로 설명을 듣는게 좋았다.

--------------------------추가-------------------------------- Coreference resolution systems :단어가 서로 같은 의미를 담고 있는지를 찾아내는 기술 the REINFORCE policy gradient algorithm 가 뭔지 알기 위해서는 먼저 RL에서 사용되는 기호가 뭔지를 공부해야겠다.

hyuntae-yun commented 4 years ago

TIL day3

물어보기, 듣기, 쉬운게 하나도 없었다.

듣기를 하려면 내 스스로 생각도 많이 해야하고, 내 것으로 바꾸는 것이 굉장히 중요하다는 것을 깨달았다. 내가 스스로 이해하려고 내 언어로도 바꾸려고도 해보고, 집중하지 않으면 그건 결국 나랑 아무 상관 없는 지식이 되는 것이다.

협업이라... 하는 내내 살짝 머리가 멍해지면서, 다른 사람들이 굉장히 대단하게 보였다. 각자 맡은 일도 알아서 잘 찾으시고, 나도 뭔가를 해야겠다는 생각이 필사적으로 들었다.

듣는 방법이 중요하다는 걸 배웠는데 정작 많이 쓰지는 못한 것 같았다. 다른 두 분은 제법 잘 활용하시는 것 같았다. 그래도 결과가 제법 잘 나온 것 같아서 다행이고, 좋은 경험이 되었다. --------------------------추가-------------------------------- RL: Action, States, Enviromnet, Rewards 로 구분된다. 되게 당연한 말 같은데 기호로 쓰니까 어렵다. 특히 policy π 가 그랬는데, 이 부분은 좀더 알아와야겠다 (사실 졸려서 그렇게 많이 읽지는 못했다)

hyuntae-yun commented 4 years ago

TIL day4

오늘 파이썬에서 쓰는 pandas , Matlotlib, seaborn 에 대해서 알아보는 시간을 가졌다. 사실, 처음에는 생존률을 구하라고 하셔서 생존률까지 알아서 구해주는 함수가 있나보다! 라고 생각하고 열심히 찾아봤지만, 곧 그건 내가 직접 구해야 한다는 것을 시작한지 2시간 만에 깨우쳤다. (살려줘) 그래도 pandas.cut 이나 groupby 같은 유용한 함수들을 아주 질리도록 써보고 있어서 잘 까먹지 않을 것 같다. --------------------------추가-------------------------------- 드디어 ploicy π 가 뭔지 알았다. 다음 상태로 갈 때 그 상태로 가면 얼마나 많은 이득이 있는지를 미리 알아보는 함수라고 생각하면 될 것 같다. (다른 말로 하면 보상을 최대화 하는 쪽으로 선택하게끔 유도하는 함수) 논문 알아보려다가 기초부터 공부하고 있어서 아주 즐겁다. 이제 제대로 된 공부를 하고 있는 것 같다.

hyuntae-yun commented 4 years ago

TIL day5

드디어 plot을 표현하는 것에 조금 더 익숙해지지 않았나 싶다. 어제 5시간동안, 그리고 오늘 추가적으로 더 공부한 보람이 있었다. 그러나 이 것을 내가 아는 것과 표현하는 것은 또 달라서, 조금은 만만히 봤던 블로그 포스팅이었지만 하면서 계속 욕심도 생기고, 어떻게 하면 보는 사람들이 더 이해하기 쉬울까를 생각하며 작성해보기도 하면서 꽤나 머리 아픈 하루를 보냈지만 작성한 결과물을 보고 나서 조금은 뿌듯했다.

어제는 논문을 읽을 시간도 없이 dataframe과 pandas, matplotlib등을 연습하느라 모든 시간을 써버렸다. 논문 읽기는 오늘 저녁부터 다시 시작해야겠다.

hyuntae-yun commented 4 years ago

TIL day6

주말에는 가족들과 오랜만에 시간을 보내느라 많이 못했다. 오늘은 개인적으로 day5의 연장선상이었는데, 그때도 열심히 하긴 했지만 이번에는 또 다른 방식으로 해야해서 전부다 도움이 되었다. plot 중에서도 hist, pair, crosstab을 배웠는데, 특히 cd.cut, cd.qcut을 사용한 crosstab이 굉장히 유용한 것 같았다.

hyuntae-yun commented 4 years ago

TIL day7

결측치를 어떻게 하는지, 그리고 데이터들을 어떻게 내마음대로 가공해서 하는지를 잘 배운 것 같다. 행을 특정 조건에 따라 검색하는 거는 아직 손에 익지 않아서 그런가 계속 찾아보게 된다. 그래도 계속해서 쓰다보면 언젠가는 자동으로 손이 가고 있겠지. df[df'aaaaa'/(==)'asdf'] iloc, loc 등등등... 그리고 내마음대로 어떻게 데이터를 가공할 수 있는지에 대해서 고민이 필요한 것 같다. plot을 그리는 것도 아직 익숙하지 않고, groupby를 한다음에 굉장히 힘들다. 이 부분을 좀 중점적으로 오늘 공부해 봐야겠다.

강화학습에 대한 영어논문 읽기는 단어를 알아가고 있는중.

hyuntae-yun commented 4 years ago

TIL day8

오늘 SQL에서 join 이나 연산에 대해 배웠다. concat 이 연산을 도와주고, merge가 join을 담당한다. 그리고 tidy도 아마 연산의 한 종류인가 싶은데, 그냥 앞으로 tidy 랑 wide 라고 생각해야 겠다. 각각 melt 와 pivot_table 함수로 할 수 있는데, 이 부분은 계속해서 연습해봐야겠다. 뭔가 드디어 데이터를 제대로 조작하고 있다는 느낌이 들긴한데, 아직 좀더 해봐야 알겠다. 그래도 데이터가 내 마음대로 왔다갔다 하는거 보면 재밌다. https://tech.instacart.com/3-million-instacart-orders-open-sourced-d40d29ead6f2 해보고 싶다...! 오늘 밤도 열심히 달려야지 ㅎㅎ...

hyuntae-yun commented 4 years ago

TIL day9

오늘 데이터를 어떻게 보는지에 대해서 많은 생각을 했던 것 같다. 내가 이 데이터를 통해 어떤 걸 얻고 싶은지, 무엇을 표현하고 싶은지 하려면 여러가지 방법이 필요 했고, 내가 데이터에 대해서 이해도 해야 할 것 같다. seaborn 에서 데이터를 어떻게 표현하는지를 배웠다.

hyuntae-yun commented 4 years ago

TIL day10

오늘 sprint challenge에 대해서 했는데 내가 실패했던 것들이 나의 오류들을 더욱 더 빨리 수정할 수 있는 기회를 주었다. merge를 사용할 때도 어떤 걸 먼저해야 하는지, 그래서 실제 데이터들은 양이 굉장히 많은데, 그게 데이터 처리 속도를 조금이라도 빠르게 할 수 있다는 것을 알았다. 근데 도대체 왜 displot은 없다는데 왜 자꾸 있따곰나ㅣㅇ러마닝 multiple도 있다고 구라치고... seaborn 공식사이트 너무한다 진짜

hyuntae-yun commented 4 years ago

TIL 11,12,13 슬프다. 전부다 변명이 있지만, 어쨋든 기록은 남겨야지

먼저 11은 t.test를 했는데, 나름 순조로웠지만 challenge에서 멘붕이 왔다. 사실 통계에 대한 막연한 불안감이 있어서, TIL 작성 시간까지 헐레벌떡 하다가, 그리고 그 후에도 계속해서 challenge를 하다가 패스. 망했으.

day 12 는 굉장히 잘되었다. 물론 5시 30분 쯤에 말이다. 드디어 chi square test가 무엇인지 정확하게 인지하고, 막혔던 plot부분이 갑자기 콰광! 하는 것처럼 막힘없이 풀려버렸다. 너무 신나서 challenge 다 달려버리다가 TIL 패스.

day 13... 여기도 plot 이 엄청난 challenge 였다. errorbar , bar plot 을 미친듯이 알아보다가 결국 구현에 성공했고, 어... seaborn을 봤는데 웬걸, 데이터를 전부다 넣어줘야 나왔다~망할 catplot~ 부랴부랴 지식들 총 동원해서 (concat 사랑해!) 열심히 수정하다보니 어느덧 8시 50분... 만사가 귀찮아서 운동하고 자버렸다.

hyuntae-yun commented 4 years ago

TIL 14 그리고 오늘이 왔다. 분명 매일매일 쓰자고 다짐했는데 벌써 3일이나 휘리릭, 하고 지나갔다.

오늘은 True Positive rate, False Positive rate, False Negative rate, True Negative rate를 살펴보았다. 분명 대학교 시절에 ROC curve하면서 배웠는데 왜 처음 듣는 것 같은지... 근데 Bayes은 정말 신세계다. ~아니 나온지가 언젠데~ 사실 몬티홀 문제는 굉장히 유명하고, (영화에도 나온다) 조건부 확률, 다 아는 거다. 근데 그걸로 Bayes theorem? OMG. 대박이었다. 이런 참신한 발상은 bayes는 어떻게 한걸까(이름 맞겠지?) 그리고 TPR 과 FPR에 대해서 굉장히 헷갈렸다. 왜그런가 하니, 둘다 Positive가 들어가있어서가 아닌가... 근데 사실은 TPR과 관련이 있는건 오히려 FPR(False Postive rate) 이다! 이걸 잘 기억해두자. 그나저나 이게 개론이라니... 미치겠다

hyuntae-yun commented 4 years ago

TIL day 15

역시, 문제는 풀어봐야 아는 것이다. 내가 뭘 알고, 뭘 모르겠는지 보는건데, 다행히 Ttest나 cahi squre test 모두 알아서 좋았다. 근데 bayes theorem 을 이해를 잘 못한 거 같아서 걱정 되었는데, 오늘 몬티홀 문제를 블로깅하면서 확실하게 알게 된 거 같아서 매우 뿌듯하다. 그리고 bayes 처음 만든 사람... 너무 똑똑하다는 것을 다시 한번 느꼈다. 그래도 뭔가 오늘도 불태웠다는 느낌이 들어서 너무 기쁘다.

hyuntae-yun commented 4 years ago

TIL day 16

매트릭스 연산은 쉬웠는데, 플롯이 또 날 미치게 만든다. view_init으로 각도를 주면 돌아가는 것 까진 확인 했는데, 왜 ... 연속해서 돌아가게끔 만드는 건 안되는 걸까? 그리고 주말에 다른 사람들의 블로그를 읽었는데, 확실히 복습도 되고, 또 내가 모르는 것들을 하셨던 분들도 있어서 굉장히 유익했다. 특히 정유태님은 직접 주식에 대입까지 해보셨는데, 굉장히 재미있게 읽었고, 이런식으로 적용해볼 수도 있구나를 느꼈다. 그리고 일모님이 블로깅에 대해서 조언을 해주셨는데, 왠지 나한테 하는 말 같아서 많이 찔린다. 블로깅에 대한 것도 다음주 solo week때 진지하게 고민을 해봐야겠다.

hyuntae-yun commented 4 years ago

TIL day 17

선형대수는 사실 대학교에서도 별로 좋아하지 않았는데, 어쩌다보니 또 하게 되었다. 특히 othogonality가 나왔을 때는,,, 으. 다차원에서 하는게 왜그렇게 끔찍했는지. 이미지들을 matrix로 받아들이고, feature들을 압축한다는 의미에서 선형대수를 사용 한다는 이야기를 들었을 때는 괜히 배운 건 아니다 싶었다. 조금 가물 가물했던 corvariance, correlation, basis, span등을 다시 remind 할 수 있어서 유익한 시간이었다.

hyuntae-yun commented 4 years ago

TIL day 18 다음날 아침에서야 쓰게 되었는데, 일단 머리가 너무 아팠고, 공부해야할 것도, 알아야 할 것도 너무 많았다. PCA에 대해서 배웠는데 그동안 알고 있던 내용이었어서 그런지 내용을 이해하긴 쉬웠다. 다만, 프로그래밍을 할 때 이게 뭘 의미하는지 잘 몰라서 헤메다가, 여러가지 유튜브 동영상을 보고 정확하게 알게 되었다. PC1: 가장 큰 상관관계를 나타내는 주성분 PC2: 두번째로 큰 상관관계를 나타내는 주성분 이것만 알아가면 될거 같다.