공통 질문
프로젝트
통계 및 수학
분석 일반
머신러닝
딥러닝
추천 시스템
데이터베이스
데이터 시각화
시스템 엔지니어링
분산처리
웹 아키텍쳐
서비스 구현
대 고객 사이드
개인정보

공통 질문

왜 해당 직군으로 지원했나요?
왜 저희 회사에 지원하셨나요?
해당 직군의 매력이 무엇이라고 생각하나요?
해당 직군에서 본인의 장점은?
해당 직군을 하면서 이루고자 하는 목표는?
해당 직군을 하기 위해 어떤 노력을 했나요?
왜 저희가 지원자를 뽑아야 하나요?
지원자의 단점은 무엇인가요?

목차로 이동

프로젝트

[ ] - 데이터를 어떻게 구했나요?
[ ] - 해당 프로젝트에서 왜 이 알고리즘을 사용했나요?
[ ] - 그 알고리즘과 유사한 알고리즘이 존재하지 않나요?
[ ] - 해당 알고리즘의 단점은?
[ ] - 해당 프로젝트에서 지원자는 어떤 일을 했나요?
[ ] - 해당 프로젝트에서 지원자가 느낀 점은?
[ ] - 해당 프로젝트를 다시 진행한다고 하면 어떻게 할 것인가요?
[ ] - Kaggle에서 수상을 하면 데이터 분석을 잘 할까요?

목차로 이동

통계 및 수학

[ ] - 고유값(eigen value)와 고유벡터(eigen vector)에 대해 설명해주세요. 그리고 왜 중요할까요?
[ ] - 샘플링(Sampling)과 리샘플링(Resampling)에 대해 설명해주세요. 리샘플링은 무슨 장점이 있을까요?
[ ] - 확률 모형과 확률 변수는 무엇일까요?
[ ] - 누적 분포 함수와 확률 밀도 함수는 무엇일까요? 수식과 함께 표현해주세요
[ ] - 베르누이 분포 / 이항 분포 / 카테고리 분포 / 다항 분포 / 가우시안 정규 분포 / t 분포 / 카이제곱 분포 / F 분포 / 베타 분포 / 감마 분포 / 디리클레 분포에 대해 설명해주세요. 혹시 연관된 분포가 있다면 연관 관계를 설명해주세요
[ ] - 조건부 확률은 무엇일까요?
[ ] - 공분산과 상관계수는 무엇일까요? 수식과 함께 표현해주세요
[ ] - 신뢰 구간의 정의는 무엇인가요?
[ ] - p-value를 고객에게는 뭐라고 설명하는게 이해하기 편할까요?
[ ] - p-value는 요즘 시대에도 여전히 유효할까요? 언제 p-value가 실제를 호도하는 경향이 있을까요?
[ ] - A/B Test 등 현상 분석 및 실험 설계 상 통계적으로 유의미함의 여부를 결정하기 위한 방법에는 어떤 것이 있을까요?
[ ] - R square의 의미는 무엇인가요?
[x] - 평균(mean)과 중앙값(median)중에 어떤 케이스에서 뭐를 써야할까요?
[ ] - 중심극한정리는 왜 유용한걸까요?
[ ] - 엔트로피(entropy)에 대해 설명해주세요. 가능하면 Information Gain도요.
[x] - 요즘같은 빅데이터(?)시대에는 정규성 테스트가 의미 없다는 주장이 있습니다. 맞을까요?
[ ] - 어떨 때 모수적 방법론을 쓸 수 있고, 어떨 때 비모수적 방법론을 쓸 수 있나요?
[ ] - “likelihood”와 “probability”의 차이는 무엇일까요?
[ ] - 통계에서 사용되는 bootstrap의 의미는 무엇인가요.
[ ] - 모수가 매우 적은 (수십개 이하) 케이스의 경우 어떤 방식으로 예측 모델을 수립할 수 있을까요?
[ ] - 베이지안과 프리퀀티스트간의 입장차이를 설명해주실 수 있나요?
[ ] - 검정력(statistical power)은 무엇일까요?
[x] - missing value가 있을 경우 채워야 할까요? 그 이유는 무엇인가요?
[ ] - 아웃라이어의 판단하는 기준은 무엇인가요?
[ ] - 콜센터 통화 지속 시간에 대한 데이터가 존재합니다. 이 데이터를 코드화하고 분석하는 방법에 대한 계획을 세워주세요. 이 기간의 분포가 어떻게 보일지에 대한 시나리오를 설명해주세요
[ ] - 출장을 위해 비행기를 타려고 합니다. 당신은 우산을 가져가야 하는지 알고 싶어 출장지에 사는 친구 3명에게 무작위로 전화를 하고 비가 오는 경우를 독립적으로 질문해주세요. 각 친구는 2/3로 진실을 말하고 1/3으로 거짓을 말합니다. 3명의 친구가 모두 "그렇습니다. 비가 내리고 있습니다"라고 말했습니다. 실제로 비가 내릴 확률은 얼마입니까?
[ ] - 필요한 표본의 크기를 어떻게 계산합니까?
[ ] - Bias를 통제하는 방법은 무엇입니까?
[ ] - 로그 함수는 어떤 경우 유용합니까? 사례를 들어 설명해주세요

목차로 이동

분석 일반

[ ] - 좋은 feature란 무엇인가요. 이 feature의 성능을 판단하기 위한 방법에는 어떤 것이 있나요?
[ ] - "상관관계는 인과관계를 의미하지 않는다"라는 말이 있습니다. 설명해주실 수 있나요?
[ ] - A/B 테스트의 장점과 단점, 그리고 단점의 경우 이를 해결하기 위한 방안에는 어떤 것이 있나요?
[ ] - 각 고객의 웹 행동에 대하여 실시간으로 상호작용이 가능하다고 할 때에, 이에 적용 가능한 고객 행동 및 모델에 관한 이론을 알아봅시다.
[ ] - 고객이 원하는 예측모형을 두가지 종류로 만들었다. 하나는 예측력이 뛰어나지만 왜 그렇게 예측했는지를 설명하기 어려운 random forest 모형이고, 또다른 하나는 예측력은 다소 떨어지나 명확하게 왜 그런지를 설명할 수 있는 sequential bayesian 모형입니다.고객에게 어떤 모형을 추천하겠습니까?
[ ] - 고객이 내일 어떤 상품을 구매할지 예측하는 모형을 만들어야 한다면 어떤 기법(예: SVM, Random Forest, logistic regression 등)을 사용할 것인지 정하고 이를 통계와 기계학습 지식이 전무한 실무자에게 설명해봅시다.
[ ] - 나만의 feature selection 방식을 설명해봅시다.
[ ] - 데이터 간의 유사도를 계산할 때, feature의 수가 많다면 (예: 100개 이상), 이러한 high-dimensional clustering을 어떻게 풀어야할까요?

목차로 이동

머신러닝

[x] - Cross Validation은 무엇이고 어떻게 해야하나요?
[ ] - 회귀 / 분류시 알맞은 metric은 무엇일까요?
[ ] - 알고 있는 metric에 대해 설명해주세요(ex. RMSE, MAE, recall, precision ...)
[ ] - 정규화를 왜 해야할까요? 정규화의 방법은 무엇이 있나요?
[x] - Local Minima와 Global Minima에 대해 설명해주세요.
[ ] - 차원의 저주에 대해 설명해주세요
[ ] - dimension reduction기법으로 보통 어떤 것들이 있나요?
[ ] - PCA는 차원 축소 기법이면서, 데이터 압축 기법이기도 하고, 노이즈 제거기법이기도 합니다. 왜 그런지 설명해주실 수 있나요?
[ ] - LSA, LDA, SVD 등의 약자들이 어떤 뜻이고 서로 어떤 관계를 가지는지 설명할 수 있나요?
[ ] - Markov Chain을 고등학생에게 설명하려면 어떤 방식이 제일 좋을까요?
[ ] - 텍스트 더미에서 주제를 추출해야 합니다. 어떤 방식으로 접근해 나가시겠나요?
[ ] - SVM은 왜 반대로 차원을 확장시키는 방식으로 동작할까요? 거기서 어떤 장점이 발생했나요?
[ ] - 다른 좋은 머신 러닝 대비, 오래된 기법인 나이브 베이즈(naive bayes)의 장점을 옹호해보세요.
[ ] - Association Rule의 Support, Confidence, Lift에 대해 설명해주세요.
[ ] - 최적화 기법중 Newton’s Method와 Gradient Descent 방법에 대해 알고 있나요?
[ ] - 머신러닝(machine)적 접근방법과 통계(statistics)적 접근방법의 둘간에 차이에 대한 견해가 있나요?
[ ] - 인공신경망(deep learning이전의 전통적인)이 가지는 일반적인 문제점은 무엇일까요?
[ ] - 지금 나오고 있는 deep learning 계열의 혁신의 근간은 무엇이라고 생각하시나요?
[ ] - ROC 커브에 대해 설명해주실 수 있으신가요?
[ ] - 여러분이 서버를 100대 가지고 있습니다. 이때 인공신경망보다 Random Forest를 써야하는 이유는 뭘까요?
[ ] - K-means의 대표적 의미론적 단점은 무엇인가요? (계산량 많다는것 말고)
[x] - L1, L2 정규화에 대해 설명해주세요
[ ] - XGBoost을 아시나요? 왜 이 모델이 캐글에서 유명할까요?
[ ] - 앙상블 방법엔 어떤 것들이 있나요?
[ ] - SVM은 왜 좋을까요?
[ ] - feature vector란 무엇일까요?
[ ] - 좋은 모델의 정의는 무엇일까요?
[ ] - 50개의 작은 의사결정 나무는 큰 의사결정 나무보다 괜찮을까요? 왜 그렇게 생각하나요?
[ ] - 스팸 필터에 로지스틱 리그레션을 많이 사용하는 이유는 무엇일까요?
[ ] - OLS(ordinary least squre) regression의 공식은 무엇인가요?

목차로 이동

딥러닝

딥러닝 일반

[x] - 딥러닝은 무엇인가요? 딥러닝과 머신러닝의 차이는?
[x] - 왜 갑자기 딥러닝이 부흥했을까요?
[ ] - 마지막으로 읽은 논문은 무엇인가요? 설명해주세요
[x] - Cost Function과 Activation Function은 무엇인가요?
[ ] - Tensorflow, Keras, PyTorch, Caffe, Mxnet 중 선호하는 프레임워크와 그 이유는 무엇인가요?
[ ] - Data Normalization은 무엇이고 왜 필요한가요?
[x] - 알고있는 Activation Function에 대해 알려주세요. (Sigmoid, ReLU, LeakyReLU, Tanh 등)
[x] - 오버피팅일 경우 어떻게 대처해야 할까요?
[x] - 하이퍼 파라미터는 무엇인가요?
[x] - Weight Initialization 방법에 대해 말해주세요. 그리고 무엇을 많이 사용하나요?
[ ] - 볼츠만 머신은 무엇인가요?
[x] - 요즘 Sigmoid 보다 ReLU를 많이 쓰는데 그 이유는?
[ ] - Non-Linearity라는 말의 의미와 그 필요성은?
[ ] - ReLU로 어떻게 곡선 함수를 근사하나?
[ ] - ReLU의 문제점은?
[ ] - Bias는 왜 있는걸까?
[x] - Gradient Descent에 대해서 쉽게 설명한다면?
[ ] - 왜 꼭 Gradient를 써야 할까? 그 그래프에서 가로축과 세로축 각각은 무엇인가? 실제 상황에서는 그 그래프가 어떻게 그려질까?
[ ] - GD 중에 때때로 Loss가 증가하는 이유는?
[ ] - 중학생이 이해할 수 있게 더 쉽게 설명 한다면?
[x] - Back Propagation에 대해서 쉽게 설명 한다면?
[ ] - Local Minima 문제에도 불구하고 딥러닝이 잘 되는 이유는?
[ ] - GD가 Local Minima 문제를 피하는 방법은?
[ ] - 찾은 해가 Global Minimum인지 아닌지 알 수 있는 방법은?
[ ] - Training 세트와 Test 세트를 분리하는 이유는?
[x] - Validation 세트가 따로 있는 이유는?
[ ] - Test 세트가 오염되었다는 말의 뜻은?
[ ] - Regularization이란 무엇인가?
[ ] - Batch Normalization의 효과는?
[x] - Dropout의 효과는?
[ ] - BN 적용해서 학습 이후 실제 사용시에 주의할 점은? 코드로는?
[ ] - GAN에서 Generator 쪽에도 BN을 적용해도 될까?
[ ] - SGD, RMSprop, Adam에 대해서 아는대로 설명한다면?
[x] - SGD에서 Stochastic의 의미는?
[ ] - 미니배치를 작게 할때의 장단점은?
[ ] - 모멘텀의 수식을 적어 본다면?
[ ] - 간단한 MNIST 분류기를 MLP+CPU 버전으로 numpy로 만든다면 몇줄일까?
[ ] - 어느 정도 돌아가는 녀석을 작성하기까지 몇시간 정도 걸릴까?
[x] - Back Propagation은 몇줄인가?
[ ] - CNN으로 바꾼다면 얼마나 추가될까?
[ ] - 간단한 MNIST 분류기를 TF, Keras, PyTorch 등으로 작성하는데 몇시간이 필요한가?
[ ] - CNN이 아닌 MLP로 해도 잘 될까?
[ ] - 마지막 레이어 부분에 대해서 설명 한다면?
[ ] - 학습은 BCE loss로 하되 상황을 MSE loss로 보고 싶다면?
[ ] - 만약 한글 (인쇄물) OCR을 만든다면 데이터 수집은 어떻게 할 수 있을까?
[ ] - 딥러닝할 때 GPU를 쓰면 좋은 이유는?
[ ] - 학습 중인데 GPU를 100% 사용하지 않고 있다. 이유는?
[ ] - GPU를 두개 다 쓰고 싶다. 방법은?
[ ] - 학습시 필요한 GPU 메모리는 어떻게 계산하는가?
[ ] - TF, Keras, PyTorch 등을 사용할 때 디버깅 노하우는?
[ ] - 뉴럴넷의 가장 큰 단점은 무엇인가? 이를 위해 나온 One-Shot Learning은 무엇인가?

목차로 이동

컴퓨터 비전

[ ] - OpenCV 라이브러리만을 사용해서 이미지 뷰어(Crop, 흑백화, Zoom 등의 기능 포함)를 만들어주세요
[ ] - 딥러닝 발달 이전에 사물을 Detect할 때 자주 사용하던 방법은 무엇인가요?
[ ] - Fatser R-CNN의 장점과 단점은 무엇인가요?
[ ] - dlib은 무엇인가요?
[ ] - YOLO의 장점과 단점은 무엇인가요?
[ ] - 제일 좋아하는 Object Detection 알고리즘에 대해 설명하고 그 알고리즘의 장단점에 대해 알려주세요
[ ] - 그 이후에 나온 더 좋은 알고리즘은 무엇인가요?
[ ] - Average Pooling과 Max Pooling의 차이점은?
[ ] - Deep한 네트워크가 좋은 것일까요? 언제까지 좋을까요?
[x] - Residual Network는 왜 잘될까요? Ensemble과 관련되어 있을까요?
[ ] - CAM(Class Activation Map)은 무엇인가요?
[ ] - Localization은 무엇일까요?
[ ] - 자율주행 자동차의 원리는 무엇일까요?
[ ] - Semantic Segmentation은 무엇인가요?
[ ] - Visual Q&A는 무엇인가요?
[ ] - Image Captioning은 무엇인가요?
[x] - Fully Connected Layer의 기능은 무엇인가요?
[ ] - Neural Style은 어떻게 진행될까요?
[ ] - CNN에 대해서 아는대로 얘기하라
[ ] - CNN이 MLP보다 좋은 이유는?
[ ] - 어떤 CNN의 파라미터 개수를 계산해 본다면?
[ ] - 주어진 CNN과 똑같은 MLP를 만들 수 있나?
[ ] - 풀링시에 만약 Max를 사용한다면 그 이유는?
[ ] - 시퀀스 데이터에 CNN을 적용하는 것이 가능할까?

목차로 이동

자연어 처리

[x] - One Hot 인코딩에 대해 설명해주세요
[ ] - POS 태깅은 무엇인가요? 가장 간단하게 POS tagger를 만드는 방법은 무엇일까요?
[ ] - 문장에서 "Apple"이란 단어가 과일인지 회사인지 식별하는 모델을 어떻게 훈련시킬 수 있을까요?
[ ] - 뉴스 기사에 인용된 텍스트의 모든 항목을 어떻게 찾을까요?
[ ] - 음성 인식 시스템에서 생성된 텍스트를 자동으로 수정하는 시스템을 어떻게 구축할까요?
[ ] - 잠재론적, 의미론적 색인은 무엇이고 어떻게 적용할 수 있을까요?
[ ] - 영어 텍스트를 다른 언어로 번역할 시스템을 어떻게 구축해야 할까요?
[ ] - 뉴스 기사를 주제별로 자동 분류하는 시스템을 어떻게 구축할까요?
[ ] - Stop Words는 무엇일까요? 이것을 왜 제거해야 하나요?
[ ] - 영화 리뷰가 긍정적인지 부정적인지 예측하기 위해 모델을 어떻게 설계하시겠나요?
[ ] - TF-IDF 점수는 무엇이며 어떤 경우 유용한가요?
[ ] - 한국어에서 많이 사용되는 사전은 무엇인가요?
[ ] - Regular grammar는 무엇인가요? regular expression과 무슨 차이가 있나요?
[x] - RNN에 대해 설명해주세요
[ ] - LSTM은 왜 유용한가요?
[ ] - Translate 과정 Flow에 대해 설명해주세요
[ ] - n-gram은 무엇일까요?
[ ] - PageRank 알고리즘은 어떻게 작동하나요?
[ ] - depedency parsing란 무엇인가요?
[ ] - Word2Vec의 원리는?
[ ] - 그 그림에서 왼쪽 파라메터들을 임베딩으로 쓰는 이유는?
[ ] - 그 그림에서 오른쪽 파라메터들의 의미는 무엇일까?
[ ] - 남자와 여자가 가까울까? 남자와 자동차가 가까울까?
[ ] - 번역을 Unsupervised로 할 수 있을까?

목차로 이동

강화학습

[ ] - MDP는 무엇일까요?
[ ] - 가치함수는 무엇일까요? 수식으로도 표현해주세요
[ ] - 벨만 방정식은 무엇일까요? 수식으로도 표현해주세요
[ ] - 강화학습에서 다이나믹 프로그래밍은 어떤 의미를 가질까요? 한계점은 무엇이 있을까요?
[ ] - 몬테카를로 근사는 무엇일까요? 가치함수를 추정할 때 어떻게 사용할까요?
[ ] - Value-based Reinforcement Learning과 Policy based Reinforcement Learning는 무엇이고 어떤 관계를 가질까요?
[ ] - 강화학습이 어려운 이유는 무엇일까요? 그것을 어떤 방식으로 해결할 수 있을까요?
[ ] - 강화학습을 사용해 테트리스에서 고득점을 얻는 프로그램을 만드려고 합니다. 어떻게 만들어야 할까요?

목차로 이동

GAN

[ ] - GAN에 대해 아는대로 설명해주세요
[ ] - GAN의 단점은 무엇인가요?
[ ] - LSGAN에 대해 설명해주세요
[ ] - GAN이 왜 뜨고 있나요?
[ ] - Auto Encoder에 대해서 아는대로 얘기하라
[ ] - MNIST AE를 TF나 Keras등으로 만든다면 몇줄일까?
[ ] - MNIST에 대해서 임베딩 차원을 1로 해도 학습이 될까?
[ ] - 임베딩 차원을 늘렸을 때의 장단점은?
[ ] - AE 학습시 항상 Loss를 0으로 만들수 있을까?
[ ] - VAE는 무엇인가?
[ ] - 간단한 MNIST DCGAN을 작성한다면 TF 등으로 몇줄 정도 될까?
[ ] - GAN의 Loss를 적어보면?
[ ] - D를 학습할때 G의 Weight을 고정해야 한다. 방법은?
[ ] - 학습이 잘 안될때 시도해 볼 수 있는 방법들은?

목차로 이동

데이터베이스

[x] - PostgreSQL의 장점은 무엇일까요?
[ ] - 인덱스는 크게 Hash 인덱스와 B+Tree 인덱스가 있습니다. 이것은 무엇일까요?
[ ] - 인덱스 Scan 방식은 무엇이 있나요?
[ ] - 인덱스 설계시 NULL값은 고려되야 할까요?
[ ] - Nested Loop 조인은 무엇일까요?
[ ] - Windows 함수는 무엇이고 어떻게 작성할까요?
[ ] - KNN 알고리즘을 쿼리로 구현할 수 있을까요?
[ ] - MySQL에서 대량의 데이터(500만개 이상)를 Insert해야하는 경우엔 어떻게 해야할까요?
[ ] - RDB의 char와 varchar의 차이는 무엇일까요?
[x] - 구글의 BigQuery, AWS의 Redshift는 기존 RDB와 무슨 차이가 있을까요? 왜 빠를까요?
[ ] - 쿼리의 성능을 확인하기 위해 어떤 쿼리문을 작성해야 할까요?
[ ] - MySQL이 요새 느리다는 신고가 들어왔습니다. 첫번째로 무엇을 확인하시고 조정하시겠나요?
[ ] - 동작하는 MySQL에 Alter table을 하면 안되는 이유를 설명해주세요. 그리고 대안을 설명해주세요
[ ] - 빡세게 동작하고 있는 MySQL을 백업뜨기 위해서는 어떤 방법이 필요할까요?

목차로 이동

데이터 시각화

[x] - 네트워크 관계를 시각화해야 할 경우 어떻게 해야할까요?
[ ] - Tableau같은 BI Tool은 어느 경우 도입하면 좋을까요?
[ ] - "신규/재방문자별 지역별(혹은 일별) 방문자수와 구매전환율"이나 "고객등급별 최근방문일별 고객수와 평균구매금액"와 같이 4가지 이상의 정보를 시각화하는 가장 좋은 방법을 추천해주세요
[ ] - 구매에 영향을 주는 요소의 발견을 위한 관점에서, 개인에 대한 쇼핑몰 웹 활동의 시계열 데이터를 효과적으로 시각화하기 위한 방법은 무엇일까요? 표현되어야 하는 정보(feature)는 어떤 것일까요? 실제시 어떤 것이 가장 고민될까요?
[x] - 파이차트는 왜 구릴까요? 언제 구린가요? 안구릴때는 언제인가요?
[x] - 히스토그램의 가장 큰 문제는 무엇인가요?
[ ] - 워드클라우드는 보기엔 예쁘지만 약점이 있습니다. 어떤 약점일까요?
[ ] - 어떤 1차원값이, 데이터가 몰려있어서 직선상에 표현했을 때 보기가 쉽지 않습니다. 어떻게 해야할까요?

목차로 이동

시스템 엔지니어링

[ ] - 지속적인 Cron 작업이 필요합니다. (dependency가 있는 작업들도 존재합니다) 어떻게 작업들을 관리할까요?
[ ] - 처음 서버를 샀습니다. 어떤 보안적 조치를 먼저 하시겠습니까?
[ ] - SSH로의 brute-force attack을 막기 위해서 어떤 조치를 취하고 싶으신가요?
[ ] - 프로세스의 CPU 상태를 보기 위해 top을 했습니다. user,system,iowait중에 뭐를 제일
[ ] 신경쓰시나요? 이상적인 프로그램이라면 어떻게 저 값들이 나오고 있어야 할까요?
[ ] - iowait이 높게 나왔다면, 내가 해야하는 조치는 무엇인가요? (돈으로 해결하는 방법과 소프트웨어로 해결하는 방법을 대답해주세요)
[ ] - 동시에 10개의 컴퓨터에 라이브러리를 설치하는 일이 빈번히 발생합니다. 어떤 해결책이 있을까요?
[ ] - screen과 tmux중에 뭘 더 좋아하시나요?
[ ] - vim입니까. emacs입니까. 소속을 밝히세요.
[ ] - 가장 좋아하는 리눅스 배포판은 뭡니까. 왜죠?
[ ] - 관리하는 컴퓨터가 10대가 넘었습니다. 중요한 모니터링 지표는 뭐가 있을까요? 뭐로 하실건가요?
[ ] - GIT의 소스가 있고, 서비스 사용중인 웹서버가 10대 이상 넘게 있습니다. 어떻게 배포할건가요?

목차로 이동

분산처리

[x] - Apache Beam에 대해 아시나요? 기존 하둡과 어떤 차이가 있을까요?
[ ] - 좋게 만들어진 MapReduce는 어떤 프로그램일까요? 데이터의 Size 변화의 관점에서 설명할 수 있을까요?
[ ] - 여러 MR작업의 연쇄로 최종결과물이 나올때, 중간에 작업이 Fail날수 있습니다. 작업의 Fail은 어떻게 모니터링 하시겠습니까? 작업들간의 dependency는 어떻게 해결하시겠습니까?
[ ] - 분산환경의 JOIN은, 보통 디스크, CPU, 네트워크 중 어디에서 병목이 발생할까요? 이를 해결하기 위해 무엇을 해야 할까요?
[ ] - 암달의 법칙에 대해 말해봅시다. 그러므로 왜 shared-nothing 구조로 만들어야 하는지 설명해봅시다.
[ ] - shared-nothing 구조의 단점도 있습니다. 어떤 것이 해당할까요?
[x] - Spark이 Hadoop보다 빠른 이유를 I/O 최적화 관점에서 생각해봅시다.
[ ] - 카산드라는 망한것 같습니다. 왜 망한것 같나요? 그래도 활용처가 있다면 어디인것 같나요.
[ ] - TB 단위 이상의 기존 데이터와 시간당 GB단위의 신생 로그가 들어오는 서비스에서 모든 가입자에게 개별적으로 계산된 실시간 서비스(웹)를 제공하기 위한 시스템 구조를 구상해봅시다.
[ ] - 대용량 자료를 빠르게 lookup해야 하는 일이 있습니다. (100GB 이상, 100ms언더로 특정자료 찾기). 어떤 백엔드를 사용하시겠나요? 느린 백엔드를 사용한다면 이를 보완할 방법은 뭐가 있을까요?
[ ] - 데이터를 여러 머신으로 부터 모으기 위해 여러 선택지가 있을 수 있습니다. (flume, fluentd등) 아예 소스로부터 kafka등의 메시징 시스템을 바로 쓸 수도 있습니다. 어떤 것을 선호하시나요? 왜죠?

목차로 이동

웹 아키텍쳐

[x] - 트래픽이 몰리는 상황입니다. AWS의 ELB 세팅을 위해서 웹서버는 어떤 요건을 가져야 쉽게 autoscale가능할까요?
[ ] - 왜 Apache보다 Nginx가 성능이 좋을까요? node.js가 성능이 좋은 이유와 곁들여 설명할 수 있을까요?
[ ] - node.js는 일반적으로 빠르지만 어떤 경우에는 쓰면 안될까요?
[x] - 하나의 IP에서 여러 도메인의 HTTPS 서버를 운영할 수 있을까요? 안된다면 왜인가요? 또 이걸 해결하는 방법이 있는데 그건 뭘까요?
[ ] - 개발이 한창 진행되는 와중에도 서비스는 계속 운영되어야 합니다. 이를 가능하게 하는 상용 deploy 환경은 어떻게 구현가능한가요? WEB/WAS/DB/Cluster 각각의 영역에서 중요한 변화가 수반되는 경우에도 동작 가능한, 가장 Cost가 적은 방식을 구상하고 시나리오를 만들어봅시다.

목차로 이동

서비스 구현

[x] 크롤러를 파이썬으로 구현할 때 BeautifulSoup과 Selenium의 장단점은 무엇일까요?
[ ] - 빈번한 접속으로 우리 IP가 차단되었을 때의 해결책은? (대화로 푼다. 이런거 말구요)
[ ] - 당장 10분안에 사이트의 A/B 테스트를 하고 싶다면 어떻게 해야 할까요? 타 서비스를 써도됩니다.
[ ] - 신규 방문자와 재 방문자를 구별하여 A/B 테스트를 하고 싶다면 어떻게 해야 할까요?
[x] R의 결과물을 python으로 만든 대시보드에 넣고 싶다면 어떤 방법들이 가능할까요?
[ ] - 쇼핑몰의 상품별 노출 횟수와 클릭수를 손쉽게 수집하려면 어떻게 해야 할까요?
[ ] - 여러 웹사이트를 돌아다니는 사용자를 하나로 엮어서 보고자 합니다. 우리가 각 사이트의 웹에 우리 코드를 삽입할 수 있다고 가정할 때, 이것이 가능한가요? 가능하다면, 그 방법에는 어떤 것이 있을까요?
[ ] - 고객사 혹은 외부 서버와의 데이터 전달이 필요한 경우가 있습니다. 데이터 전달 과정에서 보안을 위해 당연히(plain text)로 전송하는 것은 안됩니다. 어떤 방법이 있을까요?

목차로 이동

대 고객 사이드

[ ] - 고객이 궁금하다고 말하는 요소가 내가 생각하기에는 중요하지 않고 다른 부분이 더 중요해 보입니다. 어떤 식으로 대화를 풀어나가야 할까요?
[ ] - 현업 카운터 파트와 자주 만나며 실패한 분석까지 같이 공유하는 경우와, 시간을 두고 멋진 결과만 공유하는 케이스에서 무엇을 선택하시겠습니까?
[ ] - 고객이 질문지 리스트를 10개를 주었습니다. 어떤 기준으로 우선순위를 정해야 할까요?
[ ] - 오프라인 데이터가 결합이 되어야 해서, 데이터의 피드백 주기가 매우 느리고 정합성도 의심되는 상황입니다. 우리가 할 수 있는 액션이나 방향 수정은 무엇일까요?
[ ] - 동시에 여러개의 A/B테스트를 돌리기엔 모수가 부족한 상황입니다. 어떻게 해야할까요?
[ ] - 고객사가 과도하게 정보성 대시보드만을 요청할 경우, 어떻게 대처해야 할까요?
[ ] - 고객사에게 위클리 리포트를 제공하고 있었는데, 금주에는 별다른 내용이 없었습니다. 어떻게 할까요?
[ ] - 카페24, 메이크샵 같은 서비스에서 데이터를 어떻게 가져오면 좋을까요?
[ ] - 기존에 같은 목적의 업무를 수행하던 조직이 있습니다. 어떻게 관계 형성을 해 나가야 할까요. 혹은 일이 되게 하기 위해서는 어떤 부분이 해소되어야 할까요.
[ ] - 인터뷰나 강의에 활용하기 위한 백데이터는 어느 수준까지 일반화 해서 사용해야 할까요?
[ ] - 고객사가 우리와 일하고 싶은데 현재는 capa가 되지 않습니다. 어떻게 대처해야 할까요?

목차로 이동

개인정보

[ ] - 어떤 정보들이 개인정보에 해당할까요? ID는 개인정보에 해당할까요? 이를 어기지 않는 합법적 방법으로 식별하고 싶으면 어떻게 해야할까요?
[ ] - 국내 개인 정보 보호 현황에 대한 견해는 어떠한지요? 만약 사업을 진행하는데 장애요소로 작용한다면, 이에 대한 해결 방안은 어떤 것이 있을까요?
[ ] - 제3자 쿠키는 왜 문제가 되나요?

목차로 이동

Reference

2021.10.01

질문지 1

크롤러를 파이썬으로 구현할 때 BeautifulSoup과 Selenium의 장단점은 무엇일까요?

Selenium은 기본적으로 크롤러 목적이 아니라 웹에서 버튼 클릭이나 스크롤 조작, 로그인 등 웹 브라우저 등을 통해 자동화 테스트에 사용하는 툴입니다.

때문에 셀레니움을 사용하면 웹 페이지에서 javascript 렌더링을 통해 생성되는 데이터들을 크롤링해오기 용이합니다.

인터넷 브라우저를 통해 크롤링을 하는 개념이라, (JS로 렌더링되는 것을 가져오기 때문에) 실제 보여지는 웹페이지의 전부를 가져올 수 있는 것이 장점이고, 디버깅하는 것이 상대적으로 직관적입니다.

하지만 웹 브라우저를 실제로 실행시키는 방법이기 때문에 속도도 많이 느리고, (실제로 단순 웹 페이지를 셀레니움을 통해 띄우는 작업 자체가 매우 느림) 메모리도 상대적으로 많이 차지합니다. (크롬이 본래 실행되면 메모리 자체를 많이 잡아먹는 것을 감안하면 이해하기가 쉽습니다)

BeautifulSoup는 서버에서 HTML, XML 등으로부터 정보를 요청받아 사용하기 때문에 서버사이드 렌더링을 사용하지 않는 SPA 사이트나, javascipt 렌더링을 필요로 하는 사이트들은 크롤링하기 어렵습니다.

실제로 작년 베트남 보건국의 코로나 정보를 실시간으로 가져와 실시간 크롤링하는 간단 프로젝트를 진행했는데, BeautifulSoup를 사용하는 프로젝트는 Angular.js로 빌드되어 있는 보건국 정보를 가져오지 못했습니다.

질문지 2

R의 결과물을 python으로 만든 대시보드에 넣고 싶다면 어떤 방법들이 가능할까요?

결과물을 실시간으로 받아야하는지 (대시보드에 실시간 정보 반영), 정기적으로 일정 간격을 두고 넣는지(시간 간격을 두고 정보 업데이트), 또는 단발성으로 넣는 상황인지에 따라 다르겠지만, 다른 프로그래밍 언어들이 서로 정보를 주고받을 때 많이 사용하는 JSON 포맷을 받아와 대시보드에 정보를 업데이트해서 사용하는 방식을 먼저 얘기할 수 있겠습니다.

(일반적으로 업무용으로 다른 개발자님들과의 해당 결과물을 기반으로 소통이 필요한 상황이 발생할 수 있기 때문에 클라우드에 배포해서 작업 문서에 배포한 경로의 URI를 기록해놓으면 업무 효율성에 도움이 될 것 같습니다)

이 경우, R에서 만든 결과물을 클라우드 상에 배포해서 JSON 파일 포맷이 담긴 오브젝트 스토리지에 객체 아이디로 접근하는 것도 한 가지 방법이 될 수 있고, REST API 규칙에 따라 별도의 접근 경로를 생성해서 접근하는 방식도 가능할 것입니다.

회사에서 정한 규칙에 따라 접근하는 방식은 달라질 수 있고, R과 파이썬은 공통적으로 CSV 파일을 받아 데이터 분석 작업을 수행하는 것이 가능하기 때문에 R의 결과물을 CSV 파일로 변환해서 이 정보를 대시보드에 업로드하는 것도 방법이 될 수 있을 것입니다.

질문지 3

하나의 IP에서 여러 도메인의 HTTPS 서버를 운영할 수 있을까요? 안된다면 왜인가요? 또 이걸 해결하는 방법이 있는데 그건 뭘까요?

기본적으로 하나의 IP에서 여러 도메인의 HTTPS 서버를 매핑하는 것도 가능하고, 그 반대인 하나의 HTTPS 서버에 여러개의 IP를 매핑하는 것도 가능한 것으로 알고 있습니다. (IP의 1:N 또는 N:1 매핑)

그러나 대부분의 서비스에서 후자를 선택하는 것으로 알고 있고, 그 사실은 nslookup이라는 name server 를 확인하는 명령어를 터미널에 입력하면 일정 간격으로 하나의 도메인에 연결된 IP 주소가 꾸준히 변경되는 것을 볼 수 있습니다.

또한 이러한 엔드 포인트를 IP가 아닌 도메인을 사용하는 이유는 사람들이 접속해서 사용하려는 서비스가 무엇인지 더 직관적으로 이해할 수 있으며 사용자로부터 IP 주소를 은폐하는 것이 쉬워집니다.

하나의 IP에서 여러 도메인의 HTTPS 서버를 매핑하는 상황을 사용하지 않는 가장 큰 이유는 여러대의 HTTPS 서버에서 IP에 과부하가 걸릴 정도로 많은 양의 트래픽이 쏟아지면, 이를 하나의 IP로 감당하기가 어렵고 무엇보다 여러 도메인이 하나의 IP를 계속 점유하고 있으면 한정된 자원의 IP를 유동적으로 사용하기 어렵다는 단점이 존재합니다.

따라서 서비스의 발전이 하나의 HTTPS 서버에 여러 IP가 매핑되는 방식으로 발전했으며 HTTPS 서버에 트래픽이 몰리면 이를 여러 IP가 분산 처리하는 방식이 현재 웹 아키텍처에 자리잡은 것으로 이해하고 있습니다.

질문지 4

구글의 BigQuery, AWS의 Redshift는 기존 RDB와 무슨 차이가 있을까요? 왜 빠를까요?

기존의 RDB에서 대량의 데이터를 처리할 때 병목 현상(Bottle Neck)이 발생하는 부분은 디스크의 I/O (디스크가 데이터를 읽어들이는 부분)이며 이를 해결하기 위해 고속으로 데이터를 처리하기 위한 아키텍처로 분산 파일 시스템 (Distributed File System)이 고안되었습니다.

여러대의 디스크에 분산해서 저장하고 각 디스크에서 동시에 데이터를 읽어들이면 고속으로 대량의 데이터 처리를 진행할 수 있습니다.

AWS Redshift는 이러한 기존 RDB의 문제를 보완해서 출시된 분산 병렬 RDB이며, 기존 RDB와의 호환성을 갖고 있어 (예를 들어, PostgreSQL 등) 기존 RDB 클라이언트 (MySQL Workbench, psql 등)으로 접속할 수 있는 장점이 있습니다.

단점은 성능 튜닝이나 비용 감소를 위해 최적의 노드 수와 스펙을 예측해서 인스턴스를 실행하고 종료해야하는데 굉장히 전문적인 지식이 필요해 이를 전문적으로 관리할 수 있는 인재가 필요합니다.

마지막으로 빅쿼리는 redshift와 거의 비슷하지만, 인스턴스 노드를 직접 관리할 필요가 없으며, 읽어들인 데이터 양에 대해 비용을 청구합니다.

질문지 5

One Hot 인코딩에 대해 설명해주세요

원-핫 인코딩은 자연어 처리를 위해 문자를 숫자로 바꾸는 기법 중 하나로 단어 집합의 크기를 벡터의 차원으로 하고, 표현하고 싶은 단어의 인덱스에 1의 값을 부여하고, 다른 인덱스에는 0을 부여하는 단어의 벡터 표현 방식입니다.

이렇게 표현된 벡터를 원-핫 벡터(One-Hot vector)라고 하며

각 단어에 고유한 인덱스를 부여하고 (정수로 표현)

표현하고 싶은 단어의 인덱스의 위치에 1을 부여하고, 다른 단어의 인덱스의 위치에는 0을 부여하는 방식으로 진행합니다.

처음 배울 때 자연어 부분을 학습하면서 접했지만, 이미지 등의 라벨링 작업을 진행할 때도 종종 활용되는 것을 볼 수 있고 케라스와 사이킷런에도 관련 모듈이 있어 간단하게 활용해 본 경험이 있습니다.

2021.10.02

질문지 1

L1, L2 정규화에 대해 설명해주세요

L1, L2 규제 또는 정규화는 가중치의 값이 커지지 않도록 제한하는 기법입니다.

가중치를 적절하게 규제하면 성능이 올라가는데, 이는 모델이 몇 개의 데이터에 집착해서 새로운 데이터에 적응하지 못하는 상황을 막아 모델이 일반화 되기 쉽게끔 조절하기 때문입니다.

L1 규제는 다음과 같이 표현하고, 가중치의 크기에 상관없이 미분했을 때 최적화 시점에 상수 값을 빼기 때문에 불필요한 가중치를 0으로 만들 수 있어 중요한 가중치만을 취합하는 모델에 적합합니다.

반대로 L2 규제는 L1 규제의 제곱 값의 합을 제곱근 처리해주며, 미분 했을 때 가중치 값이 포함되어 가중치를 완전히 0으로 만들지 않습니다.

즉, 가중치를 0으로 만들어 불필요한 특성을 제외해 모델의 복잡도를 떨어뜨리는 L1 규제의 특성을 보완해 사용할 수 있는 특징을 갖고 있습니다.

질문지 2

Spark이 Hadoop보다 빠른 이유를 I/O 최적화 관점에서 생각해봅시다.

Hadoop을 사용하면 분산형 파일 시스템인 Map Reduce 방식을 이용한 분산 실행을 처리하고, 데이터를 단계적 처리 절차를 밟으면서 work flow를 구성하는데 이 과정에서 Disk I/O가 반복 작업으로 실행되면서 매우 느려집니다.

Spark는 여기서 데이터를 단계적 처리 절차를 반복적으로 실행해주기보다 In-Memory 방식으로 모든 데이터 운영을 실시간에 가깝게 처리해주면서 최대 100배까지 네트워크와 Disk I/O 속도 면에서 Hadoop보다 빠른 연산을 보여준다고 알고 있습니다. 그러나 hadoop의 경우 분산 데이터 인프라스트럭처로써 대량의 데이터를 서버 클러스터 내의 여러 노드에 분산시키는 역할을 담당한다면, Spark는 이러한 분산형 데이터 컬렉션 상부에서 동작하는 데이터 프로세싱 툴이며, 분산형 스토리지로서 역할은 수행하지 않습니다.

질문지 3

파이차트는 왜 구릴까요? 언제 구린가요? 안구릴때는 언제인가요?

학교에서 데이터 과학 수업을 수강할 때도 그랬고, 대시보드 설계와 데이터 시각화라는 책에도 언급되어 있는데 파이차트는 전달하고자 하는 데이터의 시각적 모호함 때문에 잘 사용되지 않는다는 것으로 알고 있습니다.

파이차트에서 표현하고자 하는 데이터들의 크기가 비슷할 때, 데이터 수치를 명확하게 포함시키지 못할 경우 각 파이에 대한 명문화된 설명이 함께 포함되어 있지 않으면 시각화에 치중해 잘못된 정보를 제공할 수도 있는 것이 단점으로 꼽을 수 있습니다.

이 단점을 보완해서 파이 차트에 명확한 수치를 포함시켜주면, 충분한 시각화 자료로 활용할 수 있을 것으로 보입니다.

질문지 4

딥러닝은 무엇인가요? 딥러닝과 머신러닝의 차이는?

딥러닝은 머신러닝에 포함되는 기술 중 하나로 인공 신경망이라는 알고리즘을 골자로 만들어진 기계의 데이터 학습 방법입니다.

다만, 딥러닝은 더 복잡한 문제를 해결하기 위해 인공 신경망을 다양하게 쌓아갈 수 있으며 사람의 뇌에 있는 뉴런처럼 자극을 받으면 다음 뉴런으로 자극을 전달하는 과정과 비슷해 이와 같은 이름이 붙었습니다.

머신러닝에서 세부적인 기술 분야 중 하나로 딥러닝이 존재하는 것이며 데이터의 규칙을 스스로 찾아가는 과정을 학습하는 것이 머신러닝이라 받아들이면 될 것 같습니다.

질문지 5

Cross Validation은 무엇이고 어떻게 해야하나요?

전체 데이터가 많지 않고, 검증 데이터 세트를 분리하느라 훈련 데이터가 줄어들어 모델을 훈련시키는 데이터가 부족한 상황이 있습니다.

이러한 경우, 훈련 세트를 "폴드"라는 작은 데이터 단위로 나누고 각 작은 덩어리를 한 번의 검증데이터로 사용하고 나머지 데이터를 훈련용 데이터로 활용하는 것이 가능합니다.

이렇게 활용하면 기존의 훈련 데이터 보다 더 많은 데이터로 훈련이 가능하며, 저의 경우 사이킷런의 K-Fold 모듈과 cross_validation 모듈을 사용해서 간단한 모델을 구현한 경험이 있습니다.

프로그래머스에서 제공하는 미술 작품 분류하기 과제가 그 예시인데 이미지 분류 모델을 만들기 위해 주어진 데이터가 1698장 밖에 안되서 K-Fold를 사용해 더 많은 데이터로의 훈련을 고려하고 적용한 상황이었습니다.

질문지 6

네트워크 관계를 시각화해야 할 경우 어떻게 해야할까요?

1. IF 언급한 네트워크 시각화가 클라우드 상의 가상 머신들의 IP 상태 (Public / Private), 가상 라우터 & 스위치 등을 언급하는 것이라면

제가 오픈스택이라는 인프라 구축 오픈 소스 프로젝트를 참여할 때, 오픈스택에서는 배포한 서비스에서 네트워크 토폴로지라는 인스턴스간의 연결 상태를 표기하는 시각화 페이지를 별도로 제공했습니다.

네트워크에 대해 많은 것을 다룬 것은 아니지만 가상 라우터와 가상 스위치, 그리고 인스턴스에 할당된 공인 & 사설 IP 등의 연결관계를 표현할 때 토폴로지를 사용했는데 시각화에 이러한 토폴로지를 활용하면 네트워크 간의 관계를 명확히 이해하는데 도움이 될 것 같습니다.

2. IF 인터넷 네트워크 망이 아니라 데이터를 네트워크 그래프 형태로 표기하고 싶은 것이라면

데이터를 노드와 엣지 형태로 구성하기 위해 R, Python 등에서는 이러한 그래프 시각화를 위해 Grephi, Network X와 같은 시각화 모듈을 제공하는 것으로 알고 있습니다.

어떤 데이터의 네트워크 관계 시각화를 표기하는지에 대해 구체적인 질문이 더 필요하겠지만, 노드와 엣지를 기반으로 각 노드 간의 관계성은 어느 정도로 강한지, 그리고 어떤 카테고리 등에 속하는지를 종합적으로 판단해 시각화할 필요성이 있습니다.

질문지 7

PostgreSQL의 장점은 무엇일까요?

MySQL 등에 비해 표준 SQL 문법을 잘 지키는 것으로 알려져 있고, SQL With 구문 등 분석에 필수적으로 필요한 문법 등이 모두 구현되어 있습니다.

빅쿼리나 Redshift 만큼 큰 데이터를 다루기에는 상대적으로 어렵지만 사용된지 오래된 만큼 안정성이 보장되고 확장 기능이 많아 사용자가 편리하게 사용할 수 있는 것으로 알려져 있습니다. 또한 오픈 소스 프로젝트이기 때문에 상용 서비스로 사용할 때 기업 입장에서 유료 DBMS에 지불해야하는 라이센스 비용을 아낄 수 있기 때문에 상업적인 지원도 뛰어나며, 커뮤니티 등에 잘 정리된 문서가 많아 편리성이 좋은 것으로 알고 있습니다.

질문지 8

왜 갑자기 딥러닝이 부흥했을까요?

딥러닝 기술이 한 번에 등장한 것으로 보일 수 있지만, 저는 딥러닝이 부흥했던 순간을 생생하게 기억하던 것이 2016년 알파고와 이세돌의 대국을 군대에서 봤고, 이 때 전 세계 사람들에 알려지면서 라는 것을 알고 있습니다.

무엇보다 앞선 딥러닝이 무엇이냐는 질문에 대한 답변으로 보다 복잡한 문제를 해결하는 알고리즘이라 얘기했습니다.

딥러닝은 이미지, 음성, 텍스트 등에 대한 인지 등에 대한 우리의 일상 생활에 자리 잡은 일들에서 문제를 해결할 수 있을 것이란 기대감, 그리고 빅데이터 시대에서 쏟아지는 데이터를 종합 & 분석하면서 학습에 이용할 수 있다는 전망으로 급격히 발전하는 것으로 알고 있습니다.

질문지 9

missing value가 있을 경우 채워야 할까요? 그 이유는 무엇인가요?

주어진 데이터셋에 missing value(이하 누락값)이 있다면 적절한 값으로 채워주는 것이 중요합니다.

그 이유는 캐글 등의 데이터 경진대회에서 제공하는 데이터 셋에 많은 경우 이러한 누락 값이 있는 것을 볼 수 있는데, 이는 모델을 만드는 과정에서 모델에 제대로 된 학습을 진행하는데 방해하는 요소가 될 수 있을 뿐더러 데이터를 시각화해서 데이터 탐색을 진행하는 과정에서도 사람에게 잘못된 정보를 제공할 수 있기 때문입니다.

이 누락 값을 채우는 것은 방법은 데이터의 특성에 따라 다르겠지만, 특정 값이나 평균, 중앙값, 횟수 등으로 채우는 것을 할 수 있으며 문자 등으로 치환하고 그 문자를 라벨링을 위해 숫자로 변경하는 작업 등도 포함이 될 것으로 보입니다.

질문지 10

평균(mean)과 중앙값(median)중에 어떤 케이스에서 뭐를 써야할까요?

주어진 데이터를 KDE나 히스토그램 등으로 시각화 했을 때 대칭을 이룬다면 (skewed 되어 있지 않다면) 그 데이터를 대표하는 값으로 평균 값을 사용하는 게 좋을 수 있습니다.

그러나 현실의 많은 상황에서 데이터가 대칭을 이루는 경우는 찾기 힘들고, 이 때 평균과 중앙값을 구하면 차이가 많이 나는 것을 볼 수 있습니다.

평균과 중앙값 모두 데이터의 중심이 되는 위치를 찾기 위한 목적으로 활용되지만 한쪽으로 치우처진 극단적인 값이 많은 경우 중앙값을, 전체 데이터의 균등한 분포가 되어 있는 경우 평균을 사용한다고 이해하면 좋을 것 같습니다.

2021.10.03

질문지 1

트래픽이 몰리는 상황입니다. AWS의 ELB 세팅을 위해서 웹서버는 어떤 요건을 가져야 쉽게 autoscale가능할까요?

일반적으로 ELB를 사용해서 배포하면 autoscaling이 자동으로 함께 설정되는 것으로 알고 있습니다.

아래와 같은 ELB 구조를 볼 때, auto scaling 구조 밖에서 로드 밸런서가 설정되어 있어야 각 인스턴스로 원활하게 트래픽이 분산되어 서버 운영이 될 수 있을 것으로 보입니다.

질문지 2

히스토그램의 가장 큰 문제는 무엇인가요?

대량의 데이터를 한 번에 보여줄 수 있기 때문에 데이터의 전반적인 추세에 대한 시각화 정보를 제공하는 것은 뛰어나지만, 이는 반대로 말하면 데이터의 세부 정보에 대해서는 정확한 정보를 제공하지 못한다는 것을 의미합니다.

또한 연속적인 데이터일 때 데이터의 전반적인 정보를 제공하는 것이 가능하며, 두개의 데이터를 두고 비교하는 것에 사용하기에는 적절하지 못합니다.

질문지 3

RNN에 대해 설명해주세요

질문지 4

Cost Function과 Activation Function은 무엇인가요?

비용함수란 실제 목표값과 모델의 결과로 만들어진 예측값의 오차를 산출하는 함수이며, Activation Function란 어떠한 신호를 입력받아 이를 적절한 처리를 하여 출력해주는 함수입니다. 이를 통해 출력된 신호가 다음 단계에서 활성화 되는지를 결정하는 용도로 사용됩니다.

질문지 5

알고있는 Activation Function에 대해 알려주세요. (Sigmoid, ReLU, LeakyReLU, Tanh 등)

질문지 6

Local Minima와 Global Minima에 대해 설명해주세요.

Local Minima는 경사하강법을 사용할 때 경사도가 0이지만 최소점은 아닌 지점을 의미하고(즉, 그래프 상에 최소 지점은 따로 있음), Global Minima는 경사하강법을 사용할 때 경사도가 0이고 최소점인 지점을 의미합니다.

질문지 7

Residual Network는 왜 잘될까요? Ensemble과 관련되어 있을까요?

질문지 8

Fully Connected Layer의 기능은 무엇인가요?

입력층과 은닉층, 은닉층과 출력층이 모두 연결되어 있기 때문에 완전 연결 신경망이라고도 하며 가장 기본적인 신경망이라고 구글링을 하면 언급되어 있습니다.

뉴런들이 빠짐없이 연결되어 있으며, 이는 데이터 흐름이 순환되는 순환신경망(RNN), 정방향으로 흐르지만 뉴런들이 완전히 연결되어 있지 않은 합성곱 신경망 등과 분리되는 특징을 갖고 있습니다.

이를 CNN에 활용하게 된다면, 결과 값이 나오는 부분을 직렬화시켜 데이터의 비선형적인 feature들을 비용을 감소하는 방식으로 연결한다는 특징을 갖고 있습니다.

질문지 9 (통계 내용이라 이해 못하는 개념들이 좀 있다)

요즘같은 빅데이터(?)시대에는 정규성 테스트가 의미 없다는 주장이 있습니다. 맞을까요?

통계에서는 모집단에 대해 실질적인 전수조사가 어려워 표본을 추출하여 표분 집단의 모수적 특징을 통해 모집단의 모수적 특징을 파악하는데요.

이때, 많은 통계적 추론들이 모집단의 데이터가 정규분포를 따른다고 가정하기 때문에 정규성 검정을 통해 정규분포를 따르는지 확인해야합니다

그러나, 데이터가 많게 되면 충분한 수의 샘플을 뽑을 수 있고, 이때 중심극한 정리에 따라 표본 평균들의 분포가 정규 분포를 따르기 때문에 정규성 검정을 생각할 수 있게 되기 때문에 마냥 의미가 없다고 보기에는 무리가 있을 것 같습니다.

질문지 10

Gradient Descent에 대해서 쉽게 설명한다면?

딥러닝을 학습하면서 Gradient Descent에 대해 여러 기법이 언급되고, 한국어로 번역하면 경사 하강법이라고 할 수 있는데요.

기본적으로는 모델의 학습을 최적화하기 위해 학습의 손실이 최소화되는 지점을 찾는 것이고(즉, 학습의 최적화 지점을 찾는 것), 함수의 기울기를 구하고 경사의 절댓값이 낮은 쪽으로 계속 이동시켜 극값에 이를 때까지 반복시키는 작업입니다.

정확성을 위해서 극값으로 이동함에 있어 매우 많은 단계를 거쳐야하며, 주어진 함수에서의 곡률(== 경사)에 따라서 거의 같은 위치에서 시작했음에도 불구하고 완전히 다른 결과로 이어질 수 있습니다.

데이터 포맷 (다음 날 인터뷰 질문 작성용)

2021.10.04

질문지 1

요즘 Sigmoid 보다 ReLU를 많이 쓰는데 그 이유는?

Sigmoid 함수를 활성 함수로 사용할 경우, 출력되는 활성화 값이 0이 아닌 일정한 값 (0.1, 0.003 등)이 나오는데 값이 아무리 작더라도 가중치와 곱셈을 진행할 경우 그 연산이 딥러닝에 적용할 경우, 레이어가 늘어날 때마다 연산 횟수는 기하급수적으로 증가하고, 활성화 값은 0에 가까워지면서 업데이트 되는 값의 연산이 매우 복잡해지게 됩니다.

이러한 문제를 relu함수를 도입하면 많은 부분 해결할 수 있으며 0보다 작은 값은 모두 0으로 출력하면서 딥러닝에서 연산을 복잡하게 만드는 것을 해소할 수 있으며, sigmoid 함수보다 비용이 저렴다하는 특징을 갖습니다.

마지막으로 relu 함수는 비선형적인 특징을 갖는데, 데이터의 복잡도가 높아지고 차원이 높아지게 되면 데이터의 분포는 단순히 선형 형태가 아닌 비 선형 형태(Non-Linearity)를 가지게 되면서 relu함수가 상대적으로 네트워크의 표현력을 잘 반영한다는 것을 보여줍니다.

질문지 2

Validation 세트가 따로 있는 이유는?

테스트 세트로 모델을 튜닝하는 경우, 테스트 세트에서만 성능이 좋아진다는 단점 때문에 실전에서 사용하기 어렵고 이를 비유하자면 "수험생에게 정답을 주고 문제를 풀라고 하는 상황" 과 동일합니다.

결과적으로 모델의 일반화 성능을 저하시키며 모델의 성능 점수 측정을 목표로 사용하기 위한 데이터 셋을 훈련 데이터에서 분류하는데 이것이 검증 데이터 입니다.

질문지 3

Back Propagation에 대해서 쉽게 설명 한다면?

역전파란 말 그대로 역 방향으로 값을 전달하는 방법인데요, 이는 딥러닝에서 입력층에 대해 원하는 값이 출력되도록 개개의 가중치를 조정하는 방법으로 사용되며, 속도는 느리지만 안정적인 결과를 얻을 수 있는 장점이 있어 기계 학습에 널리 사용되고 있습니다.

질문지 4

SGD에서 Stochastic의 의미는?

SGD에서 Stochastic의 의미는 "확률적"으로 해석할 수 있으며, 추출한 데이터 한 개에 대해 기울기를 계산하고 경사 하강법을 적용하는 기법을 의미합니다.

전체 데이터를 사용하는 것이 아니라, 랜덤하게 추출한 일부 데이터를 사용하는 것이기 때문에 학습 중간 과정에서 결과의 진폭이 크고 불안정하며, 속도가 매우 빠르다.

예를 들어, 데이터 샘플이 365개이고 epoch이 100회라고 한다면, 확률적 경사 하강법은 각 데이터 샘플 한 개에 대해 기울기를 계산하므로 총 36500회의 가중치 업데이트가 진행되게 됩니다.

질문지 5

Dropout의 효과는?

Dropout이란 네트워크의 유닛의 일부만 동작하고 일부는 동작하지 않도록 하는 방법으로 모델이 훈련용 데이터에 과적합되는 상황을 방지하기 위한 기법으로 사용됩니다.

네트워크를 학습하는 동안 랜덤하게 일부 뉴런이 동작하는 것을 생략해버리면 뉴런의 조합만큼 지수 함수적으로 다양한 모델을 학습시키는 것과 같은 효과를 가져올 수 있습니다.

2021.10.05

질문지 1

오버피팅일 경우 어떻게 대처해야 할까요?

학습 데이터에 모델이 오버피팅되는 상황은 모델의 성능을 떨어트리는 주요 이슈로써 모델이 과적합되면 훈련 데이터에 대한 정확도는 높을지라도, 새로운 데이터, 즉, 검증 데이터나 테스트 데이터에 대해서는 제대로 동작하지 않을 것입니다.

이는 모델이 학습 데이터를 불필요할정도로 과하게 암기하여 훈련 데이터에 포함된 노이즈까지 학습한 상태라고 봐야하는데요.

이를 해결하기 위해 4가지 방법을 일반적으로 적용한다고 배웠습니다.

Data Augmentation

모델의 복잡도 줄이기

가중치 규제 적용

드롭아웃

가중치를 규제하는 L1, L2 규제 방법과 드롭아웃은 위의 면접 질문들에서 답변했기 때문에 패스하고, 모델의 복잡도는 은닉층의 수나 매개변수의 수 등이 영향을 줄 수 있기 때문에 은닉층의 갯수를 줄여주는 것도 하나의 방법이 될 수 있습니다.

그리고 데이터가 적어서 몇 몇 샘플 데이터의 특징에 과하게 학습이 된 경우, 의도적으로 기존 데이터를 수정하거나 추가할 수 있는데 이 기법이 data augmentation이라고 할 수 있겠습니다.

질문지 2

하이퍼 파라미터는 무엇인가요?

모델을 튜닝하는데 있어서 사용자가 직접 설정하는 값들로 optimizer의 learning rate나 손실함수, 미니 배치의 크기나 epoch, 그리고 가중치 초기화 등을 언급할 수 있고 그 외에도 모델링을하는데 사용자가 직접 설정하는 모든 것들을 지칭한다고 볼 수 있을 것 같습니다.

질문지 3

Weight Initialization 방법에 대해 말해주세요. 그리고 무엇을 많이 사용하나요?

가중치를 초기화한다는 것은 모델이 학습을 잘 할 수 있도록 학습이 시작하는 지점을 사용자가 지정해주는 것을 의미합니다.

이 때, 가중치를 초기화하는 방법은 0으로 모두 초기화시키는 방법도 있지만, 이는 역전파를 적용하면 가중치가 모두 같은 값으로 변경되기 때문에 여러개의 노드로 신경망을 구축하는 것의 의미가 사라집니다 (1로 초기화하는 경우도 마찬가지)

이를 위해 코세라 학습을 할 때 랜덤, xavier 또는 he 가중치 초기화라는 것을 배웠는데 아직 어떤 가중치 초기화 방법을 많이 사용해 본 것은 아니지만 보편적으로 he 초기화가 많이 쓰이는데 relu 활성함수를 보편적으로 많이 채택하는 최근 모델링 특성을 반영한 것으로 보이고 은닉층의 깊이가 커지더라도 활성화 값이 일정하게 유지되는 특성 때문에 많이 사용되는 것으로 보입니다.

질문지 4

Apache Beam에 대해 아시나요? 기존 하둡과 어떤 차이가 있을까요?

GCP 데이터 엔지니어 자격증을 학습하면서 아파치 빔에 대해 간략하게 설명을 들었습니다.

데이터 파이프라인용 오픈소스 프로그래밍 모델로 대량의 이미지를 동적으로 더 빨리 처리해주기 위해 cloud dataflow에 적용된 프로젝트로 알고 있습니다.

아파치 빔과 하둡 모두 맵 리듀스를 사용한다는 점에서는 공통점이 있을 수 있지만, 아파치 빔은 배치나 실시간성에 상관없이 여러 데이터 엔진을 단일한 API로 쓰게 하고, 단일 코드와 클러스터를 기반으로 운영하게 함으로써 개발자의 생산성을 높여주는 특성을 갖고 있고, 하둡은 데이터의 분산 처리 인프라스트럭처로 이해하는 방향이 차이가 있는 것으로 보입니다.

질문지 5

Back Propagation은 몇줄인가?

아래의 코드와 같이 다중 신경망의 오차 역전파를 간단하게 코딩해본다면 하나의 함수로 6줄 정도로 코딩이 가능할 것으로 보입니다.

    def backprop(self, x, err):

        m = len(x)

        dw = np.dot(self.a.T, err) / m # 활성 함수 결과값을 반영한 가중치 미분값 도출

        db = np.sum(err) / m # 절편 미분값 도출

        err_to_hidden = np.dot(err, self.w.T) * self.a * (1 - self.a) # 은닉층의 오차율 계산

        return dw, db

RyanKor / 2021-google-ml-bootcamp

[Interview] 하루에 5개씩 답변 준비하는 데이터 사이언티스트 면접 질문지 모음 #28

Contents

공통 질문

프로젝트

통계 및 수학

분석 일반

머신러닝

딥러닝

딥러닝 일반

컴퓨터 비전

자연어 처리

강화학습

GAN

추천 시스템

데이터베이스

데이터 시각화

시스템 엔지니어링

분산처리

웹 아키텍쳐

서비스 구현

대 고객 사이드

개인정보

Reference

2021.10.01

질문지 1

크롤러를 파이썬으로 구현할 때 BeautifulSoup과 Selenium의 장단점은 무엇일까요?

질문지 2

R의 결과물을 python으로 만든 대시보드에 넣고 싶다면 어떤 방법들이 가능할까요?

질문지 3

하나의 IP에서 여러 도메인의 HTTPS 서버를 운영할 수 있을까요? 안된다면 왜인가요? 또 이걸 해결하는 방법이 있는데 그건 뭘까요?

질문지 4

구글의 BigQuery, AWS의 Redshift는 기존 RDB와 무슨 차이가 있을까요? 왜 빠를까요?

질문지 5

One Hot 인코딩에 대해 설명해주세요

2021.10.02

질문지 1

L1, L2 정규화에 대해 설명해주세요

질문지 2

Spark이 Hadoop보다 빠른 이유를 I/O 최적화 관점에서 생각해봅시다.

질문지 3

파이차트는 왜 구릴까요? 언제 구린가요? 안구릴때는 언제인가요?

질문지 4

딥러닝은 무엇인가요? 딥러닝과 머신러닝의 차이는?

질문지 5

Cross Validation은 무엇이고 어떻게 해야하나요?

질문지 6

네트워크 관계를 시각화해야 할 경우 어떻게 해야할까요?

1. IF 언급한 네트워크 시각화가 클라우드 상의 가상 머신들의 IP 상태 (Public / Private), 가상 라우터 & 스위치 등을 언급하는 것이라면

2. IF 인터넷 네트워크 망이 아니라 데이터를 네트워크 그래프 형태로 표기하고 싶은 것이라면

질문지 7

PostgreSQL의 장점은 무엇일까요?

질문지 8

왜 갑자기 딥러닝이 부흥했을까요?

질문지 9

missing value가 있을 경우 채워야 할까요? 그 이유는 무엇인가요?

질문지 10

평균(mean)과 중앙값(median)중에 어떤 케이스에서 뭐를 써야할까요?

2021.10.03

질문지 1

트래픽이 몰리는 상황입니다. AWS의 ELB 세팅을 위해서 웹서버는 어떤 요건을 가져야 쉽게 autoscale가능할까요?

질문지 2

히스토그램의 가장 큰 문제는 무엇인가요?

질문지 3

RNN에 대해 설명해주세요

질문지 4

Cost Function과 Activation Function은 무엇인가요?

질문지 5

알고있는 Activation Function에 대해 알려주세요. (Sigmoid, ReLU, LeakyReLU, Tanh 등)

질문지 6

Local Minima와 Global Minima에 대해 설명해주세요.

질문지 7

Residual Network는 왜 잘될까요? Ensemble과 관련되어 있을까요?

질문지 8

Fully Connected Layer의 기능은 무엇인가요?

질문지 9 (통계 내용이라 이해 못하는 개념들이 좀 있다)

요즘같은 빅데이터(?)시대에는 정규성 테스트가 의미 없다는 주장이 있습니다. 맞을까요?

질문지 10

Gradient Descent에 대해서 쉽게 설명한다면?

2021.10.04