Phase01-Introduction to machine learning-A.Soltan

arminsoltan commented 3 years ago

[x] Section 0: Install Anaconda and Jupyter Notebook
[x] Section 1: Regression
- [x] Boston Housing EDA
- [x] Do coding for Linear Regression using sk-learn
- [x] Answer this: How Linear Regression learns? [FILL HERE WITH RIGHT ANSWERS]
[x] Section 2: Classification
- [x] Logistic Regression
- [x] pima-indians-diabetes-database EDA
- [x] Model training
- [x] Answer this: what is similarity and difference of Logistic and Linear Regression? [FILL HERE WITH RIGHT ANSWERS]
- [x] KNN
- [x] KNN regression
- [x] KNN classification
- [x] Answer this: what is the main idea of KNN? [FILL HERE WITH RIGHT ANSWERS]
- [x] Answer this: is KNN good for large data? why? [FILL HERE WITH RIGHT ANSWERS]
- [x] SVM
- [x] SVM regression
- [x] SVM classification
- [x] Answer this: what is the main idea of SVM? [FILL HERE WITH RIGHT ANSWERS]
- [x] Decision Tree
- [x] DT regression
- [x] DT classification
- [x] Answer this: Compare KNN and SVM [FILL HERE WITH RIGHT ANSWERS]
[x] Section 3: Clustering
- [x] KMeans
- [x] EDA
- [x] Train model
- [x] Answer this: what is the KMeans main idea? [FILL HERE WITH RIGHT ANSWERS]
- [x] Answer this: what is similarity and difference of KMeans and KNN? [FILL HERE WITH RIGHT ANSWERS]
[x] Section 4: Ensemble Learning
- [x] regression with ensemble learning
- [x] classification with ensemble learning
[x] Section 5: Model comparison
- [x] Regression models comparison
- [x] Classification models comparison

arminsoltan commented 3 years ago

How Linear Regression learns? هدف رگرسیون خطی مینیمم کردن مربعات خطا می باشد حال شاید این سوال پیش بیاید که چرا ما قدر مطلق خطا را مینیمم نمی کنیم؟ جواب این سوال را در میتوان اینطور داد که در میانگین مربعات خطی خطی که به مدل برازش میدهیم در حقیقت میانگین داده های آموزش است در حالی که قدر مطلق خط میانه می باشد. پس از اینکه میانگین مربعات خطا را بدست آوردیم نسبت به هر کدام از این ضرایب مشتق جزئی میگیریم و برابر صفر قرار می دهیم و پس از آن هر کدام از این ضرایب را برآورد می کنیم با استفاده از برآورد ضرایب داده های تست را در معادله قرار می دهیم سپس با مقدار واقعی آن ها می سنجیم برای ارزیابی از میانگین مربعات خطا استفاده میکنیم

arminsoltan commented 3 years ago

what is similarity and difference of Logistic and Linear Regression? رگرسیون لاجستیک یا سیگموئید از روی رگرسیون خطی بدست آمده است ولی چون هدف این الگوریتم کلاس بندی داده ها است به همین خاطر با اعمال کردن تابع سیگموئید برد تابع رگرسیون را به صفر و یک تبدیل کردیم و آستانه آن را بر روی ۰.۵ قرار داده شده است که اگر بالاتر از ۰.۵ قرار بگیرد در آن صورت به کلاس یک و در غیر این صورت به کلاس صفر تعلق می گیرد.

arminsoltan commented 3 years ago

what is the main idea of KNN? در این الگوریتم فاصله نقاط را با استفاده از فاصله اقلیدسی از مرکز دسته بدست می آوریم و به نزدیک نقطه که نماینده یک کلاس است وارد آن کلاس می کنیم is KNN good for large data? why? برای داده های بزرگ به علت این که باید فاصله هر نقطه تا باقی نقاط بدست بیاید مدل مناسبی نمی باشد

arminsoltan commented 3 years ago

what is the main idea of SVM? در این مدل ما میخواهیم وقتی خط رگرسیونی را برازش میدهیم بزرگترین مارجین بدست بیاید به همین خاطر این الگوریتم با نام بزرگترین مارجین هم شناخته می شود و بر اساس ضرب داخلی که همان تصویر کردن بردار ویژگی بر روی بردار پارامتر و ضرب در اندازه بردار پارامتر است بدست می آید.

arminsoltan commented 3 years ago

Compare KNN and SVM? الگوریتم نزدیک ترین همسایه می تواند مسائل پیچیده ای را کلاس بندی و حل کند ولی در عین حال زمان محاسباتی بسیار زیادی را متحمل می شود اما مشین بردار پشتیبان پیچیدگی زمانی کمتری دارد ولی نمیتواند داده های پیچیده با کلاس های زیاد را به صورت خوبی پیش بینی کند

arminsoltan commented 3 years ago

what is the KMeans main idea? ایده اصلی این الگوریتم به این صورت است که به صورت رندم چند نقطه رو به عنوان مرکز خوشه در نظر می گیرد و فاصله اقلیدسی بقیه نقاط تا مرکز آنرا بدست می آورد و دوباره نقاط مرکز دسته را بدست می آورد به طوری که جمع فاصله نقاط تا نقاط خوشه کمینه باشد و همین روند را ادامه میدهد تا دیگر نتواند بهینه کند این الگوریتم یک الگوریتم بدون ناظر است به این معنی که داده ها برچسب ندارند و صرفا بر اساس مشابهت داده ها با یکدیگر باید به یک کلاس خاص نسبت بدهند.

arminsoltan commented 3 years ago

what is similarity and difference of KMeans and KNN? از شباهت این دو الگوریتم می توان به نزدیک ترین فاصله و محاسبه آن اشاره کرد و تفاوت های آن میتوان به با ناظر بودن الگوریتم نزدیک ترین همسایه و الگوریتم دیگر بدون ناظر است یعنی داده ها برچسب ندارند .

Talkademy / AI-Internship-1400

Phase01-Introduction to machine learning-A.Soltan #47