HosseinZaredar / Digikala-Supercup

My Solutions for Data Science Problems in Digikala Supercup
7 stars 0 forks source link

Feature selection #1

Open Mohammadseif opened 2 years ago

Mohammadseif commented 2 years ago

سلام وقت بخیر ببخشید یه سوال 🙏 مبنای انتخاب این ستون ها چی بوده؟ آدرس فایل: https://github.com/HosseinZaredar/Digikala-Supercup/blob/main/prep/q1/1-Pre.ipynb

cat_columns = ['درگاه‌های ارتباطی', 'جنس بدنه' , 'جنس', 'اتصالات', 'سیستم عامل', 'نوع اتصال', 'رابط‌ها', 'اندازه', 'فناوری‌های ارتباطی', 'جنس کالا', 'دسته بندی', 'برند', 'نوع حافظه', 'سری پردازنده']

HosseinZaredar commented 2 years ago

سلام، وقت‌تون به خیر

این ستون‌ها به صورت دستی انتخاب شدن. ابتدا ستون‌هایی که درصد missing شون بیشتر از ۹۹ درصد بود حذف شدند. در بین ستون‌های باقی‌مونده، یه سری‌شون بوندند که داده‌شون کاملا متنی بود که اون‌ها جداگانه انتخاب شدند، و موارد بالا داده‌های categorical هستن که نهایتا ۳۰-۴۰ تا حالت مختلف داشتن و حس کردم که تاثیر بیشتری روی تعیین قیمت کالاها دارن.

گرچه، مدل خیلی خوب عمل نکرد تو این مسئله. شاید به خاطر همین انتخاب فیچرها، شاید هم به خاطر سختی train شدنش. امتیاز حدود ۳۰ از ۱۰۰ گرفت، در حالی که بهترین جواب حدود ۵۵ بود.

Mohammadseif commented 2 years ago

سلام دوباره 👋 سپاس از شما ...بهرحال نحوه حل مساله واقعا عالی بود 👌 به نظرتون برای انتخاب فیچرها تو همچین مواردی کتابخانه یا روش مناسبی وجود داره ؟ تا حالا مشابه این نوع دیتاست تو مسابقات یا پروژهای خارجی برای پیش بینی دیدید؟

HosseinZaredar commented 2 years ago

راستش تا حالا با روش سیستماتیکی برای انتخاب فیچرها کار نکردم. ولی به نظرم برای این مسئله، یه کاری که میشه کرد اینه که برای هر دسته‌بندی کالا، یه مدل جداگونه آموزش داد. در اینصورت تو هر کتگوری تقریبا مشخص عه که چه فیچرهایی می‌تونن اهمیت داشته باشن و در نتیجه انتخاب دستی ویژگی‌ها هم احتمالا کفایت کنه.