Open Mohammadseif opened 2 years ago
سلام، وقتتون به خیر
این ستونها به صورت دستی انتخاب شدن. ابتدا ستونهایی که درصد missing شون بیشتر از ۹۹ درصد بود حذف شدند. در بین ستونهای باقیمونده، یه سریشون بوندند که دادهشون کاملا متنی بود که اونها جداگانه انتخاب شدند، و موارد بالا دادههای categorical هستن که نهایتا ۳۰-۴۰ تا حالت مختلف داشتن و حس کردم که تاثیر بیشتری روی تعیین قیمت کالاها دارن.
گرچه، مدل خیلی خوب عمل نکرد تو این مسئله. شاید به خاطر همین انتخاب فیچرها، شاید هم به خاطر سختی train شدنش. امتیاز حدود ۳۰ از ۱۰۰ گرفت، در حالی که بهترین جواب حدود ۵۵ بود.
سلام دوباره 👋 سپاس از شما ...بهرحال نحوه حل مساله واقعا عالی بود 👌 به نظرتون برای انتخاب فیچرها تو همچین مواردی کتابخانه یا روش مناسبی وجود داره ؟ تا حالا مشابه این نوع دیتاست تو مسابقات یا پروژهای خارجی برای پیش بینی دیدید؟
راستش تا حالا با روش سیستماتیکی برای انتخاب فیچرها کار نکردم. ولی به نظرم برای این مسئله، یه کاری که میشه کرد اینه که برای هر دستهبندی کالا، یه مدل جداگونه آموزش داد. در اینصورت تو هر کتگوری تقریبا مشخص عه که چه فیچرهایی میتونن اهمیت داشته باشن و در نتیجه انتخاب دستی ویژگیها هم احتمالا کفایت کنه.
سلام وقت بخیر ببخشید یه سوال 🙏 مبنای انتخاب این ستون ها چی بوده؟ آدرس فایل: https://github.com/HosseinZaredar/Digikala-Supercup/blob/main/prep/q1/1-Pre.ipynb
cat_columns = ['درگاههای ارتباطی', 'جنس بدنه' , 'جنس', 'اتصالات', 'سیستم عامل', 'نوع اتصال', 'رابطها', 'اندازه', 'فناوریهای ارتباطی', 'جنس کالا', 'دسته بندی', 'برند', 'نوع حافظه', 'سری پردازنده']