Ưu điểm (đây là những gì mình thấy hay và học hỏi từ bạn :>):
Trình bày đẹp, bố cục dễ nhìn, dễ hiểu
Chủ động normalize output để weights không bị quá lớn
Khuyết điểm:
Chưa tính các phân vị cho các cột dạng số, các bạn có thể xài hàm describe của pandas
Sau khi explore cột numerical ra thì nên ghi thêm nhận xét đặc biệt về những cột đó, vd như cột view_type không chứa giá trị nào hay các cột parkingSpots, lotSize, tax có các giá trị bị quá xa làm cho histogram bị chụm lại một phía nên dễ có outlier trong đó chẳng hạn
Ở phần Toàn bộ quá trình xử lý sẽ được thực hiện như sau:, bạn ghi thiếu ở phần diễn giải md rằng sẽ chuẩn hóa các cột (có code nhưng quên diễn giải)
Ở phần Đối với các cột numerical sao khi loại bỏ nhiễu, mình nghĩ các bạn nên nhận xét một chút, vd như số giường càng nhiều thì khả năng giá tiền cao hơn, tương tự như các cột baths, parkingSports hay tax.
Sau khi tìm được best hyper parameter rồi thì khi các bạn train lại, nên gộp cả tập train và tập val lại để train cho mô hình tốt nhất có thể.
Đề xuất (đây chỉ là ý kiến cá nhân mình, nếu bạn thấy hợp lý thì bạn có thể thay đổi :-():
Phần Mối quan hệ giữa output và numerical columns mình nghĩ nên để vào explore data thì hợp lí hơn
Phần loại bỏ outlier, mình nghĩ bạn nên thêm giải thích cách bạn loại bỏ như thế nào để người đọc dễ hiểu
Ở phần Toàn bộ quá trình xử lý sẽ được thực hiện như sau: mình nghĩ bạn nên xài standardScaler thì tốt hơn, vì bạn xài MinMaxScale thì nó sẽ bị phụ thuộc vào min và max trên data bạn đang có, nếu khi bạn test, gặp dữ liệu nhỏ hơn, hay lớn hơn thì sẽ gặp vấn đề, thứ 2 là standardScaler có tính chất rằng cả mean bằng 0 và variance bằng 1.
PS: Sorry because I open this issue too late. I hope u and me will still be friends. From gOOd friend with luv <3
Ưu điểm (đây là những gì mình thấy hay và học hỏi từ bạn :>):
Khuyết điểm:
Toàn bộ quá trình xử lý sẽ được thực hiện như sau:
, bạn ghi thiếu ở phần diễn giải md rằng sẽ chuẩn hóa các cột (có code nhưng quên diễn giải)Đối với các cột numerical sao khi loại bỏ nhiễu
, mình nghĩ các bạn nên nhận xét một chút, vd như số giường càng nhiều thì khả năng giá tiền cao hơn, tương tự như các cột baths, parkingSports hay tax.Đề xuất (đây chỉ là ý kiến cá nhân mình, nếu bạn thấy hợp lý thì bạn có thể thay đổi :-():
numerical columns
mình nghĩ nên để vào explore data thì hợp lí hơnToàn bộ quá trình xử lý sẽ được thực hiện như sau:
mình nghĩ bạn nên xài standardScaler thì tốt hơn, vì bạn xài MinMaxScale thì nó sẽ bị phụ thuộc vào min và max trên data bạn đang có, nếu khi bạn test, gặp dữ liệu nhỏ hơn, hay lớn hơn thì sẽ gặp vấn đề, thứ 2 là standardScaler có tính chất rằng cả mean bằng 0 và variance bằng 1.PS: Sorry because I open this issue too late. I hope u and me will still be friends. From gOOd friend with luv <3