Thuy van du bao - Split data - Githubissues

chanelcolgate / hydroelectric-project

0 stars 0 forks source link

Thuy van du bao - Split data #6

Open chanelcolgate opened 3 years ago

chanelcolgate commented 3 years ago

Description

Chúng ta sử dụng mức phân chia (70%, 20%, 10%) cho các bộ training, validation, và test. Lưu ý rằng dữ liệu không được xáo trộn một cách ngẫu nhiên trước khi tách. Đây là 2 lý do:
- Đảm bảo rằng vẫn có thể tách dữ liệu thành các window của các mẫu liên tiếp.
- Đảm bảo rằng kết quả validation / test thực tế hơn, được đánh giá dựa trên dữ liệu thu thập được sau khi mô hình được đào tạo.
  Actions
```
column_indices = {name: i for i, name in enumerate(df.columns)}
```

n = len(df) train_df = df[0:int(n0.7)] val_df = df[int(n0.7):int(n0.9)] test_df = df[int(n0.9):]

num_features = df.shape[1]


#### Estimate
#### Tests