Duyvugithub / Netflix-Movie-TV-shows-Analysis

Đây là đồ án cuối kì môn Lập trình cho Khoa học Dữ liệu
0 stars 0 forks source link

Đóng góp ý kiến #1

Open Duyvugithub opened 3 years ago

PhucThanh commented 3 years ago

Tại chỗ trùng description thì mình thấy bạn xóa nhiều phiên bản của một bộ phim. Tuy nhiên mình thấy điều này là không nên. Các phiên bản phim khác nhau ở các quốc gia khác nhau có thể sẽ rất khác nhau. Nếu xóa đi là bộ dữ liệu sẽ bị mất một phim hoàn toàn. Một người ở Ấn Độ sẽ không biết rằng phim họ đang coi có phiên bản dành riêng cho nước họ.

Ngoài ra nếu tiêu chí của bạn là "Chỉ giữ 1 phiên bản của một tập phim" thì cách làm này phụ thuộc vào việc description của các tập phim phải trùng nhau. Có thể trong dữ liệu có nhiều phiên bản của một bộ phim nhưng description không giống nhau thì sao?

Trong câu hỏi 3 bạn có ghi là

"Ta thấy tháng 1 và tháng 10 có số lượng phim kinh dị nhiều hơn đáng kể so với các tháng còn lại."

Tuy nhiên nó chỉ đúng khi xét thêm năm 2020. Bỏ năm 2020 ra thì chỉ có tháng 10 mới nhiều phim kinh dị. Nếu chỉ vì 1 năm 2020 mà nói luôn cho cả tháng 1 thì mình thấy không nên.

nguyenban commented 3 years ago

Chào bạn @PhucThanh, cảm ơn những nhận xét của bạn

Về việc xóa các dòng có description trùng nhau thì nhóm mình thấy khá là hợp lý vì nhiều lý do:

Về vấn đề trong câu hỏi 3 nhóm mình sẽ chỉnh sửa lại phần nhận xét. Một lần nữa cảm ơn những góp ý của bạn :+1:

Duyvugithub commented 3 years ago

"Ngoài ra nếu tiêu chí của bạn là "Chỉ giữ 1 phiên bản của một tập phim" thì cách làm này phụ thuộc vào việc description của các tập phim phải trùng nhau. Có thể trong dữ liệu có nhiều phiên bản của một bộ phim nhưng description không giống nhau thì sao?" Với lại chỗ này thì data của tụi mình là mỗi dòng là một TV Show/ Movie riêng biệt và Description là mô tả của toàn bộ TV Show/Movie này nên sẽ không có việc description của các tập phim trùng nhau (ví dụ như Stranger Thing có 3 season nhưng mà được gom lại thành một dòng trong tập dữ liệu)

Cảm ơn vì sự đóng góp của bạn

sgrayk commented 3 years ago

Trước hết mình xin chúc mừng nhóm bạn đã có một bài phân tích khá thành công, về trực quan hóa cũng dễ hiểu, đặc biệt là giúp mình khá nhiều kiến thức về một số hàm.

Tuy nhiên thì mình có vài "hạt sạn" trong bài làm mà có lẽ các bạn sơ suất bỏ qua:

Duyvugithub commented 3 years ago

Mình trả lời câu hỏi "Lấy những thông tin phim được người dân Việt Nam ưa chuộng" mình thống kê từ các kênh truyền hình của Việt Nam như: VTV, THVL, ... một số link bạn có thể tham khảo VTV Các quốc gia mình lựa chọn là các quốc gia có tần xuất xuất hiện dày đặc trên các kênh truyền hình của Việt Nam mình

nguyenban commented 3 years ago

Mình cảm ơn những góp ý và thắc mắc của bạn @sgrayk , mình xin giải đáp như sau:

nguyenban commented 3 years ago

Mình bổ sung thêm việc bạn nói tính tit lệ thiếu của title và desciption chưa hợp lý. Mình đã xem và thấy cột title và description không có cột nào là kí tự '' hay ' ' cả. Hơn nữa nếu bạn để ý kĩ hơn thì số giá trị khác nhau của cột title là 7787, bằng với số dòng nên không có dòng nào sẽ ' ' trùng nhau cả, ở cột description có các trường hợp trùng nhau thì mình đã xử lý rồi

sgrayk commented 3 years ago

Mình trả lời câu hỏi "Lấy những thông tin phim được người dân Việt Nam ưa chuộng" mình thống kê từ các kênh truyền hình của Việt Nam như: VTV, THVL, ... một số link bạn có thể tham khảo VTV Các quốc gia mình lựa chọn là các quốc gia có tần xuất xuất hiện dày đặc trên các kênh truyền hình của Việt Nam mình

Ý mình là các bạn chẳng có đề cập trong notebook ấy. Với cả, link bạn đưa có cả Úc và Singapore, thế bạn lập danh sách theo tiêu chí nào?

sgrayk commented 3 years ago

Mình cảm ơn những góp ý và thắc mắc của bạn @sgrayk , mình xin giải đáp như sau:

  • Phần mô tả ý nghĩa cột mình giữ tiếng Anh là để giữ nguyên phần mô tả trên Kaggle, mình sẽ bổ sung thêm phần tiếng Việt bên dưới
  • Về phần xóa những phim có description giống nhau, bạn có góp ý là đưa nó vào diện đặc biệt, mình chưa hiểu đưa vào diện đặc biệt là như thế nào. Hơn nữa, như mình đã trả lời cho bạn Phúc, các phim có description giống nhau thì nhóm mình không công nhận nó là một tác phẩm mới. Khi thực hiện phân tích ở phần sau, mình có đếm theo country, rating... nếu mình giữ lại những dòng này, liệu nó có công bằng cho những phim khác?
  • Ở cột rating, mình sẽ bổ sung thêm trích dẫn của mô tả. Các trường còn lại, khi xem số giá trị khác nhau thì mình đồng ý là không có nhiều ý nghĩa. Mình làm vậy vì để thực hiện theo quy trình và yêu cầu của thầy. Nếu chuyển các trường này về dạng danh sách của chuỗi rồi mới tính số giá trị rời rạc thì sẽ làm phần này lan man và không cần thiết. Ở phần phân tích phía sau, khi phân tích các cột có thể đưa về danh sách của chuỗi thì nhóm mình mới thực hiện bước xử lý này ở đó. Mình thấy như vậy là hợp lý hơn.
  • Ý nghĩa hàm pandas.series.isin được mình sử dụng trong đoạn code trên là nếu giá trị ở cột "rating" thuộc danh sách suit_kids thì giá trị của dòng đó sẽ trả về True. Hàm này trả về một series với index là index của nmts_df và value là giá trị True/False

Theo mình hiểu thì hàm pandas.series.isin nghĩa là nếu tất cả giá trị của series đó nằm trong cái list bạn đưa, thì mình có thắc mắc là nếu có phim thuộc rating khác đồng thời có gắn mác dành cho trẻ em thì sao?

nguyenban commented 3 years ago

Mình cảm ơn những góp ý và thắc mắc của bạn @sgrayk , mình xin giải đáp như sau:

  • Phần mô tả ý nghĩa cột mình giữ tiếng Anh là để giữ nguyên phần mô tả trên Kaggle, mình sẽ bổ sung thêm phần tiếng Việt bên dưới
  • Về phần xóa những phim có description giống nhau, bạn có góp ý là đưa nó vào diện đặc biệt, mình chưa hiểu đưa vào diện đặc biệt là như thế nào. Hơn nữa, như mình đã trả lời cho bạn Phúc, các phim có description giống nhau thì nhóm mình không công nhận nó là một tác phẩm mới. Khi thực hiện phân tích ở phần sau, mình có đếm theo country, rating... nếu mình giữ lại những dòng này, liệu nó có công bằng cho những phim khác?
  • Ở cột rating, mình sẽ bổ sung thêm trích dẫn của mô tả. Các trường còn lại, khi xem số giá trị khác nhau thì mình đồng ý là không có nhiều ý nghĩa. Mình làm vậy vì để thực hiện theo quy trình và yêu cầu của thầy. Nếu chuyển các trường này về dạng danh sách của chuỗi rồi mới tính số giá trị rời rạc thì sẽ làm phần này lan man và không cần thiết. Ở phần phân tích phía sau, khi phân tích các cột có thể đưa về danh sách của chuỗi thì nhóm mình mới thực hiện bước xử lý này ở đó. Mình thấy như vậy là hợp lý hơn.
  • Ý nghĩa hàm pandas.series.isin được mình sử dụng trong đoạn code trên là nếu giá trị ở cột "rating" thuộc danh sách suit_kids thì giá trị của dòng đó sẽ trả về True. Hàm này trả về một series với index là index của nmts_df và value là giá trị True/False

Theo mình hiểu thì hàm pandas.series.isin nghĩa là nếu tất cả giá trị của series đó nằm trong cái list bạn đưa, thì mình có thắc mắc là nếu có phim thuộc rating khác đồng thời có gắn mác dành cho trẻ em thì sao?

Ý bạn là sao, mình chưa hiểu lắm. Rating khác có gán mác dành cho trẻ em là sao bạn?