Open Duyvugithub opened 3 years ago
Chào bạn @PhucThanh, cảm ơn những nhận xét của bạn
Về việc xóa các dòng có description trùng nhau thì nhóm mình thấy khá là hợp lý vì nhiều lý do:
Thứ nhất, theo như bạn nói "các phiên bản phim khác nhau ở các quốc gia khác nhau có thể sẽ rất khác nhau", thì dĩ nhiên cột description sẽ rất khác nhau, do đó việc description giống nhau là bất thường. Một ví dụ nhóm mình có thể đưa ra là phim "Intimate strangers" là bản Hàn dựa trên phim "Perfect Stranger" của Ý, hai phim có description khác nhau.
Thứ hai, nếu bạn để ý kĩ hơn thì sẽ thấy các thông tin về đạo diễn, diễn viên, quốc gia... của các phim có description giống nhau thì hầu hết giống nhau (một số trường khác nhau do có Nan) , do đó đây có thể chỉ là một phiên bản lồng tiếng theo một ngôn ngữ khác chứ không phải là một phim mới hoàn toàn. Việc giữ lại các dòng dữ liệu này khi phân tích sẽ không công bằng. Ví dụ như đạo diễn "B. V. Nandini Reddy" chỉ là đạo diễn cho phim "Oh! Baby", nếu tính cả phim "Oh! Baby (Malayalam)" và "Oh! Baby (Tamil)" là của đạo diễn này thì khi thống kê có vẻ không công bằng với các đạo diễn khác khi phim của họ chỉ có một bản ngôn ngữ.
Cuối cùng, tiêu chí "Chỉ giữ lại phiên bản của một phim" của bọn mình là chỉ dành cho phim có description trùng nhau. Còn những phim có nội dung khác nhau hay phim được remake thì nhóm mình hoàn toàn công nhận nó là một bộ phim riêng biệt nên không xử lý
Về vấn đề trong câu hỏi 3 nhóm mình sẽ chỉnh sửa lại phần nhận xét. Một lần nữa cảm ơn những góp ý của bạn :+1:
"Ngoài ra nếu tiêu chí của bạn là "Chỉ giữ 1 phiên bản của một tập phim" thì cách làm này phụ thuộc vào việc description của các tập phim phải trùng nhau. Có thể trong dữ liệu có nhiều phiên bản của một bộ phim nhưng description không giống nhau thì sao?" Với lại chỗ này thì data của tụi mình là mỗi dòng là một TV Show/ Movie riêng biệt và Description là mô tả của toàn bộ TV Show/Movie này nên sẽ không có việc description của các tập phim trùng nhau (ví dụ như Stranger Thing có 3 season nhưng mà được gom lại thành một dòng trong tập dữ liệu)
Cảm ơn vì sự đóng góp của bạn
Trước hết mình xin chúc mừng nhóm bạn đã có một bài phân tích khá thành công, về trực quan hóa cũng dễ hiểu, đặc biệt là giúp mình khá nhiều kiến thức về một số hàm.
Tuy nhiên thì mình có vài "hạt sạn" trong bài làm mà có lẽ các bạn sơ suất bỏ qua:
director
,cast
,country
,rating
,listed_in
đang có kiểu dữ liệu bên dưới là dạng danh sách nên việc các bạn để số các giá trị khác nhau như vậy khá là vô nghĩa khi có thể là chúng có cách sắp xếp khác nhau. Cột title
và cột description
có thể có giá trị là chuỗi ''
nên việc kiểm tra tỷ lệ mất mát dữ liệu có hợp lý? Đặc biệt cột rating
, các bạn bảo là Số giá trị khác nhau của cột "rating" là 14, có khác biệt so với với mô tả.
trong khi phía trên các bạn chẳng đề cập gì. Theo mình nghĩ các bạn nên tiền xử lý kỹ hơn tý nữa sẽ tốt hơn.
Description
: Ngoại trừ phim Consequences
thì các dòng dữ liệu khác các bạn không nên bỏ cho lắm mà thay vào đó là đưa nó vào diện đặc biệt. Lý do là vì đây là các dòng dữ liệu vẫn tốt và dùng được, bạn có thể dùng nó để xây dựng nhiều hệ thống như lọc và tìm phim hay phân tích các phim được tái bản chẳng hạn. Về vụ tại sao một phim có thể vừa có TV Show vừa có Movie, theo mình thì có thể vì lý do ngôn ngữ của phim để hướng tới những người dùng khác nhau, các bạn để ý là duration của TV Show là Season còn Movie là Min.pandas.Series.isin
trong trường hợp này. Mong các bạn giải đáp.
Cảm ơn các bạn đã đọc. 😉
Mình trả lời câu hỏi "Lấy những thông tin phim được người dân Việt Nam ưa chuộng" mình thống kê từ các kênh truyền hình của Việt Nam như: VTV, THVL, ... một số link bạn có thể tham khảo VTV Các quốc gia mình lựa chọn là các quốc gia có tần xuất xuất hiện dày đặc trên các kênh truyền hình của Việt Nam mình
Mình cảm ơn những góp ý và thắc mắc của bạn @sgrayk , mình xin giải đáp như sau:
pandas.series.isin
được mình sử dụng trong đoạn code trên là nếu giá trị ở cột "rating" thuộc danh sách suit_kids
thì giá trị của dòng đó sẽ trả về True. Hàm này trả về một series với index là index của nmts_df
và value là giá trị True/FalseMình bổ sung thêm việc bạn nói tính tit lệ thiếu của title và desciption chưa hợp lý. Mình đã xem và thấy cột title và description không có cột nào là kí tự ''
hay ' '
cả. Hơn nữa nếu bạn để ý kĩ hơn thì số giá trị khác nhau của cột title là 7787, bằng với số dòng nên không có dòng nào sẽ ' '
trùng nhau cả, ở cột description có các trường hợp trùng nhau thì mình đã xử lý rồi
Mình trả lời câu hỏi "Lấy những thông tin phim được người dân Việt Nam ưa chuộng" mình thống kê từ các kênh truyền hình của Việt Nam như: VTV, THVL, ... một số link bạn có thể tham khảo VTV Các quốc gia mình lựa chọn là các quốc gia có tần xuất xuất hiện dày đặc trên các kênh truyền hình của Việt Nam mình
Ý mình là các bạn chẳng có đề cập trong notebook ấy. Với cả, link bạn đưa có cả Úc và Singapore, thế bạn lập danh sách theo tiêu chí nào?
Mình cảm ơn những góp ý và thắc mắc của bạn @sgrayk , mình xin giải đáp như sau:
- Phần mô tả ý nghĩa cột mình giữ tiếng Anh là để giữ nguyên phần mô tả trên Kaggle, mình sẽ bổ sung thêm phần tiếng Việt bên dưới
- Về phần xóa những phim có description giống nhau, bạn có góp ý là đưa nó vào diện đặc biệt, mình chưa hiểu đưa vào diện đặc biệt là như thế nào. Hơn nữa, như mình đã trả lời cho bạn Phúc, các phim có description giống nhau thì nhóm mình không công nhận nó là một tác phẩm mới. Khi thực hiện phân tích ở phần sau, mình có đếm theo country, rating... nếu mình giữ lại những dòng này, liệu nó có công bằng cho những phim khác?
- Ở cột rating, mình sẽ bổ sung thêm trích dẫn của mô tả. Các trường còn lại, khi xem số giá trị khác nhau thì mình đồng ý là không có nhiều ý nghĩa. Mình làm vậy vì để thực hiện theo quy trình và yêu cầu của thầy. Nếu chuyển các trường này về dạng danh sách của chuỗi rồi mới tính số giá trị rời rạc thì sẽ làm phần này lan man và không cần thiết. Ở phần phân tích phía sau, khi phân tích các cột có thể đưa về danh sách của chuỗi thì nhóm mình mới thực hiện bước xử lý này ở đó. Mình thấy như vậy là hợp lý hơn.
- Ý nghĩa hàm
pandas.series.isin
được mình sử dụng trong đoạn code trên là nếu giá trị ở cột "rating" thuộc danh sáchsuit_kids
thì giá trị của dòng đó sẽ trả về True. Hàm này trả về một series với index là index củanmts_df
và value là giá trị True/False
Theo mình hiểu thì hàm pandas.series.isin
nghĩa là nếu tất cả giá trị của series
đó nằm trong cái list bạn đưa, thì mình có thắc mắc là nếu có phim thuộc rating khác đồng thời có gắn mác dành cho trẻ em thì sao?
Mình cảm ơn những góp ý và thắc mắc của bạn @sgrayk , mình xin giải đáp như sau:
- Phần mô tả ý nghĩa cột mình giữ tiếng Anh là để giữ nguyên phần mô tả trên Kaggle, mình sẽ bổ sung thêm phần tiếng Việt bên dưới
- Về phần xóa những phim có description giống nhau, bạn có góp ý là đưa nó vào diện đặc biệt, mình chưa hiểu đưa vào diện đặc biệt là như thế nào. Hơn nữa, như mình đã trả lời cho bạn Phúc, các phim có description giống nhau thì nhóm mình không công nhận nó là một tác phẩm mới. Khi thực hiện phân tích ở phần sau, mình có đếm theo country, rating... nếu mình giữ lại những dòng này, liệu nó có công bằng cho những phim khác?
- Ở cột rating, mình sẽ bổ sung thêm trích dẫn của mô tả. Các trường còn lại, khi xem số giá trị khác nhau thì mình đồng ý là không có nhiều ý nghĩa. Mình làm vậy vì để thực hiện theo quy trình và yêu cầu của thầy. Nếu chuyển các trường này về dạng danh sách của chuỗi rồi mới tính số giá trị rời rạc thì sẽ làm phần này lan man và không cần thiết. Ở phần phân tích phía sau, khi phân tích các cột có thể đưa về danh sách của chuỗi thì nhóm mình mới thực hiện bước xử lý này ở đó. Mình thấy như vậy là hợp lý hơn.
- Ý nghĩa hàm
pandas.series.isin
được mình sử dụng trong đoạn code trên là nếu giá trị ở cột "rating" thuộc danh sáchsuit_kids
thì giá trị của dòng đó sẽ trả về True. Hàm này trả về một series với index là index củanmts_df
và value là giá trị True/FalseTheo mình hiểu thì hàm
pandas.series.isin
nghĩa là nếu tất cả giá trị củaseries
đó nằm trong cái list bạn đưa, thì mình có thắc mắc là nếu có phim thuộc rating khác đồng thời có gắn mác dành cho trẻ em thì sao?
Ý bạn là sao, mình chưa hiểu lắm. Rating khác có gán mác dành cho trẻ em là sao bạn?
Tại chỗ trùng description thì mình thấy bạn xóa nhiều phiên bản của một bộ phim. Tuy nhiên mình thấy điều này là không nên. Các phiên bản phim khác nhau ở các quốc gia khác nhau có thể sẽ rất khác nhau. Nếu xóa đi là bộ dữ liệu sẽ bị mất một phim hoàn toàn. Một người ở Ấn Độ sẽ không biết rằng phim họ đang coi có phiên bản dành riêng cho nước họ.
Ngoài ra nếu tiêu chí của bạn là "Chỉ giữ 1 phiên bản của một tập phim" thì cách làm này phụ thuộc vào việc description của các tập phim phải trùng nhau. Có thể trong dữ liệu có nhiều phiên bản của một bộ phim nhưng description không giống nhau thì sao?
Trong câu hỏi 3 bạn có ghi là
Tuy nhiên nó chỉ đúng khi xét thêm năm 2020. Bỏ năm 2020 ra thì chỉ có tháng 10 mới nhiều phim kinh dị. Nếu chỉ vì 1 năm 2020 mà nói luôn cho cả tháng 1 thì mình thấy không nên.