thinh-vu / vnstock

A powerful Python library for getting rich data from the Vietnam Stock Market using just a few lines of code
https://vnstocks.com
Other
499 stars 130 forks source link

Dữ liệu data khung thời gian nhỏ có vấn đề #119

Closed yellow1912 closed 2 months ago

yellow1912 commented 5 months ago

Lấy ví dụ như dữ liệu của NT2, khung thời gian 30p:

                    time   open   high    low  close  volume ticker
0    2024-02-15 09:00:00  25010  25010  25010  25010    1500    NT2
1    2024-02-15 09:30:00  24910  24910  24910  24910     200    NT2
2    2024-02-15 10:00:00  24960  24960  24960  24960     500    NT2
3    2024-02-15 10:30:00  24960  24960  24960  24960     200    NT2
4    2024-02-15 11:00:00  25010  25010  25010  25010     100    NT2
..                   ...    ...    ...    ...    ...     ...    ...
193  2024-03-15 11:00:00  25100  25100  25100  25100     100    NT2
194  2024-03-15 13:00:00  25150  25150  25000  25000  281000    NT2
195  2024-03-15 13:30:00  25000  25100  24950  25000  190900    NT2
196  2024-03-15 14:00:00  25100  25100  24950  25100  127600    NT2
197  2024-03-15 14:30:00  25100  25100  25100  25100   13800    NT2

Chúng ta có thể thấy là giá open, high, low, close của mỗi row hầu như là bằng nhau, điều này khá vô lý, chúng ta có thể mở chart của fireant sẽ thấy giá trong 30m có sự vận động lên xuống rất nhiều chs không đứng yên ở 1 chỗ.

image

Về volume cũng có vấn đề, ví dụ đây là volume ngày 15/3/2024:

2024-03-15 09:00:00 2024-03-15 09:00:00 25250 25250 25250 25250 3900 NT2 Ở đây data trả về là 3900, tuy nhiên nếu xem dữ liệu khớp lệnh trên fireant thì hơn con số này nhiều (chỉ tính đếnh phút 15 đã hơn con số này):

image

thinh-vu commented 5 months ago

Cám ơn bạn @yellow1912 đã gửi phản hồi. Mình đang tiến hành kiểm tra và sẽ cập nhật tới bạn khi có kết quả nhé.

yellow1912 commented 5 months ago

Cảm ơn bạn, có kết quả gì không bạn? Có thể nào là data sai luôn từ nguồn?

thinh-vu commented 5 months ago

Cảm ơn bạn, có kết quả gì không bạn? Có thể nào là data sai luôn từ nguồn?

Chào bạn. Cái này nếu có sai lệch thì nó sai từ nguồn rồi vì mình chỉ đọc JSon thành DataFrame chứ ko can thiệp sâu vào chỉnh sửa dữ liệu. Ở đây, bạn gặp trường hợp trên với TCBS hay DNSE nhỉ? Với bạn có tham gia chương trình Insiders nên mình khuyên dùng nguồn dữ liệu của SSI và các nguồn được cung cấp ổn định, đáng tin cậy để đối chiếu.