KarryRen / Introduction-to-Fintech-DAPs

The two Data Analysis Projects of Introduction to Fintech Class.
Apache License 2.0
2 stars 0 forks source link

Project 1. 日频量价因子 #4

Closed KarryRen closed 3 weeks ago

KarryRen commented 1 month ago

日频量价因子

使用 AKshare 开源数据包获取日频交易数据,细节如下:

  1. 时间区间2010 年 1 月 1 日至 2024 年 6 月 1 日,共 14.5 年交易数据(3499 个交易日),交易日列表:trading_dates.csv
  2. 标的内容
    • 基础标的:2024 年 10 月 10 日,两市上的主板 A 股(不含科创板、创业板)全列表,沪市 1691 支,深市 1481 支。
    • 筛选方式:筛选在 2010 年 1 月 1 日至 2024 年 6 月 1 日间持续交易,且在 2010 年 1 月 1 日和 2024 年 6 月 1 日两天没有停牌的股票。这样的筛选一部分是为了减少数据量,一部分也为了后续处理更加方便,最终筛选出沪市 760 支,深市 697 支,共 1457 支。
    • 注意事项:
      • 量价数据全部采用后复权
      • 大多数股票在区间内都有停牌天,交易天数往往都小于 3499 !
KarryRen commented 1 month ago

为什么要复权?

为何要复权?由于股票存在配股、分拆、合并和发放股息等事件,会导致股价出现较大的缺口。 若使用不复权的价格处理数据、计算各种指标,将会导致它们失去连续性,且使用不复权价格计算收益也会出现错误。 为了保证数据连贯性,常通过前复权和后复权对价格序列进行调整。

前复权:保持当前价格不变,将历史价格进行增减,从而使股价连续。 前复权用来看盘非常方便,能一眼看出股价的历史走势,叠加各种技术指标也比较顺畅,是各种行情软件默认的复权方式。 这种方法虽然很常见,但也有两个缺陷需要注意:

后复权:保证历史价格不变,在每次股票权益事件发生后,调整当前的股票价格。 后复权价格和真实股票价格可能差别较大,不适合用来看盘。 其优点在于,可以被看作投资者的长期财富增长曲线,反映投资者的真实收益率情况。在量化投资研究中普遍采用后复权数据。

KarryRen commented 1 month ago

为什么选择 2010 年 1 月 1 日至 2024 年 6 月 1 日 ?

  1. 10 年之后融券大量使用,股票交易市场变化比较大
  2. 分钟频因子从 2010 年 1 月 1 日开始可以获取
  3. 尽可能拉长区间,目前有 3499 个交易日,数据量并不小

为什么以 2024 年 10 月 10 日的情况作为股票池结点?

  1. 数据接口只能获取实时的股票池
  2. 退市的对当下的交易增益不大,所以在区间内退市的股票可以不做考虑

有哪些股票交易时间不够 100 天?

沪市(14 支):
    - 601033.sh,603082.sh,603091.sh,603207.sh,603285.sh
    - 603310.sh,603312.sh,603325.sh,603341.sh,603344.sh
    - 603350.sh,603375.sh,603381.sh,603391.sh
深市(6 支):
    - 001277.sz,001359.sz,001379.sz,001387.sz,001389.sz,xxxxxx.sz