Open HaoningChen opened 1 year ago
我们使用平安银行的3秒钟股票数据,拟合了它的收益率,进而计算出它的股价
为了避免数据泄露,我们构建的特征将全部使用历史数据(即滞后项)和时序特征(只与当前的时间有关)
为了构建时序特征,我们将从趋势(trend)、季节(seasonality)和周期三个角度对目标值ret进行分析(即Auto_ts_ana)
随后,我们清除缺失值,并分别对目标值和特征,训练集和测试集进行标准化(在机器学习领域,数据最好都呈正态分布,因此需要标准化),同样地,为了避免数据泄露,我们使用训练集的数据特征对所有数据进行标准化
最后我们拟合模型,我们还可以更进一步查看模型的shapley value,从而保证模型的可解释性
#########################################################################################
拓展阅读资料:
评估数据集质量(特征选择)
标准化,石川,刘洋溢,连祥斌 因子投资方法与实践p301~302(在scutquant中我们采用的是5倍标准差)
时间序列季节性
时间序列周期性(滞后项)
录屏:链接:https://share.weiyun.com/fdgBJTE1 密码:btg9ux
大家有问题也可以在Issue区留言
我们使用平安银行的3秒钟股票数据,拟合了它的收益率,进而计算出它的股价
为了避免数据泄露,我们构建的特征将全部使用历史数据(即滞后项)和时序特征(只与当前的时间有关)
为了构建时序特征,我们将从趋势(trend)、季节(seasonality)和周期三个角度对目标值ret进行分析(即Auto_ts_ana)
随后,我们清除缺失值,并分别对目标值和特征,训练集和测试集进行标准化(在机器学习领域,数据最好都呈正态分布,因此需要标准化),同样地,为了避免数据泄露,我们使用训练集的数据特征对所有数据进行标准化
最后我们拟合模型,我们还可以更进一步查看模型的shapley value,从而保证模型的可解释性
#########################################################################################
拓展阅读资料:
评估数据集质量(特征选择)
标准化,石川,刘洋溢,连祥斌 因子投资方法与实践p301~302(在scutquant中我们采用的是5倍标准差)
时间序列季节性
时间序列周期性(滞后项)
#########################################################################################
录屏:链接:https://share.weiyun.com/fdgBJTE1 密码:btg9ux
#########################################################################################
大家有问题也可以在Issue区留言