xinihe / jrxy_python_course

Python in Finance
72 stars 316 forks source link

数据的预处理 #4

Open nianchuran opened 4 years ago

nianchuran commented 4 years ago

初步获取的数据存在错误数据,空白,特殊数据,过大数据会对cpu产生不少压力,给算法增加难度,甚至会对最终结果产生误差。一般情况下会对原始数据设置特征工程。如使用pandas.dropna()删除空白数据,然后过滤低方差,使用相关系数实行降维,result = (len(list_x)sum(xy)-sum(list_x)sum(list_y))/(math.sqrt(len(list_x)sum(pow(x,2))-sum(list_x)2)math.sqrt(len(list_y)sum(pew(y,2)-sum(list_y)2)))#皮尔逊相关系数,同样也可用于动量分析,计算出主成分。数据量实在过大可使用Thread,multprocessing,分组运算(线程数量不宜过多)。其次实行标准化,如果真实值过大会使调参无力。最后可使用l2正则化修改损失函数,对模型进行评估。因为使用标准化,模型检测的过程需要不断根据新数据调整参数,是一个动态的过程,同时也会不断产生新模型,需要一个完善的数据库。在此基础上,有与市场近似与混沌体系,每个模型都有存在的可能性,故将模型打包为一个函数函数,使用knn算法根据新数据进行分类,增加超参数,根据不同模型所对应的资金比形成新的回归运算,在并发编成的基础上增加tensorflow模块提高运算速度。