IKKO-Ohta / e2l

Economy to lang with nn
0 stars 0 forks source link

与えられたデータに外れ値が頻出する件について #2

Open IKKO-Ohta opened 7 years ago

IKKO-Ohta commented 7 years ago

ダウジョーンズ平均株価で外れ値が頻出しているように見える。 たとえば 2012-07-12では

VZ      446200  448200  442700  446700
GE      194800  196200  193700  194400
GM      196100  196100  192400  193300
GS      942900  947000  932500  940200 ...

のようになっているが、2014-12-31では

VZ      47.24   47.4218 46.71   46.85
GE      25.65   25.65   25.27   25.34
GM      35.49   35.49   34.83   34.83
GS      196.32  196.83  193.83  193.86
PFE     31.38   31.69   31.1    31.2
CAT     92.74   92.95   91.41   91.54 ...

となって明らかにおかしい。この傾向は全体で見られるので、集計方法や桁数が変更された可能性がある。 具体的な統計をとって、どの期間からどの期間でこのような形式がみられるのかを調べたい。

IKKO-Ohta commented 7 years ago

Add to favorites 86: 石野 亜耶 Wed, Sep 13, 2017 2:43 ダウ平均株価のデータなのですが、クラフトフーズ(KFT)のデータがないようです。

ダウ平均株価のデータの所在: /home/ikko/work/E2L/resource/numerical/dow30

クラフトフーズは、2008年から2012年まではNYダウ工業株30種に入っていたようです。 KFTについて水野さんから何か伺っている方いらっしゃいますか?

IKKO-Ohta commented 7 years ago

調査しました。

IKKO-Ohta commented 7 years ago

メールを書きました。

IKKO-Ohta commented 6 years ago

このissueをデータ数値の補正のために利用します。 現状としては https://github.com/IKKO-Ohta/e2l/issues/2#issuecomment-329055268 の通りで、データの補正を行う必要があります。

まずは前日比データに置き換えることで、これらの値動きが整合的であるかを確認します。

IKKO-Ohta commented 6 years ago

vzprice これが前処理したあとのVZ社の株価の様子です。 具体的には、まず全ての日について前日比を計算し、それから価格が断絶しているらしい部分の区間[2012-01-03 ~ 2012-12-03]を特定して、始点と終点の日のみを取り除く処理をしました。 VZ社の場合はうまくいっているように見えますが、このプログラムを他の会社に適用したとき、うまくいくかどうかはまちまちで、会社によってはまだ大きな外れ値が残っているものもあります。これらは手作業での仕分けが必要です。