Open hamtaryo-san opened 9 months ago
以下の方針でbaselineにうまくマージしてみます! 天気データマージ方針 1.レポートタイプごとに分割 I.FM-12 ・三時間おきのデータ ・欠損が多いカラムは落とす ・HourlyAltimeterSetting ・HourlyPrecipitation ・HourlyPresentWeatherType ・HourlySkyConditions ・HourlyWindGustSpeed ・HourlyWindDirection ・REMはよくわからん(いろんな情報が入ってるが、抜き出し方がわからないので触りたく ない)ので落とす ・SOURCEとREPORT_TYPEも落とす ・欠損値の埋め方、前処理について ・HourlyDewPointTemperatureはsを除去、空白は前のセルで埋める ・HourlyPressureChangeの欠損値は前のセルの値使う ・HourlyPressureTendencyの欠損値は前のセルの値使う ・HourlyRelativeHumidityの欠損値は前のセルの値使う ・HourlySeaLevelPressureの欠損値は前のセルの値使う ・HourlyStationPressureはsを除去 ・HourlyWetBulbTemperatureの欠損値は前のセルの値使う II.FM-15 ・一時間おきのデータ、大本命 ・欠損が多いカラムは落とす ・HourlyPresentWeatherType ・HourlyWindGustSpeed ・HourlyWetBulbTemperature ・REMもよくわからんので落とす ・SOURCEとREPORT_TYPEも落とす ・HourlyWindDirectionはVRBの処理がめんどくさいので落とす ・HourlySkyConditionsちょっと処理むずそうなのでいったん落とす ・欠損値の埋め方、前処理について ・HourlyAltimeterSettingはsを除去、欠損値は前のセルの値使う ・HourlyDewPointTemperatureはsを除去、欠損値は前のセルの値使う ・HourlyPrecipitationはsを除去、Tを0.005で置換、欠損値は前のセルの値使う ・HourlyPressureChangeは欠損値は前のセルの値使う ・HourlyPressureTendencyは欠損値は前のセルの値使う ・HourlyRelativeHumidityは欠損値は前のセルの値使う ・HourlySeaLevelPressureはsを除去、欠損値は前のセルの値使う ・HourlyStationPressureはsを除去、欠損値は前のセルの値使う ・HourlyVisibilityはVを除去、欠損値は前のセルの値使う ・HourlyWindSpeedは欠損値は前のセルの値使う
III.FM-16 ・天気に大きな変化があった時(ポジティブもネガティブも)に報告されるデータ SPECI ・ちょっと処理むずそうなのでいったん飛ばす ・うまく取り込めたらかなりうまくいきそう IV.SY-MT ・祝日とかイベント日とか限定の報告データっぽい ・ただ、ちょっとこのデータの存在理由がよくわからないので飛ばす
精度落ちた。。。なんでだ?
概要
以下の方針でbaselineにうまくマージしてみます! 天気データマージ方針 1.レポートタイプごとに分割 I.FM-12 ・三時間おきのデータ ・欠損が多いカラムは落とす ・HourlyAltimeterSetting ・HourlyPrecipitation ・HourlyPresentWeatherType ・HourlySkyConditions ・HourlyWindGustSpeed ・HourlyWindDirection ・REMはよくわからん(いろんな情報が入ってるが、抜き出し方がわからないので触りたく ない)ので落とす ・SOURCEとREPORT_TYPEも落とす ・欠損値の埋め方、前処理について ・HourlyDewPointTemperatureはsを除去、空白は前のセルで埋める ・HourlyPressureChangeの欠損値は前のセルの値使う ・HourlyPressureTendencyの欠損値は前のセルの値使う ・HourlyRelativeHumidityの欠損値は前のセルの値使う ・HourlySeaLevelPressureの欠損値は前のセルの値使う ・HourlyStationPressureはsを除去 ・HourlyWetBulbTemperatureの欠損値は前のセルの値使う II.FM-15 ・一時間おきのデータ、大本命 ・欠損が多いカラムは落とす ・HourlyPresentWeatherType ・HourlyWindGustSpeed ・HourlyWetBulbTemperature ・REMもよくわからんので落とす ・SOURCEとREPORT_TYPEも落とす ・HourlyWindDirectionはVRBの処理がめんどくさいので落とす ・HourlySkyConditionsちょっと処理むずそうなのでいったん落とす ・欠損値の埋め方、前処理について ・HourlyAltimeterSettingはsを除去、欠損値は前のセルの値使う ・HourlyDewPointTemperatureはsを除去、欠損値は前のセルの値使う ・HourlyPrecipitationはsを除去、Tを0.005で置換、欠損値は前のセルの値使う ・HourlyPressureChangeは欠損値は前のセルの値使う ・HourlyPressureTendencyは欠損値は前のセルの値使う ・HourlyRelativeHumidityは欠損値は前のセルの値使う ・HourlySeaLevelPressureはsを除去、欠損値は前のセルの値使う ・HourlyStationPressureはsを除去、欠損値は前のセルの値使う ・HourlyVisibilityはVを除去、欠損値は前のセルの値使う ・HourlyWindSpeedは欠損値は前のセルの値使う