epogrebnyak / data-rosstat-kep

Time series dataset of Rosstat Short-term Economic Indicators ("KEP") publication
http://www.gks.ru/wps/wcm/connect/rosstat_main/rosstat/ru/statistics/publications/catalog/doc_1140080765391
6 stars 6 forks source link

Segmentation of source file to process repetitive labels #18

Closed epogrebnyak closed 8 years ago

epogrebnyak commented 9 years ago

В файле https://github.com/epogrebnyak/rosstat-kep-data/blob/master/data/ind06/tab.csv можно увидеть, что строка "Добыча полезных ископаемых" повторяется несколько раз и текущий алгоритм не сможет это правильно считать (в некоторых случаях "Добыча полезных ископаемых" это заголовок индикатора, где-то аналог единицы измерения, где-то более сложный случай).

Предполагаемое решение:

Комментарий:

spec_by_segment=[(None, spec0.yaml)
, ("1.2.1. Индексы производства по видам деятельности", spec_seg1.yaml)
, ("1.3. Продукция сельского хозяйства в хозяйствах всех категорий", spec0.yaml)
... ]

Этот пример означает, что от начала файла до строки, содержащей "1.2.1. Индексы производства по видам деятельности" надо использовать spec0.yaml, от "1.2.1. Индексы производства по видам деятельности" до "1.3. Продукция сельского хозяйства в хозяйствах всех категорий" - использовать spec_seg1.yaml и так далее.

Выдержки из https://github.com/epogrebnyak/rosstat-kep-data/blob/master/data/ind06/tab.csv

1.2.1. Индексы производства по видам деятельности (без исключения сезонности и фактора времени) / Industrial Production indices by Industry (without seasonal and time factor adjustment)                                               
Добыча полезных ископаемых1) / Mining and quarrying 1)                                              
отчетный месяц в % к предыдущему месяцу / reporting month as percent of previous month                                              
2002    97,9    91,9    110,6   97,0    105,0   102,2   105,3   100,6   98,7    101,6   94,5    102,6
2003    100,8   91,2    110,4   96,9    104,7   101,4   106,9   99,1    99,9    100,5   95,8    102,7
2004    99,2    94,0    107,5   97,8    104,1   101,3   104,9   99,3    98,1    101,3   95,2    103,1
2005    97,5    91,8    110,0   95,7    104,8   100,4   105,1   98,5    99,1    101,3   95,9    102,7
2006    97,1    91,8    110,8   97,5    104,3   99,8    105,1   99,9    97,0    101,5   97,8    103,1
2007    98,5    91,9    110,4   96,0    103,9   98,8    103,9   100,6   96,4    103,6   96,4    103,1
2008    98,4    94,7    106,3   97,4    102,8   97,8    103,2   100,0   98,2    102,0   93,1    103,4
2009    97,1    91,9    109,7   97,3    102,0   98,7    104,4   100,5   99,0    103,6   97,3    103,7
2010    96,5    93,2    110,9   95,9    103,0   98,4    103,1   98,8    99,2    104,3   96,1    103,4
2011    96,8    92,4    110,9   96,6    103,8   98,2    103,5   99,3    97,7    103,0   97,3    103,0
2012    97,3    94,5    106,6   96,7    103,6   98,3    104,4   99,5    97,1    103,4   96,8    103,2
2013    96,8    92,5    109,7   97,5    103,5   98,3    102,8   100,4   97,9    103,2   96,9    103,4
2014    95,8    92,3    109,6   98,0    103,3   98,2    102,2   101,1   99,4    102,7   97,5    103,8
2015    94,5    91,1    110,0   96,7    103,2   98,2                        
отчетный месяц в % к соответствующему месяцу предыдущего года / reporting month as percent of corresponding month of previous year                                              
2002    106,1   107,5   108,2   102,4   107,7   108,6   107,0   108,4   106,6   108,0   103,9   106,8
2003    109,9   109,1   108,9   108,8   108,4   107,6   109,2   107,5   108,8   107,6   109,2   109,2
2004    107,5   110,8   107,9   108,7   108,3   108,2   106,1   106,4   104,4   105,2   104,5   104,9
2005    103,1   100,7   103,1   100,9   101,5   100,6   100,9   100,1   101,2   101,2   101,9   101,5
2006    101,1   101,1   101,9   103,8   103,3   102,8   102,7   104,2   102,0   102,2   104,2   104,6
2007    106,1   106,1   105,7   104,1   103,6   102,5   101,3   102,0   101,4   103,5   102,1   102,0
2008    102,0   105,1   101,3   102,7   101,6   100,5   99,9    99,3    101,2   99,6    96,1    96,4
2009    95,1    92,3    95,3    95,2    94,5    95,4    96,5    97,0    97,7    99,3    103,8   104,1
2010    103,5   105,0   106,1   104,5   105,6   105,4   104,1   102,3   102,5   103,2   101,9   101,7
2011    102,0   101,1   101,0   101,8   102,5   102,3   102,7   103,2   101,7   100,4   101,7   101,3
2012    101,8   104,1   100,1   100,3   100,1   100,2   101,1   101,3   100,6   101,0   100,5   100,7
2013    100,2   98,0    100,9   101,7   101,7   101,7   100,1   101,0   101,9   101,7   101,8   102,0
2014    100,9   100,8   100,6   101,1   100,9   100,8   100,2   100,8   102,4   101,9   102,5   103,0
2015    101,5   100,1   100,4   99,2    99,1    99,1                        

2.2. Сальдированный финансовый результат по видам экономической деятельности, млн.рублей / Balanced financial result by economic activity, mln rubles             
Добыча полезных ископаемых / Mining and quarrying               
1999    109148  16080   40142   67798
2000    188810  42820   85725   135333
2001    206748  52909   104123  151244
2002    174694  33999   75288   141617
2003    241097  48122   126891  180819
2004    425039  82429   180216  340522
2005    804198  132118  368190  612183
2006    712883  199798  416631  687520
2007    906679  135578  391577  620517
2008    872481  250859  632490  936652
2009    892471  130572  383528  651142
2010    1377510 270405  608904  959439
2011    1981014 476648  978761  1516015
2012    1833460 491839  921024  1409589
2013    1707119 397591  811881  1311776
2014    2648591 552512  1013834 1637251
2015        626913      

    Год Year I квартал Q 1    I полугодие 1st half-year  Январь-сентябрь January-September
Убыточные организации / Loss-making organizations               
Добыча полезных ископаемых / Mining and quarrying               
количество организаций, тысяч / number of organizations, thou             
2003    0,6 0,7 0,7 0,6
2004    0,5 0,7 0,6 0,6
2005    0,5 0,6 0,6 0,5
2006    0,4 0,6 0,5 0,5
2007    0,4 0,5 0,5 0,4
2008    0,4 0,5 0,4 0,4
2009    0,5 0,7 0,6 0,5
2010    0,4 0,6 0,5 0,4
2011    0,4 0,5 0,5 0,4
2012    0,4 0,5 0,4 0,4
2013    0,4 0,6 0,5 0,5
2014    0,4 0,6 0,5 0,5
2015        0,5     

3. Цены / Prices                                                                    
3.1. Индексы цен производителей промышленных товаров1) (на конец периода, в % к концу предыдущего периода) / Industrial producer price indices1) (end of period, percent of end of previous period)                                                                   
1999    170,7   117,5   112,0   115,0   112,8   107,2   105,3   104,1   104,4   103,9   103,2   104,7   104,5   105,2   105,6   104,1   102,5
2000    131,9   110,0   105,9   107,0   105,8   104,3   103,1   102,2   101,7   101,7   102,4   102,8   101,8   102,2   103,5   101,2   101,1
2001    108,3   103,1   104,5   100,3   100,3   101,3   101,1   100,7   100,8   101,1   102,5   100,5   100,0   99,8    100,4   100,2   99,7
2002    117,7   99,7    107,4   105,7   103,9   100,2   99,5    100,0   102,1   102,2   103,0   102,6   102,0   101,1   102,1   101,6   100,1
2003    112,5   103,5   101,5   105,5   101,5   100,5   101,6   101,4   101,1   100,1   100,4   102,2   101,8   101,4   100,8   100,2   100,5
2004    128,8   108,9   107,2   106,2   103,9   104,0   103,4   101,3   102,1   102,1   102,8   101,2   101,8   103,1   101,8   102,0   100,1
2005    113,4   104,3   105,3   105,4   97,9    100,5   101,3   102,5   102,5   102,7   100,1   100,5   102,0   102,8   100,9   99,1    97,9
2006    110,4   106,0   103,2   105,4   95,8    100,5   103,3   102,1   100,6   101,8   100,8   101,7   102,2   101,4   97,2    97,5    101,0
2007    125,1   101,7   112,7   102,1   106,9   101,9   99,9    100,0   104,3   105,4   102,5   100,7   102,1   99,4    99,9    103,1   103,7
2008    93,0    103,0   113,6   100,5   79,1    101,6   100,7   100,7   104,5   103,5   104,9   105,4   100,5   95,0    93,4    91,6    92,4
2009    113,9   104,4   105,3   104,5   99,1    96,6    105,1   102,9   102,4   100,6   102,2   101,8   101,4   101,2   99,1    99,5    100,5
2010    116,7   102,7   102,7   102,6   107,8   98,9    102,0   101,8   103,2   102,7   96,9    100,6   103,3   98,7    102,2   104,4   101,0
2011    112,0   107,0   100,7   101,9   102,0   102,2   103,4   101,4   102,0   101,1   97,7    98,2    103,3   100,5   100,9   101,0   100,2
2012    105,1   103,0   97,4    109,0   96,2    99,8    101,1   102,2   100,7   97,6    99,2    98,9    105,1   104,8   98,4    98,8    98,9
2013    103,7   100,9   98,3    106,4   98,4    99,6    100,8   100,5   98,8    99,0    100,4   102,0   102,8   101,4   98,8    98,5    101,0
2014    105,9   102,3   102,0   100,9   100,6   100,4   99,6    102,3   100,7   100,4   100,8   101,6   100,0   99,2    100,3   99,5    100,8
2015        109,2   102,1           101,3   102,1   105,5   102,7   98,8    100,7                       
в том числе: / of which:                                                                   
Добыча полезных ископаемых / Mining and quarrying                                                                   
1999    225,2   116,6   113,9   131,3   129,2   108,8   103,1   103,9   102,8   106,3   104,2   110,9   108,1   109,5   115,3   108,0   103,7
2000    149,1   114,9   105,0   109,1   113,3   108,6   103,2   102,5   102,7   101,3   101,0   104,4   101,3   103,2   108,2   101,3   103,4
2001    104,0   98,0    112,0   97,3    97,4    100,6   98,3    99,1    101,0   101,7   109,0   100,5   99,0    97,9    100,0   99,6    97,8
2002    125,8   91,9    114,2   113,5   105,6   99,3    94,8    97,7    100,6   104,1   109,0   108,3   103,7   101,1   104,5   103,4   97,8
2003    101,8   96,0    94,5    114,4   98,1    98,2    99,1    98,7    99,4    97,5    97,6    106,5   105,1   102,2   100,6   97,4    100,1
2004    164,7   119,8   112,2   112,3   109,1   113,3   104,5   101,2   103,7   102,4   105,7   102,9   103,9   105,0   103,6   104,5   100,8
2005    131,0   103,3   118,6   119,1   89,8    95,7    98,4    109,6   108,9   109,7   99,3    101,2   108,0   109,0   102,6   96,3    90,9
2006    101,6   110,8   102,8   110,4   80,8    96,2    106,6   108,0   100,6   100,8   101,4   103,2   103,9   102,9   89,7    87,4    103,1
2007    152,3   97,2    136,8   102,6   111,6   107,5   94,7    95,5    110,7   115,7   106,8   99,9    105,5   97,4    96,1    105,6   110,0
2008    61,6    93,8    126,1   94,4    55,1    104,2   95,4    94,4    107,3   106,3   110,6   111,7   100,4   84,2    79,2    83,1    83,8
2009    149,2   108,5   127,9   110,6   97,3    80,4    112,6   119,9   115,3   105,3   105,3   107,1   102,9   100,4   95,9    95,8    105,8
2010    117,1   97,4    100,0   104,6   115,0   92,7    101,3   103,7   106,2   104,6   90,0    101,9   109,9   93,4    103,2   110,3   101,1
2011    126,3   113,1   101,2   103,0   107,2   104,7   105,1   102,8   106,6   102,4   92,7    93,6    109,3   100,8   100,8   103,6   102,6
2012    109,3   114,7   88,4    122,7   87,9    101,8   104,5   107,8   100,5   91,2    96,4    92,4    114,6   115,9   92,4    96,5    98,5
2013    107,0   103,7   94,8    113,8   95,6    99,9    102,5   101,4   95,0    97,2    102,8   104,5   104,4   104,3   96,1    94,3    105,6
2014    98,4    105,8   101,2   94,2    97,6    103,6   95,7    106,7   100,2   99,4    101,5   102,0   98,0    94,2    100,2   95,3    102,3
2015        114,7   110,3           97,3    100,2   117,6   110,8   95,7    104,0                       

5. Производство важнейших видов промышленной продукции / Production of the most important industrial products                                                                    
5.1. Добыча полезных ископаемых / Mining and quarrying                                                                  
Уголь, млн.тонн / Coal, mln ton                                                                 
1999    250 67,1    57,3    56,2    68,9    22,5    21,7    22,9    20,7    18,5    18,1    18,0    18,8    19,4    22,2    22,6    24,1
2000    258 71,1    60,5    55,6    70,7    23,6    23,8    23,7    21,4    20,1    19,0    17,9    18,3    19,4    22,5    23,6    24,6
2001    270 72,7    62,4    63,9    70,5    24,1    23,5    25,1    21,7    20,6    20,1    20,7    21,4    21,8    23,2    24,5    22,8
2002    256 63,0    57,1    61,4    74,3    21,3    20,7    21,0    19,2    18,2    19,7    19,3    20,3    21,8    23,9    24,3    26,1
2003    277 73,3    62,7    64,5    76,2    25,3    23,8    24,2    21,6    21,2    20,0    20,9    21,2    22,4    24,9    25,0    26,3
2004    282 73,8    65,4    65,4    77,1    24,9    23,6    25,3    22,2    22,1    21,1    21,3    21,8    22,3    24,5    26,1    26,5
2005    299 76,7    67,5    70,3    84,0    25,5    25,1    26,1    23,5    22,5    21,5    21,4    24,0    24,9    27,3    27,9    28,8
2006    310 80,2    72,6    71,2    86,0    26,4    26,2    27,6    25,5    24,3    22,8    23,0    23,5    24,8    26,9    28,9    30,2
2007    314 80,9    70,8    73,5    88,6    28,0    26,2    26,7    22,8    24,3    23,6    23,8    24,6    25,1    28,2    29,3    31,1
2008    329 85,6    76,0    81,1    85,9    28,8    28,1    28,7    26,4    25,3    24,3    25,7    27,1    28,3    30,0    28,0    27,9
2009    298 69,3    67,9    74,9    86,4    23,6    22,1    23,6    22,4    22,5    23,0    23,7    24,6    26,6    27,2    28,7    30,4
2010    322 83,7    73,5    76,5    88,1    26,6    27,5    29,5    24,9    24,6    23,9    24,7    25,4    26,4    27,9    29,3    30,9
2011    334 81,1    77,3    81,0    94,5    27,2    26,1    27,8    26,5    25,4    25,4    26,0    27,1    27,9    30,9    31,9    31,7
2012    354 86,1    81,8    89,9    96,4    28,7    28,0    29,4    28,3    27,2    26,3    28,3    30,5    31,1    32,5    32,1    31,9
2013    347 86,0    85,0    83,4    93,5    27,9    27,8    30,3    29,6    28,6    26,8    27,7    27,2    28,5    30,5    31,1    31,9
2014    356 85,2    81,0    86,6    103 27,9    28,4    28,9    27,4    26,7    26,9    27,8    28,5    30,3    32,8    34,4    36,1
2015        91,3    84,5            31,4    29,8    30,1    28,1    28,9    27,5                        
epogrebnyak commented 9 years ago

Также может понадобиться функции инспекции - прогнать yaml файл по csv файлу, с указанием какие метки повторяются более 1 раза.