# Архивация и обработка налоговой статистики
## Работаем с налоговой статистикой в примерах
Этот код предназначен для преобразования данных из налоговой статистики в простые ряды чисел.
Скрипт nalogstats.py обрабатывает отчёты ФНС России в Excel по регистрации юридических лиц и ИП и выбирает оттуда данные:
* число зарегистрированных юрлиц
* число юрлиц прекративных деятельность
* число зарегистрированных ИП
* число ИП прекративших деятельность
Всё это рассматривается в разрезе годов с 2012 по 2018 и субъектов федерации
Скрипт сохраняет в файлы nalog_rosfed.csv статистику по РФ и в nalog_regions.csv статистику по всем субъектам федерации
Скрипт nalogstatscmd.py выгружает все статистические сведения публикуемые на сайте ФНС России в папку files/gstats
а в файл data/regstats.csv складывает описания выгруженных статистических файлов.
В виду того что файлы по отчётности по статистическим формам устроены очень по разному, какие то публикуются как XLS и XLSX файлы,
другие упакованы в ZIP и RAR архивы.
Поддерживает команды:
- collect - собрать все ссылки на файлы со статистикой с сайта ФНС России.
- load - загрузить списки файлов в MongoDB и выгрузить все файлы с сайта ФНС в папку files/gstats
- dump - сделать дамп таблиц из базы MongoDB в формате JSON
Эта утилита находятся в beta статусе, далее она скорее всего будет выделена в отдельный репозиторий.
## Что с этим делать?
Можно доработать и считать статистику по месяцам, например. Можно доработать и смотреть на разные причины регистрации и прекращения деятельности,
можно дополнить данными и поискать корреляции.
## Откуда данные?
Официальная статистика регистрации юридических лиц и индивидуальных предпринимателей публикуется на сайте ФНС России http://nalog.ru в соответствующем разделе.
Данный репозиторий включает код и скачанные из первоисточника данных, а также результаты примеров расчёта показателей.