Пособие по журналистике данных 1.0
Loading

Субсидирование автобусных перевозок в Аргентине

Начиная с 2002 года субсидирование общественного автобусного транспорта в Аргентине росло по экспоненте, каждый год ставя новые рекорды. Но в 2011 году, после победы на выборах, новое правительство Аргентины объявило о сокращении субсидирования коммунальных услуг начиная с декабря того же года.

В то же самое время национальное правительство решило передать управление и администрирование местных автобусных маршрутов и линий метро властям города Буэнос-Айреса. А так как вопрос с переводом субсидий этому местному правительству не был четко разрешен, а соответствующих местных фондов было недостаточно, чтобы гарантировать безопасность транспортной системы, власти города Буэнос-Айрес отклонили это решение.

Когда происходил этот процесс, мои коллеги в La Nación и я в первый раз встречались для того, чтобы обсудить, как нам начать работать в области журналистики данных. Наш редактор финансового отдела предложил начать с данных о субсидиях, публикуемых Министерством транспорта — это стало бы хорошей проблемой, с изучения которой можно было бы начать, так как из этих данных очень сложно было извлечь смысл – из-за неудобного формата и непонятной терминологии.

Плохое состояние системы общественного транспорта влияет на жизнь более чем 5 800 000 пассажиров каждый день. Опоздания, задержки, забастовки, поломки транспорта и аварии происходят все чаще и чаще. Поэтому мы решили взглянуть на то, куда уходят деньги, выделяемые в Аргентине на субсидирование общественного транспорта, и сделать полученную информацию легко доступной для всех граждан Аргентины посредством нашего проекта «Исследователь транспортных субсидий» (Transport Subsidies Explorer), который сейчас продолжает наполняться информацией.

Рис 48. The «Исследователь транспортных субсидий» (Transport Subsidies Explorer) (La Nación)

Начали мы с того, что подсчитали, сколько автобусные компании получают каждый месяц от государства. Чтобы сделать это, мы просмотрели все данные, публикуемые на вебсайте Министерства транспорта, где мы нашли больше 400 PDF-файлов, содержащих информацию о ежемесячных денежных выплатах более чем тысяче тремстам компаний начиная с 2006 года.

Рис 49. Рейтинг субсидируемых транспортных компаний (La Nación)

Мы объединились со старшим программистом, чтобы разработать программу для автоматизации процесса регулярного скачивания и преобразования этих PDF-файлов в файлы Excel и баз данных. Получившийся в результате набор данных из более чем 285 000 записей мы используем в наших исследованиях и для визуализации информации, как в печатном виде, так и в режиме онлайн. Вдобавок, мы делаем эти данные доступными в машиночитаемом формате для каждого аргентинца, который может сам их использовать или поделиться ими с кем-то.

Следующим шагом было определить, в какую сумму обходилось властям ежемесячное содержание единицы общественного транспорта в среднем. Чтобы выяснить это, мы направились на другой правительственный вебсайт, сайт Национальной комиссии по транспортному регулированию (Comisión Nacional de Regulación del Transporte — CNRT), которая отвечает за регулирование транспортной отрасли в Аргентине. На этом сайте мы нашли список автобусных компаний, которые все вместе в совокупности владели 9 000 транспортных средств. Мы разработали нормализатор, чтобы сверить и согласовать между собой названия автобусных компаний и сделать перекрестные ссылки между двумя наборами данных.

Чтобы идти дальше, нам требовался регистрационный номер каждого транспортного средств. Мы нашли на сайте CNRT список автобусов каждой компании с их номерами. Регистрационные номера в Аргентине состоят из букв и цифр, которые соответствуют «возрасту» транспортного средства. Например, номер моей машины – IDF234, где I соответствует марту-апрелю 2011 года. Мы декомпилировали номера автобусов, принадлежащих всем компаниям из списка, чтобы выяснить средний возраст автобусов в той или иной компании, и тем самым показать, сколько денег идет каждой компании, и сравнить суммы со средним возрастом их парка транспортных средств.

Рис. 50. Сравнение возраста автобусного парка с суммами, которые соответствующие компании получают от властей. (La Nación)

В разгар этого процесса содержание выпущенных властями PDF-файлов с данными, которые были нам нужны, таинственным образом изменилось, хотя URL-ы и названия файлов остались теми же самыми. Что именно изменилось? А изменилось то, что в некоторых PDF-файлах исчезли вертикальные графы «всего», что сделало невозможным перекрестные проверки по всему исследуемому временному периоду, с 2002 по 2011 годы.

Мы вынесли этот вопрос на хакатон, организованный группой Hacks/Hackers в Бостоне, где разработчик Мэтт Перри (Matt Perry) щедро создал и поделился с нами приложением, которое мы назвали «PDF-шпион» (PDF Spy). Это приложение было отмечено в номинации «Самое интригующее» на этом мероприятии. «PDF-шпион» (PDF Spy) обрабатывает веб-страницу с PDF-файлами и проверяет, изменилось ли содержание этих PDF-файлов. «Никого больше не обманет и не оставит в дураках «правительственная прозрачность», - отмечает Мэтт Перри.

Кто работал над проектом?

Команда из семи журналистов, программистов и интерактивного дизайнера трудилась над этим исследованием в течение 13 месяцев.

Опыт и навыки, которые нам требовались для этого проекта:

  • Журналисты, знающие, как работает система субсидирования общественного транспорта, и каковы риски; журналисты, знакомые с рынком автобусных компаний.

  • Программист, обладающий опытом в извлечении данных из интернета, их разборе и нормализации, извлечении информации из PDF-файлов и переводе их в таблицы Excel.

  • Статистик для проведения анализа данных и различных подсчетов.

  • Дизайнер для создания решений в области интерактивной визуализации данных.

Какие инструменты мы использовали?

Мы использовали в нашем «Исследователе субсидий» VBasic для приложений, макросы в Excel, Tableau Public и Junar Open Data Platform, а также Ruby on Rails, инструмент Google Сhart API и Mysql.

Проект оказал большое влияние. У нас были зафиксированы десятки тысяч просмотров, и расследование было отмечено на первой странице печатной версии La Nación.

Успех этого первого проекта в области журналистики данных помог нам на внутреннем уровне создать прецедент такой работы с данными, которая охватывала бы область расследовательской журналистики и предоставляла новый сервис общественности. Результатом этого стало появление Data.lanacion.com.ar, платформы, где мы публикуем данные по различным представляющим интерес для общественности данным в машиночитаемом формате.

Ангелика Перальта Рамос, La Nación, Аргентина