Пособие по журналистике данных 1.0
Loading

За кулисами в Guardian Datablog

Рис 17. Визуализированный производственный процесс Guardian Datablog (The Guardian)

Когда мы запустили проект Datablog, мы не имели понятия, кто будет интересоваться исходными данными, статистикой и визуализациями. Как сказал некто весьма высокопоставленный в моем офисе, «зачем это может кому-то понадобиться?»

Проект Guardian DatablogGuardian Datablog — который я редактирую — должен был стать небольшим блогом, предлагающим полные наборы данных, лежащих в основе наших материалов. Сейчас он состоит из первой страницы (guardian.co.uk/data); функции поиска по данным мирового правительства и глобального развития; решений в области визуализации данных из сети и от художников-графиков Guardian, и инструментов для изучения данных о государственных расходах. Каждый день мы используем таблицы Google, чтобы делиться с людьми данными, которые мы использовали в нашей работе; мы визуализируем и анализируем эти данные, потом используем их для создания сюжетов и материалов для газеты и интернет-сайта.

Для редактора новостей и журналиста, работающего с графикой, это было логическим продолжением и расширением работы, которую я уже делал, аккумулируя новые наборы данных и споря с ними в попытке разобраться и увидеть смысл в новостных сюжетах дня.

На вопрос, который мне задавали, уже был у нас ответ. Это были невероятные несколько лет для общедоступных данных. Обама своим первым законодательным актом открыл хранилища данных американского правительства, и за ним последовали сайты правительственных данных по всему миру – в Австралии, в Новой Зеландии, и британский портал правительственных данных Data.gov.uk.

У нас был скандал с расходами парламентариев – самый неожиданный пример журналистики данных в Британии – а его итогом стало то, что английский парламент стал приверженцем публикации огромных объемов данных каждый год.

У нас были всеобщие выборы, на которых каждая из ведущих политических партий была привержена идее прозрачности в том, что касается данных, открывая наши собственные хранилища данных для доступа всего мира. Наши газеты посвящали ценнейшие абзацы и места на полосах раскрытию информации из базы данных казначейства COINS.

В то же самое время, по мере того как интернет выдает все больше и больше данных, читатели со всего мира начинают гораздо больше, чем раньше, интересоваться исходными данными, которые лежат в основе тех или иных сюжетов и информационных материалов. Когда мы запускали Datablog, мы думали, что его основную аудиторию составят разработчики, конструирующие приложения. Но на самом деле основную аудиторию проекта составили простые люди, которые хотели больше знать о выбросах СО2 или о восточноевропейской иммиграции или о росте смертельных случаев в Афганистане, или даже о том, сколько раз группа Beatles использовала слово «любовь» (love) в своих песнях (613).

Постепенно работа Datablog’а дала результат и начала вносить свой вклад в сюжеты, которые мы готовили и с которыми сталкивались. Мы осуществили поиск по 485 000 документов, имеющих отношение к расходам парламентариев, и проанализировали подробную информацию о том, какие парламентарии что говорили и заявляли. Мы помогли нашим читателям исследовать и изучить подробные базы данных о расходах Министерства финансов и опубликовали данные в дополнение к новостям.

Но фактором, который без преувеличения стал переломным моментом для журналистики данных, стала одна таблица, появившаяся весной 2010 года: 92 201 строчка данных, каждая из которых содержала подробный расклад какого-то военного события в Афганистане. Это были документы о войне, раскрытые WikiLeaks. Часть первая, кстати говоря. За которой последовали еще две – документы о войне в Ираке и дипломатические депеши. Официальный термин для обозначения первых двух частей – SIGACTS: База данных американского военного ведомства о значимых действиях.

В информационных организациях очень важна география – и близость к редакции. Если вы близки к ней, легко предлагать сюжеты и быть частью процесса; и наоборот, если вы физически далеко, то и обо всем остальном в плане проявления активности можно забыть. До появления массивов документов от WikiLeaks мы сидели на разных этажах с графической службой. Со времен WikiLeaks мы поселились на одном этаже, и прямо рядом с редакционным блоком. Это означало, что нам стало легче предлагать и продвигать свои идеи, а журналистам в ньюсруме стало проще просить нас о помощи при подготовке сюжетов и материалов.

Еще не так давно журналисты были блюстителями и цензорами официальных данных. Мы писали сюжеты о цифрах и выдавали их благодарной публике, которая не интересовалась исходной статистикой. Идея о том, что мы можем поделиться с кем-то нашими исходными данными, выдать их для публикации в наших газетах, была просто кощунственной, по крайней мере, это казалось точно чем-то невообразимым.

Сейчас данная динамика изменилась до неузнаваемости. Наша роль начинает заключаться в том, чтобы служить переводчиками, помогая людям понимать данные – и даже просто публикуя их потому, что они интересны сами по себе.

Но цифры без анализа – это просто цифры, и тут нам стоит вмешаться. Когда британский премьер-министр заявил, что беспорядки августа 2011 года не были связаны с проблемой нищеты, мы смогли составить карту, нанеся на нее адреса участников беспорядков и наложив информацию об уровне бедности по этим адресам, чтобы продемонстрировать правду, стоящую за этим заявлением.

Ну и наконец, важно то, что сюжеты и материалы из области журналистики данных – это процесс. Наполнение в них все время меняется, по мере того, как мы используем новые методы, новую технику, новые инструменты. Некоторые говорят, что главной фигурой становится своего рода супер-программист, пишущий код и погружающийся в SQL. Можно решить использовать и такой подход. Но значительная часть работы, которую мы делаем, выполняется просто в Excel.

Прежде всего, мы определяем и дислоцируем данные, или получаем их из разных источников, из срочных новостей, из правительственных данных, из результатов журналистских поисков, и так далее. Затем мы начинаем анализировать, что мы можем сделать с данными – и нужно ли нам объединить их с другим массивом данных? Как мы можем продемонстрировать происходящие с течением времени изменения? Эти таблицы часто приходится серьезно отчищать – все эти посторонние столбцы и странным образом объединенные ячейки на самом деле не помогают. И это еще мы исходим из того, что это не PDF – наихудший формат представления данных из всех, известных человечеству.

Часто официальные данные поступают с добавленными к ним официальными кодами – каждая школа, больница, избирательный округ и местный орган власти имеют свой уникальный идентификационный код.

У стран они тоже есть (код Великобритании, например – GB). Они полезны, потому что вы можете захотеть начать смешивать базы данных, соединяя их, и тогда по-настоящему впечатляет – насколько же много различных вариантов произношения, написания и сочетания слов может встретиться вам на этом пути. Например, это Бирма и Мьянма, или округ Файетт в США – таковых округов, под одинаковым названием, в стране 11 – в самых разных штатах, от Джорджии до Западной Вирджинии. Коды позволяют нам сравнивать подобное с подобным.

В конце этого процесса получаем результат; будет ли это сюжет, или графический проект, или визуализация, и какие инструменты мы будем применять? Нашими основными инструментами являются бесплатные инструменты, с помощью которых мы можем что-то сделать быстро. Более сложную графику делает наша команда разработчиков.

Что означает, что чаще всего мы пользуемся Google Charts для небольших графиков и диаграмм или Google Fusion Tables для быстрого и легкого создания карт.

Все это может показаться новым, но на самом деле таковым не является.

В самом первом выпуске Manchester Guardian, который вышел в свет в субботу, 5 мая 1821 года, новости были на последней странице, как у всех газет в тот день. А первым номером на первой странице было большое объявление о пропавшем лабрадоре.

И, помимо сюжетов и поэтических отрывков, треть последней страницы занимают, ну, скажем так, факты. Всеобъемлющая таблица стоимости обучения в школах в районе никогда ранее «не выкладывалась на обозрение общественности», - пишет «NH».

NH хотел, чтобы его данные были опубликованы, потому что в противном случае факты будут оставлены на долю неподготовленных священнослужителей. Его мотивация заключалась в том, что «та информация, которая в них содержится, является ценной; потому что, без знаний о той степени, в которой образование… преобладает, даже самое лучшее мнение, которое можно будет составить о состоянии и будущем прогрессе общества, обязательно будет неверным». Другими словами, если люди не знают, что происходит, как может общество становиться лучше?

Я не могу представить себе лучшего разумного объяснения для того, чем мы пытаемся заниматься. Сейчас то, что когда-то было материалом для последней страницы, выходит на лучшие места на первых полосах.

Саймон Роджерс, The Guardian