Пособие по журналистике данных 1.0
Loading

Данные в новостях: WikiLeaks

Рис 40. Военные отчеты от WikiLeaks (The Guardian)

Началось все с того, что один человек из группы, занимающейся расследовательской журналистикой, спросил: «Вы же хорошо умеете работать с электронными таблицами, не правда ли?» А это была просто чертовски большая таблица: 92 201 строка данных, и в каждой – подробности о каком-либо военном событии в Афганистане. Это были военные отчеты WikiLeaks. Мало того, только часть первая. За которой последуют еще две: посвященная Ираку и дипломатические депеши. Официальный термин для всего этого был такой – SIGACTS – база данных о значимых действиях американских военных.

Афганские военные отчеты – которые мы обрабатывали вместе с New York Times и Der Spiegel – были настоящей журналистикой данных в действии. Что мы хотели сделать, так это дать возможность нашей команде специалистов вытащить какие-то серьезные человеческие истории из этой информации – и мы также хотели проанализировать данные, чтобы получить картину в целом, и показать, как действительно шла и идет война.

Практически сразу мы пришли к важному решению, что мы не будем публиковать полную базу данных. WikiLeaks уже собиралась это сделать, а мы хотели убедиться в том, что мы не раскроем имена лиц, ставших источниками информации, или не будем без необходимости подвергать опасности войска НАТО. В то же время нам нужно было сделать данные более легкими для понимания, а также для использования нашей командой расследовательских журналистов, возглавляемой Дэвидом Леем (David Leigh) и Ником Дэвисом (Nick Davies) (которые вели переговоры с Джулианом Ассанжем о публикации данных). Мы также хотели упростить задачу извлечения ключевой информации, чтобы она стала доступной всему миру, была при этом ясной, понятной и открытой – в максимально возможной степени, насколько у нас это получится.

Данные поступили к нам в виде огромного «экселевского» файла – 92 201 строка данных, в некоторых не было вообще ничего или же они были плохо отформатированы. Это никоим образом не помогало журналистам, которые продирались сквозь эти данные в поисках сюжетов для материалов, и вдобавок сам файл был слишком велик, чтобы сделать по нему содержательный отчет.

Наша команда соорудила простую внутреннюю базу данных с использованием SQL. Журналисты теперь могли осуществлять поиск по ключевым словам или тем или иным событиям. Получилось, что внезапно набор данных стал доступным, и создавать материалы на его основе стало гораздо легче.

Данные были хорошо структурированы: каждое событие имело следующие ключевые характеристики: время, дату, описание, количество пострадавших, и – самое важное – точные данные долготы и широты места, где оно произошло.

Мы также начали фильтровать данные, что должно было помочь нам рассказать одну из ключевых историй войны: рост числа атак с использованием самодельных взрывных устройств – придорожных мин домашнего изготовления, которые совершенно непредсказуемы и с которыми очень трудно бороться. Но и этот набор данных по-прежнему оставался слишком массивным – однако управляться с ним стало легче. Всего было примерно 7 500 случаев применения самодельных взрывных устройств или внезапных нападений, засад (за таковую атаку мы считали нападение, сочетающееся с, допустим, небольшой перестрелкой или использованием реактивных гранат) за период с 2004 по 2009 годы. И еще 8 000 самодельных взрывных устройств были обнаружены и обезврежены. Мы хотели посмотреть, как эта ситуация менялась со временем – и сравнить. Эти данные дали нам возможность увидеть, что юг, территория, где базировались британские и канадские войска, был самым «горячим» в этом плане районом, там происходило больше всего подобных инцидентов – и эти данные только подкрепили то, что наши журналисты, освещавшие войну, уже знали.

Публикация военных отчетов об Ираке в октябре 2010 выставила на публичное обозрение еще 391 000 записей, на этот раз по иракской войне.

И это было уже кое-что иное по сравнению с утечкой по Афганистану – вполне можно было, воспользовавшись этим случаем, сказать, что эта война стала самой задокументированной войной в истории. Любая, даже самая мелкая, подробность теперь была доступна для нас для анализа, обработки и выводов. Но обращает на себя один фактор: большое количество смертей, причем большинство погибших – гражданские лица.

Как и в случае с Афганистаном, Guardian решил не перепубликовывать всю базу целиком, в значительной мере потому, что мы не могли быть уверены, что поля с описанием не содержат конфиденциальную информацию или данные о тех людях, кто был источником информации, и так далее.

Но мы дали возможность нашим пользователям скачать таблицу с записями о каждом инциденте, где кто-то погиб. Таковых набралось примерно 60 000. Мы удалили при этом поля с кратким описанием, так что остались только основные данные: военный заголовок, число погибших и географическая разбивка.

Мы также взяли все эти инциденты с жертвами, и нанесли их на карту при помощи таблиц Google Fusion. Вариант оказался не идеальный, но в любом случае это было начало процесса попытки составления карт для отображения всех примеров разрушений и уничтожений, которые опустошили Ирак.

В декабре 2010 года были опубликованы депеши. И это был еще более внушительный набор данных – огромное собрание официальных документов: 251 287 дипломатических донесений, из более чем 250 американских посольств и консульств по всему миру. Получилась уникальная картина американского дипломатического языка – она включала в себя более 50 000 документов, касающихся и нынешней американской администрации Барака Обамы. Но что именно включали в себя эти данные?

Сами депеши поступили через огромную безопасную сеть на базе интернет-маршрутизатора (Secret Internet Protocol Router Network – SIPRNet). SIPRNet – это всемирная интернет-система американских военных, которая существует отдельно от обычного гражданского интернета и управляется Министерством обороны в Вашингтоне. Со времен терактов 11 сентября 2001 года в США наблюдалось движение в сторону объединения архивов правительственной информации, в надежде, что ключевые разведданные больше не попадут в ловушку в информационных бункерах, не пострадают от противоречий между федеральными агентствами США. Все большее число американских посольств подключались к SIPRNet в последнее десятилетие, таким образом, становилось возможным обмениваться военной и дипломатической информацией. К 2002 году с SIPRNet работали 125 посольств, к 2005 это количество выросло до 180, а сейчас подавляющее большинство американских зарубежных дипмиссий подключены к этой системе. Вот почему большая часть опубликованных депеш датируется 2008-2009 годами. Как писал Дэвид Лей:

«Посольская депеша, помеченная тегом SIPDIS, автоматически загружается на секретный сайт посольства. Оттуда к ней может получить доступ не только любой человек в Госдепартаменте, но также и любой в американской военной структуре, у кого есть доступ к закрытой информации уровня «секретно», пароль и компьютер, подсоединенный к SIPRNet»

что удивительным образом охватывает более 3 миллионов человек. Тут есть несколько уровней данных; вплоть до SECRET NOFORN, тэга, который означает, что эта информация никогда и ни в коем случае не может быть показана иностранному гражданину. Такие документы, как предполагается, должны читаться чиновниками в Вашингтоне вплоть до уровня госсекретаря Хиллари Клинтон. Депеши обычно составляются местным послом или его подчиненными. К документам, на которых стоит гриф «совершенно секретно», или указание еще более высокого уровня сохранения тайны, не может быть получен доступ через SIPRNet.

В отличие от предыдущих релизов, тут, в случае с депешами, это был преимущественно текст, не выраженный в количественной форме и не содержавший идентичных данных. Вот что включали в себя депеши:

Источник

Посольство или орган, направивший депешу.

Список получателей

Обычно депеши отправлялись в ряд других посольств и организаций.

Поле «Тема»

Обычно краткое содержание депеши.

Тэги

Каждая депеша была снабжена рядом ключевых аббревиатур.

Основной текст

Собственно сама депеша. Мы решили не публиковать эту часть полностью по причинам безопасности объективного характера.

Один интересный нюанс этой истории заключается в том, как депеши смогли создать фактически утечки по заказу, в самый нужный момент. Они фигурировали в главных новостях в течение нескольких недель с момента публикации – а сейчас, когда бы ни возникал сюжет о том или ином коррумпированном режиме или международном скандале – доступ к депешам дает нам и доступ к новым новостным сюжетам и новым материалам.

Анализ депеш – огромная, масштабная задача, которая, возможно, никогда не будет завершена.

Это неотредактированная версия главы, которая впервые была опубликована в проекте «Факты священны» (Facts are Sacred): данные – Саймон Роджерс, The Guardian