Пособие по журналистике данных 1.0
Loading

Журналистика данных в перспективе

В августе 2010 года некоторые коллеги и я организовали то, что, как мы считаем, было первыми международными конференциями по журналистике данных, which took place in Amsterdam. At this time there wasn’t a great deal of discussion around this topic and there were only a couple of organizations that were widely known for their work in this area.

  1. Они проходили в Амстердаме. В то время на эту тему не велось особых дискуссий, и была лишь пара организаций, которые были широко известны своими работами в данной области.

Способ, которым медийные организации, такие как Guardian и New York Times, обрабатывали огромные объемы данных, опубликованных WikiLeaks, стал одним из основных шагов, которые придали данному термину известность. Примерно в это время термин начал более широко использоваться, вместе с «компьютерной журналистикой», для того, чтобы описать, как журналисты используют данные для улучшения качества освещения событий и увеличения числа глубоких исследований на заданную тему.

Общаясь с опытными журналистами данных и учеными в области журналистики в Twitter , приходишь к выводу, что одна из самых ранних формулировок того, что мы ныне признаем журналистикой данных, была дана в 2006 году Эдрианом Головатым (Adrian Holovaty), основателем проекта EveryBlock – информационной службы, которая позволяет пользователям искать и находить то, что произошло в их районе, в их квартале. В своем коротком эссе под названием «Фундаментальный путь, которым должны измениться газетные сайты» («A fundamental way newspaper sites need to change»)он заявляет, что журналисты должны публиковать структурированные, машиночитаемые данные, вместе с традиционными «большими массами текста»:

Например, предположим, в газете опубликована печатная заметка о местном пожаре. Если есть возможность прочитать эту статью на сотовом телефоне – это здорово и прекрасно, просто щегольски. Ура, технологии! Но что я действительно хочу, чтобы было возможно сделать, так это изучить исходные данные этой истории, один за другим, со всеми слоями атрибуции и ссылок на источники, с инфраструктурой для сравнения данных пожара – даты, времени, места, жертв, номера пожарной части, расстояния от пожарной части, имен и уровня опыта пожарных на месте события, времени, которое потребовалось пожарным для того, чтобы прибыть на место происшествия – с подробными данными о предыдущих пожарах. И последующих пожаров, когда/если они произойдут.

Но что отличает это от других форм журналистики, которые используют базы данных или компьютеры? Как – и до какой степени – журналистика данных отличается от других форм журналистики прошлого?

«Компьютерная журналистика» и «точность журналистики»

Использование данных для улучшения репортажей и предоставления структурированной (если не машиночитаемой) информации общественности имеет долгую историю. Возможно, наиболее непосредственное отношение к тому, что мы сейчас называем журналистикой данных, имеет «компьютерная журналистика» (computer-assisted reporting – CAR), которая была первым организованным, систематическим подходом к использованию компьютеров для сбора и анализа данных для улучшения новостей.

CAR впервые была использована в 1952 году CBS для предсказания результатов президентских выборов. С 1960-х годов журналисты (в основном, занимавшиеся расследовательской журналистикой, и в основном из США) стремятся независимым образом контролировать власть путем анализа баз данных по информации из открытых источников научными методами. В рамках этого подхода, также известного как «журналистика общественного служения», сторонники этой журналистской техники, реализуемой при помощи компьютера, стремились выявлять тенденции, развенчивать общеизвестные истины или заблуждения и раскрывать данные о всяческих несправедливостях, творимых государственными властями или частными корпорациями. Например, Филип Мейер (Philip Meyer) пытался развенчать общепринятую трактовку беспорядков 1967 года в Детройте – чтобы показать, что в них участвовали не только малообразованные южане. Сюжеты Билла Дедмена (Bill Dedman) из серии «Цвет денег» в 1980-е годы раскрывали информацию о систематических расовых предрассудках в кредитной политике ведущих финансовых институтов. В своей работе «Что пошло не так» Стив Дойг стремился проанализировать ущерб от урагана «Эндрю» в начале 1990-х годов, чтобы понять, в какой степени на силу этого ущерба оказали влияние недостатки в области политики и практики городского развития. Репортажи на основе данных стали ценной общественной работой и позволили журналистам завоевать известные награды.

В начале 1970-х был придуман термин «прецизионная журналистика», чтобы описать этот новый тип сбора новостей: «применение социальных и поведенческих научно-исследовательских методов к журналистской практике». Прецизионная журналистика, как предполагалось, должна была использоваться в ведущих медийных организациях профессионалами в области журналистики и общественных наук. Этот термин родился в ответ на другой термин, «новый журнализм» или «новая журналистика» - форма журналистики, при которой к созданию репортажей применялась литературно-художественная техника. Мейер предполагает, что научная техника сбора данных и анализ – это именно то, что нужно журналистике, чтобы осуществлять свой поиск объективности и правды, а вовсе не литературные приемы.

Прецизионную журналистику можно понять как реакцию на некоторые из часто упоминаемых слабостей и недостатков журналистики: зависимость от пресс-релизов (позднее ее стали называть «чурналистикой»), предвзятость и предубеждение по отношению к авторитетным источникам, и так далее. По мнению Мейера, все это вытекает из недостатка информационной научной техники и научных методов, таких как опросы, документы публичного характера, общественные архивы, информация из открытых источников. В 1960-х годах практиковалось, чтобы прецизионная журналистика представляла маргинальные группы и связанные с ними сюжеты. По словам Мейера:

«Прецизионная журналистика была способом расширить набор инструментов репортера, чтобы освещать темы, которые ранее были недоступны, или лишь псевдодоступны, в зависимости от степени журналистской въедливости и тщательности журналиста. Она была особенно полезной, когда надо было заставить услышать голос меньшинства и групп диссидентов, которые боролись за представительство».

Влиятельная статья, опубликованная в 1980-е годы об отношениях между журналистикой и социальными, общественными науками, перекликается с нынешними дискуссиями вокруг журналистики данных. Авторы, два американских профессора в области журналистики, предполагают, что в 1970-е и 1980-е годы общественное понимание того, что такое новости, расширяется, и начинает представлять собой уже не узкую концепцию «новостных событий», а «создание ситуационных репортажей», или информирование о социальных тенденциях, тенденциях общественного развития. Используя базы данных по, например, переписи или какому-то исследованию, журналисты могут «выйти за рамки создания репортажей по конкретным, изолированными событиям, и начать предлагать контекст, который будет придавать этим событиям смысл и значение».

Как и следовало ожидать, практика использования данных для улучшения репортажей берет свое начало еще из тех времен, когда вокруг нас просто появились «данные». Как отмечает Саймон Роджерс, первым примером журналистики данных в Guardian был материал еще 1821 года. Это список школ Манчестера с указанием числа школьников, которые их посещали, и затрат на школу. По данным Роджерса, это дало возможность впервые показать реальное количество учеников, получающих бесплатное образование, и это число было гораздо выше, чем демонстрировали официальные данные.

Рис 11. Журналистика данных в Guardian в 1821 году (The Guardian)

Еще один ранний пример в Европе – это Флоренс Найтингейл и ее ключевое исследование «Смертность в британской армии» (‘Mortality of the British Army’), опубликованное в 1858 году. В своем отчете перед парламентом она использовала графики, чтобы выступить за улучшения в системе здравоохранения в британской армии. Самыми известными являются ее круговые секторные диаграммы, каждая из которых представляла собой информацию о смертях за месяц, и эти диаграммы ярко показали, что подавляющее большинство смертельных случаев было связано с предотвратимыми заболеваниями, а не с вражескими пулями.

Рис 12. Смертность в британской армии – от Флоренс Найтингейл (Florence Nightingale) (Изображение с Википедии)

Журналистика данных и создание репортажей при помощи компьютера

В настоящее время вокруг термина «журналистика данных» идут по всему миру споры о «преемственности и изменениях», а также о ее связи с этими предшествующими журналистскими практиками, в которых задействуется вычислительная техника для анализа наборов данных.

Некоторые считают, что есть разница между CAR и журналистикой данных. Они говорят, что CAR – это техника для сбора и анализа данных как способ усовершенствования и повышения качества журналистики (как правило, расследовательской), в то время как журналистика данных обращает внимание на способ, которым эти данные укладываются в общий журналистский рабочий процесс. В этом смысле журналистика данных уделяет столько же – если не больше – внимания самим данным, вместо того, чтобы использовать данные просто как средство для обнаружения или совершенствования сюжетов. Отсюда получаем, что Guardian Datablog или Texas Tribune публикуют наборы данных вместе с сюжетами, или даже просто наборы данных сами по себе, чтобы люди их исследовали и анализировали.

Еще одним отличием является то, что в прошлом журналисты, занимавшиеся расследовательской журналистикой, страдали бы от скудности информации по тому вопросу, на который они пытались ответить, или по той проблеме, о которой они собирались бы писать. И хотя это и сейчас, конечно, имеет место быть, тем не менее, в наличии имеется также подавляющее изобилие информации, с которой журналисты не обязательно знают что делать. Они не знают, как извлечь пользу из данных. Свежим примером является «Объединенная онлайн-информационная система» (Combined Online Information System), крупнейшая в Великобритании база данных, составленная из информации по расходам – создания которой так долго требовали сторонники прозрачности, но которая при этом озадачила и поставила в тупик многих журналистов после своего выхода. Как недавно написал мне Филип Мейер, «пока информации было мало, большая часть наших усилий была направлена на то, чтобы разыскать и собрать ее. Сейчас, когда информации в изобилии, более важна ее обработка».

С другой стороны, некоторые считают, что нет какого-то особого, значимого различия между журналистикой данных и компьютерной журналистикой. Сейчас совершенно очевидно, что даже у самых современных медийных практик, методов и норм есть история, а в них самих присутствует что-то новое. Вместо того, чтобы спорить о том, является ли журналистика данных совершенно новым явлением или нет, более плодотворной позицией было бы считать ее частью давней традиции, но появившейся при этом в ответ на новые обстоятельства и условия. Даже если бы не было разницы в целях, задачах и технике, возникновение термина «журналистика данных» в начале века означает новую фазу, в которой огромные объемы данных совершенно открыто доступны в сети, объединены со сложными пользовательско-центричными инструментами, а инструменты самостоятельной публикации и краудсорсинга позволяют большему количеству людей работать с бОльшими объемами данных легче, чем когда бы то ни было.

Журналистика данных связана с массовой грамотностью в том, что касается данных

Цифровые технологии и интернет фундаментальным образом меняют способ, которым публикуется информация. Журналистика данных – одна из частей экосистемы инструментов и методов, которая выросла вокруг сайтов и услуг данных. Цитировать и делиться первоисточниками – эти действия заложены в самой природе гиперссылочной структуры всемирной паутины, это такой способ навигации по информации и по данным, к которому мы привыкли сегодня. Пойдем дальше: принцип, который лежит в основе гиперссылочной структуры сети – это суть тот же принцип цитирования, применяемый в академических трудах. Цитировать и делиться источниками и данными, которые лежат в основе сюжетов – это один из базовых, основных способов, которыми журналистика данных может улучшить журналистику вообще, это то, что основатель проекта WikiLeaks Джулиан Ассанж называет «научной журналистикой».

Давая возможность всем и каждому копаться в источниках данных и искать и находить информацию, которая имеет отношение к ним самим, а также проверять утверждения и бросать вызов общепринятым предположениям, допущениям и гипотезам, журналистика данных фактически представляет собой массовую демократизацию источников, инструментов, техник и методологий, которые ранее использовались специалистами – будь то журналистами, занимающимися расследовательской журналистикой, социологами, обществоведами, статистиками, аналитиками или другими экспертами. И хотя в настоящее время цитирование и ссылки на источники данных являются особенностью журналистики данных, мы движемся по направлению к такому миру, в котором данные будут легко интегрированы в ткани СМИ. Журналисты данных играют важную роль, способствуя снижению барьеров понимания и детального исследования и изучения данных, а также увеличивают грамотность своих читателей в том, что касается данных, в массовом масштабе.

В настоящий момент зарождающееся сообщество людей, которые называют себя журналистами данных, в значительной степени отличается от более зрелого сообщества экспертов в области компьютерной журналистики. Хочется надеяться, что в будущем мы увидим более сильные связи между этими двумя сообществами, во многом в таком же виде, в каком мы видели связь и сотрудничество между новыми неправительственными организациями и организациями альтернативной, гражданской журналистики, такими как ProPublica и Бюро расследовательской журналистики (Bureau of Investigative Journalism), с традиционными новостными СМИ, в том, что касается расследований. Хотя сообщество журналистики данных, возможно, обладает более инновационными способами предоставления данных, создания сюжетов и представления итоговых репортажей, глубоко аналитический и критический подход сообщества компьютерной журналистики – это такой подход, у которого журналистика данных определенно может поучиться.

Лилиана Бонегру, Европейский центр журналистики