Пособие по журналистике данных 1.0
Loading

Краткий справочник

Рис 52. datacatalogs.org (Open Knowledge Foundation)

Ищите данные по конкретной теме или вопросу? Не знаете, какие данные имеются и где их найти? Не знаете, с чего начать? В данном разделе мы узнаем о том, с чего начинать поиск открытых источников информации в сети.

Направьте ваш поиск в нужное русло

Многие базы данных в Интернете, даже те, которые бывает трудно найти, проиндексированы поисковиками, причем независимо от того, хотел их издатель того или нет. Вот несколько подсказок по поиску:

  • При поиске данных убедитесь, что вы ввели в поисковый запрос как термины, относящиеся к содержанию данных, которые вы хотите найти, так и некоторую информацию, относящуюся к формату или источнику, в котором, как вы ожидаете, находятся эти данные. Например, вы можете искать только таблицы (дополняя ваш поисковый запрос указателями типов файлов «filetype:XLS filetype:CSV»), географические данные («filetype:shp») или выдержки из баз данных («filetype:MDB, filetype:SQL, filetype:DB»). Если вы захотите, вы можете искать даже PFD-файлы («filetype:pdf»).

  • Также можно вести поиск по части URL-адреса. Введя в запрос при поиске в Google «inurl:downloads filetype:xls», вы будете искать файлы Excel, в веб-адресе которых есть слово «downloads» (если вы найдете всего один загружаемый файл, зачастую имеет смысл проверить, какие имеются другие результаты для той же папки на веб-сервере). Вы также можете ограничить свой поиск отдельным доменным именем, задав в условиях поиска, например, «site:agency.gov».

  • Еще одним популярным способом является поиск не непосредственных результатов, а тех мест, в которых могут находиться данные. Например, введение в условия поиска запроса «site:agency.gov Directory Listing» приведет к тому, что вы получите некоторые созданные веб-сервером списки, предоставляющие удобный доступ к исходным файлам, в то время как запрос «site:agency.gov Database Download» выдаст в результатах специально созданные списки.

Поиск по сайтам и сервисам баз данных

В последние годы в Интернете появился ряд посвященных базам данных порталов, хабов и других сайтов, на которых вы можете ознакомиться с хранящимися там данными. Для начала вы можете обратить внимание на следующие из них:

  • Официальные порталы данных.
    Различные страны по разному относятся к раскрытию тех или иных баз данных. Все больше стран запускают порталы данных (вдохновляемые такими сайтами, как американский data.gov или английский data.gov.uk) для предоставления возможности гражданскому обществу и коммерческим организациям пользоваться предоставляемой властями информацией. На ресурсе datacatalogs.org вы сможете найти самый актуальный глобальный перечень таких сайтов. Еще одним удобным сайтом является Guardian World Government Data, поисковик, включающий в себя большое количество каталогов баз данных, публикуемых иностранными правительствами.

  • The Data Hub
    Ресурс, поддерживаемый фондом «Открытая информация» (Open Knowledge Foundation), который способствует легкому поиску, обмену и использованию открытых доступных источников данных, в частности, благодаря автоматизации данных процессов.

  • ScraperWiki
    Онлайн-инструмент, облегчающий «извлечение полезных битов данных, которые затем могут использоваться в других приложениях или внимательно изучаться журналистами и исследователями». Большая часть «скребков» и собираемых ими баз данных находятся в открытом доступе и могут свободно использоваться.

  • Порталы данных Всемирного банка и Организации Объединенных Наций содержат высококачественную информацию обо всех странах, зачастую за много лет.

  • Появился ряд новых проектов, преследующих своей целью построить сообщества вокруг обмена данными и их перепродажи. К ним относятся, например, Buzzdata, — место, посвященное обмену частными и открытыми базами данных и сотрудничеству в данной сфере, и такие магазины данных, как Infochimps, и DataMarket.

  • DataCouch — Место, куда вы можете загрузить свои данные, обработать их, поделиться ими или визуализировать их.

  • Интересный проект Google Freebase предлагает «сущностной график людей, мест и вещей, созданный сообществом, любящим открытые данные».

  • Исследование данных.
    Многочисленные национальные или отраслевые агрегаторы исследовательских данных, такие как, например, UK Data Archive. В то время как многие данные являются бесплатными, существует также большое количество баз данных, для использования которых необходима подписка или которые не могут использоваться или распространяться без предварительного разрешения.

Поиск на форумах

Вы можете поискать ответы на вопросы других пользователей или задать свой вопрос на таких ресурсах, как Get The Data или on Quora. GetTheData — это сайт вопросов и ответов, на котором вы можете задавать вопросы, связанные с базами данных, в т. ч. о том, где можно найти данные, относящиеся к конкретному вопросу, как следует строить поисковые запросы или извлечь какой-то конкретный источник данных, какие инструменты использовать для наглядного исследования базы данных, как очистить базу данных или преобразовать ее в формат, с которым вы сможете работать.

Поиск в списках рассылок

Списки рассылок сочетают в себе знания целого сообщества по какому-то конкретному вопросу. Для журналистов, занимающихся изучением данных, ресурсы Data Driven Journalism List и the NICAR-L являются превосходными отправными точками. Среди подписчиков этих списков — большое количество журналистов, занимающихся данными, и поклонников компьютезированных отчетов (Computer Assisted Reporting (CAR)), работающих над самыми разными проектами. Вполне возможно, что кто-то уже занимался вопросом, подобным вашему, и имеет представление, с чего нужно начинать, или даже знает, где взять необходимые данные. Также можно посетить ресурсы Project Wombat («место обсуждения трудных вопросов»), списки рассылок фонда Open Knowledge Foundation, списки рассылок на сайте theInfo, или самостоятельно провести поиск списков рассылок по интересующей вас теме или региону.

Присоединиться к сообществу Hacks/Hackers

Hacks/Hackers — это быстро развивающаяся международная общественная журналистская организация, располагающая десятками отделений и тысячами членов на четырех континентах. Ее миссия заключается в создании сети журналистов («hacks») и технических специалистов («hackers»), которые изменяют будущее новостей и информации. Шансы на то, что в такой широкой сети профессионалов вы сможете найти человека, знающего, где можно найти то, что вы ищете, довольно высоки.

Спросить эксперта

Преподаватели, государственные служащие и представители той или иной отрасли зачастую знают, где необходимо искать то, что нужно. Позвоните им. Напишите им по электронной почте. Подойдите к ним на каком-нибудь мероприятии. Придите к ним в офис. Вежливо спросите. «Я пишу статью о том-то и том-то. Вы не знаете, где я могу найти такую информацию? Может быть, Вы знаете, у кого она может быть?»

Узнайте побольше об IT-структуре органов власти

Понимание технических и административных условий, в которых органы власти хранят свою информацию, часто оказывается полезным при поиске доступа к данным. Будь то CORDIS, COINS или THOMAS — все эти базы данных, название которых состоит сплошь из прописных букв, зачастую становятся более полезными после того, как вы чуть больше узнаете о том, зачем они были созданы.

Найдите схемы структурной организации правительства и поищите в них департаменты/подразделения, исполняющие сходные функции (например, отчетность, IT-услуги), а затем изучите их веб-сайты. Многочисленные ведомства ведут многочисленные базы данных, и в то время как одни из них берегут свои данные как зеницу ока, другие могут поделиться ими с вами совершенно бесплатно.

Обратите внимание на динамичную инфографику на правительственных сайтах. В основе этих элементов нередко лежат структурированные источники данных/API (интерфейсы программирования приложений), которые могут быть использованы самостоятельно (например, приложения расписаний авиарейсов или java-приложения прогнозов погоды).

Снова проведите поиск, используя фразы и самые невероятные наборы слов, с которыми вы столкнулись с момента последнего поиска

Когда вы знаете больше о том, что вы ищете, у вас больше шансов получить от поисковиков нужный результат!

Напишите запрос на основании законодательства о свободе информации

Если вы считаете, что у какого-либо ведомства имеются необходимые вам данные, то наилучшим способом их получения может оказаться запрос на основании законодательства о свободе информации. Далее мы познакомимся с информацией о том, как следует составлять такой запрос.

Брайан Бойер (Chicago Tribune), Джон Киф (WNYC), Фридрих Линденберг (Open Knowledge Foundation), Джейн Парк (Creative Commons), Крис Ву (Hacks/Hackers)