Пособие по журналистике данных 1.0
Loading

Сеть как источник данных

Как можно узнать больше о том, что существует только в Интернете? Будь то адрес электронной почты, веб-сайт, изображение или статья в Википедии — в данной главе я расскажу вам об инструментах, которые помогут вам получить больше информации об этих элементах.

Веб-инструменты

Для начала назовем некоторые сервисы, с помощью которых можно узнать больше информации о веб-сайтах в целом.

Whois

Если вы посетите сайт whois.domaintools.com (или просто введете whois www.example.com в приложении Terminal.app, если вы работаете на компьютере Mac), вы получите базовую регистрационную информацию практически о любом сайте. В последние годы некоторые владельцы выбирают «приватную» регистрацию, которая не позволяет просматривать их данные, однако в большинстве случаев вы увидите имя, адрес, электронную почту и номер телефона лица, зарегистрировавшего сайт. Вы также можете ввести цифровой IP-адрес и получить данные об организации или физическом лице, являющихся владельцами этого сервера. Это особенно удобно, когда вы пытаетесь получить больше информации о лицах, которые, например, нарушают условия пользования каким-либо сервисом, так как большая часть веб-сайтов регистрирует IP-адрес своих посетителей.

Blekko

Поисковый движок Blekko предлагает необычно большой объем информации о внутренней статистике, которую он собирает в Интернете. Если вы введете доменное имя, и дополните его сочетанием «/seo», вы получите страницу с информацией об этом адресе. В первой табличке на Рис 57 показано, какие другие сайты ссылаются на данный домен (в порядке популярности). Это может оказаться полезным, когда вы хотите понять, какое освещение получает сайт, и если вы хотите понять, почему он занимает высокие места в результатах поиска Google, так как эти результаты основываются именно на этих ведущих на сайт ссылках. Рис 59 показывает, какие другие сайты размещаются на той же машине. Мошенники и спамеры нередко придают законный вид своей деятельности, создавая многочисленные сайты, которые ссылаются друг на друга. Внешне они выглядят как независимые домены и могут даже иметь разные регистрационные данные, однако зачастую они размещаются на одном и том же сервере, так как это значительно дешевле. Эта статистика позволит вам заглянуть внутрь скрытой бизнес-структуры исследуемого вами сайта.

Рис 57. The Blekko search engine (Blekko.com)
Рис 58. Understanding web popularity: who links to who? The other handy tab is "Crawl stats", especially the "Cohosted with" section. (Blekko.com)
Рис 59. Spotting web spammers and scammers (Blekko.com)
Compete.com

Ресурс Compete.com занимающийся опросом мнений американских потребителей, составляет подробную статистику использования большого количества сайтов, и некоторые из основных данных предоставляются бесплатно. Выберите вкладку «Site Profile» и введите доменное имя (Рис 60). В результате вы увидите график трафика сайта за последний год, данные о количестве посетителей и частоте посещений (см. Рис 61). Так как в основе получаемых данных лежат опросы, эти данные являются приблизительными, однако, когда у меня появлялась возможность сравнить их с внутренними аналитическими данными, я понимал, что они являются довольно точными. В частности, их можно принимать во внимание при сравнении между собой двух сайтов, т. к., несмотря на отсутствие абсолютных цифр для этих сайтов, они хорошо показывают относительную разницу в их популярности. Данный ресурс исследует только американских потребителей, поэтому данные по большей части иностранных сайтов будут довольно бедными.

Рис 60. Compete.com’s site profile service (Compete.com)
Рис 61. What’s in vogue? What’s in demand?: hotspots on the web (Compete.com)
Google’s Site Search

Функция, которая может оказаться чрезвычайно полезной, когда вы хотите исследовать содержание какого-либо конкретного домена — это ключевое слово «site:». Если вы добавите фразу «site:example.com» к вашему поисковому запросу, Google покажет только те результаты, которые находятся на указанном вами сайте. Вы можете еще больше сузить запрос, указывая префикс тех страниц, которые вас интересуют, например, «site:example.com/pages/», в результате чего вам будут показаны, отвечающие этому конкретному запросу. Это может оказаться полезным при поиске информации, которая находится в открытом доступе, но которая не рекламируется владельцами домена, поэтому выбор правильных ключевых слов может привести к обнаружению очень важной для вас информации.

Веб-страницы, изображения и видео

Иногда у вас может возникнуть желание исследовать активность, связанную с отдельным материалом, а не со всем веб-сайтом. Описанные далее инструменты помогут вам под разными углами посмотреть на то, как люди читают, комментируют, копируют и делятся контентом в Интернете.

Bit.ly

Я всегда пользуюсь bit.ly , когда я хочу узнать, как люди делятся друг с другом какой-то конкретной ссылкой. Чтобы воспользоваться сервисом, введите интересующий вас URL-адрес и щелкните по ссылке «Info Page+». В результате вы перейдете на страницу с полной статистикой (хотя вам может понадобиться нажать сначала «aggregrate bit.ly link», если вы зарегистрированы в этом сервисе). Вы сможете понять, насколько популярной является страница, включая ее обсуждение в Facebook и Twitter, а ниже вы увидите разговоры об этой ссылке, предоставленные сервисом backtype.com. Это сочетание данных о трафике и разговоров бывает весьма полезным, когда необходимо понять причины популярности сайта или страницы, а также узнать, кем именно являются их фанаты. Например, благодаря этим данным я получил весомые доказательства того, что преобладающие комментарии относительно низов и Сары Пэйлин были ошибочны.

Twitter

С бурным ростом популярности сервиса микроблогов он становится все более полезным в качестве показателя того, как люди делятся тем или иным контентом и что они о нем говорят. Получить результаты обсуждений какой-либо ссылки подозрительно легко. Вы просто вставляете интересующую вас ссылку в строку поиска, после чего вам может понадобиться только нажать «more tweets» (больше твитов), чтобы получить полный список результатов.

Кэш поисковика Google

Если страница становится причиной недовольства или конфликтов, издатель может решить удалить или изменить ее без признания данного факта. Если вы подозреваете, что происходит именно это, то прежде всего необходимо обратиться к кэшу Google, в котором эта страница хранится с момента последнего обхода Интернета поисковиком. Частота обходов постоянно возрастает, поэтому больше всего шансов получить желаемое будет в течение нескольких часов после предполагаемых изменений. Введите нужный URL в строку поиска, затем нажмите двойную стрелку, появляющуюся справа от результата для данной страницы. Появится окно предварительного просмотра, над которым, если вам повезет, будет ссылка «Сохраненная копия». Щелкните по ней, чтобы посмотреть сделанный поисковиком Google снимок страницы. Если вы сталкиваетесь с проблемами при загрузке, вы можете переключиться на более простую текстовую страницу, щелкнув по соответствующей ссылке вверху сохраненной страницы. Рекомендуется сделать скриншот или скопировать нужный вам контент, т. к. содержание кэша может измениться в любой момент в результате создания новых копий после очередного обхода.

Веб-сервис «Машина прошлого» проекта Архив Интернета

Если вы хотите знать, как изменялась конкретная страница на протяжении длительного периода времени, например, на протяжении месяцев или лет, вы можете воспользоваться веб-сервисом The Wayback Machine (Машина прошлого) проекта Internet Archive (Архив Интернета), который с определенной периодичностью делает снимки наиболее популярных страниц сети. Вы идете на сайт проекта, вводите адрес, который вы хотите изучить, и если в системе хранятся копии этой страницы, то вам будет показан календарь, на котором вы сможете выбрать нужный вам период времени. После этого вам будет показано, как выглядела страница в тот момент. Зачастую на страницах будут отсутствовать элементы стиля или изображения, однако и остального бывает вполне достаточно, чтобы понять, каков был основной контент страницы в прошлом.

Просмотр исходного кода

Это может отнять много времени, однако разработчики нередко оставляют комментарии или другую информацию в HTML-коде страницы. В любом браузере, пусть и в разных местах меню, имеется функция просмотра исходного кода, которая позволяет просматривать HTML-код. Вам не обязательно понимать, что означают машиночитаемые участки кода, просто просматривайте куски текста, которые нередко бывают раскиданы между ними Даже если это просто уведомления об авторском праве или имена разработчиков, эта информация может дать важные подсказки о создании и предназначении страницы.

TinEye

Иногда вам может понадобиться информация об источнике изображения, однако без сопроводительного текста такую информацию бывает трудно добыть с помощью традиционных поисковых движков, таких, как, например, Google. Сервис TinEye осуществляет «обратный поиск изображений», т. е. вы предоставляете изображение, а он находит в Интернете другие изображения, похожие на предоставленное вами. Т. к. в процессе сравнивания используется распознавание изображений, результат можно получить, даже если копия была обрезана, деформирована или сжата. Этот сервис может оказаться очень полезным, если вы подозреваете, что изображение, которое выдается как оригинальное или новое, таковым не является, кроме того, этот сервис может привести вас к реальному источнику изображения.

YouTube

Щелкнув значок «Статистика» в нижнем правом углу любого видео, вы получите богатый набор информации об аудитории этого видео на протяжении определенного времени. Несмотря на то, что предоставляемая информация не является полной, она может оказаться полезной для понимания состава зрителей, того, откуда и когда они приходят.

Адреса электронной почты

При изучении адресов электронной почты вам зачастую хочется узнать больше о личности и местоположении отправителя. Хороших готовых инструментов для этого не существует, однако очень полезно обладать базовыми знаниями о скрытых заголовках, входящих в состав каждого электронного письма. Они работают как почтовые марки и могут раскрыть неожиданный объем информации об отправителе. В частности, они часто включают в себя IP-адрес компьютера, с которого было отправлено письмо, что напоминает функцию определителя номера в телефонном аппарате. Вы можете изучить этот адрес с помощью сервиса whois, чтобы найти информацию об организации, которой принадлежит этот компьютер. Если окажется, что владельцем является какой-нибудь крупный интернет-провайдер вроде Comcast или AT&T, вы можете посетить ресурс MaxMind, чтобы узнать приблизительное местоположение этого адреса. Чтобы посмотреть эти заголовки в Gmail, откройте письмо, затем откройте меню рядом с кнопкой «Ответить» в верхнем правом углу и выберите «Показать оригинал». Откроется новая страница, на которой будет показано скрытое содержимое. В начале письма будет пара десятков строк, представляющих собой слова с двоеточиями. Нужный вам IP-адрес может находиться где-то среди них, однако его название будет зависеть от того, откуда было отправлено это электронное письмо. Если оно было отправлено с Hotmail, имя будет выглядеть как «X-Originating-IP:», но если оно было отправлено из Outlook или Yahoo, имя будет находиться в первой строке и начинаться со слова «Received:». Проверка адреса с помощью сервиса whois показала, что он принадлежит компании Virgin Media, интернет-провайдеру из Великобритании, а после проверки с помощью сервиса геолокации MaxMind я выяснил, что письмо было отправлено из моего родного города Кембридж. Т. е. я небезосновательно могу быть уверенным в том, что это письмо было отправлено моими родителями, а не какими-нибудь самозванцами!

Тенденции

Если вы ведете расследование по какой-то широкой теме, а не по отдельному сайту или статье, вам может пригодиться пара инструментов.

Трафик статей Википедии

Если вы хотите знать, как менялся со временем общественный интерес к лицу или какой-то теме, на сайте stats.grok.se/ вы можете получить данные о просмотре любой из страниц Википедии день за днем. Этот сайт немного сыроват и не доделан, однако он позволит вам получить необходимую информацию, приложив лишь толику усилий. Введите интересующее вас имя, чтобы получить информацию о месячном трафике этой страницы. Там будет график, показывающий, сколько раз в день просматривали данную страницу на протяжении выбранного месяца. К сожалению, за один раз вы можете посмотреть данные только за один месяц, поэтому, чтобы отследить более долгосрочные изменения, вам будет нужно выбрать новый месяц и задать новый поиск.

Сведения о поиске в Google

Вы можете получить ясное представление о поисковых предпочтениях пользователей с помощью сервиса Insights from Google. Введите пару распространенных поисковых фраз, например, «Justin Bieber» и «Lady Gaga», и вы увидите график, отображающий количество поисков на временной шкале. Сервис предлагает различные варианты представления данных, позволяет просматривать их по регионам или получать больше данных по тому или иному периоду. Единственный недостаток — отсутствие абсолютных показателей, вы получаете только относительные значения в процентах, которые бывает сложно интерпретировать.

Рис 62. Google Insights (Google)

Пит Уорден, независимый разработчик и аналитик данных.