16.04.2024

Что нужно, чтобы сделать 165-летнюю журналистику доступной в Интернете

1 min read

Оцифровка архива The Atlantic и превращение его в продукт для читателей — две разные вещи. Вот как мы сделали оба.

Это было, прежде всего, редакционным императивом. Правильный поступок для наших читателей.

Как говорит заместитель исполнительного редактора The Atlantic Сара Ягер, журналистика на самом деле заключается в том, чтобы фиксировать мир вокруг нас. Речь идет о документировании того, что происходит, и, надеюсь, о том, чтобы помочь читателям понять это. И есть огромная ценность в том, чтобы учиться на том, что происходило в прошлом, и на том, как история интерпретировалась в режиме реального времени.

The Atlantic хотела оцифровать свой архив с тех пор, как в 1995 году начала публиковаться в Интернете. В тот момент веб-сайт нашего журнала предоставил людям новую возможность читать журналистские статьи, которые мы писали в тот день, в Интернете. Наш журнал, однако, непрерывно печатался и издавался с осени 1857 года. Было много историй, к которым наши читатели не могли получить доступ в Интернете. Время от времени редакторы вручную воспроизводили архивные статьи, но масштабная задача сделать архив доступным оставалась невыполнимой почти три десятилетия.

Как взять десятки тысяч слов с наших печатных страниц и опубликовать их в Интернете? Как вдруг The Atlantic перейдет от того, чтобы не предлагать этот контент, к тому, чтобы он был в его структуре данных, на его веб-сайте? Каковы механические шаги, чтобы добраться туда? Это были некоторые из вопросов, которые задавали себе наши коллеги по продуктам и технологиям в мае 2021 года, когда журнал поставил перед собой задачу разместить архив в Интернете.

Первые шаги
В начале проекта такого масштаба существует множество различных представлений о том, как он должен выглядеть, обо всех функциях, которые он может включать. Как объясняет исполнительный директор по продуктам Карсон Тробич, может быть трудно понять, как сделать первые шаги чего-то такого масштабного.

«Вам нужно определить пределы своих амбиций и приложить первоначальный энтузиазм к исследованиям».

Карсон Тробич, исполнительный директор, продукт

Чтобы сориентировать наше видение и найти первые шаги, наши коллеги по продукту изучили 20 издателей, чтобы узнать, как они обновляют и переупаковывают архивный контент.

Команда определила, что архивы некоторых издателей состояли только из отсканированных печатных страниц, в то время как другие преобразовывали страницы в цифровой текст. Архив может быть полностью доступен онлайн или частично. Он может размещаться на веб-сайте издателя рядом с современным контентом или может быть отдельным продуктом с дополнительными функциями. Некоторые архивы живут даже вне платформы.

The Atlantic заранее решила, что наша цель — предоставить доступ к полному архиву. Для прозрачности для наших читателей и для исторического отчета мы хотели поделиться всем этим — от наших самых продолжительных репортажей до некоторых историй, которые по праву канули в безвестность. Как написал наш главный редактор Джеффри Голдберг в примечании редактора, представляя проект: «Здесь есть все: хорошее, плохое, блестящее, оскорбительное, смешное. Мы с самого начала знали, что не будем заниматься цензурой, обрезкой или уклонением».

Создав пространство для хранения архива на текущем веб-сайте, наши коллеги по продукту работали над оцифровкой и представлением прошлых статей в нашем современном шаблоне статьи. Вот шаги, которые они предприняли, чтобы добраться туда:

1) Расшифровка содержания: The Atlantic вошла в этот проект со сканами в формате PDF всех страниц, которые она когда-либо публиковала. Чтобы разобраться во всей этой информации, наша команда инженеров работала с поставщиком, специализирующимся на оцифровке архивов медиа-журналов. Подрядчики использовали оптическое распознавание символов и сканирование с высоким разрешением для определения различных областей и зон на каждой странице, сопоставляя положение всего, что когда-либо печатала The Atlantic.

Этот первый шаг также требовал определения схемы, которая научила поставщика распознавать то, что он оцифровывал, и заложила основу для приема контента. Таким образом, поставщик научился определять типы контента (например, заголовки или номера страниц) и помечать их так, чтобы их могли понять наши внутренние системы.

В ходе этого процесса были созданы высокодетализированные пакеты файлов XML, PDF и JPEG, объем которых составил 400 ГБ.

2) Получение данных. Следующим шагом было их импортирование в нашу CMS. Прежде чем наши коллеги-инженеры смогли это сделать, им нужно было оценить, какие типы контента находятся в архиве, чтобы определить, что следует или не следует импортировать. Для этого они создали индекс из 110 000 единиц контента. Не все это превратится в страницы статей в процессе импорта. Чуть более половины, например, были рекламой.

Инжиниринг, как описывает наш системный архитектор Крис Барна, часто может быть загружен ограниченными ресурсами. У них была противоположная проблема — слишком много информации. Команда сузила список того, что The Atlantic хотела опубликовать в цифровом архиве: статьи, рассказы, стихи. Или лучше то, что мы не хотели публиковать: рекламу, таблицу

Copyright © All rights reserved. | Newsphere by AF themes.