Статья

Космические данные нуждаются в новых средствах обработки

Геоинформатика

В ближайшем десятилетии ожидается взрывной рост объемов информации, производимой различными устройствами, в том числе беспилотными летательными аппаратами и космическими спутниками. Для ее систематизации потребуются новые системы хранения и алгоритмы обработки.

Интернет-вещи, роботы-автомобили, наноспутники, фитнес-трекеры и многие другие устройства уже сегодня генерируют огромные объемы данных.

Одновременно стартапы и крупные разработчики создают множество алгоритмов обработки этой информации и сервисов по их использованию. Эти разработки сделают нашу жизнь более комфортной и безопасной… но только если найдутся вычислительные мощности, чтобы обработать невероятно большой объем данных.

Масштаб проблемы

Возможно, проблема нехватки вычислительных мощностей кажется надуманной - ведь сегодня обработка данных и хранение информации дешевеют день ото дня и становятся все более доступными. Однако объемы данных непрерывно растут, к тому же на рынке появляются новые сервисы, которые непременно в будущем будут интегрированы в мощные геоинформационные системы. Таким образом, сегодня в ходу значения в гига- и терабайтах, но совсем скоро мы войдем в эпоху бронтобайтов.

1000 гигабайт = 1 терабайт

1000 терабайт = 1 петабайт

1000 петабайт = 1 эксабайт

1000 эксабайт = 1 зетабайт

1000 зетабайт = 1 етабайт

1000 етабайт = 1 бронтобайт

В эпоху бронтобайтных вычислений нас приведут многие технологии. Так, датчики автономных автомобилей, которые могут передвигаться без участия водителя, каждую секунду генерируют примерно 1 Гб данных. Проще говоря, всего 50 таких машин за год заполнят банки памяти крупнейшего в мире дата-центра Агентства национальной безопасности США (АНБ) в штате Юта. А ведь этот центр обошелся в $4 млрд и может хранить до 12 эксабайт информации.

За год сенсоры всех самолетов на Земле производят 2,5 эксабайт данных. При этом в течение 20 лет спрос на авиаперевозки, как ожидается, утроится, а воздушный флот вырастет в два раза. Не отстают и наземные системы, например, видеонаблюдение в лондонском метро за день генерирует около 2 петабайт.

Спутниковая съемка с каждым годом производит все больший объем данных. Так, спутник компании DigitalGlobe WorldView-3, запущенный в августе 2014 г., в панхроматическом режиме делает снимки с разрешением 31 см и в сутки производит до 4 терабайт данных. Более того, по прогнозам компании Marketsand Markets рынок нано- и микроспутников к 2019 г. вырастет с нынешних $702,4 млн до почти $1,9 млрд. Пока на околоземной орбите работают десятки миниатюрных спутников, но уже в ближайшие пять лет их количество вырастет до 1 тыс. В будущем небольшие спутники будут генерировать основной массив данных ДЗЗ.

Также большое количество данных в ближайшее десятилетие будут генерировать коммерческие беспилотные летательные аппараты (БПЛА). В 2015 г. малые коммерческие БПЛА получат право летать в небе США. Как ожидается, благодаря этому в ближайшие годы воздух поднимутся более 100 тыс. небольших беспилотников.

Один час видеосъемки даже небольшой видеокамерой GoPro Hero генерирует более 8 гигабайт данных. Таким образом, только американские невоенные малые БПЛА смогут генерировать до 18 петабайт в сутки. При этом обработка большей части этих данных будет осуществляться в облачных системах.

В качестве примера можно привести систему Co Pilot компании Drone Deploy. Она позволяет управлять беспилотником через сети 4G, в режиме реального времени передавать данные съемки и телеметрию на облачный сервис компании. За один 30-минутный вылет малый БПЛА Ag Eagle с системой Co Pilot может проводить съемку поля площадью более 120 га. Ортотрансформированное изображение такого поля, сшитое из трех снимков с разрешением 15 см, имеет объем около 6 гигабайт.

Помимо этих потоков информации ожидается настоящая лавина данных от мобильных сервисов, в том числе связанных с определением местоположения. Примером таких сервисов может служить мобильная технология BeyondVerbal, которая определяет эмоции по голосу, или российский дозиметр для смартфонов ДО-РА. В будущем ГИС, собирающие данные с сотен тысяч носимых устройств с подобными сервисами, смогут в режиме реального времени отображать на карте такую "экзотическую" на сегодня информацию, как уровни эмоционального напряжения или радиационного фона в регионе.

Не меньшее количество данных будут генерировать новые навигационные приложения, например, такое как Indoor Navigator российской компании "Спирит Навигация". Этот сервис определяет местоположение смартфона в зданиях по геомагнитному полю Земли, сигнатуре здания, планам этажей, радиополям, а также идентифицирует пользователя по особенностям его походки. Подобный объем данных смартфон не может хранить и обрабатывать, поэтому приходится использовать облачные вычисления, т.е. удаленные серверы.

Таким образом, нынешний 20% ежегодный рост объема геоинформационных данных скоро радикально ускорится. При этом традиционные базы данных слишком медленные и их нельзя использовать для развертывания сложных "объемных" ГИС или сервисов, которые в режиме реального времени определяют местоположение множества пользователей и предлагают различные услуги, связанные с передачей большого количества данных.

Алгоритмы

Одно из направлений модернизации геопространственных технологий в эпоху бронтобайтных вычислений – это разработка новых высокоэффективных алгоритмов обработки данных. Все больше пользователей применяют геопривязанные сервисы, и разработчикам нужны новые решения, которые требуют минимального ручного ввода данных для их работы.

Пока что не определены общие стандарты для облачных вычислений и не хватает разработчиков мобильных приложений, использующих облака и геопривязку. Кроме того, нужны технологии, способные отсеивать лишнюю информацию среди большого количества многомерных данных.

 Новые геоинформационные сервисы будут использовать множество источников данных, включая медицинские носимые датчики
Новые геоинформационные сервисы будут использовать множество источников данных, включая медицинские носимые датчики

В качестве примера такой технологии можно привести разработку молодой компании SpaceCurve: технологию параллельной обработки петабайтных массивов данных в режиме реального времени. Система работает с геопространственными данными, включая ДЗЗ, информацию из соцсетей, медиа, исторические данные и т.д. Кроме того, она поддерживает SQL с геопространственными расширениями OGCи сопрягается с ArcGIS.

Платформа SpaceCurve может распараллеливать вычисления на тысячи потоков и обеспечивает индексацию геопространственных данных петабайтного масштаба в режиме реального времени. По заявлению компании, их платформа в секунду индексирует миллионы сложных геопространственных записей.

Еще один пример – алгоритм разработки компании Loqate. Компания собирает базу геоданных по 240 странам и территориям, в том числе присваивает географические координаты привычным почтовым адресам. В результате алгоритм Loqate может просеивать неструктурированные данные и обнаруживать любую информацию, связанную с географическими данными.

Аппаратное обеспечение

Новый тип вычислительных систем совершенно необходим, например, для создания сложных городских ГИС, с помощью которых будет осуществляться управление "умными" электросетями, экстренными службами, коммерческой логистикой, сетью экологического мониторинга, движением общественного транспорта, беспилотных автомобилей и т.д. И если армия или разведка некоторых стран могут себе позволить строительство крупного вычислительного центра, то большинство других госорганизаций, муниципалитетов и частных компаний этого сделать не могут.

Прежде всего, проблема заключается в стоимости постройки и эксплуатации. Так, вышеупомянутый центр обработки данных АНБ в Юте требует мощности электропитания в 65 МВт и ежегодно потребляет электроэнергии на $40 млн. Если же представить, что все современные облачные хранилища - это страна, то такое воображаемое государство по энергопотреблению заняло бы пятое место в мире. По данным Exxon, спрос на энергию к 2040 г. вырастет на 35% из-за роста населения, так что удовлетворить растущие энергетические аппетиты вычислительных систем будет непросто.

 Радиотелескоп SKA будет генерировать до 12 эксабайт данных в сутки
Радиотелескоп SKA будет генерировать до 12 эксабайт данных в сутки

Одним из возможных решений проблемы являются новые энергоэффективные серверы на основе существующих компьютерных технологий. Так, при строительстве крупнейшего в истории радиотелескопа SKA астрономы столкнулись с проблемой обработки большого объема информации. После завершения строительства в 2024 г.SKA будет собирать и обрабатывать около 14 эксабайт данных в сутки и сохранять около одного петабайта. Проблема усугубляется тем, что антенны телескопа разнесены по разным континентам, а значит собираемые данные необходимо либо "перекачивать" по оптоволоконным линиям, либо обрабатывать на месте – прямо посреди жарких пустынь Африки и Австралии.

 Микросервер, разработанный специалистами ASTRON и IBM для телескопа SKA
Микросервер, разработанный специалистами ASTRON и IBM для телескопа SKA

Чтобы решить эту задачу, ученые из института радиоастрономии ASTRON и лаборатории IBM Research в Цюрихе разработали оригинальный 64-битный микросервер размером всего 133x55 мм. Он оснащен четырехъядерным 64-битным процессором, соединенным с 16 Гб оперативной памяти. Микросервер использует водяную систему охлаждения и может работать в жарком климате с температурой до +50 градусов Цельсия. В стандартную 48-см серверную стойку 2U помещается кластер из 128 таких микросерверов.

Разработчики заявляют, что один микросервер будет потреблять 35-40 Вт, стоимость прототипа на данный момент составляет около $500. Также ведется разработка версии с 12-ядерным процессором и 48 Гб оперативной памяти.

Микросерверы примерно в 10 раз компактнее существующего вычислительного оборудования и могут стать альтернативой современным центрам обработки данных. Масштабируемые энергоэффективные вычислительные системы на основе микросерверов способны обеспечить обработку больших объемов геопространственных данных.

Компания HP обещает радикально решить проблему грядущей нехватки вычислительных мощностей с помощью мемристоров и фотоники. В июне 2014 г. компания представила новую вычислительную машину, которая использует мемристоры, фотонные шины передачи данных и высокоэффективную операционную систему.

 Компонент фотонно-мемристорного вычислительного устройства компании HP
Компонент фотонно-мемристорного вычислительного устройства компании HP

По словам генерального директора HP Мег Уитман (MegWhitman), вычислительный блок нового типа сможет "мгновенно обрабатывать ошеломляющие объемы данных, используя ничтожное количество энергии". Мемристорно-фотонные серверы размером с холодильник будут обладать производительностью современных дата-центров. HP планирует вывести новые вычислительные системы на рынок в 2019 г. Если HP удастся реализовать эти планы, то через 5 лет нас ждет начало нового этапа информационной революции, связанного с обработкой больших массивов данных от множества датчиков.

Будущее за большими данными

В ближайшие десятилетия рынок наполнится приложениями и сервисами, собирающими большое количество данных. Достаточно сказать, что по прогнозам Navigant Research к 2035 г. ежегодно будут продаваться 94,7 млн машин, оснащенных различными основными и вспомогательными системами автоматического вождения. По данным Business Insider к этому же времени с интернетом будут соединены более 1 трлн интернет вещей со 100 млн приложений.

Конкурентоспособность геоинформационного продукта будет зависеть от его способности обрабатывать, интегрировать, анализировать и наглядно представлять результаты анализа информации, которую генерирует техносреда ближайшего будущего.

Михаил Левкевич

Мировая группировка спутников дистанционного зондирования земли (ДЗЗ)

СОБЫТИЯ