Масштабируемые сети систем искусственного интеллекта для
анализа данных растущей размерности
Министерство образования и
науки Российской Федерации, проект № 14.Y26.31.0022 по программе
Государственной поддержки научных исследований, проводимых под руководством
ведущих ученых в российских образовательных организациях высшего образования,
научных учреждениях, подведомственных Федеральному агентству научных
организаций, и государственных научных центрах Российской Федерации
("мегагрант").
Цель проекта:
Главная цель проекта:
разработать перспективные методы для интеллектуального анализа данных высокой
размерности, оптимизированные для работы в высокой (десятки и сотни) и очень
высокой (тысячи, десятки тысяч и более)
размерности. Для достижения этой цели будут разработаны и
имплементированы в программах открытого
доступа методы и алгоритмы быстрого неитеративного и обратимого исравления
ошибок и передачи навыков в системах искусственного интеллекта.
Задачи проекта:
Для достижения целей проекта
мы планируем решить следующие задачи:
• Создать
систему перспективных методов многомерного анализа данных в высоких
размерностях, основанных на эффектах концентрации меры;
• Разработать
методы для разделения истинно многомерных проблем от редуцируемых проблем малой
внутренней размерности;
• Разработать
неитеративные методы для коррекции ошибок существующих систем искусственного
интеллекта;
• Разработать
теорию и методы для моделирования оптимальной сложности, основанные на идее
"игры против наблюдателя" (миры худшего случая);
• Реализовать
разработки в библиотеке программ, открытой для общего пользования;
• Адаптировать и
приложить разработанные методы к анализу многомерных данных о биологических
нейронных сетях (ин витро и ин виво), к анализу больших многомерных потоков
видеоданных, к сложным биофизическим,
техническим и гибридным человеко-машинным системам.
• Создать
лабораторию перспективных методов анализа многомерных данных и обеспечить ее
устойчивое функционирование.
Ожидаемые результаты проекта:
• Математическая
теория методов анализа данных в высокой размерности, основанная на эффектах
концентрации меры;
• Перспективные
метожы анализа данных в большой размерности;
• Методы
сокращения описания для отделения истинно многомерных проблем от редуцируемых,
имеющих малую внутреннюю размерность;
• Технология
построения моделей оптимальной сложности, основанную на играх против
наблюдателя;
• Библиотека
программ, реализующих новые разработки, открытая для общего пользования;
• Проблемно-ориентированное
программное обеспечение для серии специфических проблем: анализ многомерных
данных о биологических нейронных сетях (ин витро и ин виво), анализ больших
многомерных потоков видеоданных, моделирование сложных биофизических,
технических и гибридных человеко-машинных систем.
• Специфические
результаты об этих системах, полученные новыми методами.
• Публикация по
результатам проекта не менее 44 статьи в научных изданиях, индексируемых в базе
данных Web of Science, в том числе не менее 22 статей в научных изданиях,
входящих в первый квартиль (Q1) научных журналов базы данных Web of Science;
• Подача как
минимум 3 заявок на патент на новые алгоритмы обработки данных.
• Устойчиво
функционирующая лаборатория перспективных методов анализа многомерных данных.
Описание предлагаемого научного исследования:
Работа разделяется на 7
рабочих пакетов (РП):
РП1. Геометрическая теория
обработки данных больших и очень больших размерностей.
РП2 Теория моделей
оптимальной сложности на основе анализа игры против наблюдателя.
РП3 Разработка и применение
конкретных алгоритмов обработки данных высокой размерности.
РП4 Анализ видеопотоков
большой интенсивности и размерности: теория, алгоритмы, реализация и
тестирование.
РП5 Приложения перспективных
методов анализа данных большой размерности к биологическим нейронным системам.
РП6 Приложения перспективных
методов анализа данных и моделей оптимальной сложности к сложным техническим и
гибридным системам.
РП7 Распространение и
популяризация результатов
Описание работ по рабочим пакетам.
РП1. Геометрическая теория
обработки данных больших и очень больших размерностей
Эффекты концентрации меры
были введены в матемактику Леви в 1922 году: объем шара сконцентрирован около
его границы – сферы, более того, он сконцентрирован в малой окресности любого
экватора этой сферы. Опираясь на это наблюдение, Леви разработал новую область
геометрического функционального анализа. Физики использовали эти эффекты
намного раньше. Максвелл, Гиббс и Эйнштейн создали равновесную статистическую
физику, которая является по своему существу первым приложением концентрации
меры (созданным до математической теории). В более позднее время несколько
знаменитых математиков современности (Громов, Тальгранд, Мильман) детально
разработали общую теорию концентрации меры. В конце 20 столетия Хехт-Нильсен
обратил внимание на следующее наблюдение: в истинно многомерных базах данных
многие мекторы данных попарно почти ортогональны (имеют малое скалярное
произведение) и количество таких векторов может намного превосходить
размерность пространства. В самое последнее время, Горбань и Тюкин с соавторами
доказали, что этот эффект проявляется с вероятностью близкой к единице для
независимо выбираемых векторов данных и продемонстрировали важность этого
эффекта для машинного обучения и обработки многомерной видеоинформации. [A.N.
Gorban, I.Yu. Tyukin, D.V. Prokhorov, K.I. Sofeikov Approximation with random
bases: Pro et Contra, Information Sciences (2016), In Press,
http://dx.doi.org/10.1016/j.ins.2015.09.021, Q1 IN COMPUTER SCIENCE,
INFORMATION SYSTEMS].
В науках о мозге хорошо
известно, что малые группы нейронов играют важную роль в распознавании образов.
Математическое объяснение этого эффекта можно найти в многомерной природе
данных. Горбань с соавторами доказали, что проблемы высокой размерности могут быть
решены ансамблями малых нейронных сетей (здесь «высокая размерность» может
означать даже десятки, эффект становится важным уже при dim>50). В
предлагаемом проекте теория этого феномена должна быть завершена и
распространена на другие многомерные явления и послужить основой разработки
новых алгоритмов анализа многомерных данных.
Еще одна хорошо известная
сложность в анализе многомерных данных состоит в том, что большинство широко
распространенных методов минимизирует среднеквадратичную ошибку. Алгоритмы
такой оптимизации вычислительно эффективны, однако дают результат неустойчивый
по отношению к выбросам и шуму, особенно в больших размерностях. Поэтому,
многие современные разработки пытаются использовать неквадратичные функционалы
ошибки, основанные на L1 норме и даже на невыпуклых квазинормах. Эти
функционалы ошибки более устойчивы к шуму и большим выбросам, однако их
использование приводит к колоссальному возрастанию вычислительных затрат,
неприемлемому в работе с большими размерностями. До последнего времени не
существовало способа работы с произвольными (невыпуклыми) функционалами ошибки.
В совсем недавней работе, Горбань с соавторами предложил новое поколение
алгоритмов, основанное на кусочно-квадратичных функционалах ошибки, имеющих
субквадратичный рост (PQSQ potentials) [A.N. Gorban, E.M. Mirkes, A. Zinovyev,
Piece-wise quadratic LEGO set for constructing arbitrary error potentials and
their fast optimization, submitted, http://arxiv.org/abs/1605.06276]. Этот
новый и универсальный подход позволяет минимизировать произвольные
субквадратичные потенциалы, используя алгоритм расщепления, который гарантирует
сходимость к локальному (или глобальному) минимуму за конечное число шагов. Он
может использоваться в большинсте из существующих парадигм машинного обучения,
включая методы аппроксимации данных и регуляризированную регрессию, и ведет к
уменьшению вычислительных затрат при заданной точности».
В частности, следующие
задания будут выполняться в РП1:
•
Построение
теории разделения данных в многомерных пространствах малыми нейронными сетями;
•
Построение
теории разреженных и робастных решений проблем анализа многомерных данных
множествами независимых малых нейронных ансамблей;
•
Построение
теории аппроксимации, основанной на кусочно-квадратичных потенциалах субквадратичного
роста (PQSQ potentials);
•
Построение
теории «одевания» приближенных моделей данных малыми нейронными ансамблями с
улучшением качества решений (измеряемого, например, чувствительностью и
специфичностью)
•
Построение
теории иерархий рецептивных полей, построенных из многих независимых или слабо
зависимых малых нейронных ансамлей.
РП2 Теория моделей
оптимальной сложности на основе анализа игры против наблюдателя
Будет разработан и
протестирован на тестовых примерах и примерах реальной сложности
(включая биологические
нейронные сети in vivo и in vitro) блок оптимизации сложности и
теоретико-игровой поход к определению оптимальной сложности моделей. Результаты
будут переданы другим рабочим пакетам для исследования и использования.
Каждая реальная система (или
сеть связанных систем) допускает практически бесконечно глубокую иерархию
динамических моделей с возрастающей сложностью. Каждая модель в этой иерархии
включает набор параметров. Для оптимальных значений этих параметров ошибка
модели минимальна, и она должна убывать с возрастанием сложности. К сожалению,
проблема определения оптимальных параметров становится плохо обусловленной
(стремится к некорректно поставленной) при увеличении сложности. Поэтому ошибки
будут возрастать со сложностью после некоторого порога. Необходима теория
оптимальной сложности. Разработка этой теории для управляемых обучаемых систем
– одна из наших основных задач.
Одно из центральных понятий
создаваемой теории – это достижимая точность. Мы конструируем это понятие,
комбинируя методы и концепции нелинейных наблюдателей, оптимального управления
[Tyukin I. Adaptation in dynamical systems. Cambridge University Press;
2011] и бифуркации предельных множеств [A.N. Gorban, Singularities of transition
processes in dynamical systems: Qualitative theory of critical delays,
Electron. J. Diff. Eqns., Monograph
05, 2004].
Будет создана технология
оценки достижимой точности для различных классов систем. Модель оптимальной
сложности определяется как такая модель, для которой состояние и параметры
могут быть оценены надежно в наихудшем случае при заданных условиях точности и
ее ошибка в наихудших предположениях является наименьшей. Мы не предполагаем и
не можем предположить никаких условий, которым должна удовлетворять
неопределенная часть реальной системы. Основные средства для оценки ошибки и
проектирования моделей оптимальной сложности поставляет теория наблюдателей, а
тестирование состоит не просто в установлении наблюдаемости/идентифицируемости
моделей, но в анализе специального процесса, называемого «игрой против
наблюдателя». В этой игре возмущение
(немоделируемая часть системы) конструируется таким образом, чтобы
максимизировать ошибку наблюдения/идентификации. Оптимальная сложность
определяется как уровень в иерархии моделей, в которой повышение точности
модели уравновешивается повышением выигрыша «противника» в игре против
наблюдателя. Этот подход приводит к принципу неопределенности в моделировании,
который связывает детальность (сложность) модели с возможностью системы убежать
от наблюдения.
В частности, следующие
задания будут выполняться в ходе работ по РП2:
•
Построение
теории игр против наблюдателя;
•
Разработка
теоретико-игрового подхода к моделированию с оптимальной сложностью;
•
Теоретический
анализ максимальной достижимой точности и принципа неопределенности в проблеме
моделирования/идентификации/наблюдения
•
Тестирование
подхода на моделях больших экосистем.
РП3 Разработка и программная
реализация конкретных алгоритмов обработки данных высокой размерности
Этот РП3 следует за теоретическими
достижениями РП1&2 и должен трансформировать их в алгоритмы и программное
обеспечение. В то же самое время, работы по этому пакету дожны послужить мостом
между теоретическими РП1&2 и более прикладными РП4-6, поскольку
разрабатываемые в РП3 алгоритмы и программное обеспечение должным отвечать на
запросы прикладных РП.
В частности, следующие
задания будут выполняться в ходе работ по РП3:
•
Разработка,
программная реализация и тестирование алгоритмов «одевания», служащих для
улучшения приближенной модели данных за счет подсоединения множества
независимых или слабо зависимых малых нейронных ансамблей.
•
Разработка,
программная реализация и тестирование универсальных алгоритмов аппроксимации
данных, основанных на кусочно-квадратичных потенциалах ошибки с субквадратичным
ростом.
•
Разработка,
программная реализация и тестирование алгоритмов моделирования с оптимальной
сложностью, основанных на анализе игр проив наблюдателя (миры наихудших
случаев).
•
Разработка,
программная реализация и тестирование алгоритмов, основанных на методе
топологических грамматик, для отделения истинно многомерных проблем от
редуцируемых проблем с малой внутренней размерностью.
•
Разработка,
программная реализация и тестирование каскадных алгоритмов, основанных на
иерархиях рецептивных полей, построеных из большого числа независимых или слабо
зависимых нейронных ансамблей.
Последнее задание об
уменьшении размерности моделей требует специального комментария. Существует
много алгоритмов для линейного и нелинейного упрощения моделей, от классического
метода главных компонент до многих нелинейных версий этого метода, главных
графов и главных кубических комплексов [AN Gorban, B Kégl, DC Wunsch, AY
Zinovyev, Principal manifolds for data visualization and dimension reduction.
Berlin-Heidelberg: Springer; 2008]. Горбань с соавторами разработал
универсальный метод топологических грамматик
для аппроксимации данных и сокращения размерности [Gorban AN, Zinovyev
A. Principal manifolds and graphs in practice: from molecular biology to
dynamical systems. International journal of neural systems. 2010, 20 (3),
219-32]. Этот метод должен быть адаптирован к задачам большой размерности,
программно реализован и протестирован. Безусловно, в прикладном программном
обеспечении новые методы должны быть скомбинированны с классическими.
РП4 Анализ видеопотоков
большой интенсивности и размерности: теория, алгоритмы, реализация и
тестирование
Анализ больших и многомерных
видеопотоков в реальном времени критически важно во многих прикладных областях:
от систем безопасности до любых приложений компьютерного зрения. Способность
новых алгоритмов анализа многомерных данных улучшить решение этой классической
проблемы является обязательным тестом на зрелость нового подхода.
В настоящее время методы и
практика глубокого обучения обеспечивае нас качественными тестовыми наборами и
перспективной базой сравнения. Существует также несколько других перспективных
баз для сравнения: машины опорных векторов, различные версии леса решаюших
деревьев и др. Мы предполагаем, что разрабатываетые алгоритмы будут требовать
меньше времени и памяти (при той же точности), а также лучшую точность при
ограничениях на вычислительные ресурсы. Для проверки этой гипотезы мы будем
сравнивать новые подходы с основными имеющимися. Для этого выбрана следующая
структура РП4.
В частности, следующие
задания будут выполняться в ходе работ по РП4:
• Подготовка
тестовых заданий для анализа больших и многомерных видеопотоков в реальном
времени, выбор и подготовка баз сравнения.
• Сравнение
алгоритмов «одевания» приближенных моделей множествами независимых или слабо
зависимых малых нейронных ансамблей с базовыми алгоритмати на тестовых
заданиях.
• Сравнение
каскадных алгоритмов основанных на иерархиях рецептивных полей построенных из
многих независимых или слабо зависимых малых нейронных ансамблей с базовыми
алгоритмати на тестовых заданиях.
• Сравнений
универсальных алгоритмов анализа данных, основанных на кусочно-квадратичных
потенциалах ошибки с субквадратичным ростом (PQSQ potentials) с базовыми
алгоритмати на тестовых заданиях.
• Анализ работы
алгоритмов сокращения описания, основанных на методаз топологических грамматик,
для разделения истинно многомерных проблем от редуцируемых задач на тестовых
заданиях.
РП5 Приложения перспективных
методов анализа данных большой размерности к биологическим нейронным системам
В данном РП будут
использованы данные, которые собраны (и будут пополняться далее) в ННГУ в
течение длительного времени. Эти коллекции данных и тщательных экспериментов
поставят разработки проектов перед важным вызовом. Методы, разработанные в
РП1-3 должны доказать свою полезность для анализа реального мозга и
биологических нейронных систем. Задания данного пакета включают подготовку
данных, моделирование и сравнение результатов с экспериментом.
В частности, следующие
задания будут выполняться в ходе работ по РП5:
• Анализ
крупномасштабных записей нейронной активности, разработка алгоритмов для
анализа кальциевого имиджинга и электрофизиологических данных.
• Соотнесение
активностей нейронов и сетей в паттернами поведения. Анализ визуализированных
данных ретроспленальной и аудиальной коры в то время, когда животному даются
релевантные стимулы (стимулы виртуальной реальности или сложные звуковые
стимулы).
• Анализ
многоканальных электрофизиологических данных, полученных от нейронных культур.
Идентификация изменений активности при введении модулирующих препаратов (в
перспективе – тестирование медицинских препаратов).
• Идентификация
типов нейронов по электрофизиологическим данным и данным морфологической реконструкции.
Приложение разработанной техники к идентификации неизвестных типов
промежуточных нейронов в областях гиппокампа.
• Анализ
электромиографических сигналов, предсказание движений.
• Создание
искуственных нейронных сетей, инкорпорирующих биологически релевантные детали,
влияние специфических биофизических свойств на функционирование и обучение
нейронных сетей.
РП6 Приложения перспективных
методов анализа данных и моделей оптимальной сложности к сложным техническим и
гибридным системам
ННГУ имеет ряд
высококвалифицированных лабораторий и групп, которые производят большие объемы
высококачественных научных данных о сложных биофизических, технических и
гибридных (человеко-машинных) системах. В рамках проекта мы планируем
организовать взаимодействие с большинством этих групп. Для этой цели будет
организован специальный рабочий семинар «Анализ многомерных данных» на
еженедельной основе. Коллекции данных и эксперименты, производящие многомерные
данные, будут обсуждаться на семинаре, исследовательские программы для
отобранных коллекции и потоков данных будут проходить научную экспертизу на
семинаре и команда будет реализовывать эти программы. Результаты будут также
представляться на семинаре и публиковаться.
В частности, следующие
задания будут выполняться в ходе работ по РП5:
• Организация
регулярного рабочего семинара «Анализ многомерных данных» на еженедельной
основе.
• Отбор
коллекций и потоков данных для детального анализа.
• Презентация на
семинаре, обсуждение и экспертиза программ для анализа отобранных коллекций и
потоков данных.
• Адаптация
методов и программного обеспечения для анадиза отобранных данных.
• Анализ
отобранных данных, презентация и обсужление результатов.
Каждое из этих заданий будет
выполняться несколько раз в течение года. Мы планируем провести анализ
нескольких наиболее перспективных коллекций и потоков данных, производимых в
ННГУ.
РП7 Распространение и
популяризация результатов проекта
Этот рабочий пакет РП7
включает два направления работ: внешнее (включая международное) и внутреннее (в
ННГУ). Для внешнего распространения и популяризации результатов мы будем
использовать три вида работ: (1) публикация научных статей и книг, (2)
организация международных конференций и семинаров, (3) использование средств
массовой информации в форме пресс-релизов, веб-станиц с блогами, социальных
сетей и Твиттера. Внутренне распространение означает организацию специальных
мастер-классов, лекционных курсов и исследовательских просеминаров длч
студентов, аспирантов и молодых ученых.
В частности, следующие
задания будут выполняться в ходе работ по РП7:
• Ежегодные
мастер-классы для студентов, аспирантов и молодых ученых, проводимые А.Н.
Горбанем (не менее 16 контактных часов ежегодно).
• Создание и
ведение веб-страницы проекта.
• Организация
трех международных семинаров: Геометрия больших данных, Малые нейронные
ансамбли и мозг, Модели оптимальной сложности.
• Публикация не
менее 44 статьи в журналах, индексируемых в WoS и среди них не менее 22 статей
в журналах из первого квартиля (Q1) базы WoS.
• Публикация
пресс-релизов в основных новостных агенствах (Eureca, ScienceDaily, и т.п.)
ежегодно.
Полученные в рамках научного
исследования научные и научно-технические результаты позволят создать
технологии, являющиеся основой инновационного развития внутреннего рынка
продуктов и услуг, устойчивого положения России на внешнем рынке, и обеспечат в
рамках Стратегии научно-технического развития Российской Федерации (утверждена Указом Президента Российской
Федерации от 1 декабря 2016 г. № 642 «О Стратегии научно-технологического
развития Российской Федерации») переход к передовым передовым цифровым,
интеллектуальным производственным технологиям, роботизированным системам, новым
материалам и способам конструирования, создание систем обработки больших
объемов данных, машинного обучения и искусственного интеллекта (Н1).)