Нелинейный метод
главных компонент
Главные многообразия для визуализации и анализа данных
А. Горбань, Б. Кегль, Д. Вунш, А. Зиновьев (ред.),
Шпрингер, 2007.
Первая в мировой научной литературе
монография, посвященная методу главных многообразий.
Подготовлена международным коллективом авторов. Редакторы:
|
|
|
|
Александр Горбань Alexander Gorban |
Балаж Кегль Balazs Kegl |
Дональд Вунш Donald Wunsch |
Андрей Зиновьев Andrei Zinovyev |
A. Gorban, B. Kegl, D.
Wunsch, A. Zinovyev (Eds.), Principal Manifolds for Data Visualisation
and Dimension Reduction, LNCSE 58, Springer, Berlin – Heidelberg – New
York, 2007. (ISBN 978-3-540-73749-0) Книгу читать и скачивать ЗДЕСЬ
Дополнительный материал:
!) Вечная классика:
A) Статья
К. Пирсона, в которой был предложен метод главных компонент. Pearson, K. 1901. On lines and planes of
closest fit to systems of points in space. Philosophical Magazine 2:559-572. Читать и скачивать ЗДЕСЬ
Б)
Статья Сильвестра, в которой создан математический аппарат метода
главных компонент за 12 лет до статьи Пирсона. Sylvester, J.J., On the reduction of a
bilinear quantic of the nth order to the form of a sum of n
products by a double orthogonal substitution, Messenger of Mathematics, 19
(1889), 42-46. Читать и скачивать ЗДЕСЬ
1) Книга «Главные многообразия для
визуализации и анализа данных» опирается на лекции и доклады,
прочитанные на Международном Семинаре «Главные многообразия для картографии
данных и сокращения описания», Университет г. Лестера, Англия, 24-25
августа 2006 (Workshop «Principal manifolds for data cartography and dimension reduction», August 24-26, 2006, Leicester University, UK). Программа семинара и отдельные презентации ЗДЕСЬ.
2) С этой работы началось изучение главных
многообразий. Диссертация
T. Хасти: Trevor Hastie, Principal Curves and
Surfaces, Ph.D Dissertation, Stanford Linear
Accelerator Center, Stanford University, Stanford,
California, US, November 1984. Читать и скачивать ЗДЕСЬ
3) Диссертация Б. Кегля (с программным
обеспечением): B. Kégl, "Principal curves:
learning,
design,
and applications,"
Ph. D. Thesis,
5) Итеративные упругие карты измеряют активность генов в
микроансамблях. Máx Chacón,
Marcos Lévano, Héctor
Allende, and Hans Nowak, Detection
of Gene Expressions in Microarrays by Applying Iteratively Elastic
Neural Net, In: B. Beliczynski et al. (Eds.),
Lecture Notes in Computer Science,
# 4432, Springer-Verlag Berlin Heidelberg 2007 pp. 355 – 363. «This
paper proposes the use of Gorban’s Elastic Neural Net
in an iterative way to find patterns of expressed genes…» Читать и скачивать ЗДЕСЬ
6) Сколько главных компонент нужно оставлять при
моделировании? Этот вопрос не имеет однозначного ответа, и существует
множество эвристических подходов. Свежий обзор многих из них с интересными
синтетическими и реальными примерами в статье: Richard Cangelosi, Alain Goriely,
Component retention in principal component analysis with application to cDNA
microarray data, Biology Direct
2007, 2:2. ЗДЕСЬ
7) Открытие закономерностей в медицинских данных с
помощью визуализации. Jacek Dryl, Halina Kwasnicka, Urszula Markowska-Kaczmar,
Rafal Matkowski,
Paweł
Mikołajczyk,
Jacek Tomasiak,
Discovering Dependencies in Medical Data by Visualisation.
Читать
и скачивать ЗДЕСЬ
9) Главные графы и многообразия. Доступное
введение в теорию «главных объектов» для аппроксимации данных: от главных
компонент и «главных точек» (K средних) до главных многообразий, графов и топологических
грамматик. Глава в книге: A. N. Gorban, A. Y. Zinovyev, Principal Graphs and Manifolds, Chapter 2 in:
Handbook of Research on Machine Learning Applications and Trends:
Algorithms, Methods, and Techniques, Emilio Soria Olivas et al. (eds), IGI Global, Hershey, PA, USA, 2009, pp. 28-59 Alexander
Gorban and Andrei Zinovyev, Principal Graphs and Manifolds, http://arxiv.org/abs/0809.0490
10) Главные графы и многообразия в практических
приложениях: от молекулярной биологии до динамических систем. Дано введение
в методы нелинейного моделирования данных с помощью упругих графов и
многообразий и представлено несколько примеров приложений: из сравнительной
политологии, молекулярной биологии, анализа нелинейных динамических моделей и
др. Показаны преимущества, которые дает нелинейная аппроксимация данных. A. N. Gorban, A. Zinovyev. Principal manifolds and graphs in practice: from molecular
biology to dynamical systems International Journal of Neural Systems, Vol. 20, No. 3 (2010) 219–232
11) Обзор
методов сокращения размерности. Предлагается классификация методов
сокращения размерности и описаны базовые техники: метод главных компонент,
главных кривых, преследования проекции, топография данных и другие. Miguel Á. Carreira-Perpiñán,
A
Review of Dimension Reduction Techniques, Technical
Report CS-96-09, Dept. of Computer Science, University of Sheffield,
January 27, 1997.
12) Нейронный газ и его
применения для анализа временных рядов. T.M. Martines,
S.G. Berkovich, K.J. Schulten,
'Neural-gas' network for vector quantization and its
application to time-series prediction - IEEE Transactions
on Neural Networks, V.4, #4, 1993.
13) Статья Д. Вунша с учеником: R. Xu and D. Wunsch, Computational
Intelligence in Clustering Algorithms, With Applications, In: Armin Iske &
J. Levesley (Eds.), Algorithms for
Approximation. Proceedings of the 5th International Conference,
Chester, July 2005 Springer, (2007) Читать и скачивать
ЗДЕСЬ
14) Диссертация А.А.
Питенко: Нейросетевой анализ в геоинформационных системах. Красноярск,
2000. Читать и скачивать ЗДЕСЬ
15) Диссертация А.А.
Россиева: Итерационное моделирование неполных данных с помощью многообразий
малой размерности, Красноярск, 2000. Читать и скачивать ЗДЕСЬ
16) Поиск нелинейных главных компонент с помощью
самоорганизующихся карт Кохонена. Ralf Der, Ulrich Steinmetz, Gerd Balzuweit, Gerrit
Schüürmann, Nonlinear
Principal Component Analysis
(1998). Читать
и скачивать ЗДЕСЬ
17) Описание алгоритма “ISOMAP”: Joshua B. Tenenbaum, Vin
de Silva, John C. Langford, A Global Geometric Framework for Nonlinear
Dimensionality Reduction, Science Vol 290, 22 December 2000,
2319-2323. Читать и скачивать ЗДЕСЬ
18) Метод «Локально линейного погружения» («Locally Linear Embedding»): Sam T. Roweis
and
19) Еще одна формулировка метода главных компонент,
позволяющая эффективно обрабатывать большие уклонения и удобная для задач
классификации. Koren Y., Carmel L., Robust linear
dimensionality reduction, IEEE Transactions on Visualisation and Computer
Graphics, 10 (4) (2004), 459—470. ЗДЕСЬ (стоит, впрочем, заметить, что этот метод
обсуждался ещё в книге Зиновьева, и может также быть найден и
в более ранних работах).
20) Что это такое – размерность облака данных?
Одна из первых попыток дать серьезный математический ответ на этот вопрос. Vladimir Pestov,
Intrinsic dimension of a dataset: what
properties does one expect? Proceedings
of International Joint Conference on Neural Networks, Orlando, Florida, USA,
August 12-17, 2007. Читать
и скачивать ЗДЕСЬ
21) Zhenyue Zhang and Hongyuan Zha, Principal
Manifolds and Nonlinear Dimension Reduction via Local Tangent Space Alignment, Читать и скачивать ЗДЕСЬ
22) Концепция ориентированных «главных точек» Деликадо
служит одним из мостов между нелинейными главными компонентами и локальными
главными компонентами. Delicado P., Another Look at Principal Curves and
Surfaces, Journal of Multivariate Analysis, Volume 77, Number 1, April 2001 , pp. 84-116.
Читать
и скачивать ЗДЕСЬ
25) Эффект группового стресса и Корреляционная адаптометрия: Сайт о том, как размерность облака данных
становится важнейшим показателем адаптированности. От геометрии данных к экологической физиологии: http://adaptometry.narod.ru/
26) Ядерный метод главных компонент:
сначала увеличиваем размерность с помощью нелинейных функций, потом
уменьшаем ее с помощью анализа главных компонент. Bernhard Scholkopf,
Alexander Smola, Klaus-Robert Muller, Kernel
Principal Component Analysis, Advances in Kernel Methods-Support Vector
Learning, 1999. ЗДЕСЬ
27) Ядерный метод главных компонент для анализа и
синтеза нелинейных моделей активных форм. C.
J. Twining and C. J. Taylor, Kernel Principal Component Analysis and the
Construction of Non-Linear Active Shape Models, Proceedings of
BMVC20001, 2001. ЗДЕСЬ
28)
Нелинейный анализ главных компонент для данных с шумом. William
W. Hsieh,
Nonlinear principal component analysis of noisy data, Neural Networks, Volume 20, Issue 4 (May 2007), Pages:
434-443. ЗДЕСЬ
29) Построение главных многообразий с помощью
разреженных сеток. Полезные приемы, экономящие вычислительные ресурсы. Chr. Feuersänger,M. Griebel, Principal
Manifold Learning by Sparse Grids. Institute for Numerical Simulation of
the Rheinische Friedrich-Wilhelms-Universität Bonn. INS Preprint No. 0801, April 2008. ЗДЕСЬ
30) Сборник статей «Методы нейроинформатики» /
Под. Ред. А.Н. Горбаня, 1998 Читать и скачивать ЗДЕСЬ
31) Собственное ортогональное разложение в анализе
турбулентных потоков (или «Истинное ортогональное разложение»). Очередной
раз метод главных компонент был переоткрыт в 1967 году (Lumley, J. L., The structure
of inhomogeneous turbulence. In
Atmospheric Turbulence and Wave Propagation, ed. A. M. Yaglom,
V. I. Tatarski, pp. 166—178. Moscow: Nauka, 1967.
(Атмосферная турбулентность и распространение радиоволн. Труды Международного
коллоквиума. Москва, 15—22 июня 1965 г. Под ред. А. М. Яглома и В. И.
Татарского. М.: Наука, 1967, 374 стр. с илл. и карт. (АН СССР. Междувед.
геофиз. ком. Ин-т физики атмосферы).
Яглом объяснил им, что были до них и другие, но всей истории не
рассказал.. Сейчас этот метод очень популярен в динамике распределенных систем
под названием «Proper Orthogonal
Decomposition» (POD). Один из
основных обзоров ведущих ученых: Berkooz G, Holmes Ph., and. Lumley J. L, The proper orthogonal
decomposition in the analysis of turbulent flows, Annu. Rev. Fluid Mech. 25 (1993),
539—575.
32) Из практики картографии данных: Шитиков В.К., Розенберг
Г.С., Костина Н.В. Методы синтетического картографирования территории (на
примере эколого-информационной системы «REGION-VOLGABAS») // Количественные методы экологии и
гидробиологии (Сборник научных трудов, посвященный памяти А.И. Баканова). Отв.
Ред. Чл.-корр. РАН Г.С. Розенберг. – Тольятти: СамНЦ РАН, 2005. – С. 167-227. Читать
и скачивать ЗДЕСЬ
34) Диссертация Т. А. Вашко, Дублирование информации как
средство повышения устойчивости нейросетевых решений, Красноярск, 2001.
Метод дублирования информации «по Вашко» позволяет достичь компромисса между
минимизацией описания и устойчивостью результатов. Читать
ЗДЕСЬ (html); скачивать ЗДЕСЬ (pdf ~1.5M)
35) Сколько данных нужно
для факторного анализа? Всегда ли верна наивная точка зрения: чем больше
данных – тем лучше? Интересную попытку ответить на эти вопросы содержит статья:
Jean Boivin, Serena Ng, Are more data always
better for factor analysis? Journal of Econometrics 132 (2006) 169–194 Читать и скачивать
ЗДЕСЬ
36) За пределами независимых
компонент: деревья и кластеры.
Представлено обобщение метода независимых компонент, в котором данные
аппроксимируются древовидной структурой. Francis
R. Bach, Michael I. Jordan, Beyond Independent Components: Trees and
Clusters, Journal of Machine Learning Research 4 (2003) 1205-1233. ЗДЕСЬ
37) Введен и исследовани адаптивный граф соседства
- полезный промежуточный объект при
восстановлении многообразия по выборке лежащих на нем точек: Joachim Giesen, Uli Wagner, Shape Dimension and Intrinsic Metric from Samples of Manifolds, In: Proceedings of the nineteenth annual symposium on Computational geometry, San Diego, California, USA, Published by ACM (Association for Computing Machinery), 2003, New York, NY, 329-337. Читать и скачивать ЗДЕСЬ
38) Топологические грамматики для
аппроксимации данных.
Представлен метод топологических грамматик для аппроксимации данных
древовидными континуумами и их произведениями. A.N. Gorban,
N.R. Sumner, A.Y. Zinovyev, Topological
grammars for data approximation, Applied Mathematics Letters 20 (2007)
382–386. ЗДЕСЬ
39)
Диссертация И.Ф.М. Свенсена, Обобщенное топографическое отображение (картирование), Johan Fredrik Markus Svensen, Generative Topographic Mapping (GTM), Aston University, 1998. Построены нелинейные модели скрытых переменных
для моделирования непрерывных распределений вероятности малой размерности,
погруженных в пространства высокой размерности. Это новая форма нелинейного
метода главных компонент, существенно отличающаяся от карт Кохонена. Важное
приложение этого метода – визуализация многомерных данных. Читать и скачивать ЗДЕСЬ (pdf ~1.7M)
40) С. А. Шумский, Избранные лекции по
Нейрокомпьютингу. Адаптированные отрывки из полного курса –
А.А. Ежов С.А. Шумский «Нейрокомпьютинг и его приложения в экономике»,
вышедшего в издательстве МИФИ в 1998 году. Прекрасный вводный курс с основными
формулами и актуальными примерами (чего стоят разделы: «Расположение на карте
банков с отозванной лицензией» или «Рейтинги ценных бумаг»), но без
библиографии. Читать и скачивать ЗДЕСЬ
41) С.А. Терехов, Технологические
аспекты обучения нейросетевых машин, Лекция для VIII Всероссийской научно-технической конференции
“Нейроинформатика -2006”. В лекции представлен очерк эффективных методов
практических вычислений в задачах обучения нейросетевых и других статистических
моделей. Рассматриваются как особенности часто встречающихся информационных
задач, так и алгоритмический “инструментарий”. Значительное внимание уделено
намечающейся стандартизации в области обучающихся вычислительных машин. Читать и скачивать ЗДЕСЬ Дальнейшая
информация и различные лекции – на сайтах http://neurolectures.narod.ru/
, http://alife.narod.ru
42) Статья: C.С. Замай, В.А. Охонин, О.Э. Якубайлик, Нейронные
сети и ГИС (Нейронные сети: новое измерение в ГИС), 2004. Читать и
скачивать ЗДЕСЬ. English translation HERE.
43) ХЕМОМЕТРИКА – важнейшая современная область
приложения линейного и нелинейного метода главных компонент, источник новых задач и идей.
Уникальная обзорная статья: О. Е. Родионова, А. Л. Померанцев, Хемометрика в
аналитической химии. Проанализированы итоги развития хемометрики за
последние 20 лет, обсуждены тенденции и перспективы ее роста. Читать и скачивать ЗДЕСЬ
44) Главные
компоненты и факторный анализ – учебный сайт ЗДЕСЬ
45) Важная статья: A.J. Smola, R.C.
Williamson, S. Mika, B. Scholkopf, Regularized
Principal Manifolds, In: P. Fischer and H.U. Simon (Eds.): EuroCOLT'99, LNAI
1572, pp. 214-229, Springer, 1999. Читать и скачивать ЗДЕСЬ
46) Лекция: PCA, Clustering
and Classification, By H. Bjørn
Nielsen (strongly inspired by Agnieszka S. Juncker). Читать и скачивать ЗДЕСЬ
47) Лекция
о методе главных компонент: Родионова Оксана Евгеньевна «Проекционные
методы. Основные понятия и примеры» Rodionovapca.ppt
48) Адаптивный метод главных
компонент для очистки изображений. Muresan,
D.D., Parks, T.W. Adaptive
principal components and image denoising,
in: Image Processing, 2003. ICIP 2003. Proceedings. 2003 International
Conference on Image Processing, 14-17
Sept. 2003, V. 1, pp. I-101-104.
49) Java-апплет Е.М. Миркес «Метод главных компонент и самоорганизующиеся карты» (E.M. Mirkes, Principal Component Analysis and Self-Organizing Maps: applet. University of Leicester, 2011). Своболно распространяемая программа с моделями метода главных компонент, самоорганизуюшихся карт (SOM) и растущих самоорганизующихся карт (Growing Self-Organized Maps, GSOM). Дано детальное описание алгоритмов (англ.), приведены тьюториалы и некоторые публикации. Идеально подходит для выполнения небольших студенческих исследовательских работ по сравнению различных алгоритмов аппроксимации данных. Часть выпускаемого по главам онлайн курса А.Н. Горбаня (A.N. Gorban) по анализу данных. Другие опубликованные части: Методы кластер анализа, k-means и k-medoids (E.M. Mirkes, K-means and K-medoids applet. University of Leicester, 2011); Методы классификации, k ближайших соседей и метод потенциальной энергии (E.M. Mirkes, KNN and Potential Energy: applet. University of Leicester, 2011)
50) Java-апплет Е.М. Миркес «Метод N ближайших соседей и потенциальная энергия» (E.M. Mirkes, KNN and Potential Energy: applet. University of Leicester, 2011).
Свободно распространяемая
программа с одним из самых популярных методов классификации и с простым
оригинальным методом потенциальной энергии. Идеально подходит для
выполнения небольших студенческих исследовательских работ по сравнению
различных алгоритмов аппроксимации данных. Часть выпускаемого по главам онлайн
курса А.Н. Горбаня (A.N. Gorban) по анализу данных.
Другие опубликованные части: Методы кластер анализа, k-means и k-medoids (E.M. Mirkes, K-means and K-medoids applet. University
of Leicester, 2011),
«Метод главных компонент и самоорганизующиеся карты»
(E.M. Mirkes,
Principal Component Analysis and Self-Organizing Maps:
applet, University of
Leicester, 2011)