<<

стр. 4
(всего 4)

СОДЕРЖАНИЕ

16-ти портовый переключатель консоли EDIMAX EK-16RO, с возможностью управления с консоли
Источник бесперебойного питания APC Smart-UPS 3000.
Пульт управления (Монитор, клавиатура, манипулятор «мышь»)
Все элементы кластера смонтированы в открытой стойке. Кластер работает под управлением операционной системы Windows 2000. В ка­честве коммуникационной среды используется библиотека MPICH 1.2.5, свободно распространяемая Техническим университетом г. Аахен, Германия. Внешний вид кластера показан на рис. 1.

Рис. 1. Внешний вид кластера «Арко-9А2200»
Для определения вычислительных возможностей кластера и опти­мизации его структуры был проведен ряд исследований, в ходе которых оценивались: производительность отдельного вычислительного узла, производительность сетевого оборудования при различных способах коммутации узлов и интегральная производительность кластера при од­новременном использовании нескольких узлов.
Производительность отдельного узла кластера (число элементар­ных арифметических операции с плавающей точкой в секунду - гигаф­лоп) определялась при помощи модуля Linpack в зависимости от размер­ности решаемой задачи, точности вычислений и степени оптимизации вычислений под тип центрального процессора. Под точностью вычисле­ний в данном случае понималось использование четырехбайтного или восьмибайтного представления числа с плавающей точкой. Оптимизация вычислений под тип процессора представляла собой использование биб­лиотеки подпрограмм базовых операций линейной алгебры (BLAS), ис­пользующей дополнительный набор команд процессора (SSE), предна­значенный для векторных арифметических операций. Отметим, что про­цессор Athlon-XP имеет расширенный набор команд только для обработ­ки чисел с плавающей точкой в четырехбайтовом представлении.
На рис. 2 представлены результаты тестирования узла кластера описанными выше модулями в зависимости от размерности задачи.

§2,41
4 • •е- •
22,0-я '.
$ 1,6:
о • о •
К ¦ й 1,2
н • я •
м .
со
5 *
?0,4: с :
0, 0 2000 4000 6000 8000 ш00 12000
Число неизвестных, n
Рис. 2. Производителъностъузла кластера в зависимости от размерности задачи и точности вычислений (•- REAL(8), A- REAL(4),
¦ - REAL(4) SSE)
В процессе тестирования сетевого оборудования производилось определение скорости передачи информации (Мб/с) в режиме обмена УЗЕЛ-УЗЕЛ и в режиме коллективного обмена. При тестировании в ре­жиме обмена УЗЕЛ-УЗЕЛ производилось сравнение производительно­сти двух различных сетевых адаптеров, которые предполагалось ис­пользовать на рядовых узлах - Gigabit Ethernet 3Com 3C996B-T и Gigabit Ethernet NARDLINK HA-32G. Для двухпроцессорного узла был выбран сетевой адаптер Gigabit Ethernet NARDLINK HA-64G. Тестирование се­тевых адаптеров производилось при подключении типа УЗЕЛ-УЗЕЛ (использовалось непосредственное соединение сетевых адаптеров двух узлов сетевым кабелем категории 5е длиной 1,5 м). В качестве инстру­мента использовалась утилита Netpipe. Оценивалась латентность и ско­рость передачи данных. Латентность оценивалась на соединении двух однотипных адаптеров временем передачи пакетов минимальной длины и составила: 3C996B-T - 64, HA-64G - 104, HA-32G - 170 микросекунд. Скорость передачи оценивалась в зависимости от величины передавае­мого пакета данных для четырех комбинаций пар: 3C996B-T - 3C996B-
T, HA-32G - HA-32G, HA-64G - 3C996B-T и HA-64G - HA-32G. На рис. 3 приведена зависимость скорости передачи величины передаваемого пакета данных для указанных пар адаптеров.


|?60'
Ч
I50'
g.40'
о
О
30' 20'





Ниже в таблице приводится сравнение скорости обмена при вели­чине пакета 1 КБ кластера АРКО-9А2200 и некоторых кластеров, про­изводительность которых была оценена утилитой Transfer, а полученная информация опубликована в сети Internet.

Кластер
НИВЦ (г. Нижний Новгород)

КазНЦ (г. Казань)
АРКО-9А2200
Тип оборудования SCI Fast Ethernet Fast Ethernet Gigabit Ethernet




Скорость передачи данных
26,08
3,146
3,1370
9,421

В режиме коллективного обмена тестирование сетевого оборудо­вания кластера производилось при соединении через коммутатор всех восьми узлов. Определение производительности сетевого оборудования проводилось для нескольких вариантов коммутации узлов: звезда, коль­цо, хаос.
Этот тест производился при помощи модуля Nettest. На рис. 4 приведены зависимости пропускной способности сетевого оборудова­ния от величины передаваемого пакета данных.
Интегральная производительность кластера определялась при ре­шении системы уравнений утилитой Linpack пакета PLAPACK в зависи­мости от размерности решаемой задачи, точности вычислений и степени оптимизации вычислений под тип используемого процессора. На рис. 5 приведены графики этих зависимостей, полученные в ходе тестирования.
Максимальная производительность кластера достигается при ис­пользовании всей доступной оперативной памяти и составляет 15.05 ги-гафлоп для четырехбайтовой точности решения и 8.11 гигафлоп для

восьмибайтовой точности. Пиковая производительность кластера (сум­ма производительностей всех узлов кластера) при использовании для вычислений 8 узлов составит 17,84 гигафлоп для четырехбайтовой точ­ности решения и 11.04 гигафлоп для восьмибайтовой.
25'





2. Некоторые особенности программной реализации
Наиболее трудоемкой процедурой при решении решения задач механики деформирования сложных машиностроительных конструкций МКЭ является решение системы линейных уравнений большой размер­ности (1000000 и более неизвестных), которое в той или иной форме присутствует в большинстве алгоритмов. На рис. 7 показано время не­обходимое для определения перемещений в конструкции приведенной на рисунке 6 при использовании различного количества узлов кластера.
Система линейных уравнений при этом содержала 16050 неизвест­ных при ширине полуленты 594 и решалась методом Гаусса с распаралле­ливанием. Легко заметить, что уже при 5-6 процессах наступает насыще­ние, и дальнейшее увеличение процессов становится неэффективным.

Главной причиной этого является сравнительно низкая скорость пе­редачи данных по сети и высокая латентность используемого коммуника­ционного оборудования. Улучшение этих характеристик оборудования привело бы к резкому увеличению стоимости вычислительной системы в целом и не решило бы задачу в принципе. По мнению авторов более пер­спективным является использование методов и алгоритмов распараллели­вания не предъявляющих высоких требований к коммуникационной среде.
Предполагая, что сложная конструкция может быть расчленена на несколько подконструкции, связанных между собой, рассмотрим неко­торые схемы распараллеливания вычислений использующих эту техни­ку. В её основе лежит выделение из основных неизвестных j-й подкон­струкции q «внешних» неизвестных qj, связанных с узлами сетки, ко­торые стыкуются с другими подконструкциями. Суть методов проил­люстрируем на примере линейной задачи статики хотя аналогичные приемы применимы и к другим задачам механики [1]. При использова­нии метода перемещений решение линейной задачи статики сводится к отысканию из решения системы алгебраических уравнений:
Kq = P, (1)
вектора обобщенных перемещений q и вычисления вторичных неиз­вестных (напряжений, интенсивностей и т.п.), определяемых этим век­тором. При использовании для объединения подконструкции метода штрафных функций, уравнение (1) может быть записано в виде
2 K + 2 к ]q = 2 P' (2)
В этом выражении к - матрица жесткости «элемента стыковки» подконструкции, которая для каждой пары стыкуемых узлов вычисля-

ется по соотношению
[к ] = a ^
-в в

Вначале рассмотрим алгоритм распараллеливания без конденса­ции матриц жесткости подконструкции. Полагая qT ={q!ql....qTm} , ˜T = {˜1T˜2T -И}, система (2) может быть заменена на m независимых
систем:

j
j = Pj-2 kL˜, j=1,2...m,
j
которые могут быть решены итерационно. Таким образом, процедура отыскания решения системы (1) сведется к следующей последователь­ности действий.
1.В отдельном вычислительном процессе для каждой подконст-

рукции формируются матрицы K
к' +2 к
и P1. После чего матрица

j
K факторизуется.
2.В главном процессе формируется начальное приближение век­тора ˜ , которое рассылается всем процессам.
3. В отдельном вычислительном процессе для каждой подконст­рукции из системы Kjqyl = P -2k'˜n находится n+1 приближение век-
j
тора q j. Из вектора q"^1 выделяется вектор ˜ "+1, который посылается
главному процессу.
Вычисления повторяются, начиная с позиции 2 до тех пор, пока не будет достигнута необходимая величина погрешности. После этого в от­дельном для каждой подконструкции процессе вычисляются вторичные результанты (напряжения, интенсивности и т.п.). Отметим, что в описан­ном алгоритме объем информации, передаваемой между вычислительны­ми процессами, определяется только количеством внешних неизвестных.
Схема алгоритма распараллеливания решения с конденсацией, представляет собой следующую последовательность действий.
В отдельном вычислительном процессе для каждой подконструк­ции формируются матрицы K и P.
Для построения коэффициентов конденсированных матриц подко-струкции, имеющей n «внешних» степеней свободы, однократно реша­ется система уравнений [K +aE^QQlQp\=\iE\p] с n+1 правой частью. Здесь: E = diag|_1 0 1 .. 1j - диагональная матрица, в которой «едини ­цы» стоят на местах, соответствующих внешним степеням свободы, E представляет собой матрицу E с вычеркнутыми нулевыми столбцами, Q\ Qp -матрицы перемещений от единичных загружений и внешней на­грузки соответственно. Коэффициенты ktj и Д конденсированных мат­риц подкострукции вычисляются по соотношениям:

[ -aQ'ndeCJlU ' * J
в которых ind - матрица индексов, содержащая глобальные номера внешних неизвестных.
Конденсированныематрицы K и P передаютсяведущему процессу для формирования разрешающих уравнений структуры для «внешних» неизвестных 2 K' + 2 к ]˜ =2 P'.
Далее в ведущем процессе определяется вектор «внешних» неиз­вестных структуры ˜, и его соответствующие компоненты qt переда­ются процессам, обрабатывающим информацию о подконструкциях.
Для каждой подконструкции в изолированных процессах вычис­ляются основные неизвестные в узлах {q}= Ql{qs}+ Qp и вторичные ре­зультанты (напряжения, интенсивности ит.п.)
Как и в алгоритме без конденсации, в описанном алгоритме объем информации, передаваемой между вычислительными процессами, оп­ределяется только количеством внешних неизвестных.
Литература
1. Черников С.К. Метод подконструкции - эффективный инструмент рас­параллеливания алгоритмов в механике // Труды второго международного науч­но-практического семинара «Высокопроизводительные параллельные вычисле­ния на кластерных системах», Н. Новгород: Издательство НГУ. 2002. С. 318-326.


ИСПОЛЬЗОВАНИЕ КЛАСТЕРА ДЛЯ ОБУЧЕНИЯ МНОГОСЛОЙНОГО ПЕРСЕПТРОНА
В.А. Шустов
Самарский государственный аэрокосмический университет
Введение
Многослойные нейронные сети получили широкое распространение при решении задач классификации. Вопрос выбора архитектуры нейронной сети (количества слоев и нейронов в слоях) пока, к сожалению, слабо фор­мализован. Нейронные сети, используемые для решения задач распознава­ния, имеют важную особенность. Решение о распознанном классе прини-



2п 1,5 1
0,5 -| 0







k

23456 23456
а) б)
Рис. 3. УскоренияПВПприобученииа)1000 и 6)10000 изображениям по алгоритмуПО
Из рисунков видно, что при обучении малому количеству изобра­жений по алгоритму ОХП дает большее ускорение, чем по алгоритму ПО. При обучении большому количеству изображений большее ускоре­ние показал ПВП, порожденный алгоритмом ПО. С ростом числа задач

Заключение
Проведены эксперименты по обучению нейронной сети с исполь­зованием высокопроизводительной вычислительной техники. Результа­ты экспериментов согласуются с предположениями о характере обуче­ния рассматриваемыми параллельными алгоритмами на основании ана­литических зависимостей. Выявлены предпочтительные области ис­пользования алгоритмов. Ускорение обучения нейронной сети на кла­стере возрастает при увеличении количества обучающих данных.
Литература
КругловВ.В., Борисов В.В. Искусственные нейронные сети. Теория и практика. // М.: Горячая линия - Телеком, 2001. - 328 с.
Шустов В.А. Алгоритмы обучения нейронных сетей распознаванию изображений по равномерному критерию // Компьютерная оптика. 2003. № 25. С.183-189.
Шустов В.А. Параллельные алгоритмы обучения нейронной сети, ис­пользующие равномерный критерий качества обучения // Тр. Всероссийской конференции ММ-2004. Секция 2. Самара, СамГТУ, 27-28 мая 2004.
Корнеев В.В. Параллельные вычислительные системы // «Нолидж», М.-1999. - 312 с.

СОДЕРЖАНИЕ
Программный комитет 5
Организационный комитет 6
Абросимова О.Н. Алгоритмы триангуляции неориентированных
графов в параллельных алгоритмах логического вывода для
вероятностных сетей 7
Адуцкевич Е.В .Обобщенный конвейерный параллелизм и распре-
деление операций и данных между процессорами 13
Баженов В.Г., Гордиенко А.В., Кибец А.И., Лаптев П.В. Адапта-
ция последовательной методики решения нелинейных задач
динамики конструкций для многопроцессорных ЭВМ 20
Бажанов СЕ., КутеповВ.П., ШестаковД.А. Разработка и реали-
зация системы функционального параллельного программи-
рования на вычислительных системах 25
Березовский В.В. Моделирование сверхизлучения системы заря-
женных осцилляторов 30
Виноградов Р.В. Система автоматизированного тестирования парал-
лельных алгоритмов вывода и обучения в вероятностных се-
тях 35
Востокин СВ. Язык моделирования пространственно распределен-
ных параллельных процессов 40
Гаврилов А.В. , Фурсов В.А. Распределение ресурсов многопроцес-
сорных систем при вычислении согласованных оценок по
малому числу наблюдений 42
Гаращенко Ф.Г., Ниссенбаум Г.И. Алгоритмы параллельных вы-
числений для задач моделирования сложных систем 48
ГергельВ.П., СвистуновА.Н. Разработкаинтегрированной среды
высокопроизводительных вычислений для кластера Нижего-
родского университета 51
Гергель В.П., Стронгин Р.Г. Параллельные методы вычисления для
поиска глобально оптимальных решений 54
ГоловашкинД.Л. Параллельные алгоритмы метода встречных про-
гоно к 59
Гришагин А.В. Повышение производительности коллективных опе-
раций MPICH-2 66
ГришагинВ.А., СергеевЯ.Д. Эффективность распараллеливания
характеристических алгоритмов глобальной оптимизации в
многошаговой схеме редукции размерности 70
Дмитриева О.А. Параллельное моделирование линейных динами-
ческих систем с аппроксимацией правой части 74
Жегуло О.А. Распараллеливание программ для многопроцессорных
вычислительных систем с помощью экспериментальной
многоцелевой системы трансформаций программ 82
Замятина Е.Б., Осмехин К.А. О подготовке специалистов по па-
раллельному программированию на кафедре математическо-
го обеспечения ВС ПГУ 88
Запрягаев С.А., Кургалин С.Д. Региональный научно-образователь-
ный комплекс высокопроизводительных вычислений 92
Захарчук И.И. Параллельная сортировка на моделях клеточных ав-
томатов 93
Зимин Д.И., ФурсоеВ.А. Итерационное планированиераспределе-
ния ресурсов многопроцессорных систем 97
КардашичА. Методы и инструментальные среды построения про-
граммных средств для управления распределёнными систе-
мами 103
КоеалееА.А., КотлярВ.В. Модифицированный вейвлет-анализ
изображений с помощью кольцевого преобразования Радона 110
Кожин И.Н., Воробьёв В.А., Лозинская Г.В. Клеточная машина 116
Козин Н.Е., Фурсов В.А. Автоматизированный анализ параллелизма
программ 120
КоноваловА., КурылёвА., ПегушинА. MPI: стандарт и реализаци-
онная практика 128
КотляровД.В. Управление конфигурациями и загрузкой вычисли-
тельных систем 131
КузьминД.А., Легалов А.И. Интерпретация функционально-парал-
лельных программ с использованием кластерных систем 136
Кузьминский М.Б., БобриковВ.В., ЧернецовА.М., Шамаева О.Ю.
Распараллеливание в кластере полуэмпирических квантово-
химических методов при прямом вычислении матрицы
плотности для больших молекулярных систем 141
Кутепов В.П., Бажанов СЕ. Функциональное параллельное про-
граммирование: язык, его реализация и инструментальная
среда разработки программ 145
КутеповВ.П., КотляровД.В. Граф-схемное потоковое параллель-
ное программирование и его реализация на кластерных сис-
темах 151
Кутепов В.П., КотляровД.В., Лазуткин В.А. Система граф-схем-
ного потокового параллельного программирования: язык и
инструментальная среда построения программ 159
КутеповВ.П., ШестаковД.А. Анализ структурной сложности функ-
циональных программ и его применение для планирования их
параллельного выполнения на вычислительных системах 169
ЛегаловА.И., ПривалихинД.В. Особенности функционального
языка параллельного программирования «Пифагор» 173
Лепихов А.В. Реализация функций стандарта MPI для эмуляции об-
менов сообщениями между узлами многопроцессорной вы-
числительной системы 179
Любченко B.C. Автоматная модель параллельных вычислений 181
Любченко B.C. К решению проблемы обедающих философов Дейк-
стры 186
Михайлов Г.М., Копытов М.А., Рогов Ю.П., ЧернецовА.М., Авети-
сянА.И., Самоваров О.И. Вычислительный кластер ВЦ РАН 193
ОлейниковА.И., БормотинК.С. Регуляризующие алгоритмы гра­нично-элементного расчета упругих тел с тонкими элемента­ми структуры, распределенного на кластере рабочих станций 199
Оленев Н.Н. Параллельные вычисления для идентификации пара-
метров в моделях экономики 204
Олзоева СИ. Особенности автоматизированного распределения вы-
числительного процесса для имитационного моделирования
систем 210
Осипов М.А. Программные средства для управления параллельным
выполнением граф-схемных потоковых программ на кла-
стерных вычислительных системах 215
Осмехин К.А. Опыт построения ВС по кластерной технологии на
механико-математическом факультете ПТУ 223
Пиза Н.Д., Кудерметов Р.К. Решение задачи моделирования движе-
ния космического аппарата на параллельных вычислитель-
ных системах 226
Седельников М. С. Алгоритм создания подсистем в вычислительных
системах с произвольной структурой 232
Селихов А.В. Сервис межкластерных коммуникаций параллельных
программ 239
Тырчак Ю.М. Эффективное распараллеливание вычислений для за-
дач физики атмосферы 245
Фельдман Л.П., Михайлова Т.В. Параллельный алгоритм построе-
ния дискретной марковской модели 249
Фельдман Л.П., Назарова И.А. Эффективность способов оценки
апостериорной локальной погрешности при параллельном
решении систем линейных однородных ОДУ 255
Фефелов НИ Параллельное программирование как учебная дисци-
плина специальности «Программное обеспечение вычисли-
тельной техники и автоматизированных систем» 263
Черников С.К., АшихминА.Н. Программно-аппаратный комплекс
для решения прикладных задач механики 266
Шустов В.А. Использование кластера для обучения многослойного
персептрона 273

<<

стр. 4
(всего 4)

СОДЕРЖАНИЕ