Редактирование: Параллельная Обработка Данных, 05 лекция (от 02 октября)
Материал из eSyr's wiki.
Внимание: Вы не представились системе. Ваш IP-адрес будет записан в историю изменений этой страницы.
Правка может быть отменена. Пожалуйста, просмотрите сравнение версий, чтобы убедиться, что это именно те изменения, которые вас интересуют, и нажмите «Записать страницу», чтобы изменения вступили в силу.
Текущая версия | Ваш текст | ||
Строка 2: | Строка 2: | ||
== Рекомендуемая литература == | == Рекомендуемая литература == | ||
- | * В. В. Воеводин, Вл. В. Воеводин, | + | * В. В. Воеводин, Вл. В. Воеводин, «Паралельные вычисления», издательство БХВ Петербург |
В основном рассказывать лектор будет по книге. Если появляется что-то новое, то будут использоваться другие материалы. Если изменяются только количественные характеристики, то это тоже будет отмечаться. Все новое отображается на [http://parallel.ru parallel.ru]. | В основном рассказывать лектор будет по книге. Если появляется что-то новое, то будут использоваться другие материалы. Если изменяются только количественные характеристики, то это тоже будет отмечаться. Все новое отображается на [http://parallel.ru parallel.ru]. | ||
Строка 22: | Строка 22: | ||
==== HP SuperDome ==== | ==== HP SuperDome ==== | ||
- | + | Рссмотрим подробнее HP SuperDome. Он появился в 2000 году, архитектура ccNUMA, до 64 CPU. Архитектура оказалась очень удачной, причем он был одним из первых себе подобных. Вскоре 140 из 500 позиций в [http://www.top500.org/ TOP500] были построены на нём. | |
Основное понятие данного компьютера — вычислительная ячейка. Сейчас идет с процессорами PA-8700, 8900, но готова к IA64 и сейчас большинство инсталляций с Intel Itanium II. | Основное понятие данного компьютера — вычислительная ячейка. Сейчас идет с процессорами PA-8700, 8900, но готова к IA64 и сейчас большинство инсталляций с Intel Itanium II. | ||
- | Скорость обмена данными между контроллером и | + | Скорость обмена данными между контроллером и процессрами и банками памяти — 2 гб/сек, с внешним миром — 8 гб/сек. CCP разрешает контроллер вычислительной ячейки. <!-- В целом каждой ячека — честный ICMP компьютер. --> |
Процессоры PA8700, 750 MHz. 10 функциональных устройств, суперскалярный, выполняет до 4 операций за такт. Пиковая производительность одного процессора — 3 GFlops. Пиковая производительность всего компьютера — 192 GFlops. Но реальная производительность намного ниже. Рассмотрение каждой архитектуры мы будем заканчивать выписывая причины, по которым отличаются реальная и пиковая производительности. | Процессоры PA8700, 750 MHz. 10 функциональных устройств, суперскалярный, выполняет до 4 операций за такт. Пиковая производительность одного процессора — 3 GFlops. Пиковая производительность всего компьютера — 192 GFlops. Но реальная производительность намного ниже. Рассмотрение каждой архитектуры мы будем заканчивать выписывая причины, по которым отличаются реальная и пиковая производительности. | ||
Строка 37: | Строка 37: | ||
===== Причины ===== | ===== Причины ===== | ||
- | # Закон | + | # Закон Омдала (10 процентов последовательные операции, 90 процентов параллельные. При увеличении количества процессоров уменьшается время на исполнение параллельных операций. Значит, больше чем в 10 раз ускорения не будет никогда) Для реальных программ закон Омдала очень важен. Все прикладные программы не полностью распараллеливаются (всегда есть ввод-вывод, инициализация, и т. п.). И именно эта доля последовательных операций определяет потенциальное ускорение. |
- | # ccNUMA. Акцент на NUMA. Если программа устроена хорошо и обладает свойствами локальности, то это хороший вариант, но далеко не всегда бывает так (работа с разреженными | + | # ccNUMA. Акцент на NUMA. Если программа устроена хорошо и обладает свойствами локальности, то это хороший вариант, но далеко не всегда бывает так (работа с разреженными матриами, например) |
# ccNUMA. Акцент на сс. Решение CCP тоже забирает время. | # ccNUMA. Акцент на сс. Решение CCP тоже забирает время. | ||
- | # | + | # Блансировка вычислительной нагрузки. |
- | Если напишем программу, у которой ускорение при распараллеливании в 50% — зачет поставят сразу. //Не на | + | Если напишем программу, у которой ускорение при распараллеливании в 50% — зачет поставят сразу. //Не на ассембелере, без использования специальных библиотек. |
Это были компьютеры с общей памятью. | Это были компьютеры с общей памятью. | ||
Строка 48: | Строка 48: | ||
== Компьютеры с распределенной памятью == | == Компьютеры с распределенной памятью == | ||
- | Большой класс систем. Общую схему мы разбирали, она незатейлива. Есть некоторая коммуникационная среда, к которой подключено какое-то кол-во | + | Большой класс систем. Общую схему мы разбирали, она незатейлива. Есть некоторая коммуникационная среда, к которой подключено какое-то кол-во выч. устройств, под каждым из которых может быть либо компьютер, либо процессор, либо система с общей памятью. Важно, что у каждого узла есть своя память. При запросе к памяти идет запрос в коммуникационную среду. Такие компы начали активно развиваться с начала 90 годов.Надо было иметь гибкую архитектуру, так чтобы в зависимости от нужд и бюджета пользователи моги бы подбирать нужную им конфигурацию.(Одинаковая архитектура дл 2 и 200 процессоров). Массивно-паралельные выч системы, выч системы с массовым параллелизмом. По большому счету все системы отличаются в двух вещах -- как устроена коммуникациоая среда, и что вместо выч узла. |
- | Один из первых таких компьютеров - комп от | + | Один из первых таких компьютеров - комп от интела |
- | * | + | Intel Paragon. |
- | *Процессор i860 | + | *Ком среда -- прямоугольная решетка, в каждом узле решетки проессор.Каждый процессор может общаться с непосредственными соседями. Угловые узлы были ущербными -- неудобно, несимметрично. |
+ | *Процессор i860/ | ||
Макс конфигурация примерно 1800 процессоров. | Макс конфигурация примерно 1800 процессоров. | ||
Другой вариант | Другой вариант | ||
IBM SP 1/2 | IBM SP 1/2 | ||
- | * | + | *Ком среда:Несколько процессоров связаны между собой при помощи высокопроизводительного коммутатора, потенциально обеспечивалась связь каждого с каждым. Системы были из сотен процессоров. Центральная часть естественно коммутатор. |
- | *Узел: PowerPC, Power3. Сейчас выпустили уже Power 6. В каждом узле есть своя | + | *Узел: PowerPC, Power3. Сейчас выпустили уже Power 6. В каждом узле есть своя локал память, данных лежащих вовне он не видит, для запроса таких данных формируется пакет и получает данные через коммуникационную среду. Но даже через коммутатор -- надо время чтобы установить связ. То есть невыгодно общаться с разными. К тому же коммутатор был очень дорогой. |
Мы архитектуру компьютера будем разбирать на примере Cray T3D/T3E. Сейчас используют элементную базу XT3, XT4. | Мы архитектуру компьютера будем разбирать на примере Cray T3D/T3E. Сейчас используют элементную базу XT3, XT4. | ||
{{Параллельная Обработка Данных}} | {{Параллельная Обработка Данных}} |