Опубликован: 02.10.2012 | Уровень: специалист | Доступ: платный | ВУЗ: Нижегородский государственный университет им. Н.И.Лобачевского
Лекция 7:

Умножение разреженных матриц

Показатели эффективности параллельного алгоритма

Ускорение (speedup), получаемое при использовании параллельного алгоритма для p процессоров, по сравнению с последовательным вариантом выполнения вычислений определяется величиной

S_p\left(n\right)=T_1\left(n\right)/T_p\left(n\right)

т. е. как отношение времени решения задач на скалярной ЭВМ к времени выполнения параллельного алгоритма (величина n используется для параметризации вычислительной сложности решаемой задачи и может пониматься, например, как количество входных данных задачи).

Эффективность (efficiency) использования параллельным алгоритмом процессоров при решении задачи определяется соотношением

E_p\left(n\right)=T_1\left(n\right)/\left(pT_p\left(n\right)\right)=S_p\left(n\right)/p

(величина эффективности определяет среднюю долю времени выполнения алгоритма, в течение которой процессоры реально используются для решения задачи).

Из приведенных соотношений можно показать, что в наилучшем случае S_p\left(n\right)=p и E_p\left(n\right)=1. При практическом применении данных показателей для оценки эффективности параллельных вычислений следует учитывать следующие два важные момента:

  • При определенных обстоятельствах ускорение может оказаться больше числа используемых процессоров S_p\left(n\right)>p – в этом случае говорят о существовании сверхлинейного (superlinear) ускорения. Несмотря на парадоксальность таких ситуаций (ускорение превышает число процессоров), на практике сверхлинейное ускорение может иметь место. Одной из причин такого явления может быть неравноправность выполнения последовательной и параллельной программ. Например, при решении задачи на одном процессоре оказывается недостаточно оперативной памяти для хранения всех обрабатываемых данных и, как результат, необходимым становится использование более медленной внешней памяти (в случае же использования нескольких процессоров оперативной памяти может оказаться достаточно за счет разделения данных между процессорами). Еще одной причиной сверхлинейного ускорения может быть нелинейный характер зависимости сложности решения задачи в зависимости от объема обрабатываемых данных. Так, например, известный алгоритм пузырьковой сортировки характеризуется квадратичной зависимостью количества необходимых операций от числа упорядочиваемых данных. Как результат, при распределении сортируемого массива между процессорами может быть получено ускорение, превышающее число процессоров (более подробно данный пример рассматривается в гл. 9). Источником сверхлинейного ускорения может быть и различие вычислительных схем последовательного и параллельного методов.
  • При внимательном рассмотрении можно обратить внимание, что попытки повышения качества параллельных вычислений по одному из показателей (ускорению или эффективности) может привести к ухудшению ситуации по другому показателю, ибо показатели качества параллельных вычислений являются противоречивыми. Например, повышение ускорения обычно может быть обеспечено за счет увеличения числа процессоров, что приводит, как правило, к падению эффективности. И обратно, повышение эффективности достигается во многих случаях при уменьшении числа процессоров (в предельном случае идеальная эффективность E_p\left(n\right)=1 легко обеспечивается при использовании одного процессора). Как результат, разработка методов параллельных вычислений часто предполагает выбор некоторого компромиссного варианта с учетом желаемых показателей ускорения и эффективности.

При выборе надлежащего параллельного способа решения задачи может оказаться полезной оценка стоимости (cost) вычислений, определяемой как произведение времени параллельного решения задачи и числа используемых процессоров

Далее для иллюстрации введенных понятий в следующем пункте будет рассмотрен учебный пример решения задачи вычисления частных сумм для последовательности числовых значений. Кроме того, данные показатели будут использоваться для характеристики эффективности всех рассматриваемых далее параллельных алгоритмов при решении типовых задач вычислительной математики.

Вычисление частных сумм последовательности числовых значений

Рассмотрим для демонстрации ряда проблем, возникающих при разработке параллельных методов вычислений, сравнительно простую задачу нахождения частных сумм последовательности числовых значений

S_k=\sum\limits_{i=1}^{k}x_i, 1\leq k\leq n

где n есть количество суммируемых значений (данная задача известна также под названием prefix sum problem).

Изучение возможных параллельных методов решения данной задачи начнем с еще более простого варианта ее постановки – с задачи вычисления общей суммы имеющегося набора значений (в таком виде задача суммирования является частным случаем общей задачи редукции)

S=\sum\limits_{i=1}^{n}x_i
Последовательный алгоритм суммирования

Традиционный алгоритм для решения этой задачи состоит в последовательном суммировании элементов числового набора

S=0,\\
S=S+x_1,\ldots

Вычислительная схема данного алгоритма может быть представлена следующим образом (см. рис. p.2 ):

G_1=\left(V_1,R_1\right)

где V_1=\lbrace v_{01},\ldots ,v_{0n},v_{11},\ldots ,v_{1n}\rbrace есть множество операций (вершины v_{01},\ldots ,v_{0n} обозначают операции ввода, каждая вершина v_{1i},1\leq i\leq n, соответствует прибавлению значения x_i к накапливаемой сумме S), а

R_1=\lbrace\left(v_{0i},v_{1i}\right),\left(v_{1i},v_{1i+1}\right), 1\leq i\leq n-1\rbrace

есть множество дуг, определяющих информационные зависимости операций.

Последовательная вычислительная схема алгоритма суммирования

Рис. p.2. Последовательная вычислительная схема алгоритма суммирования

Как можно заметить, данный "стандартный" алгоритм суммирования допускает только строго последовательное исполнение и не может быть распараллелен.

Каскадная схема суммирования

Параллелизм алгоритма суммирования становится возможным только при ином способе построения процесса вычислений, основанном на использовании ассоциативности операции сложения. Получаемый новый вариант суммирования (известный в литературе как каскадная схема) состоит в следующем (см. рис. p.3 ):

  • на первой итерации каскадной схемы все исходные данные разбиваются на пары, и для каждой пары вычисляется сумма их значений,
  • далее все полученные суммы также разбиваются на пары, и снова выполняется суммирование значений пар и т. д.
Каскадная схема алгоритма суммирования

Рис. p.3. Каскадная схема алгоритма суммирования

Эта вычислительная схема может быть определена как граф (пусть n=2^k)

где V_2=\lbrace\left(v_{i1},\ldots ,v_{il_i}\right), 0\leq i\leq k, 1\leq l_i\leq 2^{-i}n\rbrace есть вершины графа (\left(v_{01},\ldots ,v_{0n}) – операции ввода, \left(v_{11},\ldots ,v_{1n/2}\right) – операции первой итерации и т. д.), а множество дуг графа определяется соотношениями:

R_2=\lbrace\left(v_{i-1,2j-1}v_{ij}\right),\left(v_{i-1,2j}v_{ij}\right),1\leq i\leq k, 1\leq j\leq 2^{-i}n\rbrace

Как нетрудно оценить, количество итераций каскадной схемы оказывается равным величине

k=\log_2n

а общее количество операций суммирования

K_{\text{посл}}=n/2+n/4+\ldots +1=n-1

совпадает с количеством операций последовательного варианта алгоритма суммирования. При параллельном исполнении отдельных итераций каскадной схемы общее количество параллельных операций суммирования является равным

K_{\text{пар}}=log_2n

Поскольку считается, что время выполнения любых вычислительных операций является одинаковым и единичным, то T_1=K_{\text{посл}},T_p=K_{\text{пар}}, поэтому показатели ускорения и эффективности каскадной схемы алгоритма суммирования можно оценить как

S_p=T_1/T_p=\left(n-1\right)/\log_2n,\\
E_p=T_1/pT_p=\left(n-1\right)/\left(p\log_2n\right)=\left(n-1\right)/\left(\left(n/2\right)\log_2n\right)

где p=n/2 есть необходимое для выполнения каскадной схемы количество процессоров.

Анализируя полученные характеристики, можно отметить, что время параллельного выполнения каскадной схемы совпадает с оценкой для паракомпьютера в теореме 2. Однако при этом эффективность использования процессоров уменьшается при увеличении количества суммируемых значений

\lim\limits_{n\to\infty}E_p\rightarrow 0
Модифицированная каскадная схема

Получение асимптотически ненулевой эффективности может быть обеспечено, например, при использовании модифицированной каскадной схемы. Для упрощения построения оценок можно предположить n=2^k,k=2^s. Тогда в новом варианте каскадной схемы все проводимые вычисления подразделяются на два последовательно выполняемых этапа суммирования (см. рис. p.4 ):

  • на первом этапе вычислений все суммируемые значения подразделяются на n/\log_2n групп, в каждой из которых содержится \log_2n элементов; далее для каждой группы вычисляется сумма значений при помощи последовательного алгоритма суммирования; вычисления в каждой группе могут выполняться независимо друг от друга (т. е. параллельно – для этого необходимо наличие не менее n/\log_2n процессоров);
  • на втором этапе для полученных log_2n n сумм отдельных групп применяется обычная каскадная схема.
Модифицированная каскадная схема суммирования

Рис. p.4. Модифицированная каскадная схема суммирования

Тогда для выполнения первого этапа требуется выполнение \log_2n параллельных операций при использовании p_1=\left(n/\log_2n\right) процессоров. Для выполнения второго этапа необходимо

\log_2\left(n/\log_2n\right)\leq\log_2n

параллельных операций для p_2=\left(n/\log_2n\right)/2 процессоров. Как результат, данный способ суммирования характеризуется следующими показателями:

T_p=2\log_2n,p=\left(n/\log_2n\right)

С учетом полученных оценок показатели ускорения и эффективности модифицированной каскадной схемы определяются соотношениями:

S_p=T_1/T_p=\left(n-1\right)/2\log_2n,\\
E_p=T_1/pT_p=\left(n-1\right)/\left(2\left(n/\log_2n\right)\log_2n\right)=\left(n-1\right)/2n

Сравнивая данные оценки с показателями обычной каскадной схемы, можно отметить, что ускорение для предложенного параллельного алгоритма уменьшилось в 2 раза, однако для эффективности нового метода суммирования можно получить асимптотически ненулевую оценку снизу

E_p=\left(n-1\right)/2n\geq 0.25, \lim\limits_{n\to\infty}E_p\rightarrow 0.5

Можно отметить также, что данные значения показателей достигаются при количестве процессоров, определенном в теореме 5. Кроме того, необходимо подчеркнуть, что в отличие от обычной каскадной схемы, модифицированный каскадный алгоритм является стоимостно-оптимальным, поскольку стоимость вычислений в этом случае

C_p=pT_p=\left(n/\log_2n\right)\left(2\log_2n\right)

является пропорциональной времени выполнения последовательного алгоритма.

Вычисление всех частных сумм

Вернемся к исходной задаче вычисления всех частных сумм последовательности значений и проведем анализ возможных способов последовательной и параллельной организации вычислений. Вычисление всех частных сумм на скалярном компьютере может быть получено при помощи обычного последовательного алгоритма суммирования при том же количестве операций (!)

T_1=n

При параллельном исполнении применение каскадной схемы в явном виде не приводит к желаемым результатам; достижение эффективного распараллеливания требует привлечения новых подходов (может быть, даже не имеющих аналогов при последовательном программировании) для разработки новых параллельно-ориентированных алгоритмов решения задач. Так, для рассматриваемой задачи нахождения всех частных сумм, алгоритм, обеспечивающий получение результатов за \log_2n параллельных операций (как и в случае вычисления общей суммы), может состоять в следующем (см. рис. p.5 ) :

  • перед началом вычислений создается копия Sвектора суммируемых значений \left(S=x\right)
  • далее на каждой итерации суммирования i,1\leq i \leq\log_2n формируется вспомогательный вектор Q путем сдвига вправо вектора S на 2^{i-1} позиций (освобождающиеся при сдвиге позиции слева устанавливаются в нулевые значения); итерация алгоритма завершается параллельной операцией суммирования векторов S и Q.

Схема параллельного алгоритма вычисления всех частных сумм

Рис. p.5. Схема параллельного алгоритма вычисления всех частных сумм
(величины S_{i-j} означают суммы значений от i до j элементов числовой последовательности)

Всего параллельный алгоритм выполняется за \log_2n параллельных операций сложения. На каждой итерации алгоритма параллельно выполняются n скалярных операций сложения и, таким образом, общее количество выполняемых скалярных операций определяется величиной

K_{\text{пар}}=n\log_2n

(параллельный алгоритм содержит большее (!) количество операций по сравнению с последовательным способом суммирования). Необходимое количество процессоров определяется количеством суммируемых значений \left(p=n\right).

С учетом полученных соотношений, показатели ускорения и эффективности параллельного алгоритма вычисления всех частных сумм оцениваются следующим образом

S_p=T_1/T_p=n/\log_2n,\\
E_p=T_1/pT_p=n/\left(p\log_2n\right)=n/\left(n\log_2n\right)=1/\log_2n

Как следует из построенных оценок, эффективность алгоритма также уменьшается при увеличении числа суммируемых значений и при необходимости повышения величины этого показателя может оказаться полезной модификация алгоритма, как и в случае с обычной каскадной схемой.

Оценка максимально достижимого параллелизма

Оценка качества параллельных вычислений предполагает знание наилучших (максимально достижимых) значений показателей ускорения и эффективности, однако получение идеальных величин S_p=p для ускорения и E_p=1 для эффективности может быть обеспечено не для всех вычислительно трудоемких задач. Так, для рассматриваемого учебного примера в предыдущем пункте минимально достижимое время параллельного вычисления суммы числовых значений составляет \log_2n. Определенное содействие в решении данной проблемы могут оказать теоретические утверждения, приведенные в начале данной главы. В дополнение к ним рассмотрим еще ряд закономерностей, которые могут быть чрезвычайно полезны при построении оценок максимально достижимого параллелизма.

Закон Амдаля. Достижению максимального ускорения может препятствовать существование в выполняемых вычислениях последовательных расчетов, которые не могут быть распараллелены. Пусть f есть доля последовательных вычислений в применяемом алгоритме обработки данных; тогда в соответствии с законом Амдаля (Amdahl) ускорение процесса вычислений при использовании p процессоров ограничивается величиной

S_p\leq\frac{1}{f+\left(1-f\right)/p}\leq S^*=\frac{1}{f}

Так, например, при наличии всего 10% последовательных команд в выполняемых вычислениях, эффект использования параллелизма не может превышать 10кратного ускорения обработки данных. Для рассмотренного учебного примера вычисления суммы значений для каскадной схемы доля последовательных расчетов составляет f=\log_2n/n и, как результат, величина возможного ускорения ограничена оценкой S^*=n/\log_2n

Закон Амдаля характеризует одну из самых серьезных проблем в области параллельного программирования (алгоритмов без определенной доли последовательных команд практически не существует). Однако часто доля последовательных действий характеризует не возможность параллельного решения задач, а последовательные свойства применяемых алгоритмов. Как результат, доля последовательных вычислений может быть существенно снижена при выборе более подходящих для распараллеливания методов.

Следует отметить также, что рассмотрение закона Амдаля происходит при предположении, что доля последовательных расчетов f является постоянной величиной и не зависит от параметра n, определяющего вычислительную сложность решаемой задачи. Однако для большого ряда задач доля f=f\left(n\right) является убывающей функцией от n, и в этом случае ускорение для фиксированного числа процессоров может быть увеличено за счет увеличения вычислительной сложности решаемой задачи. Данное замечание может быть сформулировано как утверждение, что ускорение S_p=S_p\left(n\right) является возрастающей функцией от параметра n (данное утверждение часто именуется как эффект Амдаля). Так, например, для учебного примера вычисления суммы значений при использовании фиксированного числа процессоров p суммируемый набор данных может быть разделен на блоки размера n/p, для которых сначала параллельно могут быть вычислены частные суммы, а далее эти суммы можно сложить при помощи каскадной схемы. Длительность последовательной части выполняемых операций (минимальновозможное время параллельного исполнения) в этом случае составляет

T_p=\left(n/p\right)+\log_2p

что приводит к оценке доли последовательных расчетов как величины

f=\left(1/p\right)+\log_2p/n

Как следует из полученного выражения, доля последовательных расчетов f убывает с ростом n и в предельном случае мы получаемом идеальную оценку максимально возможного ускорения

Закон Густавсона–Барсиса. Оценим максимально достижимое ускорение, исходя из имеющейся доли последовательных расчетов в выполняемых параллельных вычислениях:

g=\frac{\tau\left(n\right)}{\tau\left(n\right)+\pi\left(n\right)/p}

где \tau\left(n\right) и \pi\left(n\right) есть времена последовательной и параллельной частей выполняемых вычислений соответственно, т. е.

T_1=\tau\left(n\right)+\pi\left(n\right),T_p=\tau\left(n\right)+\pi\left(n\right)/p

С учетом введенной величины g можно получить:

\tau\left(n\right)=g\cdot\left(\tau\left(n\right)+\pi\left(n\right)/p\right),\pi\left(n\right)=\left(1-g\right)p\cdot\left(\tau\left(n\right)+\pi\left(n\right)/p\right)

что позволяет построить оценку для ускорения:

S_p=\frac{T_1}{T_p}=\frac{\tau\left(n\right)+\pi\left(n\right)}{\tau\left(n\right)+\pi\left(n\right)/p}=\frac{\left(\tau\left(n\right)+\pi\left(n\right)/p\right)\left(g+\left(1-g\right)p\right)}{\tau\left(n\right)+\pi\left(n\right)/p}

которая после упрощения приводится к виду закона Густавсона–Барсиса (Gustafson–Barsis's law):

S_p=g+\left(1-g\right)p=p+\left(1-p\right)g

Применительно к учебному примеру суммирования значений при использовании p процессоров время параллельного выполнения, как уже отмечалось выше, составляет:

T_p=\left(n/p\right)+\log_2p

что соответствует последовательной доле:

g=\frac{\log_2p}{\left(n/p\right)+\log_2p}

За счет увеличения числа суммируемых значений величина g может быть пренебрежимо малой, обеспечивая получение идеального возможного ускорения S_p=p

При рассмотрении закона Густавсона–Барсиса следует учитывать еще один важный момент. При увеличении числа используемых процессоров темп уменьшения времени параллельного решения задач может падать (после превышения определенного порога). Однако при этом за счет уменьшения времени вычислений сложность решаемых задач может быть увеличена (так, например, для учебной задачи суммирования может быть увеличен размер складываемого набора значений). Оценку получаемого при этом ускорения можно определить при помощи сформулированных закономерностей. Такая аналитическая оценка тем более полезна, поскольку решение таких более сложных вариантов задач на одном процессоре может оказаться достаточно трудоемким и даже невозможным, например, в силу нехватки оперативной памяти. С учетом указанных обстоятельств оценку ускорения, получаемую в соответствии с законом Густавсона–Барсиса, еще называют ускорением масштабирования (scaled speedup), поскольку данная характеристика может показать, насколько эффективно могут быть организованы параллельные вычисления при увеличении сложности решаемых задач.

Анализ масштабируемости параллельных вычислений

Целью применения параллельных вычислений во многих случаях является не только уменьшение времени выполнения расчетов, но и обеспечение возможности решения более сложных вариантов решаемых задач (таких постановок, решение которых не представляется возможным при использовании однопроцессорных вычислительных систем). Способность параллельного алгоритма эффективно использовать процессоры при повышении сложности вычислений является важной характеристикой выполняемых расчетов. В связи с этим параллельный алгоритм называют масштабируемым (scalable), если при росте числа процессоров он обеспечивает увеличение ускорения при сохранении постоянного уровня эффективности использования процессоров. Возможный способ характеристики свойств масштабируемости состоит в следующем.

Оценим накладные расходы (total overhead), которые имеют место при выполнении параллельного алгоритма

T_0=pT_p-T_1

Накладные расходы появляются за счет необходимости организации взаимодействия процессоров, выполнения некоторых дополнительных действий, синхронизации параллельных вычислений и т. п. Используя введенное обозначение, можно получить новые выражения для времени параллельного решения задачи и соответствующего ускорения:

T_p=\frac{T_1+T_0}{p}, S_p=\frac{T_1}{T_p}=\frac{pT_1}{T_1+T_0}

Используя полученные соотношения, эффективность использования процессоров можно выразить как:

E_p=\frac{S_p}{p}=\frac{T_1}{T_1+T_0}=\frac{1}{1+T_0/T_1}

Последнее выражение показывает, что если сложность решаемой задачи является фиксированной \left(T_1=const\right), то при росте числа процессоров эффективность, как правило, будет убывать за счет роста накладных расходов T_0. При фиксации числа процессоров эффективность использования процессоров можно улучшить путем повышения сложности решаемой задачи T_1 (предполагается, что при росте параметра сложности n накладные расходы T_0 увеличиваются медленнее, чем объем вычислений T_1. Как результат, при увеличении числа процессоров в большинстве случаев можно обеспечить определенный уровень эффективности при помощи соответствующего повышения сложности решаемых задач. В этой связи важной характеристикой параллельных вычислений становится соотношение необходимых темпов роста сложности расчетов и числа используемых процессоров.

Пусть E=const есть желаемый уровень эффективности выполняемых вычислений. Из выражения для эффективности можно получить:

\frac{T_0}{T_1}=\frac{1-E}{E}\text{или}T_1=KT_0,K=E/\left(1-E\right)

Порождаемую последним соотношением зависимость n=F\left(p\rigt) между сложностью решаемой задачи и числом процессоров обычно называют функцией изоэффективности (isoefficiency function).

Покажем в качестве иллюстрации вывод функции изоэффективности для учебного примера суммирования числовых значений. В этом случае:

T_0=pT_p-T_1=p\left(\left(n/p\right)+\log_2p\right)-n=p\log_2p

и функция изоэффективности принимает вид:

n=Kp\log_2p

Как результат, например, при числе процессоров p=16 для обеспечения уровня эффективности E=0.5 (т. е. K=1) количество суммируемых значений должно быть не менее n=64. Или же, при увеличении числа процессоров с p до q \left(q>p\right) для обеспечения пропорционального роста ускорения \left(S_q/S_p\right) = \left(q/p\right) необходимо увеличить число суммируемых значений n в \left(qlog_2q\right)/\left(plog_2p\right) раз.

Краткий обзор главы

В данной главе описана модель вычислений в виде графа "операции–операнды", которая может использоваться для описания существующих информационных зависимостей в выбираемых алгоритмах решения задач. В основу данной модели положен ациклический ориентированный граф, в котором вершины представляют операции, а дуги соответствуют зависимостям операций по данным. При наличии такого графа для определения параллельного алгоритма достаточно задать расписание, в соответствии с которым фиксируется распределение выполняемых операций по процессорам.

Представление вычислений при помощи моделей подобного вида позволяет получить аналитически ряд характеристик разрабатываемых параллельных алгоритмов, среди которых время выполнения, схема оптимального расписания, оценки максимально возможного быстродействия методов решения поставленных задач. Для возможности более простого построения теоретических оценок в главе рассматривается понятие паракомпьютера как параллельной системы с неограниченным количеством процессоров.

Для оценки оптимальности разрабатываемых методов параллельных вычислений приведены широко используемые в теории и практике параллельного программирования основные показатели качества – ускорение (speedup), показывающее, во сколько раз быстрее осуществляется решение задач при использовании нескольких процессоров, и эффективность (efficiency), которая характеризует долю времени реального использования процессоров вычислительной системы. Важной характеристикой разрабатываемых алгоритмов является стоимость (cost) вычислений, определяемая как произведение времени параллельного решения задачи и числа используемых процессоров.

Для демонстрации применимости рассмотренных моделей и методов анализа параллельных алгоритмов рассмотрена задача нахождения частных сумм последовательности числовых значений. На данном примере отмечается проблема сложности распараллеливания последовательных алгоритмов, которые изначально не были ориентированы на возможность организации параллельных вычислений. Для выделения "скрытого" параллелизма показана возможность преобразования исходной последовательной схемы вычислений и приведена получаемая в результате таких преобразований каскадная схема. На примере этой же задачи отмечается возможность введения избыточных вычислений для достижения большего параллелизма выполняемых расчетов.

В завершение главы рассмотрен вопрос построения оценок максимально достижимых значений показателей эффективности. Для получения таких оценок может быть использован закон Амдаля (Amdahl), позволяющий учесть существование последовательных (нераспараллеливаемых) вычислений в методах решения задач. Закон Густавсона–Барсиса (Gustafson–Barsis's law) обеспечивает построение оценок ускорения масштабирования (scaled speedup), используемое для характеристики того, насколько эффективно могут быть организованы параллельные вычисления при увеличении сложности решаемых задач. Для определения зависимости между сложностью решаемой задачи и числом процессоров, при соблюдении которой обеспечивается необходимый уровень эффективности параллельных вычислений, вводится понятие функции изоэффективности (isoefficiency function).

Контрольные вопросы

  1. Как определяется модель "операция–операнды"?
  2. Как определяется расписание для распределения вычислений меж-ду процессорами?
  3. Как определяется время выполнения параллельного алгоритма?
  4. Какое расписание является оптимальным?
  5. Как определить минимально возможное время решения задачи?
  6. Что понимается под паракомпьютером и для чего может оказаться полезным данное понятие?
  7. Какие оценки следует использовать в качестве характеристики времени последовательного решения задачи?
  8. Как определить минимально возможное время параллельного решения задачи по графу "операнды–операции"?
  9. Какие зависимости могут быть получены для времени параллельного решения задачи при увеличении или уменьшения числа используемых процессоров?
  10. При каком числе процессоров могут быть получены времена выполнения параллельного алгоритма, сопоставимые по порядку с оценками минимально возможного времени решения задачи?
  11. Как определяются понятия ускорения и эффективности?
  12. Возможно ли достижений сверх-линейного ускорения?
  13. В чем состоит противоречивость показателей ускорения и эффективности?
  14. Как определяется понятие стоимости вычислений?
  15. В чем состоит понятие стоимостно-оптимального алгоритма?
  16. В чем заключается проблема распараллеливания последовательного алгоритма суммирования числовых значений?
  17. В чем состоит каскадная схема суммирования? С какой целью рассматривается модифицированный вариант данной схемы?
  18. В чем различие показателей ускорения и эффективности для рассматриваемых вариантов каскадной схемы суммирования?
  19. В чем состоит параллельный алгоритм вычисления всех частных сумм последовательности числовых значений?
  20. Как формулируется закон Амдаля? Какой аспект параллельных вычислений позволяет учесть данный закон?
  21. Какие предположения используются для обоснования закона Гуcтавсона–Барсиса?
  22. Как определяется функция изо-эффективности?
  23. Какой алгоритм является масштабируемым? Приведите примеры методов с разным уровнем масштабируемости.

Задачи и упражнения

  1. Разработайте модель и выполните оценку показателей ускорения и эффективности параллельных вычислений:
    • для задачи скалярного произведения двух векторов
      y=\sum^N_{i=1}a_i b_i
    • для задачи поиска максимального и минимального значений для заданного набора числовых данных
      y_{min}=min_{i \le i \le N}a_i, \ y_{max}=max_{i \le i \le N}a_i
    • для задачи нахождения среднего значения для заданного набора числовых данных
      y=\frac {1}{N}\sum^N_{i=1}a_i
  2. Выполните в соответствии с законом Амдаля оценку максимально достижимого ускорения для задач п. 1.
  3. Выполните оценку ускорения масштабирования для задач п.1.
  4. Выполните построение функций изо-эффективности для задач п. 1.
  5. (*) Разработайте модель и выполните полный анализ эффективности параллельных вычислений (ускорение, эффективность, максимально достижимое ускорение, ускорение масштабирования, функция изо-эффективности) для задачи умножения матрицы на вектор.
Дмитрий Остапенко
Дмитрий Остапенко

поддерживаю выше заданые вопросы

 

Павел Каширин
Павел Каширин

Скачал архив и незнаю как ничать изучать материал. Видео не воспроизводится (скачено очень много кодеков, различных плееров -- никакого эффекта. Максимум видно часть изображения без звука). При старте ReplayMeeting и Start в браузерах google chrome, ie возникает script error с невнятным описанием. В firefox ситуация еще интереснее. Выводится: 

Meet Now: Кукаева Светлана Александровна. 

Meeting Start Time: 09.10.2012, 16:58:04
Meeting Stop Time: 09.10.2012, 18:45:18
Recording Duration:01:47:14

Downloading...

Your Web browser is not configured to play Windows Media audio/video files.

Make sure the features are enabled and available.

 

Анита Васильева
Анита Васильева
Россия, Санкт-Петербург, Санкт-Петербургский государственный университет
Светлана Кукаева
Светлана Кукаева
Россия