Могу ли я не понимать, что ни один из программного обеспечения там для горнодобывающей промышленности пользуется преимуществами новой GCN арки?
и если да, то я мог ожидать более высокую производительность из моей карты?
Короткий ответ: Да, немного лучше производительность возможно.
Длинный ответ: Вы можете ожидать немного больше производительности, но если нет деталь я не в курсе есть на самом деле не так много осталось, чтобы получить (1-2% в идеале). Позвольте мне объяснить, почему.
Насколько мне известно, ближайшая оценка числа математических операций, необходимых для вычисления хэша 1 составляет ~ 3375 (
в соответствии с Phateus). И если мы рассмотрим в идеале эффективный процессор быть один, который вычисляет математические операции в размере одной операции за один цикл, то хеширование бы ~ 3375 циклов на этом идеально эффективный процессор.
Теперь давайте посмотрим на какую производительность мы можем измерить с современными ядрами. 7970 имеет 2048 потоковых процессоров и фондовую частоту 925Mhz, и с наиболее известными ядрами это вычисление 550MH / с. Зная это, мы можем измерить среднее число циклов она принимает каждый процессор потока, чтобы вычислить один хэш, используя следующее уравнение:
Поток Процессор Количество х GPU Частота 2048 х 925MHz
Циклы / Хеш = -------------------------------------- = ------- ------ = ~ 3444cycles
Хэш в секунду 550 MH / с
Теперь, если мы считаем, что каждый потоковый процессор в лучшем случае может выполнить одну команду ALU за один цикл, то 7970 является чрезвычайно эффективным (в циклах в хэш), поскольку это измерение 3444 цикл reaaaallly близко к идеальному значению 3375 циклов в одной команде за один цикл , Это различие только ~ 2% от идеального и даже может быть из-за ошибки измерения. Его настолько эффективный, что если не прорыв, который уменьшает количество операций, требуемое на хэш, или есть какая-то новая команда GCN, что я знал о том, что позволяет GPU вычислить несколько шагов функции хеширования в одном цикле, или ядра являются изменен, чтобы начать пользоваться преимуществами фиксированной функции аппаратного обеспечения каким-то образом, то, насколько мне известно, ~ 550MH / с на складе часов в значительной степени все, что мы когда-нибудь получить.
Чтобы дать вам представление о том, насколько эффективно 7970 находится в вычислении хэшей мы можем сравнить его эффективность (в циклах на хэш) с 6970, который имеет 1536 потоковых процессоров и фондовую частоту 880MHz для самого высокого сообщенной hashrate из 370MH / с при том, что частота (от аппаратного сравнения диаграммы добычи):
Поток Процессор Количество х GPU Частота 1536 х 880MHz
Циклы / Хеш = -------------------------------------- = ------- ------ = ~ 3653cycles
Хэш в секунду 370 MH / с
При оценке 3653 циклов, A 6970 потоковый процессор занимает ~ 6% больше циклов на хэш, чем процессор 7970 потока на той же частоте, и ~ 8% больше, чем идеальный 1 инструкции для каждого процессора цикла.
Теперь давайте сравним с 5870, который имеет самый высокий Заявленный уровень хэш 379MH / с с его 1600 потоковыми процессорами и скорость припуска 850MHz:
Поток Процессор Количество х GPU Частота 1600 х 850 МГц
Циклы / Хеш = -------------------------------------- = ------- ------ = ~ 3588cycles
Хэш в секунду 379 MH / с
Это делает 5870 примерно 2% эффективнее (в циклах в хэш), чем 6970, но он все еще использует ~ 4% больше циклов в хэш, чем 7970, и ~ 6% больше, чем идеальный процессор. Таким образом, мы можем заключить, что GCN от ATI уже делает ~ 98% эффективное использование его потоковых процессоров для хэширования, который больше, чем VLIW4 и VLIW5 своих двух предыдущих поколений и близко к идеалу. Это более эффективное использование потокового процессора наряду с увеличением числа потоковых процессоров и более высокой частотой акций объясняет повышенную производительность хеширования по сравнению с предыдущими поколениями графических процессоров.
Отказ от ответственности: Я не эксперт программирования GPU (пока) поэтому, пожалуйста, мой ответ с зерном соли. Но за что его стоит, я разрабатываю программное обеспечение HPC для жизни, который решает проблемы с запуском на тысячах узлов параллельно.