Гипотетический GTX 580 SM ядро с 96 шейдерами @ 772MHz все равно должны иметь такую же производительность реального SM с 48 шейдерами @ 1544MHz, потому что он может обрабатывать только 4 инструкций за такт (2 перекосов). GTX 680 SMX ядро однако способна делать 8 команд за такт (4 перекосов). Это количество нитей основы планировщиков + шейдеров для заполнения, что в конечном счете определяет максимальную производительность.
Неа. Я думаю, что вы не совсем понимаете, как GPU функции. Наилучшее приближение я могу дать вам с гиперпоточностью, который имеет 4 набора регистров, а не 2. Так что да, если есть память выборки операции, будут 3 перекосов в полете, а не 1. Так что да, Кеплер бы хорошо для памяти -intensive задача (которые могли бы объяснить случай AES, если они подули вверх таблицы поиска и не укладывались их в __local памяти).
Но нет, нет пропускной инструкции 4x. В этом аспекте, это то же самое, как Ферми. КСТАТИ перекос не "выполнять" всего за один тактовый цикл, он выполняет гораздо больше, более 20 тактов и есть, конечно, трубопровод. С sm_1x архитектурой, трубопровод был пиздец и новые инструкции были неправдоподобными / отставные один раз в 4 часов. Ферми Улучшен, что один раз за 2 часов. Из того, что я прочитал в PDF, Кеплер делает точно так же, как Ферми. Теперь вопрос, sm_21 арки представили что-то вроде испорченного выполнения которых могут быть аналогичные инструкции по различным данным Independant "порционный", Это, в свою очередь, приводит к векторизации OpenCL кода для sm_21 и таких вещей, как GTX460 составляет ~ 60% быстрее, когда uint2 векторов используются. Я действительно интересно, как далеко они получили с этим в GK104