Дальнейшее улучшение phatk_dia ядра для Phoenix + SDK 2.6 - 2012-01-13

Если это работает, пожалуйста, напишите здесь и рассмотреть небольшое пожертвование @ 1PwnvixzVAKnAqp8LCV8iuv7ohzX2pbn5x :).

Важно (2012-01-13): FASTLOOP = False параметр больше не нужен, потому что FASTLOOP по умолчанию ложь в этой версии. Обновить: FASTLOOP = Истинные работает сейчас, я загрузил исправленную версию!

Важный: С OpenCL SDK / время выполнения версии 2,6 AMD обновила свой OpenCL компилятор, так что некоторые старые ядра и оптимизации в них, кажется, больше не работают или больше не нужны. Для того, чтобы отразить это изменение, которое я должен был изменить раздел производительности ядра этого потока.

Важный: Начиная с версии 2011-08-27 Вам не нужно больше поставить переключатель BFI_INT. Если HW поддерживает его, он автоматически включается. Для того, чтобы отключить его использовать BFI_INT = ложь.

Важный: Начиная с версии 2011-08-04 (пре-релиз) вы должны использовать переключатель VECTORS2 вместо векторов. Я сделал это изменение, чтобы быть ясно, что векторы используются в ядре (2- или 4-компонента). Для использования 4-компонентные векторы использовать переключатель VECTORS4.

Важный: Начиная с версии 2011-07-17 модифицированная версия __init__.py (для шахтера Phoenix) входит в комплект поставки и должен быть использован! Ядро не будет работать для других горнопромышленников без изменений к ним, см kernel.cl для дальнейших Infos.

Это предпочтительный переключатель для Phoenix с phatk_dia для того, чтобы достичь сопоставимой производительности:

Код:

-к phatk АГРЕССИЯ = 12 VECTORS2 WORKSIZE = 128

Скачать версию 2012-01-13: http://www.mediafire.com/?xzk6b1yvb24r4dg
Скачать версию 2011-12-21: http://www.mediafire.com/?r3n2m5s2y2b32d9
Скачать версию 2011-08-27: http://www.mediafire.com/?697r8t2pdk419ji
Скачать версию 2011-08-11: http://www.mediafire.com/?s5c7h4r91r4ad4j
Скачать версию 2011-08-04 (предварительная версия): http://www.mediafire.com/?upwwud7kfyx7788
Скачать версию 2011-07-17: http://www.mediafire.com/?4zxdd5557243has
Скачать версию 2011-07-11: http://www.mediafire.com/?k404b6lqn8vu6z6
Скачать версию 2011-07-07: http://www.mediafire.com/?o7jfp60s7xefrg4
Скачать версию 2011-07-06: http://www.mediafire.com/?f8b8q3w5u5p0ln0
Скачать версию 2011-07-03: http://www.mediafire.com/?xlkcc08jvp5a43v
Скачать версию 2011-07-01: http://www.mediafire.com/?5jmt7t0e83k3eox

Ядро производительности (BFI_INT / VECTORS2 / WORKSIZE = 128 / SDK 2.6 / APP KernelAnalyzer 1.11 - 11.12 Cal, профиль):
HD5870
2011-08-20: 22 GPR / 1427 ALU OPs / 66 CF вуп
2011-08-27: 22 GPR / 1426 ALU OPS / 66 CF вуп
2011-12-21: 20 GPR / 1400 ALU OPS / 66 CF вуп
2012-01-13: 21 ППГ / 1394 ALU OPs / 67 CF OPs

HD6970
2011-08-20: 21 ППГ / 1687 ALU OPs / 66 CF вуп
2011-08-27: 23 GPR / 1688 ALU OPs / 68 CF вуп
2011-12-21: 21 ППГ / 1687 ALU OPs / 66 CF вуп
2012-01-13: 20 GPR / 1687 ALU OPs / 66 CF вуп

Ядро производительности (BFI_INT / VECTORS2 / SDK 2.5 / APP KernelAnalyzer 1.9 - 11.7 Cal профиль):
HD5870
оригинальный phatk 1.X: 1393 ALU OPs
2011-07-01: 1389 ALU OPs
2011-07-03: 1385 ALU OPs
2011-07-06: 1380 ALU OPs
2011-07-07: 1380 ALU OPs
2011-07-11: 1378 ALU OPs
2011-07-17: 1376 ALU OPs
2011-08-04 (пре-релиз): 1368 ALU вуп
2011-08-11: 1364 ALU OPs
2011-08-27: 1363 ALU OPS (30 меньше по сравнению с оригинальным phatk 1.X)
HD6970
оригинальный phatk 1.X: 1707 ALU OPs
2011-07-01: 1710 ALU OPs
2011-07-03: 1706 ALU OPs
2011-07-06: 1702 ALU OPs
2011-07-07: 1702 ALU OPs
2011-07-11: 1701 ALU OPs
2011-07-17: 1699 ALU OPs
2011-08-04 (пре-релиз): 1689 ALU вуп
2011-08-11: 1687 ALU OPs
2011-08-27: 1687 ALU OPS (20 меньше по сравнению с оригинальным phatk 1.X)

Список изменений:

2012-01-13
Ядро:
- Изменено: Отказ от ответственности теперь такой же, как в оригинальной упаковке Phoenix
- удалены: все (U) перед преобразованием типов скаляров, где векторы и скаляры были использованы вместе, потому что по определению OpenCL это не требуется
- Удалены: все () скобки п в #define части ядра
- удалены: S0 (), который теперь снова слились в s0 ()
- удалены: скобки вокруг команды в T1w (), t1 (), t2 () и W () были удалены, чтобы позволить компилятор, чтобы изменить порядок их
- добавлено: Вт функция () пропустили; на это конец
- добавил: инициализации переменной B1addK6 используется в 6-м раунде, чтобы сохранить надстройку -> THX для DiabloD3
- добавлено: а (UINT) приведение типа перед get_local_id () и get_group_id () вызывает, поскольку возвращаемое значение может быть 64 бита в длину, который не хотел
- изменения: заменить все ма () + s0 () или (s0) + ма () вызывает с t2 ()
- модифицирована: круглый 6 теперь использует новый новый B1addK6 переменного
- изменение: переупорядочивается Вт [] для расчета раундов 32, 91 и 92
- Модифицированные: патроны 121, 122 и 123, чтобы вычислить не Vals [4], Vals [5] и Валс [6], потому что они не нужны для окончательного расчета Vals [7] -> THX для jhajduk
- модифицирована: удален + Н [7] из круглого 124 и использовать -0xec9fcd13 для проверки действительных одноразовых номеров
- добавлено: result_r124 переменная принять результат последнего раунда 124, это экономит несколько АЛУ ФОС на графических процессорах VLIW5
Python Init:
- Отредактировал замененные пространства с вкладки в форматированию исходного кода (я действительно не нравится эта часть в Python ^^)
- модифицируется: несколько комментариев и команды были переформатировать для лучшей читаемости или быть лучше понятно
- Изменено: параметр FASTLOOP теперь по умолчанию False, то это означает, что вам не нужно, чтобы поставить FASTLOOP = False больше
- удалено: OUTPUT_SIZE не используется больше, так что все ссылки на него были удалены
- изменение: изменилось ПЕРЕСМОТР до 122
- Отредактировал переместили проверки WORKSIZE ниже той части, где чек, если и какие векторы должны быть использованы выполняется
   это учитывает, что глобальный worksize передается ядру зависит от использования вектора и vectorsize
   (В настоящее время использование FASTLOOP может нарушить это, из-за "динамический" число итераций)
- добавлено: некоторая отладочная информация о worksize и pyOpenCL отображаются в начале
- добавлено: В1 + К [6] передается в качестве нового параметра ядра
- модифицировано: сделано enqueue_read_buffer () / enqueue_write_buffer () блокирование и удаляет покрытие () после чтения, в соответствии с рекомендациями AMDS
   чтобы свести к минимуму накладных расходов API

2011-08-27:
Ядро:
- добавлено: код путь для 3-компонентных векторов, активированных с помощью VECTORS3 (в настоящее время не использовать, из-за ошибки в драйверах AMD до Cat 11.8)
- удалены: BITALIGN вариант из ядра, BFI_INT теперь используется автоматически, если HW поддерживает его (отключить через BFI_INT = ложь)
- изменение: функция не BFI_INT Ч. (), которая была нарушена в 2011-08-11 -> THX Винсу
- Изменено: выход ядра буфер теперь ULONG массив, а не массив UINT
- удалены: OUTPUT_SIZE аргумент не передается и используется в ядре больше
- изменение: WORKSIZEx4, WORKSIZEx3 и WORKSIZEx2 аргументы были объединены в WORKSIZExVECSIZE
- изменения: удалены, заказаны и добавил некоторые скобки и типа литье материала в ядре
- изменения: восстановить порядок команд для круглых 108 - 123, чтобы освободить GPR
- изменения: добавили H [7] в круглые 124 расчета
- изменено: изменено проверка для положительных временных значений еще раз, чтобы покрыть H [7] изменение
- модифицирована: запись временных значений для вывода теперь использует 1 запись для vec2 и макс. 2 пишет для vec4, потому что 2x uints теперь кодируются в 1x ULONG
Python Init:
- добавлено: Код для 3-компонентных векторов, активированных с помощью VECTORS3 (в настоящее время не использовать, из-за ошибки в драйверах AMD до Cat 11.8)
- удалены: BITALIGN вариант из инициализации Python, BFI_INT теперь используется автоматически, если HW поддерживает его (отключить через BFI_INT = ложь)
- добавлено: определение максимальной поддерживаемой WORKSIZE на устройство, которое используется, если нет WORKSIZE не подается, если они предоставлены WORKSIZE > Максимум. поддерживается WORKSIZE
    или если WORKSIZE не является степенью 2
- добавлено: код для декодирования ULong из выходного буфера в 2 раза UINT и обрабатывать результаты
- Модифицированные: комментарии, код верстка и разрывы строк для лучшей читаемости
- изменение: размер выходного буфера в настоящее время WORKSIZE -> THX для Phaetus

2011-08-11:
- Отредактировал вернулся бывший изменения в функции Ма (), чтобы сохранить ALU OP для 69XX карт
- добавлено: S0 () и функции S1 (), который представляет собой компилятор помощь -> THX Phateus
- изменения: несколько скобок и расположение всех вспомогательных функций для лучшей читаемости и совместимости
- добавлено: функция t2 (), которое (s0 (п) + мо (п)) и сохраняет несколько GPRS -> THX Phateus и сам (было это в начале, но удалить его когда-нибудь ^^)
- изменение: изменено расположение определения ядра для лучшей читаемости
- изменения: все значения, которые, например, имели 10U теперь есть 10U (в верхнем регистре), чтобы быть последовательным во всем ядре
- модифицированный модифицированный круглый расчета 94 Вт для повышения производительности
- модифицирована: круглый 108 - 123 теперь состоит из 2 W () блоки, а затем 2 sharoundW () блоки, чтобы сохранить GPR
- Отредактировал изменили проверки для положительных временных значений снова никогда не создает недопустимую долю и меньшую ALU использование OP

2011-08-04 (пре-релиз):
- добавлено: пользователь Vince в оговорке -> THX Vince 🙂
- добавил: Ядро теперь может работать с 4-компонентных векторов (переключатель VECTORS4) -> THX для Phateus
- изменения: использовать 2-компонентные векторы I переименовал переключатель ВЕКТОРЫ в VECTORS2
- добавлено: __attribute __ ((reqd_work_group_size (WORKSIZE, 1, 1))) -> THX для Phateus
- добавлено: постоянные PreW31 и PreW32, которые хранят P2 () + P4 () для круглых 31 и 32 -> THX для Phateus
- переименованы - модифицированный: W17_2 теперь PreW19, W2, теперь PreW18, PreVal4addT1 теперь PreVal4 (= PreVal4 + Т1), state0subT1 теперь PreVal0 (= Preval4 + state0)
- модифицирована: база теперь объявлена как у сохранить addidion из uint2 (0, 1) или uint4 (0, 1, 2, 3) для W_3 инициализации -> THX для Phateus
- модифицировано: расчет нонса теперь использует локальную Work-Item ID, идентификатор группы и WORKSIZE вместо только глобального работу-Item ID -> THX для Phateus
- добавлено: сохранено умножение пропускания WORKSIZEx2 и WORKSIZEx4 константы ядра
- изменение: Расчет для W [18 - O] был оптимизирован таким образом, что Р2 (18) вычисляются только для й компонента (если используются векторы), потому что х и у отличаются только
    в младший бит, а затем бит 14 и 25 вращаются для W [18 - O] .y -> THX для Phateus
- изменение: сохранено дополнение для Vals [0] инициализации из-за изменений в PreVal0
- изменение: переупорядочиваются код раунда 4 - 95, чтобы оптимизировать для менее ФОС ALU, используемого -> THX Phateus и сам ^^
- изменения: упорядочение переменных в дополнениях к раунду 124 было изменено для оптимизации менее ФОС ALU, используемого
- Отредактировал переписал часть, где проверяются одноразовые, если они положительны и где они записываются в выходной буфер
    (Экономия 2 глобальных операции записи в рабочем элемент-и сохраняет дополнительный ФОС ALU)
- изменения: измененные переменные W_3, P2_18_x, P2_18 и одноразовое значение в константу
- изменения: изменен код верстку для патронов 4 - 124 лучше читаемости
- удалены: некоторые комментарии к Ыборке коды

2011-07-17:
- добавлено: смещение для W [] массива, чтобы уменьшить его размер -> THX для пользователя Vince
- изменение: функция t1 () переименована в T1w () / функции sharound () переименован в sharoundW ()
- добавлено: функция t1 () и sharound (), которые используются, где W [] добавление может быть опущены, так как W [] == 0
    Я предполагаю, что компилятор уже делает эту оптимизацию, но не больно) -> THX для пользователя Vince
- изменение: Р1 () - Р4 () и W () для мужского использования смещения
- изменение: довольно много параметров ядра имеют новые значения или были добавлены (смешанные идеи от пользователя Vince собственных из них)
    C1addK5: C1addK5 = С1 + К [5]: C1addK5 = С1 + 0x59f111f1
    D1: D1 = D1 + К [4] + W [4]: D1 = D1 + 0xe9b5dba5 + 0x80000000U
    W2: W2 + Н16 в Р1 (): W2 = Р1 (18) + P4 (18)
    W17_2: 0x80000000U в Р2 () = 0x11002000 + W17 в Р1 (): W17_2 = Р1 (19) + Р2 (19)
    PreValaddT1: PreValaddT1 = PreVal4 + Т1
    T1substate0: T1substate0 = T1substate0
- добавлено: Переменная W_3, в котором хранится первым formely значения, удерживаемый в W [3]
- добавлено: переменная Temp используется для ускорения вычисления для раундов 4 и 5
- изменения: изменен раунд 3 так, что он более эффективен (использует: Vals [0] и Валс [4])
- изменение: W [0] - W [14] В настоящее время вида жестко закодированы или опущен, где они были 0
- модифицирована: оптимизирован Р1 (18) + Р2 (18) + P4 (18)
- модифицирована: оптимизирован Р1 (19) + Р2 (19) + P4 (19)
- модифицирована: оптимизирован раунд 4 + 5
- Модифицированные: раунды 6 - 14 и 73 - 78 теперь используют новый sharound () без W [] дополнения
- изменение: смещение, добавленное для всех частей, где используется для W []
- изменение: W_3 используются в качестве результата вместо W [3] (Вт [3] по-прежнему используются для генерации случайного possition в выходном буфере) -> THX для пользователя Vince

2011-07-11:
- изменение: постоянная Н [7] имеет новое значение (сохраняет сложение в круглых 124)
- изменения: функция не BFI_INT Ch () теперь использует OpenCL встроенный bitselect
- изменение: переупорядочивается Вт [] расчеты для круглых 18 - 30, 87 и 94
- Изменено: заказана расчет для 5-го тура
- изменение: W [] для расчета круглых 80 - 86 в настоящее время является блок перед тем sharound () называется
- удалено: К [60] из круглых 124 (из-за новым H [7] значение)

2011-07-07:
- удалено: некоторые большие комментарии в источнике были удалены
- модифицирована: функция Ma () теперь уникальный в ядре, независимо от того, если BFI_INT используется или нет -> THX для пользователя: 1MLyg5WVFSMifFjkrZiyGW2nw
- добавлено: функция Ch (), которая использует OpenCL bitselect () команды (но не активна, так что вы можете попробовать его) -> THX для пользователя: 1MLyg5WVFSMifFjkrZiyGW2nw
- модифицирована: и W [128] заменяется на U W [124], поскольку не используются более чем 124 значений
- изменение: инициализация для Vals [0], Vals [3], Vals [4] и Vals [7] В настоящее время обрабатываются в других местах, чтобы сохранить некоторые ненужные операции записи в этих переменных
- исправлено: некоторые шестнадцатеричные значения, которые были использованы в векторных добавлениях теперь правильно типа-литых, который, надеюсь, восстанавливает AMD APP SDK 2.1 совместимости
- Модифицированные: раунды 3, 4 и 5 были изменены для повышения производительности (думает, это может быть настроено, если у меня есть рабочий KernelAnalyzer)

2011-07-06:
- изменение: H [] константы были заказаны (-не использовался из-за более ранние модификации)
- добавлено: добавлена ULONG константа L (это значение не укладывается в UINT)
- модифицирована: новый Ма () для не BFI_INT способных карт, должен быть быстрее -> THX для пользователя: 1MLyg5WVFSMifFjkrZiyGW2nw
- удалены: T1w ()
- изменения: t1 () заказаны вызовы функций для повышения производительности
- изменение: W () заказаны вызовы функций для повышения производительности
- изменение: sharound () удаляются записи в t1, теперь t1 () вызывается дважды, что делает эту функцию БЫСТРЕЕ (OpenCL оптимизации компилятора)
- удалены: sharound2 () (при необходимости W () + sharound () используется вместо этого)
- удалено: partround () не требуется, поскольку другое решение для 3 раунда и 124
- удалены: t1 и T1w variabled
- Модифицированные: патроны 3, 19, 30, 81, 87, 94 и 124 были изменены для повышения производительности

2011-07-03:
- удалены: t2 (), ш (п), г0 (х), R 1 (х), R 0 (п) и R1 (п)
- переименованы - модифицированный: Р (х) Ш (х) плюс теперь использует P1, P2, P3 и P4 напрямую
- изменение: Р1 (х) и Р2 (х), чтобы не использовать R1 (х - 2), R 0 (х - 15), но сделать это напрямую
- отредактировано ША раундов 31, 32, 47 - 61, 86, 87, 114 - 119 теперь используют sharound2 () вместо W (+) sharound ()
- Изменено: заказана код SHA раунды 66 - 94 -> не видел снижение производительности -> лучше читаемость
- отредактировано ША раунды 18, 19, 20, 80, 93, 94 теперь используют более простой расчет из удаленных нулевого addions
--> 1x Р1 (х), 2x Р2 (х), 4x Р3 (х) и 2x Р4 (х) были удалены, которые должны дать немного Mhash / сек импульс
- изменение: sharound (), так что двойное исполнение t1 () можно избежать -> THX для пользователя: 1MLyg5WVFSMifFjkrZiyGW2nw
- добавлено: "у T1w" Переменная, которая используется в sharound2 (), чтобы избежать двойного исполнения T1w ()

2011-07-01:

Код:

Валс [7] = 0xb0edbdd0 + К [0] + W [64] + 0x08909ae5U; -> Валс [7] = 0xfc08884d + W [64];
Валс [3] = 0xa54ff53a + 0xb0edbdd0 + К [0] + W [64]; -> Валс [3] = 0x198c7e2a2 + W [64];

- удалена

Код:

Валс [7] + = Н [7]

добавление и заменить окончательную если-заявление в ядре
- переупорядочиваются некоторые W [п] = операторы, чтобы удалить некоторые ненужные дополнения
- заменены все дополнения, как 64 + 5 с соответствующим целым значением (думаю, это было там для удобства понимания, поэтому здесь еще хуже: D)
- удалены некоторые ненужные скобки
- переформатирован для лучшей читаемости

Если это работает, пожалуйста, напишите здесь и рассмотреть небольшое пожертвование @ 1PwnvixzVAKnAqp8LCV8iuv7ohzX2pbn5x :).

Благодаря,
диаметр

1 июля 2011, 5:59:34 PM	# 1
Diapolo Сообщения: 676 Цитировать по имени цитировать ответ	Re: дальнейшее улучшение phatk_dia ядра для Phoenix + SDK 2.6 - 2012-01-13 Взлом Биткоин адресов. 500 Биткоинов взломаны в "мозговом кошельке" с паролем "bitcoin is awesome" Адрес кошелька: 14NWDXkQwcGN1Pd9fboL8npVynD5SfyJAE Приватный ключ: 5J64pq77XjeacCezwmAr2V1s7snvvJkuAz8sENxw7xCkikceV6e подробнее... Всем кто хочет заработать Биткоины без вложений - рекомендую сайт http://bitcoin-zarabotat.ru Если это работает, пожалуйста, напишите здесь и рассмотреть небольшое пожертвование @ 1PwnvixzVAKnAqp8LCV8iuv7ohzX2pbn5x :). Важно (2012-01-13): FASTLOOP = False параметр больше не нужен, потому что FASTLOOP по умолчанию ложь в этой версии. Обновить: FASTLOOP = Истинные работает сейчас, я загрузил исправленную версию! Важный: С OpenCL SDK / время выполнения версии 2,6 AMD обновила свой OpenCL компилятор, так что некоторые старые ядра и оптимизации в них, кажется, больше не работают или больше не нужны. Для того, чтобы отразить это изменение, которое я должен был изменить раздел производительности ядра этого потока. Важный: Начиная с версии 2011-08-27 Вам не нужно больше поставить переключатель BFI_INT. Если HW поддерживает его, он автоматически включается. Для того, чтобы отключить его использовать BFI_INT = ложь. Важный: Начиная с версии 2011-08-04 (пре-релиз) вы должны использовать переключатель VECTORS2 вместо векторов. Я сделал это изменение, чтобы быть ясно, что векторы используются в ядре (2- или 4-компонента). Для использования 4-компонентные векторы использовать переключатель VECTORS4. Важный: Начиная с версии 2011-07-17 модифицированная версия __init__.py (для шахтера Phoenix) входит в комплект поставки и должен быть использован! Ядро не будет работать для других горнопромышленников без изменений к ним, см kernel.cl для дальнейших Infos. Это предпочтительный переключатель для Phoenix с phatk_dia для того, чтобы достичь сопоставимой производительности: Код: -к phatk АГРЕССИЯ = 12 VECTORS2 WORKSIZE = 128 Скачать версию 2012-01-13: http://www.mediafire.com/?xzk6b1yvb24r4dg Скачать версию 2011-12-21: http://www.mediafire.com/?r3n2m5s2y2b32d9 Скачать версию 2011-08-27: http://www.mediafire.com/?697r8t2pdk419ji Скачать версию 2011-08-11: http://www.mediafire.com/?s5c7h4r91r4ad4j Скачать версию 2011-08-04 (предварительная версия): http://www.mediafire.com/?upwwud7kfyx7788 Скачать версию 2011-07-17: http://www.mediafire.com/?4zxdd5557243has Скачать версию 2011-07-11: http://www.mediafire.com/?k404b6lqn8vu6z6 Скачать версию 2011-07-07: http://www.mediafire.com/?o7jfp60s7xefrg4 Скачать версию 2011-07-06: http://www.mediafire.com/?f8b8q3w5u5p0ln0 Скачать версию 2011-07-03: http://www.mediafire.com/?xlkcc08jvp5a43v Скачать версию 2011-07-01: http://www.mediafire.com/?5jmt7t0e83k3eox Ядро производительности (BFI_INT / VECTORS2 / WORKSIZE = 128 / SDK 2.6 / APP KernelAnalyzer 1.11 - 11.12 Cal, профиль): HD5870 2011-08-20: 22 GPR / 1427 ALU OPs / 66 CF вуп 2011-08-27: 22 GPR / 1426 ALU OPS / 66 CF вуп 2011-12-21: 20 GPR / 1400 ALU OPS / 66 CF вуп 2012-01-13: 21 ППГ / 1394 ALU OPs / 67 CF OPs HD6970 2011-08-20: 21 ППГ / 1687 ALU OPs / 66 CF вуп 2011-08-27: 23 GPR / 1688 ALU OPs / 68 CF вуп 2011-12-21: 21 ППГ / 1687 ALU OPs / 66 CF вуп 2012-01-13: 20 GPR / 1687 ALU OPs / 66 CF вуп Ядро производительности (BFI_INT / VECTORS2 / SDK 2.5 / APP KernelAnalyzer 1.9 - 11.7 Cal профиль): HD5870 оригинальный phatk 1.X: 1393 ALU OPs 2011-07-01: 1389 ALU OPs 2011-07-03: 1385 ALU OPs 2011-07-06: 1380 ALU OPs 2011-07-07: 1380 ALU OPs 2011-07-11: 1378 ALU OPs 2011-07-17: 1376 ALU OPs 2011-08-04 (пре-релиз): 1368 ALU вуп 2011-08-11: 1364 ALU OPs 2011-08-27: 1363 ALU OPS (30 меньше по сравнению с оригинальным phatk 1.X) HD6970 оригинальный phatk 1.X: 1707 ALU OPs 2011-07-01: 1710 ALU OPs 2011-07-03: 1706 ALU OPs 2011-07-06: 1702 ALU OPs 2011-07-07: 1702 ALU OPs 2011-07-11: 1701 ALU OPs 2011-07-17: 1699 ALU OPs 2011-08-04 (пре-релиз): 1689 ALU вуп 2011-08-11: 1687 ALU OPs 2011-08-27: 1687 ALU OPS (20 меньше по сравнению с оригинальным phatk 1.X) Список изменений: 2012-01-13 Ядро: - Изменено: Отказ от ответственности теперь такой же, как в оригинальной упаковке Phoenix - удалены: все (U) перед преобразованием типов скаляров, где векторы и скаляры были использованы вместе, потому что по определению OpenCL это не требуется - Удалены: все () скобки п в #define части ядра - удалены: S0 (), который теперь снова слились в s0 () - удалены: скобки вокруг команды в T1w (), t1 (), t2 () и W () были удалены, чтобы позволить компилятор, чтобы изменить порядок их - добавлено: Вт функция () пропустили; на это конец - добавил: инициализации переменной B1addK6 используется в 6-м раунде, чтобы сохранить надстройку -> THX для DiabloD3 - добавлено: а (UINT) приведение типа перед get_local_id () и get_group_id () вызывает, поскольку возвращаемое значение может быть 64 бита в длину, который не хотел - изменения: заменить все ма () + s0 () или (s0) + ма () вызывает с t2 () - модифицирована: круглый 6 теперь использует новый новый B1addK6 переменного - изменение: переупорядочивается Вт [] для расчета раундов 32, 91 и 92 - Модифицированные: патроны 121, 122 и 123, чтобы вычислить не Vals [4], Vals [5] и Валс [6], потому что они не нужны для окончательного расчета Vals [7] -> THX для jhajduk - модифицирована: удален + Н [7] из круглого 124 и использовать -0xec9fcd13 для проверки действительных одноразовых номеров - добавлено: result_r124 переменная принять результат последнего раунда 124, это экономит несколько АЛУ ФОС на графических процессорах VLIW5 Python Init: - Отредактировал замененные пространства с вкладки в форматированию исходного кода (я действительно не нравится эта часть в Python ^^) - модифицируется: несколько комментариев и команды были переформатировать для лучшей читаемости или быть лучше понятно - Изменено: параметр FASTLOOP теперь по умолчанию False, то это означает, что вам не нужно, чтобы поставить FASTLOOP = False больше - удалено: OUTPUT_SIZE не используется больше, так что все ссылки на него были удалены - изменение: изменилось ПЕРЕСМОТР до 122 - Отредактировал переместили проверки WORKSIZE ниже той части, где чек, если и какие векторы должны быть использованы выполняется это учитывает, что глобальный worksize передается ядру зависит от использования вектора и vectorsize (В настоящее время использование FASTLOOP может нарушить это, из-за "динамический" число итераций) - добавлено: некоторая отладочная информация о worksize и pyOpenCL отображаются в начале - добавлено: В1 + К [6] передается в качестве нового параметра ядра - модифицировано: сделано enqueue_read_buffer () / enqueue_write_buffer () блокирование и удаляет покрытие () после чтения, в соответствии с рекомендациями AMDS чтобы свести к минимуму накладных расходов API 2011-08-27: Ядро: - добавлено: код путь для 3-компонентных векторов, активированных с помощью VECTORS3 (в настоящее время не использовать, из-за ошибки в драйверах AMD до Cat 11.8) - удалены: BITALIGN вариант из ядра, BFI_INT теперь используется автоматически, если HW поддерживает его (отключить через BFI_INT = ложь) - изменение: функция не BFI_INT Ч. (), которая была нарушена в 2011-08-11 -> THX Винсу - Изменено: выход ядра буфер теперь ULONG массив, а не массив UINT - удалены: OUTPUT_SIZE аргумент не передается и используется в ядре больше - изменение: WORKSIZEx4, WORKSIZEx3 и WORKSIZEx2 аргументы были объединены в WORKSIZExVECSIZE - изменения: удалены, заказаны и добавил некоторые скобки и типа литье материала в ядре - изменения: восстановить порядок команд для круглых 108 - 123, чтобы освободить GPR - изменения: добавили H [7] в круглые 124 расчета - изменено: изменено проверка для положительных временных значений еще раз, чтобы покрыть H [7] изменение - модифицирована: запись временных значений для вывода теперь использует 1 запись для vec2 и макс. 2 пишет для vec4, потому что 2x uints теперь кодируются в 1x ULONG Python Init: - добавлено: Код для 3-компонентных векторов, активированных с помощью VECTORS3 (в настоящее время не использовать, из-за ошибки в драйверах AMD до Cat 11.8) - удалены: BITALIGN вариант из инициализации Python, BFI_INT теперь используется автоматически, если HW поддерживает его (отключить через BFI_INT = ложь) - добавлено: определение максимальной поддерживаемой WORKSIZE на устройство, которое используется, если нет WORKSIZE не подается, если они предоставлены WORKSIZE > Максимум. поддерживается WORKSIZE или если WORKSIZE не является степенью 2 - добавлено: код для декодирования ULong из выходного буфера в 2 раза UINT и обрабатывать результаты - Модифицированные: комментарии, код верстка и разрывы строк для лучшей читаемости - изменение: размер выходного буфера в настоящее время WORKSIZE -> THX для Phaetus 2011-08-11: - Отредактировал вернулся бывший изменения в функции Ма (), чтобы сохранить ALU OP для 69XX карт - добавлено: S0 () и функции S1 (), который представляет собой компилятор помощь -> THX Phateus - изменения: несколько скобок и расположение всех вспомогательных функций для лучшей читаемости и совместимости - добавлено: функция t2 (), которое (s0 (п) + мо (п)) и сохраняет несколько GPRS -> THX Phateus и сам (было это в начале, но удалить его когда-нибудь ^^) - изменение: изменено расположение определения ядра для лучшей читаемости - изменения: все значения, которые, например, имели 10U теперь есть 10U (в верхнем регистре), чтобы быть последовательным во всем ядре - модифицированный модифицированный круглый расчета 94 Вт для повышения производительности - модифицирована: круглый 108 - 123 теперь состоит из 2 W () блоки, а затем 2 sharoundW () блоки, чтобы сохранить GPR - Отредактировал изменили проверки для положительных временных значений снова никогда не создает недопустимую долю и меньшую ALU использование OP 2011-08-04 (пре-релиз): - добавлено: пользователь Vince в оговорке -> THX Vince 🙂 - добавил: Ядро теперь может работать с 4-компонентных векторов (переключатель VECTORS4) -> THX для Phateus - изменения: использовать 2-компонентные векторы I переименовал переключатель ВЕКТОРЫ в VECTORS2 - добавлено: __attribute __ ((reqd_work_group_size (WORKSIZE, 1, 1))) -> THX для Phateus - добавлено: постоянные PreW31 и PreW32, которые хранят P2 () + P4 () для круглых 31 и 32 -> THX для Phateus - переименованы - модифицированный: W17_2 теперь PreW19, W2, теперь PreW18, PreVal4addT1 теперь PreVal4 (= PreVal4 + Т1), state0subT1 теперь PreVal0 (= Preval4 + state0) - модифицирована: база теперь объявлена как у сохранить addidion из uint2 (0, 1) или uint4 (0, 1, 2, 3) для W_3 инициализации -> THX для Phateus - модифицировано: расчет нонса теперь использует локальную Work-Item ID, идентификатор группы и WORKSIZE вместо только глобального работу-Item ID -> THX для Phateus - добавлено: сохранено умножение пропускания WORKSIZEx2 и WORKSIZEx4 константы ядра - изменение: Расчет для W [18 - O] был оптимизирован таким образом, что Р2 (18) вычисляются только для й компонента (если используются векторы), потому что х и у отличаются только в младший бит, а затем бит 14 и 25 вращаются для W [18 - O] .y -> THX для Phateus - изменение: сохранено дополнение для Vals [0] инициализации из-за изменений в PreVal0 - изменение: переупорядочиваются код раунда 4 - 95, чтобы оптимизировать для менее ФОС ALU, используемого -> THX Phateus и сам ^^ - изменения: упорядочение переменных в дополнениях к раунду 124 было изменено для оптимизации менее ФОС ALU, используемого - Отредактировал переписал часть, где проверяются одноразовые, если они положительны и где они записываются в выходной буфер (Экономия 2 глобальных операции записи в рабочем элемент-и сохраняет дополнительный ФОС ALU) - изменения: измененные переменные W_3, P2_18_x, P2_18 и одноразовое значение в константу - изменения: изменен код верстку для патронов 4 - 124 лучше читаемости - удалены: некоторые комментарии к Ыборке коды 2011-07-17: - добавлено: смещение для W [] массива, чтобы уменьшить его размер -> THX для пользователя Vince - изменение: функция t1 () переименована в T1w () / функции sharound () переименован в sharoundW () - добавлено: функция t1 () и sharound (), которые используются, где W [] добавление может быть опущены, так как W [] == 0 Я предполагаю, что компилятор уже делает эту оптимизацию, но не больно) -> THX для пользователя Vince - изменение: Р1 () - Р4 () и W () для мужского использования смещения - изменение: довольно много параметров ядра имеют новые значения или были добавлены (смешанные идеи от пользователя Vince собственных из них) C1addK5: C1addK5 = С1 + К [5]: C1addK5 = С1 + 0x59f111f1 D1: D1 = D1 + К [4] + W [4]: D1 = D1 + 0xe9b5dba5 + 0x80000000U W2: W2 + Н16 в Р1 (): W2 = Р1 (18) + P4 (18) W17_2: 0x80000000U в Р2 () = 0x11002000 + W17 в Р1 (): W17_2 = Р1 (19) + Р2 (19) PreValaddT1: PreValaddT1 = PreVal4 + Т1 T1substate0: T1substate0 = T1substate0 - добавлено: Переменная W_3, в котором хранится первым formely значения, удерживаемый в W [3] - добавлено: переменная Temp используется для ускорения вычисления для раундов 4 и 5 - изменения: изменен раунд 3 так, что он более эффективен (использует: Vals [0] и Валс [4]) - изменение: W [0] - W [14] В настоящее время вида жестко закодированы или опущен, где они были 0 - модифицирована: оптимизирован Р1 (18) + Р2 (18) + P4 (18) - модифицирована: оптимизирован Р1 (19) + Р2 (19) + P4 (19) - модифицирована: оптимизирован раунд 4 + 5 - Модифицированные: раунды 6 - 14 и 73 - 78 теперь используют новый sharound () без W [] дополнения - изменение: смещение, добавленное для всех частей, где используется для W [] - изменение: W_3 используются в качестве результата вместо W [3] (Вт [3] по-прежнему используются для генерации случайного possition в выходном буфере) -> THX для пользователя Vince 2011-07-11: - изменение: постоянная Н [7] имеет новое значение (сохраняет сложение в круглых 124) - изменения: функция не BFI_INT Ch () теперь использует OpenCL встроенный bitselect - изменение: переупорядочивается Вт [] расчеты для круглых 18 - 30, 87 и 94 - Изменено: заказана расчет для 5-го тура - изменение: W [] для расчета круглых 80 - 86 в настоящее время является блок перед тем sharound () называется - удалено: К [60] из круглых 124 (из-за новым H [7] значение) 2011-07-07: - удалено: некоторые большие комментарии в источнике были удалены - модифицирована: функция Ma () теперь уникальный в ядре, независимо от того, если BFI_INT используется или нет -> THX для пользователя: 1MLyg5WVFSMifFjkrZiyGW2nw - добавлено: функция Ch (), которая использует OpenCL bitselect () команды (но не активна, так что вы можете попробовать его) -> THX для пользователя: 1MLyg5WVFSMifFjkrZiyGW2nw - модифицирована: и W [128] заменяется на U W [124], поскольку не используются более чем 124 значений - изменение: инициализация для Vals [0], Vals [3], Vals [4] и Vals [7] В настоящее время обрабатываются в других местах, чтобы сохранить некоторые ненужные операции записи в этих переменных - исправлено: некоторые шестнадцатеричные значения, которые были использованы в векторных добавлениях теперь правильно типа-литых, который, надеюсь, восстанавливает AMD APP SDK 2.1 совместимости - Модифицированные: раунды 3, 4 и 5 были изменены для повышения производительности (думает, это может быть настроено, если у меня есть рабочий KernelAnalyzer) 2011-07-06: - изменение: H [] константы были заказаны (-не использовался из-за более ранние модификации) - добавлено: добавлена ULONG константа L (это значение не укладывается в UINT) - модифицирована: новый Ма () для не BFI_INT способных карт, должен быть быстрее -> THX для пользователя: 1MLyg5WVFSMifFjkrZiyGW2nw - удалены: T1w () - изменения: t1 () заказаны вызовы функций для повышения производительности - изменение: W () заказаны вызовы функций для повышения производительности - изменение: sharound () удаляются записи в t1, теперь t1 () вызывается дважды, что делает эту функцию БЫСТРЕЕ (OpenCL оптимизации компилятора) - удалены: sharound2 () (при необходимости W () + sharound () используется вместо этого) - удалено: partround () не требуется, поскольку другое решение для 3 раунда и 124 - удалены: t1 и T1w variabled - Модифицированные: патроны 3, 19, 30, 81, 87, 94 и 124 были изменены для повышения производительности 2011-07-03: - удалены: t2 (), ш (п), г0 (х), R 1 (х), R 0 (п) и R1 (п) - переименованы - модифицированный: Р (х) Ш (х) плюс теперь использует P1, P2, P3 и P4 напрямую - изменение: Р1 (х) и Р2 (х), чтобы не использовать R1 (х - 2), R 0 (х - 15), но сделать это напрямую - отредактировано ША раундов 31, 32, 47 - 61, 86, 87, 114 - 119 теперь используют sharound2 () вместо W (+) sharound () - Изменено: заказана код SHA раунды 66 - 94 -> не видел снижение производительности -> лучше читаемость - отредактировано ША раунды 18, 19, 20, 80, 93, 94 теперь используют более простой расчет из удаленных нулевого addions --> 1x Р1 (х), 2x Р2 (х), 4x Р3 (х) и 2x Р4 (х) были удалены, которые должны дать немного Mhash / сек импульс - изменение: sharound (), так что двойное исполнение t1 () можно избежать -> THX для пользователя: 1MLyg5WVFSMifFjkrZiyGW2nw - добавлено: "у T1w" Переменная, которая используется в sharound2 (), чтобы избежать двойного исполнения T1w () 2011-07-01: Код: Валс [7] = 0xb0edbdd0 + К [0] + W [64] + 0x08909ae5U; -> Валс [7] = 0xfc08884d + W [64]; Валс [3] = 0xa54ff53a + 0xb0edbdd0 + К [0] + W [64]; -> Валс [3] = 0x198c7e2a2 + W [64]; - удалена Код: Валс [7] + = Н [7] добавление и заменить окончательную если-заявление в ядре - переупорядочиваются некоторые W [п] = операторы, чтобы удалить некоторые ненужные дополнения - заменены все дополнения, как 64 + 5 с соответствующим целым значением (думаю, это было там для удобства понимания, поэтому здесь еще хуже: D) - удалены некоторые ненужные скобки - переформатирован для лучшей читаемости Если это работает, пожалуйста, напишите здесь и рассмотреть небольшое пожертвование @ 1PwnvixzVAKnAqp8LCV8iuv7ohzX2pbn5x :). Благодаря, диаметр

1 июля 2011, 6:42:49 PM	# 2
Берт Сообщения: 126 Цитировать по имени цитировать ответ	Re: дальнейшее улучшение phatk_dia ядра для Phoenix + SDK 2.6 - 2012-01-13 Получил 1806 Биткоинов Реальная история. 454 Mhash / сек до 456 Mhash / сек для меня на двух разогнанных / пониженными 5870-х годов. Отношение отклонять составляет около 1-2%, что является то, что это было для меня раньше. Тем не менее, глядя на дифф двух файлов и чесать голову. Bitcoins на пути. EDIT: Мой отклонять соотношение примерно до 0,5% * нуля *, может быть, это просто полоса удачи.

1 июля 2011, 6:52:39 PM	# 3
maykelmoya Сообщений: 13 Цитировать по имени цитировать ответ	Re: дальнейшее улучшение phatk_dia ядра для Phoenix + SDK 2.6 - 2012-01-13 Не работает для меня. феникс 1,48, Ubuntu 11.04 64бит. $ ./phoenix.py -v -u HTTP: // пользователь: passwd@foomining.org: 8332 / -к phatk DEVICE = 0 ВЕКТОРОВ BFI_INT АГРЕССИИ = 12 /usr/local/lib/python2.7/dist-packages/pyopencl-2011.1beta3-py2.7-linux-x86_64.egg/pyopencl/__init__.py:163: UserWarning: Сложение удалось, но в результате непустых бревен : Развивайте удалось, но сказал: /tmp/OCLmC5ovs.cl(1): предупреждение: игнорирование непризнанного расширения OpenCL #pragma OpenCL __FAST_RELAXED_MATH__ ^ /tmp/OCLmC5ovs.cl(234): предупреждение: целое число, преобразование в результате усечения Валс [3] = 0x198c7e2a2 + W [64]; ^ предупредить ("Строить удалось, но в результате непустых журналов: \ п"+ Сообщение) [01/07/2011 14:45:48] Обретение внутренней ELF ... [01/07/2011 14:45:48] Заделка внутреннего ELF ... [01/07/2011 14:45:48] Patching инструкции ... [01/07/2011 14:45:48] BFI-заплата 472 инструкции ... [01/07/2011 14:45:48] Patch полный, возвращаясь к ядру ... [01/07/2011 14:45:48] Applied BFI_INT патч [01/07/2011 14:45:48] Фатальная ошибка ядра: Не удалось загрузить OpenCL ядро!

1 июля 2011, 7:02:34 PM	# 4
Берт Сообщения: 126 Цитировать по имени цитировать ответ	Re: дальнейшее улучшение phatk_dia ядра для Phoenix + SDK 2.6 - 2012-01-13 Я такие же настройки, как вы (феникс 1,48, Ubuntu 11.04 64бит), но с ати-драйвер-инсталлятор-11-6-x86.x86_64.run (потому что это позволяет лучше разгон). Вы, возможно, с помощью ати-драйвер-инсталлятор-11-5-x86.x86_64.run?

1 июля 2011, 7:17:08 PM	# 5
Diapolo Сообщения: 676 Цитировать по имени цитировать ответ	Re: дальнейшее улучшение phatk_dia ядра для Phoenix + SDK 2.6 - 2012-01-13 Цитата: maykelmoya от 01 июля 2011 года, 6:52:39 PM /tmp/OCLmC5ovs.cl(1): предупреждение: игнорирование непризнанного расширения OpenCL #pragma OpenCL __FAST_RELAXED_MATH__ ^ /tmp/OCLmC5ovs.cl(234): предупреждение: целое число, преобразование в результате усечения Валс [3] = 0x198c7e2a2 + W [64]; ^ Это может быть, что команда прагма имеет неправильный синтаксис, в Windows, не лог сборки OpenCL не показано, так что я didnґt видеть, что предупреждение. Я повторно проверить страницы человека OpenCL. Сейчас вы можете безопасно удалить прагму линию. -> Edit: линия не должна иметь никакого эффекта, поэтому удалить его. Есть только для вычислений с плавающей точкой. Вторая линия, кажется, нужна правильное приведение типа возможно (и) достаточно. диаметр

1 июля 2011, 7:52:07 PM	# 6
Берт Сообщения: 126 Цитировать по имени цитировать ответ	Re: дальнейшее улучшение phatk_dia ядра для Phoenix + SDK 2.6 - 2012-01-13 Я тестировал на машине Windows, а также, один и с 5870, который разогнался немного @ 975/337 со скромным АГРЕССИИ = 8 и получили увеличение от 412Mhash / сек -> 415Mhash / сек. Но я есть оригинальное обновление 3% установить на все машины ранее.

1 июля 2011, 8:14:31 PM	# 7
kookiekrak Сообщения: 238 Цитировать по имени цитировать ответ	Re: дальнейшее улучшение phatk_dia ядра для Phoenix + SDK 2.6 - 2012-01-13 Вы можете разместить это на как MediaFire или Rapidshare или что-то? что хренов хост файл, который вы используете перенаправляет меня случайные сайты до второго отделок таймера обратного отсчета 80.

1 июля 2011, 8:48:25 PM	# 8
Берт Сообщения: 126 Цитировать по имени цитировать ответ	Re: дальнейшее улучшение phatk_dia ядра для Phoenix + SDK 2.6 - 2012-01-13 Цитата: kookiekrak от 01 июля 2011 года, 8:14:31 PM что хренов хост файл, который вы используете перенаправляет меня случайные сайты до второго отделок таймера обратного отсчета 80. Я загрузил 7zip'ed версию kernel.cl файла Diapolo здесь http://www.megaupload.com/?d=H606MS0O (Не уверен, но, вероятно, хорошо только для 10 загрузок с помощью бесплатного аккаунта) Отправить пожертвование Diapolo @ 1B6LEGEUu1USreFNaUfvPWLu6JZb7TLivM (см первого поста) это их файл, а не мой.

1 июля 2011, 9:55:05 PM	# 9
Diapolo Сообщения: 676 Цитировать по имени цитировать ответ	Re: дальнейшее улучшение phatk_dia ядра для Phoenix + SDK 2.6 - 2012-01-13 Вот еще одна ссылка на Mediafire: http://www.mediafire.com/?5jmt7t0e83k3eox Этот файл имеет #pragma удалены и добавил напечатанный. Может кто-то проверить, если предупреждения компилятора OpenCL ушли сейчас? Изменить: Есть ли способ вывода журнала компилятор OpenCL из Финикса в Windows, тоже? Благодаря, диаметр

1 июля 2011, 10:12:00 PM	# 10
являющийся Сообщений: 38 Цитировать по имени цитировать ответ	Re: дальнейшее улучшение phatk_dia ядра для Phoenix + SDK 2.6 - 2012-01-13 450->451 окна 7 32bit, poclbm, SDK 2.1, кот 11,6 Также заметил, что запуск шахтера занял больше времени с этим ядром. Спасибо. ^^

1 июля 2011, 10:19:02 PM	# 11
Diapolo Сообщения: 676 Цитировать по имени цитировать ответ	Re: дальнейшее улучшение phatk_dia ядра для Phoenix + SDK 2.6 - 2012-01-13 Цитата: будучи на 01 июля 2011, 10:12:00 PM 450->451 окна 7 32bit, poclbm, SDK 2.1, кот 11,6 Также заметил, что запуск шахтера занял больше времени с этим ядром. Спасибо. ^^ Попробуйте удалить SDK 2.1 и использовать эту Cat 11.7 просмотра здесь: http://developer.amd.com/Downloads/110619a-121104E.zip Он имеет новую OpenCL выполнения. Какую карту вы? диаметр

1 июля 2011, 11:12:34 PM	# 12
skillerd Сообщений: 16 Цитировать по имени цитировать ответ	Re: дальнейшее улучшение phatk_dia ядра для Phoenix + SDK 2.6 - 2012-01-13 Приятно, держать кончаю 377->380 на 5870 Используя -k phatk векторы BFI_INT WORKSIZE = 128 АГРЕССИЮ = 11 Любые советы, чтобы получить больше? Использование катализатора 11.4 и OpenCL 2.4, Windows 7 (64-битные) ..

2 июля 2011, 7:32:22 AM	# 13
Diapolo Сообщения: 676 Цитировать по имени цитировать ответ	Re: дальнейшее улучшение phatk_dia ядра для Phoenix + SDK 2.6 - 2012-01-13 Цитата: skillerd 01 июля 2011, 11:12:34 PM Приятно, держать кончаю 377->380 на 5870 Используя -k phatk векторы BFI_INT WORKSIZE = 128 АГРЕССИЮ = 11 Любые советы, чтобы получить больше? Использование катализатора 11.4 и OpenCL 2.4, Windows 7 (64-битные) .. То почти настройки я использую для моего 5870. -к phatk АГРЕССИЯ = 12 BFI_INT УСТРОЙСТВО = 0 FASTLOOP = ложные ВЕКТОРЫ WORKSIZE = 128 Ядро находится на частоте 900 МГц и Mem при 200 МГц с 405 Mhash / сек. Вы можете попробовать Cat 11.7 с 2.5 APP Время воспроизведения! диаметр

2 июля 2011, 10:55:07 PM	# 14
Clipse Сообщения: 504 Цитировать по имени цитировать ответ	Re: дальнейшее улучшение phatk_dia ядра для Phoenix + SDK 2.6 - 2012-01-13 хорошее горе этот патч сделал чудеса Она добавила дополнительные 22mhash в 5850, пораженная. Интересно, если есть больше оптимизаций приезжающих

3 июля 2011, 12:20:32 AM	# 15
SeriousWorm Сообщений: 54 Цитировать по имени цитировать ответ	Re: дальнейшее улучшение phatk_dia ядра для Phoenix + SDK 2.6 - 2012-01-13 MSI 6870 Хок @ 1000МГц / 260mHz / 1.3V, Phoenix 1.5, 11.6 катализатора, агрессии 11 311 -> 312 Благодаря!

3 июля 2011, 7:47:12 AM	# 16
Diapolo Сообщения: 676 Цитировать по имени цитировать ответ	Re: дальнейшее улучшение phatk_dia ядра для Phoenix + SDK 2.6 - 2012-01-13 Я donґt хочу просить, но, возможно, кто-то может связать эту нить в горно -> Mining Software форум поэтому пользователи там увидят? Помните, что если вам нравится это, и это ускоряет ваши расчеты Хэш рассмотреть небольшое пожертвование: 1B6LEGEUu1USreFNaUfvPWLu6JZb7TLivM Iґm все еще работает над этим, так что следите за обновлениями! Благодаря, диаметр

3 июля 2011, 8:28:31 AM	# 17
являющийся Сообщений: 38 Цитировать по имени цитировать ответ	Re: дальнейшее улучшение phatk_dia ядра для Phoenix + SDK 2.6 - 2012-01-13 В настоящее время работает 11.7 драйверов 2.1 SDK и poclbm. Сделал некоторые испытания. С 11.7, SDK 2.5 это ядро работает лучше, чем ядро poclbm phatk. С 11.7, SDK 2.1 это ядро работает немного хуже, чем ядро poclbm phatk. И с 11.7, SDK 2.1 я получить высокий Mhash / с. Так что я буду по-прежнему используя poclbm ядро phatk. Практически то же самое относится и к 11.6, который, кажется, выполнить несколько медленнее, чем 11.7, но в остальном все то же самое. Я не знаю, как и почему это казалось, что ваше ядро было повышение моего Mhash, когда я впервые попробовал это, но с моей текущей настройкой, к сожалению poclbm phatk выигрывает.

3 июля 2011, 9:04:15 AM	# 18
1MLyg5WVFSMifFjkrZiyGW2nw Сообщений: 28 Цитировать по имени цитировать ответ	Re: дальнейшее улучшение phatk_dia ядра для Phoenix + SDK 2.6 - 2012-01-13 Здравствуйте, Вы можете изменить это Код: #define sharound (п) {t1 = t1 (п); Валс [(131 - п)% 8] + = t1 (п); Валс [(135 - п)% 8] = t1 (п) + t2 (п); } в Код: #define sharound (п) {t1 = t1 (п); Валс [(131 - п)% 8] + = t1; Валс [(135 - п)% 8] = t1 + t2 (п); } Это заставило меня увеличить производительность на 25%!

3 июля 2011, 9:38:10 AM	# 19
Diapolo Сообщения: 676 Цитировать по имени цитировать ответ	Re: дальнейшее улучшение phatk_dia ядра для Phoenix + SDK 2.6 - 2012-01-13 Цитата: 1MLyg5WVFSMifFjkrZiyGW2nw от 03 июля 2011 года, 9:04:15 AM Здравствуйте, Вы можете изменить это Код: #define sharound (п) {t1 = t1 (п); Валс [(131 - п)% 8] + = t1 (п); Валс [(135 - п)% 8] = t1 (п) + t2 (п); } в Код: #define sharound (п) {t1 = t1 (п); Валс [(131 - п)% 8] + = t1; Валс [(135 - п)% 8] = t1 + t2 (п); } Это заставило меня увеличить производительность на 25%! Кажется, хорошо, но это не приносит никакой выгоды для меня ... странно. Буду смотреть на это и, возможно, повторно использовать вашу идею, если я могу. Можно думать только о хорошей оптимизации компилятора ... Благодаря, диаметр

3 июля 2011, 9:49:43 AM	# 20
saykor Сообщения: 350 Цитировать по имени цитировать ответ	Re: дальнейшее улучшение phatk_dia ядра для Phoenix + SDK 2.6 - 2012-01-13 Цитата: 1MLyg5WVFSMifFjkrZiyGW2nw от 03 июля 2011 года, 9:04:15 AM Здравствуйте, Вы можете изменить это Код: #define sharound (п) {t1 = t1 (п); Валс [(131 - п)% 8] + = t1 (п); Валс [(135 - п)% 8] = t1 (п) + t2 (п); } в Код: #define sharound (п) {t1 = t1 (п); Валс [(131 - п)% 8] + = t1; Валс [(135 - п)% 8] = t1 + t2 (п); } Это заставило меня увеличить производительность на 25%! я не эта линия. какую версию вы используете? Вы можете загрузить его?

Заголовок