Знакомимся с графическим процессором GP104. NVIDIA: Новые GPU на базе архитектуры Pascal на подходе Улучшения в блоках вывода и обработки видеоданных

В ходе конференции с инвесторами компания NVIDIA представила интересную статистику продаж видеокарт новой архитектуры Turing.

Несмотря на популярное мнение, будто Turing не продаётся, правда оказалась противоположной. Компания сравнила продажи настольных видеокарт Pascal и Turing ценой более 299 долларов за первые 8 недель и пришла к выводу, что новые решения продаются на 45% лучше.

В настоящее время Turing обладает базой установок в 2%, в то время как Pascal занимает 50%, а 48% - видеокарты прошлых архитектуры. Также компания сообщила, что 90% владельцев ускорителей GeForce обладает видеокартами медленнее GeForce GTX 1660 Ti.

Таким образом, в NVIDIA подытожили, что её будущее выглядит радужно, поскольку основная часть геймеров продолжает переоснащаться с повышением класса ускорителя. А разве может быть иначе на встрече с инвесторами?

NVIDIA: Turing более энергоэффективен, чем Vega 20

25 апреля

Многие ожидали, что в ходе GTC компания NVIDIA представит графический процессор Ampere, который будет изготавливаться по 7 нм нормам. Но этого не произошло, потому что NVIDIA абсолютно довольна Turing.

Дзень-Хсунь Хуан, основатель и исполнительный директор NVIDIA, заявил, что его компания не стремится к началу массового производства 7 нм продукции, потому что у неё есть Turing. Несмотря на то, что он производится по 12 нм нормам, он намного эффективнее AMD с 14 нм (Vega 10 = Radeon RX Vega 64) и даже 7 нм (Vega 20 = Radeon VII).

Хуан заявил: «Что делает нас особенными - так это способность создавать наиболее энергетически эффективные GPU в мире за всё время, используя наиболее доступные технологии. Посмотрите на Turing. Энергоэффективность очень хороша, по сравнению даже с 7 нм у некоторых» .

Исполнительный директор NVIDIA Дзень-Хсунь "Дженсен" Хуан

Компания AMD стала первой, кто смог достичь 7 нм норм в производстве графических процессоров. Но даже с такой совершенной технологией Radeon VII не смогла догнать NVIDIA Turing ни по эффективности, ни по производительности. Даже 14 нм Pascal более энергоэффективны, чем Vega 20.

Очевидно, что инженеры NVIDIA проделали огромную работу в последних поколениях процессоров, после фиаско поколения Fermi.

NVIDIA внедряет трассировку лучей на старых видеокартах и игровых движках

22 марта

Компания NVIDIA решила предоставить функционал трассировки лучей в реальном времени для видеокарт без аппаратной поддержки RTX .

В настоящий момент трассировка доступна только для карт серии RTX . После изменений трассировка будет осуществляться на всех видеокартах, начиная от GTX 1060.

Однако компания предупреждает, что будет ряд ограничений. К примеру, в Battlefield V можно получить улучшенное качество с минимальными потерями, в то время как в Metro Exodus в разрешении 1440p производительность может снизиться до неприемлемых 18 кадров в секунду.

Дело в том, что в Battlefield V трассировка применяется для отражений, и можно снизить силу эффектов для сохранения производительности. В Metro Exodus трассировка используется для создания высокореалистичных эффектов глобального освещения, симулируя свет реального мира. Это первая игра, которая полностью раскрывает потенциал RTX . Из-за высокой интенсивности вычислений карты GTX не способны выполнять подобные расчёты, только ядра RTX могут справиться с подобной нагрузкой.

Из-за этого карты RTX работают в подобных условиях в 3 раза быстрее, чем GTX 10-й серии. Однако в Shadow of the Tomb Raider замедление достигнет 2 раз, а в Battlefield V - 1,6 раза. Ситуация с картами серии 16xx немного лучше, поскольку они имеют целочисленные ядра.

По словам NVIDIA обновлённую технологию RTX уже поддерживают движки Unity и Unreal Engine. Недавно Crytek сообщила о реализации трассировки лучей в реальном времени в движке CryEngine 5 на любой видеокарте . Кроме того, NVIDIA решила поддержать разработку Кристофа Шида, который начал переделывать старый добрый Quake II для обеспечения поддержки RTX , и внесла полноценную обработку трассировки лучей в движок IdTech2 двадцатилетней давности. Получилось впечатляюще, судите сами:

Вышла финальная сборка MSI Afterburner 4.6.0

10 марта

Как и обещал Алексей Николайчук, он выпустил финальную сборку утилиты MSI Afterburner версии 4.6.0 , которая получила поддержку последних видеокарт AMD и NVIDIA, а также значительные изменения интерфейса и даже новый скин.

В утилите для разгона сделано огромное количество изменений. Сам автор насчитал более сотни. Кроме утилиты MSI Afterburner обновилось также средство-компаньон для мониторинга RivaTuner Statistic Server. Приложение RTSS получило номер версии RTSS 7.2.1.

Самые важны изменения в MSI Afterburner мы приводим ниже. Полный же перечень доступен на форуме сайта Guru of 3D .

Добавлена поддержка архитектуры Turing, добавлено управление напряжением на референсных видеокартах; улучшен контроль GPU Boost с возможностью управления мощностью и тепловыделением через график мощности/частоты.
Добавлена независимая поддержка множества вентиляторов.
Добавлена поддержка технологии NVIDIA Scanner.
Добавлен ряд аппаратных датчиков мониторинга напряжением.
Добавлена поддержка архитектуры Vega 20. Для Radeon VII добавлена поддержка Overdrive 8, добавлен мониторинг температуры GPU по двум каналам, VRM . Добавлен мониторинг загрузки GPU на Radeon VII.
Добавлено управление вентиляторами на драйвере AMD Adrenalin 2019.
Улучшен модуль аппаратного мониторинга: добавлено смещение температуры при мониторинге AMD Ryzen 7 2700X.
График «Использование файла подкачки» переименован в «Загрузка файла подкачки». Добавлено уведомление в мониторинге о том, можно ли применить изменения ко всем или выделенным графикам мониторинга. Графики можно выделять по типу и по группе через контекстное меню мониторинга.
Элементы экранного отображения (OSD - текст, графика или комбинация) теперь отображается в колонке свойств активного графика мониторинга.
Добавлена программируемая горячая клавиша для очистки истории мониторинга.
В окно свойств приложения добавлена кнопка «Применить».
В контекстном меню мониторинга добавлены команды «Отметить максимум» и «Отметить минимум».
Для захвата удобного для печати скриншота нужно нажать F11.
Для удаления нежелательных графиков можно держать Del и клацать по ним мышью.
Улучшен редактор OSD . Теперь для отображения доступны 250 слотов с переменными. Добавлена поддержка встраиваемых в текст графиков. Также графики можно располагать поверх текста. Добавлена возможность внесения разделителей.
Добавлена поддержка макросов для добавления любых данных в текст OSD (например % CPU temperature%).
Добавлена поддержка форматирования гипертекста в OSD .
Улучшена поддержка плагина HwInfo: добавлена загрузка ИБП, мощности, входного напряжения и уровня заряда аккумулятора в конфигурацию по умолчанию.
Улучшен редактор частоты/напряжения, который теперь доступен для AMD GPU .
Для переключения между точками на кривой частоты/напряжения теперь можно использовать клавиши Tab и Shift+Tab. Плавная настройка величин осуществляется клавишами вверх/вниз, а при дополнительном зажатии Ctrl переключение осуществляется по 10 МГц.
Для редактирования точки смещения частоты на графике нужно нажать Enter, при нажатии Shift+Enter можно задать абсолютную целевую частоту.
Немного изменено клавиатурное управление графиком частоты/напряжения на картах AMD. Ранее для настройки частоты использовались комбинации курсорных клавиш вверх/вниз, а напряжения - влево/вправо. Теперь частота и напряжение регулируются стрелками, а фокус меняется по PageUp/PageDown.
На картах AMD, чтобы переместить всю кривую частоты/напряжения, нужно зажимать клавишу Alt, как и на видеокартах NVIDIA.
Добавлена поддержка отмены/повтора по комбинациям клавиш Ctrl+Z и Ctrl+Y. После применения кривой история изменений очищается.
Расширен диапазон управления напряжением в кривой напряжения/частоты. Теперь можно занизить напряжение GPU для снижения энергопотребления.
Чтобы перечитать кривую напряжения/частоты из видеокарты нужно нажать F5.
Оси напряжения в графике теперь масштабируются автоматически.
Улучшен аппаратный контроль разделённым интерфейсом памяти, позволяя проводить управление графиком частоты/напряжения, внешние стресс-тесты и автоматический разгон приложениям, связанным с MSI Afterburner.
В дистрибутив включено новое приложение автоматического разгона MSI Overclocking Scanner. Приложение доступно на видеокартах NVIDIA GTX 10x0 и NVIDIA RTX 20x0 с 64-битной операционной системой. Сканер использует встроенный тест загрузки NVIDIA для стресс-теста GPU .
Добавлена группа настроек ограничителя частоты кадров в OSD . Она позволяет назначить горячие клавиши для глобального включения, отключения, и приближения ограничения частоты кадров для техник в RivaTuner Statistics Server.
В системном окне добавлено отображение данных о топологии процессора.
Исправлен доступ к аппаратным функциям мониторинга на GPU AMD Vega. Теперь значения температуры, энергопотребления и напряжения не искажаются.
Исправлен низкоуровневый мониторинг загрузки GPU для семейства AMD Polaris.
Жёсткое задание множителя частоты в графике напряжения/частоты было заменено эвристическим, что обеспечивает унифицированное управление кривой для GPU Pascal и более новых.
Улучшено масштабирование интерфейса редактора кривой напряжения/частоты.
Улучшена работа окон мониторинга и кривых при установке значений более 100%.
Многоязычный интерфейс привязан к разрешению и не масштабируется ОС, что обеспечивает высокую резкость при высокой плотности пикселей.
Масштаб скина теперь асинхронен. Это значит, что увеличение масштаба скина не замедляет время обновления интерфейса.

MSI Afterburner обновилась до версии 4.6.0 beta 10

28 декабря 2018 года

Алексей Николайчук опубликовал новую бета версию своей утилиты MSI Afterburner, в которой реализовал ожидаемую функцию автоматического разгона для видеокарт не только серии RTX , но и ускорителей с чипом Pascal. Кроме того, была добавлена поддержка нового оборудование и расширен спектр поддерживаемых датчиков, а также улучшилась поддержка видеокарт AMD.

Вот что сообщил сам автор: «Помимо обновления OC-сканера изменения коснулись и самого редактора кривой частот/напряжений, надеюсь, они порадуют фанатов снижения энергопотребления системы (как со стороны NV, так и со стороны AMD). Пределы частот/напряжений окна редактора теперь можно настраивать, поэтому тем владельцам видеокарт семейства NVIDIA GTX/ RTX , которые использовали функцию фиксации минимального напряжения в окне редактора, будет легче загнать рабочее напряжение ещё ниже. Владельцам GPU AMD также теперь можно пользоваться редактором кривой частот/напряжений для независимой настройки P-стейтов. Помимо этого, традиционно десятки пунктов мелких улучшений в настройках мониторинга и так далее, улучшающих юзабилити ПО» .

Перечень наиболее интересных изменений мы приводим ниже:

Добавлена поддержка контроллеров напряжения Monolithic Power Systems MP2884A and MP2888A.
Добавлен мониторинг температур VRM и VRM2 для заказных видеокарт RTX 2080Ti. Также расширены возможности управления напряжением, частотой GPU и памяти на этих видеокартах.
Улучшен модуль аппаратного мониторинга:
- Добавлен температурный сдвиг для CPU AMD Ryzen 7 2700X/.
- Одинаковые температуры теперь клонируются на все ядра на CPU AMD.
- График «Использование файла подкачки» переименован на «Commit charge».
- Улучшен редактор OSD .
Улучшен плагин HwInfo - добавлена нагрузка на ИБП, питание, входное напряжение и уровень заряда в конфигурацию по умолчанию.
Улучшен редактор напряжения/частоты:
- Теперь редактор напряжения/частоты доступен на GPU AMD. Он позволяет редактировать частоты ядра и напряжений независимо для каждого состояния энергопотребления.
- Как и для GPU NVIDIA появилась возможность настроить кажду точку напряжения и частоты независимо с помощью мыши и клавиатуры.
Состояния энергопотребления, доступные только для чтения, больше не отслеживаются.
Несколько увеличен диапазон напряжений и частоту по умолчанию. Теперь можно блокировать напряжение для даунклокинга видеокарты.
Обновить кривую из аппаратной части можно нажатием в редакторе.
Оси напряжения и частоты динамически масштабируются.
Технология MSI Overclocking Scanner теперь поддерживается на картах серий NVIDIA GTX 10x0 и NVIDIA RTX 20x0 в 64-битных операционных системах.
Улучшен аппаратный контроль интерфейса распределённой памяти. Ранее MSI Remote Server позволял управлять GPU из сторонних приложений. Теперь же появилась возможность проведения стресс-тестирования из внешних приложений.

Также была обновлена утилита-компаньон RivaTuner Statistic Server до версии 7.2.1 beta 4. Теперь возможности кастомизации OSD значительно расширились, улучшились возможности масштабирования и позиционирования шрифтов, подстройки размеров встраиваемых объектов и их заполнения, появился режим масштабирования скинов, добавлена возможность ограничения частоты кадров, добавлен тэг времени бенчмарка.

Мы переходим к еще одной особенности GeForce GTX 1080, которая сделала эту модель первой в своем роде - поддержке памяти GDDR5X. В этом качестве GTX 1080 какое-то время будет единственным продуктом на рынке, поскольку уже известно, что GeForce GTX 1070 будет укомплектован стандартными чипами GDDR5. В сочетании с новыми алгоритмами компрессии цвета (об этом также чуть позже) высокая ПСП (пропускная способность памяти) позволит GP104 более эффективно распоряжаться имеющимися вычислительными ресурсами, чем это могли себе позволить продукты на базе чипов GM104 и GM200.

JEDEC выпустила финальные спецификации нового стандарта лишь в январе текущего года, а единственным производителем GDDR5X на данный момент является компания Micron. На 3DNews не было отдельного материала, посвященного этой технологии, поэтому мы кратко опишем те нововведения, которые приносит GDDR5X, в данном обзоре.

Протокол GDDR5X имеет много общего с GDDR5 (хотя электрически и физически те и другие чипы различаются) - в отличие от памяти HBM, которая представляет собой принципиально другой тип, что делает делает практически неосуществимым сосуществование с интерфейсом GDDR5(X) в одном GPU. По этой причине GDDR5X называется именно так, а не, к примеру, GDDR6.

Одно из ключевых различий между GDDR5X и GDDR5 состоит в возможности передачи четырех бит данных на одном цикле сигнала (QDR - Quad Data Rate) в противоположность двум битам (DDR - Double Data Rate), как это было во всех предшествующих модификациях памяти DDR SDRAM. Физические же частоты ядер памяти и интерфейса передачи данных располагаются приблизительно в том же диапазоне, что у чипов GDDR5.

А чтобы насытить данными возросшую пропускную способность чипов, в GDDR5X применяется увеличенная с 8n до 16n предвыборка данных (prefetch). При 32-битном интерфейсе отдельного чипа это означает, что контроллер за один цикл доступа к памяти выбирает уже не 32, а 64 байта данных. В итоге результирующая пропускная способность интерфейса достигает 10-14 Гбит/с на контакт при частоте CK (command clock) 1250-1750 МГц - именно эту частоту показывают утилиты для мониторинга и разгона видеокарт - такие, как GPU-Z. По крайней мере, сейчас в стандарт заложены такие показатели, но в будущем Micron планирует достигнуть чисел вплоть до 16 Гбит/с.

Следующее преимущество GDDR5X состоит в увеличенном объеме чипа - с 8 до 16 Гбит. GeForce GTX 1080 комплектуется восемью чипами по 8 Гбит, но в дальнейшем производители графических карт смогут удвоить объем RAM по мере появления более емких микросхем. Как и GDDR5, GDDR5X допускает использование двух чипов на одном 32-битном контроллере в так называемом clamshell mode, что в результате дает возможность адресовать 32 Гбайт памяти на 256-битной шине GP104. Кроме того, стандарт GDDR5X помимо равных степени двойки описывает объемы чипа в 6 и 12 Гбит, что позволит варьировать общий объем набортной памяти видеокарт более «дробно» - например, оснастить карту с 384-битной шиной RAM чипами на суммарные 9 Гбайт.

Вопреки ожиданиям, которые сопровождали первую информацию о GDDR5X, появившуюся в открытом доступе, энергопотребление нового типа памяти сравнимо с таковым у GDDR5 либо лишь немного превышает последнее. Чтобы компенсировать возросшую мощность на высоких значениях пропускной способности, создатели стандарта снизили питающее напряжение ядер с 1,5 В, стандартных для GDDR5, до 1,35 В. Кроме того, стандарт в качестве обязательной меры вводит управление частотой чипов в зависимости от показателей температурного датчика. Пока неизвестно, насколько новая память в действительности зависима от качества теплоотвода, но не исключено, что мы теперь чаще будем видеть на видеокартах системы охлаждения, обслуживающие не только GPU, но и чипы RAM, в то время как производители карт на базе GDDR5 в массе своей пренебрегают этой возможностью.

Может возникнуть впечатление, что переход с GDDR5 на GDDR5X был несложной задачей для NVIDIA в силу родства данных технологий. К тому же, GeForce GTX 1080 комплектуется памятью с наименьшей пропускной способностью, определенной стандартом - 10 Гбит/с на контакт. Однако практическая реализация нового интерфейса сопряжена с рядом инженерных трудностей. Передача данных на столь высоких частотах потребовала тщательной разработки топологии шины данных на плате с целью минимизировать наводки и затухание сигнала в проводниках.

Результирующая пропускная способность 256-битной шины в GeForce GTX 1080 составляет 320 Гбайт/с, что несущественно меньше скорости 336 Гбайт/с, которой характеризуется GeForce GTX 980 Ti (TITAN X) с его 384-битной шиной GDDR5 при 7 Гбит/с на контакт.

Теперь PolyMorph Engine может создавать одновременно вплоть до 16 проекций (viewport’ов), размещенных произвольным образом, и сфокусированных на одной или двух точках, сдвинутых по горизонтальной оси относительно друг друга. Данные преобразования выполняются исключительно в «железе», и не вызывают снижения производительности как такового.

У этой технологии есть два вполне предсказуемых применения. Первое - это шлемы VR. За счет двух центров проекции Pascal может создавать стерео-изображение за один проход (впрочем, речь идет только о геометрии - GPU по-прежнему придется совершить вдвое больше работы, чтобы выполнить растеризацию текстур в двух кадрах).

Кроме того, SMP позволяет на уровне геометрии выполнять компенсацию искажения картинки, которую вносят линзы шлема. Для этого изображения для каждого глаза формируется четырьмя отдельными проекциями, которые затем склеиваются в плоскость с применением фильтра пост-обработки. Таким образом не только достигается геометрическая точность итогового изображения, но и снимается необходимость в обработке 1/3 пикселов, которые в противном случае все равно были бы потеряны при финальной коррекции стандартной плоской проекции под кривизну линз.

Единственная оптимизация для VR, которой обладал Maxwell, состояла в том, что периферические зоны изображения, которые компрессируются наиболее сильно для вывода через линзы, могли рендериться с пониженным разрешением, что давало экономию пропускной способности лишь на 10-15%.

Следующая область, в которой востребована функция SMP, - это мультимониторные конфигурации. Без SMP изображение на нескольких состыкованных дисплеях представляет собой плоскость с точки зрения GPU, и выглядит геометрически корректно при условии, что экраны перед зрителем выстроены в линию, но стыковка под углом уже не выглядит корректно - как если бы вы просто согнули в нескольких местах большую фотографию. Не говоря уже о том, что в любом случае зритель видит именно плоское изображение, а не окно в виртуальный мир: если повернуть голову к боковому экрану, объекты в нем останутся растянутыми, так как виртуальная камера по-прежнему смотрит в центральную точку.

С помощью SMP драйвер видеокарты может получить информацию о физическом расположении нескольких экранов с тем, чтобы проецировать изображение для каждого из них через собственный viewport, что в конечном счете функционально приближает мультимониторную сборку к полноценному «окну».

Вкратце, задача тройной буферизации в том, чтобы отделить процесс рендеринга новых кадров в конвейере GPU от сканирования изображения из кадрового буфера за счет того, что видеокарта может создавать новые кадры со сколь угодно высокой частотой, записывая их в два сменяющихся кадровых буфера. При этом содержимое самого последнего кадра с частотой, кратной частоте обновления экрана, копируется в третий буфер, откуда монитор может его забрать без разрывов картинки. Таким образом, кадр, который попадает на экран, в момент начала сканирования всегда содержит последнюю информацию, которую произвел GPU.

Тройная буферизация наиболее полезна для мониторов с частотой обновления экрана 50-60 Гц. При частотах 120-144 Гц, как мы уже писали в статье, посвященной G-Sync, включение вертикальной синхронизации уже, в принципе, увеличивает латентность несущественно, но Fast Sync уберет ее до минимума.

Если вы задаетесь вопросом, как Fast Sync соотносится с G-Sync (и ее аналогом Free Sync от AMD - но это чисто теоретический вопрос, т.к. NVIDIA поддерживает только свой вариант), то G-Sync снижает латентность в ситуации, когда GPU не успевает произвести новый кадр к моменту начала сканирования, а Fast Sync - напротив, снижает латентность, когда частота обновления кадров в конвейере рендеринга выше частоты обновления экрана. К тому же, эти технологии могут работать совместно.

GeForce GTX 1080 Founder’s Edition: конструкция

Этим пышным именем теперь называется референсная версия GeForce GTX 1080. Начиная с GeForce GTX 690 NVIDIA уделяет большое внимание тому, в какой форме их новые продукты выходят на рынок. Референсные образцы современных видеокарт под маркой GeForce далеки от своих невзрачных предшественников, оснащавшихся сравнительно неэффективными и шумными системами охлаждения.

GeForce GTX 1080 Founder’s Edition вобрал в себя лучшие черты дизайна видеокарт Kepler и Maxwell: алюминиевый кожух турбины, крыльчатка кулера, изготовленная из малошумного материала, и массивная алюминиевая рама, придающая жесткость конструкции и снимающая тепло с микросхем RAM.

В составе GTX 1080 присутствуют одновременно два компонента, которые периодически то появляются, то пропадают из референсных видеокарт NVIDIA - радиатор GPU с испарительной камерой и задняя пластина. Последняя частично демонтируется без отвертки, дабы обеспечить приток воздуха кулеру соседней видеокарты в режиме SLI.

Помимо своей представительской функции, референсный образец видеокарты нужен для того, чтобы конечные производители видеокарт могли закупать его - в данном случае у NVIDIA - и удовлетворять спрос, пока не будут готовы устройства оригинального дизайна на том же GPU. Но в этот раз NVIDIA планирует сохранять референсную версию в продаже на протяжении всего срока жизни модели и распространять, среди прочего, через свой официальный сайт. Так мотивирована на $100 более высокая цена GTX 1080 FE по сравнению с рекомендованными для всех остальных $599. В конце концов, Founder’s Edition не выглядит и не является дешевым продуктом.

В то же время, видеокарта имеет референсные частоты, ниже которых, как обычно, не опустится ни один производитель карт оригинального дизайна. Не идет речи и о каком-либо отборе GPU для GTX 1080 FE по разгонному потенциалу. Стало быть, во всей массе реализаций GeForce GTX 1080 могут оказаться и более дорогие. Но какое-то время Founder’s Edition будет преобладающей и даже единственной версией флагманского Pascal, что автоматически повышает его розничные цены на $100 сверх «рекомендации» NVIDIA.

Компания NVIDIA готовит к выпуску новую серию игровых видеокарт, которую откроет GeForce GTX 1080. Эта модель станет первым продуктом игрового класса на базе архитектуры Pascal. GeForce GTX 1080 принесет ряд технологических инноваций, о которых мы поговорим в данной статье. Материал будет носить теоретический характер, в нем рассмотрены архитектурные особенности и новые возможности GeForce GTX 1080. Тестирование и сравнение с другими видеокартами появится позже.

Стремительный прогресс в миниатюризации кремниевых чипов в последние годы сбавил обороты. Компания Intel даже отказалась от стратегии «Тик-так», которая предусматривала регулярный переход на более тонкий техпроцесс. На рынке графических ускорителей в рамках одного 28-нм техпроцесса сменилось несколько поколений продуктов NVIDIA и AMD. Отчасти это пошло на пользу и заставило производителей больше внимания уделять развитию архитектуры. Этот качественный переход в свое время был хорошо заметен при переходе с Kepler на архитектуру Maxwell, когда новое поколение оказалось более производительным и энергоэффективным без увеличения количества транзисторов или даже при уменьшении размеров кристаллов. К примеру, GeForce GTX 980 базируется на более компактном чипе GM204, что не мешает видеокарте демонстрировать более высокую производительность относительно GeForce GTX 780 Ti с более сложным чипом GK110.

Новое поколение GeForce получит как новую архитектуру, так и более тонкий техпроцесс. И GeForce GTX 1080 во многих отношениях является первопроходцем. Это первый графический ускоритель на архитектуре Pascal с графическим процессором GP104, который выполнен по нормам техпроцесса 16-нм FinFET. Среди важных инноваций компания NVIDIA отмечает еще быструю память стандарта GDDR5X. Новые технологические особенности позволяют поднять частоты до рекордного уровня, определяя новый уровень «мастерства». А новые игровые технологии расширяют возможности GeForce, особенно в области работы с VR-контентом. Это пять основных особенностей, которые выделяет производитель в новом продукте.

Стоит отметить, что изначально первопроходцем архитектуры Pascal стал специализированный ускоритель вычислений Tesla P100. Он базируется на процессоре GP100. Но поскольку продукт ориентирован на совершенно другую сферу применения, то именно GeForce GTX 1080 является пионером среди настольных графических ускорителей.

GPU GP104 наследник GM204 , поэтому при изучении GeForce GTX 1080 можно отталкиваться от GeForce GTX 980, хотя новичок быстрее GeForce GTX 980 Ti и GeForce GTX Titan X. Процессоры Pascal используют кластерную структуру по типу предшественников, где кластер GPC (Graphics Processing Cluster) по сути является самостоятельным вычислительным блоком. В основе GP100 шесть кластеров, у GP104 четыре кластера, а следующий чип GP106 должен получить два кластера. Четыре GPC делают новый GPU GP104 максимально близким к GM204. Да и блок-схема этого чипа тоже напоминает старый процессор.

Различия в структуре проявляются при более внимательном изучении. В прошлом поколении кластер включал в себя четыре крупных мультипроцессорных блока SMM. У GP104 младшие исполнительные блоки сгруппированы в пять мультипроцессорных блоков SM. Каждый такой крупный блок обработки данных связан со своим блоком обработки геометрии Polymorph Engine, которых теперь 20 вместо 16 у GM204.

Один SM разбит на четыре массива обработки данных со своей управляющей логикой, и это тоже аналогично структуре старых GPU. И в обоих случаях мультипроцессор оперируют 128 потоковыми ядрами (CUDA cores). В SM есть 96 КБ общей кэш-памяти, отдельный текстурный кэш и восемь текстурных блоков. В итоге имеем конфигурацию из 2560 потоковых процессоров и 160 текстурных блоков. У нового процессора 64 блока ROP и кэш-память L2 объемом 2 МБ — тут отличий от GM204 нет.

Стало больше контроллеров памяти, в Pascal изменилась вся подсистема работы с памятью. Вместо четырех 64-битных контроллеров реализовано восемь 32-битных, что обеспечивает разрядность шины памяти в 256 бит. После успешного GeForce GTX 980 такая шина памяти в топовом продукте уже не удивляет. При этом эффективность шины у GeForce GTX 1080 выше за счет новых алгоритмов сжатия данных. Также рост пропускной способности обеспечивают микросхемы нового стандарта GDDR5X, у которых эффективное значение обмена данных эквивалентно частоте 10 ГГц. Привычная память GDDR5 ограничивалась частотами до 7 ГГц. Объем видеобуфера повышен до 8 ГБ.

Благодаря новому техпроцессу GP104 компактнее GM204 при большем количестве вычислительных блоков. При этом новый процессор имеет больше возможностей для повышения частот. Изначально для него установлено базовое значение в 1607 МГц при среднем Boost Clock 1733 МГц. Пиковые значения частоты еще выше. С такими рекордными частотами GeForce GTX 1080 укладывается в TDP 180 Вт, что немного выше показателей GeForce GTX 980. А ведь новичок быстрее топовой Ti-версии, у которой TDP заметно больше.

Для наглядного сравнения сведем в одной таблице характеристики GeForce GTX 1080 и топовых видеокарт предыдущих поколений.

Видеоадаптер	GeForce GTX 1080	GeForce GTX Titan X	GeForce GTX 980 Ti	GeForce GTX 980	GeForce GTX 780 Ti
Ядро	GP104	GM200	GM200	GM204	GK110
Количество транзисторов, млн. шт	7200	8000	8000	5200	7100
Техпроцесс, нм	16	28	28	28	28
Площадь ядра, кв. мм	314	601	601	398	561
Количество потоковых процессоров	2560	3072	2816	2048	2880
Количество текстурных блоков	160	192	176	128	240
Количество блоков рендеринга	64	96	96	64	48
Частота ядра, МГц	1607-1733	1000-1075	1000-1075	1126-1216	875-926
Шина памяти, бит	256	386	386	256	384
Тип памяти	GDDR5X	GDDR5	GDDR5	GDDR5	GDDR5
Частота памяти, МГц	10010	7010	7010	7010	7010
Объём памяти, МБ	8192	12288	6144	4096	3072
Поддерживаемая версия DirectX	12.1	12.1	12.1	12.1	12.0
Интерфейс	PCI-E 3.0	PCI-E 3.0	PCI-E 3.0	PCI-E 3.0	PCI-E 3.0
Мощность, Вт	180	250	250	165	250

Видеокарты NVIDIA среднего и старшего уровня давно используют технологию GPU Boost, которая повышает частоту графического процессора до тех пор, пока он не превысит ограничения по температуре или мощности. Минимальным значением для 3D-режима является базовая частота, но зачастую при обычной игровой нагрузке частоты всегда выше. Новые GeForce получили улучшенную технологию GPU Boost 3.0 с более гибким алгоритмом изменения частоты в зависимости от питающего напряжения в режиме частотного ускорения. У GPU Boost 2.0 фиксированная разница между базовым значением и частотой Turbo. GPU Boost 3.0 позволяет использовать разное смещение частот, что позволит лучше раскрыть потенциал GPU. Теоретически при автоматическом изменении параметров в Boost-режиме с повышением или понижением напряжения частота будет изменяться нелинейно, в каких-то точках дельта Boost может быть больше, чем это было бы с GPU Boost старой версии. Новые возможности гибкой регулировки Boost будут доступны пользователям. Свежая версия утилиты EVGA Precision уже поддерживает GeForce GTX 1080, среди ее возможностей автоматический сканер с тестом стабильности, который может формировать нелинейную кривую частот Boost для разных напряжений. Переход на новый техпроцесс и оптимизация структуры ядра позволили добиться столь значительного частотного ускорения, что максимальный Boost относительно заявленных значений может повышаться до уровня 2 ГГц.

С момента появления GDDR5 компания NVIDIA работала над следующим поколением скоростной памяти. Результатом взаимодействия с разработчиками памяти стало появление GDDR5X со скоростью передачи данных 10 Гбит/с. Работа со столь быстрой памятью выдвигает новые требования к разводке электрических цепей. Поэтому были переработаны линии передачи данных между GPU и микросхемами памяти, изменена структура самого чипа. Все это позволяет эффективно работать со сверхбыстрым видеобуфером. Среди преимуществ GDDR5X и более низкое рабочее напряжение на уровне 1,35 В.

При эффективной частоте памяти в 10000 МГц увеличение пропускной способности относительно привычных для нынешнего поколения 7012 МГц почти 43%. Но этим преимущества Pascal не ограничиваются. GeForce поддерживают специальные алгоритмы сжатия данных в памяти, что позволяет более эффективно использовать кэш и передавать больше данных при той же пропускной способности. Поддерживается несколько методик, в зависимости от типа данных выбирается свой алгоритм сжатия. Важную роль играет алгоритм сжатия цвета delta color compression. Благодаря ему кодируется не цвет каждого отдельного пикселя, а разница между пикселями при последовательной передаче данных. Вычисляется некий усредненный цвет тайла и данные о смещении цвета для каждого пикселя этого тайла.

Такое сжатие обеспечивает высокую продуктивность Maxwell, но эффективность Pascal еще выше. GPU GP104 дополнительно поддерживает новые алгоритмы с еще большим сжатием для случаев, когда разница между цветом минимальна.

В качестве примера NVIDIA приводит два слайда из игры Project CARS. Розовым цветом на них закрашены те тайлы, где применялось сжатие данных. Верхний слайд отражает работу сжатия на Maxwell, нижний на Pascal.

Как видим, сжатие у Pascal применяется и к тем зонам, где оно не выполнено на Maxwell. В итоге почти весь кадр подвергся сжатию. Конечно, эффективность работы таких алгоритмов зависит от каждой конкретной сцены. По данным NVIDIA разница в этой эффективности между GeForce GTX 1080 и GeForce GTX 980 варьируется от 11% до 28%. Если взять за среднее значение величину 20%, то с учетом повышения частот памяти результирующий рост пропускной способности составляет около 70%.

Новое поколения GeForce поддерживает асинхронные вычисления Async Compute с улучшенным использованием вычислительных ресурсов для разных типов задач. В современных играх GPU одновременно с рендерингом изображения могут выполнять и другие задачи. Это может быть расчет физики тел, постообработка изображения и специальная техника асинхронного искажения времени (Asynchronous Time Warp) для режима виртуальной реальности. При выполнении разных задач не всегда задействуются все вычислительные блоки, и выполнение каждой задачи может занимать разное время. К примеру, если неграфические вычисления выполняются дольше графических, то все равно идет ожидание завершения каждого процесса для переключения к новым задачам. При этом часть ресурсов GPU простаивает. В Pascal появилась динамическая балансировка загрузки. Если одна задача выполнилась раньше, то освободившиеся ресурсы подключаются на выполнение другой задачи.

Таким образом удается избежать простоев и поднять общую производительность при комбинированной нагрузке на GPU. При подобной нагрузке важную роль играет и скорость переключения между задачами. Pascal поддерживает прерывание задач на разных уровнях для максимально быстрого переключения. При получении новой команды процессор прерывает задачи на уровнях обработки пикселей и потоков, сохраняя их состояние для дальнейшего завершения, и вычислительные блоки принимаются за новую задачу. Pascal поддерживает прерывание на уровне отдельных инструкций, Maxwell и Kepler только на уровне потоков.

Прерывание на разных уровнях позволяет точнее определить момент переключения задачи. Это важно для техники Asynchronous Time Warp, которая деформирует уже сформированное изображения перед его выводом для коррекции в соответствии с положением головы. При Asynchronous Time Warp нужно быстрое упреждение для переключения строго перед выводом кадра, иначе возможны артефакты в виде «дрожания» картинки. Pascal справляется с этой задачей лучше всего.

В Pascal появилась аппаратная поддержка технологии мультипроецирования, которая позволяет работать одновременно с разными проекциями изображения. Специальный блок Simultaneous Multi-Projection внутри PolyMorph Engine отвечает за формирование разных проекций при обработке одного потока геометрии. Этот блок обрабатывает геометрию одновременно для 16 проекций с одним или двумя центрами перспективы. Это не требует повторной обработки геометрии и позволяет реплицировать данные до 32 раз (16 проекций на две точки).

Благодаря технологии можно получить корректное изображение на мультимониторных конфигурациях. При использовании трех мониторов изображение рендерится для одной проекции. Если крайние мониторы повернуты под небольшим углом, чтобы создать эффект окружения, то вы получите некорректную геометрию в боковых зонах. Мультипроецирование создает корректное изображение, формирую правильные проекцию в соответствии с углом положения монитора. Единственным условием для такого режима является поддержка широкого FOV самим приложением.

Такая методика формирования изображения позволяет наиболее эффективно использовать изогнутые панели, а также открывает возможности для корректного рендеринга на других устройствах вывода изображения, даже на сферическом экране.

Данная технология расширяет возможности Pascal при формировании стерео-изображения и в системах виртуальной реальности (VR). В режиме стерео формируется два изображения одной сцены для каждого глаза. Аппаратная поддержка Simultaneous Multi-Projection позволяет создать каждую проекцию для своего глаза при единоразовой обработке геометрии с использованием технологии Single Pass Stereo. И это значительно ускоряет работу в таком режиме.

В системах VR пользователь использует очки со специальными линзами, которые вносят определенные искажения. Для компенсации изображение немного деформируется по краям, а пользователь в итоге наблюдает откорректированную линзой картинку. Но изначально видеокарта обрисовывает изображение в обычной плоской проекции, а часть периферийного изображения потом отпадает.

Технология Lens Matched Shading может разбить изображение на четыре квадранта и сделать последующую выборку пикселей. То есть картинка изначально проецируется на несколько плоскостей, которые симулируют изогнутую форму линзы.

Итоговое изображения рендерится в меньшем разрешении, ненужные зоны отсекаются. Изначально в Oculus Rift на один глаз идет изображение 1,1 мегапиксель, но первоначальной плоской проекции оно рендерится в разрешении 2,1 мегапиксель. Благодаря Lens Matched Shading начальное изображение будет 1,4 мегапикселя. Это позволяет значительно увеличить производительность в VR-режиме.

Виртуальная реальность является перспективным направлением, которое расширит опыт взаимодействия с виртуальной средой и подарит игрокам новые ощущения. NVIDIA активно поддерживает развитие VR. Одним из сдерживающих факторов для популяризации VR-систем являются высокие требования к производительности графического ускорителя. Специальные технологии и аппаратная оптимизация способствует качественному росту быстродействия именно в этом направлении. Компания выпустила комплексный набор VRWorks из специальных API, библиотек и программных движков. В его состав входят в том числе средства работы с Single Pass Stereo и Lens Matched Shading. Сюда также входит технология MultiRes Shading, которая позволяет изменять разрешение в боковых зонах при VR-рендеринге с целью снижения нагрузки.

Эффект присутствия связан не только с визуальными ощущениями, но и с другими чувствами. Звук тоже играет важную роль. Поэтому NVIDIA разработала технологию VRWorks Audio для воссоздания реалистичного звука с учетом положения источника звуковых волн и отражения их от поверхностей. Технология использует движок OptiX, который изначально использовался для просчета освещения по методу трассировки лучей. Отслеживается путь звуковых «лучей» от источника до отражающих поверхностей и обратно. Этот прогрессивный метод позволит воссоздавать реалистичный звук с учетом акустических особенностей виртуального помещения и с наложением отраженных звуков. Подробнее об NVIDIA VRWorks Audio в видеоролике:

Усилить эффект погружения можно за счет взаимодействия с виртуальной средой. Сейчас интерактивность реализована за счет позиционного слежения и отслеживания ручных контроллеров. На базе PhysX создан механизм, который определяет, будет ли взаимодействие при виртуальном контакте с тем или иным объектом. Также с PhysX можно реализовать достоверные физически эффекты при воздействии на виртуальную среду.

В новом поколении видеокарт появилась поддержка VR SLI. Этот режим предусматривает, что обработкой изображения для каждого глаза в VR-режиме займется отдельный GPU. Такой способ исключает задержки при работе SLI и обеспечивает лучшую производительность. Поддержка VR SLI будет внедрена в движки Unreal Engine 4 и Unity, что позволяет надеяться на большую популяризацию этой технологии по мере роста доступности систем виртуальной реальности.

Простая технология SLI тоже обновилась. Старшие видеокарты GeForce всегда имели два разъема под мостики SLI. Этими мостики нужны для коммутации всех видеокарт друг с другом в режимах 3-Way и 4-Way SLI. Теперь в простом SLI две видеокарты могут использовать сразу два интерфейса обмена данными, повышая общую пропускную способность.

Новый способ коммутации требует новых сдвоенных мостиков SLI HB. Поддержка совместного режима при подключении по простому одинарному мостику сохраняется. Сдвоенный мостик рекомендуется для высоких разрешений — 4К, 5К и мультимониторных систем. Скоростной мостик рекомендуется также при 2K с монитором 120 Гц и быстрее. В более простых режимах можно обойтись мостиком старого образца.

У GeForce GTX 1080 повышена скорость самого интерфейса — с 400 МГц до 650 МГц. Она может быть реализована с новыми мостиками и с некоторыми версиями старого формата. Увеличение скорости обмена данными в SLI обеспечивает более плавную смену кадров и некоторый рост производительности в тяжелых режимах.

Возможности рендеринга на нескольких GPU в DirectX 12 были расширены. Поддерживается два основных типа работы с такими конфигурациями: Multi Display Adapter (MDA) и Linked Display Adapter (LDA). Первый позволяет работать совместно разным GPU, в том числе объединяя потенциал интегрированной и внешней графики. LDA рассчитан для совместного использования аналогичных решений. Implicit LDA по сути используется в SLI, благодаря чему обеспечивается широкая совместимость с приложениями на программном уровне. Explicit LDA и MDA дают больше возможностей разработчикам, но обеспечение такого режима в каждом приложении ложится на их плечи.

Также стоит отметить, что официально заявлено о поддержке SLI только в конфигурации из двух GeForce GTX 1080. Более сложные конфигурации теоретически возможны в режимах Explicit LDA и MDA. Интересно, что при этом NVIDIA предлагает разблокировать режим 3-Way и 4-Way при помощи специального кода для энтузиастов. Для этого нужно будет сделать специальный запрос на сайте компании по идентификатору своего GPU.

В GPU GP104 появилась поддержка Fast Sync. Эта технология является альтернативой включенной или выключенной вертикальной синхронизации. В динамичных играх (особенно многопользовательских) высокая частота кадров обеспечивает максимальную отзывчивость на действия пользователя. Но при превышении частоты обновления монитора возможны артефакты в виде разрывов изображения. Это нейтрализует вертикальная синхронизация, что обеспечивает попутно и некоторые задержки. Fast Sync позволяет выводить максимальное количество кадров без вероятных разрывов. Это обеспечивается аппаратными изменениями в конвейере вывода изображения. Вместо традиционного двойного буфера используется тройной, и выводится только полностью отрендеренный кадр.

С Fast Sync можно играть на обычном мониторе при 100-200 fps без визуальных артефактов и с минимальными задержками, как в обычном режиме с отключенным VSync. Ниже отражены результаты исследования задержек при выводе изображения в разных режимах в игре Counter-Strike: Global Offensive.

Как видим, небольшая разница между Fast Sync и выключенным VSync есть, но она не идет ни в какое сравнение относительно задержек вывода кадров с активным VSync.

Если же говорить не о максимальной отзывчивости, а о максимальной плавности изображения, то она обеспечивается технологией G-Sync, которая реализуется в связке со специальными мониторами. G-Sync обеспечивает полную аппаратную синхронизацию выводимых кадров с частотой обновления экрана.

GeForce GTX 1080 может выводить изображение через DVI, HDMI и DisplayPort. Поддерживается DisplayPort 1.2 и HDMI 2.0b с HDCP 2.2, но видеокарта готова и к DisplayPort 1.3/1.4. В случае использования последних возможен вывод изображения 4K при 120 Гц или 8K (7680x4320) при 60 Гц через два кабеля DisplayPort 1.3. Для сравнения нужно отметить, что GeForce GTX 980 может выводить только 5120x3200 при коммутации через два кабеля DisplayPort.

Стандартная версия GeForce GTX 1080 оснащается тремя портами DisplayPort, одним HDMI и одним Dual-Link DVI.

Процессор GP104 получил улучшенный блок декодирования/кодирования видео с поддержкой стандарта PlayReady 3.0 (SL3000) и аппаратного декодирования HEVC с поддержкой высококачественного видео 4K/8K. Полные возможности GeForce GTX 1080 в сравнении с GeForce GTX 980 отражены в нижней таблице.

В списке инноваций GeForce GTX 1080 поддержка контента и дисплеев HDR. Этот стандарт является крупный прорывом в технологиях, обеспечивая охват видимого цветового пространства в 75% вместо 33% у RGB при глубине цвета 10/12 бит. Такие дисплеи отображают больше оттенков, имеют выше яркость и глубже контраст, позволяя рассмотреть больше тонких цветовых нюансов. На данный момент уже выпускаются телевизоры с поддержкой HDR, мониторы ожидаются в следующем году.

Кроме декодирования HDR поддерживается и аппаратное кодирование, что позволит записывать видео такого стандарта. А в скором времени будет добавлена функция HDR-стриминга для игровой консоли Shield.

NVIDIA работает с разработчиками над тем, чтобы привнести HDR в сегмент компьютерных игр. В результате поддержку HDR получат Rise of the Tomb Raide , Tom Clancy"s The Division , The Talos Principle , Paragon, вторая часть Shadow Warrior и другие игры.

Современный гейминг меняется, у игроков проявляются новые интересы и желание взглянуть на любимую игру под новым углом. Иногда обычный скриншот превращается в нечто большее, чем простой кадр из игры. А с NVIDIA Ansel каждый скриншот может стать необычным. Это новая технология для захвата изображений с набором специальных возможностей. Ansel позволяет накладывать фильтры, улучшать изображение, использовать свободную камеру и создавать панорамы. Для полной функциональности нужна поддержка со стороны приложения. Для этого в Ansel предусмотрена простая интеграция. К примеру, для интеграции Ansel в The Witcher 3 разработчики добавили лишь 150 строчек кода, а для логической игры Witness понадобилось 40 строчек кода.

Ansel переводит игру в режим паузы и далее позволяет выполнять разные операции. Например, можно менять камеру и выбирать любой ракурс. Какие-то ограничения возможны только в случае, если разработчики намеренно ограничат движение свободной камеры.

Можно повышать разрешение конечного изображения и увеличивать уровень LOD, чтобы добиться максимальной четкости всех деталей. Повышение разрешение сочетается с дополнительным сглаживанием для лучшего эффекта.

Более того, Ansel позволяет создавать гигантские изображения вплоть до 4,5 гигапикселей. Такие изображения сшиваются из отдельных фрагментов, что выполняется на аппаратном уровне. Также на итоговое изображение можно наложить различные пост-эффекты. Изображение можно сохранить а формате RAW или в EXR с 16-битным кодированием цвета. Это даст широкие возможности для последующей работы с ним.

Можно создавать стереопанормы и 360-градусные снимки, которые потом можно рассматривать в очках виртуальной реальности.

Есть огромное множество эффектов, которые можно применять к захватываемому изображению — зернистость, Bloom, сепия, линзовые эффекты и много другого, вплоть до создания картинки с эффектом рыбьего глаза. Широкие возможности Ansel поражают. Игрок получает такие возможности, которых ранее просто не было.

После изучения архитектурных особенностей и новых технологий нужно взглянуть на саму видеокарту GeForce GTX 1080. Референсная версия внешне напоминает предыдущие модели со слегка обновленным дизайном и более резкими очертаниями.

Обратная стороны защищена двумя пластинами, что напоминает «бронирование» GeForce GTX 980.

Общая конструкция охлаждения осталась без изменений. Кулер работает по принципу турбины. Есть крупное основание, ребристый радиатор для охлаждения GPU и дополнительный радиатор в районе узла питания для лучшего охлаждения силовых элементов.

Все остальные нюансы мы рассмотрим в отдельной статье, где заодно проведем и сравнительное тестирование. Если говорить о предварительных оценках самого производителя, то NVIDIA сравнивает новинку с GeForce GTX 980 и говорит о преимуществе около 70% в простых играх и разрыве более чем в 2,5 раза в VR-режиме. Разница с GeForce GTX 980 Ti будет поменьше, но о каких-то конкретных значениям можно будет говорить после практических тестов.

Выводы

Настало время подвести итоги нашего теоретического знакомства с GeForce GTX 1080. Эта видеокарта на данный момент является самым продвинутым в технологическом плане продуктом среди графических ускорителей. В GeForce GTX 1080 впервые используется 16-нм процессор архитектуры Pascal и новая память GDDR5X. Сама архитектура является развитием Maxwell с оптимизациями и новыми функциями для DirectX 12. Архитектурные улучшения в значительной мере усиливаются за счет существенного роста частот GPU и памяти. Очень значительный прогресс в сфере VR-рендеринга благодаря новым технологиям, ускоряющим работу в этом режиме. Прогрессивным нововведением является поддержка HDR-дисплеев и соответствующего контента. Благодаря новому блоку обработки видео еще больше возможностей по воспроизведению и записи видео высокого разрешения, включая работу с форматом HDR. Любители сверхдинамичных мультиплеерных игр оценят технологию Fast Sync. Ценителей виртуальных красот порадуют возможности Ansel. Покупая GeForce GTX 1080, вы в итоге получите не просто самый быстрый на данный момент видеоускоритель, но и самый функциональный.

Официально данная модель станет доступна покупателям после 27 мая. Первыми в продажу поступят версии референсного дизайна Founders Edition. Они будут иметь более высокий ценник. Чуть позже выйдут нестандартные варианты, стоимость которых на $100 ниже. Ну а мы к моменту появления GeForce GTX 1080 на отечественном рынке постараемся в рамках большого тестирования в полной мере раскрыть их потенциал в сравнении с существующими топовыми видеокартами.

Согласно недавно опубликованным неофициальным данным, семейство графических процессоров на базе архитектуры Pascal может стать одним из наиболее полных модельных рядов компании NVIDIA в последние годы. Буквально за несколько месяцев фирма представила четыре GPU на основе Pascal и при этом не собирается останавливаться на достигнутом. По словам главы компании, далеко не все микросхемы Pascal, не говоря уже о реальных продуктах, были представлены. Судя по всему, в ближайшее время нас ждут новые анонсы.

NVIDIA Pascal: восемь продуктов за четыре месяца

Начиная с апреля этого года NVIDIA представила четыре микросхемы на основе Pascal: GP100 c 16 Гбайт памяти HBM2, GP102 c поддержкой GDDR5X, GP104 и GP106. При этом компания анонсировала восемь продуктов на основе указанных GPU (если не считать за отдельные продукты разного рода специальные редакции указанных ниже, а также специализированные устройства типа DGX-1): GeForce GTX 1080/1070 (GP104), GeForce GTX 1060 (GP106), TITAN X (GP102 + 12 Гбайт GDDR5X), Quadro P5000 (GP104GL + 16 Гбайт GDDR5X), Quadro P6000 (GP102GL + 24 Гбайт GDDR5X), Tesla P100 SXM и Tesla P100 PCIe (обе на базе GP100 + 16 Гбайт HBM2).

Хотя четыре GPU и восемь продуктов за четыре месяца это весьма выдающееся достижение, заметно, что компания не представила ни одного нового решения для ноутбуков, а также ни одной новой графической карты дешевле $250. По словам главы NVIDIA, компания готовит новые GPU на базе Pascal, они уже существуют в кремнии, но на рынок выйдут лишь через некоторое время.

NVIDIA: Все Pascal готовы, но не все представлены

«Мы спроектировали, верифицировали и начали производство всех GPU на базе архитектуры Pascal », — сказал Дженсен Хуанг (Jen-Hsun Huang), исполнительный директор NVIDIA, в ходе телеконференции с инвесторами и финансовыми аналитиками. «Однако мы пока не представили все эти графические процессоры».

Новые конфигурации

Впрочем, интерес для любителей игр и энтузиастов производительности представляют не столько GP107, GP108 и внутреннее строение GP102, сколько тот факт, что каждая микросхема Pascal будет существовать по меньшей мере в двух базовых конфигурациях (с точки зрения идентификатора PCIe ID, который использует драйвер NVIDIA). Это открывает возможности для создания массы новых продуктов на базе микросхем GP100, GP102, GP104 и GP106.

Так, GP104 существует в конфигурации GP104-A и GP104-B, а также в виде версий с включённым ускорением для профессиональных приложений — GP104GL-A и GP104GL-B. Мы не знаем, чему именно соответствуют литеры «A» и «B», но можем предположить, что «A» обозначает микросхему в максимальной конфигурации. Таким образом, GP104-A может соответствовать GeForce GTX 1080, а GP104-B — GeForce GTX 1070.

Принимая во внимание, что микросхемы GP102 и GP106 также существуют в двух конфигурациях (во всяком случае, об этом говорят база данных AIDA64 и драйверы NVIDIA), но при этом на их базе имеется лишь по одному продукту (GeForce GTX 1060 и TITAN X), мы вполне можем ожидать появления новых решений на их основе. Будут ли эти карты быстрее или медленнее имеющихся — покажет время. Во всяком случае, GP102 может масштабироваться как «вверх» (до 3840 потоковых процессоров), так и «вниз». При этом, разумеется, нельзя исключать гипотетической возможности появления третьей версии GP102-С, в случае, если она понадобится NVIDIA.

Так или иначе, очевидно, что NVIDIA планирует расширять семейство графических карт на базе Pascal. Хотя ближайшие планы явно должны включать в себя мобильные и массовые GPU, очень вероятно, что в будущем нас ждут новые решения для высокопроизводительных игровых ПК.

Обзор Nvidia GeForce GTX 1080 Pascal | Знакомимся с графическим процессором GP104

В преддверии выставки Computex Nvidia решила представить свою долгожданную новинку - адаптированную для геймеров архитектуру Pascal. В новых видеокартах GeForce GTX 1080 и 1070 производитель устанавливает графический процессор GP104. Сегодня, мы рассмотрим старшую модель, а младшая должна оказаться в наших руках в начале июня.

Архитектура Pascal обещает более быструю и более эффективную работу, больше вычислительных модулей, уменьшенную площадь кристалла и более быструю память с модернизированным контроллером. Она лучше подходит для виртуальной реальности, игр в 4K и других задач, требующих высокой производительности.

Как всегда, мы постараемся разобраться в обещаниях производителя и проверить их на практике. Начнем.

Изменит ли GeForce GTX 1080 расстановку сил в сегменте High-End?

Nvidia GeForce GTX 1080 – наиболее быстрая из двух игровых видеокарт, анонсированных в начале месяца. Обе используют графический процессор GP104, который, кстати, является уже вторым GPU с микроархитектурой Pascal (первым был GP100, появившийся на GTC в апреле). CEO Nvidia Жэнь-Сунь Хуань подразнивал энтузиастов, когда представлял новинку широкой общественности, утверждая, что GeForce GTX 1080 обгонит две 980 в SLI.

Также он отметил, что GTX 1080 при большей производительности имеет меньшее энергопотребление, чем 900-я серия. Она вдвое производительнее и втрое эффективнее бывшего флагмана GeForce Titan X, но если всмотреться в сопутствующие графики и диаграммы, то выясняется, что такая внушительная разница проявляется в определенных задачах, связанных с виртуальной реальностью. Но даже если эти обещания подтвердятся лишь частично, нас все равно ждут весьма интересные времена в плане развития high-end игр на ПК.

Виртуальная реальность начинает понемногу набирать обороты, но высокие аппаратные требования для графической подсистемы создают существенный барьер для доступа к этим технологиям. Кроме того, большинство доступных сегодня игр не умеют использовать преимущества многопроцессорного рендеринга. То есть, вы, как правило, ограничены возможностями одного быстрого видеоадаптера с одним GPU. GTX 1080 способна превзойти по скорости работы две 980-х и не должна испытывать затруднений в современных VR-играх, нивелируя потребность в многопроцессорных конфигурациях в будущем.

Не меньшими темпами прогрессирует экосистема 4K. Интерфейсы с повышенной пропускной способностью, такие как HDMI 2.0b и DisplayPort 1.3/1.4 должны открыть дверь для 4K мониторов со 120 Гц панелями и поддержкой динамической частоты обновления экрана уже к концу этого года. Хотя предыдущие поколения топовых графических процессоров AMD и Nvidia позиционировались как решения для игр в 4K, пользователям приходилось идти на компромиссы по качеству, чтобы поддерживать приемлемую частоту кадров. GeForce Nvidia GTX 1080 может стать первым графическим адаптером, скорости которого будет достаточно для поддержания высокой частоты кадров в разрешении 3840x2160 точек с максимальными настройками детализации графики.

Какова ситуация с конфигурациями из нескольких мониторов? Многие геймеры готовы устанавливать по три монитора с разрешением 1920x1080, но при условии, что графическая система справится с нагрузкой, ведь в этом случае карте приходится отрисовывать полмиллиона пикселей, поскольку разрешение составляет 7680x1440. Есть даже энтузиасты, готовые взять три 4K-дисплея с совокупным разрешением 11520x2160 точек.

Последний вариант слишком экзотичный даже для новой геймерской флагманской видеокарты. Тем не менее, процессор Nvidia GP104 оснащен технологией, которая обещает улучшить впечатления от типичных для новой модели задач, то есть 4K и Surround. Но прежде, чем мы перейдем к новым технологиям, давайте поближе познакомимся с процессором GP104 и лежащей в его основе архитектурой Pascal.

Из чего состоит GP104?

С начала 2012 года AMD и Nvidia используют 28-нанометровый техпроцесс. Перейдя на него, обе компании сделали существенный рывок вперед, представив нам видеокарты Radeon HD 7970 и GeForce GTX 680. Тем не менее, за последующие четыре года им пришлось сильно изворачиваться, чтобы вытянуть больше производительности из существующей технологии. Достижения видеокарты Radeon R9 Fury X и GeForce GTX 980 Ti - это настоящее чудо, учитывая их сложность. Первым чипом, созданным Nvidia по техпроцессу 28 нм, был GK104, состоявший из 3,5 миллиардов транзисторов. GM200, который устанавливается в GeForce GTX 980 Ti и Titan X, имеет уже восемь миллиардов транзисторов.

Переход на 16 нм технологию TSMC FinFET Plus позволил инженерам Nvidia реализовать новые идеи. Согласно техническим данным чипы 16FF+ на 65% быстрее, могут иметь вдвое большую плотность, чем 28HPM, либо потреблять на 70 меньше энергии. При создании своих GPU Nvidia использует оптимальную комбинацию этих достоинств. TSMC утверждает, что в основу были положены инженерные наработки существующего процесса 20 нм, но вместо плоских транзисторов использовала транзисторы FinFET. В компании говорят, что такой подход снижает количество брака, и повышает выход рабочих пластин. Также утверждается, что 20-нанометрвого техпроцесса с быстрыми транзисторами у компании не было. Повторимся, мир компьютерной графики более четырех лет "сидит" на техпроцессе 28 нм.

Блок-схема процессора GP104

Преемник GM204 состоит из 7,2 миллиардов транзисторов, размещенных на площади 314 мм2. Для сравнения площадь кристалла GM204 составляет 398 мм2 при 5,2 миллиардах транзисторов. В полной версии один GPU GP104 имеет четыре кластера обработки графики (Graphics Processing Clusters - GPC). Каждый GPC включает пять кластеров обработки потоков/текстур (Thread/Texture Processing Clusters - TPC) и блок растеризации. TPC сочетает в себе один потоковый мультипроцессор (Streaming Multiprocessor SM) и движок PolyMorph. SM объединяет 128 ядер CUDA одинарной точности, 256 Кбайт регистровой памяти, 96 Кбайт общей памяти, 48 Кбайт кэша L1/текстур и восемь текстурных блоков. Четвертое поколение движка PolyMorph включает новый блок логики, который находится в конце конвейера геометрии перед блоком растеризации, он управляет функцией мультипроекции Simultaneous Multi-Projection (об этом чуть ниже). В общем итоге мы получаем 20 SM, 2560 ядер CUDA и 160 блоков обработки текстур.

Один потоковый мультипроцессор (SM) в GP104

Бек-энд графического процессора включает восемь 32-битных контроллеров памяти (суммарная ширина канала 256-бит), восемь блоков растеризации и 256 Кбайт кэша L2 для каждого блока. В итоге мы имеем 64 ROP и 2 Мбайт разделенной кэш-памяти L2. Хотя на блок-схеме процессора Nvidia GM204 было показано четыре 64-битных контроллера и 16 ROP, они были сгруппированы и с функциональной точки зрения эквивалентны.

Некоторые структурные элементы GP104 похожи на GM204, ведь новый GPU был создан из "строительных блоков" своего предшественника. В этом нет ничего плохого. Если вы помните, в архитектуре Maxwell компания сделала ставку на энергоэффективность и не стала перетряхивать блоки, которые являлись сильной стороной Kepler. Аналогичную картину мы видим и здесь.

Добавление четырех SM не может заметно повлиять на производительность. Однако у GP104 есть несколько козырей в рукаве. Первый козырь – существенно более высокие тактовые частоты. Базовая тактовая частота GPU составляет 1607 МГц. В спецификациях GM204, для сравнения, указано 1126 МГц. Максимальная частота GPU Boost достигает 1733 МГц, но мы довели наш образец до 2100 МГц, используя бета-версию утилиты EVGA PrecisionX. Откуда такой запас для разгона? По словам Джона Албина, старшего вице-президента отдела разработки GPU, его команда знала, что техпроцесс TSMC 16FF+ повлияет на работу архитектуры чипа, поэтому они сосредоточили силы на оптимизации таймингов в микросхеме, чтобы убрать узкие места, препятствующие достижению более высоких тактовых частот. В результате скорость вычислений одинарной точности GP104 достигла 8228 GFLOPs (на базовой частоте) по сравнению с потолком в 4612 GFLOPs у GeForce GTX 980. Скорость закраски текселей подскочила с 155,6 Гтекс/с у 980-й (с GPU Boost) до 277,3 Гтекс /с.

GPU	GeForce GTX 1080 (GP104)	GeForce GTX 980 (GM204)
SM	20	16
Количество ядер CUDA	2560	2048
Базовая частота GPU, МГц	1607	1126
Частота GPU в режиме Boost, МГц	1733	1216
Скорость вычислений, GFLOPs (при базовой частоте)	8228	4612
Количество блоков текстурирования	160	128
Скороть заполнения текселей, Гтекс/с	277,3	155,6
Скорость передачи данных памяти, Гбит/с	10	7
Пропускная способность памяти, Гбайт/с	320	224
Количество блоков растеризации	64	64
Объем кэша L2, Мбайт	2	2
Тепловой пакет, Вт	180	165
Количество транзисторов	7,2 млрд.	5,2 млрд.
Площадь кристалла, мм2	314	398 мм
Техпроцесс, нм	16	28

Бэк-энд по-прежнему включает 64 блоков ROP и 256-разрядную шину памяти, но чтобы увеличить доступную пропускную способность Nvidia внедрила память GDDR5X. Компания приложила много усилий для раскрутки нового типа памяти, особенно на фоне памяти HBM, которая используется в разных видеокартах AMD и HBM2, которую Nvidia устанавливает в Tesla P100. Складывается ощущение, что на рынке сейчас имеется нехватка памяти HBM2, при этом компания не готова принять ограничения HBM (четыре стека по 1 Гбайт, либо трудности, связанные с реализацией восьми стеков по 1 Гбайт). Таким образом, мы получили видеопамять GDDR5X, поставки которой, судя по всему, тоже ограничены, поскольку GeForce GTX 1070 уже использует обычную GDDR5. Но это не перекрывает достоинств нового решения. Память GDDR5 в GeForce GTX 980 имела скорость передачи данных 7 Гбит/с. Это обеспечивало 224 Гбайт/с пропускной способности через 256-разрядную шину. GDDR5X стартует с 10 Гбит/с, повышая пропускную способность до 320 Гбайт/с (увеличение на ~43%). По словам Nvidia прирост достигается благодаря модернизированной схеме ввода-вывода, причем без повышения энергопотребления.

Архитектура Maxwell стала более эффективно использовать пропускную способность путем оптимизации кэша и алгоритмов сжатия, тем же путем идет и Pascal с новыми методами сжатия без потерь, чтобы более экономно использовать доступную ширину канала подсистемы памяти. Алгоритм дельта-компрессии цветов пытается достигнуть выигрыша 2:1, причем этот режим был улучшен с целью более частого применения. Также есть новый режим 4:1, который применяется в тех случаях, когда различия на пиксель очень небольшие. Наконец, в Pascal представлен еще один новый алгоритм 8:1, который применяет сжатие 4:1 к блокам 2х2, разница между которыми обрабатывается по алгоритму 2:1.

Разницу не трудно проиллюстрировать. На первом изображении показан несжатый снимок экрана из игры Project CARS. На следующем снимке показаны элементы, которые может сжать карта на архитектуре Maxwell, они закрашены фиолетовым. На третьем снимке видно, что Pascal сжимает сцену еще больше. Согласно данным Nvidia, эта разница преобразуется примерно в 20%-ое сокращение информации в байтах, которую необходимо выбрать из памяти для каждого кадра.