Графические процессоры NVIDIA серии RTX 3000: что нового

Гайд в разделе Интересное Графические процессоры NVIDIA серии RTX 3000: что нового содержит информацию, советы и подсказки, которые помогут изучить самые важные моменты и тонкости вопроса….

RTX 3080 GPU NVIDIA

1 сентября 2020 года NVIDIA представила новую линейку игровых графических процессоров: серию RTX 3000, основанную на архитектуре Ampere. Мы обсудим, что нового, программное обеспечение на базе искусственного интеллекта, которое поставляется с ним, и все детали, которые делают это поколение действительно потрясающим.

Познакомьтесь с графическими процессорами серии RTX 3000 RTX 3000 GPU Lineup NVIDIA

Основным анонсом NVIDIA стали блестящие новые графические процессоры, построенные по индивидуальному 8-нм техпроцессу и обеспечивающие значительное ускорение как растеризации, так и лучей. производительность трассировки.

В нижней части линейки есть RTX 3070, которая стоит 499 долларов. Это немного дороже для самой дешевой карты, представленной NVIDIA при первом анонсе, но это абсолютная кража, если вы узнаете, что она превосходит существующую RTX 2080 Ti, лучшую линейную карту, которая регулярно продавалась по цене более 1400 долларов. Однако после объявления NVIDIA цена сторонних продаж упала, и многие из них были проданы на eBay по цене менее 600 долларов.

На момент анонса не было никаких надежных тестов, поэтому неясно, действительно ли карта объективно «лучше», чем 2080 Ti, или NVIDIA немного искажает маркетинг. Тесты проводились в разрешении 4K и, вероятно, имели RTX, что может сделать разрыв больше, чем он будет в чисто растеризованных играх, поскольку серия 3000 на основе Ampere будет работать более чем в два раза лучше при трассировке лучей, чем Turing. Но с учетом того, что трассировка лучей теперь не сильно влияет на производительность и поддерживается в консолях последнего поколения, она работает так же быстро, как флагман прошлого поколения, почти за треть цены.

Также неясно, останется ли цена такой. Сторонние разработки регулярно добавляют к цене не менее 50 долларов, и, учитывая, насколько высоким будет спрос, неудивительно, что в октябре 2020 года они будут продаваться за 600 долларов.

Чуть выше этого стоит RTX 3080 по цене 699 долларов, что должно быть в два раза быстрее, чем RTX 2080, и примерно на 25-30% быстрее, чем 3080.

Затем, на На верхнем уровне, новый флагман — RTX 3090, который до смешного огромен. NVIDIA хорошо осведомлена и назвала его «BFGPU», что, по словам компании, означает «Big Ferocious GPU».”

RTX 3090 GPU NVIDIA

NVIDIA не показала никаких прямых показателей производительности, но компания показала, что она запускает игры 8K со скоростью 60 FPS, что серьезно впечатляет. Конечно, NVIDIA почти наверняка использует DLSS, чтобы достичь этой отметки, но игры 8K — это игры 8K.

Конечно, в конечном итоге будет 3060 и другие варианты более бюджетных карт, но обычно они приходят позже.

Чтобы действительно круто, NVIDIA потребовалась переработанная конструкция кулера.3080 рассчитан на 320 Вт, что довольно много, поэтому NVIDIA выбрала дизайн с двумя вентиляторами, но вместо обоих вентиляторов vwinf, размещенных снизу, NVIDIA установила вентилятор на верхнем конце, где обычно находится задняя панель. Вентилятор направляет воздух вверх к кулеру процессора и верхней части корпуса.

upwards fan on GPU leads to better case airflow NVIDIA

Судя по тому, насколько на производительность может повлиять плохой воздушный поток в корпусе, это имеет смысл. Однако печатная плата из-за этого очень тесна, что, вероятно, повлияет на розничные цены сторонних производителей.

DLSS: преимущество программного обеспечения

Трассировка лучей — не единственное преимущество этих новых карт. На самом деле, все это немного похоже на взлом — серии RTX 2000 и 3000 не намного лучше справляются с трассировкой лучей по сравнению со старыми поколениями карт. Трассировка лучей всей сцены в 3D программном обеспечении, таком как Blender, обычно занимает несколько секунд или даже минут на кадр, поэтому о грубом форсировании менее 10 миллисекунд не может быть и речи.

Конечно, для этого есть специальное оборудование. выполнение расчетов лучей, называемых ядрами RT, но в основном NVIDIA выбрала другой подход.NVIDIA улучшила алгоритмы шумоподавления, которые позволяют графическим процессорам отображать очень дешевый одиночный проход, который выглядит ужасно, и каким-то образом — с помощью магии ИИ — превращать это в то, на что геймер хочет взглянуть. В сочетании с традиционными методами, основанными на растеризации, это дает приятные ощущения, усиленные эффектами трассировки лучей.

noisy image smoothed out with NVIDIA denoiser NVIDIA

Однако, чтобы сделать это быстро, NVIDIA добавила специальные ядра обработки AI под названием Tensor. ядра. Они обрабатывают всю математику, необходимую для запуска моделей машинного обучения, и делают это очень быстро. Они полностью меняют правила игры для ИИ в области облачных серверов, поскольку ИИ широко используется многими компаниями.

Помимо шумоподавления, основное использование ядер тензор для геймеров называется DLSS, или глубоким обучением. супер выборка. Он берет кадр низкого качества и масштабирует его до полностью исходного качества. По сути, это означает, что вы можете играть с частотой кадров 1080p, глядя на изображение 4K.

Это также немного помогает с производительностью трассировки лучей — тесты PCMag показывают, что RTX 2080 Super работает Control с высочайшим качеством, со всеми настройками трассировки лучей, установленными на максимум. В 4K он борется только с 19 FPS, но с включенным DLSS он получает намного лучше 54 FPS. DLSS — это бесплатная производительность для NVIDIA, которая стала возможной благодаря ядрам Tensor на процессорах Turing и Ampere. Любая игра, которая поддерживает его и ограничена графическим процессором, может получить серьезное ускорение только за счет программного обеспечения.

DLSS — не новость, и она была объявлена ​​как функция, когда два года назад была запущена серия RTX 2000. В то время он поддерживался очень немногими играми, так как NVIDIA требовала от NVIDIA обучать и настраивать модель машинного обучения для каждой отдельной игры.

Однако за это время NVIDIA полностью переписала ее, назвав новая версия DLSS 2.0. Это универсальный API, что означает, что любой разработчик может его реализовать, и он уже используется в большинстве основных выпусков. Вместо того, чтобы работать с одним кадром, он принимает данные вектора движения из предыдущего кадра, аналогично TAA. Результат намного резче, чем DLSS 1.0, и в некоторых случаях действительно выглядит лучше и резче, чем даже собственное разрешение, поэтому нет особых причин не включать его.

Есть одна загвоздка — при полном переключении сцен как и в кат-сценах, DLSS 2.0 должен визуализировать самый первый кадр с качеством 50%, ожидая данных вектора движения. Это может привести к небольшому снижению качества на несколько миллисекунд. Но 99% всего, на что вы смотрите, будет отрисовано правильно, и большинство людей не замечают этого на практике.

Архитектура Ampere: Создана для AI

Ampere работает быстро. Очень быстро, особенно при расчетах AI. Ядро RT в 1,7 раза быстрее, чем Turing, а новое ядро ​​Tensor в 2,7 раза быстрее, чем Turing. Сочетание этих двух факторов — настоящий скачок в производительности трассировки лучей для поколений.

RT and Tensor core improvements NVIDIA

Ранее в мае NVIDIA выпустила графический процессор Ampere A100 для центров обработки данных, предназначенный для работы с ИИ. В нем они подробно описали многое из того, что делает Ampere намного быстрее. Для рабочих нагрузок центров обработки данных и высокопроизводительных вычислений Ampere в целом примерно в 1,7 раза быстрее, чем Turing. Для обучения ИИ это до 6 раз быстрее.

HPC performance improvements NVIDIA

В Ampere NVIDIA использует новый числовой формат, предназначенный для замены отраслевого стандарта «32 с плавающей запятой» или FP32 в некоторых рабочих нагрузках. Под капотом каждое число, обрабатываемое вашим компьютером, занимает определенное количество бит в памяти, будь то 8 бит, 16 бит, 32, 64 или даже больше. Числа большего размера сложнее обрабатывать, поэтому, если вы можете использовать меньший размер, вам придется меньше обрабатывать.

FP32 хранит 32-битное десятичное число и использует 8 бит для диапазона числа (насколько оно может быть большим или маленьким) и 23 бита для точности. NVIDIA утверждает, что эти 23 бита точности не являются полностью необходимыми для многих рабочих нагрузок ИИ, и вы можете получить аналогичные результаты и гораздо лучшую производительность всего с 10 из них. Уменьшение размера до 19 бит вместо 32 имеет большое значение для многих вычислений.

Этот новый формат называется Tensor Float 32, а тензорные ядра в A100 оптимизированы для обработки формата странного размера. Это, помимо сжатия кристаллов и увеличения количества ядер, дает им шестикратное ускорение обучения ИИ.

New number formats NVIDIA

Помимо нового числового формата, Ampere видит значительное увеличение производительности в конкретных вычислениях, таких как FP32 и FP64. Это не приводит напрямую к увеличению FPS для непрофессионала, но они являются частью того, что делает его почти в три раза быстрее в Tensor-операциях.

tensor core performance improvents NVIDIA

Затем для ускорения вычислений более того, они ввели концепцию мелкозернистой структурированной разреженности, которая является очень модным словом для довольно простой концепции. Нейронные сети работают с большими списками чисел, называемыми весами, которые влияют на конечный результат. Чем больше чисел нужно обработать, тем медленнее будет.

Однако не все эти числа на самом деле полезны. Некоторые из них буквально равны нулю, и их можно просто выбросить, что приводит к значительному ускорению, когда вы можете обрабатывать больше чисел одновременно. Разреженность существенно сжимает числа, что требует меньше усилий для проведения расчетов. Новое «Разреженное тензорное ядро» создано для работы со сжатыми данными.

Несмотря на изменения, NVIDIA заявляет, что это вообще не должно заметно влиять на точность обученных моделей.

sparse data being compressed NVIDIA

Для вычислений Sparse INT8, одного из форматов наименьших чисел, пиковая производительность одного графического процессора A100 составляет более 1,25 петафлопс, что является ошеломляюще высоким показателем. Конечно, это только при вычислении одного конкретного числа, но, тем не менее, это впечатляет.

Графические процессоры NVIDIA серии RTX 3000: что нового
Интересное Гайды

Для получения большей информации о секретах и подсказках по разделу Интересное легко перейдите в гайды Интересное по указанной выше ссылке.

0 05.02.2021 Антон
<>

Напишите несколько строк :