导读 两倍效能升、同样价格售,NVIDIA 新世代 “Ampere” 游戏显示卡可说是相当兇狠,两倍 FP32 核心、第二代 RT Core 与第三代 Tens
两倍效能升、同样价格售,NVIDIA 新世代 “Ampere” 游戏显示卡可说是相当兇狠,两倍 FP32 核心、第二代 RT Core 与第三代 Tensor Core 更新,再加上 NVIDIA 的推波助澜之下,让下半年 AAA 大作纷纷挂上 RTX On 的招牌,而究竟这代效能提升了多少,是否能解 4K60fps 的美梦,光追 AI 游戏效能又是如何呢!最后,这代该升级吗?
首发 RTX 3080、9/24 卡皇 RTX 3090 以及杀手 RTX 3070
9/16 解禁、9/17 首发上市的则是 NVIDIA GeForce RTX 3080 显示卡,而这代卡皇 BFGPU GeForce RTX 3090 则是 9/24 号上市,至于这代最佳甜蜜代表(性价好)的 RTX 3070 则要等待 10 月 15 日上市。
首先新一代 Ampere 架构显示卡,由于 FP32 单元翻倍,因此 CUDA 核心翻倍成长,除此之外也同时升级了第二代 RT Core 与第三代 Tensor Core 核心。
首发 RTX 3080 採用 GA102 GPU,分为 6 组 GPC 单元与共 68 组 SM 单元,CUDA 核心则达到 8704 个,第二代 RT Core 68 个、第三代 Tensor Core 272 个,而 Texture / ROP Units 也都有着升级,整体规格对比上代 RTX 2080 有着明显提升,但这代创始版 GPU Boost 时脉相对较低 1710 MHz;此外,RTX 3080 也升级 10GB GDDR6X 记忆体,有着更高的记忆体频宽与传输性能
↑ RTX 3090、RTX 3080 与 RTX 3070 规格表。
至于 RTX 3070 在 CUDA 核心数量已超过 RTX 2080 Ti,而最终效能如何则要等待 10 月揭晓;BFGPU RTX 3090 则是採用完整的 A102 核心,CUDA 数量高达 10496 个,并有着夸张 24GB GDDR6X 记忆体配置。
总之,这代 Ampere 架构升级在核心规格上有着大幅提升,并且维持着相同定价,RTX 3080 美金 $699 美元起、RTX 3090 美金 $1499、RTX 3070 美金 $499 美元的价格,而台湾 NVIDIA 也给出建议售价:RTX 3090 NT$ 46,900 起、RTX 3080 NT$ 21,900 起与 RTX 3070 NT$ 15,900 起。
这也是为何这代显示卡,能被玩家所期待,规格效能倍增、价格不变。
↑ RTX 3090、RTX 3080 与 RTX 3070 台湾建议售价。
简单暴力 Ampere 架构更新重点:FP32 快取翻倍
Ampere 的 Streaming Multiprocessors(SM)单元,内含着 16 FP32 运算单元,以及另外 16 个可运算 FP32 或 INT32 的混合运算单元,因此一个时脉週期可执行最高 32 FP32 运算,或者是 16 FP32 加上 16 INT32 的运算,而 4 个 SM 分区达到 128 FP32 运算/clock,相较于 Turing 世代则是 2 倍的运算量提升。
随着 CUDA 运算单元的数量倍增,SM 也加倍 L1 快取频宽、33% 快取容量提升与 2 倍快取分区大小;而每个 SM 当中也包含 1 个 RT Core 核心,可有着 2 倍 Triangle Intersection 速率提升与 4 个 Tensor Core 核心,有着 2 倍稀疏矩阵运算能力。
↑ Ampere 的 Streaming Multiprocessors(SM)单元。
↑ RTX 3080 的 GA102 GPU 核心区块图。
第二代 RT Core 与第三代 Tensor Core 更新
第二代 RT Core 同样针对「Bounding Volume Hierarchy(BVH)」演算法进行加速,通过硬体加速 Bbox intersection 与 Triangle intersection 的处理速度,并导入「Motion Blur」硬体加速功能,也就是在 Bbox 与 Triangle intersection 寻找当中,导入 Interpolate tri position(时间)的参数,让光线追蹤时可根据时间来变化,最终可渲染出具备动态模糊的光线追蹤影像,并让以往动态模糊光线追蹤效能达到 8x 快的 Ray Traversal。
↑ 第二代 RT Core 导入 Motion Blur 光线追蹤技术。
第三代 Tensor Core 当中採用「Sparse Deep Learning」技术,将以往的稠密矩阵转化为稀疏矩阵,并分配给 Tensor Core 核心计算,并针对 Sparsity Optimized 优化核心,也因此这代 GA100(A100)与 GA102(RTX 3080)的 SM 单元 Tensor Core 数量降至 4 个核心(TU102 SM 为 8)。
在 Tensor Core 数量降低的状况下,即便是以往 Dense 实作 GA102(RTX 3080)也有着 128 FP16 FMA 的速度,比起上一代 RTX 2080S 仅 64 FP16 FMA,而当使用 Sparse 算法则可达到 2 倍的运算速度提升。
↑ 第三代 Tensor Core 优化 Sparse Deep Learning。
GDDR6X 记忆体、HDMI 2.1 输出、AV1 硬体解码
两张高阶的 GeForce RTX 3080 与 RTX 3090,纷纷採用 GDDR6X 记忆体,使用四位準脉波振幅调变(four-level pulse amplitude modulation, PAM4),实现 GDDR6X 的突破性频宽;在一个 250mV 的电压 Steps 当中,採用 4-level PAM4 调变来乘载资料。
并为了达到最高传输效能,通过 Max Transition Avoidance Coding 确保「眼图」能够有明确的讯号,而根据不同板子等设计,採用新演算法 Training and Adaptation 找到最适合的取样点。
↑ GDDR6X 记忆体。
RTX 30 世代都将升级 HDMI 2.1 规格,将能够一线点亮 8K60Hz 或 4K120Hz 的显示规格,并且支援 Display Stream Compression 1.2a(DSC)可点亮 HDR 影像,此外还支援着 Variable Refresh Rate 的可变更新率。
这意味着未来 NVIDIA G-Sync(相容)有可能导入 HDMI 2.1 连接埠,让 HDMI 用户也可点亮 G-Sync 同步的能力,但目前 NVIDIA 并未针对未来功能多做说明。
另一方面,GPU 的影像解码则加入 AV1 解码支援,而编码功能则与 RTX 20 系列 GPU 相同。
↑ 8K、HDMI 2.1 与 AV1 解码。
↑ AV1 解码规格,已在 DXVA Check 中检视。
↑ Ampere NVDEC。
NVIDIA GeForce RTX 3080 创始版开箱 / 紧凑 PCB 正反双扇 颠覆以往
这一代 NVIDIA 创始版显示卡,可说是有着颠覆以往显卡印象的新颖设计,历代视为信仰的 GEFORCE RTX 招牌改为白色灯光,并採用着 X 形状的一体式框架,搭配均温板複合热导管和散热鳍片,通过正反 8.7mm 轴向式进风、抽风配置,打造全新的显卡散热设计。
↑ NVIDIA GeForce RTX 3080 创始版外盒。
↑ 这代显卡稳稳的斜躺于包装之内。
这代最容易让人混淆的就是,创始版将以往的显卡背面设计改为正面,露出 X 框架的线条,高质感雾黑的背板,上头印着 RTX 3080 的字样,以及背面的轴向式抽风扇。
而以往的显卡正面,则是同样展露 X 框架,并全面改以散热鳍片,通过热导管将废热引导至显卡前端,提升整体的散热效果,也可带动机壳内部的气流。
↑ RTX 3080 正面美照。
↑ RTX 3080 背面,X 框架与满满的散热鳍片。
缩小电路板、改造散热器之后,这代 RTX 3080 创始版,尺寸来到 285 x 112 mm、2 Slot 插槽设计,换句话说比起上一代 RTX 20 创始版还要长了 2cm;此外,显卡重量也来到 1.385kg,比起上一代重了 122g。
此外,因为电路板缩小并改用 PCIe 12-pin 供电接头,使得出线处位于显卡的中段,若在加上转接线之后,这出线位置势必让理线魔人心烦,这也只能透过日后客製线来美化了。
↑ 显卡侧面,GEFORCE RTX 字样,以及 PCIe 12-pin 供电接头。
↑ 这代显卡较长 28.5cm。
↑ 高度同样是 2 Slot 佔用。
RTX 3080 创始版同样提供 4 影像输出,分别为 HDMI 2.1 与 3 个 DisplayPort 1.4a 连接埠,新的 HDMI 2.1 支援到 4K120Hz 与 8K60Hz 输出,连接线频宽达到 4 线共 48Gbps,并支援 Variable Refresh Rate 功能。
但未来 G-Sync 萤幕是否开放 HDMI 2.1 支援,这点就要看 NVIDIA 的规划了。
↑ 影像输出埠。
配件中包含产品的说明文件,以及相当重要的 PCIe 12-pin 转 2 个 PCIe 8-pin 的转接线,NVIDIA 建议使用原厂线材,除非客製端明确了解接头配置,否则将会影响到产品保固。
↑ 创始版配件。
↑ PCIe 12-pin 转 2 个 PCIe 8-pin 的转接线。
这代创始版因为电路板缩小,使用螺丝的数量也有减少,但拆解还是有些小细节要注意,例如正面的螺丝孔,採用磁铁盖遮住,还有 V 形的开口下也藏着螺丝。
鬆开螺丝后取下背板,可见新的创始版散热器,其 GPU 后方加入 X支架,提升散热器压合的力道。
↑ 隐藏螺丝设计。
↑ GPU 採用 X 支架提升散热器的压合力道。
拆解下电路板之后,主要分为散热器本体、电路板、背板。
↑ 创始版拆解。
缩小电路板面积,可将发热元件集中,让散热器均温板可直接覆盖;但由于 RTX 3080 採用 GDDR6X 记忆体,相对在布线、PCB 板层上更要求讯号品质。
GPU 型号为 GA102-200-KD-A1,周围有着 10 颗 GDDR6X 记忆体,组成 10GB 记忆体容量,供电项则相当豪华,提供这张 320W TGP 的供电。
↑ 缩小电路板,右侧 V 字开孔刚好迎合风扇。
↑ GA102-200-KD-A1 GPU。
↑ 由于 12-pin 接头有转角设计,因此后方的线路更粗更厚。
这代散热器则是均温板接触 GPU,并替周围的记忆体、供电项进行散热,并複合 4 根热导管与散热鳍片,搭配两颗风扇带来更好的散热效果。
↑ 散热器替 GPU、记忆体与供电元件散热。
↑ 这代创始版唯读白色灯光的 LED。
↑ X 金属框架。
创始版上机效果,主要在显卡下方的两个 V 字有着白色灯光,而侧面的 GeForce RTX 也有着白色灯光,这代不点亮 NVIDIA 招牌绿色,改为白灯、黑卡与钛金色的金属外框,整体质感更胜以往。
↑ RTX 3080 创始版上机照。
↑ RTX 3080 创始版上机照。
↑ RTX 3080 创始版上机照。
NVIDIA GeForce RTX 3080 性能测试 / 影像输出、3D 渲染
本次测试报告,除 NVIDIA GeForce RTX 3080 创始版之外,也準备上一代同阶 RTX 2080 Super 创始版,以及 RTX 2080 Ti 创始版做为比较之用;测试平台,则使用 Intel Core i9-10900K、ASUS ROG MAXIMUS XII EXTREME 与双通道 DDR4 16GB-3600 记忆体。
至于目前 PCIe 4.0 对于显示卡效能上差异不大,除非明年 RTX IO、DirectStorage 导入之际,才有机会见到新 API 发挥出 PCIe 4.0 高频宽与 SSD 的实际 I/O 性能。
↑ RTX 3080 对上 RTX 2080 Super 与 RTX 2080 Ti。
测试平台
处理器:Intel Core i9-10900K
主机板:ASUS ROG MAXIMUS XII EXTREME
记忆体:G.SKILL DDR4 8GB*2-3600
显示卡:NVIDIA GeForce RTX 3080
系统碟:Samsung NVMe SSD 960 PRO M.2
电源供应器:Phanteks REVOLT PRO 1000W
作业系统:Windows 10 Pro 1909 64bit
首先 GPU-Z 已可检视 NVIDIA GeForce RTX 3080 资讯,採用 8nm 製程的 GA102 GPU,有着 8704 个渲染 CUDA 核心,以及 10240 MB GDDR6X(Micron)记忆体,而 GPU 预设时脉 1440 MHz、Boost 1710 MHz。
↑ GPU-Z。
随着 Adobe Premiere Pro 2020 终于支援 CPU + GPU 混合运算,通过 Mercury Playback Engine GPU 加速,编辑时的特效回放速度,此外 NVIDA NVENC 则可加速影像输出时,H.264 与 HEVC(H.265)影像编码。
测试影片专案说明如下:
公司拍摄的 1080p60 开箱影片,基本剪辑、音轨、字幕,无任何特效。FinalAdjusted_MPE 则是剪辑过的音乐影片,来源为 2160p24fps,特效使用:Scaled video, luma curve adjustment, fast blur, noise, tint, RGB curves, black & white effect, image blending, video overlay。IntroSequence 4K 为模仿影片开头的开场画面,使用两个影像包含色彩方块与线条以及文字层,套用 Lens 特效。BigMix 则使用了 3 段 FinalAdjusted_MPE 1920x1080 的影像组成一段 4K 时间轴。
首先一般影片剪辑的公司影片,老实说通过 GPU 加速后,确实比单靠 CPU 运算快上许多,但因为套用的特效不多,因此效能提升并不明显。
而 NVIDIA 提供的专案,则可感受到因套用特效较多的情况下,PR 藉由硬体加速的方式,带来更快的影片输出加速;从结果来看 RTX 3080 藉由 GPU 加速,影像输出效能对比 RTX 2080 Super 提升 23%、对比 RTX 2080 Ti 增加 10%。
↑ Premiere Pro 影片输出时间,秒速越短越好。
Da Vinci Resolve 纯粹通过 GPU 加速的影片剪辑程式,更包含强大的色彩校正与特效功能,并且直接使用 CUDA 核心运算,让影片剪辑的回放与输出都有着相当好的性能。
测试影片专案由 NVIDIA 提供,说明如下:
Wedding_Heavy_Styles 第一个片段,节点 1 OFX: Light Rays、节点 2 gaussian blur with a mask、节点 3 second gaussian blur and a OFX Glow、节点 4 OFX: Styles effect,第二个片段第一节点 pass-through node、第二节点 gaussian blur with mask、第三节点 OFX: Light Rays with a mask、第四节点 primary color correction and a curves adjustment,最后使用 OFX: Sketch effect。Bride_FaceRefine_Selective Color 则是通过 Face Refinement node 进行脸部优化,并通过 Resolves Neural Engine 追蹤主角脸部并将背景灰阶处理,节点 1 Face Refinement、节点 2 Beauty node、节点 3 OFX: Glow, primary balance, Custom Curves, Hue vs Sat Curve, Power Windows, Tracking and External Key、节点 4 Primary Balance, RGB Mixer, Custom Curves, Hue vs Sat Curve, Power Windows, Tracking, External Key and OFX: Gaussian Blur。50% Retime 则是将第二只影片套用 Optical Flow with SpeedWarp AI 慢速播放。SuperScale 2x 4KSource 使用 4K ProRES 影片,以及 Super Scale 至 2x Zoom in 的 4K 输出影片。SuperScale 4x HD_Source 使用 HD H.264 影片,以及 Resolve’s Super Scale 将影片提升至 4K 影片输出。
从结果来看,RTX 3080 输出效能比起 RTX 2080 Super 快上 49%,对比 RTX 2080 Ti 则是有着 28% 的效能增长;若是 Resolve 的用户,这效能提升与同样价格比较之下,是否有心动呢!
↑ Resolve 影片输出时间,秒速越短越好。
Blender 是跨平台、开放源码的 3D 创作工具,支援着 CPU 与 GPU 的渲染加速功能,以及各种 3D 作业:Modeling、Rigging、Animation、Simulation、Rendering、Compositing 与 Motion Tracking 等。
通过 Blender Benchmark 2.9 测试,Blender 的各式渲染 bmw27、classrom、koro 等,都可感受到 RTX 3080 的速度提升,对比上代 RTX 2080 Super 有着平均 50% 效能提升、对比 RTX 2080 Ti 则是 38%。
↑ Blender,时间越短越好。
V-Ray Benchmark 是由 Chaos Group 所开发,V-Ray 是基于物理法则所设计的光线渲染软体,而此工具可针对 CPU 进行光线追蹤的渲染图像的运算效能测试,GPU测试以 mpaths 为单位。
RTX 3080 可达到 627 mpaths 的效能,对比 RTX 3080 有着近乎倍增的 132% 效能提升,对比 RTX 2080 Ti 则是 79% 提升。
↑ V-Ray Benchmark,性能越高越好。
小结,对于影像输出、GPU 渲染等工作,RTX 3080 的效能提升相当明显,就看各位要不要升级缩短输出时间啰!
NVIDIA GeForce RTX 3080 效能跑分测试
RTX 3080 本业还是在游戏显卡,先通过 3DMark 测试衡量三彰显卡的基本效能。
首先主流的 1080p 解析度 Fire Strike 测试,RTX 3080 获得 31,056 分,而 1440p 的 Extreme则有 19,656 分,更高 4K 2160p 解析度的 Ultra 测试则获得 10,730 分的成绩。
这可以说是首次 Fire Strike Ultra 单卡就可达到破万分的总成绩,而对比效能提升百分比,这段测试就不能取平均来检视了。
RTX 3080 确实在 1080p 解析度的 Fire Strike 测试性能提升不多,但这不是他的错,是 1080p 所需的效能就是如此,但是在 1440p 与 2160p 的测试,RTX 3080 性能比起 RTX 2080 Super 可都有着 60% 以上的性能提升,对比 RTX 2080 Ti 则是在 23%、30% 左右。
换句话说使用 DirectX 11 API 的游戏,在 1080p 升级确实不大,但当解析度提升这效能增长还是显着。
RTX 3080 效能提升百分比对比RTX 2080 Super对比RTX 2080 TiFire Strike / 1080p32%18%Extreme / 1440p63%23%Ultra / 2160p65%30%