rtx2050显卡与锐炬显卡（RTX4090FE首发评测）

RTX4090FE首发评测Hi，我是溢图科技特约作者：快乐肥宅庆先森NVIDIA在9月20日召开发布会发布了最新的AdaLovelace游戏卡，首发产品包括RTX4090、RTX408016GB和RTX408012GB，国行。

Hi，我是溢图科技。特约作者：快乐肥宅庆先森

NVIDIA在9月20日召开发布会发布了最新的Ada Lovelace游戏卡，首发产品包括RTX4090、RTX4080 16GB和RTX4080 12GB，国行MSRP分别为12999元、9499元和7199元，规模和价格一出引起了不小的争议。主要的质疑集中在两方面，一个是采用AD104核心和192bit显存位宽规格的RTX4080到底配不配称为“80”，再一个就是面对海量矿卡的冲击这个定价略显自信，究竟产品力能否支撑起这个定价尚且存疑。不过距离RTX4080两兄弟的发售还有一个多月时间，目前关于它们的信息暂时还比较少，相比4080受到的质疑，大家对4090的评价相对来说正面很多，我们今天就来看一下刚刚解禁的RTX4090。

架构

发布之前有一些爆料称Ada Lovelace会使用类似Hopper计算卡的SM架构（去除FP64），即一个SM内包含两路FP32、一路INT32和一路FP16：

但实际上Ada Lovelace的SM内部架构跟Ampere基本一致，仍然采用了FP32 FP32/INT32的双路流处理器设计。

这个设计其实很类似于CPU上面的执行端口，通过拓宽后端执行架构来获得更高的IPC提升性能，同时避免重复放置单元造成晶体管浪费。这个视角来看Ampere/Ada Lovelace类似于一个5执行端口的CPU，只不过其中一个发射端口可以发射FP和INT两种类型的指令。

对比之前Ampere 30系卡的架构图可以看到无论是在架构设计还是规模方面都几乎没有变化。跟帕斯卡时代的思路比较相似，GP100计算卡先引入了类似后面Volta/Turing的精度分离设计，而GP102/104/106之类的仍然采用纯FP32，只是在工艺方面做了换新升级，大幅度提高运行频率。好处就是架构一脉相承的话目前30系卡用户暂时不用考虑新驱动完全放弃老卡优化的问题，坏处就是想用上全新架构的话目测至少要等到50系了，毕竟制程红利这个东西目前越来越难蹭到，留一手给后续型号升级使用也是可以理解。

GPU架构层面倒是变化很大，最显著的就是中间巨大的二级缓存，满配AD102核心有96MB二级缓存，跟之前RDNA2上面的Infinity Cache作用应该类似，缓解在30系这一代就已经逐步出现的显存带宽不够用问题。可惜RTX4090上面用的AD102连二级缓存节点也一起阉割，实际可用的二级缓存只有72MB。

另外一个不太引人注目的细节就是，Ampere/Ada Lovelace架构的一级缓存是跟SM走的，每SM 128KB，完整的AD102核心拥有18MB一级缓存，相比GA102也有不小提升。可惜的是在RTX4090当中仍然是只有16MB可用。

制造工艺方面Ada Lovelace GPU采用的是TSMC 4N定制工艺，晶体管密度突破130MTr/mm^2，相比采用三星8nm工艺的AD102密度提升差不多有三倍。因此在塞入了差不多三倍数量的晶体管之后，GA102的核心面积跟AD102差不多，总感觉老黄还没使出全力，已经好久没在桌面端上见过像TU102那种面积超过800平方毫米的超大GPU核心了。

相比于流处理器单元的沿用，Ada Lovelace的光追单元倒是在功能和性能两方面都获得了巨大提升。

一个是把渲染目标的alpha通道即透明度信息引入光追运算，类似于户外的树叶这种多边形框架贴图的组件，现在只计算其边缘与入射光线的交互即可，贴图部分的复杂反射折射计算起来基本得不到什么肉眼可见的信息，不如直接采用光栅化渲染里的alpha通道方式。

DX11当中引入曲面细分之后，描绘物体表面凹凸使用的三角形数目大幅度增加，而对于光追来说这些三角形大部分都是不必要的——人们对于光照特效的感知远没有那么细，对于一个物体来说用一个大三角形把它包络进去进行光追计算，得到的结果也一样可以令人满意。

Ada Lovelace GPU可以创建这种简单的BVH，按NV官方的PPT它可以把构建简单BVH的速度提高十倍甚至九倍，但以上两项新技术都需要游戏引擎的针对开发，在目前的游戏当中看不出什么效果，对于目前的游戏来说，光追单元本身的性能提升相对来说显得更重要一些。

上面一行不起眼的独立单元也是这次Ada Lovelace的重要升级，包括了全新的硬件光流加速器、完整支持AV1编解码的NVENC/NVDEC。比较可惜的是PCIe接口仍然是4.0规格，想用到PCIe5.0的话，还是要等下一代了——不过应该对性能没什么大影响，反正这代也不支持SLI了，不用考虑拆分x8的问题，PCIe 4.0 x16的带宽完全足够。

还有个一笔带过的新特性就是乱序执行，GPU的架构越来越像CPU看齐了。不过我本来以为乱序执行能力是SM里带的（自己PPT上写的嘛），还在想这到底要消耗多少额外的寄存器（x86 CPU为了乱序执行有相当多的资源消耗在ROB之类的寄存器上面）。结果仔细一看是RT Cores支持SER（着色器执行重排），而且增加的专用寄存器数量并不多，主要使用Ada Lovelace新增的缓存——这不得不说也是个很讨巧的设计。

新特性

新特性方面这几天讨论比较多的应该就是DLSS3.0，最大的争议点在于除了以往插分辨率的实现方式之外新增了插帧，而插帧这个事情说实话在游戏圈有点恶名昭彰，前段时间个别“游戏手机”上搭载的“独显芯片”被恶评如潮，很大程度上就来自于对游戏这种延迟敏感型应用来说，插帧的体验实在是不佳。

不过就我自己玩了这几天的体验来看这个插帧用起来竟然还可以，当然也是有前提条件的，那就是游戏原生渲染的帧数不能太低，毕竟即便是专用的加速单元和运动矢量与光流混合处理也只部分解决了插帧的伪影问题，延迟再怎么降低也是需要1帧未来帧的数据，那么原生的1帧未来帧需要多久渲染就成为了影响DLSS FG延迟的最关键因素。所以这个技术我个人觉得适用的就是两方面，一个是官方所说的在CPU受限的情况下通过插帧来提升GPU的利用率，再一个就是锦上添花，让已经比较流畅的游戏变得更流畅。虽然在实现上令人耳目一新，但它确实没有DLSS2.x那种以不算高的代价让游戏从不能玩变成能玩的能力。当然了实际使用当中你也可以同时开启，不过有一说一各种DLSS组合的的体验和画质表现这个不是咱们图文的强项，可以看一下做得比较详细的首发视频，这部分内容的确非常适合用视频来对比展示。

公版卡开箱拆解与用料点评

接下来有请主角出场，RTX4090 Founders Edition（以下简称FE或者公版）。这次的公版在国内会发售国行，小伙伴们可以等10月12日晚9点开售之后在京东购买FE版本，以及明天会解禁的各种AIC非公版。

不得不说FE的包装和本体外观设计都很有个性，30系的公版没在国内发售导致很多人只能选择海外代购，这次对这种外观设计比较喜欢的用户可以试一试抢购国行了。

拆解，第一步需拆除背板并拧下X形夹缝内的所有螺丝，不过有意思的是这个背板是通过右边的一个卡扣固定的，不算很结实，跟前两天蓝厂的胶水黏相比感觉有点卧龙凤雏……

第二步把背板中框拿下来并断开PCB和散热器连接的排线，一共有三根，小心别弄坏了，依然是非常脆弱。

第三步拆除挡板上的六个梅花螺丝，这里不得不吐槽一句英伟达在这张卡上使用了两种刀口四种尺寸的螺丝，光来回换刀头都有够麻烦的。

然后把PCB拿下来就行了，整个拆解难度相比RTX30系列的公版低一些。

散热器采用纯铜均热板底座，6根8mm热管，前后双风扇。有意思的是显存散热底座采用波浪凹凸设计，还真是第一次见到。

接下来看一下PCB，PCB采用类似RTX3090Ti上的异形设计，不过排布稍有不同。供电部分空焊四相，可能是为了更高端的产品做准备。

GPU核心为AD102-300-A1，可以看到是工程样品。

显存为镁光Micron的GDDR6X颗粒，D8BZC MT61K512M32KPA-21，3090Ti同款16Gb 21Gbps。

供电MOS为美国芯源MP86957，每相可以提供70A的最大输出电流。

供电输入接口为 12VHPWR，拥有2路输入滤波。

背面除了电容电阻之类的器件之外最显眼的就是MP2891 PWM Controller，跟3090Ti上面也是相同方案。

另有一颗面积较小的uS5650Q供电监测芯片。

电源

这次RTX40系列全部采用12 4Pin的 12VHPWR电源端子，包括RTX4080系列也是强制要求使用，后续的4070、60系列也不排除全面推广。

上为传统的6 2Pin PCIe供电端子定义，下面是 12VHPWR的端子定义，对于广大非ATX3.0电源用户来说就只有转接一条路了，转接这个事情也有几种不同的方案。

第一个就是过渡期的准ATX3.0全模组电源，厂商会提供一根双8Pin电源端端子到 12VHPWR显卡端端子的模组线，8Pin端子里有三路有效的 12VDC输出，12VHPWR里有六组，两个接口正好一一对应。在端子质量过硬的前提下一个8Pin可以提供24A电流、288W的功率，两个端子576W，稍微超载一点即可达到 12VHPWR的最高规格600W功率。原厂提供的黑粗硬模组线在端子方面肯定能满足电气性能需求，但是定制线的话就不好说了。个人建议是最好不要上定制线，即使没办法必须用定制线也不要采用2个8Pin端子转接，当然也不排除后面定制线商家会推出加粗线缆和高质量端子，等过段时间可以关注下看看。

对于非模组电源来说就只剩下转接一条路了，之前3090Ti上面标配的都是3×8Pin转 12VHPWR转接线，但是这个线在使用当中出现了电流负载不均衡的问题，所以这一代附赠的转接线变成了4路8Pin转 12VHPWR。

具体的电流不知道怎么分配的，但是应该解决了负载不均的问题。然后就是关于插拔寿命的限制引起了部分人的担心，索泰在官方备注里说这个线的插拔寿命是30次，其实之前的8Pin端子设计插拔寿命差不多也就是这个数，30次之后倒不至于损坏，而是端子的夹力会降低导致接触电阻和端子发热增加出现一定的安全隐患。不过8Pin端子的设计负载电流比较低，损耗一点接触电阻不会怎么影响使用，而12VHPWR的设计负载高，端子发热也比较集中所以专门把这个问题提了出来。好消息是端子的夹片都在线缆端，显卡和电源的端子都是实心的接线柱可靠性高得多，实在担心这个问题，定期换线就好了，反正能在使用寿命内拔插30次显卡供电端子的用户应该也不多。

功耗方面这次也做了相应的改进，虽然电流的平均值提高了但是削峰平谷降低了峰值功耗，30系上的易触发电源电流保护问题应该也能得到一定程度的缓解。这次即使是AIC的卡也采用了统一的供电设计规范和料件，倒也不必为了这个专门去淘换FE版本。

测试平台简介

CPU：Core i9 12900K@5.5/4.0GHz

主板：某不能说的新品

内存：海力士A-DIE小绿条16GB×2 @ 7200C32 Gear2

电源采用华硕ROG Thor II 1600W，用自带的原装模组线接出最高600W功率上限的12VHPWR接口。Thor II电源也带有OLED小屏幕，可以实时监控系统的总输入功率。

顺便一提Thor II 1600W的输入端口也是16A的，以后书房里也要预留16A接口的时代到来力（悲

理论性能测试

还是先来看一下GPU-Z显示的规模信息，RTX4090 FE采用GA102核心，CUDA核数量从完整版的18432阉割到16384，其它单元也有不同程度的削减。

功率上限方面默认450W，但是可以解锁到600W，印象里公版卡给这么激进的 33%功率上限还是头一回，以往的FE都是扣扣索索的。

AIDA64 GPGPU Benchmark，值得注意的是测出来RTX4090的显存带宽高达2.3TB/s，很明显这是测试跑在二级缓存里了。FP32单精度算力方面RTX4090达到了88TFlops，相比RTX3090Ti确实是实现了翻倍。对应的INT32、AES256之类算力也差不多翻倍，不过SHA算力几乎不变，估计苦力性能也一样类似于3090Ti。

3DMark跑分系列方面确实跟之前传闻的差不多，Time Spy Extreme分数接近20000，相比RTX3090Ti提升65.9%，应该是近五年来最大的一次性能提升，毕竟好评如潮的帕斯卡系列，1080Ti相比980Ti的提升也只是35~40%左右。

光追性能的提升比传统性能更高一些达到了68%，另外就是DLSS，开启DLSS3插帧之后帧数并不是简单翻倍，由于需要消耗额外的资源，只能在DLSS2的基础上再带来33%左右的性能增益。

游戏性能测试

标题就来自这里，蠢驴1.6版本更新之后配置需求压力暴涨，看来这次是比尔先行于安迪一步，4090上来就不能彻底征服4K游戏了（

光追开启下4090相比3090Ti的实际帧数提升约56%，光追关闭时约35%。

2K下的提升幅度变小了，只有47/33%，换句话说2K分辨率下即使是如此强的CPU内存子系统也有一点不够用，等一波13代和Zen4 X3D吧。

不计算DLSS3（插帧）的情况下，4K分辨率RTX4090相对RTX3090Ti的性能提升如下：

4K分辨率平均游戏性能提升51.19%。

2K分辨率平均游戏性能提升38.06%。

功耗、散热与超频

我们采用3DMark Time Spy Extreme 20分钟耐久度测试，统计测试过程中的功耗、温度和风扇转速，最近降温了所以室温控制为20℃，采用开放平台测试，实际装箱使用的话温度会高一些。

FE这个散热器效能还是可以的，虽然只有双风扇但是几乎是现在显卡上除了猫头鹰A12x25之外尺寸最大的，满载完全可以在1500RPM以内将温度压制在60出头，此时基本上也听不到什么噪声，使用体验很好。至于功耗方面，由于NV没有解锁电压限制所以之前疯传的什么500W、600W功耗根本跑不到（单纯解锁功耗也跑不到，1.05V的电压限制非常死），实际检测的板上最大功耗只有427W，比3090Ti还要低一些。再考虑到平均50%左右的性能进步，这代确实是能效比大提升。

超频方面这代应该是继麦克斯韦之后最能超的一代，想想你有多久没在MSI Afterburener里给核心直接 300频率了。当然这张卡 300过不了测，体质好点的应该可以，实际在 280、显存24Gbps的状态下过测，此时Time Spy Extreme分数达到20584，相比默认状态下提升7.5%，最大功耗也来到了560W。

总结

终于来到了本次评测的尾声，相信大家看完之后对于4090的表现应该做到了心中有数。在更大规模更高频率的加持下4090确实有了明显的性能提升，实际4K游戏当中50%的性能提升幅度几乎是近几年来最大的一次，同时功耗不变甚至略有下降，能效比惊人。不过我们也可以发现一些问题，首先规模×频率几乎翻倍的状况下性能提升只有50%，这也意味着即便是增加了大容量缓存，显存带宽对于这种规模的核心来说仍然不够用，GDDR7甚至HBM下放游戏卡之类的方案显得迫在眉睫。再就是RTX4090相对于完整核心来说规模阉割有点严重，应该是历代首发大核心卡阉割幅度最大的一次，并且存在严格的电压限制使得所谓600W功率上限显得毫无意义。不过按照老黄一贯的精准刀法，这些应该都是给4090S/4090Ti甚至是泰坦预留的，接下来，应该还有更多的好戏可以看。

@溢图科技由几个不想躺平的老炮儿组成，主要内容包括手机、电脑、摄影器材、数码酷玩，期待您的关注与互动。