gtl区块链(英特尔与AMD的x86服务器战争编年史)

  gtl区块链(英特尔与AMD的x86服务器战争编年史)

不久前,英特尔正式发布了其第三代至强可扩展处理器(Xeon-SP)平台Ice Lake-SP(ICX)处理器,同时对外宣布,自从2017年推出第一款Xeon-SP 以来,英特尔向全球客户交货了超过5000万颗Xeon-SP处理器。从2013年开始,云端服务业者总计部署超过10 亿个Xeon 核心,超过800 家云端服务供应商导入了Xeon 处理器。

  


  

诞生于1998 年6 月29 日的Xeon,是英特尔第一个货真价实的服务器产品品牌,历经超过20年的光阴,更早已成为x86 指令集相容处理器,站稳服务器市场的龙头地位。

  


  


  

不过,作为英特尔的老对手,AMD在2003年到2017年间,也有针对服务器市场的产品Opteron,更曾在2003~2007 年这段期间,在服务器市场斩获颇丰,象征AMD在服务器市场最辉煌的黄金岁月。

  


  


  

如同在GPU 战场,对英特尔和AMD最重要的议题,在于能否重返高效能运算和人工智能应用,并摆脱软件生态系统远不如nVidia CUDA的困境。

  


  

在CPU领域,英特尔和AMD真正的决战焦点,绝非PC市场,而是可带来更高获利的服务器及数据中心市场,而英特尔这市场曾经拥有超过90%的占有率。

  


  

但很不幸的,英特尔却在今年第一季财报,上演英特尔财报出现“服务器毛利率低于个人电脑”的奇观(这应该是1998年Xeon品牌诞生以来首次)。对比之下,AMD则靠在服务器市场出色的战果,交出了年营收同比增长93%的漂亮财报。背后代表的意义,不言可喻。

  


  

接下来,我们就从服务器市场,重新审视英特尔和AMD那将近30年的服务器市场开拓史,并留给各位认真思考“”x86双雄的未来”。

  

经过超过25年的努力,英特尔和AMD携手建立x86指令集兼容的处理器,在今日数据中心与服务器器的主宰地位。昔日难登大雅之堂、只能屈居个人电脑的“吴下阿蒙”,突破众多“RISC诸神”(MIPS、SPARC、PA-RISC、Power、Alpha)建立的马奇诺防线,并让“RISC诸神的黄昏”成为众多“计算机组机结构正统教义派”和“RISC十字军”不愿面对的现实。

  

踏入时间轴之前,笔者先分别以“技术”、“商业”和“政治”的角度,剖析为何x86 走到这一步,然后未来又将面对哪些挑战。

  

第一个大议题:从“技术”的角度来看,x86 是怎么一步一步取得服务器市场的主导地位的?

x86 处理器在伺服器市场最重要的一天?

  

1995 年11 月1 日,英特尔发表P6 微架构的Pentium Pro,这是英特尔公司史上最重要的芯片,没有之一。

  

1990 年开始萌芽的当代高效能处理器微架构,有所谓的“4S指标”:超纯量(Superscalar)、超管线(Superpipeline)、多处理器延展性(Scalability)、系统管理能力(System Management) 。

  

Pentium Pro 是当时x86 处理器唯一兼顾4S 者,同期Cyrix 与AMD 均难以望其项背,且Pentium Pro 的整数运算效能,足以跟同期高阶RISC处理器分庭抗礼。至于浮点运算全面超车RISC阵营,是SSE2指令集诞生后的事了。

  

Pentium Pro 到底厉害在哪?

  

结合高效率的系统总线、改良后的内建式可程式化中断控制器(APIC)、丝毫不会浪费系统总线频宽的独立二级高速缓存,与处理器核心具备非顺序的存取能力,Pentium Pro 替x86 敲开服务器天堂的大门,让英特尔过了快7 年的好日子,直到被宿敌AMD 用名为K8 的大榔头(Hammer)狠狠敲醒为止。

  

哪一天x86 处理器奠定在服务器市场的坚实地位?

  

1998 年6 月29 日英特尔推出的Xeon 品牌,从此成为x86 服务器的象征,以及英特尔最重要的现金母牛(Cash Cow)。

  

依据英特尔的既定战略,服务器的大旗应由Itanium 一肩扛起,那为何失败?

  

因为英特尔一连串策略失误,加上缺乏对高端服务器市场的正确预判,让“64 位元真命天子”IA-64 指令集和Itanium 处理器,不得不消失在历史的洪流,也结束了英特尔企图消灭80x86 的野心。现在看来这伟大的“历史使命”,似乎落在ARM 阵营的肩上?

  


  

AMD 又是如何踏入服务器市场?

  


  

2002 年4 月24 日,AMD针对服务器市场发布了Opteron 品牌,刚刚好,微软也在同一天宣布即将推出x86-64 版Windows 操作系统。

  

骨灰级电脑玩家一定记得2001 年6 月5 日的Athlon MP,但源自Alpha 的EV6 系统总线,大幅提高做多处理器平台的门槛,基本上可谓无疾而终,很快就被Opteron 取代。

  


  


  

AMD的Opteron有何过人之处?

  

AMD K8 微架构从内到外的每个环节,几乎比照高阶RISC处理器设计,如果把K7 看成“x86世界的Alpha 21264”,那K8就是“穷人版的Alpha 21364”。

  

AMD K8 微架构的Hyper-Transport 系统总线、处理器整合内存控制器、更先进的MOSEI 快取资料一致性协定、强大的RAS(可靠性、可用性、可服务性)、与诸多节能特色等优势,为x86服务器带来前所未有的多处理器及多核心延展能力,毋须价高量少的特殊服务器芯片组,任何一家服务器厂商都可轻松打造“”四颗甚至八颗处理器的x86服务器”。

  

AMD K8 带领x86 进入64 位元的世界,彻底摧毁了中低阶RISC / Unix 服务器仅存的脆弱保护伞。K8成功大幅提升了AMD的市场影响力,让AMD在高效能x86 处理器技术领域,拥有足以和英特尔平起平坐的地位。Xeon 与Opteron 两大品牌双日争辉、兄弟登山各自努力,扩大x86 在服务器市场的版图。

  

那为何“RISC诸神”很快又一蹶不振,只剩下IBM Power 硕果仅存?

  

因为它叫“IBM”。

  

第二个大议题:就商业和政治角度,“x86 Everywhere”是怎么产生的?

天底下任何产品演进和市场发展,都是“技术”、“商业”与“政治”彼此交错影响的结果。x86 指令集相容处理器能够“淘汰”RISC 诸神,相较冷冰冰的技术,商业和政治因素更举足轻重。

  

1990 年代末期,x86 处理器逐步支配服务器市场的关键性因素:

  

  • Windows NT。
  • Linux(笔者私心想加上FreeBSD)。
  • 出货量持续激增的个人电脑市场。

个人电脑市场跟服务器又有什么关系?

  

1998年全球出货量突破“1亿”大关的个人电脑市场,成为英特尔和AMD长期维系半导体业界最先进制程与最庞大研发团队的基本盘,不仅对“RISC诸神”拥有压倒性成本优势,利用更多的晶体管数量,充分弥补 x86指令集的众多先天缺陷(Pentium比PowerPC 601多30%晶体管,只为了维持x86指令集相容性),更分摊天文数字般的产品研发开销。

  

RISC 指令集应该更容易打造能效更高的处理器,但到头来在服务器市场并不是这么回事?

  

这跟x86处理器在1990年代末期延伸到笔记本电脑,有根深蒂固的关联,尤其当英特尔为了Centrino量身订做Pentium M处理器,奠定“追求高能耗比”的长期发展方向后,服务器产品线也雨露均沾。2006年Merom微架构一统服务器、桌面PC和笔记本,更让Xeon产品线“强迫中奖”,让IBM Power和Oracle / Sun的SPARC相较之下,根本毫无优势。

  

这些年来,假如各位也有关心那票前仆后继、有一阵没一阵的“ARM服务器”,也势必会注意到,那些规格看起来很暴力的ARM处理器,怎么好像也没省电到那去?其实当处理器微架构的复杂度抵达“某条看不见的临界点”,“相对复杂又毫无道理可寻的”x86指令集带来的额外“赋税”也就不会那么明显了。

  

IBM 不是一直想推动Power Everywhere,为何难以成功?

  

因为IBM 自己也在做服务器,会有“既当裁判又当球员”的疑虑,这就是非常显而易见的政治因素。

  

谁能动摇x86 处理器在近代数据中心的主导地位?

  

唯有这票大型云端服务业者通通采用自研的自家专用的“非x86”(不见得是ARM,如Google 的TPU)处理器,否则将难以动摇x86 的地位。况且先进制程晶圆代工厂的产能,也是处于供不应求的紧绷状态,贸然放弃拥有大量自有产能的英特尔处理器,风险不能说不小。看看AMD 的缺货窘境就知道了,产品再好,出不了货也只是白费力气。

  

至于一般商用服务器市场,也是要等到ARM 在企业服务器应用的生态系统,成熟到连一般的MIS 都愿意采用,这之前讲再多都多余。

  

无论英特尔还是AMD,近代主流x86微架构都是“服务器、桌面PC、笔记本电脑”共用,那眼前的Xeon-SP 和EPYC,难道真是“100%服务器最佳化”设计吗?

  

这就是x86 指令集的原罪:超级长的产品开发及验证周期,强迫拥有巨大研发能量的英特尔和AMD,也只能将资源聚焦在极为少数的专案,也难以迅速应对新兴的应用需求,这就是ARM 等IP 授权商、EDA 工具软体和专业晶圆代工,会主导消费性产品芯片的主因。

  

这才是ARM 阵营在服务器领域的最佳切入点,但偏偏也只有“实际的使用者”才知道需要的产品规格究竟是什么,而他们却都有自己开发芯片的本钱。

  

最后,ARM 能在服务器市场引发迅速的“典范转移”吗?

  

  

坦白讲,怎么想都非常的困难,除非革命性的应用,像软件定义网路、网络功能虚拟化和25G+以太网络,让从1G迈向10G花了整整十年以太网络,只花不到3年就跑出一众Smart NIC,让整体数据中心应用架构出现颠覆性演化,要不然都是难如登天。也许大家可以多多关切 Nvidia企图发动的革命,以及云端巨头又有哪些风吹草动。

  

更何况英特尔和AMD 又不会躺着等死,一切都还还有得瞧。当然,AMD 自己带头做ARM 版EPYC 的话,那又是另一条截然不同的世界线了。

  

现在就让我们想像搭上时光机,回到世人对x86 的刻板印象,难以与“服务器”划上等号的古老年代。

  

1995~1998 年:英特尔发动的酝酿期

个人电脑普及化,带来更惨烈的价格竞争,1990 年代后期的英特尔和AMD 为了维持获利,投入服务器市场,实乃不得不为之 。在1994 年第一季,主频100MHz 的Pentium 可卖到“995 美元”(今天都足以组出一台顶配的台式机),只过个半年就要打7折了。

  

个人电脑出货量抵达1亿台历史新高的1998年,“600美元个人电脑”蔚为风潮,引爆低阶处理器的价格战争,导致英特尔的Celeron和 AMD的K6-2 大打出手,还“顺便”打垮一票x86处理器小厂(Cyrix、Centaur、Rise),入门级CPU的平均售价(ASP),更是下探到100美元。

  

Xeon 并非英特尔首次进军伺服器市场,第二代Pentium(P54C)内建支援双处理器组态的先进可程式化中断控制器(APIC),和Pentium Pro(P6)带来革命性处理器微架构与崭新系统平台,都是以功败垂成黯然收场的尝试。

  

好吧,200MHz Pentium Pro“胆敢”开价1,989 美元,也算很了不起的丰功伟业了。

  

反观那票从1980 年代末期开始,已经盘据伺服器市场已久的“RISC 诸神”,早就享受丰厚利润,以Sun 的UltraSPARC 为例,1998 年第二季,也是个人电脑市场的削价战杀声震天之际,360MHz 的UltraSPARC II模组,要价高达3,961 美元。

  

我们也知道,今天即使同样晶粒,封装印着不同品牌,价格就天差地远。AMD 还曾为了解释单处理器的Opteron 100 系列和桌面PC的Athlon 64 究竟有何不同,特别制作说明用简报,大意就是Opteron 用的晶粒品质比较好、验证项目比较多、微码(Microcode)修补bug 重点不同之类的。

  

这也是为何这些年来,连发迹于消费性电子产品的RISC指令集,像目前最普及的ARM,阵营也积极开拓服务器市场。x86处理器世界快没存在感的VIA也沉潜多年,推出目标5G边缘伺服器(MEC)的 CHA系统单晶片。充满神秘俄系血统的俄罗斯Elbrus,更在多处理器服务器领域耕耘已久,只为了让CPU不受制于“邪恶的美国帝国主义者”。

  

对技术有深度认知的读者,或多或少也了解,服务器用的CPU 不仅需要更好效能、出色的多处理器扩充性与效能延展性、更完备的高可靠性、滴水不漏的可用性,并搭配强大的系统晶片组和更高容量的系统内存。

  

但商业因素却远比技术门槛更严峻:英特尔和AMD 要如何说服企业客户,一家长期研制100 美元桌面型PC芯片等便宜货的厂商,有能力卖3,500 美元等级的服务器芯片,所以就像另外成立「豪华车专属品牌」的汽车厂商,英特尔必须创造Xeon 以区隔市场。英特尔的老对手AMD,于相容Alpha EV6 总线的Athlon MP 企图抢滩服务器市场失败之后,2002 年4 月24 日也借Opteron 之名,踏上一条殊途同归的荆棘之路。

  

1998~2001 年:Xeon 诞生的开创期

英特尔首要之务莫过于推出“一看就知道是服务器专用”的产品,巨大Slot-2“弹夹”就为此而生。

  


  

但英特尔并非只为了让Xeon看起来比较专业,才搞出这样的巨大塑胶盒,更为了应对更高容量的同核心频率的高速二级缓存,原先242只针脚的Slot-1无法满足供电需求,Slot-2扩展为330只,趁机塞入系统管理总线(SMBus),并将原生的多处理器支援性,恢复到Pentium Pro的4颗(Pentium II仅2颗)。此外,为确保四处理器时,系统总线可跑到100MHz,在英特尔拥有专利的GTL+之外,进一步引进AGTL+信号,在Pentium III世代再提升到133MHz。

  

“扩大内存容量”和“高速缓存的定址范围”也是另一场重头戏。为了突破32位元的4GB限制,除了Pentium Pro问世的PAE-36模式,Pentium II世代Xeon 追加“效能较低,但比较不需要修改软件系统”的PSE-36。Pentium II世代Xeon的L2缓存可涵盖到整个64GB可定址内存范围,不像早期的Pentium II有512MB或4GB限制。提高数据可靠度的ECC纠错,更是必备的制式武装。

  


  

如同低价电脑Celeron,Pentiun III时代后期的Xeon,随着制程技术的进步,逐步将外高速缓存塞回CPU本体。2001年3月21日登场的Xeon 900A,内建多达2MB的L2高速缓存,开启英特尔高容量高速缓存之先例。也难怪日后英特尔常被取笑:这家公司最大的业务不是CPU,而是制造高速缓存。

  


  


  

2001~2004年:Xeon的扩张期与AMD Opteron即将带来的风暴


  

英特尔2001年之后的Xeon产品线命名,完全拿掉Pentium字样,借此彻底摆脱个人电脑形象,也在这段32位元NetBurst微架构期间,确立了Xeon DP(双处理器)和Xeon MP(四处理器)分立的局面,也结束了Pentium II / Pentium III时期,桌面处理器可以同时插两颗的美好年代。要支援多处理器,请乖乖掏钱购买更贵的Xeon。

  


  


  

因服务器产品追求更高的可靠性和稳定性,导致验证时期较长,Xeon MP通常推出时程较晚,且主频也较低,也有更大容量的高速缓存。相较之下,Xeon DP比较像桌面处理器换成另一种封装产物。从NetBurst开始出现的xAPIC,将APIC的3位元专属总线,直接融入系统总线的通讯协定,避免APIC运作时影响记忆体存取效能,并将处理器核心上限激增到255个。

  


  

如同初代180nm制程Pentium 4被批评空有高主频,但部分效能不如前代Pentium III甚至AMD Athlon MP,初期的Xeon DP也被指责整体效能不及拥有2MB L2高速缓存的末代Pentium III Xeon,这问题到了130nm制程世代,主频大幅提升后,才渐渐消失。

  


  

此外,一般资深电脑玩家对英特尔的HyperThreading的初次登场,印象多半是2002年11月之后的130nm制程Pentium 4,但其实早在当年2月的130nm制程Xeon DP就问世了。对于多人多工作业的服务器来说,可改善整体输出率的同时多执行绪(SMT)技术,确实是天作之合。

  


  


  

更重要的是,英特尔以实际行动证实180nm制程的NetBurst核心,已经内建HyperThreading的谣传,2003年3月的Xeon MP就支持这“一颗当两颗用”的神秘功能。至今英特尔尚未透露为何初代Pentium 4要这样留一手,主因可能是个人电脑操作系统的多处理器支持性。

  


  

面对来势汹汹的AMD K8,英特尔在2003年9月,抢在Athlon 64和Athlon 64 FX前一周,发布将Xeon专用核心“下放”到桌面PC的Pentium 4 Extreme Edition,但仍然难以挽回颓势,也让2004年2月的90nm制程Pentium 4 Prescott产品定位,显得更尴尬。

  


  

Xeon MP一次连接四颗CPU的SMP系统总线,以及共用的内存控制器,成为明显的效能瓶颈,也突显AMD K8内建内存控制器与HyperTransport总线的绝大优势。在2003年4月22日,AMD Opteron的降临,让英特尔做了好几年恶梦,也让英特尔的处理器产品Roadmap,陷入了前所未见的极大混乱。

  


  


  

2003年:开启AMD全盛期的Opteron


  

英特尔跟HP合作的IA-64指令集与Itanium处理器,策略失当与出师不利,送给了AMD伺机杀入服务器市场的大好机会。相较于英特尔,AMD Opteron不仅享有压倒性的技术优势,其产品编号也极度的清晰易懂,可以想见“有备而来”的程度。

  


  

  • 1开头:单处理器
  • 2开头:双处理器
  • 8开头:多处理器(四颗或八颗)
  • 迈进DDR2内存后,编码变成x200,以此类推,2即代表“第二世代”。


  


  

加上当时正是x86服务器也需要直接定址超过4GB主内存的心理关键时刻,让AMD发布于1999年的x86-64指令集,因具备x86回溯相容性兼具倍增的缓存,变成很具吸引力的64位元方案。

  


  

2002年4月24日,AMD公布Opteron品牌,同一天微软也“很巧合”宣布将发行x86-64版Windows,让英特尔钦定的“64位元真命天子”Itanium处理器的未来,蒙上不祥的阴霾。

  

同时AMD其他K8产品线品牌的发表日期,这也代表着64位元x86指令集,逐步推广到其他应用领域的里程碑。

  

  • Athlon 64(桌面PC):2002年11月19日。
  • Sempron(低价产品):2004年6月7日。BBS连线硬体版戏称为“散步龙”,和英特尔的“洗地龙”(Celeron)相互辉映,唯一的共同点就是“散步”和“洗地”都象征“跑不快”。
  • Turion 64(笔记本电脑):2005年1月10日,笔者还依稀记得HP还是带头冲第一的笔记本电脑厂商。

AMD当时之所以能在短短两年就席卷伺服器市场,从英特尔手上硬抢下超过30%市场占有率,除了64位元,还有很多重要因素。

  

服务器等级的侦错容错机制:从ECC单位元纠错的L1缓存与L2缓存、预防内存多位元错误的Chipkill技术、Parity位元侦错的L1指令快取、巨大的转译后备缓冲区(TLB)、到回报系统错误的MCA(Machine Check Architecture)机能,都充分展现了AMD抢攻服务器市场的决心。

  

HyperTransport总线:Opteron直接提供点对点连接处理器的方式,比特币新闻不像英特尔的传统北桥架构,每个处理器都要共用有限的FSB频宽外,打造大型系统也需要昂贵复杂的芯片组、如桥接芯片,这让实作Opteron多处理器环境远比Xeon轻松。

  

也因此,大型Opteron多处理器平台享有比Xeon MP更短的研发时间,不仅成本比较低廉,效能和可靠度上更是毫无妥协,一度让AMD在四处理器以上x86服务器,曾有40%以上市占率。英特尔是到2008年的Nehalem有了QPI,才追上AMD。

  

高效率的高速缓存一致性协定(Cache Coherence Protocol):这对多处理器环境效能有着举足轻重的影响,而AMD的MOESI协定有极为出色的表现。

  

和处理器核心同频率的整合型内存控制器:多处理器环境变成CC-NUMA(Cache Coherence-Non Unified Memory Architecture)分散式内存架构,让Opteron整体内存效能,远胜过英特尔的系统前端总线(FSB)连接北桥(North Bridge)的架构。

  

整合式内存控制器让处理器数量越多,可扩增的内存容量也会更大。2005年,企业需要128GB主内存容量的服务器,采用Itanium的HP SuperDome要价4千万台币,但八颗Opteron的系统,如Sun X4600和Iwill H8501,每颗安装16GB内存,价格却仅十分之一,巨大优势不言可喻。

  

直冲原生双核心:当北桥内存控制器都位于在处理器晶粒之中,自然也不必担忧双核心至多核心的内部频宽与延迟问题。AMD打从2001年,就宣布让K8直奔原生双核心(请注意下图的CPU 0和CPU 1),更在2004年8月31日(2004年秋季IDF)就公开双核心样品,2005年4月准时登场,这是AMD x86处理器发展史上最重大的战略胜利。

  

K7演进而来的成熟微架构:K8是以K7为基础进行改良的产物,相较于同时期的英特尔NetBurst体系,也享有压倒性的低功耗。AMD在2002年2月26日(2002年春季IDF)首次展示单核心K8,隔年4月正式上市,屡次用较低的运行频率「屠杀」英特尔NetBurst体系的产品线。

  

强大动态分支预测和记忆体转译后备缓冲区:足以应付“分支密集且狂吃内存频宽”的服务器端应用软体的行为模式。

  

值得一提的是,因为K8的L1 / L2缓存“互斥”(Exclusive),AMD还利用“L1指令缓存的数据,被挤回L2时,L2的ECC形同浪费”(L1指令缓存只有Parity)特色,将分支选择器“偷放”在这个栏位,以增强分支预测器的容量,并兼顾效能与成本,堪称非常厉害的巧思,毕竟L1缓存被侦测到数据受损,顶多从内存重新撷取一次就好了。

  

2003年底上市的Opteron 848,售价高达3,199美元,这对过去只能在个人电脑市场跟英特尔打价格战的AMD来说,简直是连想都不敢想的梦。

  

2004年6月14日,AMD发新闻稿,昭告天下“我们已经设计完毕原生双核产品”,并大方摊开产品Roadmap给大家看。

  

2004年7月17日:Cray宣布将建造由10880颗Opteron构建出来的Red Storm超级电脑。

  

2004年8月23日:AMD与Newisys在IEEE HotChips 16发表Horus芯片组,这是AMD史上首款32处理器的大型系统架构(即使后来胎死腹中)。

  

2005年4月21日,AMD发布双核心的Opteron 800系列,领先英特尔的Core 2家族整整超过一年,堪称AMD公司当时最意气风发的时刻。

  


  


  

只不。

版权声明

本文仅代表作者观点,不代表本站立场。
本文系作者授权发表,未经许可,不得转载。

评论