序
与汪文祥老师相识源于2016年筹办全国大学生计算机系统能力大赛。彼时,以本科生开发CPU、操作系统、编译器为目标的系统能力培养教学改革已进入第10个年头。在教育部高等学校计算机类专业教学指导委员会(以下简称“教指委”)的大力推动下,在北京大学、北京航空航天大学、国防科技大学、南京大学、清华大学、上海交通大学、浙江大学、中国科学技术大学这8所系统能力培养示范高校的带动下,全国数十所高校加入教学改革的行列,系统能力培养逐渐成为计算机类专业教学研究与改革的热点之一。面对教学改革蓬勃推进的态势,一个关键问题摆在我们面前:如何检验教学改革后的学生能力培养成效?
在教指委的支持和指导下,经过深入考虑和多方调研,我们决定举办面向全国大学生的系统能力大赛,希望通过大赛来检验教学改革的成效,进一步推进教学改革,同时将企业融入人才培养的生态。这个想法得到了龙芯公司的积极响应,并指派汪老师加入大赛的技术组。
大赛从哪个环节开始呢?从技术来看,CPU是计算机系统乃至信息技术领域的基石。从产业的角度,如果我国有一大批熟知CPU等硬件系统原理与特性的人才,那么他们必将在我国信息技术产业中发挥重要作用。从教学改革成熟度的角度,CPU相关的教学改革历史久、体系全、影响大。从学生培养的角度,能做出CPU的学生必定是一流的学生,其专业基础与能力毋庸置疑,更重要的是这些学生有过做出CPU的“巅峰体验”,这势必极大地增强其挑战未来的信心与雄心。最终,我们决定于2017年先行启动CPU赛道,一定程度上这也是为其他赛道“探路”。
从2017年到2020年,连续四届大赛让我们看到了学生们对CPU设计的热情,他们的学习能力、工程能力与创新能力超乎我们的想象。更可喜的是,一些高校将系统能力大赛的技术方案融入课程教学中,实现了教学支撑竞赛、竞赛牵引教学的良性迭代。同时,我们也看到,参赛团队主要由本科二年级、三年级的学生组成。虽然他们具有极强的学习热情与能力,但无论从技术还是工程上,开发一个CPU对于他们来说都并非易事。
人才培养的核心要义在于普惠。因此,教育者必须努力寻找和构建一个适合绝大多数学生的技术路线,不仅要降低他们的学习曲线的陡峭程度,还应使他们能运用工程化的方法完成具有挑战性的成果。如何才能让更多仅学习和实践过有限的CPU知识的学生参与CPU设计呢?这就必须要进一步缩小教学与竞赛的难度差。
在我们技术组几位成员的“游说”下,汪老师勇挑重担,用了一年多的时间为零基础的读者编写了这本CPU设计实战之书。这本书的独特之处很多,印象最深的有以下几点:
1)对初学者非常友好。这本书从介绍工业界真实的CPU设计流程开始,一步步带领读者从单周期CPU设计逐步深入到流水线、添加指令、增加异常与中断的支持,并完成AXI总线接口、TLB MMU和Cache的设计,最终开发出一个入门级CPU。在此基础上还可以增加指令、运行Linux,进一步完善CPU的功能和性能。读者完全可以按照书中的指导设计出自己的CPU。
2)融入了很多工程经验。产品化的CPU开发要考虑很多工程因素、注意很多工程细节,这些知识通常在教科书中是不会讲到的。汪老师结合自己丰富的开发经验,在书中给出了很多提示和指引来帮助读者解决设计过程中那些看似不起眼但常常会困扰大家的问题。甚至对如何阅读、理解指令系统规范,汪老师也分享了自己的经验。对于读者来说,这些实践中的真知灼见不仅对于设计CPU是非常宝贵的,对于未来的工作也具有重要的参考价值。
3)适合作为计算机组成、体系结构相关课程的配套实践教材。汪老师长期兼任国科大本科体系结构课程的教师,深谙系统类课程实践教学中的痛点和难点。本书很多素材来源于汪老师在教学中的实践和思考。这套实践方案很好地将理论课程中离散的知识点熔接为一套系统化的知识体系,从而有助于提升教学的质量。
系统能力培养是计算机类专业的一次教育、教学改革的重大探索与实践。面对正在或即将开展系统能力培养教学改革的众多高校与任课教师,面对积极备战全国大学生计算机系统能力大赛的广大参赛选手,我们热切期盼更多志同道合之士加入这个行列,将更多优质的教学资源提供给广大学子。
祝各位阅读愉快!
高小鹏
北京航空航天大学
PREFACE
前 言
CPU,中文全称为中央处理单元,简称处理器,是现代电子计算机的核心器件。如果你想了解一台计算机是如何构建并工作的,那么深入了解CPU的设计非常有用。不过,这个美好的愿望是否会遭遇“骨感”的现实呢?毕竟一谈及CPU,大家马上想到的是英特尔(Intel)、超微半导体(AMD)、苹果(Apple)、安谋(ARM)、高通(Qualcomm)这些国际知名公司生产的产品,进而认为CPU设计是一件遥不可及的事情,普通学习者要想掌握它简直就是天方夜谭。
那么CPU设计到底难不难呢?实话说,要做出具有世界一流水平的产品确实不容易。别看CPU个头不大,它却是一个复杂度极高的系统。设计CPU挑战的是一个团队进行复杂系统工程研发的能力。不过,从20世纪60年代第一款CPU问世至今,CPU设计所涉及的基本技术已经很成熟了。同时,自动化设计工具的水平也有了大幅度提升。普通学习者想在CPU设计领域初窥堂奥,不再是无法实现的梦想。
本书作者在给新入行的工程师进行培训以及给高校学生授课的过程中,得到的反馈却并不乐观。对于大多数新手来说,设计一个入门级的CPU还是很有难度的。结合我们在研发工作中的成长经历,以及在培训和教学过程中获得的反馈,我们认为最大的难点在于设计一个CPU需要综合掌握多方面的知识,而初学者往往在“综合”这个环节遇到了困难。毫不夸张地说,对于设计一个入门级CPU所需要的各方面知识,我们都能找出很多优秀的教材、讲义、论文、代码。如果仅仅把这些资料交给一个初学者,让他通过自学这些资料来设计CPU,那么能把CPU设计出来的只有少数“悟性高”的人。我们都知道,一个国家要想提高某项体育运动的水平,关键的因素是从事该项运动的人数足够多。同理,要想在信息技术的核心领域做到世界一流,没有一大批“懂行”的技术开发人员是很难实现的。面对当前急需芯片开发人才的形势,要想在短时间内培养出大量行业急需的高素质人才,仅仅指望学习者自身“悟性高”是行不通的,需要找到行之有效的学习和训练方法。
本书作者所在的龙芯团队自主研发CPU产品近20年,在CPU设计方面积累了丰富的实战经验。在本书中,我们将结合自身的研发实践,尽可能深入浅出地介绍如何从零开始一步步设计出一个入门级的CPU,以及在这个过程中应该掌握哪些知识、遵守哪些设计原则、规避哪些设计风险、使用哪些开发技巧。我们希望这些从工程实践中总结的经验能作为高校课程教学中知识讲授环节的有益补充,帮助更多初学者更快、更扎实地掌握CPU设计的知识,具备CPU设计能力。
本书的内容安排
本书分为三个部分。第1~3章为第一部分,介绍业界进行CPU研发的过程以及硬件/云端平台、FPGA设计、Verilog等CPU设计中必要的基础知识。第4~10章为第二部分。在第二部分,我们从设计一个简单的单周期CPU开始,逐步引入流水线设计,添加指令,增加例外和中断的支持,并完成AXI总线接口、TLB MMU和高速缓存(Cache)的设计与实现,最终完成一个入门级CPU的设计。这样一个处理器核已经不再是用来玩“过家家”游戏的玩具,而是一个能够满足绝大多数实际的嵌入式应用场景需求、可以运行教学用的操作系统的真实产品。第11章为第三部分,在这里,我们会对一些进阶设计内容给出建议,例如会介绍如何在第二部分完成的产品基础上添加少量的指令和功能,再在CPU上运行Linux内核。
各章的内容简要介绍如下。
第1章介绍CPU芯片产品的研发过程,使读者对CPU产品开发的全过程有初步的认识和了解,为后续各章的学习奠定基础。
第2章介绍硬件实验平台及FPGA设计流程,包括“龙芯CPU设计与体系结构教学实验系统”硬件实验平台的介绍,以及FPGA的一般设计流程和基于Vivado工具的FPGA设计流程。
第3章介绍数字逻辑电路设计。这一章会结合CPU的实际设计开发工作,对如何使用Verilog代码进行数字逻辑电路设计给出建议,并给出CPU设计中常用的数字逻辑电路的可综合Verilog描述。此外,这一章还会介绍数字逻辑电路功能仿真中常见的错误及其调试方法。对于缺少电路仿真调试经验的初学者来说,这部分内容具有很好的指导作用。
第4章介绍简单流水线CPU设计。这一章将从一个支持19条指令的单周期CPU设计开始,先讨论如何将其改造成不考虑相关冲突的流水线,然后考虑用阻塞解决相关冲突,最后引入数据前递设计。在介绍设计方法的同时,这一章还对书中所采用的实验开发环境进行介绍,并讲解相关的仿真调试技术。
第5章介绍如何在流水线CPU中添加运算类指令。主要内容包括如何在第4章完成的简单流水线CPU基础之上添加算术逻辑运算类指令、乘除法运算类指令,以及乘除法配套的数据搬运指令。
第6章介绍如何在流水线CPU中添加转移指令和访存指令。主要内容包括如何在第5章完成的CPU基础之上添加条件分支、间接跳转和Link类转移三类转移指令,以及添加对齐与非对齐访存指令。
第7章介绍例外和中断。这一章首先对例外和中断的基本概念,以及MIPS指令系统中的例外和中断的定义进行简要的梳理,然后介绍如何在第6章完成的CPU基础之上添加对于例外和中断的支持。CPU有了这两部分的支持之后,就可以运行一些简单的嵌入式操作系统了。
第8章介绍AXI总线接口设计。这一章首先对完成CPU设计所需要的AXI总线协议的相关内容加以回顾,然后通过实现类SRAM总线接口、实现类SRAM-AXI转接桥、集成类SRAM-AXI转接桥三个阶段性任务来完成CPU中AXI总线接口的添加。
第9章介绍TLB MMU的设计。这一章首先对TLB相关的知识点进行梳理,然后通过TLB模块的设计实现、TLB相关CP0寄存器与指令的实现、将TLB模块集成到流水线中完成虚实地址转换功能并支持TLB例外这三个阶段性任务来完成整个TLB MMU的设计。
第10章介绍高速缓存(Cache)设计。这一章只介绍最简单的Cache设计,其设计任务同样被分解成Cache模块设计、Cache模块集成、CACHE指令支持三个循序渐进的阶段性任务。
第11章就一些进阶设计问题给出我们的建议,主要涉及启动内核需要补充哪些设计、如何进一步提升主频、如何进行超标量设计、如何设计动态调度机制、如何设计转移预测器、如何优化访存性能、如何设计动态调度机制以及如何添加多核支持。
本书的附录分别对本书案例相关的开发板、Vivado的安装与进阶使用、MIPS指令系统规范、在线调试等内容进行了补充介绍。
可以看到,本书主体内容是围绕着一系列进阶任务展开的。在第二部分的每一章中,都会给出有针对性的任务,同时给出与之对应的知识点与设计建议。完成本书各章“任务与实践”部分所需资源可登录华章网站(www.hzbook.com)下载。我们希望读者在时间和精力允许的情况下,先尝试根据自己的想法完成设计任务,有了自己的深入思考和亲身实践后,再来看书中给出的讲解,相信会有不一样的体会,正所谓“不愤不启,不悱不发”。之所以推荐这种比较“虐”自己的学习方式,源于作者在长期的研发工作中得到的一个感悟:好的工程师是bug“喂”出来的。对于CPU设计与开发这种工程性、实践性极强的工作来说,眼观千遍不如手过一遍。前辈们千叮咛、万嘱咐不要犯的错,非要自己错过一次才能刻骨铭心;教科书上、论文中已经写得清清楚楚的设计思路,只有自己在设计的路上碰壁无数次之后才会有如获至宝的欣喜。要想真正进入CPU设计的大门,仅仅靠坐在图书馆里看书几十个小时是远远不够的,它需要走路、吃饭甚至是睡觉的时候都在思考如何设计的那种“为伊消得人憔悴”,更需要通宵达旦调试的那份执着与坚持。
致谢
本书的写作得到了作者所任职的龙芯中科技术有限公司的大力支持。正是在多个部门的众多同事的帮助之下,我们才能从零开始写完本书并完成了所有的实验任务的开发。在此感谢他们对本书无私的支持!特别感谢龙芯公司芯片研发部IP组的全体同事、通用事业部和教育事业部的同事们,没有他们的辛勤付出,本书将无法面世。
我们非常感谢教育部高等学校计算机类专业教学指导委员会、系统能力培养教学研究专家组、机械工业出版社华章分社的各位专家和老师,感谢所有致力于我国大学生计算机系统能力培养的老师们,正是他们的满腔热情和不懈努力激励着我们写出这本书。我们衷心希望这本书能为我国大学生计算机系统能力培养事业尽一份绵薄之力。
我们还要特别感谢中国科学院大学参与计算机体系结构研讨课的同学们,以及历届“龙芯杯”全国大学生计算机系统能力培养大赛的参赛选手们,他们的反馈让这本书的内容更加充实和完整。
由于CPU设计和开发工作体系庞大、内容繁多,尽管我们已经尽力展现其中的核心内容,但难免有挂一漏万之处,恳请各位老师和读者批评、指正。
作者