2022年我们经历了新型冠状病毒感染的反复无常、国际形势的瞬息万变,也感受了冬季奥运会的中国式浪漫,希望一切都朝着好的方向发展,一起向未来。回首整个书稿撰写历程,有对章节内容安排的困惑、对案例选择的迷茫; 也有团队协作的喜悦、内容逐步明晰的踏实。
计算机视觉(Computer Vision,CV)主要研究如何用机器来代替人类的眼睛和大脑实现对真实世界的“观察”和“理解”。在深度学习网络模型不断发展的同时,互联网上的图像数据规模有了爆发性的增长,图形处理单元(Graphic Processing Unit,GPU)性能也飞速提升,三者合力为人类带来了一场席卷全球的计算机视觉深度学习热潮。在学术界,人脸识别、目标检测等相关任务的算法得到了很好的理论优化; 在产业界,由深度学习驱动的计算机视觉已经广泛应用于智慧城市建设、医疗健康、电商与实体零售、无人驾驶等各类场景,逐步成为计算机视觉行业的支撑力量。
本书将计算机视觉及深度学习的理论基础与代码实践相结合,可以作为计算机视觉相关任务实践教程,也可以作为科研工作者的参考图书。本书内容涵盖各类计算机视觉任务的深度学习模型、案例实践基本流程和步骤。通过本书,读者可以掌握计算机视觉处理的基本概念、评价指标,熟悉视觉处理任务的具体实现过程。
全书共分为12章,分为理论篇与实战篇两部分。
部分为理论篇(第1~4章),首先梳理了计算机视觉技术的发展历程、主要任务、行业应用系统和常用处理工具; 其次详细介绍了目前比较流行的深度学习开发框架,重点介绍了飞桨(PaddlePaddle)开发平台的构成与入门基础; 然后介绍了深度学习中需要掌握的基础知识与网络模型架构; 后通过简单的模型搭建案例,让读者能够轻松地入门飞桨平台。
第二部分为实战篇(第5~12章),每章分别对应计算机视觉领域中不同的经典任务,并且结合各个视觉任务的任务要求与技术发展,对其中经典的深度学习算法模型进行介绍。然后,详解了在飞桨开发框架下各算法模型的实现过程,让读者能够快速地从基础入门到熟练掌握。各章节的内容都采用理论与实践相结合的方式,在模型介绍的基础上,结合具体案例提供了相应的实现代码,在百度飞桨AI Studio上进行部署和运行,链接详见配套课件。读者在阅读本书的同时,可以进行代码实战,加深对计算机视觉任务的深度学习理论及模型的理解。
在国家“新一代人工智能发展规划”的重大战略指导下,计算机视觉技术迎来了前所未有的机遇与发展。本书编写的初衷是推动计算机视觉技术的教育,以及为深度学习平台自主性、国产化贡献一份力量。
本书由来自北京航空航天大学和百度公司的几位多年从事计算机视觉科研和教学的工作者共同编写完成,书中的内容和结构安排经过了我们团队多轮讨论和审定,实战案例及相关代码来源于百度飞桨社区和作者相关的科研实践。
参与本书编写的有张磊、李宏、王瑜、王麒雄、李森、姜鸿翔、魏晓东、胡宇韬、吴承曦、于阳、洪友勰、张可昕、于子淇、武东锟、楚天彤、肖雄。
本书在编写过程中,参考了国内外大量图书和论文,在此对本书所引用论文和图书的作者深表感谢。同时,感谢飞桨社区的luplup、月影知星辰、nanting03、自尊心3、ZMpursue、PaddleVideo、GTZhang以及Gitee平台的dongshuilong,感谢你们为飞桨框架下的代码做出的贡献; 感谢飞桨团队程军、吕健、吴蕾对书中实战案例与相关代码的审核和编写建议; 感谢百度公司马婧对本书撰写过程中所有事务的处理。
后,感谢北京航空航天大学宇航学院的刘博老师、深圳市塞外科技有限公司的黄明先生,感谢你们百忙中对本书撰写的指导和建议,虽然书稿还存在不足之处,但你们让它变得更好!
作者2022年9月