推荐序一
第一次见作者是在2007年年中,他刚到平安科技入职。初次交谈,他给我**的印象是虚心好学,积极上进。当时为了提升团队整体的计算机专业水平,我们进行了约一年的内部相互学习和培训,重点放在计算机*底层的计算机组成和程序运行原理上。记得**次安排他做的培训题目是从软件破解的角度去了解计算机软件。他用了两周来学习和准备就可以大致讲明白编译运行类程序的内存布局和进行破解的方法。这种自学的激情和效率不是所有人都能做到的,正是这种好学上进的精神成就了今天的他。其实,要把计算机方面的工作做到极致,必须要有这种精神。
作者与我在一个IT团队共事五年,我们一起经历过系统运维一线的种种复杂而烦琐的工作:应用环境构建、问题应对、重大事故处理、运维管理……我们曾经通宵达旦地解决事故背后的疑难问题,曾经为解决运维中的资源管理、监控、自动化、工作协同等问题一起设计并开发运维工作平台。多年前,我们有一个想法:我们的团队亲身经历所获取的经验和教训,整理下来就是一本很好的书。一年前,作者提到自己准备写一本反映IT运维工作本源和真谛的书。当时觉得,IT运维工作者确实需要这样一本书。市面上的运维书籍多在讲解如何去使用某个软件或者系统,却很少提及如何面对多种多样的系统、软件、硬件,更谈不上从本质和道理层面上去讲解运维的本真。对于任何一个事物,如果我们掌握了它的本质,则应对起来会更加游刃有余。好比程序员读懂了Programming from ground up,OS管理员读懂了《计算机的心智——操作系统之哲学原理》,创业者读懂了《创业维艰》。虽然,现在本书把重点放在了PaaS,但多从计算机技术本质角度提出问题和解决问题,也算是回归了运维本真的思路。
IT运维有两种复杂度:一是应用规模大,一个应用要应对海量访问,例如上了规模的互联网运维;二是应用数量多,碎片化小应用特别多,例如大企业中大量的异构小应用和复杂的网络拓扑。这两种复杂度带来的问题总是让人头疼。面对这些复杂的问题,如何选择合适的技术和方法进行应用的快速构建、资源配置、信息管理、监控、操作自动化等,并没有一致的答案。要有答案,需要你充分考虑和分析所在环境的团队素质、外部资源支持、应用特点等因素。作者以自己的亲身工作经验为背景,对这些重要内容进行了讲解。
引用爱恩斯坦的一句话:Any intelligent fool can make things bigger, more complex, and more violent. It takes a touch of genius and a lot of courage to move in the opposite direction,意思是自命不凡的学者总会把事物变得更大、更复杂和更剧烈,而在相反方向上努力是需要不凡的天赋和极大的勇气的。
IT运维工作者,你懂的!
TechSure创始人兼CEO 温海波
2015年10月
推荐序二
云计算正在中国普及,在IaaS、PaaS、SaaS的三层服务里:IaaS的标准相对成熟;SaaS百花齐放、新应用层出不穷;PaaS作为衔接IaaS与SaaS的平台服务层,现在越来越受到人们的重视,专门提供PaaS的创业公司也越来越多了。
本书介绍了比较常见和重要的PaaS系统,包括基于容器的操作系统虚拟化技术Docker、分布式协调系统ZooKeeper、资源管理系统Mesos、服务调度框架 Marathon、大数据处理架构Spark、日志搜索分析系统ELK等。Docker、Mesos、Spark、ELK等系统在美国都有专门的创业公司如Docker、Mesosphere、Databricks、Elastic等知名公司在开发并提供技术支持服务,这些公司受到了风险投资界的追捧。更有专门的公司开发和维护这些系统,这是对其生命力和前途的背书。这些系统已经在业界得到广泛应用,每一位对云计算感兴趣的技术人员都应该了解这些系统。
以日志管理为例,一家公司的服务器、网络设备、应用系统每时每刻都在产生日志,大公司的IT系统可能每秒产生超过10万条日志,每天产生的日志量达到TB级。这些日志包含了极其重要的运维信息和业务信息,但分散在服务器和网络设备上,需要登录每台设备上查看,存储空间满了就被覆盖、删除,管理非常不方便。一些大公司建立了日志管理系统,把分散在各台设备上的日志采集上来,集中管理,并提供查询、分析、统计等功能。因为日志是非结构化数据,传统的使用数据库的处理方式不适合日志处理,于是出现了ELK这种采用实时搜索引擎处理日志的开源系统。本书详细介绍了ELK。
另外,本书也涵盖了数据中心运维技术和管理如配置、监控、变更等,对GAE、Cloud Foundry、Heroku等国外热门的PaaS也有介绍,对运维工程师大有裨益。
本书作者在平安科技从事运维管理工作多年,经历了平安科技从金融IT到互联网金融的转变。互联网强调快速迭代,金融IT强调稳定合规,能把这对矛盾体结合在一起,实属不易。作者在这方面积累了丰富的经验,现在把这些宝贵经验分享出来,是对IT运维界的贡献,希望本书能够对云平台运维工程师有所帮助。
日志易创始人兼CEO 陈军
2015年9月