当前位置:首页 > 科技  > 软件

如何向面试官证明你做的系统是高可用的?

来源: 责编: 时间:2023-10-28 16:30:33 529观看
导读通常,面试官在评估你的系统架构设计能力时,经常会要求你分享在上一家公司如何设计系统架构,以便了解你的设计能力和思维过程。在解释架构设计时,你会逐步向面试官证明自己负责的系统如何实现高可用性。这需要涉及一个公认

通常,面试官在评估你的系统架构设计能力时,经常会要求你分享在上一家公司如何设计系统架构,以便了解你的设计能力和思维过程。i6D28资讯网——每日最新资讯28at.com

在解释架构设计时,你会逐步向面试官证明自己负责的系统如何实现高可用性。这需要涉及一个公认的指标 - 服务水平协议(Service-Level Agreement,SLA)。服务水平协议是由服务提供者和用户双方签订的合同或协议,规定了双方的商务关系或部分商务关系。简单来说,SLA是衡量服务可用性的一个重要指标。i6D28资讯网——每日最新资讯28at.com

业界通常使用"几个9"的标准来衡量互联网应用的可用性。例如,京东的可用性是四个9(99.99%)。这意味着京东的服务承诺在所有运行时间中只有0.01%的不可用时间,也就是说一年中只有大约52.6分钟不可用。这个99.99%被称为系统的可用性指标。i6D28资讯网——每日最新资讯28at.com

52.6 分钟是怎么计算出来的呢?i6D28资讯网——每日最新资讯28at.com

图片图片i6D28资讯网——每日最新资讯28at.com

从公式中可以看出, SLA 等于 4 个 9,也就是可用时长达到了 99.99% ,不可用时长则为是0.01%,一年是 365 天, 8760 个小时,一年的不可用时长就是 52.6 分钟,那么:i6D28资讯网——每日最新资讯28at.com

SLA 等于 3 个 9,就相当于一年不可用时长等于 526 分钟;i6D28资讯网——每日最新资讯28at.com

SLA 等于 5 个 9,就相当于一年不可用时长等于 5.26 分钟。i6D28资讯网——每日最新资讯28at.com

可以发现,用 SLA 等于 4 个9 作为参照物,少个 9 相当于小数点往后移一位,多个 9 相当于小数点往前移一位(我把系统可用性指标总结成一张表格)。i6D28资讯网——每日最新资讯28at.com

图片图片i6D28资讯网——每日最新资讯28at.com

案例分析

在评估系统的高可用性时,仅仅按时间指标度量是不够的。因为在互联网公司,低峰期和高峰期对业务的影响是不同的,这需要综合考虑。你可以采用以下方法来回答关于高可用性的问题:i6D28资讯网——每日最新资讯28at.com

  1. 度量方式的选择:首先介绍两种主要的度量方式,即"几个9"的概念和影响请求量占比的方式,解释它们的优缺点。
  2. 综合考虑:强调在实际业务中,综合考虑两种度量方式更有利于全面评估高可用性。举例说明在不同时间段停机对业务的不同影响。
  3. 科学性和实际性:说明使用请求量占比来评估高可用性更科学,因为它更直接地关联到业务损失。然后,结合实际业务场景,展示你的思考和决策,以体现你的实践经验和专业性。
  4. 闭环思路:提到"可评估"、"可监控"和"可保证"的思路,强调了综合性的方法,不仅仅依赖于理论概念,还需要实际的措施来确保高可用性。

案例解答

我们可以通过设计一个监控系统来保证系统服务SLA达到四个9,这个监控系统可以分为三个核心部分:基础设施监控报警、系统应用监控报警,以及存储服务监控报警。通过这个监控系统的设计,我们可以更好地了解哪些环节对整个系统的可用性产生影响,这将帮助我们在面试中更清晰地展示系统高可用性设计的理念。i6D28资讯网——每日最新资讯28at.com

基础设施监控i6D28资讯网——每日最新资讯28at.com

监控报警指标分为两种类型。i6D28资讯网——每日最新资讯28at.com

系统要素指标:主要有 CPU、内存,和磁盘。i6D28资讯网——每日最新资讯28at.com

网络要素指标:主要有带宽、网络 I/O、CDN、DNS、安全策略、和负载策略。i6D28资讯网——每日最新资讯28at.com

为什么我们要监控这些指标?因为它们是判断系统的基础环境是否为高可用的重要核心指标。i6D28资讯网——每日最新资讯28at.com

图片图片i6D28资讯网——每日最新资讯28at.com

i6D28资讯网——每日最新资讯28at.com

监控工具有一些常见的选择,它们可以帮助你有效地监控系统的性能。这些工具包括:i6D28资讯网——每日最新资讯28at.com

  1. ZABBIX:这是一个开源的监控系统,非常流行且具有广泛的资料支持。它可以监控系统的各种关键指标,如CPU使用率、内存、磁盘、网络带宽等。
  2. Open-Falcon:由小米开源的监控系统,受到小米、滴滴、美团等公司内部的广泛应用。它也可以监控各种基础设施指标。
  3. Prometheus:这是另一个开源的监控系统,特别擅长支持Kubernetes(K8S)环境的监控。它也可以监控CPU、内存、磁盘、网络等指标。

这些工具提供了丰富的监控功能,可以帮助你监测系统的各个方面,从基础的CPU和内存使用到更高级的K8S监控。此外,你还可以结合运营商提供的监控平台,以覆盖整个基础设施监控的需求。i6D28资讯网——每日最新资讯28at.com

监控报警策略一般由时间维度、报警级别、阈值设定三部分组成。i6D28资讯网——每日最新资讯28at.com

图片图片i6D28资讯网——每日最新资讯28at.com

为了帮助你更好地理解监控报警策略,让我用一个例子来说明。假设我们正在监控一个系统的CPU、内存和磁盘使用情况,监测的时间间隔是每分钟,并且我们设置了一些占比的阈值。基于这些条件,我们可以制定以下监控报警策略:i6D28资讯网——每日最新资讯28at.com

图片图片i6D28资讯网——每日最新资讯28at.com

为了第一时间监测到指标的健康度,报警级别可以分为紧急、重要,以及一般。当 CPU、内存,以及磁盘使用率这三项指标的每分钟采集的指标达到 90% 使用率时,就触发“紧急报警”;达到 80% 触发“重要报警”;70% 触发“一般报警”。i6D28资讯网——每日最新资讯28at.com

系统应用监控i6D28资讯网——每日最新资讯28at.com

业务状态监控报警是关注系统自身状态的监控报警,与基础设施监控类似,它也由监控指标、监控工具和报警策略组成。不同之处在于,系统应用监控报警的核心监控指标主要包括以下6个关键指标:流量、耗时、错误、心跳、客户端数和连接数。用于实现这些监控指标的工具包括CAT、SkyWalking、Pinpoint、Zipkin等。i6D28资讯网——每日最新资讯28at.com

图片图片i6D28资讯网——每日最新资讯28at.com

i6D28资讯网——每日最新资讯28at.com

存储服务监控

一般来讲,常用的第三方存储有 DB、ES、Redis、MQ 等。i6D28资讯网——每日最新资讯28at.com

在面试中,当回答关于监控和保障系统可用性的问题时,可以结合三个核心监控部分(基础设施监控、系统应用监控、存储服务监控)来阐述你的全局监控视角,强调你的设计思路。例如,你可以这样回答:i6D28资讯网——每日最新资讯28at.com

"为了确保系统的可用性和稳定性,我设计了一套综合性的监控体系,用于在生产环境中对系统进行全面监控。这包括基础设施、系统应用和存储服务的监控。具体的监控指标和细节可以根据实际业务场景进行定制,比如在游戏领域,我们更关注流量和客户端连接数等关键指标。这种综合性的监控系统有助于我们迅速发现潜在问题并及时采取措施来维护系统的高可用性。"i6D28资讯网——每日最新资讯28at.com

当面试官进一步追问如何应对线上告警时,你可以回答:i6D28资讯网——每日最新资讯28at.com

"当面对线上告警时,我会迅速响应,并根据告警的严重性采取相应的措施。首先,我会查看告警的详细信息,分析问题所在,以确定是否是假警报或真实问题。如果是真实问题,我将根据事先设定的报警策略来通知相关团队成员。然后,我们会在团队内部协作,采取紧急措施来解决问题,包括故障排查、系统恢复和监控指标调整等。一旦问题得到解决,我会进行事后分析,以确保我们可以从中吸取教训,以防止未来类似问题的发生。总之,我会尽最大努力确保系统的高可用性,同时确保及时有效地响应和处理告警情况。"i6D28资讯网——每日最新资讯28at.com

这种回答方式突出了你对全局监控和紧急事件处理的理解,以及你的责任感和应对危机的能力。i6D28资讯网——每日最新资讯28at.com

对于线上故障,要有应急响应机制,我总结以下几点供你参考:i6D28资讯网——每日最新资讯28at.com

图片图片i6D28资讯网——每日最新资讯28at.com

总结

  1. 系统高可用评估:在面试中,我们学习了如何评估系统的高可用性,强调了以停机时间对系统请求量的影响作为科学评估指标。
  2. 监控系统设计:了解了设计监控系统时的三个核心要点,包括基础设施监控、系统应用监控和存储服务监控。这有助于确保线上服务的稳定运行。
  3. 故障处理:强调了故障处理是进阶过程中不可或缺的经历,面试官也特别重视这个能力。对于不同类型的故障,建议形成一套体系化的知识框架来处理。

图片 图片 i6D28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-26-15584-0.html如何向面试官证明你做的系统是高可用的?

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: Next.js 14 正式发布,更快、更强、更可靠!你Get到了吗?

下一篇: 微服务Saas如何做私有化部署

标签:
  • 热门焦点
  • 对标苹果的灵动岛 华为带来实况窗功能

    继苹果的灵动岛之后,华为也在今天正式推出了“实况窗”功能。据今天鸿蒙OS 4.0的现场演示显示,华为的实况窗可以更高效的展现出实时通知,比如锁屏上就能看到外卖、打车、银行
  • 小米平板5 Pro 12.4简评:多专多能 兼顾影音娱乐的大屏利器

    疫情带来了网课,网课盘活了安卓平板,安卓平板市场虽然中途停滞了几年,但好的一点就是停滞的这几年行业又有了新的发展方向,例如超窄边框、高刷新率、多摄镜头组合等,这就让安卓
  • 从 Pulsar Client 的原理到它的监控面板

    背景前段时间业务团队偶尔会碰到一些 Pulsar 使用的问题,比如消息阻塞不消费了、生产者消息发送缓慢等各种问题。虽然我们有个监控页面可以根据 topic 维度查看他的发送状态,
  • 19个 JavaScript 单行代码技巧,让你看起来像个专业人士

    今天这篇文章跟大家分享18个JS单行代码,你只需花几分钟时间,即可帮助您了解一些您可能不知道的 JS 知识,如果您已经知道了,就当作复习一下,古人云,温故而知新嘛。现在,我们就开始今
  • 重估百度丨“晚熟”的百度云,能等到春天吗?

    ©自象限原创作者|程心排版|王喻可2016年7月13日,百度云计算战略发布会在北京举行,宣告着百度智能云的正式启程。彼时的会场座无虚席,甚至排队排到了门外,在场的所有人几乎都
  • 阿里大调整

    来源:产品刘有媒体报道称,近期淘宝天猫集团启动了近年来最大的人力制度改革,涉及员工绩效、层级体系等多个核心事项,目前已形成一个初步的“征求意见版”:1、取消P序列
  • 阿里瓴羊One推出背后,零售企业迎数字化新解

    作者:刘旷近年来随着数字经济的高速发展,各式各样的SaaS应用服务更是层出不穷,但本质上SaaS大多局限于单一业务流层面,对用户核心关切的增长问题等则没有提供更好的解法。在Saa
  • 2纳米决战2025

    集微网报道 从三强争霸到四雄逐鹿,2nm的厮杀声已然隐约传来。无论是老牌劲旅台积电、三星,还是誓言重回先进制程领先地位的英特尔,甚至初成立不久的新
  • iQOO 11S或7月上市:搭载“鸡血版”骁龙8Gen2 史上最强5G Soc

    去年底,iQOO推出了“电竞旗舰”iQOO 11系列,作为一款性能强机,iQOO 11不仅全球首发2K 144Hz E6全感屏,搭载了第二代骁龙8平台及144Hz电竞屏,同时在快充
Top