完善资料让更多小伙伴认识你,还能领取20积分哦, 立即完善>
容器故障检测系统 CPDS (Container Problem Detect System) 是由 北京凝思软件股份有限公司 (以下简称“凝思软件”)设计并开发的容器集群故障检测系统,该软件系统实现了对容器TOP故障、亚健康状态的监测与识别。 2022年11月,凝思软件正式将该项目开源至openEuler社区。 背景介绍: 随着近几年企业数字化发展浪潮及云原生技术的普及,低时延和高并发的线上场景频繁出现在企业日常经营中,业务创新的需求也在倒逼企业不断运用新兴技术手段。现如今,容器技术被广泛应用于人工智能、大数据、边缘计算等场景,作为轻量化的计算载体,为更多的场景赋予高度的弹性与敏捷性。 业务规模的增长,容器集群规模不断扩张,IT运维压力也成比例增大。各种软、硬件故障而造成的业务中断,成为稳定性影响的重要因素之一。目前业内对容器集群故障的检测方案主要基于集群组件状态检测、服务入口监控、自定义接口检活等,具有一定的局限性,难以对服务的亚健康状态进行检测与识别。处理方式也缺乏故障的诊断与执行策略的制定,难以处理一些关键、核心故障。 针对目前云原生领域存在的问题,凝思软件(LINX SOFTWARE)发起了CPDS(容器故障检测系统)开源项目,该项目开发的系统实现了对容器集群的故障检测、诊断与策略执行,解决了行业内的一个核心痛点问题。 技术路线: 容器集群异常总体为三大类,即:集群基础服务异常、集群OS异常、业务服务异常。
系统架构: CPDS系统技术架构如下图所示。其中信息采集模块通过节点、容器信息采集程序从集群基础服务、集群系统、业务容器服务等多层面进行关键数据采集,并上报异常检测模块;异常检测模块完成数据预处理后基于异常规则对采集数据进行异常检测,完成后将检测结果数据进行上传诊断模块;诊断模块基于诊断规则进行节点、业务容器的故障/亚健康诊断,并通过用户交互模块进行可视化诊断结果展示。 未来规划: CPDS由CloudNative SIG进行开发维护,计划在23年下半年发布第一个R版本,提供对openEuler-22.03-LTS的支持。 |
|
相关推荐
|
|
只有小组成员才能发言,加入小组>>
6个成员聚集在这个小组
加入小组Native Memory Tracking 详解(2):追踪区域分析(一)
16934 浏览 0 评论
15045 浏览 0 评论
16918 浏览 0 评论
15863 浏览 0 评论
openEuler 资源利用率提升之道 04:CPU 抢占和 SMT 隔离控制
22857 浏览 0 评论
Native Memory Tracking 详解(4):使用 NMT 协助排查内存问题案例
955浏览 0评论
openEuler社区开源项目:CPDS(容器故障检测系统)介绍
673浏览 0评论
1042浏览 0评论
1039浏览 0评论
1089浏览 0评论
小黑屋| 手机版| Archiver| 电子发烧友 ( 湘ICP备2023018690号 )
GMT+8, 2024-11-21 22:03 , Processed in 0.661420 second(s), Total 43, Slave 35 queries .
Powered by 电子发烧友网
© 2015 bbs.elecfans.com
关注我们的微信
下载发烧友APP
电子发烧友观察
版权所有 © 湖南华秋数字科技有限公司
电子发烧友 (电路图) 湘公网安备 43011202000918 号 电信与信息服务业务经营许可证:合字B2-20210191 工商网监 湘ICP备2023018690号