数据库监控运维方案,保障高性能及高可用

数据库监控运维方案,保障高性能及高可用

        随着企业对数据高可用的需求日益增长,对于数据库的实时监控和故障自动恢复方案愈发重要。作为关系到企业运转的关键数据存储和管理体系,数据库的稳定和可用关系到企业业务的连续性与数据安全,一旦数据库遭遇性能瓶颈或发生故障,企业很可能会面临业务的暂停甚至数据丢失。

        北京智和信数据库监控与自愈方案实时监控数据库运行情况,在数据库性能出现波动或故障萌芽之时,迅速捕捉并做出应对,以保障数据库的高可用。

第1章 数据库监控范围与指标

        智和信通方案通过构建对关键指标的监控,实现对数据库性能和资源的实时追踪,识别并解决影响的数据库问题,保障数据库的高性能及高可用性,更全面地支持业务及应用的稳定、持续运行。

1.1.常见数据库

        方案支持的数据库涵盖MySQL、SQL Server、Oracle、Sybase、DB2、PostgreSQL、Redis、PostgreSQL、达梦、人大金仓、南大通用、ChinaDB、Polardb-O等国内外主流数据库。其他较为小众的数据库品牌也可通过灵活可配的模型库进行扩展适配。

1.2.常见资源监测点和指标

        本方案通过主动轮询和日志解析的方式对数据库的常见性能指标,如响应时间、连接数、慢查询、缓存信息、读写信息、表信息等进行监控,同时除内置的常见指标外,其他资源和指标也可以通过模型库不断进行拓展。

常见数据库监测点和指标

资源监测点

监测指标

基础信息

数据库名称、版本号、空间利用率、归档方式、用户名及权限等

Ping

连接状态、响应时长等

连接信息

连接数、并发连接数、活动连接数、连接失败数、当前打开线程数、最大连接数、被阻塞会话数、最大连接率、缓存线程数等

SGA缓存信息

读命中率、写命中率、利用率、缓冲池读命中率、缓冲池利用率等

IO读写信息

写速度、写次数、读速度、读次数等

进程信息

进程ID、占用CPU时间、占用内存大小等

表信息

表空间大小、可用表空间大小、表空间使用率、当前锁总数、死锁数、等待锁数等

操作信息

查询操作次数、插入操作次数、删除次数、修改次数、慢查询次数等

索引信息

索引请求数、磁盘索引请求数、索引命中率、已用缓存簇、未用缓存簇、缓存簇使用率等


1.3.数据库品牌型号及指标扩展

        方案采取用户自定义扩展数据库品牌、类型及其资源的方式,赋予用户强大的适配能力,最大可能地实现对不同时期、不同品牌、不同型号数据库的管控;支持自定义数据库类型、数据库资源、故障监视器、性能监视器、TRAP监视器等。


第2章 数据库实时监控

        随着信息化时代的不断发展,数据对企业的重要性愈加显露,而数据库作为企业信息系统的核心部分,承载着大量关键数据的存储和管理任务,对保障信息安全、促进数据交流共享、推动数据分析决策等起到重要作用。因此,对于数据库的监控管理不仅可以提高信息系统性能,还对保障数据的完整性和安全至关重要。

2.4.数据库图像化监控

2.4.1.自动发现数据库及其他设备

        智和信通具备独特的数据库自动发现技术,在网络可达范围内,仅需输入IP范围即可自动发现网络中的数据库及其他设备,识别数据库品牌、版本的信息,生成数据库内部资源拓扑,匹配故障与性能监视器,并自动发现数据库与其他设备的连接关系,生成可视化链路,通过可视拓扑动态展示数据库、链路的运行状态。

2.4.2.自动生成网络拓扑

        方案以图形化方式系统展现网络拓扑关系,支持树形结构和平面结构的联动展示,也可以按片区、按地域、按层级等多种布局方式划分网络,在拓扑中以不同颜色图标、光效展现数据库的实时状态信息。

2.4.3.可视化展示数据库资源

        在拓扑图的基础上,进一步展示数据库的细节,以图形方式展示数据的基础信息、连接信息、SGA缓存信息、IO读写信息、进程信息、表信息、锁信息、索引信息等核心指标,对数据库进行细化监控,实时告警,事前管理,降低故障发生率。


2.5.数据库性能态势感知

        实时监测并感知数据库的相关性能情况,多维度处理、分析、展示数据库性能态势,实现“可观、可管、可控”。

2.5.1.全面监控数据库性能

        全面采集数据库的各项性能指标,如表空间大小、表空间使用率、进程数量、读/写操作命中率、碎片程度、连接数、线程数等,并可按照时间范围、资源类型、性能指标等多种维度,以图形、表格等多种形式进行展示。


2.5.2.实时、历史性能分析

        对实时、历史性能数据进行统计分析,通过曲线图、柱状图或表格等形象化地展示,按天、星期、月查看性能指标变化。运维人员能随时把握数据库性能变化态势,防患于未然。


2.5.3.多数据库性能对比

        支持选择多台数据库进行同维度性能数据分析,提供可视化性能对比视图,通过性能对比分析数据库性能变化趋势。


2.6.日志与事件管理

        接收数据库主动发送如数据查询、数据插入、数据删除、数据库停止运行、数据库重启、连接失败等事件与日志消息,集中存储、解析处理后,将错误、告警、攻击行为等异常信息及时地通知用户。通过统一界面集中管理事件与日志,提高其完整性和可追溯性,帮助用户快速定位问题并采取相应的解决措施。


2.7.故障告警与智能收敛

        搭载多种告警机制,自定义配置告警阈值,具备主动的故障监控功能,从众多的事件和状态中,系统地将零散的状态信息,总结成为当前状态,并对异常状态进行告警,第一时间获取准确的告警信息,快速标示已执行操作的告警,迅速定位产生告警的数据库,提升告警处理效率,极大降低因数据库故障带来的损失。


        告警管理采用自动去重、风暴抑制、关联聚合、维护期时间屏蔽、依赖屏蔽等多种智能告降噪机制,通过AI算法,对各类告警进行自动压缩收敛,减少90%的无效告警,抑制告警风暴,有效避免误报和漏报,直达故障根因。

2.8.数据库状态自动巡检

        可自定义巡检策略,预设执行时间进行自动化巡检,定期巡查数据库实时运行状态,并向指定邮箱发送结果报告,把握网络运行中的易出现问题的环节,做到预防为先。可自行选择要统计的网络范围、数据库类型、资源类型、数据库支撑的业务、数据库关联的链路等生成巡检报表。


第3章 数据库承载的业务状态拨测

        针对数据库所支撑的业务应用性能与用户体验进行检测分析,无需安装插件就可以为用户提供开箱即用的企业级主动拨测式业务监测。以拓扑形式展示每个业务流程中的每台相关设备,支持设备逻辑视图和面板视图,展示业务流程中涉及的所有的设备之间的链路关系,流程方向。


        构建包含各业务整体流程的调用依赖关系图谱,展示业务部署中网络设备间多维度关系拓扑。对从业务的前台受理到真正完成的整个业务流程所依赖的业务应用、数据库、中间件、数据库、操作系统等进行实时监控分析,呈现业务各节点的实时运行状态,包括用户体验、节点可用性、节点负载等状态信息,快速定位业务瓶颈根因,并可根据用户自愈策略,触发自动运维实现故障自愈。

第4章 统计报表和大屏展示

        通过定义数据库相关数据报表的能力,实现数据库性能和状态的灵活展现和统计分析,通过对比、TOPN等分析方式并结合报表排序规则、过滤规则等能力,周期自动生成报表,帮助用户更好地了解数据库的各项负载情况和运行态势,为优化资源配置和性能调整提供依据。


        通过大屏展示核心运维数据态势,细粒度可达网络中数据库、数据库资源和链路。所有的网络故障与性能瓶颈都一目了然地呈现,大大降低了管理成本,同时也提高了运维人员处理故障的能力,节省的故障处理时间,为运维人员管理网络提供了可靠的保证。


第5章 数据库远程控制和编排式配置

        方案提供数据库远程控制的能力,采用“监控+运维+控制”的方式,将不同类型、不同型号的数据库统一纳入控制管理。通过智能算法对数据库的资源配置进行智能动态调整,当数据库出现性能瓶颈时,自动调优资源配置,优化数据库运行环境,当数据库发生故障时,自动启动自愈机制,快速恢复数据库的正常运行,最大限度地保障业务的稳定运行。

5.1.数据库远程配置执行

        将周期性、重复性、规律性的大量日常数据库配置工作,如创建/删除表、查看/修改表结构、启动/停止服务、定期备份数据库、重启数据库、修改数据库配置文件等,转化为依托于平台的自动执行工作流,实现对数据库的批量、定时自动化控制。


5.2.故障自愈以一键解锁数据库为例

        以数据库实时监控和日志、事件管理为基础,动态发现网络故障,智能判断告警类型及级别,利用自动化故障诊断和修复能力,实现对数据库常规故障的自动处置,特殊告警触发升级与工单,最终实现故障恢复,减少人工干预,提高运维效率。

        下面以一键解锁数据库为例,介绍如何通过智和网管平台实现数据库故障自愈。

        效果要求:当数据库锁表时,触发自动解锁,解锁表。

        第一步:将需要管理的数据库纳入平台进行监控,并将监视器设置为数据库出现锁表进行严重级别告警。

        第二步:进入安管模块的运维编排菜单,创建【数据库一键解锁】策略。根据真实排障过程,通过进行策略节点拖拽编排的方式规划自愈流程。


        第三步:配置触发方式。方式支持通过告警触发和通过时间触发两种方式进行,为实现故障自愈的效果,我们选择通过匹配告警的方式触发策略。


        编排流程配置完成后,设备出现对应的警后,立即触发数据库解锁作业流,自动执行编排内的操作,对故障进行校验和处置。并在执行过程中,对每一步处置操作进行记录形成日志,确保有迹可循。

5.3.配置备份、对比与恢复

        支持配置文件批量备份、下载、周期性备份、查看等,对数据库的多个备份文件进行对比。定期自动对数据库配置进行巡检备份,并可进行对比分析,为用户管理网络做出合理的建议提供数据支撑,支持进行已备份配置间的对比分析和针对性的配置恢复。


第6章 数据库资产CMDB管理

        通过构建数据库资产数据库,将数据库的信息包括资产编号、资产名称、品牌型号、来源、购买日期、负责人等信息以及维保到期时间、维保单位等维保信息统一管理。


        动态感知纳入监控的数据库运行状态,并以图谱的方式呈现数据库与其他资产、配品配件、机房、机柜、网络链路、使用人等静态关联关系。

第7章 数据库运维工作全面无纸化

        结合数据库运维工作,如数据库采购、维修、更换等业务需求场景,自定义工单模板内的字段,并对字段排序进行调整,使工单根据业务的不同更加贴合用户实际使用情况。将数据库运维相关工作全面转为无纸化办公,简化运维工作流程,在每个处理流程的节点上责任到人。


第8章 应用价值

        北京智和信通为用户提供了一个全面高效的数据库监控运维方案,有效地对数据库进行监管,在实现性能监控的同时,融入更多的人工智能和大数据分析等前沿技术,预测潜在的性能瓶颈和故障风险,提前介入,实现从“被动响应”到“主动预防”的跨越。

        在提升业务稳定性和连续性方面,智和信通数据库监控运维方案通过采取严格的监控、预警、故障排查与自愈机制,快速响应并处置数据库运行中的各种问题,有效减少或避免服务中断问题的出现。通过实时监控发现数据库运行中的异常指标,如CPU使用率过高、内存占用过大等等这些性能下降预示,通过自动或手动地调整资源配置、清洗无效数据等操作,提升数据库整体稳定。

        在优化数据库性能、提升用户体验方面,随着业务量的增长,数据库面临着越来越大的性能压力,本方案通过对数据库性能的实时监控、回溯分析,帮助用户了解数据库基础性能、索引性能、查询性能、响应时间、事务处理速度、并发连接数等核心指标,为用户数据库性能调优提供基础数据。基于核心性能数据,运维人员可以更加精准地评估数据库的负载能力,对数据库进行合理地分配和调整,提升数据库处理能力和响应速度。

        此外,北京智和信通还注重用户体验,全平台提供了直观易用的监控界面和详尽的报告系统,让非技术背景的管理人员也能轻松掌握数据库健康状况。