随着通信技术的快速发展,PTN已已经成为络架构中的重要组成部分。在大规模PTN网络建设后,面对激增的PTN网络规模和多样化的承载业务,运维人员的维护工作量和难度大幅增长,如何进行高效监管和维护,正在成为用户的重要关注点。
北京智和信通PTN设备管控方案通过对PTN设备自动检测、自动报警、自动修复等功能,实现告警抑制定位、各类故障情况下业务快速恢复、业务配置及调整等多需求场景的响应。并将智能数据分析和可视化呈现结合,动态感知PTN设备的运行态势,通过对PTN设备的有效监控和管理,提升运维效率,保障网络稳定。
第1章 PTN设备监控指标
方案无品牌型号限制,可对各个品牌、型号PTN设备的统一监管,获取最新运行状态。目前,已实现对国内外常见PTN设备品牌,如:华为、中兴、烽火、瑞斯康达等,小众或较为老旧的品牌型号也可通过灵活可配的模型库进行扩展适配。
1.1.常见监控指标
内置电源、风扇、端口、板卡等多种资源监测点和监测指标,未覆盖的资源和指标也可以通过模型库不断进行拓展。
设备类型 | 资源监测点 | 监测指标 |
PTN设备 | Ping | 状态、平均响应时间、抖动等 |
设备运行时间 | 本次启动后运行时间等 | |
系统 | 系统时钟等 | |
电源 | 电源状态、单板供电电压、核心电压等 | |
风扇 | 风扇状态、风扇编号、转速等 | |
温度 | 温度状态、当前温度等 | |
CPU | CPU大小、CPU使用率、CPU空闲、CPU计算资源利用率、CPU协议通道利用率等 | |
内存 | 内存大小、内存使用率、空闲内存等 | |
网络接口 | 状态(up、down)、索引号、名称、描述、IP地址、子网掩码、广播包、数据包、包错误率、丢包率、过载丢包率、接收/发送最大带宽、接收/发送带宽使用率、接收/发送流量、接收/发送速率、时延、抖动、接收/发送字节数、误码率等 | |
光口 | 状态(up、down)、平均接收/发送光功率、最小过载光功率、传输距离、最小消光比、最大带宽、带宽使用率、流量、速率、时延、丢包率、过载丢包率、背靠背等 | |
电口 | 状态(up、down)、速率、输入口衰减、输入口频偏等 | |
时钟性能 | 处理PTP节点(边界时钟)数、处理E2E节点数、处理P2P节点数、经过边界时钟背靠背的相位精度、经过边界时钟单节点输出频率精度、输出相位精度、输出频率精度、输出抖动等 | |
板卡 | 板卡温度、单板CPU温度、单板核心器件温度等 |
1.2.品牌型号及指标扩展
方案采取用户自定义扩展PTN设备品牌、类型及其资源的方式,赋予用户强大的适配能力,最大可能地实现对不同时期、不同品牌、不同型号PTN设备的管控。
支持自定义PTN设备类型、PTN设备资源、故障监视器、性能监视器、TRAP监视器等,提供配置PTN设备模板的功能,允许用户自定义PTN设备真实面板图。
第2章 PTN设备实时监控
方案通过智能算法自动发现核心、汇聚、接入层PTN设备以及PTN设备间、PTN设备和其他设备间的链路关系,自动生成网络拓扑,实时监控各项运行指标,感知网络态势。
2.1.一键式自动发现
在网络可达范围内,自动获取网络中的PTN设备及其他设备的各项信息,识别设备间的连接关系。智能识别PTN设备的厂商、型号、网络接口、板卡、CPU、内存等资源信息,生成资源逻辑拓扑或PTN设备面板图,匹配故障/性能监视器,通过可视拓扑动态展示PTN设备、链路的运行状态。
2.2.自动生成网络拓扑
方案以图形化方式直观的组织和呈现被管网络内的设备、链路和资源,支持树形结构和平面结构的联动展示,也可以按片区、按地域、按层级等多种布局方式划分网络,支持设备、管道、业务多级拓扑展示。
在拓扑中以不同颜色图标展现PTN设备的设备故障、链路流量、链路故障、网络接口故障、接口状态等实时状态信息。
2.3.逻辑展示内部资源
在拓扑图的基础上,进一步展示PTN设备的细节,可以是其物理组件,也可以是用户定义的其他监控对象。提供资源逻辑拓扑,以图形方式展示内存、CPU、网口、光口、电源等资源信息,对PTN设备进行细化监控,实时告警,对设备进行事前管理,降低故障发生率。
2.4.设备真实面板图
提供PTN设备真实面板图,展现网口、板卡、光口、灯、电源、风扇等PTN设备面板信息,并能直接在操作界面方便的配置和操作机架图、面板图。
2.5.可视化链路管理
智能识别链路关系,支持自动发现或手动编辑PTN设备之间、PTN设备和其他设备之间的链路、运行状态、流量性能数据。通过直观的拓扑图帮助运维人员了解设备间链路环回、业务管道环回、业务管道路径通告等的实时状态、配置情况及设备运行情况。
支持展示上传流量、下载流量、状态、接收/发送数据包量、上传下载丢包率、包错误率、上传下载带宽使用率、连通状态、管理状态信息等。
2.6.多维度性能态势感知
全面采集业务流流量、业务量数量、端口占用、带宽占用、逻辑管道占用等性能信息,支持按照时间、资源、性能类型等多种维度,图形、表格等多种形式展示PTN设备可用性、链路可用性、DCN通道可用性等关键性能信息。
对实时、历史性能数据进行统计分析,通过曲线图、柱状图或表格等形象化地展示,按天、星期、月查看性能指标变化。也可选择多个PTN设备进行同维度性能数据分析,提供可视化性能对比视图。运维人员能随时把握PTN设备性能变化态势,防患于未然。
2.7.自动化运行状态巡检
可自定义巡检策略,预设执行时间进行自动化巡检,巡查PTN设备实时运行状态,并向指定邮箱发送结果报告,实现对PTN设备的定期检查,把握网络运行中的易出现问题的环节,做到预防为先。可自行选择要统计的网络、PTN设备、资源、流量、性能、故障类型、监视器类型、时间范围、报表排序规则、过滤规则等生成巡检报表。
第3章 告警与日志管理
充分利用积累的有效定障、排障经验,打通基础设施监控、IP合规性监测、流量透视、自动运维、运维工单等关联数据,实现从告警检测到排障恢复的全生命周期闭环管理。
3.1.日志与事件管理
接收PTN设备主动发送如配置失配、系统时钟丢失、PTP同步丢失、机盘通信终端、机盘故障、直流电压过高/过低、盘温过高、锁定源频率超过锁定范围、倒收、倒换失败、连接确认信号丢失等事件与日志消息,集中存储、解析处理后,异常信息及时地通知用户。通过统一界面集中管理事件与日志,提高其完整性和可追溯性,帮助用户快速定位问题并采取相应的解决措施。
3.2.故障告警管理
搭载多种告警机制,自定义配置告警阈值,具备主动的故障监控功能,从众多的事件和状态中,系统地将零散的状态信息,总结成为当前状态,并对异常状态进行告警,第一时间获取准确的告警信息,快速标示已执行操作的告警,迅速定位产生告警的PTN设备,提升告警处理效率,极大降低因PTN设备故障带来的损失。
3.3.智能告警降噪
告警管理采用自动去重、风暴抑制、关联聚合、维护期时间屏蔽、依赖屏蔽等多种智能告降噪机制,通过AI算法,对各类告警进行自动压缩收敛,减少90%的无效告警,抑制告警风暴,有效避免误报和漏报,直达故障根因。
3.4.多途径告警通知
提供界面颜色、提示声、光效闪烁、信息列表、Email、短信、钉钉、企业微信、个人微信等多种通知渠道,告警通知无延迟,告警渠道全覆盖。告警可以向上逐步追溯,按照从全局→网络→设备→资源的管理习惯来组织故障显示。
3.5.运维知识库
将各类运维操作、故障判断等经验,转化为存在于平台内的知识,形成团队知识库。涵盖知识的存储、检索、更新、维护、审核,将运维工作中所需的运维文档、操作指南、排障实践、处置流程和配置信息等进行分类管理,所有成员均可进行知识分享,从而加速问题解决过程,促进团队间的知识共享和协作,提升整体运维效率。
第4章 逐层下钻的流量透视
从PTN设备的设备层级、接口层级到IP、服务、应用、会话等的实时流量监控和历史流量分析帮助用户进行流量趋势分析、网络优化、网络监控等工作,并为网络规划、优化调整和业务发展提供基础依据。
4.1.流量、带宽监控
提供端到端的流量、带宽使用监控能力,识别带宽消耗较大的应用程序、服务、协议或IP地址,监控带宽使用趋势与带宽占用分布,并通过图表展示,快速识别网络带宽滥用,分析高带宽使用情况,避免网络容量过载,并提升最终用户网络体验。
4.2.流量趋势分析
从设备、接口、IP、服务、应用、会话等层级出发,提供历史流量趋势图谱,通过应用、端口、协议等对流量进行监控和多维度分析,支持按源和目的地进行流量,流量监控粒度可达大小、速率、带宽使用率、包等。
4.3.回溯分析
大容量、长时间存储流量数据,长期实时保存原始数据包。通过高效的数据检索,实现流量数据的快速回溯。对已发生的流量行为进行回溯分析,迅速定位异常流量,对其进行挖掘、分析、取证,实现多维根因追溯,为迅速定位问题发生原因提供更全面的分析依据,同时为网络安全提供强有力的数据分析保障。
第5章 远程控制和编排式配置
方案提供PTN设备远程控制的能力,将周期性、重复性、规律性的大量日常运维工作,如PTN设备策略配置、故障自愈、自动巡检等,转化为依托于平台的自动化执行。将不同品牌、不同型号的PTN设备统一纳入控制,集中管理。
5.1.远程配置执行
通过深入PTN设备协议的控制能力,实现对PTN设备端口、VLAN、三层IP、Tunnel、PW、VPN、ACL、QOS、路由、STP、保护、OAM等业务配置,也可实现管道整形、管道拥塞策略、管道隔离和调度、通信链路选路策略的调整。
常用远程配置能力:
5.2.策略编排──以(配置QoS策略为例)
以对PTN设备进行远程配置,调整QoS策略为例。
效果要求:为不同业务配置不同QoS策略,保障核心业务通信质量。
第一步:将PTN设备纳入平台进行统一监管。
第二步,配置PTN设备策略。主要策略包括:配置信道容量、配置peak burst、配置队列限制等。配置并应用流策略,使QoS策略生效。
第三步,查看PTN设备策略,并与前期策略进行对比。对比基准可以是某一次的备份或专用的基线文件,对策略异常变化进行告警。
5.3.配置备份、对比与恢复
支持配置文件批量备份、下载、周期性备份、查看等,对PTN设备的多个备份文件进行对比。定期自动对PTN设备配置进行巡检备份,并可进行对比分析,为用户管理网络做出合理的建议提供数据支撑,支持进行已备份配置间的对比分析和针对性的配置恢复。
5.4.配置合规性审计
PTN设备配置的稳定与合规至关重要,错误或未经认证的配置变更都可能导致严重的网络故障,方案通过本次执行结果与上次执行结果或基线文件的对比,当配置出现异常时进行自动告警,并可结合故障自愈能力,自动回滚到信任的版本。
第6章 资产CMDB管理
通过构建PTN设备资产数据库,将PTN设备的信息包括资产编号、资产名称、品牌型号、来源、购买日期、端口数量、接口类型、负责人等,以及维保到期时间、维保单位等维保信息统一管理。
动态感知纳入监控的资产运行状态,并以图谱的方式呈现资产与其他资产、配品配件、网络链路、使用人等静态关联关系。每个资产对应唯一的二维码标签,用户可通过手机端直接扫码查看资产信息。
第7章 方案应用价值
北京智和信通PTN设备管控方案在实现对PTN设备跨品牌、跨型号统一管理的基础上,同时可纳管多种网络设备、服务器、多媒体设备、卫星通讯设备、无线设备、微波设备、安全设备等,真正实现一个平台管理全网。此外,针对多厂商设备间兼容性问题,平台内置了设备模型库和无需开发即可使用的模型库扩展功能,确保无论设备来自何种品牌、型号,都能无缝接入管理平台,实现统一监控与配置。
通过简单便捷的操作界面,将用户关注的核心信息直观的呈现给用户,极大的降低了平台的上手难度,大幅减少维护工作量。
在此基础上,北京智和信通PTN设备管控方案更进一步引入了智能化运维分析功能。实时收集并分析各类设备的运行状态数据,利用大数据和AI算法,预测潜在故障点,提前预警,实现从被动应对到主动预防的转变。同时,该方案支持自定义告警规则,满足不同用户对于告警信息敏感度的个性化需求,确保关键业务系统的稳定运行。
同时,为了提升应急响应速度,方案还支持远程故障诊断与修复功能。在面对常规故障时,可通过运维编排自动触发自愈流程,实现无人值守的排障处置;而面对非常规故障时,运维人员也可通过平台远程访问问题设备,快速定位故障原因,并执行远程修复操作,极大地缩短了故障恢复时间,保障了业务连续性。
综上,北京智和信通PTN设备管控方案以其全面的兼容性、智能化的运维分析、个性化的告警策略以及高效的远程运维能力,为现代网络环境的运维管理提供了强有力的支持,助力企业构建更加稳定、高效、智能的网络体系。