停機時間正變得越來越不可接受
推動NPM發(fā)展的一個明顯趨勢是企業(yè)需要快速解決停機時間問題。雖然理想解決方案是創(chuàng)建一個冗余網(wǎng)絡,但在很多情況下,這并不可行。這主要是因 為架構本身的限制,無法提供物理冗余或者因為預算有限。當企業(yè)無法實現(xiàn)自動故障轉移時,最好的方法是開發(fā)和部署高級網(wǎng)絡監(jiān)控系統(tǒng)平臺,在停機發(fā)生時提醒工 作人員,或發(fā)現(xiàn)可能發(fā)生的停機故障。發(fā)現(xiàn)問題越快,解決問題就越快。
在某些情況下,這意味著要部署工具來監(jiān)控網(wǎng)絡設備和個別鏈接。而基于所收集日志消息的警報是另一種常見工具,在其他情況下,還需要一直監(jiān)控到應 用層?,F(xiàn)在,絕大多數(shù)網(wǎng)絡監(jiān)控系統(tǒng)可只監(jiān)控網(wǎng)絡功能,或者同時監(jiān)控和警告網(wǎng)絡及應用問題。此外,深度數(shù)據(jù)包檢測應用可快速發(fā)現(xiàn)網(wǎng)絡關鍵點的性能問題。
應用對時間日益敏感
隨著實時協(xié)作應用(例如語音和視頻)的顯著增加,以及分布式應用架構的增加,通過網(wǎng)絡傳輸?shù)臄?shù)據(jù)對時間越來越敏感。這樣的話,企業(yè)必須發(fā)現(xiàn)、標 記以及優(yōu)先處理低延遲性應用的數(shù)據(jù)流。目前執(zhí)行這些類型任務的主要工具是服務質量(QoS),2層和3層網(wǎng)絡設備(例如路由器和交換機)配置有QoS政策 以及基于這些政策的隊列操作。
理想情況下,QoS會被正確地在網(wǎng)絡中進行配置。但通常情況下,QoS并沒有配置好,或者在數(shù)據(jù)路徑某處配置不當。這種錯誤可能給時間敏感性的 通信造成重大影響,同時,手動發(fā)現(xiàn)這些問題通常需要登錄和驗證數(shù)據(jù)路徑的每個QoS配置。在另一方面,很多網(wǎng)絡監(jiān)控系統(tǒng)都有QoS分析功能,它們使用 NetFlow或sFlow來自動發(fā)現(xiàn)無效或不正確配置的QoS政策。
網(wǎng)絡架構復雜性不斷增加
數(shù)據(jù)中心虛擬化和網(wǎng)絡覆蓋通常會掩蓋潛在的網(wǎng)絡問題。突然之間,管理員會發(fā)現(xiàn)他們需要同時處理物理基礎以及對應的虛擬網(wǎng)絡來發(fā)現(xiàn)和解決性能問題,而很多IT部門只有工具來監(jiān)控其中一個方面,即使他們可以監(jiān)控這兩者,也可能是使用完全獨立的工具。
很多現(xiàn)代NPM可以同時監(jiān)控物理和虛擬架構,并確定問題發(fā)生在哪個網(wǎng)絡層面,這為管理員提供了對網(wǎng)絡的完整可視性。隨著企業(yè)添加更多虛擬化和覆蓋技術,這逐漸成為日益重要的要求。
事件關聯(lián)和根本原因分析無效
我們都知道,查找和解決網(wǎng)絡及應用問題是一回事,確定問題的根本原因又是另一回事。在非常龐大和復雜的網(wǎng)絡中,企業(yè)很可能部署解決方法或變通方 法來解決眼前的問題,但并沒有解決根本問題。很多時候,這可能最終會導致企業(yè)為解決一個問題而對網(wǎng)絡進行重大且低效的變更,而實際根本問題可能是因為上層 問題。
很多網(wǎng)絡監(jiān)控系統(tǒng)提供智能來收集和分析各種網(wǎng)絡及應用事件。通過這樣做,企業(yè)可創(chuàng)建報告關聯(lián)到最初問題的起點。如果正確配置和調試,這可幫助管 理員關注問題并確定相關信息,極大地減少根本問題的調查工作。并且,由于現(xiàn)代NPM會收集應用層的數(shù)據(jù),很多此前未被發(fā)現(xiàn)的根本問題現(xiàn)在可能被發(fā)現(xiàn)并得到 妥善修復。
尋找單窗口監(jiān)控和故障排除
SNMP監(jiān)控器、日志服務器、NetFlow收集器和數(shù)據(jù)包嗅探器“單打獨斗”的日子已經(jīng)一去不復返了,整合這么多有用的網(wǎng)絡和性能監(jiān)控工具到 統(tǒng)一的系統(tǒng)中將是非常有吸引力的。我們現(xiàn)在可整合所有這些有用的功能到單個NPM產(chǎn)品中,更重要的是,通過單窗口視圖,我們還可以創(chuàng)建單一的數(shù)據(jù)存儲庫, 并通過強大的數(shù)據(jù)關聯(lián)方法來創(chuàng)建報告以及做出明智的決策。