追踪服務的狀態
任何網上申請應該要有工具專門用來警惕任何可能遇到的任何問題。這些問題包含基礎設施配套服務,用戶錯誤率突然提高等。了解目前服務和基礎設施的狀態。在問題發生前, 工具能幫助找到問題所在,並立即提醒你關注此問題。監測的主要目標是:
- 警惕會影響服務的可能性問題,這樣他們就可以被解決
- 指標的提供可幫助活動規劃的能力
- 找出未來可能出現的問題
- 找到需要改進的地方,例如系統執行差或效率低的服務
- 藉由收集到的數據判斷發生問題的根本核心所在
早期設立的監測
把監控視為服務的一環, 勿把它留到最後再設立。
談論你認為可以建立有效的檢查監測和商定的方法。編寫測試, 如同書寫代碼是共同的,監視檢查可以被視為用來測試正在運行的系統。
包括高規格的檢查
監測是透過一個非常有技術性層面的鏡頭所看到的,teams只能看到Web應用程序的效能,可用磁盤空間或記憶體空間等。雖然這些是重要的,但它也必須follow up更多業務相關的指標。
例如,能夠與資料上傳失敗和應用錯誤做比較:
- 提醒您注意的問題
- 幫助找出原因
- 關於服務常見問題有關的對談(磁盤空間,效能差)
有趣的錯誤
當你有一個錯誤,記錄它,並隨時追蹤。錯誤總會帶有有趣的信息:
- 用戶問題
- 系統進行中所遇到的障礙
- 系統故障
- 解決問題的能力
在整個系統中, 能夠看到問題點是很重要的,尤其當涉及到特別的應用程序或機器時。
讓數據被廣泛地使用
以下信息提供給大家參考,讓大家在系統營運以外領域也能受用:
- 監控系統
- 儀表板
- 互助工具
- 報告
延伸閱讀
譯者:顏雪芬
校稿者:
原始出處:https://www.gov.uk/service-manual/operations/monitoring/