服務概述
性能優化服務集應用、中間件、數據庫、操作系統、主機、網絡、虛擬化、存儲等方面專家,為業務系統提供“一站式”性能評估及優化服務。
服務內容
服務模式 | 服務內容 | 服務特點 | 服務周期 |
---|
響應式服務 | 單技術領域出現的問題后, 根據問題現象及相關日志等提供遠程或現場技術診斷、分析,最終出具解決方案并指導解決問題 | 定向定量的技術支持服務 | 視需求而定 |
項目式服務 | 針對有明顯性能問題的應用系統成立項目組進行原因分析和性能優化方案設計,并在相關方配合支持下,完成性能調優 | 針對業務系統提供一站式性能評估與優化服務 | 單系統3-6個月 |
主動式服務 | 基于客戶多個應用系統定期進行全面檢查、隱患原因分析和性能調優服務;同時設立性能基線、分析性能趨勢、提供保障建議 | 長期性能保障服務 | 一年2-4次 |
管理式服務 | 提供性能管理工具平臺、設立一線性能管理工程師和二線性能專家團隊,實時掌控系統性能狀態,并及時處理性能預警 | 提供性能管理工具平臺,專人駐場支持服務 | 全年 |
客戶價值
掌控系統性能狀態
- 基于運行數據,建立性能基線,了解健康狀態
- 充分了解系統支撐能力
- 洞察系統性能瓶頸與問題
快速故障定位與修復
- 專家團隊針對問題提供一站式服務,避免”踢皮球”
- 快速故障定位,全領域的專業技術支持,縮短修復時間
防范潛在性能風險
- 采取主動措施,提前處理潛在問題
- 分析性能趨勢,預防性能突變風險
- 適應業務發展,進行容量的合理規劃
運維管理能力提升
- 分享專家團隊在性能管理方面的技術實踐,幫助企業提升運維人員技術能力
- 分享專家團隊統一有效性能管理過程與方法論,提高企業性能管理能力
服務優勢
經驗
- 10年以上專業性能優化服務經驗
- 為超過100個中國大型企業核心業務系統提供過性能評估與優化服務
- 系統提供過性能評估與優化服務
專家
- 上百名10年以上專業技術背景專家團隊
- 全球頂級專家資源池
工具
- 獨有的性能自動化分析管理平臺
- 專有的性能深度分析工具
- 經過多個行業技術組件驗證過的性能分析腳本
方法
- 久經考驗并持續改進的性能管理流程
- 多名專家總結得來性能管理最佳實踐及方法論
服務概述
容量管理目標在于實現兩個平衡:容量和成本的平衡、供應與需求的平衡。在合適的時間、合適地點,以及適當的成本提供合適的資源,定義、跟蹤、預測和管控IT容量,以確保服務負載能夠在可控成本與協定的服務水平級別(SLA)上運行,并滿足業務持續發展需求。
傳統的容量管理往往通過拍腦袋的方式,容易造成容量風險、容量配置不均衡超量采購或臨時應急式的盲目采購,給企業帶來重大損失。
H3C容量管理服務覆蓋IT系統的整個生命周期,實現業務驅動的容量管理方式,通過對業務容量數據、服務容量數據和IT基礎架構組件容量數據的分析,建立科學的容量模型,實現對容量指標的分析和預測,及時發現容量瓶頸、資源配置不均衡等問題,在確保業務系統的穩定運行的同時,節約IT基礎設施的成本,為客戶提供科學有效的IT采購與擴容提供科學依據,為IT資源更合理分配提供決策支持。
服務內容
容量評估服務
針對應用系統涉及的技術組件,由專家團隊提供容量評估服務,通過分析容量指標數據,發現容量特征和規律,以及應用系統潛在的容量問題。
容量預測服務
收集業務容量、服務容量和IT基礎架構組件容量數據,通過對容量指標數據的分析、加工并建立相關容量模型,來預測未來業務容量、服務容量和組件容量的發展趨勢,進行容量預警,針對未來潛在容量問題提出擴容建議。
容量規范服務
基于ITIL容量管理最佳實踐,結合客戶應用情況,建立適用客戶 IT 系統的容量管理流程,包括容量管理概要流程和詳細流程,并制定相關容量模板。使容量管理常態化、制度化、標準化、規范化。
容量管理自動化服務
根據客戶的需求,定制化開發容量管理平臺,自動采集、解析、加工容量指標數據,并自動適配容量模型,進行容量預測計算,自動出具容量分析評估報告。
客戶價值
合理分配資源
通過容量評估,使得應用資源分配更合理、有效。
業務增長預測
通過業務數據和容量模型,預測未來業務增長趨勢。
擴容和采購決策
通過業務發展趨勢分析及容量模型預測,可使基礎設施擴容與采購根據科學有效。
性能瓶頸預測
通過性能數據和容量模型,預測未來資源性能瓶頸。
容量管理規范
通過容量管理服務,建立統一的容量管理流程和規范,使得IT規劃更科學、有效。
某金融用戶應用系統可用性評估最佳實踐
客戶的挑戰
隨著企業信息化程度的不斷提升,企業生產經營越來越依賴于IT系統安全、高效、可靠的運行。而隨著IT技術的快速發展,IT系統也越來越復雜,如何保障IT系統可用性是企業面臨的共同課題。
我們知道,一個復雜的IT系統可能會包含多個廠商多個IT組件,而這些組件一般是跨協議的,IT系統的可用性高度依賴于每個IT組件的可用性,如:IT組件是否存在BUG?IT組件之間是否存在兼容性問題?IT組件之間是否以最優狀態相互協作運行? IT組件是否存在高可用風險?IT組件是否存在性能瓶頸以及性能發展趨勢如何?這些都是關乎IT系統可用性、IT運維人員必須關注的問題。而一般客戶缺乏“一站式”的專家團隊來評估并解決這些問題。
某金融客戶,IT系統涉及十幾個廠商、幾十個IT組件,隨著業務量的不斷增長和IT架構的演進、變化,在2017中旬到2018年初,陸續發生了由于IT組件BUG導致生產系統宕機、IT組件兼容性問題導致數據丟失、IT組件配置不當導致性能衰減、文件傳輸服務器核心組件版本問題導致客戶端經常發生數據傳輸失敗、核心交易因搶占CPU導致業務延遲等嚴重問題,這些問題嚴重影響著公司正常業務運行,給運維部門帶來了巨大的壓力。
解決方案
在了解到用戶的需求痛點后,新華三集團技術服務部性能優化服務專家團隊(PO)快速響應,針對客戶關鍵業務系統IT組件,進行“一站式”的可用性評估,本次基礎架構可用性評估主要內容:
- IT組件高可用性評估
- 硬件微碼評估
- IT組件版本/補丁包評估
- IT組件安全漏洞評估
- IT組件兼容性評估
- IT組件配置參數評估
- IT組件日志檢查
- IT組件性能分析與評估
- 熱點問題跟蹤分析與解決
評估方法
本次項目實施過程充分參考、汲取了LEAN 6 SIGMA過程改進體系的一些方法、原則,如下圖:
結合LEAN 6 SIGMA相關方法、原則, 首先由客戶指定關鍵業務系統,通過對該業務系統設計、開發、運維人員的訪談,對該業務系統關鍵交易的交易路徑進行了梳理,繪制數據流圖,對關鍵交易數據流向的主要設備及技術組件類型、版本等通過繪圖的形式進行標注。
然后由各技術領域專家通過腳本對標注的設備和技術組件進行數據采集和整理,并依據專家最佳實踐和官方建議對現狀進行評估分析,建立各技術組件可用性基線,針對存在的問題,提出可用性改進建議。
最后專家團隊集中討論,并與客戶相關負責人就發現的問題進行逐一討論和確認,達成一致意見,確定問題優先級,撰寫可用性分析和整改建議報告,通過閱讀技術文檔結合專家團隊最佳實踐,采用了對相關組件升級、修改組件配置參數、修改應用程序源碼等手段對問題進行修正。并對修改點進行反復測試,對比調整前、改后效果,對被優化功能點進行了持續完善、改進、提高、度量;在被優化功能點達到預期效果后,撰寫優化結果報告,并對優化過程、結果進行評估、匯報,最后按流程將優化資產提交相關部門,并持續跟蹤上線后運行情況。
關鍵組件評估內容
項目組對客戶關鍵業務系統涉及的應用程序、操作系統、中間件、數據庫、存儲、網絡、開源組件、VMWARE等IT組件進行了全面可用性評估,下表是關鍵組件的概要評估內容:
類別 | 項目 |
---|
1、應用 | 使用現狀及重要問題收集 關鍵交易流程梳理 熱點函數調用及內存使用情況分析 應用架構分析評估 |
2、中間件 | 版本適用性檢查 參數配置檢查 運行狀況檢查 系統部署評估 |
3、數據庫 | 參數配置檢查 各類等待事件的分析 數據庫網絡參數配置檢查 表空間使用情況檢查 資源使用情況檢查 數據庫安全檢查 sga使用及命中率分析 告警及后臺日志分析 應用對象使用情況分析(碎片/擴展/效率等) 數據庫存儲過程和sql等性能分析及建議 備份策略評估 版本及升級策略評估 |
4、操作系統 | CPU性能分析 內存使用情況分析 IO性能分析 操作系統版本評估 文件系統使用情況分析 swap區 使用情況分析 IPC資源使用情況分析 核心參數檢查 系統日志檢查 |
5、主機 | 硬件運行情況及日志檢查 硬件高可用性配置檢查 主機微碼分析 |
6、存儲 | 微碼檢查 存儲配置規劃檢查 軟件版本檢查 存儲參數設定 多路徑軟件設置檢查 存儲性能分析 存儲運行日志檢查 |
7、開源組件 | 運行狀況及性能評估 日志檢查 參數評估 版本評估 |
8、網絡 | 網絡性能分析 網絡拓撲分析 網絡配置分析 高可用配置分析 安全設置分析 版本及補丁包分析 日志檢查 |
9、WMEARE | vmware兼容性檢查 vmware配置檢查 vmware版本檢查 vmware日志檢查 |
場景示例: 客戶核心交易在業務高峰期,經常出現超時現象,嚴重影響營業廳柜臺業務,多次遭到客戶投訴,客戶開發、運維人員及三方廠商相關人員分別從應用程序、IT組件性能等入手分析,經過一個多月的排查,仍無法準確定位問題所在。PO團隊入場后,首先以核心交易為主線,對涉及的架構、流程、應用、進程、基礎設施等之間的支撐關系進行了快速梳理,其次對核心交易涉及的應用程序、主機、數據庫、VMWARE、存儲、網絡等組件進行全面性能分析及深度健康檢查。最后鎖定交易超時的兩個線程,通過kiinfo/caliper等工具對核心交易線程進行了深度性能分析。通過對核心交易性能跟蹤分析,發現在業務高峰期,經常發生其中兩個交易線程輪流在SLEEPING、ON_RUNQ、RUNING狀態之間切換,經過對研發人員的調研訪談及源碼分析,發現這兩個線程由同一個進程創建,兩個線程之間存在互斥,同時發現兩個核心線程存在被其他進程搶占cpu資源的情況。通過psrset將兩個線程綁定不同的CPU,從而將這兩個線程隔離,以減少互斥,同時可減少這兩個進程CPU被搶占的情況。通過chatr指令修改應用程序內存頁面大小,從而提高線程cache 命中率,從而提升核心交易性能。在不改動源碼的情況下,通過“外科手術式”的配置優化,使核心交易性能提升了56%,解決核心交易超時問題。
服務成果
專家團隊對客戶關鍵業務涉及的18個技術組件、317臺設備進行了全面可用性評估,發現:該客戶關鍵業務系統所有IT組件普遍存在版本未及時升級問題、部分關鍵組件存在參數配置不當、核心業務存在高可用風險等嚴重問題,經過與客戶相關負責人的最終確認,有159個可用性問題是之前客戶未發現或忽視的,其中嚴重級別較高、建議立即整改的問題有17個。
同時專家團隊定位并詳細分析了存儲數據丟失、文件傳輸服務器客戶端經常發生數據傳輸失敗、核心交易延遲、生產主機宕機等客戶關心的熱點問題,針對問題給出具體解決方案。并就類似問題,舉一反三,對關鍵業務系統進行全面排查,從管理和技術層面提出了整改建議,消除了業務系統可用性隱患。
新華三PO團隊在幫助客戶評估關鍵業務可用性的同時,也幫助客戶梳理了關鍵業務系統基礎架構情況,建立關鍵業務系統可用性基線,使客戶更加清晰了解了關鍵業務系統的現狀。
在可用性評估完成后,新華三PO團隊出具了整改建議并配合相關責任方進行整改,并跟蹤整改后生產運行情況,做到了業務系統可用性評估“一站式”、“端到端”的管理。
在項目進行的同時 ,團隊專家也與客戶分享了應用及基礎架構技術、可用性評估及性能管理等方面的最佳實踐,提升了客戶運維管理能力。