我們都知道,當今的時代是一個新技術蓬勃發展的時代;大數據、云計算、移動互聯網、物聯網……作為應用服務開發者的我們,有了很多很好的選擇;我們的傳統的應用基礎架構也開始向云端遷移;我們看一下,現在企業應用IT架構是什么樣?
很典型,從用戶一直到硬件,很立體的六個層面,從用戶到CDN,到防護墻,防護墻內有一堆的服務器,跑的是你的代碼,還有一堆的硬盤做數據存儲,這是咱們傳統企業的應用架構。到了云的時代,因為我要講的是云時代的APM,架構就變成這樣了,后端防火墻的一些東西都隱化了,到了云時代背后的一般都變成一種資源,包括網絡,可能很多人也不一定知道,網絡怎么把它變成一種資源,有一種技術叫SDN,把所有東西變成資源以后在云上我們看到的情況會很不一樣。到了云的時代,很多東西都在云上,為什么會發生這樣的變化呢?
既然是一種技術趨勢上升帶來的變化,肯定是有很多的好處;就拿青云的服務為例,給我們技術部門有哪些幫助呢?
秒級調度 所有計算、存儲、網絡資源都是秒級響應。如果初始資源不夠用,可以彈性擴展伸縮。不需要的資源可以隨時銷毀。隨需應變,無需等待。
按秒計費,最大限度降低總擁有成本 因為青云的資源可在秒級創建和銷毀,為了鼓勵大家按需使用資源,我們在計費上只根據您實際使用的時長收費,并精確到秒。讓您可以隨時調整業務規模,無需考慮計費周期的限制。
私有云,搭建屬于自己的私有云環境 通過 SDN 實現的虛擬路由器和交換機,您可以快速搭建屬于自己的私有云環境,并提供 100% 的網絡隔離,確保安全。還能與現有的計算環境通過安全隧道連接,形成公私兼顧的混合云(hybrid cloud)。
最大程度保障您的數據安全 私有網絡提供100%二層隔離,在這個環境里,你的內部數據是非常安全的,黑客無法嗅探或者截獲到你的數據。多重實時副本和備份可以保障即使在物理硬件徹底損壞時,數據也不會丟失,并且可以很快恢復業務。都用云了,是不是就不用擔心我們的業務系統了呢?一切就完美了嗎? 我們的業務一定能向我們期望的那樣,快速,穩健增長嗎?
我們可以從另外一個角度來思考這個問題;不知道什么時候開始,我們都聽過“用戶體驗”這個名稱;什么是用戶體驗呢?
百度里是這樣解釋的:用戶使用產品和服務過程中建立起來的純主觀感受;
那么這種純主觀感受實際上包含很多的要素;比如說漂亮的視覺設計、貼心專業的服務、快速的用戶響應、極致簡潔的交互界面等等。
可想而知,上面的這些要素都會影響到用戶的純主觀感受,那其實我們今天還要分享一個要素,就是性能;當然性能這塊,有很多的數據,比如說網絡延遲每增加0.4秒,亞馬遜每年將損失16億美元,性能每減少0.4秒,雅虎訪問量就會增加9%,還有移動App里面非常經典的五秒鐘定律;如果你的App應用的響應時間大于5秒鐘;那么50%移動應用用戶會放棄,30%用戶會卸載,33%失望的用戶會轉向競爭對手的應用。
所以小米的雷軍也在說一句比較經典的話:拋開性能談體驗,都是耍流氓。
當然他說這句話時候是在小米手機發布會上針對手機跑分是這樣,針對我們線上的業務系統實際上也完全適用;我們不禁思考,為什么性能這樣重要呢?
很簡單,性能影響用戶體驗,用戶體驗影響的是我們的業務營收,業務營收就是白花花的金錢;所以這個等式就成立了,即我們的系統性能就等于金錢!既然和錢有關系,我們當然要很好的解決掉。
那我們說了這么的性能,對于性能我們應該如何理解呢?
實際上云智慧對性能的抽象理解很簡單,只有兩點:
第一個挑戰是業務中斷,確實對企業來說這是最大的挑戰,業務中斷有再多的用戶沒用。所以對企業來講,業務是永遠不能斷的。
第二個挑戰是什么?性能緩慢,我們回想中國GDP增長曲線,從1978年的3650到2014年的636463,保持平均每年8%的快速增長,經濟發展速度是相當的快。中國經濟的發展不能慢,為什么?慢了掙錢就少了,掙錢少了中國經濟就要崩潰陷入中等收入陷阱,我們也不能慢,慢了說明用戶要跑了,錢也就沒了,企業也就發展不了,所以天下武功唯快不破。慢代表什么?慢代表性能,性能的好和壞。所以說對于在線提供產品和服務的我們,性能就代表一切!
那我們也在思考,性能影響是通過什么表達給我們;響應時間、吞吐率、延遲、丟包率、慢查詢、代碼堆棧、崩潰率等等——這是一大堆技術參數,很難理解;而恰恰,我們的IT系統運行產生的指標都是很數據化的;傳統做APM的方法做到了一定層面的數據可視化,但是對解決問題實際的用戶體驗問題我覺得還不夠直觀,為什么?
其實我們最期望看到的是,用戶在做什么的時候怎么樣了?每一個他在下單的時候是開懷大笑還是憤怒無邊?而這一切,通過用戶行為性能分析的層面,我們是能夠做的。
當我們的身體出現問題時,只有CT才能在幾分鐘內給患者完成從頭到腳的全身掃描,從而準確發現病灶,為后續的治療提供準確的依據。
今天的互聯網就像人體一樣強大而復雜,一款看似簡單的網絡應用,需要服務器、存儲、系統、應用環境、網絡和用戶電腦/手機設備的一系列支持,才能順暢運行。當應用發生故障時,比如用戶無法登錄、頁面打不開、搜索沒結果,誰來幫助我們快速而準確的定位應用的問題?
APM就像是部署在互聯網上的CT掃描設備,通過SDK采集用戶端數據,通過監控點采集網絡數據,通過探針采集服務器上各種軟硬件環境數據,然后利用大數據技術把采集到的數據進行快速診斷分析,發現影響應用性能的“病灶”,并給出診斷建議。
參考和分析市場上國內外的應用性能管理的解決方案;云智慧首創面向業務的基于用戶行為性能的方法;這是基于真實的用戶行為角度來分析應用的性能表現;分析的維度包括行為的維度和用戶的維度。
行為的維度,是從影響業務的各種行為入手來分析行為背后的影響;比如有一個行為叫“支付”,在一段時間內,有1000人支付,其中有400人因為性能問題受到了影響;他們沒有支付成功,那么這400人就給業務造成了很大的影響,平均每個人100元的支付額,那就是40000元的業務損失;接下來我們分析400人中有多少人是因為前端的Crash問題,可能有150人,我們接下來再分析這150人都用什么樣的手機,系統,運營商,這樣一步步有助于我們定位問題;也可能有250人是因為后端的服務質量問題造成影響,體現在加載緩慢上,那么我們可以分析后端的各種服務服的質量。
我們還原一個需求的場景;有一天突然有個用戶投訴支付緩慢,支付不成功;這個時候我們技術部門如何快速定位到這個用戶的問題,當時的歷史快照是什么?目前沒有很好的辦法;用透視寶的用戶分析,我們可以定位到系統的每個用戶的每次操作的性能問題上;簡單的搜索就可以查到當時這個用戶操作時發生了什么,包括前端和后端的整體記錄都可以定位到;
另外有的時候我們也關心一類用戶的問題,比如說某個區域的聯通運營商用戶,比如都用了某款國產手機;通過透視寶的用戶篩選功能,我們可以針對特定人群進行問題分析,快速找到這類瓶頸。
真正的端到端應該是從用戶端到后端的物理服務器以及代碼端的完整穿透;
而且應該是基于細化到每個用戶的每個真實行為操作層面來看待;
化到每個操作層面的端到端,讓深入定位問題有了可能;通過標記在每個行為操作上的Unique ID,透視寶將整個操作背后所有相關環節“拍照”;這樣非常有助于我們真實還原問題細節;
透視寶能夠幫助運營人員實時分析業務,明確業務性能問題以快速適應市場變化;幫助開發人員基于問題事件定位架構及代碼瓶頸,以實現快速構建及改進持續交付;提供端到端全技術棧監控,幫助運維人員快速定位、預測IT系統問題,確保運維SLA與服務質量;面向管理層,提供多維報告與數據決策支持,幫助企業實現用戶滿意度及運營效率持續提升、企業營收不斷提高。