欧美一级特黄大片做受成人-亚洲成人一区二区电影-激情熟女一区二区三区-日韩专区欧美专区国产专区

幾種常見的服務(wù)器異常

2021-03-12    分類: 網(wǎng)站建設(shè)

提到服務(wù)器宕機檢測,大家會想到,宕機能夠很快知道,這個有什么可做的?實際上,很多時候服務(wù)器宕機,并不總是被及時感知。服務(wù)器宕機,ping或者ssh這是最簡單的做法,但真正的工程實踐,沒這么簡單。

想要獲知服務(wù)器宕機怎么辦?可以通過服務(wù)器宕機實時檢測:

服務(wù)器異常

1)發(fā)現(xiàn)宕機。

2)提前告警。

3)告知宕機的詳細原因,如硬件故障,內(nèi)核bug,網(wǎng)絡(luò)異常等等。

4)自動報修生成工單。

我們知道,進行全網(wǎng)物理機宕機準確探測與實時發(fā)現(xiàn),可以給宕機分析提供第一現(xiàn)場,獲取第一現(xiàn)場的日志。也可以盡早將宕機數(shù)據(jù)推送給業(yè)務(wù)或運營感知并處理,如自動報修,業(yè)務(wù)遷移等,從而盡可能將業(yè)務(wù)影響降到最低。

更重要的是,準確的宕機發(fā)現(xiàn)數(shù)據(jù)可以為宕機預(yù)測提供準確的標注數(shù)據(jù),為后期宕機預(yù)測提供數(shù)據(jù)基礎(chǔ),并且這些數(shù)據(jù)提供給運營部門進行整體分析,提升處理效率。

那么,如何可以準確發(fā)現(xiàn)宕機,減少誤報呢?我們可以有以下操作,比如:

心跳源檢測異常

顧名思義,通過心跳源,初步發(fā)現(xiàn)異常。通常心跳變化會有三類消息,update消息,delete消息和insert消息。心跳邏輯在于,正常情況下SA服務(wù)端與NC建立長連接,每數(shù)秒緩存一次心跳,每幾分鐘打包上報一次,但當NC異常時,長連接感知后,立即上報異常,并修改路由表。所以心跳異常做到秒級感知。

update消息,在有心跳發(fā)生變化情況下都會有,心跳異常和心跳恢復(fù)正常時都會發(fā)起,是主要的心跳來源。

delete消息,在心跳異常,并且SA判斷ping不通,且ssh不通情況下發(fā)起,刪除該條消息,避免延遲太長。

insert消息,在新增加機器,或者重裝后重新上位的機器發(fā)起,該消息對宕機發(fā)現(xiàn)價值不大,配合uptime使用。

心跳源檢測任務(wù)邏輯,主要是監(jiān)聽并緩存uptime消息,同時避免時間窗內(nèi)多次消息沖突,導(dǎo)致信息被覆蓋。

異常排除

排除非物理機器,將系統(tǒng)中暫時不關(guān)注的VM等產(chǎn)生的異常信息排除掉。

排除非業(yè)務(wù)狀態(tài)的機器,如裝機狀態(tài)中的,包括生產(chǎn)中,維修中,遷移中,重裝中,銷毀中,重啟中,無管控狀態(tài),只監(jiān)控正常狀態(tài)的機器。

排除非正在工作的機器,如非working狀態(tài)機器。

網(wǎng)絡(luò)干擾排除

宕機分析中,較多誤報是由于網(wǎng)絡(luò)問題干擾,無法準確判斷出物理機是否宕機,有可能是網(wǎng)絡(luò)問題。

排除上聯(lián)網(wǎng)絡(luò)設(shè)備異常導(dǎo)致的誤報,包括機房斷網(wǎng)演練,小面積網(wǎng)絡(luò)故障,上聯(lián)網(wǎng)絡(luò)故障,如通過探測丟包情況,使用一些邏輯初步判斷網(wǎng)絡(luò)問題。

服務(wù)器本身未丟包的誤報,除了需要過濾出網(wǎng)絡(luò)問題,還要通過丟包數(shù)據(jù)分析,過濾掉SA誤報問題,SA異常會上報心跳異常,被誤理解為宕機。

icmp及tcp丟包分析,icmp采集頻率為固定數(shù)秒,tcp采集頻率固定數(shù)秒,包括多個不同大小包(16,32,64,128,256等)的丟包情況,根據(jù)分析時間窗內(nèi)兩項數(shù)據(jù)的丟包情況

特殊情況干擾排除

個別機房有時候會出現(xiàn)大面積風暴式的無故心跳異常,同時網(wǎng)絡(luò)ping包異常,但上聯(lián)網(wǎng)絡(luò)設(shè)備ping包正常,這種誤報,一般根據(jù)具體case具體進行針對性的分析。如根據(jù)監(jiān)控每個機房的上報頻率,排除干擾。

進一步識別誤報

至此,大部分干擾已經(jīng)過濾掉,但仍有一部分誤報隱藏其中。比如心跳異常,ping異常,都合乎宕機判斷的邏輯,會導(dǎo)致誤判成宕機,如導(dǎo)致網(wǎng)卡被打爆,或者重試率高,這種是業(yè)務(wù)原因?qū)е戮W(wǎng)絡(luò)異常,但業(yè)務(wù)認為不是異常,需要排除掉。再例如服務(wù)器并沒有掛掉,但是IO延時和資源占用率各項指標都不正常等場景。針對以上等情況,增加uptime判斷以及帶外日志分析排查。

宕機時間點探測uptime確定是否發(fā)生重啟。

進一步通過分析日志是否連續(xù),判斷是否發(fā)生重啟。

日志重啟特征值匹配,確認是否發(fā)生重啟。

如果還不能確定,使用uptime的時間窗技術(shù)進行重啟。

仍不能確定的待處理,進入長尾處理名單。

長尾再次處理

未確認的待處理的,會加入到長尾列表中,像這種分鐘級的心跳異常,ping異常,但串口日志一直正常輸出的情況,一般就是某種死機,死到連網(wǎng)絡(luò)都不通的場景。會觀察一段時間,一個固定時間窗內(nèi)仍未恢復(fù)或重啟的話,就暫時報宕機。后期會把這種死機單獨找劃分歸類。

講了這么多,到底效果怎么樣?

我們從準確率和覆蓋率來看:

準確率:目前發(fā)現(xiàn)的宕機中有很高準確度,可以區(qū)分出真正宕機或者未宕機。而判斷為宕機的數(shù)據(jù)中,也存在少量的,由于缺少相關(guān)信息導(dǎo)致誤報,該部分將進一步優(yōu)化,逐漸降低誤報,在新的措施之后,該比例會接近0。

覆蓋率:當前統(tǒng)計的覆蓋率已經(jīng)能很好的支撐日常宕機處理,該數(shù)據(jù)在有足夠的特征后,會進一步提升。

目前,宕機感知是宕機分析的基礎(chǔ),通過服務(wù)器宕機實時檢測,會把相應(yīng)的宕機原因分布整理出來,明確具體的原因,達成服務(wù)器極致可靠性。

分享題目:幾種常見的服務(wù)器異常
文章起源:http://aaarwkj.com/news/105048.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供網(wǎng)站導(dǎo)航、建站公司網(wǎng)站設(shè)計、虛擬主機做網(wǎng)站網(wǎng)站營銷

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)

成都app開發(fā)公司
日韩精品国产亚洲欧美| 线上免费看黄色亚洲片| 2020年国产97精品自拍| 久草免费人妻视频在线| 日本韩国一级黄色免费| 六十路人妻一区二区三区| 熟女av一区二区三区四区| 日本一区二区在线观看视频| 少妇互射视频免费视频| 亚洲人妻av一区二区| 精品一区二区久久久久久网精| 亚州中文字幕久久一区| 欧亚日韩精品一区二区在线| 深夜十八禁在线免费观看| 久久精品国产欧美日韩| 97视频免费观看在线| 亚洲第一狼人天堂在线| 日韩看片一区二区三区高清| av二区不卡国产精品| 又黄又爽区一区二区三| 亚洲精品伦理视频在线| 麻豆人妻少妇精品毛片| 久久亚洲综合精品人妻| 久久香蕉国产线看观看亚洲| 动漫美女视频在线看黄| 色吊丝日韩在线观看| 日本精品专区在线观看| 手机在线观看av网站| 精品日韩欧美精品日韩| 欧美丰满老妇性猛交| 亚洲乱码中文字幕在线观看| 91午夜福利国产在线观看| 91九色视频官网在线观看| av基地蜜桃蜜桃蜜桃| 日本一区二区三区免费看视频| 精品三级黄色国产片| 欧美精品蜜桃激情一区久久| 亚洲国产专区一区二区麻豆| 欧美日韩亚洲中文国产| 国产三级在线观看视频| 欧美激情欧美狂野欧美精品 |