崗位職責:
1、?負責業務上線,維護等日常運維工作,負責業務調優及配合開發人員解決問題;
2、??評估系統性能和運行狀態,建立量化指標,用數據指導優化;
3、?負責監控告警系統的設計和開發,做到監控可視化、故障自動化,7x24小時響應故障處理,對平臺的運維質量負責;
4、?和研發團隊一起持續優化線上系統,并進行前瞻性容量規劃;
5、?設計和實現數據業務線監控報警系統、自動構建部署系統、集群部署系統等;
6、積累并規范化系統運維的***實踐并文檔化;
7、開發運維自動化工具,持續提升工作內容的自動化比例;
8、技術文檔的整理和編寫。
崗位要求:
1、?本科及以上學歷,五年以上運維工作經驗;
2、?熟悉互聯網公司常用的技術,如Apache、Nginx、Mysql、memcache、TFS(分布式文件系統存儲)、LVS/Haproxy/Nginx、Docker等,進行高可用負載集群的架構實現;
3、?熟悉iptables、Linux內核參數、MySQL主從復制、服務器間數據同步、調優、系統安全、自動化部署;
4、?精通Linux操作系統,熟悉shell或python等語言,熟悉自動化運維,擅長ansible/puppet/SaltStack其中至少一項工具;
5、?精通VMware虛擬化平臺、熟練使用docker進行運維部署工作;
6、?精通至少一種自動化測試框架和一種監控系統;
7、?熟悉Mysql/postgresql,能熟練掌握Mysql/postgresql的基本操作,能對Mysql/postgresql進行性能優化,監控Mysql/postgresql日常運行情況,熟悉主備、主從、安全機制;
8、?精通大型監控架構及原理,熟悉系統、應用,數據庫等組件的監控配置經驗,熟悉后臺分布式系統的架構及容災設計;熟悉軟件發布,運維,優化,對軟件全生命周期管理有一定認識;
9、?具備快速故障排錯的能力,具備一定的大型應用系統的架構優化能力,優秀的全局觀,對服務器硬件、操作系統、網絡、存儲、應用中間件的工作原理等方面的技術有深入的理解和經驗;
10、了解web各種安全漏洞者優先,有大型分布式系統運維經驗者優先。