Microsoft merinci Project Tardigrade, sebuah inisiatif ketahanan Azure

Microsoft merinci Project Tardigrade, sebuah inisiatif ketahanan Azure 1

Microsoft telah melakukan peningkatan keandalan Azure dalam beberapa bulan terakhir. Pada bulan Juli, CTO Azure Mark Russinovich merinci beberapa hal ini dalam posting blog, termasuk referensi ke Proyek Tardigrade, yang pertama kali diumumkan pada konferensi Build tahun ini. Bagi mereka yang tidak mengetahui tujuannya, ini adalah layanan baru yang bertujuan untuk meningkatkan ketahanan Azure, dan dinamai sesuai dengan beruang air mikroskopis "hampir tidak bisa dihancurkan".

Hari ini, Russinovich telah memperluas inisiatifnya, menjelaskan fungsionalitas aktualnya secara lebih rinci, sambil juga menyoroti peningkatan layanan yang akan datang.

Tardigrade berisi strategi mitigasi yang berfungsi dalam melindungi mesin virtual Azure (VM) dari kegagalan platform yang tidak terduga. Dengan demikian, mekanisme penyembuhan diri termasuk dalam layanan ini untuk memulai pemulihan cepat dan mengurangi dampak pada beban kerja pengguna. Tidak hanya kondisi setiap VM dipertahankan bahkan ketika menghadapi bentuk ekstrim dari kegagalan kritis, seperti kegagalan tingkat kernel dan masalah firmware, tetapi penyebab mendasar di balik masalah ini juga ditangani untuk mencegah kemunculan mereka kembali. Implementasi layanan ini mencakup berbagai lapisan perangkat keras dan perangkat lunak platform komputasi awan Microsoft, menempatkan ketahanan platform dan ketersediaan layanan yang tinggi di garis depan.

Microsoft merinci Project Tardigrade, sebuah inisiatif ketahanan Azure 2 Gambar melalui u / iJubag (Reddit)

Contoh alur kerja pemulihan yang dijalankan setelah kegagalan operasi VM karena masalah server host telah dijelaskan dengan cara berikut:

  • Fase 1:
    • Langkah ini tidak berdampak untuk menjalankan VM pelanggan. Itu hanya mendaur ulang semua layanan yang berjalan di host. Dalam kasus yang jarang terjadi bahwa layanan bermasalah tidak berhasil memulai kembali, kami melanjutkan ke Fase 2.
  • Fase 2:
    • Layanan diagnostik kami berjalan pada host untuk mengumpulkan semua log / dump yang relevan secara sistematis, untuk memastikan bahwa kami dapat mendiagnosis secara menyeluruh alasan kegagalan pada Fase 1. Analisis komprehensif ini memungkinkan kami untuk 'membasmi' masalah dan dengan demikian mencegah terulangnya kembali di masa mendatang. .
  • Fase 3:
    • Pada tingkat tinggi, kami mengatur ulang OS menjadi kondisi yang sehat dengan dampak pelanggan minimal untuk mengurangi masalah host. Selama fase ini kita mempertahankan status masing-masing VM ke RAM, setelah itu kita mulai mengatur ulang OS menjadi keadaan sehat. Sementara OS dengan cepat me-reset di bawahnya, menjalankan aplikasi pada semua VM yang di-host di server sebentar 'beku' karena CPU sementara ditangguhkan. Pengalaman ini mirip dengan koneksi jaringan yang hilang sementara tetapi dengan cepat dilanjutkan karena coba lagi logika. Setelah OS berhasil diatur ulang, VM menggunakan status tersimpannya dan melanjutkan aktivitas normal, sehingga mengelak dari kemungkinan reboot VM.

Meskipun alur kerja yang disebutkan di atas sedang digunakan dalam implementasi Tardigrade saat ini, skenario kegagalan host lebih lanjut juga sedang diuji untuk mengeksplorasi lebih banyak jalur pemulihan. Di masa depan, pendekatan pembelajaran mesin akan digunakan untuk mendeteksi pola pemanfaatan sumber daya yang abnormal dari ujung host. Selain itu, algoritma pembelajaran mesin lainnya juga direncanakan akan digunakan untuk memberikan bantuan dalam tugas perbaikan.

Microsoft percaya bahwa ketahanan platform adalah komponen penting Azure. Dengan demikian, raksasa teknologi akan terus meningkatkan keandalan di seluruh platform komputasi awan. Pembaruan lain untuk Azure dalam beberapa hari terakhir termasuk reservasi baru dan rencana pra-pembelian untuk beberapa layanan, bersama dengan beberapa fitur keamanan lainnya untuk File yang secara umum tersedia.

Pos terkait

Back to top button