Sean McCarthy dari YouTube dan COO Hydrolix Tony Falco tentang apa yang merusak kemampuan observasi modern dan bagaimana tim membangunnya kembali
Ketika jutaan pemirsa menyaksikan siaran langsung, tontonan di layar hanyalah sebagian dari cerita. Di balik setiap streaming, pemuatan gambar, tayangan iklan, dan klik terdapat aliran data mesin yang jarang dilihat konsumen.
Log CDN beroperasi sebagai sistem peredaran internet. Selama siaran langsung besar, McCarthy dan Falco menjelaskan lingkungan yang dapat menghasilkan jutaan baris log per detik. Dalam diskusinya, mereka menunjuk pada operasi streaming yang dapat menghasilkan sekitar 8 terabyte data log dalam satu hari. Pada skala global, penurunan kinerja sekecil apa pun dapat berdampak buruk, mengganggu pengalaman pengguna, dan, dalam kasus ekstrem, memicu kegagalan sistem yang berjenjang.
Ketegangan pada tim data semakin meningkat. Sistem yang dirancang untuk volume lalu lintas masa lalu kini beroperasi dengan kecepatan dan skala yang sangat berbeda.
Untuk mengetahui penyebab kegagalan saluran data modern, Sean McCarthy, Kepala OTT Live Engineering di YouTube, bersama Tony Falco, COO Hydrolix, menjelaskan apa yang mereka lihat sebagai lima kendala struktural yang menghambat kemampuan observasi saat ini.
Titik Buta Multi CDN
Bagi perusahaan yang beroperasi di beberapa CDN, fragmentasi menjadi hambatan pertama.
Setiap vendor menyusun bidang secara berbeda. Log tiba pada jadwal yang berbeda. Tim menormalkan data sesuai dengan prioritas internal. Hasilnya adalah visibilitas terbatas pada saat dibutuhkan kejelasan.
“Kami sering mengalami masalah besar dalam mendapatkan tampilan data yang tunggal dan koheren. Ini adalah tantangan operasional utama dalam menjalankan lingkungan multi-CDN,” jelas McCarthy.
Sebelum logging real-time matang, tim mengandalkan analisis klien yang tertunda atau peringatan pemadaman vendor. Kelambatan ini membawa risiko selama siaran langsung.
“Visibilitas sub-detik yang terpadu saat ini versus masa lalu adalah perbedaan antara foto sejarah yang buram dan tayangan langsung 4K.”
Falco mengatakan fragmentasi adalah inti dari pendirian Hydrolix. Berdasarkan pengalaman tim di Cedexis, tempat pengumpulan data CDN berukuran petabyte, dia mengingat tekanan finansial yang menyertai skala tersebut.
“Setiap permintaan CDN menghasilkan puluhan peristiwa log yang memberi tahu Anda di setiap langkah bagaimana segala sesuatunya berfungsi. Kami memproses miliaran transaksi setiap hari, dan meskipun skalanya meningkat, biaya BigQuery mendekati biaya jumlah karyawan. Nilai data hanya berharga jika Anda dapat memperoleh wawasan darinya. Kami berupaya memecahkan masalah mendasar tersebut.”
Normalisasi, menurut keduanya, merupakan prasyarat agar observasi dapat dilakukan secara efektif. Tanpa hal ini, setiap keputusan hilir akan menjadi reaktif.
Ketika Skala Melampaui Arsitektur
Bahkan setelah data disatukan, volume tetap menjadi kendala kedua.
“Jumlah besar data yang dihasilkan sumber multi-CDN sulit untuk dipahami,” kata McCarthy. “Tidak cukup hanya mengumpulkan data dalam jumlah besar; Anda memerlukan kemampuan untuk menanyakan dan mengamatinya saat data tersebut diserap.”
Arsitektur lama tidak dibuat untuk diserap pada kecepatan ini. Falco mengaitkan skalabilitas generasi berikutnya dengan perubahan struktural dalam infrastruktur.
“Hal ini menghasilkan dua inovasi besar: penyimpanan objek cloud seperti S3 dan Kubernetes. Bersama-sama, keduanya membuat arsitektur terpisah di mana penyerapan dan penskalaan kueri dilakukan secara independen. Anda dapat beralih dari 10 pod ke 100 pod dan kembali lagi tanpa melakukan provisi yang berlebihan.”
Elastisitas menjadi penentu.
“Dalam banyak sistem, Anda tidak dapat melakukan penurunan skala setelah Anda melakukan peningkatan. Sistem lama mengirimkan, menghitung, menyerap, dan menyimpan sebagai satu unit yang kaku, namun Hydrolix memecahnya. Dengan Kubernetes, keseluruhan bagian depannya bersifat elastis.”
Kemampuan untuk melakukan ekspansi selama permintaan puncak dan kontrak setelahnya membentuk kinerja dan disiplin biaya.
Ekonomi Retensi
Selama bertahun-tahun, retensi log fidelitas penuh menimbulkan hambatan finansial. Berdasarkan banyak model penetapan harga tradisional, mempertahankan 10 terabyte per hari di luar jangka waktu 90 hari dapat meningkat menjadi ratusan ribu dolar per bulan, menurut Falco. Oleh karena itu, pengambilan sampel menjadi praktik umum.
Namun, pengambilan sampel menyembunyikan kasus-kasus tepi.
“Masalah kinerja sering kali merupakan peristiwa yang sangat spesifik yang ditutupi oleh agregasi,” catat McCarthy. “Log fidelitas penuh memastikan Anda menangkap setiap kesalahan unik.”
Hydrolix mengatasi persamaan biaya melalui kompresi yang menurut perusahaan dapat mencapai 25 hingga 50 kali lipat pada penyimpanan objek komoditas.
“Kami menggunakan penyimpanan panas yang paling hemat biaya dan kemudian kami menerapkan kompresi kami sendiri dan mempartisi datanya,” kata Falco. “Ia mengambil data bahkan dari penyimpanan yang lebih lambat. Semua itu menghasilkan database yang berkinerja tinggi dan tahan lama dengan biaya yang lebih murah.”
Retensi yang diperluas memperluas apa yang dapat dianalisis oleh tim, termasuk anomali QoE yang jarang terjadi, kegagalan spesifik perangkat, pola kemacetan regional, penyimpangan SLA, dan perubahan kinerja pengujian A dan B.
Hydrolix juga merujuk pada komentar yang beredar di forum industri. Seorang pengguna menulis:
Kami pindah ke Hydrolix. Retensi 15+ bulan berarti kami benar-benar dapat melakukan beberapa analisis…dan biayanya sekitar 25% dari Splunk. (Nama Pengguna Pik000)
Bagi McCarthy, implikasi yang lebih luas bersifat langsung.
“Mengatasi permasalahan yang dipecahkan Hydrolix tidak dapat dinegosiasikan.”
Visibilitas di Lapisan Bisnis
Kesenjangan yang dapat diobservasi tidak hanya terjadi di dalam tim teknik. Hal ini muncul dalam bentuk kebocoran pendapatan, kelebihan infrastruktur, dan paparan keamanan.
Falco menunjuk pada titik buta firewall sebagai salah satu contohnya.
“Kami menemukan bahwa sebagian besar lalu lintas yang seharusnya diblokir ternyata tidak diblokir.” Dia menambahkan, “Kami melihat sebanyak 60% lalu lintas pada merek-merek besar berasal dari bot dan melewati firewall mereka.”
Dia mencirikan hal ini sebagai pengamatan yang diambil dari lingkungan pelanggan Hydrolix dan bukan statistik pasar universal.
Konsekuensinya mencakup kelebihan biaya CDN, ketegangan asal, lonjakan latensi, dan risiko keamanan yang lebih luas.
“Keputusan yang perlu diambil oleh para pemimpin relatif sederhana, kecuali mereka tidak mendapatkan informasi yang diperlukan untuk membuat keputusan sederhana tersebut.” Falco menjelaskan bahwa “tim memerlukan waktu dua atau tiga hari untuk menyelesaikan satu peringatan. Jumlah simpanan meningkat. Orang-orang kehabisan tenaga. Mampu mengklasifikasikan peristiwa secara real-time dan segera bertindak adalah kuncinya.”
McCarthy mencatat bahwa ketika visibilitas menjadi normal dan cepat, pola respons pun berubah. Tim bertindak lebih cepat. Insiden dapat diatasi sebelum meluas.
Pembagian Bangun Versus Beli
Membangun pipeline multi CDN real-time yang dipesan lebih dahulu memerlukan keahlian khusus. Hal ini memerlukan keahlian dalam rekayasa penyerapan, pemodelan data, dan infrastruktur terdistribusi yang tidak dikelola secara internal oleh banyak organisasi.
“Hal ini sering kali memerlukan tim yang berdedikasi,” kata McCarthy. “Kecuali jika bisnis inti Anda adalah analisis real-time, mungkin tidak masuk akal untuk membangunnya sendiri.”
Falco memperkuat penilaian itu.
“Sangat sedikit perusahaan yang dapat membangun sesuatu yang rumit dan dapat diperoleh sendiri. Perusahaan seperti Lyft, Uber, dan Nielsen berkembang karena seluruh bisnis mereka menuntutnya. Kebanyakan perusahaan mencoba, menemui kerumitan, gagal, dan pada saat yang sama menghabiskan jauh lebih banyak uang dibandingkan dengan vendor khusus.”
Mengurangi Mean Time to Resolusi menjadi garis pemisah.
“Ini adalah negara adikuasa kami,” kata Falco. “Jika Anda merangkum setiap testimoni, studi kasus, dan panggilan telepon, permasalahan yang kami perbaiki adalah sama: Temukan dan perbaiki masalah sebelum pelanggan—atau atasan Anda—melihatnya.”
Pengecer elektronik Nordik Elkjøp memberikan studi kasus. Selama Black Friday 2024, perusahaan mendeteksi permulaan serangan DDoS dan menggunakan TrafficPeak untuk merespons.
Ketika ditanya apa yang dimaksud dengan “instan” dalam praktiknya, Ketua Tim Elkjøp, eCommerce Jonas Petersson menjawab, “Seluruh kejadian mulai dari mendeteksi hingga menghentikan serangan terjadi secara instan. Tidak ada situs yang berhenti beroperasi dan tidak ada pelanggan kami yang mengalami dampak apa pun.”
Organisasi yang berupaya mereplikasi jalur serupa secara internal sering kali mendapati diri mereka melakukan investasi besar pada infrastruktur, sementara kendala operasional masih belum terselesaikan.
Dasar Baru untuk Streaming
Platform streaming sekarang beroperasi di lingkungan di mana penundaan terlihat dan kegagalan bersifat publik. Fragmentasi, skala, biaya retensi, kekakuan arsitektur, dan kesenjangan keterampilan digabungkan untuk memperlebar kesenjangan antara insiden dan intervensi.
Falco menyaring mandat tersebut.
“Kurangi waktu antara munculnya masalah dan manusia memperbaikinya. Ketika Anda melakukan hal tersebut, segala hal lainnya — biaya, retensi, kinerja — akan berjalan dengan baik.”
Dalam perekonomian yang diukur dalam milidetik, memperpendek interval tersebut telah menjadi penanda ketahanan.