Khái niệm ngoại tuyến gần như đã biến mất khỏi cuộc sống hiện đại, khi Internet đã trở thành nền tảng cốt lõi của hệ sinh thái tài chính, giao tiếp và tiêu dùng toàn cầu.
Tuy nhiên, dù đóng vai trò không thể thiếu, hệ thống này lại rất mong manh, với những sự cố thường xuyên xảy ra trong năm 2025, gây thiệt hại hàng tỷ USD và sự bất tiện lớn cho hàng triệu người dùng.
Sự phụ thuộc quá mức vào điện toán đám mây
Năm 2025 chứng kiến hàng loạt các sự cố kỹ thuật tại những nhà cung cấp cơ sở hạ tầng web lớn, làm sập dịch vụ trên diện rộng.
Chiều tối ngày 18/11 (giờ Việt Nam), sự cố kỹ thuật của Cloudflare đã khiến nhiều dịch vụ trực tuyến, từ quốc tế đến nội địa, đồng loạt ngừng hoạt động.
Trong đó, hàng loạt website có lưu lượng truy cập lớn tại Việt Nam như VOZ, tinhte, taimienphi.vn, thuvienphapluat.vn... cũng không thể truy cập, khiến nhu cầu sử dụng bị gián đoạn.
Trước đó không lâu, vào tháng 10, sự cố ngừng hoạt động kéo dài 15 giờ tại các trung tâm dữ liệu của Amazon khiến trẻ em Anh không thể truy cập nền tảng game Roblox, nhân viên không thể thực hiện các cuộc gọi qua Zoom, và các kỹ sư tại Ấn Độ phải hủy kế hoạch nghỉ lễ Diwali.
Dường như rất khó hiểu khi một vấn đề ở một nhà cung cấp lại có thể gây ra thiệt hại dây chuyền lớn đến vậy. Mặc dù vậy, theo Bloomberg, nguyên nhân nằm ở cách Internet phát triển kể từ khi ra đời, và ở những lối tắt về chi phí và hiệu quả mà các công ty cung cấp dịch vụ cho hàng triệu người dùng đã thực hiện.
Cụ thể, khi người dùng truy cập một trang web, thiết bị của họ sẽ gửi yêu cầu dữ liệu thông qua một chuỗi phức tạp: từ Wi-Fi hoặc dữ liệu di động đến các router, cáp, switch, trung tâm dữ liệu khu vực, và thậm chí qua cáp ngầm dưới biển, trước khi đến được máy chủ đích.
Bất kỳ sự cố nào dọc theo chuỗi kết nối này đều có thể gây ra mất kết nối. Có thể nói, nguyên nhân chính khiến các sự cố ngừng hoạt động xảy ra trên quy mô lớn hiện nay là do sự trỗi dậy của điện toán đám mây.
Vào những năm 1990, các công ty thường đặt máy chủ riêng ngay tại văn phòng. Do đó, mọi sự cố chỉ ảnh hưởng cục bộ.
Sau đó, Amazon nhận ra họ có thể cung cấp cơ sở hạ tầng dùng chung để giảm gánh nặng cho các công ty khác. Từ đó, Amazon Web Services (AWS) ra đời và khái niệm đám mây đã trở thành xu hướng chủ đạo.
Ngày nay, hầu hết dịch vụ Internet đều phụ thuộc vào 3 nhà cung cấp đám mây lớn là AWS, Azure của Microsoft và Google Cloud của Alphabet.
Ba công ty này thống trị điện toán đám mây toàn cầu, vận hành hàng triệu máy chủ được tổ chức thành các "khu vực" riêng biệt.
Sụp đổ dây chuyền
Chính sự tập trung vào các nhà cung cấp đám mây lớn đã vô tình tạo ra một điểm lỗi duy nhất khổng lồ. Theo đó, các công ty sử dụng dịch vụ đám mây sẽ phụ thuộc vào một khu vực cụ thể mà họ không hề hay biết.
Nếu khu vực đó sập, dịch vụ web cũng bị mất kết nối theo chuỗi. Sự cố AWS tháng 10 là điển hình, do một lỗi ảnh hưởng đến dịch vụ quan trọng, gây ra lỗi kết nối dây chuyền cho nhiều trang web lớn.
Đôi lúc, sự cố không chỉ do lỗi phần mềm, mà còn có thể từ cơ sở hạ tầng vật lý như máy chủ quá nóng hoặc cáp bị đứt.
Hồi tháng 7/2024, một bản cập nhật phần mềm lỗi từ công ty an ninh mạng CrowdStrike đã gây ra sự cố lớn nhất trong lịch sử ngành IT do tính chất cập nhật đồng thời của hệ thống đám mây.
Sự cố làm gián đoạn các hệ thống sử dụng trong ngành hàng không, bệnh viện và mạng lưới đường sắt, gây tổn thất hơn 5 tỷ USD cho các công ty thuộc danh sách Fortune 500.
Dù tiềm ẩn nhiều nguy cơ, nhưng không dễ tìm ra giải pháp khác. Do cơ sở hạ tầng công nghệ cần thiết cho mỗi dịch vụ đám mây là khác nhau, việc thay đổi có thể rất tốn kém.
Ngoài ra, các kỹ sư điện toán đám mây thường phải tuân theo các quy trình chứng nhận cho một nhà cung cấp cụ thể, làm tăng thêm chi phí và khó khăn trong việc đa dạng hóa nhà cung cấp.
Những sự cố như Cloudflare phần nào phơi bày sự phụ thuộc phức tạp của hạ tầng Internet vào các nhà cung cấp dịch vụ cốt lõi, vốn hoạt động âm thầm nhưng lại nắm giữ huyết mạch của mạng lưới trực tuyến.
Nhiều công ty thậm chí hoàn toàn dựa vào cơ sở hạ tầng của các ông lớn như Amazon, Cloudflare hay Microsoft để hoạt động hiệu quả. Nếu những dịch vụ này bị gặp sự cố và ngừng hoạt động, những trang web sẽ mất khả năng phân phối nội dung hiệu quả.
Tệ hơn nữa, khi những "lá chắn" này gặp vấn đề, các website ngay lập tức bị lộ điểm yếu và ngừng trệ. Nó khiến người dùng không thể truy cập nội dung, trong khi toàn bộ lớp bảo mật cũng bị vô hiệu hóa tạm thời, khiến các website phải đối mặt với nguy cơ bảo mật trong thời gian dịch vụ bị đình trệ.