"Nút thắt cổ chai" đe dọa Google, Meta

Dữ liệu văn bản do con người tạo ra ngày càng cạn kiệt, trở thành mối đe dọa nghiêm trọng với các công ty đang chạy đua AI như Google, Meta.

Fortune dẫn kết quả của nhóm nghiên cứu Epoch công bố ngày 6/6 rằng đến năm 2026-2032, các công ty sẽ hết dữ liệu để đào tạo AI. AI tạo sinh (GenAI) đang được ví như "cơn sốt vàng", việc chạy đua khai thác khiến nguồn dữ liệu do con người tạo ra, vốn hữu hạn, lại càng cạn kiệt.

Trong ngắn hạn, các công ty như OpenAI và Google đang tìm mọi cách để bảo vệ nguồn tài nguyên của mình, thậm chí trả tiền để tiếp cận dữ liệu chất lượng cao cho đào tạo AI.

CEO OpenAI Sam Altman (trái) và CEO Microsoft Satya Nadella tại một sự kiện của OpenAI hồi tháng 6/2023. Ảnh: CNBC
CEO OpenAI Sam Altman (trái) và CEO Microsoft Satya Nadella tại một sự kiện của OpenAI hồi tháng 6/2023. Ảnh: CNBC

Tamay Besiroglu, tác giả chính của nghiên cứu, lưu ý về lâu dài sẽ không đủ các bài viết, blog, tin tức và bình luận mới trên mạng xã hội để duy trì quỹ đạo phát triển hiện tại của AI. Khi một số thông tin liên quan đến email, văn bản được dán nhãn nhạy cảm hoặc riêng tư, "nút thắt cổ chai" của ngành sẽ hình thành.

"Nếu gặp hạn chế về lượng dữ liệu, bạn sẽ không thể mở rộng các mô hình AI một cách hiệu quả", Besiroglu nhận định. Một số nghiên cứu chỉ ra dữ liệu chất lượng cao dưới dạng văn bản sẽ không đủ để "nuôi" cỗ máy AI vào 2026. Khi đó, các công ty như OpenAI, Google, Meta, Microsoft sẽ gặp thách thức lớn trong cuộc đua AI.

Tuy nhiên, không phải ai cũng đồng ý với "nút thắt cổ chai" của ngành AI. Nicolas Papernot, phó giáo sư về kỹ thuật máy tính tại Đại học Toronto, nói: "Tôi nghĩ điều quan trọng cần lưu ý là chúng ta không nhất thiết phải đào tạo các mô hình ngày càng lớn hơn. Chúng ta có thể xây dựng những hệ thống AI chuyên cho các nhiệm vụ cụ thể".

Nhưng Papernot cũng chung lo ngại về việc đào tạo nhiều hệ thống AI trên cùng một kho dữ liệu có thể khiến hiệu suất mô hình bị giảm nghiêm trọng, dẫn đến "sụp đổ mô hình". Hơn nữa, việc đào tạo AI dựa trên chính dữ liệu do chúng tạo ra có thể khoét sâu vào những sai lầm của trí tuệ nhân tạo liên quan đến phân biệt chủng tộc, sai lệch thông tin.

Selena Deckelmann, Giám đốc sản phẩm và công nghệ của Wikipedia, nói: "Có một điểm thú vị là con người đang tạo ra một dạng tài nguyên mới - dữ liệu. Trong khi một số người tìm cách loại bỏ dữ liệu của mình khỏi chương trình đào tạo AI, tại Wikipedia chúng tôi đặt ra một số hạn chế đối với cách các công ty sử dụng nội dung do con người biên soạn. Đây sẽ là một trong những cách thức để giữ các tình nguyện viên tiếp tục đóng bài viết chất lượng cao". Deckelmann lưu ý điều các công ty AI nên lo lắng lúc này là làm sao để nội dung do con người tạo ra tiếp tục tồn tại và họ có quyền truy cập kho dữ liệu đó.

Tuy nhiên, nhóm nghiên cứu Epoch cho rằng việc các công ty trả tiền cho hàng triệu người tạo văn bản không chắc sẽ giúp tiết kiệm tiền. OpenAI đang có cách tiếp cận mới, tại một sự kiện của Liên Hợp Quốc vào tháng trước, CEO Sam Altman tuyên bố dùng dữ liệu tổng hợp để đào tạo AI. Dữ liệu tổng hợp ở đây được hiểu là cả nội dung do con người lẫn AI viết ra, trong đó có cả kho nội dung kém chất lượng.

Altman không phủ nhận điều này. Ông cho rằng các công ty như OpenAI buộc phải cân nhắc về việc phụ thuộc quá nhiều vào dữ liệu, thay vì tìm cách cải thiện mô hình AI. Ông nói: "Sẽ có những điều rất kỳ lại xảy ra nếu đào tạo mô hình AI dựa trên kho dữ liệu tổng hợp. Không chắc chắn sáng kiến này có đem lại hiệu quả tốt".

vnexpress.net

Đọc thêm

iPhone 18 tăng giá?

iPhone 18 tăng giá?

Làn sóng tăng giá bộ nhớ do nhu cầu máy chủ AI bùng nổ đang lan rộng ra toàn bộ chuỗi cung ứng, đẩy Apple vào thế khó khi chuẩn bị ra mắt iPhone 18.
Cách chỉnh sửa file PDF đơn giản, hiệu quả

Cách chỉnh sửa file PDF đơn giản, hiệu quả

File PDF là một trong những định dạng văn bản phổ biến hiện nay nhờ tính bảo mật cao và khả năng giữ nguyên định dạng trên mọi thiết bị. Tuy nhiên, việc chỉnh sửa file PDF lại không đơn giản như các tài liệu Word hay Excel.
Cách khắc phục lỗi iPad không nhận SIM

Cách khắc phục lỗi iPad không nhận SIM

iPad là dòng máy tính bảng ngày càng được nhiều người yêu thích và tin dùng. Trong quá trình sử dụng, iPad có thể gặp sự cố không nhận SIM làm gián đoạn quá trình giải trí, học tập và làm việc của người dùng.
Trung Quốc công bố 'chip dạng sợi' mỏng như tóc

Trung Quốc công bố 'chip dạng sợi' mỏng như tóc

Theo SCMP, các nhà khoa học Trung Quốc vừa tạo ra một bước đột phá trong công nghệ điện tử khi tích hợp thành công các mạch điện tử phức tạp vào những sợi dây dẻo, co giãn và mỏng như sợi tóc con người.
Xóa tệp rác đúng cách giúp máy tính chạy nhanh và bền

Xóa tệp rác đúng cách giúp máy tính chạy nhanh và bền

Trong quá trình sử dụng hằng ngày, máy tính dễ phát sinh nhiều dữ liệu dư thừa làm giảm hiệu năng và chiếm dụng bộ nhớ. Việc xóa tệp rác đúng cách, đúng thời điểm sẽ giúp thiết bị hoạt động trơn tru hơn.
Khắc phục tình trạng iOS 26 lỗi chụp màn hình

Khắc phục tình trạng iOS 26 lỗi chụp màn hình

iOS 26 mang đến nhiều trải nghiệm thú vị hơn cùng Apple Intelligence tiếng Việt, giúp việc dùng iPhone trở nên tiện lợi hơn. Tuy nhiên, trong quá trình cập nhật, một số thiết bị lại phát sinh lỗi nhỏ do chưa tương thích hoàn toàn.
Cách sử dụng Google dịch hình ảnh trên iPhone

Cách sử dụng Google dịch hình ảnh trên iPhone

Google Dịch là công cụ dịch thuật “quốc dân” được ưa chuộng, vượt xa khỏi khả năng dịch văn bản thông thường. Ứng dụng này sở hữu tính năng dịch bằng camera cho phép bạn hiểu mọi thông tin được thể hiện dưới dạng hình ảnh.
Viettel Telecom ra mắt “5G Family”- kết nối gia đình thời đại số cùng NSND Tự Long

Viettel Telecom ra mắt “5G Family”- kết nối gia đình thời đại số cùng NSND Tự Long

Tổng Công ty Viễn thông Viettel (Viettel Telecom) chính thức công bố giải pháp viễn thông cho hộ gia đình “5G Family”. Đồng thời, ra mắt phim ngắn “Dân chơi 5G - Tới bến tới bờ” với sự tham gia của NSND Tự Long, qua đó minh chứng sống động cho vai trò của công nghệ trong việc gắn kết tình thân giữa cuộc sống hiện đại.
Vì sao nhiều người sử dụng chế độ ban đêm trên điện thoại?

Vì sao nhiều người sử dụng chế độ ban đêm trên điện thoại?

Ngày nay, việc sử dụng điện thoại vào buổi tối đã trở thành thói quen phổ biến của nhiều người. Đây cũng chính là lý do khiến nhiều người quan tâm đến câu hỏi chế độ ban đêm trên điện thoại là gì và vì sao tính năng này lại được tích hợp sẵn trên hầu hết smartphone hiện đại.
Sắp không nhận ra iPhone

Sắp không nhận ra iPhone

Bản cập nhật iOS mới có tính năng chuyển dữ liệu và thông báo sang các thiết bị không phải của Apple, hướng đi rất cởi mở so với cách tiếp cận đóng trước đây.