Công nghệ tạo video AI của Google gây ấn tượng

Google Research đã phát hành một bài giới thiệu về Lumiere, một mô hình chuyển từ văn bản sang video.

Công nghệ tạo video AI của Google gây ấn tượng

Ảnh: ZD Net

Kể từ khi OpenAI phát hành DALL-E vào cuối năm 2022, các trình tạo văn bản thành hình ảnh đã trở nên bùng nổ với rất nhiều đối thủ cạnh tranh gia nhập thị trường. Giờ đây, hơn một năm sau, chúng ta đang ở những ngày đầu của một công nghệ mới: tạo video AI.

Mới đây, Google Research đã phát hành một bài giới thiệu về Lumiere, một mô hình chuyển từ văn bản sang video có thể tạo ra video sở hữu độ chân thực cao từ lời nhắc văn bản và các hình ảnh khác.

Theo bài viết, mô hình này được thiết kế để giải quyết một thách thức đáng kể trong việc tổng hợp video, đó là tạo ra “chuyển động chân thực, đa dạng và mạch lạc”. Bạn có thể nhận thấy các mô hình tạo video thường hiển thị video bị giật nhưng cách tiếp cận của Google mang lại trải nghiệm xem liền mạch hơn. Lumiere làm được điều đó thông qua kiến trúc Space-Time U-Net, trong đó tạo ra video hoàn chỉnh từ đầu đến cuối chỉ trong một lần chạy.

Phương thức này khác với những mô hình trước đây, vốn chỉ tổng hợp những khoảnh khắc chính và cách xa nhau, khiến video cuối cùng khó đạt được sự đồng nhất.

Lumiere có thể xây dựng phong cách riêng cho video, dựa trên hình ảnh mẫu do người dùng cung cấp. Ngoài tạo nội dung mới, nó cũng được dùng để chỉnh sửa hoặc chữa những phần bị lỗi trong video sẵn có theo yêu cầu của người dùng.

Google Research so sánh hiệu năng của Lumiere với các AI tạo video từ văn bản hiện nay, như ImagenVideo, Pika, ZeroScope và Gen2, bằng cách đề nghị một nhóm thử nghiệm chọn ra video có chất lượng hình ảnh và chuyển động tốt nhất, nhưng không cho biết chúng được tạo ra bởi mô hình nào. Theo báo cáo, Lumiere vượt xa mọi đối thủ trong thử nghiệm.

Hiện tại, mô hình này vẫn chưa được ra mắt công chúng; tuy nhiên, nếu bạn muốn tìm hiểu thêm, bạn có thể truy cập trang web Lumiere, nơi có nhiều bản demo khi mô hình thực hiện các nhiệm vụ khác nhau.

Theo ZD Net

Đọc thêm

Hồi chuông báo động cho Apple

Hồi chuông báo động cho Apple

Sự kết hợp giữa OpenAI, cha đẻ ChatGPT và bậc thầy thiết kế Jony Ive trong việc tạo ra một thế hệ thiết bị AI mới khiến cách tiếp cận của Apple bị đặt dấu hỏi.
iPhone 17 sẽ đắt đến đâu?

iPhone 17 sẽ đắt đến đâu?

Dựa vào chính sách thuế thay đổi liên tục, xu hướng giá của các đời máy trước, iPhone 17 có thể là chiếc iPhone đắt nhất từ trước đến nay.
Viettel đấu giá thành công băng tần 700 MHz

Viettel đấu giá thành công băng tần 700 MHz

Tập đoàn Công nghiệp - Viễn thông Quân đội (Viettel) vừa đấu giá thành công quyền sử dụng tần số vô tuyến điện đối với khối tần B2 – B2’ của băng tần 700MHz trong vòng 15 năm tới.
Đừng mắc lỗi ngớ ngẩn này khi dùng AI

Đừng mắc lỗi ngớ ngẩn này khi dùng AI

Việc sử dụng AI để tạo nội dung vẫn thường thấy trên các nền tảng. Tuy nhiên, một số người dùng quên bỏ câu dẫn nhập của AI, tạo ra những lỗi ngớ ngẩn.
Apple hối hả nhập iPhone từ Ấn Độ

Apple hối hả nhập iPhone từ Ấn Độ

Tình hình thuế quan của Mỹ đã buộc Apple phải đẩy nhanh nỗ lực sản xuất iPhone tại Ấn Độ, khi xuất khẩu từ nước này đã tăng gấp đôi kể từ năm 2024.
Tham vọng tiếp theo của Apple

Tham vọng tiếp theo của Apple

Nguồn tin tiết lộ nhóm thiết kế chip của Apple đang nghiên cứu phần cứng cho các thiết bị tương lai, bao gồm kính thông minh, máy Mac mạnh hơn và máy chủ trí tuệ nhân tạo.
Sắp tới lúc iPhone tăng giá

Sắp tới lúc iPhone tăng giá

Dù không xảy ra ngay lập tức, viễn cảnh iPhone tăng giá hiện diện trước mắt Apple nếu chính sách thuế quan của Mỹ không thay đổi.
Tiết lộ thiết kế độc đáo của iPhone 18

Tiết lộ thiết kế độc đáo của iPhone 18

Nguồn tin tiết lộ Apple đang có kế hoạch di chuyển các thành phần Face ID xuống dưới màn hình vào năm 2026, cho phép loại bỏ phần khuyết hình viên thuốc tạo nên Dynamic Island.
Rò rỉ nâng cấp đáng kể của iPhone 18

Rò rỉ nâng cấp đáng kể của iPhone 18

iPhone 18 có thể nhận được cải thiện hiệu suất từ bộ nhớ, với tin đồn Apple sẽ sử dụng tùy chọn bộ nhớ mới nhanh hơn trong phiên bản ra mắt năm 2026.
Câu lệnh có thể thao túng AI

Câu lệnh có thể thao túng AI

Phương pháp bẻ khoá, khai thác thông tin qua trí tuệ nhân tạo ngày càng tinh vi, đòi hỏi giải pháp bảo mật tốt hơn từ cá nhân và doanh nghiệp.