Tại sự kiện công nghệ Google I/O 2026 diễn ra vào ngày 19/5 vừa qua, ông lớn công nghệ Google đã chính thức trình làng Gemini Omni. Được định vị là mô hình "sáng tạo mọi thứ từ bất kỳ dữ liệu đầu vào nào", bước đi chiến lược này của hãng tập trung mạnh mẽ vào mảng đồ họa và sản xuất video chất lượng cao, đánh dấu sự tiến hóa vượt bậc sau thành tựu của mô hình tạo ảnh Nano Banana trước đó.
Điểm cốt lõi giúp Gemini Omni trở nên khác biệt trên thị trường công nghệ sinh sác chính là khả năng hợp nhất tài nguyên đa phương thức nhằm tạo ra một tác phẩm đầu ra đồng bộ tuyệt đối.
Tích hợp dữ liệu không giới hạn: Người dùng có thể kết hợp đồng thời hình ảnh, âm thanh, các đoạn clip ngắn và văn bản thuần túy làm tư liệu đầu vào. Hệ thống sẽ tự động xử lý và biên dịch thành video chất lượng cao dựa trên nền tảng hiểu biết sâu sắc về thế giới thực.
Chỉnh sửa video bằng cuộc hội thoại: Việc hậu kỳ video chưa bao giờ dễ dàng hơn thế. Thay vì sử dụng các thanh công cụ phức tạp, người dùng chỉ cần trò chuyện, mô tả mong muốn của mình bằng ngôn ngữ tự nhiên, Gemini Omni sẽ tự động lồng ghép, căn chỉnh mọi yếu tố để cho ra thành phẩm ăn khớp.
CEO Google DeepMind Demis Hassabis giới thiệu Gemini Omni tại Google I/O 2026. Ảnh: Internet.
Không chỉ dừng lại ở việc cắt ghép bối cảnh một cách thô sơ, mô hình AI mới của Google DeepMind được nâng cấp năng lực thấu hiểu trực quan các quy luật tự nhiên, khoa học và bối cảnh văn hóa lịch sử.
Bảo đảm tính nhất quán vật lý: Mô hình am hiểu sâu sắc tác động của các lực vật lý trong đời thực như trọng lực, động năng và động lực học chất lưu. Nhờ đó, các chuyển động của nhân vật hay dòng nước, làn khói trong video đều chân thực và giữ nguyên tính nhất quán xuyên suốt các khung hình.
Khả năng suy luận bối cảnh: Dựa trên kho dữ liệu tri thức khổng lồ của Gemini, Omni không chỉ xây dựng bối cảnh từ dữ liệu có sẵn mà còn có thể tự động suy luận logic về diễn biến, hành động tiếp theo của nhân vật, giúp thu hẹp khoảng cách giữa một thước phim kỹ xảo và một câu chuyện có chiều sâu.
Trước những lo ngại về việc lạm dụng AI để tạo các nội dung giả mạo hoặc độc hại, Google đã thiết lập những hàng rào kỹ thuật nghiêm ngặt nhằm bảo vệ người dùng một cách có trách nhiệm:
Giới hạn tính năng chỉnh sửa giọng nói: Đối với các tác vụ thay đổi âm thanh và lời nói trong video, hệ thống hiện đang trong giai đoạn thử nghiệm giới hạn và chỉ hỗ trợ xử lý trên chính giọng nói và âm thanh gốc của người dùng.
Tích hợp chứng chỉ xác thực dữ liệu: Tất cả các thành phẩm video được xuất bản từ cấu trúc Omni đều được tích hợp ngầm dấu mờ kỹ thuật số vô hình SynthID và chứng chỉ nội dung công nghệ C2PA. Người dùng có thể dễ dàng kiểm tra, xác minh nguồn gốc video này thông qua Google Search hoặc hệ sinh thái Gemini.
Mô hình thương mại đầu tiên thuộc hệ sinh thái này là Gemini Omni Flash đã chính thức được đưa vào vận hành với lộ trình tiếp cận đại chúng vô cùng linh hoạt:
Đối với người dùng chuyên nghiệp: Gói giải pháp bắt đầu khả dụng toàn cầu từ ngày hôm nay dành cho các tài khoản đăng ký gói Google AI Pro và Ultra thông qua ứng dụng Gemini và nền tảng Google Flow.
Đối với người dùng đại chúng: Google sẽ tích hợp miễn phí công cụ này vào các tính năng sáng tạo nội dung của hệ thống YouTube Shorts và ứng dụng YouTube Create ngay trong tuần này.
Đối với khối doanh nghiệp: Nền tảng API chuyên dụng sẽ sớm được mở cổng kết nối cho các nhà phát triển và khách hàng doanh nghiệp trong giai đoạn tiếp theo để tối ưu hóa hiệu suất vận hành.