Sau nhiều năm thống trị của mô hình AI transformer, cuộc tìm kiếm các kiến trúc mới đang diễn ra sôi nổi.
Transformers là nền tảng cho nhiều mô hình tạo văn bản và video nổi tiếng như Sora của OpenAI, Claude của Anthropic, Gemini của Google, và GPT-4. Tuy nhiên, transformers đang gặp phải những rào cản kỹ thuật, đặc biệt là về khả năng tính toán.
Transformers không hiệu quả trong việc xử lý và phân tích lượng dữ liệu khổng lồ trên phần cứng phổ thông. Điều này dẫn đến sự gia tăng nhu cầu năng lượng đáng kể và có thể không bền vững khi các công ty xây dựng và mở rộng cơ sở hạ tầng để đáp ứng yêu cầu của transformers.
Một kiến trúc hứa hẹn được đề xuất gần đây là mô hình đào tạo tại thời gian chạy (TTT), được phát triển trong vòng một năm rưỡi bởi các nhà nghiên cứu tại Stanford, UC San Diego, UC Berkeley và Meta. Nhóm nghiên cứu tuyên bố rằng mô hình TTT có thể xử lý lượng dữ liệu lớn hơn nhiều so với transformers mà không tiêu tốn nhiều năng lượng tính toán.
Một thành phần cơ bản của transformers là "trạng thái ẩn", về cơ bản là một danh sách dài các dữ liệu. Khi một transformer xử lý dữ liệu, nó thêm các mục vào trạng thái ẩn để "nhớ" những gì vừa xử lý. Ví dụ, khi mô hình xử lý một cuốn sách, các giá trị trạng thái ẩn sẽ là các biểu diễn của các từ (hoặc các phần của từ).
“Bạn có thể tưởng tượng transformer như một thực thể thông minh, thì bảng tra cứu - trạng thái ẩn - là bộ não của transformer,” Yu Sun, một nghiên cứu sinh sau tiến sĩ tại Stanford và là đồng tác giả của nghiên cứu về TTT, cho biết. “Bộ não chuyên biệt này cho phép transformers có các khả năng nổi tiếng như học trong ngữ cảnh.”
Trạng thái ẩn là một phần tạo nên sức mạnh của transformers, nhưng nó cũng là điểm yếu của chúng. Để "nói" về một cuốn sách vừa đọc, mô hình phải quét qua toàn bộ bảng tra cứu của nó - một nhiệm vụ đòi hỏi tính toán như đọc lại toàn bộ cuốn sách.
Vì vậy, Sun và nhóm của mình đã nghĩ đến việc thay thế trạng thái ẩn bằng một mô hình học máy - như những con búp bê lồng nhau của AI, một mô hình bên trong một mô hình.
Điều này có phần kỹ thuật, nhưng tóm lại là mô hình bên trong của TTT, không giống như bảng tra cứu của transformers, không phát triển khi xử lý thêm dữ liệu. Thay vào đó, nó mã hóa dữ liệu vào các biến đại diện gọi là trọng số, khiến mô hình TTT rất hiệu quả. Dù xử lý bao nhiêu dữ liệu, kích thước của mô hình bên trong TTT sẽ không thay đổi.
Sun tin rằng các mô hình TTT trong tương lai có thể xử lý hàng tỷ mẩu dữ liệu, từ văn bản đến hình ảnh, âm thanh đến video, vượt xa khả năng của các mô hình hiện nay.
“Hệ thống của chúng tôi có thể nói X từ về một cuốn sách mà không cần độ phức tạp tính toán của việc đọc lại cuốn sách X lần,” Sun nói. “Các mô hình video lớn dựa trên transformers, như Sora, chỉ có thể xử lý 10 giây video, vì chúng chỉ có bộ não bảng tra cứu. Mục tiêu cuối cùng của chúng tôi là phát triển một hệ thống có thể xử lý một video dài giống như trải nghiệm hình ảnh của một cuộc sống con người.”
Vậy liệu mô hình TTT có thay thế transformers trong tương lai? Có thể. Nhưng còn quá sớm để khẳng định chắc chắn.
Mô hình TTT không phải là giải pháp thay thế hoàn hảo cho transformers. Nhóm nghiên cứu chỉ phát triển hai mô hình nhỏ để nghiên cứu, khiến TTT khó so sánh với một số triển khai transformers lớn hiện nay.
“Tôi nghĩ đó là một đổi mới rất thú vị, và nếu dữ liệu hỗ trợ tuyên bố rằng nó mang lại hiệu quả thì đó là tin tuyệt vời, nhưng tôi không thể nói liệu nó có tốt hơn các kiến trúc hiện có hay không,” Mike Cook, giảng viên cao cấp tại Khoa Tin học của Đại học King’s College London, người không tham gia nghiên cứu về TTT, cho biết. “Một giáo sư cũ của tôi thường nói đùa khi tôi là sinh viên: Làm thế nào để giải quyết bất kỳ vấn đề nào trong khoa học máy tính? Thêm một lớp trừu tượng nữa. Thêm một mạng nơ-ron bên trong một mạng nơ-ron thực sự làm tôi nhớ đến điều đó.”
Dù vậy, tốc độ nghiên cứu nhanh chóng về các giải pháp thay thế cho transformers chỉ ra sự nhận thức ngày càng tăng về nhu cầu cho một bước đột phá.
Gần đây, công ty khởi nghiệp AI Mistral đã phát hành một mô hình, Codestral Mamba, dựa trên một giải pháp thay thế khác cho transformers gọi là mô hình không gian trạng thái (SSM). SSM, giống như TTT, có vẻ hiệu quả hơn về mặt tính toán so với transformers và có thể mở rộng để xử lý lượng dữ liệu lớn hơn.
AI21 Labs cũng đang khám phá SSM. Cartesia, công ty tiên phong một số SSM đầu tiên và các mô hình Mamba của Codestral, cũng đang trong quá trình nghiên cứu.
Nếu những nỗ lực này thành công, AI sinh tạo có thể trở nên phổ biến hơn và dễ tiếp cận hơn nhiều so với hiện nay — có thể là điều tốt hoặc xấu.
Kiến trúc TTT có thể là bước đột phá trong AI, mang lại khả năng xử lý dữ liệu lớn mà không tiêu tốn quá nhiều năng lượng, mở ra tiềm năng mới cho các ứng dụng AI trong tương lai.