Nếu không có nghiên cứu này, ChatGPT, Claude hay Gemini có lẽ chưa từng ra đời. Năm 2017, tám nhà nghiên cứu tại Google Brain đã viết nên một tài liệu chỉ dài tám trang, nhưng đủ sức khởi đầu cho toàn bộ cuộc cách mạng Trí tuệ nhân tạo hiện đại.

Bài báo mang tên “Attention Is All You Need”, do Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser và Illia Polosukhin đồng tác giả, đã giới thiệu kiến trúc Transformer – nền tảng cho mọi mô hình AI ngôn ngữ lớn (LLM) hiện nay.
Trước năm 2017, AI gặp giới hạn lớn trong việc hiểu ngôn ngữ. Các mô hình đọc từ trái sang phải, giống như người đọc sách chỉ có thể nhớ từng chữ và quên mất nội dung trước đó. Khi đến từ “nó” trong câu “Con mèo không ăn vì nó no”, AI không thể biết “nó” đang nói về “con mèo” hay “thức ăn”.
Nhóm nghiên cứu của Google đặt câu hỏi: “Tại sao máy tính phải đọc tuần tự như con người?”. Họ nhận ra rằng, khác với con người, máy có thể xử lý toàn bộ câu cùng lúc. Và thế là cơ chế “chú ý” (attention) ra đời.
Trong cơ chế này, mỗi từ trong câu có thể “nhìn” và “tương tác” với tất cả các từ khác để hiểu ngữ cảnh. Khi đọc từ “nó”, mô hình tự động tìm xem “nó” ám chỉ ai. Mỗi từ được gán ba vai trò: Query (câu hỏi), Key (người trả lời) và Value (thông tin) – tạo nên một mạng lưới tương tác giúp AI hiểu được mối quan hệ ngữ nghĩa phức tạp.
Transformer còn có đến 8 đầu chú ý (multi-head attention), mỗi đầu phụ trách một khía cạnh khác nhau của ngôn ngữ: đại từ, chủ-vị, nguyên nhân, thời gian… Nhờ đó, AI không chỉ đọc, mà còn “hiểu” và “diễn giải” như con người.
Kiến trúc Transformer gồm hai phần: Encoder (mã hóa) và Decoder (giải mã), mỗi phần có 6 tầng xử lý. Thông tin đi qua từng tầng, được tinh chỉnh và diễn giải sâu hơn sau mỗi bước – giống như việc đọc đi đọc lại một đoạn văn để hiểu rõ hơn.
Một yếu tố tinh tế khác là mã vị trí (positional encoding) – giúp AI nhận biết thứ tự từ trong câu, dù xử lý toàn bộ cùng lúc. Nhờ đó, mô hình không bị “mất phương hướng” khi hiểu ngôn ngữ.
Kết quả thật đáng kinh ngạc. Transformer giúp mô hình dịch máy của Google cải thiện vượt bậc, giảm thời gian huấn luyện từ vài tuần xuống vài ngày. Trong vòng 18 tháng, hầu hết công ty công nghệ lớn đã bỏ RNN và CNN để chuyển sang Transformer.
Tuy nhiên, sức mạnh này cũng có giá. Càng nhiều từ, lượng tính toán càng tăng theo cấp số nhân. Với 1.000 từ, mô hình cần đến một triệu lần tương tác, khiến chi phí huấn luyện và vận hành trở nên khổng lồ. Đây là lý do các chatbot như ChatGPT vẫn giới hạn độ dài hội thoại.
Ngày nay, các nhà khoa học đang thử nghiệm kiến trúc mới như Mamba, RWKV hay Mixture of Experts để giảm chi phí và mở rộng khả năng xử lý văn bản dài vô hạn – nhưng tất cả vẫn lấy Transformer làm nền tảng.
Kiến trúc này không chỉ thay đổi xử lý ngôn ngữ tự nhiên, mà còn lan sang thị giác máy tính, âm thanh, sinh học, và nhiều lĩnh vực khác. Transformer không đơn thuần là một thuật toán, mà là một cách tư duy mới về ngôn ngữ và nhận thức máy móc.
Câu chuyện về tám nhà nghiên cứu ấy là minh chứng cho sức mạnh của sự tò mò và dám thách thức giới hạn. Giờ đây, họ đều đã rời Google để lập nên các công ty AI hàng đầu:
Aidan Gomez sáng lập Cohere (định giá 5,5 tỷ USD).
Jakob Uszkoreit dẫn dắt Inceptive, phát triển AI trong sinh học.
Lukasz Kaiser gia nhập OpenAI, góp phần tạo nên GPT-4 và o1.
Niki Parmar làm việc tại Anthropic, phát triển Claude.
Ashish Vaswani sáng lập Essential AI.
Llion Jones gia nhập Sakana AI tại Tokyo.
Illia Polosukhin bước vào lĩnh vực blockchain.
Chỉ Noam Shazeer ở lại Google, hiện lãnh đạo nhóm AI Gemini.
Dù mỗi người đã rẽ lối riêng, di sản của họ vẫn hiện hữu trong từng dòng hội thoại giữa con người và chatbot ngày nay. Một tài liệu tám trang – nhưng đủ để thay đổi cả lịch sử công nghệ nhân loại.