Ngày nay, các mô hình AI tạo sinh không xử lý văn bản giống như cách con người làm. Hiểu được môi trường nội tại dựa trên "token" của chúng có thể giúp giải thích một số hành vi kỳ lạ và những giới hạn cứng đầu của chúng.
Hầu hết các mô hình, từ các mô hình nhỏ như Gemma đến GPT-4o hàng đầu của OpenAI, đều được xây dựng trên một kiến trúc gọi là transformer. Do cách mà transformers tạo ra các liên kết giữa văn bản và các loại dữ liệu khác, chúng không thể tiếp nhận hoặc xuất ra văn bản thô mà không cần một lượng tính toán khổng lồ.
Vì lý do thực tế và kỹ thuật, các mô hình transformer hiện nay làm việc với văn bản đã được chia nhỏ thành các phần nhỏ hơn gọi là token - một quá trình được gọi là tokenization.
Tokens có thể là các từ, như "tuyệt vời". Hoặc chúng có thể là các âm tiết, như "tuy", "ệt", "vời". Tùy thuộc vào tokenizers - mô hình thực hiện việc tokenizing - chúng thậm chí có thể là các ký tự riêng lẻ trong từ (ví dụ, "t", "u", "y", "ệ", "t", "v", "ờ", "i").
Sử dụng phương pháp này, transformers có thể tiếp nhận nhiều thông tin hơn (theo nghĩa ngữ nghĩa) trước khi chúng đạt đến giới hạn trên được gọi là cửa sổ ngữ cảnh. Nhưng tokenization cũng có thể giới thiệu các thiên kiến.
Một số token có khoảng cách kỳ lạ, điều này có thể làm trật hướng một transformer. Một tokenizer có thể mã hóa "ngày xửa ngày xưa" thành "ngày", "xửa", "ngày", "xưa", trong khi mã hóa "ngày xửa ngày " (với khoảng trắng thừa) thành "ngày", "xửa", "ngày", " ". Tùy thuộc vào cách mô hình được đưa vào lệnh - với "ngày xửa ngày" hoặc "ngày xửa ngày " - kết quả có thể hoàn toàn khác nhau, vì mô hình không hiểu (như con người) rằng ý nghĩa là giống nhau.
Tokenizers cũng xử lý chữ hoa và chữ thường khác nhau. "Xin chào" không nhất thiết giống với "XIN CHÀO" đối với mô hình; "xin chào" thường là một token (tùy thuộc vào tokenizer), trong khi "XIN CHÀO" có thể là ba token ("XI", "N", "CHÀO"). Đó là lý do tại sao nhiều transformers thất bại trong bài kiểm tra chữ hoa.
Các phương pháp tokenization giả định rằng một khoảng trắng trong câu biểu thị một từ mới. Điều này là do chúng được thiết kế với tiếng Anh trong tâm trí. Nhưng không phải tất cả các ngôn ngữ đều sử dụng khoảng trắng để tách các từ. Tiếng Trung và tiếng Nhật không - cũng như tiếng Hàn, tiếng Thái hay tiếng Khmer.
Một nghiên cứu của Oxford năm 2023 cho thấy, do sự khác biệt trong cách tokenization của các ngôn ngữ không phải tiếng Anh, một transformer có thể mất gấp đôi thời gian để hoàn thành một nhiệm vụ được đặt ra bằng ngôn ngữ không phải tiếng Anh so với cùng một nhiệm vụ được đặt ra bằng tiếng Anh. Nghiên cứu tương tự - và một nghiên cứu khác - cho thấy người dùng của các ngôn ngữ ít hiệu quả về token có khả năng thấy hiệu suất mô hình kém hơn và trả phí cao hơn cho việc sử dụng, do nhiều nhà cung cấp AI tính phí theo token.
Tokenizers thường xử lý mỗi ký tự trong hệ thống viết logographic - hệ thống trong đó các biểu tượng in ấn đại diện cho từ mà không liên quan đến cách phát âm, như tiếng Trung - như một token riêng biệt, dẫn đến số lượng token cao. Tương tự, tokenizers xử lý các ngôn ngữ kết dính - ngôn ngữ trong đó các từ được tạo thành từ các yếu tố từ nhỏ có nghĩa gọi là morphemes, như tiếng Thổ Nhĩ Kỳ - thường biến mỗi morpheme thành một token, tăng tổng số lượng token. (Từ tương đương "xin chào" trong tiếng Thái, สวัสดี, là sáu token.)
Năm 2023, nhà nghiên cứu AI của Google DeepMind Yennie Jun đã thực hiện một phân tích so sánh tokenization của các ngôn ngữ khác nhau và các hiệu ứng sau đó. Sử dụng một tập dữ liệu văn bản song song được dịch sang 52 ngôn ngữ, Jun đã chỉ ra rằng một số ngôn ngữ cần gấp 10 lần số lượng token để nắm bắt cùng ý nghĩa trong tiếng Anh.
Ngoài các bất công ngôn ngữ, tokenization có thể giải thích tại sao các mô hình hiện nay kém trong việc giải quyết các vấn đề toán học.
Các chữ số hiếm khi được tokenized một cách nhất quán. Bởi vì chúng không thực sự biết số là gì, tokenizers có thể xử lý "380" như một token, nhưng biểu diễn "381" như một cặp ("38" và "1") - hiệu quả làm phá hủy các mối quan hệ giữa các chữ số và kết quả trong các phương trình và công thức. Kết quả là sự nhầm lẫn của transformer; một bài báo gần đây cho thấy rằng các mô hình gặp khó khăn trong việc hiểu các mẫu số lặp lại và ngữ cảnh, đặc biệt là dữ liệu thời gian. (Xem: GPT-4 nghĩ rằng 7.735 lớn hơn 7.926).
Đó cũng là lý do các mô hình không giỏi trong việc giải quyết các vấn đề anagram hoặc đảo ngược từ.
Vậy, tokenization rõ ràng gây ra thách thức cho AI tạo sinh hiện nay. Liệu chúng có thể được giải quyết không?
Có thể.
Feucht chỉ ra các mô hình không gian trạng thái "cấp byte" như MambaByte, có thể tiếp nhận nhiều dữ liệu hơn các transformer mà không bị phạt về hiệu suất bằng cách loại bỏ hoàn toàn tokenization. MambaByte, làm việc trực tiếp với các byte thô đại diện cho văn bản và các dữ liệu khác, cạnh tranh với một số mô hình transformer trong các nhiệm vụ phân tích ngôn ngữ đồng thời xử lý tốt hơn "nhiễu" như các từ có ký tự bị hoán đổi, khoảng cách và ký tự viết hoa.
Các mô hình như MambaByte vẫn đang trong giai đoạn nghiên cứu ban đầu.
"Có lẽ tốt nhất là để các mô hình nhìn trực tiếp vào các ký tự mà không áp đặt tokenization, nhưng hiện tại điều đó là không khả thi về mặt tính toán đối với các transformer," Feucht nói. "Đối với các mô hình transformer đặc biệt, tính toán tỷ lệ thuận với độ dài chuỗi, vì vậy chúng tôi thực sự muốn sử dụng các biểu diễn văn bản ngắn."
Nếu không có đột phá trong tokenization, có vẻ như các kiến trúc mô hình mới sẽ là chìa khóa.