Sự hợp tác chiến lược giữa tập đoàn công nghệ FPT và gã khổng lồ bán dẫn Nvidia vừa mang lại một cột mốc mới cho cộng đồng trí tuệ nhân tạo Việt Nam. Tập dữ liệu mang tên Nemotron-Personas-Vietnam đã chính thức được phát hành rộng rãi, mở ra cơ hội làm chủ công nghệ và tinh chỉnh các mô hình ngôn ngữ lớn (LLM) thấu hiểu sâu sắc văn hóa, con người và xã hội nội địa.
Chỉ sau 5 ngày ra mắt trên Hugging Face – nền tảng chia sẻ mô hình và dữ liệu AI lớn nhất thế giới, bộ dữ liệu Nemotron-Personas-Vietnam đã xuất sắc lọt vào top 10 tập dữ liệu thịnh hành nhất toàn cầu.
Quy mô token khổng lồ: Phiên bản công khai của bộ dữ liệu sở hữu tổng dung lượng lên tới 118 triệu token (đơn vị cấu trúc mà AI dùng để đọc hiểu ngôn ngữ). Quy mô này đủ lớn để hỗ trợ toàn diện cho các nhà phát triển trong việc huấn luyện, tinh chỉnh (fine-tuning) hoặc đánh giá các mô hình AI tiếng Việt.
Chính sách chia sẻ linh hoạt: Toàn bộ dữ liệu được mở mã nguồn hoàn toàn, cho phép cộng đồng khai thác miễn phí cho cả mục đích thương mại lẫn phi thương mại, với điều kiện duy nhất là ghi nhận nguồn phát triển.

Một phân loại trong bộ dữ liệu Nemotron-Personas-Vietnam dựa trên nhóm nghề nghiệp. Ảnh: Hugging Face
Bản chất của các bản ghi trong Nemotron-Personas-Vietnam không phải là thông tin của người thật, nhằm tuyệt đối bảo vệ quyền riêng tư. Đây là hệ thống dữ liệu tổng hợp do AI tạo ra dựa trên phương pháp mã hóa và phân bố thống kê thực tế, phản ánh cực kỳ sát thực trạng xã hội Việt Nam hiện đại.
Mỗi "hồ sơ nhân vật" (persona) đại diện cho một người Việt giả định, được bóc tách sâu sắc qua nhiều trường thông tin đa chiều:
|
Nhóm dữ liệu cấu trúc |
Các trường thông tin chi tiết được tích hợp |
|
Nhân khẩu học cơ bản |
Tên tuổi, giới tính, trình độ học vấn, tình trạng hôn nhân. |
|
Kinh tế & Việc làm |
Nghề nghiệp cụ thể, kỹ năng chuyên môn, mục tiêu nghề nghiệp, mức thu nhập. |
|
Hành vi & Phong cách sống |
Khu vực cư trú (vùng miền, địa phương), sở thích cá nhân về thể thao, nghệ thuật, du lịch và ẩm thực. |
Sự phân tách dữ liệu chi tiết này cho phép các kỹ sư công nghệ dễ dàng lọc, phân nhóm và thiết lập các kịch bản tương tác chuẩn xác cho từng nhóm khách hàng mục tiêu hoặc nhu cầu ứng dụng của từng ngành nghề đặc thù.

FPT AI Factory. Ảnh: FPT
Phần lớn các mô hình AI phổ biến hiện nay (như ChatGPT, Claude) đều được nuôi dưỡng bằng kho dữ liệu khổng lồ tiếng Anh và bối cảnh xã hội phương Tây. Khi áp dụng trực tiếp vào cấu trúc thị trường Việt Nam, AI thường gặp điểm nghẽn lớn khi không thấu hiểu được các tầng nghĩa phong phú của ngôn ngữ, thói quen giao tiếp, sự khác biệt vùng miền và nhu cầu thực tế của người bản địa.
Việc bổ sung một kho dữ liệu thuần Việt quy mô lớn sẽ giúp các nhà phát triển giảm thiểu tối đa tình trạng thiên lệch (bias) trong quá trình huấn luyện máy học.
"AI có chủ quyền phải được xây dựng từ nền tảng để phản ánh ngôn ngữ, văn hóa và thực tế kinh tế địa phương. Tập dữ liệu Nemotron-Personas-Vietnam giúp nhà phát triển AI tiếp cận các nguồn lực cần thiết để xây dựng giải pháp AI dành riêng cho người Việt và có thể mở rộng ra khu vực." — PGS. TS Ngô Xuân Bách, Giám đốc khối sản phẩm AI tại FPT Smart Cloud nhấn mạnh.
Phương pháp luận tiêu chuẩn toàn cầu:
Nemotron-Personas là công nghệ độc quyền của Nvidia nhằm kiến tạo hồ sơ người giả lập có tính thực tế thống kê cao (hệ thống dữ liệu tương tự của Mỹ có khoảng 6 triệu bản ghi, Hàn Quốc có 7 triệu bản ghi). Bằng việc kết hợp phương pháp luận tiên tiến này với sự am hiểu bản địa sâu sắc, năng lực xác thực và hạ tầng tính toán mạnh mẽ của FPT (FPT AI Factory), bộ dữ liệu hứa hẹn sẽ mang lại bước nhảy vọt cho các giải pháp AI thế hệ mới phục vụ riêng cho người Việt.