Các nhà nghiên cứu người Nhật tại Đại học Tokyo và Alternative Machine đã chứng minh thành công việc ứng dụng mô hình GPT-4 của OpenAI để chuyển đổi ngôn ngữ tự nhiên thành các lệnh điều khiển robot hình người.
Nghiên cứu đột phá trong huấn luyện robot
Nghiên cứu mới công bố đã cho thấy mô hình nền tảng GPT-4 được áp dụng thành công trên robot hình người Alter3. Mô hình này có khả năng chuyển đổi các câu lệnh văn bản, ví dụ như "chụp ảnh tự sướng bằng điện thoại của bạn", thành các hành động cụ thể để robot thực hiện.
Cách thức hoạt động của mô hình này là sử dụng câu lệnh ban đầu để tạo ra một loạt các chuyển động cho robot thực thi. Danh sách các chuyển động này sau đó được chuyển đổi thành mã và đưa vào Alter3 để robot hoàn thành nhiệm vụ.
Nghiên cứu này được đánh giá là một bước đột phá trong việc đơn giản hóa quá trình huấn luyện robot, một công việc thường đòi hỏi nhiều giờ làm việc và lượng dữ liệu khổng lồ.
Trước khi sử dụng mô hình nền tảng, các nhà nghiên cứu phải kiểm soát tất cả 43 trục của robot theo một thứ tự nhất định để mô phỏng tư thế của con người hoặc thực hiện các hành vi như pha trà hay chơi cờ vua. Tuy nhiên, với cách tiếp cận mới này, các nhà phát triển robot có thể huấn luyện robot nhanh hơn và hiệu quả hơn.
Tối ưu hóa khả năng chuyển động và biểu cảm của robot
Mô hình GPT-4 không được thiết kế riêng cho các ứng dụng robot. Tuy nhiên, các nhà nghiên cứu đã sử dụng phương pháp học tập trong ngữ cảnh (in-context learning) để điều chỉnh mô hình sao cho nó có thể tạo ra các hành động dựa trên biểu thức ngôn ngữ và chuyển đổi chúng thành mã.
Mô hình có thể tạo ra một danh sách các hành động chung cho robot thực hiện, thay vì một danh sách riêng cho từng bộ phận cơ thể của robot. Người dùng có thể điều chỉnh các hành động mà họ muốn robot thực hiện bằng cách sử dụng ngôn ngữ tự nhiên, ví dụ như yêu cầu robot nâng cánh tay lên cao hơn khi chụp ảnh tự sướng.
Kết quả nghiên cứu cho thấy các hướng dẫn chuyển động được tạo ra bởi GPT-4 có chất lượng cao hơn so với những hướng dẫn được tạo ra bằng các kỹ thuật huấn luyện robot truyền thống.
Mô hình GPT-4 cũng cho phép Alter3 thực hiện các hành động phi nhân loại, chẳng hạn như giả làm ma hoặc rắn, bằng cách tận dụng cơ sở kiến thức rộng lớn của GPT-4 để hiểu cách diễn giải những hành động đó như cách con người có thể làm.
Tương lai của tương tác giữa người và robot
Các nhà nghiên cứu cho biết kết quả nghiên cứu đã chứng minh mô hình nền tảng của OpenAI có thể tạo ra một loạt các chuyển động đa dạng, từ các hành động hàng ngày đến việc mô phỏng các chuyển động phi nhân loại.
Đặc biệt hơn, mô hình này còn có thể giúp robot hình người thể hiện cảm xúc tốt hơn. Ngay cả khi sử dụng văn bản nhắc mà không nêu rõ biểu cảm cảm xúc, mô hình nền tảng vẫn có thể suy ra cảm xúc phù hợp và phản ánh chúng trong phản ứng vật lý của Alter3.
"Sự tích hợp giữa giao tiếp bằng lời nói và phi ngôn ngữ này có thể tăng cường tiềm năng cho các tương tác tinh tế và đồng cảm hơn với con người," các nhà nghiên cứu cho biết.
Nghiên cứu này đã mở ra một hướng đi mới đầy hứa hẹn cho sự phát triển của robot hình người, mang đến khả năng tương tác tự nhiên và linh hoạt hơn giữa con người và máy móc.