Salesforce đã giới thiệu một tiêu chuẩn đánh giá mô hình ngôn ngữ mới, được thiết kế đặc biệt cho các doanh nghiệp để đánh giá các mô hình AI trong các nhiệm vụ quản lý quan hệ khách hàng (CRM).
Tiêu chuẩn đánh giá là các công cụ được tạo ra để đánh giá hiệu suất của một mô hình ngôn ngữ. Chúng bao gồm các công cụ và bài kiểm tra cung cấp cho chủ sở hữu mô hình một đánh giá về kết quả của mô hình trên các nhiệm vụ cụ thể, chẳng hạn như tiêu chuẩn MMLU để đánh giá kiến thức tổng quát.
Tiêu chuẩn đánh giá mới của Salesforce tập trung vào CRM, cho phép các chủ sở hữu mô hình đánh giá hiệu suất của hệ thống AI của họ trên các trường hợp sử dụng trong bán hàng và dịch vụ theo bốn tiêu chí chính: độ chính xác, chi phí, tốc độ và độ tin cậy.
Tiêu chuẩn đánh giá mới này được phát triển bởi đội ngũ nghiên cứu AI của Salesforce. Họ cho rằng các tiêu chuẩn mô hình trước đây thiếu tính thực tiễn kinh doanh, không đánh giá các tiêu chí mà doanh nghiệp quan tâm, chẳng hạn như chi phí vận hành và các yếu tố tin cậy.
Salesforce cho biết tiêu chuẩn đánh giá CRM mới giúp các doanh nghiệp đưa ra quyết định chiến lược hơn về việc triển khai hệ thống AI cho các trường hợp sử dụng CRM.
“Các tổ chức kinh doanh đang tìm cách sử dụng AI để thúc đẩy tăng trưởng, cắt giảm chi phí và cung cấp trải nghiệm khách hàng cá nhân hóa, chứ không phải để lên kế hoạch cho một bữa tiệc sinh nhật của trẻ con hay tóm tắt Othello,” Clara Shih, CEO của Salesforce AI, cho biết. “Tiêu chuẩn đánh giá này không chỉ là một thước đo; nó là một khung công cụ toàn diện và linh hoạt giúp các công ty đưa ra quyết định thông minh, cân bằng giữa độ chính xác, chi phí, tốc độ và độ tin cậy.”
Chủ sở hữu mô hình có thể so sánh kết quả của họ từ tiêu chuẩn đánh giá của Salesforce trên một bảng xếp hạng công khai.
Khi ra mắt, tiêu chuẩn đánh giá của Salesforce xếp hạng GPT-4 Turbo của OpenAI là mô hình chính xác nhất cho CRM, trong khi Claude 3 Haiku của Anthropic được xếp hạng là mô hình rẻ nhất để triển khai.
Mixtral 8x7B từ công ty khởi nghiệp AI của Pháp, Mistral, được xếp hạng là mô hình nhanh nhất. Các hệ thống nhanh nhất đều là các mô hình ngôn ngữ nhỏ, với hệ thống quy mô lớn nhất được xếp hạng cao nhất về tốc độ là GPT-3.5 Turbo, đứng dưới mô hình Mistral năm vị trí.
Mô hình có điểm tin cậy và an toàn cao nhất là Google’s Gemini Pro 1.5, đạt điểm 91%. Hai mô hình Llama 3 mới của Meta, 8B và 70B, theo sau Gemini Pro với điểm số 90%.
GPT-4 Turbo và GPT-4o mới của OpenAI chỉ đạt điểm tin cậy và an toàn lần lượt là 89% và 85%.
Mô hình ít tin cậy nhất là GPT-3.5 Turbo của OpenAI, chỉ đạt điểm an toàn 60%, với kết quả kém trong các bài kiểm tra đánh giá quyền riêng tư và tính chân thật.
Salesforce dự định bổ sung các kịch bản sử dụng CRM mới vào tiêu chuẩn đánh giá và hỗ trợ các mô hình đã được tinh chỉnh.
“Khi AI tiếp tục phát triển, các nhà lãnh đạo doanh nghiệp cho rằng việc tìm ra sự kết hợp đúng đắn giữa hiệu suất, độ chính xác, trách nhiệm và chi phí là quan trọng để khai thác tối đa tiềm năng của AI tạo sinh để thúc đẩy tăng trưởng kinh doanh,” Silvio Savarese, phó chủ tịch điều hành và nhà khoa học trưởng của Salesforce AI Research cho biết.
“Tiêu chuẩn đánh giá LLM mới của Salesforce cho CRM là một bước tiến quan trọng trong cách các doanh nghiệp đánh giá chiến lược AI của họ trong ngành. Nó không chỉ cung cấp sự rõ ràng về việc triển khai AI thế hệ tiếp theo mà còn có thể tăng tốc độ giá trị cho các trường hợp sử dụng cụ thể trong CRM.”
Thông qua tiêu chuẩn đánh giá mới này, Salesforce đã cung cấp một công cụ quan trọng giúp các doanh nghiệp xác định rõ ràng hiệu suất của các hệ thống AI trong việc quản lý quan hệ khách hàng, đồng thời đưa ra các quyết định thông minh và hiệu quả hơn trong việc triển khai AI vào các quy trình kinh doanh.