Xài Stable Diffusion 3 tạo hình AI: Tạo ký tự tốt hơn hẳn, hình đẹp hơn, không nặng hơn SDXL

Hai ngày trước, 12/6/2024, StabilityAI đã chính thức tung ra checkpoint dạng safetensor của Stable Diffusion 3 , phiên bản Medium với 2 tỷ tham số, tức là hoàn toàn đủ khả năng vận hành trên những hệ thống máy tính cá nhân.

(hình ảnh minh họa)

Ở thời điểm hiện tại, Stable Diffusion 3 đang vận hành ổn thông qua nền tảng ComfyUI, còn Automatic1111 WebUI thì vẫn chưa hỗ trợ vận hành mô hình tạo sinh hình ảnh bằng thuật toán AI này. Lý do là bên cạnh mô hình gốc, Stable Diffusion 3 còn có thêm vài mô hình chuyên biệt để xử lý ký tự và văn bản trên tấm hình mà nó tạo ra. Nhờ đó, theo StabilityAI, khả năng tạo ký tự văn bản (text encoder) trong hình sẽ chính xác và mạnh hơn nhiều so với những giải pháp khác đang có như DALL-E 3 hay Midjourney v6.

Stable Diffusion 3 vận hành thế nào?

Không giống như Stable Diffusion XL, SD3 được thiết kế lại kiến trúc để trở thành một mô hình đa chế độ, không chỉ hiểu được ngôn ngữ mà còn hiểu được cả chi tiết hình ảnh đầu vào để thực hiện quá trình nội suy, tạo ra những hình ảnh mới. Kiến trúc mới này gọi là MMDiT, Multimodal Diffusion Transformer. SDXL hay những phiên bản Stable Diffusion trước đó không được ứng dụng MMDiT.

Theo các nhà nghiên cứu của StabilityAI, văn bản và hình ảnh là hai thứ ngôn ngữ tự nhiên khác biệt, nên phải sử dụng hai gói weight khác nhau để xác định nội dung của hai chế độ dữ liệu đầu vào này. Điều này đồng nghĩa với việc, Stable Diffusion 3 sẽ có hai transformer độc lập, kết hợp với nhau để vận hành.

(hình ảnh minh họa)

Nhờ đó, thông tin đầu vào của người dùng ra lệnh cho SD3 tạo hình bằng AI sẽ có thể chuyển qua lại tự do giữa văn bản và hình ảnh, từ đó giúp hình ảnh vừa chân thực, ký tự trong những tấm hình cũng chính xác hơn trong mắt con người.

Thêm nữa, quy trình tạo sinh hình ảnh cũng được xử lý thông qua công thức Rectified Flow mới, dữ liệu và “hình nhiễu” kết nối một cách tuyến tính trong quá trình huấn luyện mô hình. Kết quả ngắn gọn của quy trình nghiên cứu và phát triển này, là quá trình nội suy đơn giản hơn, tức là anh em có thể tạo ra những tấm hình ưng ý với số bước nội suy thấp hơn, chỉ khoảng 30 đến 50 bước là hình đã đủ đẹp cũng như chân thực. Đó là tuyên bố của StabilityAI trong văn bản công bố thành quả nghiên cứu SD3 hồi tháng 3 vừa rồi.

(hình ảnh minh họa)

Xét riêng tới phiên bản SD3 Medium với 2 tỷ tham số, được huấn luyện dựa trên 1 tỷ tấm hình chụp, rồi huấn luyện nâng cao dựa trên khoảng 30 triệu hình ảnh chất lượng cao, anh em sẽ có vài lựa chọn model AI, có hoặc không có text encoder T5 tích hợp để render chữ hợp lý và chính xác trong quá trình tạo sinh hình ảnh. Encoder tích hợp này có dung lượng chừng 4GB, 4.7 tỷ tham số, tương đối nặng đối với cấu hình máy tính cá nhân. Đây là chi tiết rất quan trọng để đảm bảo những thế mạnh của SD3 vận hành hoàn hảo.

(hình ảnh minh họa)

Bên cạnh SD3 Medium vừa ra mắt, sẽ có SD3 Small với 1 tỷ tham số, SD3 Large với 4 tỷ tham số, và SD3 Huge với 8 tỷ tham số, cấu hình máy tính nào cũng có thể tạo sinh mà không cần tới sự trợ giúp của những máy chủ đám mây.