Theo đánh giá Vending-Bench 2 mới nhất của Andon Labs, GLM 5.2 xếp thứ hai trong bài kiểm tra mô phỏng kinh doanh dài hạn. Điểm chuẩn mô phỏng hoạt động 365 ngày của một công ty máy bán hàng tự động, với các mô hình đưa ra quyết định hàng ngày về tồn kho và định giá dựa trên dữ liệu tài chính để đánh giá tính nhất quán trong quyết định qua các nhiệm vụ kéo dài.
Các phiên bản GLM cho thấy mức tăng trưởng tuyến tính nhất quán, với mức cải thiện lợi nhuận trung bình hàng tháng gần 1 nghìn USD (GLM 5 đạt trung bình 4.432 USD, GLM 5.1 đạt 5.634 USD). Ngược lại, Kimi K2.7 Code hoạt động kém hơn so với K2.6, trong khi Minimax M3 cải thiện đáng kể so với M2.5 nhưng vẫn thấp hơn đáng kể so với cả dòng Kimi và GLM về lợi nhuận tổng thể.