Trong quá trình phục vụ dự đoán, sau khi mô hình được triển khai đến môi trường mục tiêu, dịch vụ mô hình bắt đầu chấp nhận các yêu cầu dự đoán (dữ liệu phục vụ) và trả về phản hồi với các dự đoán. Hình 10 minh họa các yếu tố của việc phục vụ dự đoán.
Công cụ phục vụ có thể cung cấp các dự đoán cho người dùng dưới các hình thức sau:
Suy luận trực tuyến trong thời gian gần thực cho các yêu cầu đơn lẻ tần suất cao (hoặc các lô yêu cầu nhỏ), sử dụng các giao diện như REST hoặc gRPC.
Suy luận luồng trong thời gian gần thực, chẳng hạn như thông qua một đường ống xử lý sự kiện.
Suy luận theo lô ngoại tuyến để chấm điểm dữ liệu hàng loạt, thường được tích hợp với các quy trình trích xuất, biến đổi, tải (ETL).
Suy luận nhúng như một phần của hệ thống nhúng hoặc thiết bị biên.
Trong một số trường hợp phục vụ dự đoán, công cụ phục vụ có thể cần tra cứu các giá trị đặc trưng liên quan đến yêu cầu. Ví dụ, bạn có thể có một mô hình dự đoán xu hướng mua một sản phẩm cụ thể của khách hàng, dựa trên một tập hợp các đặc trưng của khách hàng và sản phẩm. Tuy nhiên, yêu cầu chỉ bao gồm mã định danh của khách hàng và sản phẩm. Do đó, công cụ phục vụ sử dụng các mã định danh này để lấy các giá trị đặc trưng của khách hàng và sản phẩm từ một kho lưu trữ đặc trưng, sau đó đưa chúng vào mô hình để tạo ra dự đoán.
Một phần quan trọng để có được sự tin cậy vào các hệ thống học máy là khả năng diễn giải các mô hình và cung cấp giải thích cho các dự đoán của chúng. Các giải thích này sẽ cung cấp cái nhìn sâu sắc về lý do của dự đoán — ví dụ, bằng cách tạo ra các thuộc tính đặc trưng cho một dự đoán nhất định. Các thuộc tính đặc trưng chỉ ra dưới dạng điểm số mức độ đóng góp của mỗi đặc trưng vào một dự đoán. Các nhật ký suy luận và các chỉ số phục vụ khác được lưu trữ để giám sát và phân tích liên tục.