Giám sát liên tục là quá trình theo dõi hiệu quả và hiệu suất của mô hình đang hoạt động, đây là một lĩnh vực quan trọng của MLOps. Việc thường xuyên và chủ động xác minh rằng hiệu suất mô hình không bị suy giảm là điều cần thiết. Khi dữ liệu phục vụ thay đổi theo thời gian, các thuộc tính của nó bắt đầu lệch so với dữ liệu thuộc tính được sử dụng để huấn luyện và đánh giá mô hình. Điều này dẫn đến suy giảm hiệu suất hiệu quả của mô hình. Ngoài ra, những thay đổi hoặc lỗi trong các hệ thống thượng nguồn tạo ra các yêu cầu dự đoán có thể dẫn đến thay đổi các thuộc tính của dữ liệu phục vụ, và do đó tạo ra các dự đoán xấu từ mô hình.
Một quy trình giám sát liên tục điển hình bao gồm các bước sau:
Một mẫu các tải trọng yêu cầu-phản hồi được thu thập và lưu trữ trong kho nhật ký phục vụ.
Công cụ giám sát định kỳ tải các nhật ký suy luận mới nhất, tạo một lược đồ và tính toán số liệu thống kê cho dữ liệu phục vụ.
Công cụ giám sát so sánh lược đồ được tạo với một lược đồ tham chiếu để xác định các lệch lược đồ (schema skews), và so sánh các số liệu thống kê đã tính toán với các số liệu thống kê cơ sở để xác định các lệch phân phối (distribution skews).
Nếu các nhãn thực (ground truth) cho dữ liệu phục vụ có sẵn, công cụ giám sát sẽ sử dụng chúng để đánh giá hiệu quả dự đoán của mô hình theo thời gian trên dữ liệu phục vụ.
Nếu phát hiện các bất thường hoặc nếu hiệu suất của mô hình đang suy giảm, cảnh báo có thể được gửi qua các kênh khác nhau (ví dụ: email hoặc trò chuyện) để thông báo cho chủ sở hữu kiểm tra mô hình hoặc kích hoạt một chu kỳ huấn luyện lại mới.
Giám sát hiệu suất hiệu quả nhằm phát hiện sự suy giảm của mô hình. Sự suy giảm của mô hình thường được định nghĩa theo trôi dữ liệu (data drift) và trôi khái niệm (concept drift).
Trôi dữ liệu mô tả một sự lệch ngày càng tăng giữa tập dữ liệu được sử dụng để huấn luyện, tinh chỉnh và đánh giá mô hình với dữ liệu sản xuất mà mô hình nhận được để chấm điểm.
Trôi khái niệm là một mối quan hệ đang phát triển giữa các biến dự đoán đầu vào và đặc trưng mục tiêu.
Trôi dữ liệu có thể liên quan đến hai loại lệch:
Lệch lược đồ xảy ra khi dữ liệu huấn luyện và dữ liệu phục vụ không tuân theo cùng một lược đồ.
Lệch phân phối xảy ra khi phân phối các giá trị đặc trưng cho dữ liệu huấn luyện khác biệt đáng kể so với phân phối cho dữ liệu phục vụ.
Ngoài việc xác định lệch lược đồ và lệch phân phối, các kỹ thuật khác để phát hiện trôi dữ liệu và trôi khái niệm bao gồm phát hiện bất thường và ngoại lai, cũng như thay đổi thuộc tính đặc trưng. Để biết thêm thông tin, xem các hướng dẫn tham khảo về giám sát mô hình ML trong tài liệu Google Cloud.
Trong một số trường hợp, hệ thống của bạn có thể lưu trữ ground truth cho dữ liệu phục vụ của bạn. Ví dụ, bạn ghi lại việc khách hàng có mua sản phẩm được mô hình của bạn đề xuất hay không, hoặc bạn tính toán nhu cầu thực tế của một sản phẩm cụ thể vào cuối tuần so với nhu cầu được mô hình dự báo. Bạn có thể sử dụng thông tin này làm nhãn thực cho dữ liệu phục vụ của mình, và thông tin này có thể được lưu trữ và truy xuất từ tập dữ liệu và kho đặc trưng để đánh giá liên tục và cho các chu kỳ huấn luyện mô hình tiếp theo.
Bên cạnh việc giám sát hiệu quả mô hình, giám sát hiệu suất phục vụ mô hình tập trung vào các chỉ số như sau:
Sử dụng tài nguyên, bao gồm CPU, GPU và bộ nhớ.
Độ trễ, đây là một chỉ số quan trọng trong các triển khai trực tuyến và luồng để chỉ ra tình trạng dịch vụ mô hình.
Thông lượng, đây là một chỉ số quan trọng trong tất cả các triển khai.
Tỷ lệ lỗi.
Việc đo lường các chỉ số này không chỉ hữu ích trong việc duy trì và cải thiện hiệu suất hệ thống mà còn trong việc dự đoán và quản lý chi phí.