Quá trình Huấn luyện Liên tục (Continuous Training) liên quan đến việc điều phối và tự động hóa thực thi các pipeline huấn luyện. Tần suất huấn luyện lại mô hình phụ thuộc vào trường hợp sử dụng, giá trị kinh doanh và chi phí. Ví dụ:
- Nếu một mô hình phân loại ảnh hoạt động tốt và môi trường thu thập ảnh không thay đổi, việc huấn luyện lại hàng ngày có thể không mang lại lợi ích.
- Ngược lại, với hệ thống đề xuất trên trang thương mại điện tử, hành vi người dùng thay đổi liên tục, việc huấn luyện thường xuyên giúp nắm bắt xu hướng mới, từ đó tăng tỷ lệ nhấp chuột và doanh số.
Cách Kích Hoạt Pipeline
Mỗi lần chạy pipeline có thể được kích hoạt bằng:
- Lịch trình cố định (scheduled jobs).
- Sự kiện (event-driven), như khi có đủ dữ liệu mới hoặc phát hiện suy giảm hiệu suất mô hình qua giám sát liên tục.
- Thủ công (ad hoc).
Hình trên mô tả luồng pipeline tiêu chuẩn, bao gồm các bước:
1. Thu thập dữ liệu (Data Ingestion):
- Dữ liệu huấn luyện được trích xuất từ dataset nguồn và kho đặc trưng (feature repository), dựa trên tiêu chí như thời gian cập nhật gần nhất.
2. Kiểm định dữ liệu (Data Validation):
- Đảm bảo dữ liệu không bị sai lệch hoặc hỏng.
3. Biến đổi dữ liệu (Data Transformation):
- Chia dữ liệu thành tập huấn luyện, đánh giá, kiểm thử.
- Tiền xử lý và kỹ thuật đặc trưng (feature engineering) theo yêu cầu mô hình.
4. Huấn luyện & Tinh chỉnh mô hình (Model Training & Tuning):
- Huấn luyện mô hình và điều chỉnh siêu tham số (hyperparameters) để tối ưu hiệu suất.
5. Đánh giá mô hình (Model Evaluation):
- Kiểm tra hiệu suất trên tập kiểm thử bằng các độ đo đánh giá.
6. Xác thực mô hình (Model Validation):
- Đảm bảo mô hình đạt tiêu chí hiệu suất mong muốn.
7. Đăng ký mô hình (Model Registration):
- Lưu mô hình đã xác thực vào model registry cùng metadata.
Khác biệt giữa Pipeline Tự động và Giai đoạn Thử nghiệm
Pipeline tự động đòi hỏi kiểm định dữ liệu và mô hình nghiêm ngặt hơn, đóng vai trò "cửa ngăn" để đảm bảo:
- Phát hiện bất thường dữ liệu: Như đặc trưng mới, phân phối thay đổi đột ngột, bằng cách so sánh với schema và thống kê tham chiếu.
- Phát hiện suy giảm hiệu suất: Thông qua logic phức tạp như độ đo đa tiêu chí, phân tích độ nhạy, kiểm tra công bằng (fairness).
Theo dõi (Tracking) và Phân tích Dòng dữ liệu (Lineage Analysis)
- Metadata và artifacts phải được lưu trữ để hỗ trợ gỡ lỗi, tái tạo, và truy xuất nguồn gốc.
- Lineage analysis cho phép:
- Truy vấn siêu tham số đã dùng.
- Xem lại tất cả đánh giá từ pipeline.
- Truy cập snapshot dữ liệu sau các bước biến đổi (nếu khả thi).
- Lấy báo cáo thống kê, schema, phân phối đặc trưng.
Triển khai Tích hợp (Optional)
Một số pipeline có thể bao gồm luôn bước triển khai (deployment), tạo thành workflow end-to-end. Điều này phù hợp với use case cần cập nhật mô hình nhiều lần/ngày (ví dụ: mỗi giờ), với các kiểm tra bổ sung như:
- Kích thước mô hình.
- Tương thích runtime (dependencies, accelerator).
- Độ trễ khi phục vụ.
Tuy nhiên, nhiều tổ chức tách biệt huấn luyện và triển khai do khác team phụ trách. Khi đó, pipeline thường kết thúc ở bước đăng ký mô hình thay vì triển khai.
Tài sản chính tạo ra:
- Mô hình đã huấn luyện & xác thực trong model registry.
- Metadata và artifacts lưu tại ML metadata repository, bao gồm: tham số thực thi, thống kê dữ liệu, kết quả kiểm định, file dữ liệu đã biến đổi, độ đo đánh giá, checkpoint huấn luyện, logs.
Các yêu cầu vận hành máy học cốt lõi liên quan:
- Kho dataset & đặc trưng
- Kho metadata & artifacts
- Xử lý dữ liệu
- Huấn luyện mô hình
- Đánh giá mô hình
- Pipeline ML
- Model registry