Trung tâm của sáu quy trình đã nêu trước đó là quản lý dữ liệu và mô hình. Đây là một chức năng cốt lõi để quản lý các thành phần ML nhằm hỗ trợ khả năng kiểm tra, truy vết và tuân thủ, cũng như khả năng chia sẻ, tái sử dụng và khám phá các tài sản ML.
Một trong những thách thức chính của khoa học dữ liệu và ML là tạo, duy trì và tái sử dụng dữ liệu chất lượng cao để huấn luyện. Các nhà khoa học dữ liệu dành một lượng đáng kể thời gian phát triển ML của họ cho phân tích dữ liệu thăm dò, chuẩn bị dữ liệu và biến đổi dữ liệu. Tuy nhiên, các nhóm khác có thể đã chuẩn bị cùng một tập dữ liệu cho các trường hợp sử dụng tương tự nhưng không có phương tiện để chia sẻ và tái sử dụng chúng. Tình huống này không chỉ dẫn đến lãng phí thời gian tạo lại các tập dữ liệu, mà còn dẫn đến các định nghĩa và thể hiện không nhất quán của cùng một thực thể dữ liệu.
Ngoài ra, trong quá trình phục vụ dự đoán, một thách thức phổ biến là sự khác biệt giữa dữ liệu phục vụ và dữ liệu huấn luyện. Điều này được gọi là lệch huấn luyện-phục vụ (training-serving skew), và có thể xảy ra do dữ liệu được trích xuất từ các nguồn khác nhau dưới các dạng khác nhau trong quá trình huấn luyện và phục vụ. Lệch huấn luyện-phục vụ ảnh hưởng đến hiệu suất của các mô hình trong sản xuất.
Quản lý dữ liệu và mô hình: Các khả năng MLOps cốt lõi:
Kho lưu trữ tập dữ liệu và đặc trưng
Sổ đăng ký mô hình
Kho lưu trữ siêu dữ liệu và thành phần ML
Quản lý tập dữ liệu và đặc trưng giúp giảm thiểu các vấn đề như vậy bằng cách cung cấp một kho lưu trữ thống nhất cho các đặc trưng và tập dữ liệu ML. Hình 12 cho thấy cách kho lưu trữ đặc trưng và tập dữ liệu cung cấp cùng một tập hợp các thực thể dữ liệu cho nhiều mục đích sử dụng trong môi trường MLOps.
Như biểu đồ sau cho thấy, các đặc trưng và tập dữ liệu được tạo, khám phá và tái sử dụng trong các thử nghiệm khác nhau. Việc phục vụ dữ liệu theo lô được sử dụng cho thử nghiệm, huấn luyện liên tục và dự đoán theo lô, trong khi việc phục vụ dữ liệu trực tuyến được sử dụng cho các trường hợp sử dụng dự đoán thời gian thực.
Đặc trưng là các thuộc tính của các thực thể kinh doanh được làm sạch và chuẩn bị dựa trên các quy tắc nghiệp vụ tiêu chuẩn — tổng hợp, dẫn xuất, gắn cờ, v.v. Ví dụ về các thực thể bao gồm sản phẩm, khách hàng, địa điểm và khuyến mãi. Bạn có thể quản lý các thực thể dữ liệu của mình trong một kho lưu trữ tập trung để chuẩn hóa định nghĩa, lưu trữ và truy cập chúng cho việc huấn luyện và phục vụ.
Một kho lưu trữ đặc trưng giúp các nhà khoa học dữ liệu và nhà nghiên cứu thực hiện những điều sau:
Khám phá và tái sử dụng các tập hợp đặc trưng có sẵn cho các thực thể của họ thay vì tạo lại các thực thể để tạo ra các tập dữ liệu riêng.
Thiết lập một định nghĩa tập trung về các đặc trưng.
Tránh lệch huấn luyện-phục vụ bằng cách sử dụng kho lưu trữ đặc trưng làm nguồn dữ liệu cho thử nghiệm, huấn luyện liên tục và phục vụ trực tuyến.
Phục vụ các giá trị đặc trưng được cập nhật từ kho lưu trữ đặc trưng.
Cung cấp một cách để định nghĩa và chia sẻ các thực thể và đặc trưng mới.
Cải thiện sự cộng tác giữa các nhóm khoa học dữ liệu và nghiên cứu bằng cách chia sẻ các đặc trưng.
Trong các hệ thống ETL theo lô, đường ống huấn luyện có thể truy xuất các đặc trưng dưới dạng lô cho tác vụ huấn luyện. Đối với phục vụ trực tuyến, công cụ phục vụ có thể tìm nạp các giá trị đặc trưng liên quan đến thực thể được yêu cầu. Các cập nhật cho kho lưu trữ đặc trưng có thể được nạp từ các hệ thống ETL theo lô hoặc luồng. Ngoài những cập nhật đó, dịch vụ giám sát có thể cập nhật số liệu thống kê và chỉ số cho các đặc trưng này.
Đặc trưng có thể được sử dụng trong nhiều tập dữ liệu cho nhiều tác vụ và trường hợp sử dụng ML, trong khi một tập dữ liệu được sử dụng cho một tác vụ hoặc trường hợp sử dụng ML cụ thể. Chính xác hơn, các kho lưu trữ đặc trưng thường không bao gồm các phiên bản dữ liệu được gắn nhãn (các phiên bản có mục tiêu dự đoán được). Thay vào đó, chúng bao gồm các giá trị đặc trưng có thể tái sử dụng của các thực thể khác nhau. Các đặc trưng của các thực thể khác nhau có thể được kết hợp và nối với dữ liệu giao dịch khác có chứa nhãn để tạo ra một tập dữ liệu.
Ví dụ, kho lưu trữ đặc trưng có thể chứa một thực thể khách hàng bao gồm các đặc trưng mô tả nhân khẩu học khách hàng, hành vi mua hàng, tương tác mạng xã hội, điểm cảm xúc, cờ tài chính của bên thứ ba, v.v. Thực thể khách hàng có thể được sử dụng trong một số tác vụ, chẳng hạn như dự đoán tỷ lệ rời bỏ, dự đoán tỷ lệ nhấp, ước tính giá trị vòng đời khách hàng, phân khúc khách hàng và đề xuất. Mỗi tác vụ có tập dữ liệu riêng chứa các đặc trưng khách hàng và các đặc trưng khác từ các thực thể có liên quan đến tác vụ. Ngoài ra, trong trường hợp các tác vụ học có giám sát, mỗi tập dữ liệu có nhãn riêng.
Quản lý tập dữ liệu giúp ích cho những điều sau:
Duy trì các tập lệnh để tạo tập dữ liệu và phân tách để các tập dữ liệu có thể được tạo trong các môi trường khác nhau (phát triển, thử nghiệm, sản xuất, v.v.).
Duy trì một định nghĩa và hiện thực tập dữ liệu duy nhất trong nhóm để sử dụng trong các triển khai mô hình và siêu tham số khác nhau. Tập dữ liệu này bao gồm các phân tách (huấn luyện, đánh giá, kiểm tra, v.v.) và các điều kiện lọc.
Duy trì siêu dữ liệu và chú thích có thể hữu ích cho các thành viên trong nhóm đang cộng tác trên cùng một tập dữ liệu và tác vụ.
Cung cấp khả năng tái tạo và theo dõi dòng dõi.
Khi các tổ chức tăng số lượng mô hình trong sản xuất ở quy mô lớn, việc theo dõi tất cả chúng theo cách thủ công trở nên khó khăn. Các tổ chức cần các biện pháp kiểm soát để quản lý rủi ro và triển khai các mô hình ML một cách có trách nhiệm, cũng như để duy trì sự tuân thủ các quy định. Để hỗ trợ nhiệm vụ này, các tổ chức cần thiết lập quản lý mô hình mạnh mẽ.
Quản lý mô hình là một quy trình xuyên suốt, là trung tâm của MLOps. Nó bao gồm cả theo dõi siêu dữ liệu ML và quản trị mô hình. Việc có quản lý mô hình trong suốt vòng đời ML giúp đảm bảo những điều sau:
Dữ liệu được thu thập và sử dụng để huấn luyện và đánh giá mô hình là chính xác, không thiên vị và được sử dụng phù hợp mà không vi phạm quyền riêng tư dữ liệu.
Các mô hình được đánh giá và xác thực dựa trên các thước đo chất lượng hiệu quả và các chỉ số công bằng, để chúng phù hợp để triển khai trong sản xuất.
Các mô hình có thể diễn giải được và kết quả của chúng có thể giải thích được (nếu cần).
Hiệu suất của các mô hình đã triển khai được giám sát bằng cách đánh giá liên tục và các chỉ số hiệu suất của mô hình được theo dõi và báo cáo.
Các vấn đề tiềm ẩn trong huấn luyện mô hình hoặc phục vụ dự đoán có thể được truy vết, gỡ lỗi và tái tạo.
Theo dõi siêu dữ liệu ML thường được tích hợp với các quy trình MLOps khác. Các tạo phẩm được tạo ra bởi các quy trình khác thường được tự động lưu trữ trong một kho lưu trữ tạo phẩm ML, cùng với thông tin về việc thực thi quy trình. Siêu dữ liệu ML được thu thập có thể bao gồm ID lần chạy pipeline, bộ kích hoạt, loại quy trình, bước, ngày giờ bắt đầu và kết thúc, trạng thái, cấu hình môi trường và giá trị tham số đầu vào. Ví dụ về các tạo phẩm được lưu trữ bao gồm các phân tách dữ liệu đã xử lý, lược đồ, số liệu thống kê, siêu tham số, mô hình và các chỉ số đánh giá hoặc tạo phẩm tùy chỉnh. Hình 13 minh họa việc theo dõi siêu dữ liệu.
Theo dõi siêu dữ liệu ML cho phép các nhà khoa học dữ liệu và kỹ sư ML theo dõi các tham số thử nghiệm và cấu hình pipeline để tái tạo và truy vết nguồn gốc. Ngoài ra, theo dõi siêu dữ liệu ML cho phép người dùng tìm kiếm, khám phá và xuất các mô hình và tạo phẩm ML hiện có. Các nhà khoa học dữ liệu và kỹ sư ML có thể sử dụng theo dõi siêu dữ liệu ML để thêm và cập nhật chú thích cho các thử nghiệm và lần chạy ML được theo dõi. Điều này tạo điều kiện thuận lợi cho việc khám phá. Hơn nữa, theo dõi siêu dữ liệu ML cung cấp các công cụ để phân tích, so sánh và trực quan hóa siêu dữ liệu và tạo phẩm của các thử nghiệm và lần chạy pipeline ML khác nhau. Điều này giúp các nhà khoa học dữ liệu và kỹ sư ML hiểu hành vi của các pipeline và gỡ lỗi các vấn đề ML.
Quản trị mô hình là về việc đăng ký, xem xét, xác thực và phê duyệt các mô hình để triển khai. Tùy thuộc vào tổ chức, các yêu cầu pháp lý của mô hình và trường hợp sử dụng cụ thể, quy trình quản trị mô hình có thể khác nhau. Quy trình này có thể được tự động hóa, bán tự động hoặc tự động hoàn toàn (với nhiều tiêu chí phát hành trong mọi trường hợp) để xác định xem các mô hình ML đã sẵn sàng để đi vào sản xuất hay chưa. Ngoài ra, quản trị mô hình nên hỗ trợ báo cáo về hiệu suất của các mô hình đã triển khai.
Quản trị mô hình có thể sử dụng thông tin trong siêu dữ liệu ML và sổ đăng ký mô hình để thực hiện các tác vụ sau:
Lưu trữ: Thêm hoặc cập nhật các thuộc tính mô hình và theo dõi các phiên bản mô hình cùng với các thay đổi thuộc tính. Sổ đăng ký mô hình có thể lưu trữ nhiều phiên bản mô hình từ giai đoạn thử nghiệm và huấn luyện liên tục, giúp các nhà khoa học dữ liệu dễ dàng tái tạo các mô hình quan trọng.
Đánh giá: So sánh một mô hình mới (challenger model) với mô hình hiện tại (champion model) bằng cách xem xét không chỉ các chỉ số đánh giá (độ chính xác, độ đúng, độ phủ, độ đặc hiệu, v.v.) mà còn cả các KPI kinh doanh được thu thập thông qua thử nghiệm trực tuyến. Ngoài ra, chủ sở hữu mô hình cần có khả năng hiểu và giải thích các dự đoán của mô hình—ví dụ, bằng cách sử dụng các phương pháp gán thuộc tính đặc trưng. Điều này đảm bảo chất lượng của mô hình được triển khai trong sản xuất.
Kiểm tra: Xem xét, yêu cầu thay đổi và phê duyệt mô hình để giúp kiểm soát rủi ro, chẳng hạn như các lo ngại về kinh doanh, tài chính, pháp lý, bảo mật, quyền riêng tư, danh tiếng và đạo đức.
Phát hành: Kích hoạt quy trình triển khai mô hình để đưa vào hoạt động. Điều này kiểm soát loại phát hành mô hình (ví dụ: canary hoặc blue-green) và tỷ lệ lưu lượng truy cập được chuyển hướng đến nó.
Báo cáo: Tổng hợp, trực quan hóa và làm nổi bật các chỉ số hiệu suất mô hình được thu thập từ quy trình đánh giá liên tục. Điều này đảm bảo chất lượng của mô hình trong sản xuất.
Khả năng giải thích đặc biệt quan trọng trong trường hợp tự động hóa quyết định. Quy trình quản trị nên cung cấp cho các nhà quản lý rủi ro và kiểm toán viên cái nhìn rõ ràng về nguồn gốc và trách nhiệm giải trình. Quy trình cũng nên cung cấp cho họ khả năng xem xét các quyết định phù hợp với trách nhiệm đạo đức và pháp lý của tổ chức.
Mang lại giá trị kinh doanh thông qua ML không chỉ là việc xây dựng mô hình ML tốt nhất cho trường hợp sử dụng hiện tại. Việc mang lại giá trị này còn là việc xây dựng một hệ thống ML tích hợp hoạt động liên tục để thích ứng với những thay đổi trong động lực của môi trường kinh doanh. Một hệ thống ML như vậy bao gồm việc thu thập, xử lý và quản lý các tập dữ liệu và đặc trưng ML; huấn luyện và đánh giá mô hình ở quy mô lớn; phục vụ mô hình cho các dự đoán; giám sát hiệu suất mô hình trong sản xuất; và theo dõi siêu dữ liệu và tạo phẩm mô hình.
Trong tài liệu này, chúng tôi thảo luận về các khả năng cốt lõi để xây dựng và vận hành các hệ thống ML, và chúng tôi mô tả một quy trình MLOps toàn diện để hợp lý hóa quy trình làm việc từ phát triển đến sản xuất. Điều này có thể giúp các tổ chức giảm thời gian đưa sản phẩm ra thị trường đồng thời tăng độ tin cậy, hiệu suất, khả năng mở rộng và bảo mật của các hệ thống ML của họ. Hình 15 cung cấp một bản tóm tắt về quy trình MLOps từ đầu đến cuối.