Một số nền tảng cloud như Google Cloud Service (GCS) đã tích hợp các công cụ giúp đánh giá mô hình LLM giúp đưa ra quyết định lựa chọn mô hình AI cho mục tiêu của doanh nghiệp
Giờ đây, khi bạn đã khám phá sự phức tạp của việc đánh giá các mô hình AI tạo sinh, hãy cùng xem Vertex AI cung cấp các công cụ thực tế để triển khai các phương pháp hay nhất như thế nào.
Vertex AI cung cấp một giao diện hợp nhất để phát triển AI, giúp khởi động các dự án trên nhiều tác vụ và phương thức khác nhau. Ví dụ, bạn có thể tạo nguyên mẫu, phát triển và triển khai cả mô hình AI dự đoán và AI tạo sinh trong ứng dụng của mình với Vertex AI. Để trực tiếp giải quyết các thách thức đánh giá mô hình đã đề cập trước đó, hãy xem xét tận dụng các giải pháp đánh giá được thiết kế cho các mô hình AI tạo sinh trong Vertex AI.
Đánh giá AI tạo sinh có thể được áp dụng cho một loạt các kịch bản sử dụng:
Khi chọn các mô hình được đào tạo trước, hãy chọn mô hình tốt nhất cho tác vụ của bạn bằng cách so sánh hiệu suất trên các tiêu chuẩn liên quan.
Thử nghiệm với các cài đặt cấu hình và tối ưu hóa chúng, khám phá cách điều chỉnh như nhiệt độ có thể tinh chỉnh chất lượng đầu ra.
Khai thác sức mạnh của kỹ thuật nhắc lệnh (prompt engineering) với các mẫu để cải thiện tương tác và kết quả của người dùng.
Cuối cùng, bảo vệ quá trình tinh chỉnh bằng cách chủ động giải quyết sự thiên vị và đảm bảo mô hình của bạn tránh tạo ra các đầu ra không mong muốn.
Vertex AI hiện cung cấp hai phương pháp đánh giá:
Phương pháp dựa trên tính toán truyền thống: So sánh các đầu ra mới của bạn với dữ liệu gốc (ground truth).
Phương pháp dựa trên mô hình: Sử dụng một LLM được điều chỉnh đặc biệt làm trọng tài để thực hiện các tác vụ đánh giá.
Các phương pháp này còn được gọi là dịch vụ đường dẫn đánh giá (evaluation pipeline services), vì chúng cung cấp các giải pháp đầu cuối để đánh giá các mô hình AI tạo sinh. Sử dụng các đường dẫn Vertex AI, chúng điều phối toàn bộ quá trình đánh giá, bao gồm tạo phản hồi của mô hình, gọi các dịch vụ đánh giá và tính toán các số liệu. Bạn thậm chí có thể tùy chỉnh các đường dẫn bằng cách gọi riêng lẻ các bước này.
Do độ trễ khởi động vốn có của các đường dẫn Vertex AI không máy chủ (serverless), các dịch vụ đường dẫn đánh giá mang lại lợi thế lớn nhất trong các kịch bản cụ thể:
Đánh giá quy mô lớn: Với nhiều phiên bản mô hình, nơi lợi ích về hiệu quả bù đắp cho độ trễ ban đầu.
Quy trình làm việc bất đồng bộ (asynchronous workflows): Nơi kết quả tức thì không quan trọng, cho phép các đánh giá chạy ở chế độ nền.
Tích hợp liền mạch vào quy trình MLOps rộng hơn: Khiến chúng trở thành một công cụ mạnh mẽ để tự động hóa việc đánh giá mô hình và hợp lý hóa toàn bộ quá trình quản lý vòng đời mô hình.
Trong việc đánh giá các mô hình AI tạo sinh, hai mô hình chính xuất hiện: đánh giá điểm (pointwise) và đánh giá cặp (pairwise).
Đánh giá điểm (Pointwise evaluation):
Đi sâu vào hiệu suất tuyệt đối của một mô hình duy nhất, tiết lộ cách nó hoạt động trong các kịch bản thực tế và làm nổi bật những điểm mạnh và điểm yếu vốn có của nó.
Cách tiếp cận này vô cùng hữu ích để xác định các lĩnh vực mà việc điều chỉnh mô hình có thể dẫn đến hiệu suất được cải thiện, cũng như để thiết lập một đường cơ sở để các lần lặp lại trong tương lai có thể được đo lường.
Đánh giá cặp (Pairwise evaluation):
Involve so sánh trực tiếp hai mô hình.
Điều này cho phép xác định hiệu suất vượt trội trên các tác vụ hoặc bộ dữ liệu cụ thể, hỗ trợ trong các quy trình ra quyết định quan trọng như lựa chọn mô hình.
Ngoài ra, đánh giá cặp có thể hướng dẫn lựa chọn các lời nhắc tối ưu và đánh giá tác động của các nỗ lực điều chỉnh trên mô hình cơ sở.
Với các phương pháp đánh giá này, hãy trở lại tổng quan về các giải pháp được cung cấp bởi Vertex AI.
Các số liệu dựa trên tính toán cung cấp một cách tiếp cận dựa trên số liệu chuẩn hóa để đánh giá mô hình, thường được sử dụng trong các nghiên cứu học thuật và ngành công nghiệp để đánh giá hiệu suất của các mô hình.
Tuy nhiên, chúng dựa vào một bộ dữ liệu gốc (ground truth), là các cặp đầu vào/đầu ra được gắn nhãn dùng để đo lường tính nhất quán giữa đầu ra của LLM và tiêu chuẩn vàng. Mặc dù các số liệu này nhanh và tiết kiệm chi phí, nhưng chúng có thể không nắm bắt đầy đủ các sắc thái của các tác vụ tạo sinh. Cố gắng đưa tất cả những điểm tốt của một bản tóm tắt vào một công thức là một thách thức, và ngay cả các bộ dữ liệu được tạo ra cẩn thận cũng có thể không phản ánh mọi phong cách tóm tắt ưa thích.
Ngoài ra, các loại số liệu khác nhau cung cấp những hiểu biết khác nhau:
Số liệu dựa trên từ vựng (Lexicon-based metrics): Đo lường sự tương đồng chuỗi giữa kết quả được tạo ra và dữ liệu gốc, ví dụ như khớp chính xác (exact match) và ROUGE.
Số liệu dựa trên số lượng (Count-based metrics): Chẳng hạn như điểm F1, độ chính xác (accuracy) và khớp tên công cụ (tool name match), định lượng các kết quả khớp và không khớp với các nhãn mong đợi.
Số liệu dựa trên nhúng (Embedding-based metrics): Tính toán sự tương đồng bằng cách so sánh kết quả được tạo ra bởi LLM trong không gian nhúng (embedding space) hoặc biểu diễn số.
Vertex AI đơn giản hóa việc tích hợp các số liệu này vào quy trình làm việc, thường là để đánh giá điểm của các mô hình đơn lẻ. Nhưng việc so sánh gián tiếp giữa hai mô hình cũng có thể thực hiện được thông qua phân tích điểm số số liệu riêng lẻ của chúng.
Đánh giá dựa trên mô hình, một kỹ thuật được Google Research tiên phong, mô phỏng đánh giá của con người với tốc độ và hiệu quả cao hơn. Phương pháp này sử dụng các mô hình trọng tài (arbiter models) chuyên biệt, được hiệu chỉnh cẩn thận dựa trên xếp hạng của con người để đóng vai trò là giám khảo cho việc so sánh mô hình. Các mô hình trọng tài này cung cấp cả điểm số số và giải thích, phản ánh sự đánh giá toàn diện của các chuyên gia con người.
Auto Side by Side của Google là một ví dụ điển hình về giải pháp đánh giá dựa trên mô hình. Nó cung cấp đánh giá theo yêu cầu các mô hình ngôn ngữ, đạt được kết quả tương đương với những người đánh giá là con người.
Những ưu điểm chính bao gồm:
Tính khách quan dựa trên dữ liệu: Loại bỏ nhu cầu về dữ liệu ưu tiên của con người có khả năng thiên vị.
Khả năng mở rộng và hiệu quả chi phí: Tự động hóa quy trình để đánh giá nhanh chóng, giá cả phải chăng ở quy mô lớn.
Tính minh bạch nâng cao: Ghi lại các giải thích và điểm tin cậy để có những hiểu biết có giá trị về quá trình ra quyết định của mô hình.
Hiện tại, việc đánh giá LLM có thể diễn ra trên bốn tác vụ rộng: tóm tắt, trả lời câu hỏi, sử dụng công cụ và tạo văn bản nói chung. Mỗi tác vụ cho phép đánh giá LLM sử dụng một tập hợp các số liệu cố định như chất lượng, mức độ liên quan và tính hữu ích. Bạn có thể linh hoạt đánh giá bất kỳ sự kết hợp nào của các số liệu này cho một đánh giá nhất định. Nhưng hãy nhớ, phải chỉ định các tham số đầu vào bắt buộc cho mỗi số liệu.
Để chọn cách tiếp cận đánh giá tối ưu cho mô hình AI tạo sinh của bạn và Vertex AI, trước tiên, hãy xác định xem bạn cần so sánh cặp giữa hai mô hình hay đánh giá điểm của một mô hình duy nhất. Tiếp theo, làm rõ vai trò và mục đích cụ thể của mô hình của bạn, xác định các tác vụ mà nó được thiết kế để thực hiện. Sau đó, xác định các khía cạnh quan trọng nhất của phản hồi của mô hình, cho dù đó là độ chính xác, sự sáng tạo, an toàn, độ trôi chảy hay các yếu tố khác.
Nếu mô hình của bạn tập trung vào trả lời câu hỏi, hãy xem xét các số liệu trả lời câu hỏi chuyên biệt của Vertex AI. Tương tự, nếu an toàn hoặc độ trôi chảy là mối quan tâm, hãy ưu tiên các số liệu cụ thể đó. Bằng cách tự hỏi mô hình của bạn làm gì và khía cạnh nào của đầu ra của nó là quan trọng nhất, bạn sẽ tự tin chọn đúng tác vụ đánh giá và số liệu trong Vertex AI để đánh giá kỹ lưỡng hiệu suất của mô hình AI tạo sinh của bạn.
Hãy kiểm tra trang tài liệu của Google Cloud để biết các số liệu đánh giá hiện tại và cách sử dụng từng số liệu trên Vertex AI. Các phương pháp đánh giá khác nhau cung cấp những hiểu biết độc đáo về hiệu suất của mô hình. Hiểu cách các số liệu đánh giá được tính toán và ý nghĩa của chúng là rất quan trọng để diễn giải kết quả của bạn một cách hiệu quả.
Trong Vertex AI, việc trình bày kết quả đánh giá mô hình của bạn sẽ phụ thuộc vào việc bạn đã chọn đánh giá điểm hay đánh giá cặp:
Đánh giá điểm: Là một điểm số số.
Đánh giá cặp: Chọn mô hình được ưu tiên hơn trong hai mô hình.
Đánh giá dựa trên mô hình trong Vertex AI không chỉ cung cấp điểm số số. Nó cung cấp các giải thích ở định dạng chuỗi sử dụng lý luận theo chuỗi suy nghĩ để làm sáng tỏ quá trình ra quyết định của mô hình trọng tài, nâng cao độ chính xác của đánh giá. Ngoài ra, nó cung cấp các điểm tin cậy (confidence scores), các giá trị số từ 0 đến 1, phản ánh sự tin cậy của trọng tài vào phán đoán của nó. Các điểm này được rút ra bằng cách sử dụng giải mã tính nhất quán tự thân (self-consistency decoding), trong đó nhiều mẫu được lấy trên một đầu vào duy nhất. Sự đồng thuận cao hơn giữa các mẫu này dẫn đến điểm tin cậy cao hơn, cho thấy sự chắc chắn lớn hơn trong đánh giá của trọng tài.
Hai tính năng này mang lại sự minh bạch cho quá trình ra quyết định của bộ đánh giá tự động, giúp bạn hiểu sâu hơn về kết quả đánh giá và đưa ra các quyết định sáng suốt hơn về các mô hình AI tạo sinh của mình.