Việc đánh giá các thành phần trong khối LLM bắt đầu bằng việc lựa chọn loại hình đánh giá phù hợp. Có một loạt các loại hình đánh giá có sẵn, từ đơn giản đến phức tạp hơn.
Đánh giá nhị phân (Binary evaluation):
Đây là hình thức đơn giản nhất, chỉ đưa ra phán đoán có/không hoặc đạt/không đạt.
Ưu điểm: Trực tiếp và dễ thực hiện.
Nhược điểm: Thiếu phản hồi chi tiết về mức độ chính xác hoặc chất lượng.
Ví dụ: Phát hiện thư rác, phân tích cảm xúc tích cực hoặc tiêu cực, kiểm duyệt nội dung phù hợp hoặc không phù hợp.
Đánh giá phân loại (Categorical evaluation):
Cung cấp nhiều hơn hai lựa chọn để có phản hồi chi tiết hơn một chút.
Ưu điểm: Tránh các lựa chọn nhị phân bắt buộc bằng cách cung cấp các danh mục như "trung lập" ngoài "tích cực" và "tiêu cực".
Nhược điểm: Tăng độ phức tạp trong việc xác định và diễn giải các danh mục này.
Ví dụ: Phân tích cảm xúc tích cực, trung lập hoặc tiêu cực; xếp hạng sản phẩm từ một đến năm sao; hoặc phân loại độc tính như không độc hại, độc hại nhẹ hoặc rất độc hại.
Đánh giá xếp hạng (Ranking evaluation):
Đánh giá chất lượng tương đối của nhiều đầu ra hoặc mô hình, thường sử dụng các phán đoán dựa trên sở thích.
Ưu điểm: Bằng cách xem xét sở thích của người dùng theo các tiêu chí cụ thể, nó giúp xác định các mô hình và cấu hình hoạt động tốt nhất.
Nhược điểm: Phương pháp này có thể tốn nhiều tài nguyên vì nó yêu cầu nhiều đầu ra hoặc mô hình và có thể không cung cấp các số liệu hiệu suất tuyệt đối.
Ví dụ: Xếp hạng các bản tóm tắt khác nhau của cùng một tài liệu dựa trên mức độ liên quan và khả năng đọc; so sánh đầu ra của các hệ thống hội thoại khác nhau dựa trên mức độ hài lòng của người dùng.
Đánh giá số (Numerical evaluation):
Gán một điểm số định lượng cho các đầu ra của mô hình. Đây có thể là một số duy nhất như tỷ lệ phần trăm chính xác hoặc một tập hợp các số như điểm BLEU, ROUGE hoặc F1.
Ưu điểm: Cung cấp kết quả khách quan và có thể so sánh được.
Nhược điểm: Có thể không nắm bắt được tất cả các sắc thái trong hành vi của mô hình, đặc biệt trong các tác vụ phức tạp.
Đánh giá văn bản (Text evaluation):
Sử dụng phản hồi do con người tạo ra dưới dạng nhận xét, phê bình hoặc xếp hạng. Đây có thể là các bản tóm tắt ngắn hoặc giải thích chi tiết về điểm mạnh và điểm yếu của đầu ra.
Ưu điểm: Nắm bắt các khía cạnh định tính của hiệu suất và cung cấp những hiểu biết phong phú mà các số liệu số có thể bỏ lỡ.
Nhược điểm: Có thể tốn thời gian và chủ quan, gây khó khăn trong việc mở rộng hoặc so sánh kết quả.
Ví dụ: Các chuyên gia tên miền đánh giá tính chính xác về mặt thực tế của các bản tóm tắt được tạo ra.
Đánh giá đa tác vụ (Multitask evaluation):
Kết hợp nhiều loại phán đoán để đánh giá toàn diện, nắm bắt cả khía cạnh định lượng và định tính của hiệu suất mô hình.
Ưu điểm: Cung cấp cả thông tin chi tiết định lượng và định tính.
Nhược điểm: Yêu cầu thiết kế cẩn thận và có thể tốn nhiều tài nguyên hơn so với đánh giá một tác vụ.
Ví dụ: Đánh giá một mô hình ngôn ngữ về dịch thuật, tóm tắt và trả lời câu hỏi bằng cách sử dụng các số liệu số và xếp hạng của con người.
Vậy làm thế nào để chúng ta thực sự áp dụng các loại hình đánh giá này vào LLM? Có một số số liệu được sử dụng trong xử lý ngôn ngữ tự nhiên (NLP) có thể được sử dụng cho LLM. Tuy nhiên, do sự phức tạp và đa dạng của các phản hồi LLM, cần có các số liệu có thể đánh giá đúng các khía cạnh như sự sáng tạo, an toàn và công bằng, vượt ra ngoài đánh giá NLP truyền thống.
Có thể hữu ích khi hình dung các loại hình đánh giá này giống như một giáo viên đánh giá một bài luận của học sinh.
Sự tương đồng về từ vựng (Lexical similarity):
Câu hỏi: Đầu ra của LLM có sử dụng các từ tương tự như câu trả lời mong đợi không?
Để có được điều này, chúng ta sử dụng đầu ra của mô hình được đo lường dựa trên một hoặc nhiều văn bản tham chiếu, thường do con người tạo ra. Nó đo lường sự tương đồng giữa đầu ra của mô hình và văn bản tham chiếu dựa trên sự chồng chéo từ, trình tự từ hoặc sự tương đồng ngữ nghĩa. Nói cách khác, nó chỉ đánh giá xem đầu ra có đang sử dụng các từ cần thiết hay không, nhưng không xem xét các yếu tố như ngữ pháp chính xác hoặc độ trôi chảy.
Ví dụ: BLEU (tập trung vào độ chính xác), ROUGE (tập trung vào độ thu hồi), và METEOR (tập trung vào cả độ chính xác và độ thu hồi).
Hãy nghĩ về nó giống như việc đánh giá xem học sinh có sử dụng từ vựng phù hợp trong bài luận hay không.
Chất lượng ngôn ngữ (Linguistic quality):
Đây giống như việc kiểm tra cấu trúc câu tốt và sự rõ ràng vì nó tập trung vào chất lượng của các văn bản được tạo ra về mặt trôi chảy, mạch lạc và ngữ pháp chính xác.
Ví dụ: BLEURT (một số liệu tạo văn bản dựa trên BERT), hoặc đánh giá của con người về độ trôi chảy và mạch lạc.
Một số liệu phổ biến khác đo lường chất lượng ngôn ngữ tổng thể là độ phức tạp (perplexity). Độ phức tạp định lượng mức độ tốt của mô hình ngôn ngữ trong việc dự đoán từ tiếp theo trong một chuỗi. Độ phức tạp không đo lường các phẩm chất lấy con người làm trung tâm như độ trôi chảy, mạch lạc, mức độ liên quan hoặc an toàn, những yếu tố quan trọng để đánh giá chất lượng tổng thể và tính hữu ích của văn bản được tạo ra. Mặc dù điểm độ phức tạp thấp hơn thường tương quan với độ trôi chảy và mạch lạc được đánh giá bởi con người tốt hơn, nhưng điều quan trọng là phải sử dụng kết hợp các số liệu để có được sự hiểu biết toàn diện hơn về hiệu suất của mô hình.
Số liệu cụ thể theo tác vụ (Task-specific metrics):
Câu hỏi: LLM có hoàn thành các tác vụ cụ thể mà nó được giao không?
Đây giống như việc đảm bảo bài luận đáp ứng yêu cầu của đề bài.
Ví dụ: Đối sánh chính xác (exact match) cho trả lời câu hỏi, ROUGE cho tóm tắt và BLEU cho dịch máy.
An toàn và công bằng (Safety and fairness):
Câu hỏi: LLM có tránh tạo ra nội dung có hại, thiên vị hoặc gây xúc phạm không?
Điều này khá giống với bài luận của học sinh.
Có thể được đo lường thông qua đánh giá của con người về tính thiên vị và an toàn, và các công cụ chuyên biệt để phát hiện lời nói căm thù hoặc ngôn ngữ có hại.
Tính nền tảng (Groundedness):
Câu hỏi: LLM có thể hiện sự hiểu biết về các sự kiện và khái niệm trong thế giới thực không? Bài luận có ý nghĩa không? Hay học sinh đang bịa đặt?
Cách để kiểm tra điều này là các công cụ kiểm tra tính xác thực, tích hợp cơ sở kiến thức và đánh giá của con người về tính xác thực.
Số liệu lấy người dùng làm trung tâm (User-centric metrics):
Câu hỏi: Người dùng có thấy đầu ra của LLM hữu ích và thỏa mãn không? Giáo viên có thấy bài luận hấp dẫn và dễ hiểu không?
Tập trung vào trải nghiệm và sự hài lòng của người dùng với các đầu ra của mô hình.
Ví dụ: Khảo sát người dùng, số liệu hoàn thành tác vụ và số liệu tương tác của người dùng.
Mỗi số liệu đòi hỏi các phương pháp đánh giá khác nhau, từ kỹ thuật tự động đến phán đoán của con người. Bằng cách kết hợp chúng, bạn có được sự hiểu biết toàn diện về khả năng và hạn chế của LLM. Điều quan trọng cần lưu ý là một số số liệu có thể phù hợp với nhiều danh mục. Ví dụ, BLEU có thể được coi là sự tương đồng từ vựng và cụ thể theo tác vụ cho dịch máy. Ngoài ra, các số liệu cụ thể được sử dụng trong mỗi danh mục có thể khác nhau tùy thuộc vào tác vụ và các nguồn lực có sẵn.
Đa dạng cũng đóng một vai trò quan trọng trong việc đánh giá LLM, đảm bảo các mô hình có thể tạo ra nhiều loại phản hồi khác nhau. Các số liệu đa dạng tập trung vào việc đo lường sự đa dạng và phạm vi của các đầu ra mà một mô hình có thể tạo ra, với mục tiêu tránh các phản hồi lặp đi lặp lại hoặc chung chung và tạo ra các văn bản sáng tạo, nhiều thông tin và phù hợp với ngữ cảnh.
Một số số liệu đa dạng:
Distinct-n: Cung cấp một thước đo đơn giản về sự đa dạng từ vựng bằng cách tính toán số lượng chuỗi từ duy nhất hoặc n-gram trong văn bản được tạo ra.
Entropy: Định lượng sự không thể đoán trước của đầu ra của mô hình. Ví dụ, có nhiều sự ngẫu nhiên trong văn bản được tạo ra hay nó lặp đi lặp lại và theo công thức hơn? Entropy cao hơn thường cho thấy sự đa dạng hơn.
Self-BLEU: Giống như số liệu BLEU, nhưng nó được đo lường so với văn bản được tạo ra thay vì văn bản tham chiếu. Self-BLEU thấp hơn cho thấy các phản hồi đa dạng hơn.
MAUVE (Measuring the Automatic Evaluation of Vocabulary Usage): So sánh sự phân bố của các từ trong văn bản được tạo ra với một bộ sưu tập lớn các văn bản do con người viết để đánh giá sự đa dạng của các từ được sử dụng.
Độ bao phủ (Coverage): Đo lường mức độ tốt của đầu ra của mô hình bao gồm các từ, cụm từ hoặc khái niệm khác nhau có trong một bộ dữ liệu tham chiếu.
Bạn có thể sử dụng các số liệu đa dạng theo nhiều cách, như đánh giá sự sáng tạo, xác định các mẫu lặp đi lặp lại, so sánh các mô hình và tinh chỉnh mô hình. Đa dạng cao không phải lúc nào cũng đảm bảo chất lượng cao, vì vậy điều quan trọng là phải tạo sự cân bằng giữa đa dạng và các khía cạnh khác của chất lượng văn bản như mức độ liên quan và tính mạch lạc. Bổ sung các số liệu đa dạng tự động bằng phán đoán của con người cho phép hiểu rõ hơn về sự phong phú và đa dạng của văn bản được tạo ra.