Khi bạn đã nhận thức được vai trò quan trọng của việc đánh giá mô hình trong học máy truyền thống, hãy cùng khám phá thế giới thú vị của AI tạo sinh. Trong thế giới này, các mô hình có thể tạo ra những hình ảnh chân thực, sáng tác nhạc mới hoặc viết nên những câu chuyện hấp dẫn. Với sức mạnh đổi mới này, thách thức về đánh giá trở nên đặc biệt quan trọng để đảm bảo độ tin cậy và chất lượng của các đầu ra AI tạo sinh.
Mặc dù cả hai đều là các dạng AI, nhưng có sự khác biệt giữa AI không tạo sinh (non-generative AI) và AI tạo sinh (generative AI). Trong khi AI không tạo sinh hay AI dự đoán tập trung vào việc phân tích dữ liệu hiện có để đưa ra dự đoán, phân loại hoặc quyết định, thì AI tạo sinh lại tạo ra nội dung hoàn toàn mới bằng cách học các mẫu từ các bộ dữ liệu khổng lồ. Do đó, đầu ra của AI tạo sinh có tính mở và sáng tạo hơn.
Mặc dù AI dự đoán và AI tạo sinh chia sẻ một số nguyên tắc MLOps, nhưng việc đánh giá AI tạo sinh đặt ra những thách thức mới do bản chất sáng tạo của nó.
Chúng ta hãy thu hẹp trọng tâm vào các mô hình ngôn ngữ lớn, hay gọi tắt là LLM, một loại mô hình AI tạo sinh cụ thể đang cách mạng hóa cách chúng ta tương tác với ngôn ngữ. Mặc dù LLM và AI tạo sinh thường được sử dụng thay thế cho nhau và cả hai đều đề cập đến các mô hình AI tạo ra văn bản giống con người, nhưng chúng không hoàn toàn giống nhau.
AI tạo sinh là một thuật ngữ rộng hơn, bao gồm các mô hình có khả năng tạo ra nhiều loại nội dung ngoài văn bản, chẳng hạn như hình ảnh, âm nhạc hoặc thậm chí là mã. LLM là một tập hợp con của AI tạo sinh, chuyên về các tác vụ ngôn ngữ như tạo văn bản, dịch ngôn ngữ và tóm tắt thông tin. Trong khóa học này, chúng ta sẽ tập trung chủ yếu vào LLM để giữ cho các cuộc thảo luận của chúng ta đơn giản và tập trung.
Trước khi đánh giá LLM trong sản xuất, việc hiểu các thành phần cơ bản liên quan trong toàn bộ vòng đời, mà chúng ta có thể gọi là khối LLM, là rất hữu ích. Trong suốt vòng đời, đánh giá đóng một vai trò quan trọng. Trong AI tạo sinh, hành trình bắt đầu bằng việc chọn mô hình được đào tạo trước phù hợp. Đây là một quyết định nền tảng đòi hỏi những hiểu biết sâu sắc dựa trên dữ liệu.
Trái tim của hệ sinh thái mô hình ngôn ngữ là các LLM. Các mô hình này tương tác với nhiều thành phần khác nhau như:
Nguồn dữ liệu (Data sources): Cung cấp thông tin ngữ cảnh thông qua nhiều nguồn khác nhau như cơ sở dữ liệu quan hệ, đồ thị và vector, rất quan trọng cho việc truy xuất và tạo sinh tăng cường.
Mẫu lời nhắc (Prompt templates): Bao gồm các hướng dẫn tiêu chuẩn được đưa ra cho mô hình. Chúng được chia sẻ giữa các yêu cầu và thường được kiểm soát phiên bản cũng như quản lý tương tự như mã bằng các định dạng như tệp lời nhắc.
Bộ nhớ (Memory): Hoạt động như một nguồn dữ liệu động, lưu trữ và truy xuất các tương tác trong quá khứ với mô hình để làm ngữ cảnh cho các yêu cầu tiếp theo.
Công cụ (Tools): Mở rộng khả năng của mô hình bằng cách cho phép tương tác với các hệ thống bên ngoài, chẳng hạn như lệnh gọi API, thực thi mã và các tích hợp khác.
Luồng điều khiển tác tử (Agent control flow): Cho phép mô hình lặp đi lặp lại tinh chỉnh cách tiếp cận một tác vụ, thực hiện nhiều lần thử cho đến khi các tiêu chí dừng được xác định trước được đáp ứng.
Hàng rào bảo vệ (Guard rails): Đúng như tên gọi, là các cơ chế an toàn được áp dụng cho đầu ra của mô hình trước khi nó đến tay người dùng. Từ logic đơn giản, như phát hiện từ khóa, đến việc gọi các mô hình phụ. Các biện pháp này có thể kích hoạt việc xem xét lại bởi con người khi cần thiết.
Mỗi thành phần đóng một vai trò quan trọng trong việc định hình hành vi và đầu ra của mô hình, làm cho hệ thống tổng thể phức tạp hơn so với các mô hình học máy truyền thống. LLM là công cụ lý luận cốt lõi, có thể truy cập qua API từ các nền tảng như Google hoặc các giải pháp mã nguồn mở như Mistral.
Những thành phần riêng lẻ này tạo ra một không gian thiết kế rộng lớn và đặc biệt để khám phá, đòi hỏi cấu hình và xem xét cẩn thận. Đây là một sự thay đổi mô hình từ việc đánh giá mô hình truyền thống, vốn chủ yếu tập trung vào việc tối ưu hóa các tham số và siêu tham số của mô hình để tăng cường khả năng tổng quát hóa và hiệu suất dự đoán trên dữ liệu chưa thấy, thay vì điều phối sự tương tác phức tạp của các thành phần đa dạng.
Tuy nhiên, việc đánh giá các mô hình ngôn ngữ lớn (LLM) không giống như đánh giá các mô hình dự đoán thông thường, nơi bạn thiết lập mục tiêu, chọn kỹ thuật đánh giá, thu thập bộ dữ liệu, sau đó phân tích và diễn giải kết quả.
Quy mô, sự phức tạp và các tác vụ đa dạng mà LLM xử lý đặt ra những thách thức đánh giá độc đáo. Những thách thức này bao gồm các vấn đề liên quan đến dữ liệu như thiếu dữ liệu và nhiễm bẩn dữ liệu, khó khăn trong việc diễn giải các quyết định của mô hình do không gian quyết định lớn của chúng, các vấn đề về thiên vị và đánh giá, đảm bảo khả năng tổng quát hóa đến các kịch bản thế giới thực, và các mối lo ngại về bảo mật như các cuộc tấn công đối nghịch.
Việc đánh giá LLM bắt đầu bằng dữ liệu, nhưng không giống như các mô hình truyền thống, việc tìm kiếm dữ liệu phù hợp và đảm bảo chất lượng của nó có thể khó khăn. Thử thách ban đầu xuất phát từ việc thiếu dữ liệu. Trong học máy dự đoán truyền thống, chúng ta thường bắt đầu bằng việc tập hợp một bộ dữ liệu đáng kể. Tuy nhiên, các mô hình tạo sinh có thể bắt đầu với dữ liệu tối thiểu hoặc thậm chí không có dữ liệu nào cả. Mặc dù điều này giúp đẩy nhanh quá trình khởi tạo, nhưng việc thiếu dữ liệu đầy đủ có thể cản trở việc thiết lập một tiêu chuẩn rõ ràng cho những gì cấu thành một đầu ra tốt.
Ngoài ra còn có vấn đề nhiễm bẩn dữ liệu. Các mô hình nền tảng dựa trên nhiều nguồn dữ liệu đa dạng, một số trong đó có thể không được chia sẻ hoàn toàn bởi tổ chức đã phát triển LLM. Do đó, rất khó để đảm bảo rằng dữ liệu huấn luyện không chứa các trường hợp dữ liệu kiểm thử, điều này có thể làm suy yếu các quy trình đánh giá chuẩn.
Thử thách cuối cùng liên quan đến dữ liệu là dữ liệu tham chiếu hạn chế. Một số phương pháp đánh giá như BLEU hoặc ROUGE yêu cầu dữ liệu tham chiếu để phân tích so sánh. Tuy nhiên, việc thu thập dữ liệu tham chiếu chất lượng cao đặt ra nhiều thách thức, đặc biệt trong các kịch bản có nhiều câu trả lời chấp nhận được hoặc các tác vụ mở. Dữ liệu tham chiếu hạn chế hoặc có thiên vị có thể không bao gồm toàn bộ các đầu ra chấp nhận được của mô hình.
Hơn nữa, làm thế nào để bạn đo lường chất lượng bộ dữ liệu và xác định tiêu chí? Nói cách khác, điều gì tạo nên một bộ dữ liệu tốt để đánh giá LLM? Không giống như các tác vụ dự đoán, việc xác định một bộ dữ liệu tốt để đánh giá LLM vẫn là một câu hỏi mở.
Về độ phức tạp của mô hình và thách thức ra quyết định, quy mô tuyệt đối và cơ chế hoạt động bên trong của LLM khiến việc quyết định cấu hình mô hình tốt nhất và diễn giải các đầu ra của chúng trở nên khó khăn. Phạm vi lựa chọn rộng lớn trong phát triển mô hình từ huấn luyện đến lựa chọn, tùy chỉnh và học trong ngữ cảnh, tạo ra một không gian quyết định phức tạp. Mỗi tùy chọn này đòi hỏi sự khám phá và tài nguyên đáng kể.
Thiên vị trong các mô hình ngôn ngữ lớn là một mối lo ngại nghiêm trọng, dẫn đến kết quả không công bằng và khuếch đại bất bình đẳng xã hội. Để đảm bảo việc sử dụng LLM công bằng và có đạo đức, chúng ta phải cung cấp khả năng phát hiện và giảm thiểu thiên vị, đánh giá cẩn thận tác động của các kỹ thuật khác nhau.
Đánh giá chuẩn LLM là rất cần thiết cho khả năng tổng quát hóa và khả năng ứng dụng trong thế giới thực. Điều quan trọng là phải nhớ rằng thế giới thực phức tạp hơn nhiều so với bất kỳ bài kiểm tra tiêu chuẩn nào. Mặc dù các điểm chuẩn giúp chúng ta so sánh các hệ thống và thiết lập thứ hạng hiệu suất, nhưng chúng có thể không bao trọn vẹn các thách thức đa dạng mà LLM phải đối mặt trong việc triển khai thực tế. Do đó, điều quan trọng là phải xem xét mức độ tổng quát hóa của các kết quả được kiểm soát này đến các kịch bản phức tạp, khó đoán hơn.
Ngoài ra, bảo mật là một mối quan tâm lớn. LLM dễ bị thao túng thông qua các cuộc tấn công đối nghịch, trong đó các đầu vào được tạo ra có thể khiến chúng tạo ra các đầu ra sai hoặc có hại. Các cuộc tấn công này có thể liên quan đến việc thao túng các dự đoán của mô hình hoặc làm nhiễm độc dữ liệu huấn luyện. Điểm yếu này đối với các cuộc tấn công đối nghịch đã bộc lộ một lỗ hổng trong các phương pháp đánh giá hiện tại, làm nổi bật sự cần thiết của nghiên cứu liên tục và đánh giá tính mạnh mẽ.
Đánh giá LLM không chỉ là về các chỉ số kỹ thuật. Việc đánh giá các đầu ra sáng tạo vốn dĩ liên quan đến tính chủ quan, và việc điều hướng các phương pháp đánh giá khác nhau trở nên phức tạp hơn khi xem xét tính chủ quan vốn có này. Sự xuất hiện nhanh chóng của các phương pháp đánh giá mới có thể thách thức các phương pháp đã được thiết lập. Tuy nhiên, khả năng thích ứng với những tiến bộ này là rất quan trọng để đảm bảo đánh giá LLM đáng tin cậy.
Đánh giá các tác vụ tạo sinh rất phức tạp, và việc hiểu kết quả đánh giá có thể khó khăn. Không giống như các vấn đề có một câu trả lời duy nhất, việc hiểu các sắc thái của đầu ra đòi hỏi các phương pháp luận mạnh mẽ để có được những hiểu biết có ý nghĩa.
Xem xét điều này, bạn có thể hiểu tại sao việc đánh giá LLM, hay nói rộng hơn là các mô hình AI tạo sinh, lại quan trọng đến vậy.