Bài trước đã giới thiệu mô hình sau đây, mô hình này đã phân loại sai nhiều cây trong tập dữ liệu kiểm thử:
Mô hình trước đó chứa nhiều hình dạng phức tạp. Mô hình đơn giản hơn có xử lý dữ liệu mới tốt hơn không? Giả sử bạn thay thế mô hình phức tạp bằng một mô hình đơn giản đến mức nực cười – một đường thẳng.
Mô hình đơn giản khái quát tốt hơn mô hình phức tạp trên dữ liệu mới. Tức là mô hình đơn giản đã đưa ra dự đoán tốt hơn trên tập dữ liệu kiểm thử so với mô hình phức tạp.
Sự đơn giản đã đánh bại sự phức tạp từ lâu. Trên thực tế, việc ưu tiên sự đơn giản đã có từ thời Hy Lạp cổ đại. Nhiều thế kỷ sau, một tu sĩ thế kỷ 14 tên là William of Occam đã chính thức hoá lựa chọn ưu tiên về sự đơn giản trong một triết lý được gọi là lưỡi dao Occam. Triết lý này vẫn là một nguyên tắc cơ bản quan trọng của nhiều ngành khoa học, bao gồm cả học máy.
Lưu ý: Các mô hình phức tạp thường hoạt động hiệu quả hơn các mô hình đơn giản trên tập huấn luyện. Tuy nhiên, các mô hình đơn giản thường hoạt động hiệu quả hơn các mô hình phức tạp trên tập dữ liệu kiểm thử (quan trọng hơn).
Bài tập: Kiểm tra mức độ hiểu biết
Điều hoà
Các mô hình học máy phải đồng thời đáp ứng hai mục tiêu xung đột:
- Phù hợp với dữ liệu.
- Điều chỉnh dữ liệu sao cho đơn giản nhất có thể.
Một phương pháp để giữ cho mô hình đơn giản là phạt các mô hình phức tạp; tức là buộc mô hình trở nên đơn giản hơn trong quá trình huấn luyện. Việc phạt các mô hình phức tạp là một hình thức điều chỉnh.
Tương tự như quy trình chuẩn hoá: Giả sử mỗi học viên trong một hội trường có một chuông nhỏ phát ra âm thanh khiến giáo sư khó chịu. Học viên sẽ nhấn chuông mỗi khi bài giảng của giáo sư trở nên quá phức tạp. Giáo sư sẽ buộc phải đơn giản hoá bài giảng vì quá khó hiểu. Giáo sư sẽ phàn nàn: “Khi đơn giản hoá, tôi không đủ chính xác”. Học viên sẽ phản bác lại bằng câu: “Mục tiêu duy nhất là giải thích một cách đơn giản để tôi hiểu được”. Dần dần, chuông báo sẽ huấn luyện giáo sư đưa ra bài giảng đơn giản một cách thích hợp, ngay cả khi bài giảng đơn giản đó không đủ chính xác.
Mất dữ liệu và độ phức tạp
Cho đến nay, khoá học này đã đề xuất rằng mục tiêu duy nhất khi huấn luyện là giảm thiểu tổn thất; tức là:
Như bạn đã thấy, các mô hình chỉ tập trung vào việc giảm thiểu tổn thất có xu hướng phù hợp quá mức. Thuật toán tối ưu hoá hoạt động huấn luyện tốt hơn sẽ giảm thiểu một số tổ hợp tổn thất và độ phức tạp:
Thật không may, tổn thất và độ phức tạp thường có mối quan hệ nghịch. Khi độ phức tạp tăng lên, tổn thất sẽ giảm. Khi độ phức tạp giảm, tổn thất sẽ tăng lên. Bạn nên tìm một điểm trung gian hợp lý để mô hình đưa ra dự đoán chính xác về cả dữ liệu huấn luyện và dữ liệu thực tế. Tức là mô hình của bạn phải tìm được một điểm dung hoà hợp lý giữa tổn thất và độ phức tạp.
Độ phức tạp là gì?
Bạn đã thấy một vài cách định lượng tổn thất. Bạn sẽ định lượng độ phức tạp bằng cách nào? Hãy bắt đầu khám phá thông qua bài tập sau:
Bài tập: Kiểm tra trực giác của bạn
Thuật ngữ quan trọng:
- Quy tắc chuẩn hoá 1
- L2 chuẩn hoá
- Điều chỉnh