1. Cây quyết định là gì ? 

Cây quyết định (DECISION TREE) là sơ đồ trong phân tích tài chính thể hiện mối tương tác của những tỷ số tài chính, và một tỷ số ảnh hưởng đến tỷ số khác như thế nào, cho phép nhà phân tích tài chính hoặc người kiểm tra ngân hàng, xem xét mối quan hệ nguyên nhân và kết quả trong những tỷ số khác nhau. 

Mô hình tính điểm tín dụng kiểm tra tương tác giữa các yếu tố tín dụng khác nhau, ví dụ, tuổi tác, thu nhập, loại nhà ở của bên vay nợ, bằng phương tiện là biểu đồ giống hình cây. Khác với phân tích tính điểm được chấp nhận rộng rãi, là gán điểm cho từng yếu tố tín dụng được xem xét khi chấp nhận hoặc bác bỏ đơn xin cấp tín dụng.

Cây quyết định là một trong những mô hình có khả năng diễn giải cao và có thể thực hiện cả nhiệm vụ phân loại và hồi quy. Như tên cho thấy Cây Quyết định là mô hình cấu trúc giống cây giống như cây lộn ngược. Tại thời điểm này, bạn có thể có một câu hỏi như chúng ta đã có các mô hình học máy cổ điển như hồi quy tuyến tính và hồi quy logistic để thực hiện các nhiệm vụ hồi quy và phân loại trong trường hợp như vậy thì sự cần thiết của một mô hình khác như Cây quyết định là gì. Câu trả lời cho câu hỏi này là để thực hiện các mô hình tuyến tính cổ điển, chúng ta cần đảm bảo rằng dữ liệu được sử dụng để đào tạo mô hình không có tất cả các bất thường như giá trị bị thiếu, các giá trị ngoại lệ cần được xử lý, đa cộng tuyến cần được giải quyết. Toàn bộ quá trình tiền xử lý dữ liệu cần được thực hiện trước đó. Trong khi trong Cây quyết định, chúng ta không cần phải thực hiện bất kỳ loại xử lý trước dữ liệu nào trước đó. Cây Quyết định đủ mạnh để xử lý tất cả các loại vấn đề như vậy để đi đến quyết định. Ngoài ra, Cây quyết định có khả năng xử lý dữ liệu phi tuyến mà các mô hình tuyến tính cổ điển không xử lý được. Do đó Cây quyết định đủ đa dạng để thực hiện cả nhiệm vụ hồi quy và phân loại. Toàn bộ những ưu và nhược điểm liên quan đến Cây Quyết định có thể được thảo luận chi tiết trong phần sau của bài viết này. Trước đó, hãy bắt đầu tìm hiểu Cây quyết định.

Cây quyết định xây dựng cây bằng cách đặt một loạt câu hỏi vào dữ liệu để đi đến quyết định. Do đó người ta nói rằng Cây Quyết định bắt chước quá trình quyết định của con người. Trong quá trình xây dựng cây, nó chia toàn bộ dữ liệu thành các tập dữ liệu con cho đến khi đưa ra quyết định. Hãy cùng tìm hiểu một vài thuật ngữ liên quan đến cây Quyết định để hiểu rõ hơn về Cây quyết định.

Cây quyết định còn có hai tên khác:

Cây hồi quy (Regression tree) ước lượng các hàm giá có giá trị là số thực thay vì được sử dụng cho các nhiệm vụ phân loại. (ví dụ: ước tính giá một ngôi nhà hoặc khoảng thời gian một bệnh nhân nằm viện)

Cây phân loại (Classification tree), nếu y là một biến phân loại như: giới tính (nam hay nữ), kết quả của một trận đấu (thắng hay thua).

Ví dụ thực hành

Ta sẽ dùng một ví dụ để giải thích về cây quyết định:

David là quản lý của một câu lạc bộ đánh golf nổi tiếng. Anh ta đang có rắc rối chuyện các thành viên đến hay không đến. Có ngày ai cũng muốn chơi golf nhưng số nhân viên câu lạc bộ lại không đủ phục vụ. Có hôm, không hiểu vì lý do gì mà chẳng ai đến chơi, và câu lạc bộ lại thừa nhân viên.

Mục tiêu của David là tối ưu hóa số nhân viên phục vụ mỗi ngày bằng cách dựa theo thông tin dự báo thời tiết để đoán xem khi nào người ta sẽ đến chơi golf. Để thực hiện điều đó, anh cần hiểu được tại sao khách hàng quyết định chơi và tìm hiểu xem có cách giải thích nào cho việc đó hay không.

Vậy là trong hai tuần, anh ta thu thập thông tin về:

Trời (outlook) (nắng (sunny),

Và tất nhiên là số người đến chơi golf vào hôm đó. David thu được một bộ dữ liệu gồm 14 dòng và 5 cột.

Cây quyết định (DECISION TREE) là gì? Phân loại và ưu điểm của cây quyết định?

 

2. Ưu điểm của cây quyết định

So với các phương pháp khai phá dữ liệu khác, cây quyết định là phương pháp có một số ưu điểm:

+ Cây quyết định dễ hiểu. Người ta có thể hiểu mô hình cây quyết định sau khi được giải thích ngắn.

+ Việc chuẩn bị dữ liệu cho một cây quyết định là cơ bản hoặc không cần thiết. Các kỹ thuật khác thường đòi hỏi chuẩn hóa dữ liệu, cần tạo các biến phụ (dummy variable) và loại bỏ các giá trị rỗng.

+ Cây quyết định có thể xử lý cả dữ liệu có giá trị bằng số và dữ liệu có giá trị là tên thể loại. Các kỹ thuật khác thường chuyên để phân tích các bộ dữ liệu chỉ gồm một loại biến. Chẳng hạn, các luật quan hệ chỉ có thể dùng cho các biến tên, trong khi mạng nơ-ron chỉ có thể dùng cho các biến có giá trị bằng số.

+ Cây quyết định là một mô hình hộp trắng. Nếu có thể quan sát một tình huống cho trước trong một mô hình, thì có thể dễ dàng giải thích điều kiện đó bằng logic Boolean. Mạng nơ-ron là một ví dụ về mô hình hộp đen, do lời giải thích cho kết quả quá phức tạp để có thể hiểu được.

+ Có thể thẩm định một mô hình bằng các kiểm tra thống kê. Điều này làm cho ta có thể tin tưởng vào mô hình.

+ Cây quyết định có thể xử lý tốt một lượng dữ liệu lớn trong thời gian ngắn. Có thể dùng máy tính cá nhân để phân tích các lượng dữ liệu lớn trong một thời gian đủ ngắn để cho phép các nhà chiến lược đưa ra quyết định dựa trên phân tích của cây quyết định.

=> Nhược điểm của cây quyết định - khó giải quyết được những vấn đề có dữ liệu phụ thuộc thời gian liên tục - dễ xảy ra lỗi khi có quá nhiều lớp chi phí tính toán để xây dựng mô hình cây quyết định CAO.

 

3. Ví dụ về cây quyết định

Một người nghĩ đến việc mở một cửa hàng bán lẻ (mà thành công của nó phụ thuộc vào chi tiêu của người tiêu dùng và bởi vậy phụ thuộc vào thực trạng của nền kinh tế) sẽ có cây quyết định như hình dưới đây:

Cây quyết định (DECISION TREE) là gì? Phân loại và ưu điểm của cây quyết định?

Căn cứ vào Cây quyết định trên, người bán lẻ có hai phương án hành động là mở cửa hàng và không mở cửa hàng. Anh ta phải cân nhắc hai trạng thái tự nhiên, tức hai sự kiện có thể xảy ra: nền kinh tế phát triển mạnh hoặc suy thoái.

Người bán lẻ phải đánh giá khả năng xuất hiện mỗi sự kiện và trong tình huống này, anh ta dựa trên kinh nghiệm và hiểu biết để nhận định rằng khả năng xuất hiện mỗi sự kiện bằng 50%. Cuối cùng, người bán lẻ ước tính hậu quả tài chính là nếu mở cửa hàng sẽ có lãi 40.000 đồng khi kinh tế phát triển mạnh và lỗ 30.000 đồng nếu có suy thoái.

Để ra quyết định, người bán lẻ cần một tiêu chuẩn ra quyết định cho phép anh ta lựa chọn phương án hành động tốt nhất trong các phương án có thể có. Vì sự lựa chọn này gắn với yếu tố rủi ro, nên chúng ta cần biết thái độ của người bán lẻ đối với rủi ro. 

Nếu người bán lẻ không chú ý đến rủi ro, chúng ta có thể tính toán tính xác định tương đương với hành vi "mở cửa hàng" bằng cách căn cứ vào hậu quả tài chính của mỗi kết cục và gia quyền nó theo xác suất xuất hiện của nó. Ví dụ:

Cây quyết định (DECISION TREE) là gì? Phân loại và ưu điểm của cây quyết định?

Kết cục này chắc chắn lớn hơn 0 trong trường hợp không mở cửa hàng và nó biện minh cho việc tiếp tục thực hiện dự án này.

Song nếu người bán lẻ là người ghét rủi ro, tiêu chuẩn giá trị bằng tiền có thể không phải là tiêu chuẩn thích hợp, vì anh ta cần nhận được phần thưởng cho sự rủi ro để chấp nhận hành động. Việc tận dụng tiêu chuẩn cẩn thận hơn tiêu chuẩn tương đương với tính xác định sẽ làm giảm tiêu chuẩn tương đương với tính xác định của nhánh "mở cửa hàng" và điều này cũng dẫn đến quyết định tiếp tục mở cửa hàng.

 

4. Các bước liên quan đến quá trình xây dựng cây như sau

1. Phân vùng đệ quy dữ liệu thành nhiều tập con.

2. Tại mỗi nút, xác định biến và quy tắc liên kết với biến để phân tách tốt nhất.

3. Áp dụng phép tách tại nút đó bằng cách sử dụng biến tốt nhất bằng cách sử dụng quy tắc được xác định cho biến.

4. Lặp lại bước 2 và bước 3 trên các nút con.

5. Lặp lại quá trình này cho đến khi chúng ta đạt được điều kiện dừng.

6. Gán các quyết định tại các nút lá dựa trên nhãn lớp đa số có mặt tại nút đó nếu thực hiện nhiệm vụ phân loại hoặc xem xét giá trị trung bình của các giá trị biến mục tiêu có tại nút lá đó nếu thực hiện nhiệm vụ hồi quy.

Tồn tại các thuật toán tạo cây khác nhau như CART, CHAID, ID3, C4.5, C5.0, v.v. Trong mỗi thuật toán xây dựng, các tiêu chí được xem xét để chọn tính năng tốt nhất cung cấp phân tách tốt nhất có thể khác nhau như thuật toán CART sử dụng thước đo tạp chất Gini Index để xác định tính năng tốt nhất cung cấp độ phân tách tốt nhất. Tương tự như vậy, ID3 sử dụng Tăng thông tin, C4.5 cũng sử dụng Tỷ lệ tăng tương tự cho các thuật toán khác. Nhưng thuật toán xây dựng cây tổng thể vẫn giống như đã đề cập ở trên.

Tại thời điểm này, bạn có thể có các câu hỏi như cách chọn các tính năng cung cấp sự phân chia tốt nhất. Cách xác định quy tắc liên quan đến tính năng để cung cấp phân tách tốt nhất và cuối cùng là điều kiện dừng là gì. Những câu hỏi này sẽ được trả lời trong phần sau của bài viết này.

Một vài điều cần lưu ý về việc xây dựng Cây Quyết định, những Cây Quyết định này theo cách tiếp cận từ trên xuống trong việc xây dựng cây và cũng được cho là có cách tiếp cận Tham lam. Cách tiếp cận tham lam bởi vì tại mỗi lần chia nút, các Cây quyết định này quan tâm đến kết quả ngay lập tức sau khi tách. Họ không tính đến ảnh hưởng của việc phân tách sau hai hoặc ba nút. Do đó, những Cây Quyết định này được cho là có cách tiếp cận Tham lam. Một hàm ý quan trọng của phương pháp Tham lam là nó làm cho mô hình Cây quyết định có phương sai cao, nghĩa là một thay đổi nhỏ trong dữ liệu đầu vào sẽ dẫn đến sự thay đổi hoàn toàn trong cấu trúc cây và các quyết định cuối cùng.

Có một số hiểu biết cấp cao về Cây quyết định và quy trình xây dựng mô hình của chúng. Hãy giải quyết lần lượt tất cả các câu hỏi của chúng tôi mà chúng tôi đã gặp trong quá trình xây dựng mô hình.

 

5. Các công thức

Gini impurity

Dùng trong thuật toán CART (Classification and Regression Trees). Nó dựa vào việc bình phương các xác suất thành viên cho mỗi thể loại đích trong nút. Giá trị của nó tiến đến cực tiểu (bằng 0) khi mọi trường hợp trong nút rơi vào một thể loại đích duy nhất.

Giả sử y nhận các giá trị trong {1, 2,..., m} và gọi f(i,j) là tần suất của giá trị j trong nút i. Nghĩa là f(i,j) là tỷ lệ các bản ghi với y=j được xếp vào nhóm i.

{\displaystyle I_{G}(i)=1-\sum _{j=1}^{m}f(i,j)^{2}}

Entropy

Dùng trong các thuật toán sinh cây ID3, C4.5 và C5.0. Số đo này dựa trên khái niệm entropy trong lý thuyết thông tin (information theory).