Phân tích hồi quy nhị phân trong SPSS: Cách thực hiện và đọc kết quả

Hồi quy logistic trong SPSS là một phương pháp thống kê được sử dụng để dự đoán và phân tích quan hệ giữa biến phụ thuộc và các biến độc lập trong một mô hình hồi quy. Trong bài viết này, chúng tôi sẽ giới thiệu về cách thực hiện hồi quy logistic trong SPSS và áp dụng nó vào các nghiên cứu và phân tích dữ liệu của bạn.

Table of Contents

1. Hồi quy logistic nhị phân: Định nghĩa và ứng dụng trong SPSS

Hồi quy logistic nhị phân là một phương pháp thống kê được sử dụng để dự đoán xác suất của một biến phụ thuộc nhị phân (có hai giá trị) dựa trên các biến độc lập. Trong hồi quy logistic nhị phân, biến phụ thuộc thường là một biến nhị phân (ví dụ: có hoặc không có, thành công hoặc thất bại), trong khi các biến độc lập có thể là các biến liên tục hoặc rời rạc.

Ứng dụng của hồi quy logistic nhị phân rất rộng trong nhiều lĩnh vực, bao gồm y tế, kinh tế, xã hội học và marketing. Ví dụ, nó có thể được sử dụng để dự đoán khả năng một người mắc bệnh ung thư dựa trên các yếu tố như tuổi, giới tính và tiền sử gia đình. Nó cũng có thể được sử dụng để xác định yếu tố ảnh hưởng đến việc mua hàng trực tuyến, ví dụ: giới tính, thu nhập và độ tuổi.

Hướng dẫn thực hiện phân tích hồi quy logistic nhị phân trong SPSS

Để thực hiện phân tích hồi quy logistic nhị phân trong SPSS, bạn cần làm theo các bước sau:

  1. Mở tập tin dữ liệu trong SPSS và chọn “Analyze” từ thanh menu chính.
  2. Chọn “Regression” và sau đó chọn “Binary Logistic” từ menu con.
  3. Chọn biến phụ thuộc (biến nhị phân) và các biến độc lập mà bạn muốn sử dụng cho mô hình.
  4. Tùy chỉnh các cài đặt khác, ví dụ: kiểm tra giả thuyết về sự tương quan giữa các biến, xác định biến tham chiếu cho biến rời rạc, và điều chỉnh các cài đặt cho việc xuất kết quả.
  5. Nhấp vào nút “OK” để chạy phân tích. Kết quả được hiển thị trên bảng Output của SPSS.

Lưu ý:

  • Hồi quy logistic nhị phân trong SPSS yêu cầu ít nhất một biến phụ thuộc có hai giá trị (nhị phân) và ít nhất một biến độc lập.
  • Trước khi thực hiện hồi quy logistic nhị phân, cần kiểm tra các tiên đoán về giả thuyết của mô hình, bao gồm kiểm tra tương quan giữa các biến và sự tồn tại của hiện tượng “quá khớp” (overfitting).

2. Phương trình của hồi quy logistic nhị phân và cách giải thích

Phương trình hồi quy logistic nhị phân

Trong hồi quy logistic nhị phân, chúng ta sử dụng một phương trình để dự đoán xác suất xảy ra của một biến phụ thuộc nhị phân (ví dụ: có hoặc không) dựa trên các biến độc lập. Phương trình này được gọi là phương trình hồi quy logistic. Công thức chung cho phương trình hồi quy logistic là:

logit(p) = β0 + β1×1 + β2×2 +… + βnxn

Trong đó:
– logit(p) là giá trị logarit tỷ lệ xác suất của biến phụ thuộc p.
– β0, β1, β2,…,βn là các hệ số ước lượng cho các biến độc lập x1, x2,…,xn.

Cách giải thích phương trình hồi quy logistic

Để giải thích phương trình hồi quy logistic, chúng ta cần xem xét tác động của từng biến độc lập lên biến phụ thuộc. Để làm điều này, chúng ta có thể sử dụng các giá trị ước lượng (hệ số) của các biến độc lập trong phương trình.

– Nếu hệ số (β) của một biến độc lập là dương, tức là β > 0, thì khi giá trị của biến độc lập tăng, xác suất xảy ra của biến phụ thuộc cũng tăng. Đây được gọi là tác động tích cực.
– Ngược lại, nếu hệ số (β) của một biến độc lập là âm, tức là β < 0, thì khi giá trị của biến độc lập tăng, xác suất xảy ra của biến phụ thuộc giảm. Đây được gọi là tác động tiêu cực.

Bằng cách xem xét các hệ số ước lượng trong phương trình hồi quy logistic, chúng ta có thể hiểu được mức độ ảnh hưởng và hướng tác động của từng biến đối với kết quả nhị phân mà chúng ta quan tâm.

3. Hướng dẫn thực tế về việc tiến hành phân tích hồi quy logistic nhị phân trong SPSS

Bước 1: Chuẩn bị dữ liệu

Trước khi tiến hành phân tích hồi quy logistic nhị phân trong SPSS, chúng ta cần chuẩn bị dữ liệu phù hợp. Đảm bảo rằng biến phụ thuộc là một biến nhị phân và các biến độc lập đã được thu thập và mã hóa đúng.

Bước 2: Mở SPSS và nhập dữ liệu

Sau khi chuẩn bị dữ liệu, chúng ta mở SPSS và tạo một bảng mới để nhập dữ liệu. Chúng ta cần nhập tất cả các biến độc lập và biến phụ thuộc vào bảng này.

Bước 3: Thực hiện phân tích hồi quy logistic

Để thực hiện phân tích hồi quy logistic nhị phân trong SPSS, chúng ta có thể sử dụng menu “Analyze” và sau đó chọn “Regression” và “Binary Logistic”. Trong cửa sổ mới xuất hiện, chúng ta có thể kéo các biến từ bảng dữ liệu vào ô “Dependent” (biến phụ thuộc) và ô “Independent(s)” (biến độc lập).

Danh sách kiểm tra:

– Kiểm tra xem biến phụ thuộc có chỉ gồm hai giá trị (nhị phân) không.
– Kiểm tra xem các biến độc lập đã được mã hóa đúng không.
– Kiểm tra xem dữ liệu đã được nhập đầy đủ và không có giá trị thiếu.

Danh sách các bước:

1. Chuẩn bị dữ liệu phù hợp.
2. Mở SPSS và tạo một bảng mới để nhập dữ liệu.
3. Nhập tất cả các biến độc lập và biến phụ thuộc vào bảng dữ liệu.
4. Thực hiện phân tích hồi quy logistic nhị phân trong SPSS sử dụng menu “Analyze” -> “Regression” -> “Binary Logistic”.
5. Kéo các biến từ bảng dữ liệu vào ô “Dependent” (biến phụ thuộc) và ô “Independent(s)” (biến độc lập).
6. Kiểm tra kết quả và giải thích tác động của các biến độc lập lên biến phụ thuộc.

4. Biến trong phương trình: Hiểu kiểm định Wald và ý nghĩa của biến độc lập

4.1 Kiểm định Wald

Kiểm định Wald là một phương pháp thống kê được sử dụng để xác định xem liệu một biến trong phương trình có ảnh hưởng đáng kể đến kết quả hay không. Phương pháp này dựa trên việc so sánh giữa ước lượng của hệ số cho biến cụ thể với sai số tiêu chuẩn của ước lượng này. Nếu giá trị tìm được từ kiểm định Wald vượt quá ngưỡng ý nghĩa thống kê, ta có thể kết luận rằng biến này có tác động đáng kể.

4.2 Ý nghĩa của biến độc lập

Biến độc lập trong mô hình hồi quy logistic nhị phân là những yếu tố được xem xét để dự đoán hoặc giải thích biến phụ thuộc (kết quả). Ý nghĩa của các biến độc lập là xác định mức độ tác động của chúng lên khả năng xảy ra hay không xảy ra của biến phụ thuộc.

Thông qua hệ số ước lượng, ta có thể biết được tác động tích cực hoặc tiêu cực của mỗi biến độc lập. Nếu hệ số dương, tức là giá trị tăng của biến độc lập sẽ tăng khả năng xảy ra của biến phụ thuộc. Ngược lại, nếu hệ số âm, tức là giá trị tăng của biến độc lập sẽ giảm khả năng xảy ra của biến phụ thuộc.

5. Giải thích hệ số trong hồi quy logistic nhị phân: Tác động tích cực và tiêu cực của biến độc lập

5.1 Tác động tích cực

Tác động tích cực của một biến độc lập trong mô hình hồi quy logistic nhị phân được thể hiện bởi hệ số ước lượng dương. Điều này cho thấy rằng khi giá trị của biến tăng, khả năng xảy ra sự kiện (biến phụ thuộc) cũng tăng theo.

5.2 Tác động tiêu cực

Tác động tiêu cực của một biến độc lập trong mô hình hồi quy logistic nhị phân được thể hiện bởi hệ số ước lượng âm. Điều này cho thấy rằng khi giá trị của biến tăng, khả năng xảy ra sự kiện (biến phụ thuộc) giảm theo.

6. Đánh giá sự khớp mô hình trong hồi quy logistic nhị phân: Cox & Snell R Square và Nagelkerke R Square

6.1 Cox & Snell R Square

Cox & Snell R Square là một chỉ số được sử dụng để đánh giá mức độ khớp của mô hình hồi quy logistic nhị phân. Giá trị của Cox & Snell R Square nằm trong khoảng từ 0 đến 1, với giá trị càng cao thì mô hình càng khớp tốt.

6.2 Nagelkerke R Square

Nagelkerke R Square là một chỉ số tương tự như Cox & Snell R Square, được sử dụng để đánh giá mức độ khớp của mô hình hồi quy logistic nhị phân. Tuy nhiên, Nagelkerke R Square có giá trị điều chỉnh để bù đắp cho việc có thể có các biến không liên quan trong mô hình.

Cả hai chỉ số này đều cho ta thông tin về khả năng dự đoán của mô hình, với giá trị càng cao thì mô hình càng có khả năng dự đoán tốt hơn.

Tổng kết lại, SPSS là một công cụ mạnh mẽ trong việc phân tích dữ liệu và hỗ trợ quyết định trong lĩnh vực hồi quy logistic. Việc sử dụng SPSS giúp tăng hiệu suất và chính xác của quy trình hồi quy logistic, đồng thời mang lại những thông tin quan trọng cho các chuyên gia và nhà nghiên cứu.

Thực hành hồi quy logistic nhị phân trong SPSS

Bước 1: Analyze -> Regression -> Binary Logistic…

E:\a\10.PNG

Bước 2: Đưa biến

Đưa biến độc lập và ô Dependent

Đưa các biến phụ thuộc vào ô Covariantes

Phương pháp đưa biến để mặc định là Enter

Bước 3: Tại mục Save bạn có thể chọn 1 số lựa chon

(Không bắt buộc- mà tùy mục đích ở sau)

+ Chọn Probabilities nếu muốn lưu lại các xác xuất dự đoán theo model

+ Chọn Group membership nếu muốn lưu lại các nhóm dự đoán theo model

+ Chọn 1 khoảng cách (từ điểm dự đoán đế điểm thực) tại mục Infuluence, Nếu chọn người ta hay chọn Cook’s

+ Tại mục Residuals (phần dư) có thể chọn các phần dư muốn lưu, người ta hay chọn Studentized

E:\a\11.PNG

Bước 4: Tại mục Opptions…

Chọn kiểm định Hosmer-Lemeshow , (sau đây sẽ gọi là kiểm định H-L hoặc HL) để đánh giá độ phù hợp của mô hình

E:\a\12.PNG

Cuối cùng nhấn OK để được kết quả ở output.

Cách đọc output sẽ có ở bài viết tiếp theo

Đọc kết quả mô hình Logit từ output

Tại output của SPSS có một số thông tin cơ bản như sau

Tại Beginning Block

Đây là lúc phần mềm bắt đầu ước lượng, từ việc chưa đưa biến độc lập nào vào, sau đó thử nghiệm mô hình với từng biến độc lập

Tại bảng Variables not in the Equation chính là thống kê trong trường hợp các mô hình logit đơn biến (tương ứng từng biến). Ở đây những biến nào có sig >0,05 thì có thể dự đoán là nó sẽ không có ý nghĩa trong mô hình.

Ta có thể bỏ qua phần này

Block 1: Đây chính là phần quan trọng

Độ phù hợp của mô hình được đánh giá thông qua bài test Omnibus, Kiểm định HL và 1 số hệ số xác định mô hình giả

Khả năng dự đoán của mô hình được xem xét qua bảng Classification Table

Ý nghĩa của các biến số trong mô hình hồi quy được xem xét trong bảng Variables in the Equation

Ý nghĩa các chỉ số và cách đọc từng phần nội dung/ giải thích ý nghĩa sẽ được đề cập trong bài tiếp theo.

Đánh giá độ phù hợp qua phép kiểm: Omnibus Tests of Model Coefficients

Đây là kiểm định giống với kiểm định trong bảng ANOVA khi thực hiện hồi quy tuyến tính.

Bạn biết không, ANOVA khi đó cũng là 1 dạng của Omnibus Test đó!

Bảng này đo lường mức độ phù hợp của mô hình, với cặp giả thuyết cần kiểm định

  • H0: Mô hình không phù hợp. Tức là việc đưa thêm đồng thời một số biến đang xét vào mô hình không làm gia tăng đáng kể phương sai giải thích được (so với việc chỉ có hệ số tự do)
  • H1: Mô hình phù hợp.

Chúng ta Giá trị sig thu được nhỏ hơn p-value (thường lây 0,05) để bác bỏ H0

Thông thường ta thu được sig <0,05 ở đây, nhưng tất nhiên không phải lúc nào cũng đúng- nếu bạn đưa tất cả các biến vào mô hình đều là biến không thích hợp

Trong ví dụ minh họa này giá trị sig =0,000 <0,05 nên ta kết luận mô hình là hoàn toàn phù hợp

Các bạn cũng sẽ dễ thấy là sig ở đây rất nhỏ sẽ đồng thời ở bảng bên dưới Cox & Snell R Square và Nagelkerke R Square sẽ lớn và ngươc lại.

Đánh giá độ phù hợp qua hệ số xác định giả: Cox & Snell R Square và Nagelkerke R Square

Đến với bảng Model Summary.

Với mô hình hồi quy tuyến tính, hệ số xác định R bình phương (0<= R bình phương <=1) thể hiện tỷ lệ phương sai trong biến phụ thuộc được giải thích bởi các biến độc lập. R bình phương càng lớn cho thấy rằng mô hình càng có khả năng giải thích tốt. Đối với mô hình hồi quy có biến phụ thuộc phân loại, không thể tính toán một thống kê R bình phương duy nhất có tất cả các đặc điểm của R bình phương trong mô hình hồi quy tuyến tính.Vì vậy thay vào đó, các phép tính gần đúng này được tính. Các phương pháp sau đây được sử dụng để ước tính hệ số xác định

Cox & Snell R Square dựa trên khả năng nhật ký đối với mô hình so với khả năng nhật ký đối với mô hình cơ sở. Tuy nhiên, với các kết quả phân loại, nó luôn có giá trị lý thuyết nhỏ hơn 1, ngay cả đối với một mô hình hoàn hảo.

Nagelkerke R Square là một phiên bản điều chỉnh của Cox & Snell R Square. Nagelkerke R Square nằm trong đoạn từ 0 đến 1. Với mô hình hoàn hảo thì Nagelkerke R Square đúng bằng 1.

Bên cạnh đó chúng ta cũng thấy giá trị -2 Log likelihood (trừ 2 lần giá trị trị hàm hợp lý). Trong mô hình hoàn hảo thì -2 Log likelihood đúng bằng 0.

Nếu Cox & Snell R Square và Nagelkerke R Square quá nhỏ thì có thể cho rằng đây là mô hình không phù hợp (Ví dụ 0,01 hay 0,100 chẳng hạn). Tất nhiên chúng càng lớn sẽ càng tốt

-2 Log likelihood càng nhỏ càng tốt, nhưng cũng không có tiêu chuẩn thế nào là nhỏ.

Ba chỉ số trên thực sự có ý nghia khi mang so sánh các mô hình với nhau. Mô hình tốt hơn là mô hình có các chỉ số trên tốt hơn. -2 Log likelihood nhỏ hơn và Cox & Snell R Square và Nagelkerke R Square lớn hơn.

Cox & Snell R Square và Nagelkerke R Square gọi là R bình phương giả (Pseudo R-Squared)

Kiểm định H-L: Hosmer and Lemeshow Test

Đây là một kiểm định khác được ưa thích dùng để đánh giá độ phù hợp của một hàm hồi quy nhị phân (không chỉ Logit mà còn cả Probit). Tất nhiên vẫn còn nhiều tranh cãi về kiểm định này, tuy nhiên các bạn hãy tham khảo đây như một thức đo độ phù hợp của mô hình binary logistic. Bản thân mình cũng rất thích dùng kiểm định này.

Cặp giả thuyết được kiểm định

  • H0:Tỷ lệ quan sát được và tỷ lệ mong đợi là như nhau ở tất cả các nhóm (Tức là mô hình phù hợp
  • H1: Có sự khác biệt về tỷ lệ quan sát được và tỷ lệ mong đợi (ở ít nhất 2 nhóm với nhau), (Tức là mô hình không phù hợp

Chúng ta mong đợi sig >0,05 để chấp nhận H0.

Xin trích bài viết từ: https://rpubs.com/nguyenngocbinhneu/hosmer_lemeshow_test (phần chữ xanh)

Kiểm định Hosmer-Lemeshow (1980) là kiểm định sự phù hợp của hàm hồi quy với biến độc lập là biến nhị phân. Kiểm định này được sử dụng rất phổ biến nhưng bên cạnh đó vẫn còn nhiều điểm chưa được phù hợp.

Thông thường, để đánh giá mức độ giải thích (predict power) của biến độc lập cho biến phụ thuộc người ta dùng R bình phương. Chỉ số này cho biết những biến độc lập giải thích được bao nhiêu % sự thay đổi của biến phụ thuộc.

Ngược lại, goodness-of-fit (GOF) test cho biết liệu mô hình đã chọn có chính xác hay không. Nếu p-value thấp (<0.05) loại bỏ mô hình, p-value cao thì chấp nhận mô hình.

Mô hình với biến phụ thuộc là nhị phân, thông thường phải dùng link function (logit, probit, log-log hay hàm gì đó) tức là mô hình không trực tiếp dự báo xác suất. Vì vậy, kể cả trường hợp tuyến tính hay phi tuyến, vẫn có thể có trường hợp R2 cao, nhưng mô hình phân loại không chính xác và ngược lại R2 thấp nhưng mô hình lại phân loại chính xác

Theo công thức HL mẫu được chia thành k nhóm bằng nhau, thông thường là 10 nhóm. Đối với mỗi nhóm, chúng ta tính tỷ lệ xảy ra sự kiện và kỳ vọng tỷ lệ xảy ra sự kiện, rồi lấy 2 kết quả trừ cho nhau

Với ví dụ đang xét thì sig =0,226 >0,05 nên mô hình là phù hợp.

Với việc phân ra k nhóm bất kỳ, khi thống kê được số quan sát và kỹ vọng của từng nhóm ta có thể tính chỉ số HL như sau

Obs có: số quan sát nhận giá trị có

Exp có: số quan sát kỳ vọng nhận giá trị có

Obs không: số quan sát nhận giá trị không

Exp không: số quan sát kỳ vọng nhận giá trị không

k: số nhóm được chia

HL tuân theo quy luật phân phối khi-bình phương (chi-square) với (k-2) bậc tự do.

Với mức ý nghĩa α cho trước, nếu HL < χ2 (k-2;α) thì chấp nhận H0, ngược lại ta bác bỏ H0.

Tra bảng thấy HL =10,59 < χ2 (8;0,05)=15,51 nên ta chấp nhận H0, mô hình phù hợp với dữ liệu.

Tính toán thủ công cho ta kết quả tương tự.

Khả năng dự đoán của mô hình

Đến với bảng Classification Table

Xem xét các con số trên đường chéo.

Mô hình dự đoán đúng 50 (trên 50+9=59) quốc gia không hạnh phúc

Mô hình dự đoán đúng 91 (trên 91+6=97) quốc gia hạnh phúc

Tổng số dự đoán đúng là (50+91)/(59+97)=90,4%.

Như vậy ta được 1 mô hình dự đoán khá tốt.

Ý nghĩa của các hệ số hồi quy

Tại bảng Variables in the Equation chúng ta quan tâm đến 2 cột chính

E:\a\13.PNG

Cột B chính là các hệ số hồi quy tương ứng với các biến trong mô hình

Giá trị sig tương tự sig của hồi quy tuyến tính, dùng để kiểm tra cặp giả thuyết

  • H0: Hệ số hồi quy βi=0
  • H1: Hệ số hồi quy βi≠0

Trong ví dụ này

+ Các biến Ho_Tro_XH và T_tho có ý nghĩa thống kê ở mức 5%, tác động dương tới khả năng trở thành 1 quốc gia hạnh phúc

+ Các biến GDP_bq và Tu_do có ý nghĩa thống kê ở mức 10%, tác động dương tới khả năng trở thành 1 quốc gia hạnh phúc

+ Các biến Hao_phong và Tham_nhung không có ý nghĩa thống kê, tức là không có tác động dương đến việc 1 quốc gia có hạnh phúc hay không.

Phân tích ý nghĩa của hệ số hồi quy.

Phần nội dung tiếp theo này do Hỗ trọ nghiên cứu giữ bản quyền và Mạnh Hùng chưa được phép khai thác ở đây

Link bài viết: https://ungdung.hotronghiencuu.com/chay-mo-hinh-logit-tren-spss-1