Hồi quy tuyến tính là một trong những phương pháp phân tích thống kê cơ bản và mạnh mẽ nhất, giúp chúng ta hiểu được mối quan hệ giữa một biến phụ thuộc (biến kết quả) và một hoặc nhiều biến độc lập (biến dự báo). Trong bài viết này, chúng ta sẽ cùng tìm hiểu cách thực hiện phân tích hồi quy tuyến tính trên phần mềm SPSS một cách chi tiết.
1. Hồi quy tuyến tính là gì?
Hồi quy tuyến tính (Linear Regression) là một kỹ thuật thống kê được sử dụng để mô hình hóa mối quan hệ tuyến tính giữa một biến phụ thuộc liên tục và một hoặc nhiều biến độc lập. Mục tiêu chính là dự đoán giá trị của biến phụ thuộc dựa trên giá trị của các biến độc lập.
Phân loại hồi quy tuyến tính:
- Hồi quy tuyến tính đơn giản (Simple Linear Regression): Khi chỉ có một biến độc lập. Ví dụ: Dự đoán điểm thi dựa trên số giờ học.
- Hồi quy tuyến tính đa biến (Multiple Linear Regression): Khi có hai hoặc nhiều biến độc lập. Ví dụ: Dự đoán doanh số bán hàng dựa trên chi phí quảng cáo và số lượng nhân viên.
—
2. Các giả định quan trọng của Hồi quy tuyến tính
Để kết quả phân tích hồi quy tuyến tính đáng tin cậy, cần đảm bảo các giả định sau. Việc kiểm tra các giả định này thường được thực hiện sau khi chạy hồi quy và kiểm tra phần dư (residuals).
- Giả định 1: Tính tuyến tính (Linearity)
Mối quan hệ giữa biến phụ thuộc và các biến độc lập phải là tuyến tính. Điều này có thể được kiểm tra bằng biểu đồ phân tán (scatterplot) của các biến hoặc biểu đồ phần dư (residuals plot). - Giả định 2: Tính độc lập của phần dư (Independence of Residuals)
Các phần dư không được có tương quan với nhau. Giả định này thường bị vi phạm trong dữ liệu chuỗi thời gian. Có thể kiểm tra bằng kiểm định Durbin-Watson (giá trị lý tưởng gần 2). - Giả định 3: Tính đồng nhất phương sai (Homoscedasticity)
Phương sai của phần dư phải không đổi trên toàn bộ phạm vi của các biến độc lập. Có thể kiểm tra bằng biểu đồ phần dư (residuals plot). - Giả định 4: Phần dư có phân phối chuẩn (Normality of Residuals)
Các phần dư phải tuân theo phân phối chuẩn. Có thể kiểm tra bằng biểu đồ Histogram của phần dư, biểu đồ Q-Q Plot, hoặc các kiểm định Kolmogorov-Smirnov/Shapiro-Wilk (dù các kiểm định này rất nhạy cảm với mẫu lớn). Lưu ý: Giả định này áp dụng cho phần dư, không phải cho bản thân các biến. - Giả định 5: Không có đa cộng tuyến nghiêm trọng (No Severe Multicollinearity)
Các biến độc lập không nên có mối tương quan quá cao với nhau. Điều này có thể kiểm tra bằng hệ số VIF (Variance Inflation Factor) và Tolerance. VIF nên nhỏ hơn 5 hoặc 10, và Tolerance nên lớn hơn 0.1 hoặc 0.2.
—
3. Các bước thực hiện Hồi quy tuyến tính trên SPSS
Giả sử bạn đã có dữ liệu trong SPSS và đã sẵn sàng để phân tích.
Bước 1: Mở cửa sổ Linear Regression
- Trên thanh Menu của SPSS, chọn Analyze > Regression > Linear…
Bước 2: Thiết lập biến
- Kéo biến phụ thuộc của bạn vào ô Dependent.
- Kéo một hoặc nhiều biến độc lập của bạn vào ô Independent(s).
Lưu ý về loại biến: Biến phụ thuộc phải là biến định lượng (tỷ lệ hoặc khoảng). Biến độc lập có thể là định lượng, thứ tự, hoặc định danh. Đối với biến định danh, bạn cần tạo biến giả (dummy variables) nếu có hơn 2 nhóm. Nếu chỉ có 2 nhóm (ví dụ: Nam/Nữ), bạn có thể trực tiếp đưa vào.
Bước 3: Tùy chọn Statistics
- Nhấn vào nút Statistics…
- Trong hộp thoại Statistics, bạn nên tích chọn:
- Estimates: Hiển thị các hệ số hồi quy (B), sai số chuẩn, p-value.
- Model fit: Hiển thị các chỉ số đánh giá độ phù hợp của mô hình ($R, R^2$, Adjusted $R^2$).
- Descriptives: Hiển thị thống kê mô tả cho các biến tham gia.
- Part and partial correlations: Hiển thị các hệ số tương quan riêng phần.
- Collinearity diagnostics: Quan trọng để kiểm tra đa cộng tuyến (Tolerance, VIF).
- Durbin-Watson: Để kiểm tra tính độc lập của phần dư (tự tương quan).
- Nhấn Continue.
Bước 4: Tùy chọn Plots (Kiểm tra giả định)
- Nhấn vào nút Plots…
- Đây là bước quan trọng để kiểm tra các giả định.
- Kéo ZRESID (phần dư chuẩn hóa) vào trục Y.
- Kéo ZPRED (giá trị dự đoán chuẩn hóa) vào trục X.
Biểu đồ này giúp kiểm tra tính đồng nhất phương sai và tính tuyến tính. Các điểm nên phân tán ngẫu nhiên quanh đường ngang 0, không có hình quạt hay mẫu hình cụ thể nào. - Tích chọn Histogram để xem phân phối của phần dư.
- Tích chọn Normal Probability Plot (N-P Plot) để kiểm tra phân phối chuẩn của phần dư. Các điểm nên nằm gần đường chéo.
- Nhấn Continue.
Bước 5: Tùy chọn Save (Lưu phần dư và giá trị dự đoán)
- Nhấn vào nút Save…
- Trong hộp thoại Save, bạn có thể tích chọn:
- Unstandardized Residuals: Lưu phần dư gốc (để kiểm tra thủ công hoặc các phân tích khác).
- Standardized Residuals (ZRESID): Phần dư chuẩn hóa (để dùng trong Plots).
- Unstandardized Predicted Values (PRE_1): Giá trị dự đoán gốc.
- Standardized Predicted Values (ZPRED): Giá trị dự đoán chuẩn hóa (để dùng trong Plots).
- Nhấn Continue.
Bước 6: Chạy phân tích
- Nhấn OK để chạy phân tích.
—
4. Diễn giải kết quả Hồi quy tuyến tính trên SPSS
Cửa sổ Output của SPSS sẽ hiển thị nhiều bảng kết quả. Dưới đây là những bảng quan trọng nhất:
4.1. Bảng Descriptive Statistics
Cho biết trung bình, độ lệch chuẩn và số lượng quan sát của các biến tham gia vào mô hình.
4.2. Bảng Correlations
Hiển thị ma trận tương quan Pearson giữa tất cả các biến. Giúp đánh giá mối quan hệ ban đầu và phát hiện sớm các vấn đề về đa cộng tuyến.
4.3. Bảng Variables Entered/Removed
Cho biết các biến đã được đưa vào hoặc loại bỏ khỏi mô hình (quan trọng khi sử dụng các phương pháp lựa chọn biến tự động như Stepwise).
4.4. Bảng Model Summary
- R: Hệ số tương quan đa bội giữa biến phụ thuộc và tất cả các biến độc lập.
- R Square ($R^2$): Tỷ lệ phần trăm phương sai của biến phụ thuộc được giải thích bởi các biến độc lập trong mô hình. $R^2$ càng cao càng tốt (gần 1), cho thấy mô hình giải thích được nhiều sự biến động của biến phụ thuộc.
- Adjusted R Square ($R_{adj}^2$): Đây là $R^2$ điều chỉnh, thường được sử dụng hơn $R^2$ vì nó tính đến số lượng biến độc lập trong mô hình và kích thước mẫu, cung cấp ước lượng chính xác hơn về khả năng khái quát hóa của mô hình lên tổng thể.
- Std. Error of the Estimate: Độ lệch chuẩn của phần dư, cho biết độ chính xác của các dự đoán của mô hình.
- Durbin-Watson: Kiểm tra tự tương quan của phần dư. Giá trị lý tưởng là gần 2 (khoảng từ 1.5 đến 2.5 thường được chấp nhận).
4.5. Bảng ANOVA
- Kiểm tra ý nghĩa thống kê của toàn bộ mô hình hồi quy.
- Bạn cần nhìn vào cột Sig. (p-value) trong hàng “Regression”.
- Nếu Sig. < 0.05, mô hình hồi quy có ý nghĩa thống kê, tức là ít nhất một biến độc lập có khả năng giải thích sự thay đổi của biến phụ thuộc.
4.6. Bảng Coefficients
Đây là bảng quan trọng nhất, hiển thị các hệ số hồi quy cho từng biến độc lập.
- Unstandardized Coefficients (B): Hệ số hồi quy chưa chuẩn hóa. Giá trị $B$ cho biết sự thay đổi trung bình của biến phụ thuộc khi biến độc lập tương ứng tăng 1 đơn vị, giữ các biến khác không đổi.
- (Constant): Hệ số chặn (intercept), là giá trị dự đoán của biến phụ thuộc khi tất cả các biến độc lập bằng 0.
- Standardized Coefficients (Beta – β): Hệ số hồi quy đã chuẩn hóa. Giá trị Beta cho phép bạn so sánh độ mạnh tương đối của ảnh hưởng của các biến độc lập khác nhau lên biến phụ thuộc. Biến nào có giá trị Beta tuyệt đối lớn nhất thì có ảnh hưởng mạnh nhất.
- Std. Error: Sai số chuẩn của hệ số $B$.
- t: Giá trị thống kê t, dùng để kiểm định giả thuyết về hệ số hồi quy.
- Sig. (p-value): Giá trị p-value cho từng hệ số hồi quy. Nếu Sig. < 0.05, biến độc lập đó có ý nghĩa thống kê trong việc dự đoán biến phụ thuộc (tức là ảnh hưởng của nó khác 0).
- Collinearity Statistics (Tolerance và VIF): Kiểm tra đa cộng tuyến. Tolerance nên > 0.1 (tốt nhất > 0.2), và VIF nên < 10 (tốt nhất < 5).
4.7. Biểu đồ (Plots)
Kiểm tra các biểu đồ bạn đã yêu cầu trong phần Plots để đánh giá các giả định.
- Scatterplot của ZRESID vs ZPRED: Kiểm tra tính đồng nhất phương sai và tính tuyến tính. Các điểm nên phân tán ngẫu nhiên quanh đường ngang 0, không có hình quạt hay hình chữ S.
- Histogram của phần dư: Kiểm tra phân phối chuẩn của phần dư. Biểu đồ nên có hình chuông và đối xứng.
- Normal P-P Plot of Regression Standardized Residuals: Kiểm tra phân phối chuẩn của phần dư. Các điểm nên nằm sát đường chéo.
—
5. Kết luận và Hàm ý
Sau khi xem xét các kết quả và kiểm tra giả định, bạn có thể đưa ra kết luận về mô hình hồi quy và các biến có ý nghĩa thống kê. Từ đó, rút ra các hàm ý nghiên cứu hoặc quản trị dựa trên mức độ ảnh hưởng và chiều hướng tác động của các biến độc lập.
Hy vọng hướng dẫn này sẽ giúp bạn thực hiện phân tích hồi quy tuyến tính trên SPSS một cách tự tin và hiệu quả!
—
Thông tin liên hệ:
Website: manhhungdigi.com
Email: phantichso247@gmail.com
Số điện thoại: 0869786862