Giới thiệu vắn tắt phương trình hồi quy tuyến tính trong SPSS: Phương trình hồi quy tuyến tính là một công cụ mạnh mẽ trong phân tích dữ liệu, được sử dụng rộng rãi trong SPSS. Nó giúp chúng ta hiểu và dự đoán mối quan hệ giữa biến phụ thuộc và các biến độc lập. Với khả năng xử lý số liệu lớn và tính toán chính xác, SPSS là công cụ hàng đầu cho việc thực hiện phương trình hồi quy tuyến tính.
Phân tích hồi quy tuyến tính bội
Khái niệm:
Hồi quy tuyến tính bội là một phương pháp thống kê được sử dụng để xác định mối quan hệ giữa một biến phụ thuộc và hai hoặc nhiều biến độc lập. Nó giúp ta hiểu được sự ảnh hưởng của các biến độc lập lên biến phụ thuộc và cung cấp thông tin về mức độ ảnh hưởng của từng biến.
Quy trình phân tích:
- Xác định biến phụ thuộc và các biến độc lập: Đầu tiên, ta cần xác định biến mà ta muốn dự đoán (biến phụ thuộc) và các biến có thể ảnh hưởng lên nó (biến độc lập).
- Xây dựng mô hình: Tiếp theo, ta xây dựng một mô hình toán học để diễn giải quan hệ giữa các biến. Mô hình này có thể được viết dưới dạng công thức toán học hoặc sử dụng ma trận.
- Ước lượng hệ số: Sau khi xây dựng mô hình, ta sử dụng phương pháp ước lượng tối tiểu bình phương nhỏ nhất (OLS) để ước lượng các hệ số của mô hình. OLS là một phương pháp thống kê được sử dụng để tìm ra giá trị của các hệ số sao cho tổng bình phương sai số là nhỏ nhất.
- Đánh giá mô hình: Cuối cùng, ta đánh giá độ phù hợp của mô hình thông qua các chỉ số như R-square, F-test và t-test. Các chỉ số này giúp ta biết được mức độ giải thích của mô hình và tính chính xác của các ước lượng.
SPSS và phân tích hồi quy tuyến tính bội
Khái niệm:
SPSS (Statistical Package for the Social Sciences) là một phần mềm thống kê được sử dụng rộng rãi trong nghiên cứu xã hội và kinh tế. Nó cung cấp nhiều công cụ để thực hiện các phân tích thống kê, bao gồm cả phân tích hồi quy tuyến tính bội.
Cách thực hiện hồi quy tuyến tính bội trên SPSS:
- Mở SPSS và nhập dữ liệu: Đầu tiên, ta cần mở SPSS và nhập dữ liệu vào chương trình. Dữ liệu có thể được nhập từ tệp tin Excel hoặc các định dạng khác.
- Chọn phân tích hồi quy tuyến tính bội: Tiếp theo, ta chọn phân tích hồi quy tuyến tính bội từ menu “Analyze” và sau đó chọn “Regression” và “Linear”.
- Xác định biến phụ thuộc và biến độc lập: Trong cửa sổ mới hiện ra, ta chọn biến phụ thuộc và các biến độc lập trong danh sách các biến.
- Xem kết quả: Sau khi thực hiện phân tích, SPSS sẽ hiển thị kết quả trong cửa sổ mới. Kết quả bao gồm các hệ số ước lượng, giá trị p-value và các chỉ số đánh giá mô hình như R-square.
Lý thuyết và ước lượng hồi quy tuyến tính bằng OLS
Lý thuyết hồi quy tuyến tính
Trong lý thuyết hồi quy tuyến tính, chúng ta xem xét mối quan hệ giữa một biến phụ thuộc và một hoặc nhiều biến độc lập. Mô hình hồi quy tuyến tính được sử dụng để ước lượng sự tác động của các biến độc lập lên biến phụ thuộc dựa trên công thức Ordinary Least Squares (OLS). Phương pháp này cố gắng tìm ra đường cong “tốt nhất” để khớp với dữ liệu.
Ước lượng OLS
Ở bước ước lượng, chúng ta sử dụng phương pháp OLS để tìm ra các giá trị của các hệ số trong mô hình hồi quy. Phương pháp này cố gắng tìm ra các giá trị của các hệ số sao cho tổng bình phương sai số là nhỏ nhất. Công thức OLS tính toán các giá trị ước lượng bằng cách sử dụng ma trận và vectơ.
Các bước ước lượng OLS bao gồm: chuẩn bị dữ liệu, xác định mô hình hồi quy, ước lượng các hệ số và kiểm tra tính phù hợp của mô hình.
Đánh giá độ phù hợp mô hình hồi quy tuyến tính bội trên SPSS
Đánh giá độ phù hợp mô hình
Để đánh giá độ phù hợp của một mô hình hồi quy tuyến tính bội trên SPSS, chúng ta có thể sử dụng các chỉ số như R-square (R^2), Adjusted R-square (R^2 adjusted), F-test và Standard Error of the Estimate.
R-square (R^2)
Chỉ số R-square cho biết tỷ lệ phương sai của biến phụ thuộc được giải thích bởi các biến độc lập trong mô hình. Giá trị R-square nằm trong khoảng từ 0 đến 1, và càng gần 1 thì mô hình càng tốt.
Adjusted R-square (R^2 adjusted)
Chỉ số Adjusted R-square điều chỉnh cho số lượng biến độc lập trong mô hình. Nó cho biết tỷ lệ phương sai được giải thích bởi các biến độc lập đã điều chỉnh cho sự gia tăng của các biến độc lập. Chỉ số này thường thấp hơn R-square và được sử dụng để so sánh giữa các mô hình có số lượng biến độc lập khác nhau.
Kiểm định giả thuyết trong phân tích hồi quy tuyến tính bội trên SPSS
Kiểm định giả thuyết
Trong phân tích hồi quy tuyến tính bội trên SPSS, chúng ta có thể sử dụng kiểm định giả thuyết để xác định sự ảnh hưởng của các biến độc lập lên biến phụ thuộc.
Phương pháp kiểm định
Một trong những phương pháp kiểm định giả thuyết thông qua mô hình hồi quy tuyến tính là kiểm tra t-statistic và p-value của từng hệ số ước lượng. Nếu p-value nhỏ hơn một ngưỡng xác định (thường là 0.05), chúng ta có căn cứ để bác bỏ giả thuyết không có tác động của biến độc lập.
Xác định sự tác động của các biến độc lập trong mô hình hồi quy tuyến tính
Tác động của các biến độc lập
Trong mô hình hồi quy tuyến tính, chúng ta có thể sử dụng các hệ số ước lượng để xác định sự tác động của các biến độc lập lên biến phụ thuộc.
Hệ số ước lượng
Hệ số ước lượng trong mô hình hồi quy tuyến tính cho biết sự thay đổi trung bình trong biến phụ thuộc khi một biến độc lập thay đổi một đơn vị. Dấu (+) hoặc (-) của hệ số ước lượng cho biết hướng và mức độ tác động của biến độc lập. Nếu hệ số ước lượng là dương, khi giá trị của biến độc lập tăng, giá trị của biến phụ thuộc cũng tăng. Ngược lại, nếu hệ số ước lượng là âm, khi giá trị của biến độc lập tăng, giá trị của biến phụ thuộc giảm.
Phương trình hồi quy tuyến tính trong SPSS là một công cụ mạnh mẽ giúp phân tích mối quan hệ giữa biến phụ thuộc và các biến độc lập. Với khả năng dự đoán và đánh giá tác động của các biến, phương pháp này mang lại hiểu biết sâu sắc về mô hình và có thể áp dụng trong nhiều lĩnh vực nghiên cứu. Sử dụng SPSS để thực hiện phân tích, người dùng có thể tiết kiệm thời gian và thuận tiện trong việc xử lý dữ liệu và hiển thị kết quả. Vì vậy, phương trình hồi quy tuyến tính trong SPSS là một công cụ không thể thiếu cho những người muốn nghiên cứu về quan hệ giữa các biến.
Thực hành hồi quy tuyến tính bội trên SPSS 26
Bước 1: Analyze -> Regression -> Linear…
Bước 2: Đưa biến
Đưa biến phụ thuộc vào ô Dependent
Đưa các biến độc lập vào ô Independent(s)
Bước 3: Tại mục Statistics ta chọn thêm 1 số đại lượng cần thống kê
Ngoài 2 dấu tích sẵn như màn hình thông thường ta hay tính thêm:
+ Giá trị Collinearity Diagnostics: Tính toán hệ số đại phương đại phương sai VIF để xem xét hiện tượng đa cộng tuyến
+ Thống kê Durbin-Watson: Kiểm tra hiện tượng tự tương quan bậc 1 giữ các phần dư (chỉ hữu dụng vơi số liệu thời gian, không cần thiết với dữ liệu chéo, tuy nhiên nhiều bài vấn tính và đưa vào. Thôi thì thà thừa còn hơn thiếu)
+ Confidence Intervals và chọn level tương ứng: Tính toán khoảng tin cậy của các hệ số hồi quy.
+ Các giá trị khác các bạn tự tìm hiểu thêm nhé!
Bước 4. Tại mục Plots… chúng ta có thể lựa chọn vẽ 1 số biểu đồ
Thông thường người ta sẽ vẽ 2 đồ thị
+ Đồ thị 1 thể hiện phần dư chuẩn hóa và giá trị dự đoán, để kiểm tra hiện tượng phương sai sai số thay đổi (Sách Hoàng Trọng- Mộng Ngọc trang 226, tập 1
+ Đồ thị phân bố Histogram của phần dư đã chuẩn hóa để xem phần dư có phân phối chuẩn hay không
Bước 5: Tại mục Save… ta xem xét lưu lại 1 số giá trị nào đó
Ta chỉ lưu lại (nếu cần thiết) để dùng ở các bước tiếp theo/ dùng cho mục đích khác. Ở đây tạm thời chỉ giới thiệu chứ chưa cần lưu lại giá trị nào.
Cuối cùng ta nhấn Continuce -> OK để thực hiện tính toán. Sau đó sẽ thu được kết quả tại output.
Hướng dẫn đọc kết quả hồi quy tuyến tính từ output trên SPSS
Ở đây mình xin giới thiệu 1 số bảng quan trọng thôi nhé!
Bảng Variables Entered/Removed
Variables Entered cho biết các biến độc lập nào đã được đưa vào mô hình. Thông thường sẽ là tất cả
Variables Removed cho biết các biến không được đưa vào ước lượng. Thông thường ô này trống. Tuy nhiên nếu bạn vô tình đưa 2 biến tương quan hoàn hảo với nau vào mô hình thì phần mềm sẽ loại đi 1 biến khi ước lượng mô hình
Method thể hiện phương pháp đưa các biến mô hình. Enter là phương pháp phổ biến nhất (mặc định). Các biến độc lập được đưa vào cùng 1 lần
Bảng Model Summary
R Square, đọc là R bình phương, là hệ số xác định của mô hình
Adjusted R Square là hệ số xác định đã được hiệu chỉnh
Std. Error of the Estimate là sai số chuẩn của ước lượng (biến phụ thuộc)
Durbin-Watson là thống kê dùng để kiểm tra tự tương quan bậc 1
Bảng ANOVA
Regression Sum of Squares (ESS) = 7,967: Tổng bình phương chệnh lệch giữa giá trị kỳ vọng và giá trị trung bình của biến phụ thuộc. Phần này đo độ chính xác của hàm hồi quy. Thế mới ký hiệu nó là ESS= Explained Sum of Squares
Residual Sum of Squares (RSS) =38,748: Tổng bình phương chênh lệch giữa giá thực tế và giá trị kỳ vọng của biến phụ thuộc. Đây còn gọi là tổng bình phương phần dư
Total Sum of Squares (TSS hoặc): Tính bằng tổng 2 giá trị trên
Bậc tự do thứ nhất, ở đây = 2 là (số tham số của mô hình -1), đúng bằng số biến độc lập trong mô hình
Bậc tự do thứ 2, ở đây =47 là (cỡ mẫu trừ đi số tham số của mô hình). Data có 50 quan sát và mô hình có 3 tham số nên bậc tự do thứu 2 là 47
Mean Square bằng thương Sum of Square / df
Thống kê F là 1 đại lượng thống kê tuân theo phân phối Fisher, dùng để kiếm tra độ phù hợp của mô hình hồi quy. Ở đây F=4,866 =3,984/0,819
Sig là mức ý nghĩa của thống kê F.
Kiểm định F này sẽ được để cập ở bài viết sau. Chỉ cần nhớ rằng ta luôn lỳ vọng sig <0,05 để kết luận mô hình là phù hợp.
Bảng Coefficients
Đây là bảng quan trọng nhất, chúng chứa các đại lượng mà mô hình ước lượng, là cái chúng ta cần nhất đó!
(Constant) là hệ số tự do (hệ số cắt)
B là hệ số hôi quy chưa chuẩn hóa
Std. Error: Sai số chuẩn của hệ số hồi quy tương ứng
Beta: Hệ số hồi quy đã chuẩn hóa. Nếu chuẩn hóa trước các biến rôi mang hôi quy ta sẽ thu được hệ số này. Chi tiết hơn sẽ được đề cập ở một bài viết sau
Thống kê t, là thống kê dùng để kiểm định hệ số hồi quy tương ứng. t=B/Std.Error
Sig: mức ý nghĩa của thống kê t
Confidence Interval for B: Khoảng tin cậy tương ứng cho các hệ số ước lượng
VIF: Hệ số phóng đại phương sai, dùng để kiểm tả đa cộng tuyến. Hệ số này chỉ phụ thuộc vào bản thân các biến độc lập trong mô hình.