Kiểm Định Giả Thuyết Thống Kê Trong Excel

Bạn đang xem: Kiểm Định Giả Thuyết Thống Kê Trong Excel, Kiểm Định Giả Thuyết Thống Kê Tại geektechreviews.com

Một giả thuyết thống kê (statistical hypothesis) là một giả định về một tham số của tổng thể (population parameter). Giả định này có thể đúng hoặc không đúng. Kiểm định giả thuyết là tập hợp các bước mà nhà thống kê sử dụng để chấp nhận hay bác bỏ các giả thuyết thống kê.

Bạn đang xem: Kiểm định giả thuyết thống kê trong excel

Đang xem: Kiểm định giả thuyết thống kê trong excel

Phân loại giả thuyết thống kê

Cách tốt nhất để quyết định xem một giả thuyết thống kê đúng hay không là xem xét toàn bộ tổng thể. Trong hầu hết trường hợp, điều này không khả thi nên các nhà nghiên cứu thường nghiên cứu một mẫu ngẫu nhiên từ một tổng thể. Nếu kết quả thu được không khớp với giả thuyết thống kê, thì giả thuyết bị bác bỏ.

Có 2 loạigiả thuyết thống kê.

Giả thuyết không (null hypothesis): được ký hiệulà H0, thường là những giả thuyết được rút ra từ xác suất thuần túy.Giả thuyết nghịch (alternativehypothesis): được ký hiệu là H1 hoặc Ha, là những giả thuyết chorằng các quan sát mẫu bị ảnh hưởng bởi một số yếu tố phi ngẫu nhiên.

Ví dụ, giả sử chúng ta muốn quyết định xem liệu một đồng tiền xu có đồng chất và cân đối hay không. Một giả thuyết không có thể là Một nửa số lần tung sẽ ra mặt sấp, một nửa số lần còn lại sẽ ra mặt ngửa. Giả thuyết nghịch có thể là Số lần xuất hiện mặt sấp và mặt ngửa sẽ rất khác nhau.

Chúng ta kýhiệu như sau:

H0: P = 0.5

Ha: P ≠ 0.5

Giả sử chúng ta tung đồng xu 50 lần, 40 lần xuất hiện mặt ngửa, 10 lần xuất hiện mặt sấp. Nếu thu được kết quả này, chúng ta sẽ nghiêng về hướng để bác bỏ giả thuyết không. Chúng ta có thể đưa ra kết luận, dựa trên bằng chứng thu được, đồng xu có thể không đồng chất và mất cân đối.

Chúng ta có thể chấp nhận giả thuyết không?

Một số nhà nghiên cứu nói rằng một bài kiểm định giả thuyết có thể có một trong hai kết quả: chấp nhận giả thuyết không hoặc bác bỏ giả thuyết không. Nhiều nhà thống kê lại dè chừng hơn trong việc dùng cụm từ “chấp nhận giả thuyết không”. Thay vào đó, họ nói: bác bỏ giả thuyết không hoặc thất bại trong việc bác bỏ giả thuyết không.

Tại sao lạicó sự phân biệt giữa “chấp nhận” và “thất bại trong việc bác bỏ”? Chấp nhận ngụý rằng giả thuyết không là đúng. Thấtbại trong việc bác bỏ ngụ ý rằng dữ liệu ta có không đủ thuyết phục để chúng tachọn giả thuyết nghịch thay thế cho giả thuyết không.

Xem thêm: Lỗi Excel Cannot Open The File Because The File Format Or File Extension Is Not Valid

Quy trình kiểmđịnh một giả thuyết thống kê.

Các nhà thống kê tuân theo một quá trình chuẩn mực để đưa ra quyết định bác bỏ một giả thuyết không hay không, dựa trên một dữ liệu mẫu. Quá trình này gọi là kiểm định giả thuyết (hypothesis testing), bao gồm 4 bước sau đây:

Đặtra các giả thuyết. Công việc của bước này là chỉ ra đâu là giả thuyết không,đâu là giả thuyết nghịch. Các giả thuyết được đặt ra theo cách loại trừ lẫnnhau. Đó là, nếu cái này đúng thì cái kia phải sai.Xâydựng một kế hoạch phân tích. Kế hoạch phân tích mô tả cách sử dụng dữ liệu mẫu rasao để đánh giá giả thuyết không.Đánh giá thường tập trung xung quanh một thống kê mẫu đơn (single teststatistic).Phântích dữ liệu mẫu. Tìm các giá trị của thống kê mẫu (trung bình, tỉ lệ,t-statistic, z-score…) được mô tả trong kế hoạch phân tích.Đọchiểu kết quả. Áp dụng các quy tắc quyết định được mô tả trong kế hoạch phântích. Nếu kết quả thu được không khớp với giả thuyết không thì bác bỏ giả thuyếtnày.

Các kiểu lỗikhi đưa ra quyết định

Lỗi loại 1 (Type I error). Lỗi loại 1 xảy ra khi các nhànghiên cứu bác bỏ một giả thuyết khôngtrong khi nó đúng. Xác xuất gặp phải lỗi loại 1 được gọi là mức ý nghĩa (significance level). Xác suất này cũng được gọi là alpha, thường đc ký hiệu là αLỗi loại 2 (Type II error). Lỗi loại 2 xảy ra khi các nhànghiên cứu thất bại trong việc bác bỏ một giảthuyết không trong khi nó sai. Xác suất mắc phải lỗi loại 2 được gọi là Beta, đc khý hiệu là β. Xác xuất của việc không mắc lỗiloại 2 được gọi là Power của bàitest.

Các quy tắcđưa ra quyết định.

Để đưa rađược quyết đinh bác bỏ giả thuyết không, các nhà thống kê cần dựa vào những quytắc nhất định. Những quy tắc này được liệt kê trong kế hoạch phân. Theo thông lệ,các nhà thống kê mô tả những quy tắc quyết định này theo 2 cách – tham chiếu tớimột giá trị P-value hoặc tham chiếutới vùng chấp nhận (region of acceptance).

P-value. Sức mạnh của bằng chứng trong việc hỗ trợ một giả thuyết không được đo bằng P-value. Giả sử thống kê kiểm định bằng S. P-value là xác suất của việc quan sát một thống kê kiểm định as extreme as A, giả sử, giả thuyết null là đúng. Nếu giá trị P-value nhỏ hơn mức ý nghĩa, chúng ta bác bỏ giả thuyết không.Vùng chấp nhận (region of acceptance). Vùng chấp nhận là một dãy giá trị. Nếu bài thống kê mẫu nằm trong khu vực chấp nhận, giả thuyết không không bị bác bỏ. Vùng chấp nhận được xác định cốt để xác suất mắc lỗi loại 1 tương đương với mức ý nghĩa.

Tập giá trịnằm ngoài khu vực chấp nhận được gọi là khuvực bác bỏ. Nếu thống kê mẫu nằm trong khu vực bác bỏ, giả thuyết không bị bác bỏ. Trong những trường hợp này, chúng tanói rằng, giả thuyết đã bị bác bỏ ở mức ý nghĩa α.

Những cáchtiếp cận này tương đương nhau. Một số tài liệu thống kê sử dụng cách tiếp cậnP-value, một số khác sử dụng vùng chấp nhận. Trong website này, chúng tôi sử dụngcách tiếp cận vùng chấp nhận.

Bài kiểm địnhmột đuôi và hai đuôi.

Nếu một bàikiểm định giả thuyết thống kê có vùng bác bỏ chỉ là một bên của phân phối mẫuthì được gọi là kiểm định một đuôi (one-tailed test). Ví dụ, giả sử giả thuyết không chỉ ra rằng trungbình nhỏ hơn hoặc bằng 10. Giả thuyếtnghịch sẽ là trung bình lớn hơn 10. Vùng bác bỏ sẽ bao gồm dãy số ởphía bên phải của phân phối mẫu, đó là, dãy các số lớn hơn 10.

Nếu một bàikiểm định giả thuyết thống kê có vùng bác bỏ ở cả hai bên của phân phối mẫu thìđược gọi là bài kiểm định hai đuôi (two-tailed test). Ví dụ, giả sử giả thuyết không chỉ ra rằng trungbình bằng 10. Giả thuyết nghịch sẽ là trung bình nhỏ hơn 10 hoặc lớn hơn10. Vùng bác bỏ bao gồm các số ở cả 2 phía của phân phối mẫu, đó là vùng dãycác số nhỏ hơn 10 và lớn hơn 10