Disable Preloader

Các phép thống kê

Thống kê là một trong những dạng bài các em có thể gặp khó khăn khi giải nếu không học kỹ các lý thuyết. Các em hãy cùng theo dõi bài viết dưới đây để ôn lại một số kiến thức cũng như thực hành bài tập nhé!

Các thuật ngữ cần chú ý

Center of distribution (Phép đo trung bình)

 

Phép đo mô tả một giá trị điển hình của một tập quan sát. Có ba phép đo chính: mean, median và mode.

 

Mean (Trung bình)

 

Giá trị trung bình của một tập quan sát, được tính bằng cách lấy tổng giá trị của các quan sát và chia cho số lượng các quan sát đó.

VD: Cho tập quan sát: 2,5,6,7,10.

-> Mean = (2 + 5 + 6 + 7 + 10)/5 = 6.

 

Median (Trung vị) 

 

Giá trị ở giữa khi tập quan sát được sắp xếp từ nhỏ nhất đến lớn nhất.

  • Nếu số lượng giá trị là số lẻ, trung vị là giá trị ở giữa.
  • Nếu số lượng giá trị là số chẵn, trung vị là trung bình cộng của hai giá trị ở giữa.
VD: Cho tập quan sát: 2,5,6,7,9
-> Median = 6.
 
 

 

Mode (Giá trị xuất hiện nhiều nhất)

 

Giá trị xuất hiện thường xuyên nhất trong tập quan sát. 

  • Một tập quan sát có thể không có yếu vị nếu không có giá trị nào xuất hiện nhiều hơn bất kỳ giá trị nào khác.
  • Một tập quan sát cũng có thể có nhiều hơn một yếu vị.

VD: Cho tập quan sát: 2,5,6,7,7,9
-> Mode = 7.

 

 

 

 

Spread of distribution (Phép đo phạm vi)

 

Phép đo mô tả phạm vi của các giá trị, bao gồm các phép đo: phạm vi, độ lệch chuẩn.

 

Range (Phạm vi)

 

Chỉ khoảng cách giữa giá trị lớn nhất và giá trị nhỏ nhất trong một tập quan sát.

VD: Cho tập quan sát: 1,9,4,3,8

-> Range = 9 - 1 = 8.

 

Standard deviation (Độ lệch chuẩn)

 

Là khoảng cách trung bình giữa giá trị trung bình (mean) và một giá trị trong tập quan sát.

Độ lệch chuẩn lớn hơn cho thấy mức độ lan tỏa lớn hơn trong dữ liệu. Do vậy, một cách để để so sánh độ lệch chuẩn là chúng ta so sánh phạm vi (range) của hai dãy số. Dãy số có phạm vi càng lớn thì độ lệch chuẩn càng lớn. 

 

 

VD: 

Các thuật ngữ cần chú ý 1

Tập quan sát thứ hai có độ lệch chuẩn lớn hơn.

 

Outlier (giá trị ngoại lệ)

 

Là giá trị nằm ngoài phạm vi hoặc bất thường so với phân phối dữ liệu của một tập quan sát. Nó là một điểm dữ liệu cách xa so với các điểm dữ liệu khác và có thể ảnh hưởng đáng kể đến kết quả của phân tích dữ liệu.

VD: Các tập quan sát: 3, 4, 5, 4, 2, 5, 50. Các giá trị đầu tiên đều trong phạm vi từ 2 đến 5, trong khi giá trị cuối cùng (50) rất khác biệt so với các giá trị khác. Giá trị 50 có thể là một outlier, do đó, nó có thể được loại bỏ khỏi tập dữ liệu để đảm bảo tính chính xác của các phân tích dữ liệu.

 

Các dạng bài cần chú ý

1. Ảnh hưởng của những giá trị ngoại lệ:
a. Đối với phạm vi và độ lệch chuẩn:

Các giá trị ngoại lệ sẽ ảnh hưởng lớn đến phạm vi và độ lệch chuẩn, vì vậy việc loại bỏ giá trị này sẽ làm giảm phạm vi và độ lệch chuẩn nhỏ hơn.

b. Đối với giá trị trung bình:
Các giá trị ngoại lệ cũng ảnh hưởng lớn tới giá trị trung bình của một tập quan sát. Nếu giá trị ngoại lệ lớn, thì khi bỏ giá trị này đi, giá trị trung bình sẽ giảm. Ngược lại, nếu giá trị ngoại lệ nhỏ, thì khi bỏ giá trị này đi, giá trị trung bình sẽ tăng.
VD: Cho dãy số 3,5,7,7,10,100.
  • 100 là một giá trị ngoại lệ bởi nó lớn hơn đáng kể so với các giá trị khác.
  • Nếu ta giữ giá trị này thì Mean = 22, trong khi nếu loại bỏ giá trị ngoại lệ này, Mean = 6,4.

c. Đối với giá trị trung vị:
Đối với trung vị, ảnh hưởng của giá trị ngoại lệ sẽ tùy thuộc vào từng dãy số. Giá trị ngoại lệ có thể làm thay đổi giá vị trung vị, hoặc không ảnh hưởng gì. Do vậy, các em cần tính toán cẩn thận để xem xét sự ảnh hưởng của giá trị ngoại lệ đến giá trị trung vị trong dãy số.
VD: Cho dãy số 3,5,7,7,10,100.
  • Median = 7 
  • Nếu loại bỏ giá trị ngoại lệ, median vẫn bằng 7.

2. Cách sử dụng giá trị trung bình để tính giá trị còn thiếu:
Nếu chúng ta biết giá trị trung bình của tập quan sát và số lượng giá trị, chúng ta có thể tính giá trị còn thiếu bằng cách:
  • Tính tổng các giá trị bằng cách nhân giá trị trung bình với số lượng giá trị.
  • Trừ tất cả các giá trị đã biết từ tổng các giá trị.
VD: Cho dãy số: 20,20,40,60,x.
Nếu giá trị trung bình của 5 số trên là 30 thì x =?
  • Tổng của 5 số: 30.5=150.
  • Trừ 4 giá trị đã biết: 150 - (20+20+40+60) = 10.
  • Vậy x=10.

Bài tập

Bài 1:
Bài tập 1
Đáp án: C

Bài 2:
Bài tập 2
Đáp án: B

Bài 3: 
Bài tập 3
Đáp án: 124
DMCA.com Protection Status

Để lại tin nhắn!