Anscombe's Quartet

Pentingnya visualisasi data dapat dipahami melalui ilustrasi pada Anscombe’s Quartet yang dipublikasikan pada tahun 1973 oleh Francis John Anscombe.

Anscombe’s Quartet menyajikan 4 dataset yang memiliki nilai statistik deskriptif yang hampir sama, namun ternyata ketika divisualisasikan dalam bentuk grafik, memiliki visualisasi yang jauh berbeda.

Anscombe's Quartet
Dataset 1 Dataset 2 Dataset 3 Dataset 4
x1 y1 x2 y2 x3 y3 x4 y4
10 8.04 10 9.14 10 7.46 8 6.58
8 6.95 8 8.14 8 6.77 8 5.76
13 7.58 13 8.74 13 12.74 8 7.71
9 8.81 9 8.77 9 7.11 8 8.84
11 8.33 11 9.26 11 7.81 8 8.47
14 9.96 14 8.10 14 8.84 8 7.04
6 7.24 6 6.13 6 6.08 8 5.25
4 4.26 4 3.10 4 5.39 19 12.50
12 10.84 12 9.13 12 8.15 8 5.56
7 4.82 7 7.26 7 6.42 8 7.91
5 5.68 5 4.74 5 5.73 8 6.89
SUM 99.00 82.51 99.00 82.51 99.00 82.50 99.00 82.51
AVG 9.00 7.50 9.00 7.50 9.00 7.50 9.00 7.50
SD 3.32 2.03 3.32 2.03 3.32 2.03 3.32 2.03
Tabel dibuat dengan menggunakan gt dan gtExtras package


Tanpa melihat visualisasi datanya, keempat dataset di atas sekilas terlihat memiliki nilai statistik deskriptif yang hampir sama, bahkan ketika dihitung persamaan regresi linearnya, keempatnya memiliki persamaan regresi linear yang hampir sama pula.

## [1] "Y1 = 3 + 0.5*X1"
## [1] "Y2 = 3 + 0.5*X2"
## [1] "Y3 = 3 + 0.5*X3"
## [1] "Y4 = 3 + 0.5*X4"


Namun ternyata keempat dataset di atas sangatlah berbeda ketika divisualisasikan.


Dari visualisasi di atas, dapat dipahami bahwa:

  • pada dataset 1 terlihat bahwa variabel x dan y memiliki hubungan yang linear.
  • pada dataset 2 terlihat bahwa variabel x dan y memiliki hubungan non-linear.
  • pada dataset 3 terlihat bahwa variabel x dan y memiliki hubungan yang linear dan terdapat 1 outlier.
  • pada dataset 4 terlihat bahwa 1 outlier ekstrim mampu mempengaruhi persamaan linear dari keseluruhan data pada dataset 4.


Kesimpulan

Dari ilustrasi pada Anscombe’s Dataset di atas dapat disimpulkan bahwa visualisasi data adalah hal yang penting untuk dilakukan sebelum menganalisis suatu dataset karena perhitungan statistik deskriptif saja tidaklah cukup untuk menggambarkan keadaan dataset sesungguhnya.