Tag Archives: statistik sederhana

Memahami statistik sederhana: mengapa menggunakan rata-rata gaji bisa salah?

Baru-baru ini saya secara tak sengaja membaca sebuah artikel di internet tentang perbandingan RATA-RATA gaji software engineer di beberapa perusahaan teknologi terkemuka di Silicon Valley. Dibawah ini snipet dari artikel itu.

Rata-rata gaji software engineer di Silicon Valley

Sebenarnya agak mengherankan kenapa Glassdoor menggunakan rata-rata dalam membandingkan, karena secara statistik bisa membawa kepada persepsi yang tidak tepat.

Mengapa perbandingan gaji dengan menggunakan RATA-RATA tidak tepat?

Dari table diatas, kita bisa beranggapan bahwa karyawan Juniper memiliki gaji yang lebih tinggi dari perusahaan lain. Betul?

Mungkin tidak. Rata-rata sangat rentan dengan adanya variasi yang besar. Ambil contoh, Juniper mempunyai rata-rata gaji tertinggi, mungkin saja karena ada seorang engineer yang gajinya guedeeeee buangeet :)

To support my point, saya mencoba membuat table gaji imajiner (hehehe) dari 4 perusahaan dengan rata-rata tertinggi: Juniper, Linkedin, Yahoo, Google. Saya mengasumsikan ada 5 sampel engineer yang saya ambil dari tiap perusahaan.

Tabelnya adalah seperti dibawah ini. Kita bisa lihat bahwa rata-rata tidak dapat digunakan untuk menarik kesimpulan, apakah real numbers (gaji) benar-benar secara konlusif memang mewakili distribusi.

Juniper, rata-rata tertinggi mungkin terjadi karena ada 1 orang dengan gaji sangat tinggi. Beda dengan LinkedIn yang distribusinya hampir merata (ala sosialis), beda dengan Google yang mempunyai 2 kasta (grup) yang berbeda.

Screen Shot 2014-04-04 at 7.34.14 AM

 

Tentu saja ini hanya angka imajiner. Namun demikian, ini menunjukkan bahwa angka rata-rata saja tidak dapat digunakan untuk membandingkan set dari berbagai data, apalagi gaji.

Yang lebih robust adalah menggunakan median, atau jika menggunakan rata-rata, sebaiknya dicantumkan angka standar deviasi, seperti dalam tabel diatas.

Bagaimana menurut anda?