Coding

Menambang Data dengan Rapidminer: Memprediksi Liverpool Juara Premier League dengan Pohon Keputusan

Bermain-main dengan data selalu menyenangkan. Apalagi jika dari data tersebut bisa dihasilkan suatu kesimpulan yang sifatnya prediktif. Sekarang banyak peranti yang bisa dimanfaatkan untuk melakukan penambangan data (data mining) untuk tujuan tertentu. Peranti-peranti tersebut akan bekerja sesuai dengan berbagai macam algoritma penambangan data.

Kebetulan kemarin tak sengaja menemukan tautan ke situsweb Rapidminer. Ia adalah semacam aplikasi yang mirip Weka, cross platform, dan berlisensi GNU. Jadi, aplikasi yang dirilis sejak tahun 2006 itu bisa digunakan secara bebas, tanpa berbayar. Saya jadi ingat, dulu ketika masih kuliah, aplikasi Weka masih sering digunakan untuk menganalisis sebuah data.

Ada banyak metode penambangan data yang bisa digunakan untuk menentukan prediksi, clustering (pengelompokan), klasifikasi, dan sebagainya. Bergantung pada bentuk data dan informasi apa yang ingin didapatkan dari dataset yang dimiliki.

Setelah membaca fitur dan referensi terkait Rapidminer, saya iseng mencoba menggunakan aplikasi tersebut. Akhirnya saya menemukan ide untuk memprediksi klub Liverpool kemungkinan juara Premier League berdasarkan statistik masa lalu yang diperoleh pada pekan ke-18. Alasan saya memilih pekan ke-18 yaitu karena pekan tersebut merupakan pekan pertengahan musim yang sedang bergulir.

Metode yang saya gunakan dalam percobaan ini adalah decision tree (pohon keputusan). Dalam studi data mining, pohon keputusan dikenal sebagai metode klasifikasi yang paling populer dan mudah diinterpretasi oleh manusia. Konsep dari pohon keputusan yaitu mengubah data berupa pohon keputusan dan aturan-aturan keputusan.

Proses penambangan data
Proses penambangan data

Input

Data-data yang digunakan dalam percobaan kali ini adalah data statistik Liverpool yang dirangkum dari situsweb www.wordlfootball.net. Data yang saya butuhkan adalah data klasemen, jumlah gol, jumlah kebobolan, dan poin yang diperoleh tiap musim pada pekan ke-18. Kemudian saya juga membutuhkan data apakah di akhir musim tersebut Liverpool juara atau tidak.

Dataset Liverpool
Dataset Liverpool

Sebenarnya saya bisa saja mengambil data statistik Premier League (dulu bernama Football League First Division hingga tahun 1993) sejak awal berdiri, yaitu musim 1888/1889. Namun, karena terdapat perbedaan aturan dan jumlah tim dalam satu musim yang tidak konsisten, akhirnya saya memutuskan untuk menggunakan data musim 1981/1982 sampai 2016/2017.

Sebagai catatan, sejak musim 1981/1982, aturan pemberian poin untuk tim yang menang, seri, dan kalah mengikuti aturan Jimmy Hill, yaitu 3-1-0. Sebelumnya aturan pemberian poin menang, seri, dan kalah yaitu 2-1-0.

Proses

Untuk menentukan bentuk pohon keputusan, ada beberapa parameter yang bisa dipilih. Pada kasus ini nilai parameter yang saya masukkan yaitu sebagai berikut:

Isian parameter
Isian parameter

Sesuai dengan isian di atas, criterion yang saya gunakan adalah gain_ratio. gain_ratio merujuk pada rasio informasi yang diperoleh terhadap informasi intrinsik. Hal ini digunakan untuk mengurangi bias terhadap atribut multinilai dengan memperhitungkan jumlah dan ukuran cabang ketika memilih atribut. Selain gain_ratio, jenis criterion yang bisa dipilih yaitu information_gain, gini_index, dan accuracy. Maximal depth menunjukkan jumlah maksimal panjang percabangan dari puncak pohon ke cabang-cabangnya.

Parameter pruning dan prepruning diaktifkan agar pohon keputusan yang dihasilkan lebih sederhana. Beberapa atribut seringkali membuat pohon keputusan menjadi bercabang banyak, sehingga ada baiknya untuk dipangkas agar lebih efektif.

Bila Anda tertarik mempelajari algoritma pohon keputusan ini, bisa baca ringkasannya di sini. Sejarah algoritma ini juga bisa dibaca melalui paper di sini atau slide di sini.

Hasil

Berikut adalah hasil pohon keputusan dari menjalankan proses menambang data di atas. Sebagai pembanding, saya sertakan juga hasil pohon keputusan tanpa pemangkasan.

Tanpa pemangkasan
Tanpa pemangkasan
Dengan pemangkasan
Dengan pemangkasan

Jika diperhatikan, pohon keputusan dengan pemangkasan bentuknya lebih sederhana  dibandingkan dengan pohon keputusan tanpa pemangkasan. Dari pohon keputusan tersebut setidaknya diperoleh dua poin penting sbb:

  • Atribut klasemen dan poin pada pekan ke-18 tidak diperhitungkan sebagai salah satu atribut karena tidak cukup mempengaruhi hasil akhir. Atribut-atribut yang diperlukan dalam pohon keputusan di atas yaitu jumlah gol dan jumlah kebobolan.
  • Liverpool setidaknya harus mencetak lebih dari 35 gol pada pekan ke-18 agar peluang untuk memperoleh juara semakin besar

Dengan mengikuti alur pada pohon keputusan di atas, kita bisa memprediksi apakah Liverpool bisa menjadi juara Premier League musim 2017/2018 dengan melihat perolehan skor pada pekan ke-18.

Mari kita tunggu dan segera lihat hasilnya.

No Comments Found