Machine LearningUtama

Hanya Punya Data Diagnosis Penyakit? Begini Cara Menggali Data Klinik Anda (Data Mining)

Nilai kecukupan besar sampel

Karena saya hanya akan membawa Anda untuk membuat data yang akan digunakan untuk prediksi, maka hanya besar sampel berdasarkan kebutuhan prediksi ini saja yang saya bagikan.

Untuk membuat prediksi, diperlukan minimal 20 baris data untuk setiap predictor dimana setiap baris data memiliki outcome yang minor saja. Maksudnya, outcome yang jumlahnya paling sedikit di antara beberapa pilihan outcome. Misal, outcome positif ada 100 baris sedangkan negatif ada 120, maka diambil yang 100 baris saja. Sebaliknya, jika ada 100 baris data positif dan hanya 80 baris data negatif, maka diambil yang 80 baris saja. Secara umum, biasanya outcome yang menjadi minat kita dijadikan outcome yang positif dan jumlahnya biasanya juga lebih sedikit daripada yang negatif. Outcome yang menjadi minat kita ini disebut sebagai events. Sebaliknya, kita sebut non events. Jika >2 pilihan outcome, maka dibuat jadi 2 pilihan untuk setiap model. Misal, outcome nya adalah risiko ringan, sedang, dan berat. Maka, dibuat jadi dua pasang, yaitu risiko berat (+) vs. ringan (-) dan risiko sedang (+) vs. ringan (-). Dengan demikian, dibuat satu prediksi untuk setiap pasang.

Untuk validasi prediksi, outcome minor minimal 100 baris data. Standar besar sampel ini telah saya bahas di artikel lain tentang Cara Membuat Prediksi Penyakit dengan Benar.

Jika besar sampel tidak mencukupi, maka pertimbangkan untuk mengurangi predictor atau memodifikasi target populasi, kriteria seleksi, ataupun desain data.

Silakan lanjut ke halaman berikutnya.