Machine LearningUtama

Hanya Punya Data Diagnosis Penyakit? Begini Cara Menggali Data Klinik Anda (Data Mining)

Tentukan target populasi, kriteria seleksi, dan desain data

Karena akan membuat prediksi prognostik, kita dapat menggunakan desain data retrospective cohort ataupun nested case-control. Upayakan menggunakan desain pertama terlebih dahulu. Penjelasan lebih rinci tentang desain data ini akan dibahas dalam artikel lain.

Singkatnya, untuk desain data retrospective cohort, Anda perlu menentukan apa saja kriteria yang pasti akan dimiliki subjek dengan outcome positif ataupun negatif (kriteria inklusi). Dapat pula ditentukan apa saja kriteria yang sudah pasti tidak ada untuk keduanya (kriteria eksklusi). Kriteria seleksi inilah yang menentukan target populasi Anda.

Misal, Anda tidak mungkin mendapatkan subjek positif neonatal sepsis pada subjek berusia dewasa karena penyakit ini didiagnosis pada bayi baru lahir. Jika misalkan Anda ingin predictor terjadi pada masa dikandung ibunya, maka penyakit ini juga tidak mungkin terjadi kalau ibu mengalami keguguran karena bayinya tidak akan dilahirkan. Oleh karena itu, dapat dibuat kriteria inklusi semua subjek berusia 0 s.d. 30 hari dan kriteria eksklusi ibu dari subjek yang tidak mengalami abortus atau stillbirth (mati dalam kandungan >20 s.d. 28 minggu kehamilan) dalam 9 bulan sebelum tanggal lahir.

Pada subjek 0 s.d. 30 hari, ada kemungkinan mengalami atau tidak mengalami neonatal sepsis. Sebaliknya, pada subjek dengan ibu mengalami abortus, tidak mungkin terjadi keduanya. Jika tidak dikeluarkan dari sampel, subjek dengan kriteria eksklusi ini akan ‘menipu’ karena outcome negatif terjadi bukan oleh predictor. Data seperti ini akan menimbulkan bias yang sangat mengacaukan proses pembuatan prediksi.

Namun, dalam beberapa situasi, Anda mungkin tidak dapat mewujudkan desain retrospective cohort. Misal, dalam contoh di atas, Anda tidak punya data siapa ibu dari subjek yang jadi target populasi Anda. Pendekatan yang dapat dilakukan misalnya adalah hanya menggunakan subjek dengan nomer ID keluarga, dimana subjek lain dengan ID keluarga yang sama, hanya seorang perempuan usia reproduktif normal (12 s.d. 55 tahun). Tentu, hal ini akan menghapus banyak subjek yang punya kakak perempuan dewasa. Dapat pula ada perempuan lain dalam rentang usia yang sama yang ikut tinggal serumah dan punya nomer ID keluarga yang sama.

Dalam situasi tersebut, desain nested case-control dapat menjadi pilihan. Meskipun desain ini bukan yang terbaik, tetapi paling tidak kita dapat meminimalisir bias yang mungkin timbul. Caranya, Anda fokus saja mendapatkan subjek dengan outcome positif. Kemudian, tentukan ciri-ciri dari subjek tersebut dan Anda juga memiliki data atas ciri-ciri ini. Misal, Anda cari kota yang memiliki proporsi tertinggi keluarga dengan satu anggota perempuan dewasa. Dapat pula dengan mengecek sebaran usia kehamilan dalam data Anda, lalu mempersempit kriteria usia anggota perempuan tadi berdasarkan dalam rentang umum sebaran itu. Selanjutnya, apapun ciri yang dimiliki oleh subjek dengan outcome positif, maka juga harus dimiliki oleh subjek dengan outcome negatif. Namun, predictor jangan disamakan sebagaimana ciri-ciri tersebut.

Setelah Anda menentukan ICD-10 outcome, ICD-10 predictor, dan kriteria seleksi (beserta ICD-10 jika diperlukan). Anda mulailah dengan menyaring data Anda berdasarkan kriteria seleksi.

Misal dengan contoh di atas, pertama Anda saring semua subjek berusia 0 s.d. 30 hari. Lalu tentukan subjek dengan diagnosis positif neonatal sepsis, yaitu dengan ICD-10 P36. Lalu Anda kumpulkan nomer ID subjek positif dan ID keluarganya. Buang semua subjek dengan keluarga yang tidak memenuhi kriteria. Cari nomer ID perempuan dewasa dengan nomer ID keluarga yang sama. Perempuan ini akan kita asumsikan sebagai ibu dari subjek. Hitung sebaran usia ibu. Kemudian, cari subjek negatif dan samakan rentang usia ibunya. Jika ini sudah dilakukan, maka kita hanya perlu mengambil data atau mengekstraksi predictor saja (feature extraction atau predictor extraction).

Namun, sebelum mengekstraksi predictor, ada baiknya untuk menghitung besar sampel.

Silakan lanjut ke halaman berikutnya.