Reliabiliti

Reliabiliti Soalan Objektif dan Esei serta Kaitan dengan Analisis Item

oleh

Mohd Sefai bin Jusoh

Unit Matematik MPKTBR

1.0 Pengenalan

Sistem penilaian memang tidak dapat dipisahkan daripada pendidikan. Setiap perancangan kurikulum mesti diikuti dengan penilaian. Kebanyakan penilaian yang diamalkan dinegara kita adalah penilaian berbentuk ujian. Mengikut Ebel (1979), sebenarnya pembina ujian menghadapi dua persoalan : pertama, untuk menentukan apa yang ingin diukur, dan kedua, membuat keputusan bagaimana mengukurnya. Sementara dari segi makna ujian pula Crombach (1970) telah memberikan satu definisi ujian yang agak luas, iaitu satu prosedur sistematik untuk memerhati tingkah laku seseorang dan memperihalkannya dengan bantuan skala bernombor, atau satu sistem berkategori.

Kenyataan di atas memberikan gambaran bahawa ujian bukan merupakan sesuatu yang boleh dilakukan begitu sahaja. Malah ianya memerlukan perancangan dan pengendalian yang sistematik. Bagaimana pula dengan penilaian? Penilaian mencakupi lebih luas dan lebih menyeluruh jika dibandingkan dengan ujian. Mengikut Popham (1975), penilaian pendidikan yang sistematik mengandungi satu tafsiran formal tentang nilai fenomena pendidikan. Secara lebih luas, penilaian pendidikan itu mencakupi aspek-aspek seperti hasil pengajaran, program pengajaran, dan matlamat ke arah mana usaha pengajaran dihalakan. Dari sudut pengajaran, penilaian boleh didefinisikan sebagai satu proses sistematik untuk menentukan sejauh mana objektif pengajaran telah dicapai oleh para pelajar (Gronlund, 1981). Ini jelas menunjukkan bahawa penilaian adalah merupakan suatu cara atau alat bagi mengukur keberkesanan pengajaran di samping untuk menentukan sama ada objektif pengajaran boleh dicapai.

Memandangkan bahawa penilaian mempunyai tugas besar dan mempunyai kuasa untuk menentukan kejayaan atau kegagalan pengajaran serta objektifnya, maka penilaian harusnya mencapai tahap tertentu. Untuk tujuan ini, alat penilaian haruslah memenuhi beberapa kriteria tertentu.

2.0 Reliabiliti

Salah satu daripada kriteria tersebut di atas ialah reliabiliti (kebolehpercayaan). Menurut Mokhtar (1995), reliabiliti ujian boleh disebut sebagai darjah ketekalan antara dua pengukuran terhadap sesuatu benda, sesuatu ciri, atau sifat seseorang.

Reliabiliti adalah istilah yang keliru di sini dan setengah penulis cuba mengganti kannya dengan ‘consistency’. Walau bagaimana pun, persoalan asas reliabiliti adalah: Adalah penilai lain setuju dengan interpretasi tingkah laku pelajar? Tetapi variasi yang mengganggu pula adalah: Adakah saya menterjemah tingkah lakunya dalam keadaan yang sama jika saya melihatnya lagi? (Rowntree, 1977). Secara umum, kesilapan angkubah pengukuran adalah banyak terdapat dalam skor ujian dalam pendidikan (atau, dengan kata lain, ujian pendidikan cenderung kepada tidak reliabel) melainkan kerja yang lebih berhati-hati dilakukan bagi menentukan aras reliabiliti yang diterima (Martuza, 1977). Ini menunjukkan bahawa reliabiliti bukan sahaja skor yang sama didapati walau pun orang lain yang menilainya, tetapi jika kita harus memberikan skor yang sama juga walau pun kita menilai pada masa yang berbeza.

Fakta mengenai reliabiliti rendah memeriksa kertas peperiksaan secara individu telah ditunjukkan oleh Dicker (1973), yang menemukan bahawa pekali korelasi hanya 0.46 apabila 24 guru memeriksa sekali dan kemudian diperiksa semula selepas tiga bulan. Aschersleben (1971) menganalisis pemeriksaan oleh 24 guru ke atas 623 pelajar dalam empat ujian matematik yang bersiri dan empat ujian ‘dictation’. Beliau mendapati kebanyakan korelasi adalah di bawah 0.60, dengan kertas matematik menunjukkan, secara purata, nilai lebih kecil (Ingenkamp, 1977). Ini menunjukkan bahawa pemeriksaan seseorang pemeriksa bukan sahaja tidak tekal tetapi amat berbeza di antara seorang pemeriksa dengan pemeriksa lain. Dengan kata lain pemeriksaan mereka mempunyai reliabiliti yang rendah.

Soalan yang dibina jika tidak mempunyai reliabilti atau mempunyai reliabiliti rendah tidak akan dapat menggambarkan pencapaian pelajar dan seterusnya akan menjadikan sistem penilaian yang sia-sia. Oleh itu para pendidik perlu berhati-hati dalam membina alat penilaian.

2.1 Kaedah Menganggar Reliabiliti.

Terdapat beberapa cara untuk menganggar reliabiliti sesuatu ujian. Tiga asas umum yang paling kerap digunakan disebut ‘test-retest, ‘alternate form’, dan ‘internal consistency’ (Kubiszyn & Borich, 1995).

2.1.1 Uji - uji semula (Test-Retest)

Kaedah uji-uji semula (test-retest) bagi menganggar reliabiliti adalah serupa dengan namanya. Ujian diberikan dua kali dan korelasi di antara skor set pertama dengan skor set kedua ditentukan. Sebagai contoh, katakan ujian matematik diberikan kepada enam pelajar pada hari Isnin dan diberikan semula pada hari Isnin minggu berikutnya tanpa pengajaran matematik dijalankan di antara dua ujian tersebut. Korelasi di antara dua set skor ujian tersebut ialah .96 . Oleh itu boleh disimpulkan bahawa ujian ini adalah agak ‘reliable’ (Kubiszyn & Borich, 1995).

2.1.2 Bentuk Setara (Alternate Forms)

Jika dua ujian yang setara boleh digunakan untuk mendapatkan anggaran relibiliti sesuatu ujian. Kedua-dua bentuk dikendalikan kepada sekumpulan pelajar, dan korelasi di antara dua set skor ditentukan….. Untuk menentukan reliabiliti bentuk setara (alternate-form) bagi ujian, dua versi berbeza bagi ujian yang sama dikendalikan kepada kumpulan pelajar yang sama dalam masa sesingkat mungkin, dan skornya dikorelasikan (Kubiszyn & Borich, 1995).

2.1.3 Ketekalan Dalaman (Internal Consistency)

Jika ujian adalah untuk mengukur konsep asas yang tunggal, maka adalah munasabah menganggap orang yang mendapat satu item betul akan mendapat betul item yang serupa. Dengan kata lain, item boleh dikorelasikan satu sama lain, dan ujian dikatakan tekal secara dalaman. Jika keadaan ini berlaku, maka reliabiliti boleh ditentukan dengan cara ‘internal consistency’(Kubiszyn & Borich, 1995). Kaedah ini terdiri daripada tiga iaitu kaedah Bahagi-Dua (split-half), kaedah ‘Kuder-Richardson’dan kaedah Pekali Alfa. Melalui kaedah Bahagi-Dua (split-half), ujian diberikan seperti biasa, tetapi markah setiap calon dijumlahkan dalam dua kumpulan supaya jumlah tersebut dapat dikorelasikan bagi menentukan kebolehpercayaan, yang merupai kaedah mengukur kesamaan Kaedah Kuder-Richardson ialah dengan menggunakan formula yang dibina oleh Kuder-Richardson; iaitu KR20 dan KR21. Kaedah Pekali Alfa (a ) juga menggunakan formula. Formulanya hampir sama dengan KR20, tetapi S pq diganti dengan S S_i²di mana S_i² ialah varians.(Mokhtar, 1995).

3.0 Reliabiliti Soalan Objektif

Butiran jenis pilihan ialah butiran yang memerlukan calon memilih jawapan yang sudah disediakan. Butiran yang tergolong dalam kumpulan ini ialah butiran benar-palsu, memadankan, dan pelbagai pilihan. Butiran bentuk ini tidak kurang pentingnya untuk guru menilai pencapaian akademik para pelajarnya ... Kekuatan butiran jenis pilihan ialah ialah ujudnya keobjektifan dalam pemarkatan, iaitu butiran jenis ini boleh diuruskan dengan menggunakan komputer (Mokhtar, 1995). Kenyataan di atas menunjukkan bahawa bentuk soalan objektif tidak begitu penting tetapi kekuatan item yang disediakan adalah penting; dan kekuatan ini mempunyai kaitan rapat dengan reliabiliti. Ini bermakna pendidik perlu menentukan setiap soalan mempunyai reliabiliti yang tinggi sebelum diuji kepada pelajar. Linn dan Gronlund (1995) pula menyatakan bahawa kelebihan utama item pelbagai pilihan ialah boleh digunakan dengan meluas untuk mengukur berbagai fasa pencapaian.

Dalam bahagian ini hanya soalan objektif jenis pelbagai pilihan akan dibincangkan . Soalan jenis ini mempunyai dua bahagian iaitu bahagian ‘pokok’ (stem) dan ‘opsyen’. Bahagian pokok biasanya dinyatakan dalam bentuk soalan terus atau kenyataan yang tidak lengkap; ianya juga terdiri daripada penerangan, geraf, peta, gambarajah dan sebagainya. Sementara bahagian opsyen terdiri daripada senarai jawapan atau penyelesaian yang dicadangkan dalam bentuk perkataan, angka, simbol atau frasa. Opsyen pula terdiri daripada jawapan betul (atau disebut juga ‘key’) dan pengganggu yang bertujuan untuk mengganggu calon yang kurang berpengalaman atau kurang mahir memilih jawapan yang tepat atau paling tepat. Mengikut Linn dan Gronlund (1995) soalan bentuk pelbagai pilihan adalah sangat luwes (flexible) dan boleh digunakan untuk mengukur berbagai hasil pembelajaran pada aras pengetahuan dan kefahaman.

Soalan objektif yang dibina perlulah mempunyai reliabiliti yang tinggi supaya soalan tersebut boleh digunakan sepanjang masa dan kepada semua calon. Oleh sebab tidak ada ujian yang sempurna secara mutlak, guru perlulah sekurang-kurangnya mengetahui sejauh mana tepatnya sesuatu ujian itu supaya dia dapat mengetahui tahap keyakinan yang boleh diletakkan terhadap ujian tersebut. Untuk menyatakan ketepatan ujian, konsep ‘kebolehpercayaan’ (reliabiliti) telah digunakan, iaitu darjah setakat mana sesuatu ujian itu tekal dalam mengukur sesuatu (Mokhtar, 1995).

Untuk menentukan reliabiliti item objektif pelbagai pilihan satu ujian telah ditadbirkan kepada 10 soalan Kimia Kertas I daripada Penilaian Kemajuan Gerak Gempur Sains dan Matematik (oleh Pusat Perkembangan Kurikulum, Kementerian Pendidikan Malaysia 1996). Seramai 21 orang pelajar Tingkatan 5 dari sebuah sekolah di Terengganu telah menduduki ujian tersebut. Soalan tersebut adalah mengenai sebatian, mencari jisim bahan dalam sebatian, mencari bilangan ion, ion-ion yang hadir, mangkin, formula sebatian dan sebagainya. Keputusan ujian dianalisis menggunakan pakej SPSS untuk menentukan reliabiliti.

Daripada analisis didapati reliabiliti ialah a = -.3668 . Reliabiliti ujian ini adalah terlalu rendah mungkin kerana bilangan item terlalu sadikit, iaitu hanya melibatkan 9 item sahaja; di mana item 1 tidak mempunyai varians (semua calon betul) dan tidak diambilkira. Pekali reliabiliti secara terus dipengaruhi oleh sebaran markat kumpulan calon yang diuji. Kalau faktor lain dianggap malar, semakin luas sebaran markat semakin tinggi anggaran reliabiliti. Ini kerana pekali reliabiliti yang tinggi wujud kalau individu cenderung untuk berada pada kedudukan atau pangkatan yang sama secara relatif daripada rakannya... (Mokhtar, 1995). Sebagai hukum umum, semakin banyak item dalam ujian, semakin tinggi reliabiliti ujian. Oleh itu ujian yang panjang adalah ke arah lebih ‘reliable’ daripada ujian pendek (Salvia & Ysseldyke, 1995).

Faktor kedua yang mempengaruhi reliabiliti ujian tersebut di atas ialah adalah kehomogenan atau keheterogenan kebolehan calon. Kalau faktor lain dianggap malar, semakin beraneka jenis kumpulan calon semakin tinggilah reliabiliti (Mokhtar, 1995). Sedangkan semua calon yang terlibat dalam ujian ini adalah semuanya dari kelas 5S yang mana pencapaiannya hampir sama. Oleh itu jika ujian ini dijalankan ke atas calon yang lebih ramai maka reliabilitinya mungkin lebih besar. Jika diperhatikan dalam analisis item didapati pencapaian calon ialah di antara 4 hingga 8 markah(daripada 10 markah penuh), iaitu dua orang mendapat 8 markah, 11 orang mendapat 7 markah, empat orang mendapat markah 6, tiga orang mendapat markah 5 dan hanya seorang mendapat markah 4. S-P Chart juga menunjukkan bahawa perbezaan di antara Student (S) Chart dengan Performance (P) Chart tidak begitu ketara. Ini menunjukkan bahawa soalan tidak begitu sukar untuk pelajar.

Kesukaran item juga mempengaruhi reliabiliti. Ujian yang terlalu susah atau terlalu senang akan menyebabkan reliabiliti yang rendah. Ini kerana ujian begini akan menghasilkan sebaran markat yang terhad. Bagi ujian yang terlalu senang markatnya tertumpu kepada bahagian atas skala, dan sebaliknya bagi ujian yang terlalu susah, markatnya akan tertumpu kepada bahagian bawah skala. Untuk kedua-dua situasi ini perbezaan antara individu amat kecil, oleh itu cenderung untuk mengalami anggaran reliabiliti yang rendah (Mokhtar, 1995). Item-item dalam ujian di atas mempunyai indeks kesukaran seperti berikut : satu soalan id = 1, dua soalan id = 0.9, satu soalan id = 0.8, kesemuanya tergolong dalam item yang senang. Sementara item yang sederhana pula ialah dua soalan id = 0.7, satu soalan id = 0.6 dan satu soalan id = 0.4 . Item yang sukar hanya dua iaitu id = 0.2 dan 0.19 .

4.0 Reliabiliti Soalan Esei

Kekuatan utama soalan jenis esei ialah ia boleh mengukur hasil pembelajaran yang lebih kompleks yang mana tidak boleh diukur dengan soalan jenis lain. Tetapi menggunakan soalan esei tidak semestinya memberikan jaminan boleh mengukur pencapaian yang lebih kompleks. Untuk tujuan ini, soalan esei mesti dibina secara berhati-hati seperti soalan esei (Linn dan Gronlund, 1995).

Menurut Linn dan Gronlund (1995), lagi soalan jenis esei mempunyai kelebihan kerana ia boleh memberi penekanan kepada kesepaduan dan aplikasi pemikiran dan kemahiran penyelesaian masalah. Butiran esei tidak sepatutnya digunakan untuk mengukur pengetahuan berfakta, memandangkan butiran esei lemah dari segi pemarkatannya (Gronlund, 1981).

Untuk mementukan reliabiliti soalan jenis esei pula sebanyak dua soalan (Soalan Kimia Kertas 2, Sijil Pelajaran Malaysia, Kementerian Pendidikan Malaysia, 1996) telah diuji kepada 21 orang calon yang sama seperti di atas. Setiap soalan terdiri daripada tiga bahagian iaitu a, b dan c. Setiap soalan membawa 20 markah. Setelah diperiksa setiap bahagian dijumlahkan dan didapati skor setiap soalan. Skor ini kemudiannya direkodkan semula iaitu markah 0 diskalakan 0, markah 1 hingga 4 diskalakan 1, 5 hingga 8 diskalakan 2, 9 hingga 12 diskalakan 3, 13 hingga 16 diskalakan 4 dan 17 hingga 20 diskalakan 5. Kemudian dianalisis dengan menggunakan pakej SPSS bagi menentukan reliabiliti.

Hasil analisis mendapati reliabiliti ujian tersebut ialah a = -. 5679. Nilai yang didapati adalah rendah dan reliabiliti soalan esei dipengaruhi oleh beberapa faktor. Pertama ialah keobjektifan sesuatu ujian iaitu merujuk kepada darjah sejauh mana penilai yang sama kecekapannya akan memberikan markat yang sama (Mokhtar, 1995). Dalam konteks keobjektifan, perhatian perlu ditumpukan kepada ujian berbentuk esei di bilik darjah. Beberapa langkah perlu diambil supaya perbezaan markat yang diperoleh oleh calon bukan disebabkan oleh pendapat dan bias oleh penilai. Di samping itu mengikut Gronlund (1981), penyelesaiannya bukanlah dengan cara menggunakan ujian objektif sahaja dan meninggalkan kaedah penilaian subjektif, sebab ini akan memberikan kesan buruk kepada kesahan ujian yang merupakan terkuantiti penting bagi sesuatu ujian.

Dalam penggunaan butiran jenis esei, reliabiliti boleh ditingkatkan, misalnya dengan memfrasakan soalan secara lebih teliti serta menggunakan satu set skema pemarkahan yang standard. Peningkatan dalam keobjektifan melalui cara ini akan meninggikan kebolehpercayaan tanpa mengorbankan kesahan ujian (Mokhtar, 1995).

Dalam ujian di atas faktor ini nampaknya tidak mempengaruhi kerana jawapan telah diperiksa oleh seoarang pemeriksa sahaja dan menggunakan skema pemarkahan yang disediakan oleh Lembaga Peperiksaan Malaysia.

Ini sesuai dengan pendapat Mokhtar (1995) yang mengatakan bahawa kehomogenan atau keheterogenan kebolehan calon mempengaruhi relibiliti ujian tersebut; dan kalau faktor lain dianggap malar, semakin beraneka jenis kumpulan calon semakin tinggilah reliabiliti . Sedangkan semua calon yang terlibat dalam ujian ini adalah semuanya dari kelas 5S yang mana pencapaiannya hampir sama. Oleh itu jika ujian ini dijalankan ke atas calon yang lebih ramai maka reliabilitinya mungkin lebih besar. Jika diperhatikan dalam analisis item didapati pencapaian calon ialah di antara 7 hingga 20 markah (daripada 40 markah penuh), iaitu sembilan orang calon mendapat 17 - 20 markah, lima orang calon mendapat 13 - 16 markah,lima orang mendapat markah 9 - 12, hanya seorang calon mendapat markah 4 - 8.

Kesukaran item juga mempengaruhi reliabiliti. Ujian yang terlalu susah atau terlalu senang akan menyebabkan reliabiliti yang rendah. Ini kerana ujian begini akan menghasilkan sebaran markat yang terhad. Bagi ujian yang terlalu seang markatnya tertumpu kepada bahagian atas skala, dan sebaliknya bagi ujian yang terlalu susah, markatnya akan tertumpu kepada bahagian bawah skala. Untuk kedua-dua situasi ini perbezaan antara individu amat kecil, oleh itu cebderung untuk mengalami anggaran reliabiliti yang rendah (Mokhtar, 1995). Dalam ujian di atas pencapaian pelajar adalah di antara 7 hingga 20 sahaja (daripada 40 markah) untuk kedua-dua soalan. Sementara soalan 1, pencapaian pelajar di antara 3 hingga 13 dan soalan 2 di antara 0 hingga 8 (lihat Lampiran 4). Apabila dikodkan semula kepada 0 hingga 5, didapati pencapaian soalan 1 adalah antara 1 hingga 4 sahaja dan pencapaian dalam soalan 2 antara 0 hingga 3 sahaja. Min dan sisihan piawai soalan 1 ialah 9.667 dan 3.215, dan soalan 2 ialah 5.05 dan 2.89 masing-masing. Jika dibandingkan dengan min keseluruhan ialah 14.71 dan sisihan piawai 4.417 .

5.0 Kesimpulan

Reliabiliti sesuatu ujian bukan sahaja merujuk kepada hasil ujian tersebut tetapi juga kepada item yang digunakan. Dalam kajian di atas didapati sama ada soalan objektif atau soalan esei mempunyai reliabiliti yang rendah jika tidak ditadbirkan kepada calon yang betul, bilangan soalan yang sesuai, soalan mempunyai kesukaran yang berbagai dan sebagainya.

Reliabiliti ialah syarat yang perlu tetapi bukan syarat yang mencukupi bagi menyatakan sesuatu ujian itu sah (Mokhtar, 1995). Dalam kajian di atas didapati walau pun soalan telah dibina oleh ahli-ahli panel yang berpengalaman dan profesional di bawah pengawasan Lembaga Peperiksaan Malaysia atau Pusat Perkembangan Kurikulum, Kementerian Pendidikan Malaysia tetapi didapati mempunyai reliabiliti yang rendah, sedangkan kesahannya adalah tinggi hasil ujian pra secara berperingkat telah dijalankan oleh Lembaga Peperiksaan Malaysia.

Rujukan

Crombach, L. J. (1970). Essentials of Psychological Testing. New York: Harper and Row Publishers.

Ebel, R. I. (1979). Essentials of Educational Measurement. New Jersey: Prentice Hall.

Gronlund, N. E. (1981). Measurement and Evaluation in Teaching. New York: MacMillan Publishing Co. Inc.

Hills, John R. (1995). Measurement and Evaluation in the Classroom. Florida State University.

Ingenkamp, K. (1977). Educational Assessment. New Jersey, USA : NFER Publishing Company.

Kubiszyn, Tom & Borich, Gary. (1995). Educational Testing and Measurement. Austin: Harper Collins College Publishers.

Linn, Robert L. (1995). Measurement and Assessment in Teaching. New Jersey : Merrill, Prentice-Hall, Inc.

Martuza, V. R. (1977). Applying Norm-Referenced and Criterion- Referenced Measurement in Education. Boston : Allyn and Bacon, Inc.

Mokhtar Ismail (1995). Penilaian di bilik darjah. Kuala Lumpur: Dewan Bahasa dan Pustaka.

Popham, W. J. (1975). Educational Evaluation. New Jersey: Prentice-Hall Inc.

Rowntree, D. (1977). Assessing Students : How Shall We Know Them? London : Harper & Row, Publishers.

[ BACK ]