Evaluasi Hasil Belajar

BAB I
PENDAHULUAN
A.    Pengertian Evaluasi
Menurut pengertian bahasa, kata evaluasi berasal dari bahasa inggris Evaluation yang berarti penilaian atau penafsiran (John M. Echols dan Hasan Sahdily), 1983 : 220. Sedangkan menurut pengertian istilah evaluasi merupakan kegiatan yang terencana untuk mengetahui keadaan suatu obyek dengan menggunakan instrument dan hasilnya di bandingkan dengan tolak ukur untuk memperoleh kesimpulan.
Anne Anastasi mengertikan evaluasi sebagai “A Systematic Process Of Detar Mining The Extent To Which Instructional Objec Tives Are Achieved By Pupils (Anne Anastasi, 1978 : 6)”. Evaluasi bukan sekedar menilai suatu aktivitas secara spontan dan insidental, melainkan merupakan kegiatan untuk menilai sesuatu secara terencana, sistematik, dan terarah berdasarkan atas tujuan yang jelas.
Ada beberapa istilah yang sering digunakan untuk pengertian yang serupa dengan evaluasi, yaitu measurement atau pengukuran, assement atau penaksiran dan teks. Ketika istilah itu kadang-kadang digunakan secara bergantian dan dianggap memiliki pengertian yang sama, padahal ketiganya terdapat perbedaan.
Measurement atau pengukuran diartikan proses untuk menentukan luas atau kuantitas sesuatu {Wond t,Edwin and G.W. Brown; 1957:1} dengan pengertian lain pengukuran adalah sesuatu usaha untuk mengetahui keadaan seperti adanya yang dapat di kuantitaskan, hal ini dapat diprole dengan jelas tes atau cara lain.
Hasil suatu pegukuran belumbanyak memiliki arti sebelum di tafsirka dengan jalan membandingkan hasil pengukuran standar atau pematokan yang telah ditentukan sebelumnya. Dalam penilaian pendidikan patokan itu dapat berupa batas minimal kompetensi materi pelajaran yang harus dikuasi, atau rata-rata nilai yang diperoleh oleh kelompok. Sebagai contoh siswa yang memperoleh skor tujuh, dapat berarti memiliki nilai rendah apabila dibandingkan dengan rata-rata kelompok yang mencapai skor delapan, tetapi nilai tersebut dapat berarti tinggi apabila dibandingkan dengan batas lulus yang hanya dibutuhkan angka lima misalnya.
Sedangkan pengertian tes lebih di tekankan pada penggunaan alat pengukuran. Cronbach memberikan batasan tes sebagai berikut :
.......a systematic procedur for observing a persons behafior and discribing it with the old of a numercal scale ora category system  (Cronbach 1970 : 26).
            Sedangkan Sumadi Suryabrata memberikan pengertian sebagai berikut :
“ Tes adalah pertanyaan-pertanyaan yang harus dijawab dan atau perintah-perintah yang harus di jalankan, yang mendasarkan harus bagaimana teste menjawab pertanyaan-pertanyaan atau melakukan perintah-perintah itu penyelidik mengambil kesimpulan dengan cara membandingkannya dengan standar  atau teste yang lai (Sumadi Suryabrata, 1984 : 22)
Unsur-unsur pokok yang harus ada dalam kegiatan pengukuran adalah :
1.    Adanya obyek yang di ukur
2.    Adanya tujuan pengukuran
3.    Adanya alat ukur
4.    Proses pengukuran
5.    Hasil pengukuran yang bersifat kuantitatif
Adapun unsur pokok dalam penilaian selain mencakup kegiatan pengukuran mencakup pola :
Ø Adanya standar yang di jadikan pembanding
Ø Adanya proses perbandingan antara hasil pengukuran dengan standar
Ø Adanya hasil penilayan yang bersifat kualitatif
Pengertian assement tidak sampai ke taraf evaluasi, melainkan sekedar mengukur dan mengadakan estimasi terhadap hasil pengukurann.
Penelitian memiliki pengertian yang lebih luas dari pada evaluasi. Oleh karena itu evaluasi pendidikan dapat berfungsi sebagai bagian dari penelitian yang sering disebut dengan action research yaitu proses penelitian yang hasi-hasilnya selalu dipakai untuk memperbaiki pelaksanaan proses, kemudian diadakan penelitian ulang, yang hasilnya dipakai menyempurnakan lagi kegiatan tersebut, begitu seterusnya.
B.     Mengapa Dalam Pendidikan Diperluakan Evaluasi ?
Ada tiga alasan utama mengapa dalam kegiatan pendidikan selalu memerlukan evaluasi. Pertama, apabila dilihat dari pendekatan proses, kegiatan pendidikan secara sederhana dapat digambarkan dalam segitiga sebagaimana di kemukakan oleh David Mekay yang menggambarkan interaksi ketiga proses tersebut sbb :
EducationalObjektives



Learning Experiences                                            Evaluation Procedurs
Alasan kedua, kegiatan evaluasi terhadap hasil pelajar merupakan salah satu ciri dari pendidik profesional. Satu pekerjaan dipandang memerlukan kemampuan profesional bila pekerjaan tersebut memerlukan pendidikan lanjut (Advanced Education) dan latihan khusus (Special Training). Pekerjaan pendidikan profesional meliputi : menyusun rencana belajar mengajar, mengorganisasikan, menata pendidikan, membimbing dan membina terlaksananya proses belajar-mengajar secara relevan, efesien dan efektif, menilai program dan hasil belajar, dan mendiagnosis faktor-faktor yang mempengaruhi tingkat keberhasilan proses belajar bagi dapat disempurnakannya proses belajar-mengajar selanjutnya (Prof. Dr. Soediarto, MA 1991, hlm 7).
Ketiga, bila dilihat dari pendekatan kelembagaan, kegiatan pendidikan adalah merupakan kegiatan manajemen, yang meliputi kegiatan planning, programming, organizing, actuating, controlling, dan evaluating. Dua hal yang terakhir ini hampir merupakan titik lemahdalam manajen tradisional yang menganggap bahwa fungsi kontrol dan evaluasi pada setiap proses termasuk pendidikan, dianggap sebagai upaya mengurangi kebebasan dan kemerdekaan para pelaksana kegiatan tersebut.

C.    Tujuan Dan Fungsi Evaluasi Dalam Pendidikan
Dr. Muchtar Buchori M. Ed, mengemukakan bahwa tujuan khusus evaluasi pendidikan ada dua yaitu :
1.        Untuk mengetahui kemajuan belajar peserta didik setelah ia menyadari pendidikan selama jangka waktu tertentu.
2.        Untuk mengetahui tingkat efesien metode-metode pendidikan yang dipergunakan pendidikan selama jangka waktu tertentu

Dalam bidang pengajaran evaluasi bertujuan :
a.         Menetapkan kompetensi isi pengajaran spesifik yang dimiliki oleh peserta didik
b.        Memperbaiki proses belajar mengajar
Evaluasi juga bertujuan untuk melakukan diagnosis terhadap kesulitan belajar peserta didik yang selanjutnya dipakai sebagai upaya untuk menyadarkan perbaikan terhadap cara belajar dan mengajar yang ada. Disamping iitu evaluasi pendidikan juga bertujuan memperoleh informasi tentang potensi  peserta didik sehingga penempatannya dapat disesuaikan dengan bakat dan minatnya.
Evaluasi ppendidikan bertujuan melakukan penilaian total terhadap pelaksanaankukrikulum terhadap suatu lembaga pendidikan. Sehingga dengan demikian dapat dilakukan usaha perbaikan , mencari faktor penghambat dan pendukung terhadap pelaksanaan kurikulum. Melalui evaluasi kurikulum suatu lembaga pendidikan dapat diukur keberhasilannya secara operasional, sehingga dapat dilakukan penilaian terhadap aktifitas kelembagaan pendidikan.
Menurut Sumadi Suryabrata, Ph. D, tujuan evaluasi pendidikan dapat dikelompokkan dalam tiga klasifikasi yaitu :
1.      Evaluasi berdasaarkan fungsinya evaluasi bertujuan untuk memenuhi kebutuhan :
a.       Psikologik, evaluasi dapat dipakai sebagai kerangka acuan kemana ia harus bergerak menuju tujuan pendidikan.
b.      Didaktik/intruksional, tujuan evaluasi memotifasi belajar kepada peserta didik, memberikan pertimbangan dalam menentukan bahan pengajaran dan metode mengajar serta dalam rangka mengadakan bimbingan secara khusus kepada peserta didik.
c.       Administratif / manajerial, bertujuan untuk mengisi buku rapor, menentukan indeks prestasi pengisian STTB, dan tentang kenaikan siswa.
2.      Klasifikasi berdasarkan keputusan pendidikan tujuan evaluasi dapat digunakanuntuk mengambil ;
a.       Keputusan individual
b.      Keputusan institusional
c.       Keputusan-keputusan penelitian
3.      Klasifikasi formatif dan sumatif
a.       Evaluasi formatif diperlukan untuk mendapatkan umpan-balik guna menyempurnakan proses belajar mengajar
b.      Evaluasi sumatif berfungsi untuk mengukur keberhasilan seluruh program pendidikan yang dilaksanakan pada akhir pelaksanaan proses belajar mengajar (akhir semester/tahun) (Sumadi Suryabrata, 1983 : 34-48)
Adapun fungsi evaluasi pendidikan bagi masyarakatdan pemakai jasa pendidikan adalah untuk :
1.      Mengetahui kemajuan sekolah
2.      Ikut mengadakan kritik dan saran pendidikan bagi kurikulum pendidikan pada sekolah tersebut
3.      Lebih meningkatkan partisipasi masyarakat dalam usahanya membantu lembaga pendidikan

D.    Ciri-Ciri Evaluasi Pendidikan

Ciri-ciri evaluasi pendidikan, dijelaskan oleh H.G. Shane. (1958 : 55-57) maupun Suharsmi Arikunto (1981 : 9)
Pertama penilaian dalam pendidikan itu dilakukan  secara tidak langsung. Obyek pengukuran dan penilaian dalam pendidikan  adalah peserta didik, tidak dilihat dari sosok fisiknya, seperti sikap, mental, bakat, intelegensi dan tinggi badannya melainkan aspek psikologiknya, seperti sikap, minat, bakat, intelegensia dan hasil belajar. Aspek-aspek tersebut tidak dapat diukur secara langsung. Sebagai contoh, untu mengukur kepandaian peserta didik yang dapat dilakukan hanyalahhanyalah mengukur hasil belajar dengan jalan menjawab atau mengerjakan soal-soal tes. Jawaban terhadap soal tes tersebut yang dipakai untuk menggambarkan kepandaian peserta didik.

Kedua, penggunaan pengukuran kuantitatif, karena penilaian selalu dimulai dari pengukuran, maka hasil pengukuran akan menggunakan satuan-satuan secara kuntitatif. Penggunaan satuan kuantitatif ini untuk mendapatkan hasil pengukuran yang obyektif pasti setelah itudapat diolah dan ditafsirkan kedalam satuan kuantitatif.

Ketiga, penilaian pendidikan itu menggunakan unit satuan yang tetap. Obyek pengukuran hendaknya menggunakan satuan yang tetap.

Keempat, penilaian pendidikan bersifat relatifartinys hasil penikaian itu sudah menggunakan satuan yang tetap, hasilnya tidaklah selalu samadari waktu-kewaktu. Sebab hasil penilaian tidak semata-mata ditentukan oleh alat ukur yang valid, namun juga dipengaruhi oleh keadaan obyek yang selalu berkembang serta keadaan lingkungan yang mempengaruhi pelaksanaan pendidikan tersebut.

Kelima,  penilaian pendidikan tidak mungkin terhindar dari kesalahan-kesalahan tersebut dapat diakibatkan alat ukur yang valid, atau sikap subyektif penilai, maupun kesalahan dalam penghitung, keadaan fisik dan psikis siswa yang dinilai, serta situasi tempat pelaksanaan penilaian itu dilaksanakan.

E.     Ruang Lingkup Evaluasi Pendidikan
Ruang lingkup evaluasi pendidikan, sebenarnya dapat dilihat dari ruang lingkup proses pendidikan sebagai suatu sistem. Sebagaimana dijelaskan didepan evaluasi merupakan bagian dari proses pendidikan secara menyeluruh, evaluasi pendidikan bukan hanya sekedar kumpulan teknik-teknik yang diperlukan oleh guru dalam mengukur hasil belajar siswa, melainkan merupakan sustu proses kontinu yang mendasari seluruh proses pendidikan dan pengajaran yang baik.
Evaluasi pendidikan dapat dibagi menjadi empat :
1.    Evaluasi masukan (input)
2.    Evaluasi proses
3.    Evaluasi produk
4.    Evaluasi konteks (Akta Mengajar V, Buku III. C 1981).
Evaluasi input adalah evaluasi yang sasarannya adalah proses belajar mengajar, termasuk faktor instrumentalnya, seperti evaluasi terhadap kemampuan guru dalam mengaja.
Sedangkan evaluasi proses, adalah evolusi yang sasarannyaadalah proses belajar-mengajar, termasuk faktor instrumentalnya, seperti evaluasi terhadap kemampuan guru dalam mengajar, kesesuian metode yang digunakan oleh guru, evaluasi kurikulum, evaluasi terhadap media pendidikan, kelembagaan pendidikan, yakni peserta didik.
Evaluasi produk, adalah penilaian pendidikan yang sasarannya hasil akhir suatu proses pendidikan, yakni peserta didik. Hal-hal yang perlu dilakukan penilaian adalah seluas tujuan pendidikan, yang secara umum dapat dikelompok dalam dua aspek, yakni aspek intelektif, dan nonintelektif. Sebagai mana daapat dilihat dalam bagan berikut ini :
Jenis keempat adalah evaluasi konteks yakni evaluasi yang berkaitan dengan masalah-masalah kompleks yang melibatkan hal-hal diluar proses pendidikan. Evaluasi konteks ini dapat dibatasi pada aspek environ mental seperti pengaru sosial, budaya, keluarga, iklim terhadap pelaksanaan dan hasil pendidikan, tetapi dapat pula meluas seperti melakukan terhadap hasil pendidikan dengan menggunakan keriteria eksternal, contohnya meningkatkan hasil pendidikan dengan tuntutan masyarakat agama dan bangsanya.

F.     Langkah-Langkah Pokok Evaluasi
Secara umum langkah-langkah pokok evaluasi pendidikan meliputi tiga kegiatan utama yaitu :
1.    Persiapan
2.    Pelaksanaan
3.    Pengolahan hasil

Ketiga langkah tersebut dapat dijabarkan dalam langkah-langkah yang lebih oprasional meliputi :
1.    Perencanaan perumusan keriterium
2.    Pengumpulan data
3.    Persifikasi dat pengolahan data
4.    Penafsiran data (Muchtar Buchori, 1980 : 21)

Langkah perencanaan dan perumusan kurikulum mencakup (a) perumusan tujuan evaluasi (b) penetapan aspek-aspek yang akan diukur (c) menetapkan metode dan bentuk tes (d) merencanakan waktu evaluasi (e) melakukan uji-coba tes untuk mengukur validitas dan realibilitas.

Pengumpulan data, dimaksudkan untuk memperoleh informasi tentang keadaan obyek dengan menggunakan alat yang telah di ujicobakan untuk pengumpulan data dapat menggunakan metode tes tulis, tes lisan dan tes tindakan, yang akan dibicarakan tersendiri.

Persifikasi data merupakan langkah untuk penelitian terhadap data, mendata diantara data yang baik dan tidak, yakni yang dapat memberikan gambaran sesungguhnya tentang keadaan individu.sedangkan langkah penafsiran data, adalah merupakan verbilisasi atau pemberian makna dari data yang telah diolah, sehingga tidak akan terjadi penafsiran yang overstatement maupun penafsiran yang understatement.


BAB II
PERENCANAAN EVALUASI

Secara panjang lebar, Sumadi Suryabrata dalam bukunya pengembangan tes hasil belajar, utamanya evaluasi yang menggunakan tes obyektif. Evaluasi yang menggunakan tes uraian, observasi dan wawancara, dalam perencanaannya menggunakan alat berfikir tes obyektif dengan meniadakan beberapa langkah yang tidak diperlukan. Lima tahap dalam merencanakan dan menyusun tes sehingga menjadi tes yang baik, dan dapat dibakukan, lima tahap tersebut adaah :
1.    Pengembangan spesifikasi tes
2.    Penulisan soal
3.    Penelaahan soal
4.    pengujian butir-butir soal secara empirik
5.    Admistrasi tes bentuk akhir untuk tujuan pembakuan (Sumadi Suryabrata, 1987 : 2)

A.    PENGEMBANGAN SPESIFIKASI TES

Spesifikasi tes adalah suatu urian yang menunjukan keseluruhan kualitas tes ciri-cirinya yang harus dimiliki oleh tes yang akan dikemmbangkan (Sumadi Suryabrata, 1987 : 5)

Hal-hal yang penting dibicarakan dalam pengembangan spesifikasi tes tersebut adalah :
1.      Menentukan tujuan
2.      Menyusun kisi-kisi soal
3.      Memilih tipe-tipe soal
4.      Merencanakan taraf kesukaran soal
5.      Merencanakan banyak sedikitnya soal
6.      Merencanakan jadwal penerbitan soal

1.      Menentukan Tujuan Evaluasi

Untuk menentukan dan merumuskan tujuan evaluasidengan jelas, diperlukan kepastian daerah medan psikologik peserta didik yang akan diukur, dan kedudukan tujuan tersebut dalam rangka pencapaian tujuan pendidikan yang lebih tinggi. Dalam sistem pendidikan dikenal adanya pendidikan nasional, tujuan pendidikan institusional tujuan kurikuler serta tujuan instruksional umum dan khusus yang sering disebut dengan tujuan perilaju.

Untu memudahkan cara merumuskan dan merencanakan evaluasi, tujuan pendidikan hendaknya dirumuskn dalam tujuan instruksional yang mencakup tiga aspek pokok sebagaimana di jelaskan Mayer (1962) sebagai berikut :
a.         Performance, tujuan instruksional mencakup pernyataan tentang kemampuan apa yang di harapkan dapat dilakukan oleh siswa.
b.        Condition, tujuan instruksional harus dapat menjelaskan suatu kondisi tertentu yang diperlukan bagaimana performance itu teerjadi.
c.         Criterion, tujuan instruksional hendaknya menjelaskan bagaimana keriteria performance yang dapat diterima sebagai hasil belajar. (Nurhida, 1980 hlm. 43).

a.      Taksonomi Tipe Hasil Belajar Gagne

Taksonomi ini dikembangkan oleh Robert M. Gagne (1970) yang didasarkan atas pendapat Thorndike, Hull, Skiner dan Ivan pavolov, yang secara ringkas dapat dijadikan dalam tabel berikut :
Tipe
Jenis Belajar
Ciri-Ciri
Sumber
1
Belajar atas tanda
(signal learning)
-      Paling elementer
-      Kecakapan yang
Muncul bukan kesadaran
-      Sangat terikat dengan signal
1.      Pavlov (1972)
II
Menjawab stimulus
(stimulus and respons)
-       Membuat koneksi
-       Belajar atas kemauan siswa
-       Sesuai untuk belajar motorik
-       Bersifat mekanistik
-       Sangat terikat dengan stimulus, kurang terkait dengan belajar konteks
Thorndike (1998), dan skinner(1938), kimble (1961)
III
Mengait (chaning)

-       Mengkaitkan jawaban respon yang satu dengan yang lain
-       Sudah memahami adanya konsep yang sederhana
Skiner & Gilbert (1962)

Tipe  hasil belajar tersebut, memberikan memberikan kemudahan baagi pendidik untuk merumuskan tujuan evaluasi, sasaran, dan aspek-aspeknya yang harus diukur. Disampin itu berguna untuk menentukan metode dan alat/instrumen evaluasi; misalnya jenis belajar yang dikerjakan peserta didik adalah tipe problem solving, maka cara pengukurannya mwnggunakan metode tes obyektif yng menjadi tidak sesuai dengan hasil belajarnya.
Kelemahan penggunaan taksonomi ini untuk perumusan tujuan evaluasi, kesulitan untuk mendapatkan standarisasi/tolak ukur yang sama tentang aspek-aspek psikologi yang harus diukur, pengembangan alat ukur, sebab rumusannya terlalu luas, kata-kata kunci juga belum ada keseragaman, yaitu :
1.      Cognitif domain
2.      Affectif domain
3.      Psicho-motor

Benjamin S. Bloom menawarkan konsepnya ini di boston pada tahun 1948, perkembangan selanjutnya Bloom sendiri hanya mengembangkan cognitif domain, pada tshun 1956, sedangkan affektif domain, dikembangkan oleh David R.Krathwol, bersama dengan B.S.Bloom dan Bertram B. Masia (1964), selanjutnya psicho-motor domaim oleh Simpson, (1972).

2.      Menyusun Kisi-Kisi Soal

tujuan penyusunan ksi-kisi soal adalah merumuskan setepat mungkin ruang-lingkup, tekanan, dan bagian-bagian tes sehingga perumusan tersebut dapat menjadi petunjuk yang efektif bagi si penyusun tes (Sumadi Suryabrata, 1987:7). Dalam penyusunan kisi-kii soal disusun dalam tabel analisa ganda, sekurang- kurangnya terdiri atas dua aspek yaitu:
a.      Aspek isi pengetahuan
b.      Aspek tujuan pendidikan, yang dirumuskan dalam TIK yang diformulasikan dari taksonomi Bloom’s

Analisis dari dua aspek ini diperoleh informasi mengrnai rincian tingkat kompetensi, sehingga sebaran soal pada tiap pokok bahasan yang menunjang kompetensi tersebut dapat diperhitungkan secara merata.
Selanjutnya masalah format kisi-kisi soal dapat berkembang sesuai dengan kreasi masing-masing pendidik, namun secara umum prinsip analisis ganda antara isi pengetahuan, aspek psikologik yang diukur dan variasi penggunaan jenis soal baik tingkat kesukarannya maupun maupun bentuk soalnya masih tetap ada.


3.      Memilih Tipe-Tipe Soal
Dalam contoh kisi-kisi diatas, disajikan tipe soal, khususnya tes obyektif. Yang menjadi masalah adalah pertimbangan apakah yang digunakan untuk memilih tipe soal tersebut? Untuk itu beberapa hal yang perlu diperhatikan, yakni:
a.       Kesesuian antara tipe soal dengn materi pelajaran
b.      Kesesuaian anatara tipe soal dengan tujuan evaluasi
c.       Kesesuaian antara tipe soal dengan skoring
d.      Kesesuaian antara tipe soal dengan pengolahan hasil evaluasi
e.       Kesesuaian antara tipe soal dengan administrasites yaitu penyelenggaraan dan pelaksanaan tes
f.       Kesesuaian antara tipe soal dengan dana dan kepraktisan
Tujuan evaluasi juga menjadi menjadi pertimbangan untuk memilih tipe soal terutama apabila tujuan yang bersifat operasionalseperti penjelasan diatas.
Apabila pendidik menghendaki hasil evaluasiakan dipergunakan untuk kepentingan yang lebih luas, maka skoring harus benar-benar diusahakan bersifat seobyektif mungkin. Untuk itu tipe soal bentuk obyektif tes paling mudah untuk kepentingan keajegan dan konsistensi dalam skoring. Demikian hasilnya apabila hasil evaluasi akan diolah dengan komputer, maka tipe soal lembaran jawaban diusahakan harus disesuaikan.

4.      Merencanakan Taraf Kesukaran Soal

Satu hal yang harus diperhitungkan oleh perancang tes, adalah mempertimbangkan taraf kesukaran soa. Secara umum taraf kesukaran soal dapat diketahui secara empirik dari persentase peserta yang gagal dalam menjawab soal, secara rinci akan dijelaskan pada analisis item.

Ksukaran soal demikian itu hanya dapat diketahui bilamana soal tersebut telah diujikan. Namun pada bentuk soal tertentuseperti bentuk uraian; pemberian tugas karya tulis, sudah dapat diperhitungkan tingkat kesukarannya, yakniberdasarkan berat-ringannya beban penyelesaian soal tersebut. Oleh karena itu bagi pendidik dalam merencanakan suatu tes, sebaiknya butir-butir soal diujicobakan terlebih dahulu, hasil ujicoba dapat dipakai untuk mengetahui tingkat kesukaran soalnya.

Faktor yang perlu dipertimbangkan berkaitan dengan tingkat kesukaran butir soal adalah acuan yang digunakan oleh pendidik untuk menentukan keberhasilan belajar/evaluasi. Bilamana pendidik menggunakan acuan patokan, maka tingkat kesukaran soal hendaknya dibuat dalam radius disekitar daerah rata-rata, tetapi bilamana digunakan acuan kelompok (norma)penyebaran tingkan kesukaran dapat diperlonggar.\

5.      Merencanakan Banyak Sedikityna Soal

Dalam memperhitungkan banyak sedikitnya soal pada suatu tes, beberapa hal yang perlu diperhatikan, yaitu:
a.       Hubungan banyak sedikitnya soal dengan realibilitas tes
b.      Hubungan banyak sedikitnya soal dengan bobot keseluruhan bagian
c.       Hubungan banyak sedikitnya soal dengan waktu tes
d.      Hubungan banyak sedikitnya soal dengan ujicoba suatu tes (Sumadi Suryabrata)
Suatau tes yang baik, hendaknya memiliki tingkat relibilitas yang tinnggi, reliabilitas merupakan interkorelasi antar butir soal, sehingga makin banyak soal, makin tjnggi pula tingkat reliabilitasnya. Untuk menghitung secara praktis tingkat reliabilitas suatu tes akan akan dijelaskan pada bab tersendiri.
Bila mana masing-masing butir-butir soal diketahui bobotnya, maka tiap butir soal dapat diketahui berapa besar kontribusinya untuk menyumbang hasil tes secara keseluruhan. Apabila semua boboot butir soal sama, maka kontribusi terhadap keberhasilan suatu tes secara keseluruhan sama.
6.      Merencanakan Jadwal Penerbitan Soal
Dalam mempersiapkan suatu tes, perlu diperhatikan waktu untuk mengadakan soal, apalagi jika lembaga pendidikan belum memiliki tenaga profesional untuk keperluan ini dan tidak memiliki alat-alat moderen, seperti mesin cetak yang mampu bekerja secara optimal dalam waktu singkat dapat mengadakan soal dalam jumlah yang besar. Disamping faktor pengadaan menjadi pertimbangan utama bagi perencanaan tes, perlu juga dipertimbangka tingkat kerumitan soal, sebab soal yang rumit memerlukan keahlian khususuntuk menyelesaikannyaserta memakan waktu lebih lama.

B.     PENULISAN SOAL

Merencanakan sebaran butir soal mencakup seluruh kurikulum, merencanakan banyak sedikitnya soal, jenis soal, dan tingkat kesukaran soal, belum menjamin soal itu benar-benar baik. Persoalannya bagaimanakah butir soal itu ditulis dengan baik, kesalah dalam penulisan soal berakibat kesalahan data yang terkumpul, dan salah pula analisa yang dilakukan, selanjutnya keputusan yang diambil terhadap peserta tes menjadi salah pula.
Secara umum, kemampuan khusus yang harus dimilikibagi penulis soal adalah:
1.      Penguasaan pengetahuan
2.      Kesadaran akan tata nilai yang mendasari pendidikan
3.      Pemahaman akan karakteristik individu yang dites
4.      Kemampuan membahaskan gagasan
5.      Penguasaan akan teknik penulisan soal
6.      Kesadaran akan kekuatan dan kelemahan dalam menulis soal (Sumadi Suryabrata,1987:28).
Penguasaan pengajaran mutlak diperlukan bagi orang yang menulis soal. Perencana evaluasi tidak cukup hanya menguasai teknik evaluasi saja. Yang utama adalah penguasaan materi yang akan ditulis dalam soal. Setiap butir soal, hendaknya memiliki validitas contectartinya alat ukur tersebut memang bena-benar momot materi yang akan diukur, sehingga kesesuaian antara alat ukur dengan isi yang diukur benar-benar terwujud dalam penulisan soal.
Peserta didik adalah individu yang hidup, dipengaruhi oleh lingkungan sosial budaya serta lingkunagan pendidikan tempat dia dikembangkan. Butir-butir soal yang sesuaidengaan karakteristiknya akan memungkinkan munculnya data secara alami: sebab antara tester dengan testee memiliki persamaan persepsi tentang soal yang ditulis. Hal ini berakibat jawaban yang diberikan oleh testee sesuai dengan apa dengan yang dikehendak oleh tester.
Seorang penulis soal harus menguasai teknik penulisan soal yang baik dan benar, ia harus tahu tentang ciri masing-masing jenis soal dan bagaimana menulisnya, kelebihan dan kekurangannya, sehingga obyektivitas soal dapat terjamin.
Karena dalam penulisan soal membutuhkn persyaratan yang banyak, maka tidak semua orang memiliki kemampuan sempurna. Tiap orang mempunnyai kelebihan dan kekurangan, oleh karena itu ketika menafsirkan hasil tes untuk membuat keputusanpenting terhadap peserta didikharus menyadari keterbatasan soal tersebut.
C.    PENELAAHAN SOAL

Setelah butir soal selesai ditulis dalam format penulisan soal, maka butir soal tersebut harus diuji validitas rasionalnya. Yaitu kesesuaian antara butir soal dengan materi pengajaran ; daan antara tujun evaluasi dengan teknikpenulisan soal yang baik.
Bagi tes buatan guru yang hanya ditujukan kepada muridnya sendiri, penelaahan soal tersebut dapat dilakukan oleh guruyang bersngkutan, namun bilaman tes akan diberlakukan untuk kalangan yang lebih luas, diperlukan tim khusus untuk melakukan penelaahan dan reviewsoal tersebut.
D.    PENGUJIAN BUTIR-BUTIR SOAL SECARA EMPIRIS
Tujuan pengujian soal srcara empiris adalah untuk mengetahui validitas dan reliabilitastes secara empirik. Ujicoba dapat dilakukan beberapa kali melihat kepentingan tes tersebut. Apabila tes akan diberlakukan dalam skala nasional atau regional, maka pengujian butir soal tidak cukup dilakukan satu kali, akan tetapi harus dilakukan berulang kali sampai memperoleh butir-butir soal yang benar-benar baik.
Dalam melakukan ujicoba soal, yang perlu diperhatikan adalah karakteristik sampel hendaknya sesuai dengan karakteristik obyek yang akan mengikuti testing. Demikian jumlah sampel, henndaknya memadai sebagai sampel ujicoba tersebut sulit untukdipakai memperdiksikan keberhasilan obyek yang sebenarnya..
Tetapi apabila tujuan tes hanya untuk mengukur kemampuan bidang studi tertentu, atau mengukur prestasi belajar peserta didiknya, persoalannya adalah masalah kerahasiaan soal, dihindarkan adalah kemungkinan bocornya soal. Bilamana pertimbangan ini tidak mengizinkan, maka uji coba itu dapat dari asil hasil tes yang sesungguhnya; hasilnya dianalis, butir soal yang tidak memenuhi syarat dapat disingkirkan, dan tidak diperhitungkn untuk menentukan hasil akhir peserta didik.

BAB III
MACAM-MACAM TES
A.    PENNGERTIAN TES

Tes bersal dari bahasa latintestum yang berarti alat untuk mengukur tanah. Dlam bahasa perancis kuno, kata tes berarti ukura yang dipergunakan untuk membedakan antara emas denga perak serta logam lainnya.
Sedangkan Sumadi Suryabrata, mengartikan tes adalah: “pertanyaan-pertanyaan yang harus dijawab dan atau perintah-perintah yang harus dojalankan, yang mendasarkan harus bagaimana testee menjawab pertanyaan-pertanyaan atau melakukan perintah-perintah itu, penyelidik mengambil kesimpulan dengan cara membandingkan dengan standar atau testee lainnya” (Sumadi Suryabrata, 1984:22)

Dari kedua pengertian diatas, diambil pengertian, tes adalh alat pengukuran berupa pertanyaan, perintah dan petunjuk yang dutujukan kepada testee unruk mendapatkan respon sesuai dengan petunjuk itu. Atas dasar respon tersebut ditentukan tinggi rendahnya skor dalam bentuk kuantitatif selanjutnyadibandingkan dengan standar yang telah ditentukan untuk ditarik kesimpulan yang bersifat kualitatif.

B.     MACAM-MACAM TES

Secara umum tes dapat dibedakan berdasarkan obyek pengukurannyadapat dibagi menjadi dua, yaitu tes kepribadian (Personality Test) dan tes hasil belajar (Achievement Test).Personality test: A test intident to measure one or more of the nonintellctive aspects of and individual’s mental or psycological makeup.(Stanley and Kenneth, 1978:454). Yang termasuk dalam jenis tesini banyak digunakan dalam pendidikan adalah:
1.      Pengukuran sikap
2.      Ppengukuran minat
3.      Pengukuran bakat
4.      Tes inteligensi
Selain tes tersebut diatas masihh banyak jenis tes lain yang termasuk tes nonintelektif. Dimasukkannya tes inteligensi pada kelompok tes kepribdian hanya untuk memudahkan dalam membedakan dengan tes hasil belajar yang menjadi perhatian utama dalam buku ini.
Adapun pengertian achievement tes secara umum adalah: A test that measures the extent to which a person has “achieved” something acquired certain  information or mastered certain skills, usually as a result of specific instruction (Stanley and kenneth, 1978:448).

Berdasarkan fungsinya,tes dapat dibedakan dalam empat jenis yaitu:
1.      Tes penempatan,
2.      Tes formatif,
3.      Tes diagnotik, dan
4.      Tes sumatif

1.             Tes Penempatan
Tes penempatan adalh tes untuk mengukur kemampuan dasar yang dimiliki oleh anak didik; kemampuan tersebut dapat dipakai meramalkan meramalkan kemampuan peserta didik pada masa mendatang, sehingga kepadanya dapat dibimbing, diarahkan atau ditempatkan pada jurusan yang sesuai dengan kemampuan dasarnya.

Penyusunan tes ini henndaknya menggunakan taraf kesukaran yang relatif rendah, tetapi penilaiannya menggunakan acuan patokan. Sedangkan keriteria keberhasilannyaadlah sejauh mana peserta didik berhasil menguasai sejumlah pre-requisit entry skilltiap mata pelajaran atau program pendidikan tertentu. Manfaat yang diperoleh dari tes ini dapat unruk memprbarui kualitas masukan, dapat digunakan untuk mengukur kelebihan serta kekurangan proses belajar mengajar sebelumnya.

2.             Tes Pembinaan

Tes pembinaan disebut dengaformative test, diselenggarakan pada saat berlangsungnya proses belajar-mengajar, diselenggarakan secara priodik, isinya mencakup semua unitpengajaran yang telah diajarkan. Tujuan utamanya untuk mengetahui keberhasilan dan kegagalan proses belajar-mengajar, dengan demikian dapat dipakai untuk memperbaiki dan menyempurnakannya.

Oleh karena tujuan tes formatif untuk pembinaan dan perbaikan PBM, maka hendaknya guru memiliki kebesaran hati mencaari kekurangan pada dirinya dalam mengajar; meliputi aspek metodologik, didaktik, kurangnya motifasi, kemampuan mengelola kelas, kemampuan membangkitkan motifasibelajar peserta didik, serta kurangnya penguasaan bahan.

Dengan demikian sasran tes formatif tidak ditujukan untuk menentukan kelulusan peserta didik, melainkan merangsang agar peserta didik lebih rajin bekajar, sekaligus mengetahui bagian-bagian manakah dari materi yang diajarkan kepadanya yang belum dapat dikuasai dengan baik, selanjutnya dilakukan perbaikan dan pengulangan dalam belajar.

3.             Tes Sumatif

Tes ini disebut tes akhir semester atau evaluasi belajar tahap akhir (EBTA). Tes ini bertujuan mengukur keberhasilan belajar peserta didik secara menyeluruh, materi yang diujikan seluruh pokok bahasan dan tujuan pengajaran dalam suatu program tahunan atau semesteran, masing-masing pokok bahasan terwakili dam butir-butir soal yang diujikan.

Hasil evaluasi sumatif dipakai untuk membuat keputusan penting bagi peserta didik, misaalnya penentuan kenaikan kelas, kelulusan sekolah, dan membuat keputusan lainnya yang terikat dengan kepentingan peserta didik.

Standar yang digunakan untuk menentukan kualitas hasil evaluasi sumatif menggunakan acuan kelompo. Namun dalam hal-haal tertentu dapat menggunakan acuan patokan, atau acuan nilai. Kapan dan bagaimana cara menggunakan accuan tersebut secara jelasdapat dibaca pada penggunaan acuan dalam penilaian

4.             Tes Diagnostik

Tes diagnostik digunakan untuk sebab kegagalan peserta didik dalam belajar. Oleh karena itu dalam menyusun butir-butir soal seharusnya menggunakan itemyamg memiliki tingkat kesukaran rendah.
Tes diagnostik dapat digunakan untuk kepentingan lain sesuai dengan terapi yang ingin dilakukan terhadap peserta didi, antara lain adalah:
a.       Diagnostik untuk kepentingan sleksi
b.      Diagnostik untuk kepentingan pemilihan jabatan dan lapangan studi
c.       Diagnostik untuk kepentingan psikoterapi,dan
d.      Diagnostik untuk kepentingan bimbingan dan penyuluhan dalam belajar (Sumadi Suryabrata 1984:43)

Tes diagnostik untuk kepentingan sleksi dapat digunakan dalam suatu lembaga pendidkan bermksud menerima murid baru secara terbatas, sedangkan pelamar lebih dari yang dibutuhkan, untuk menerima murid tersebut diadakan sleksi guna memilih calon terbaik. Naaamun untuk menentukan tepat tidaknya seorang pelamar diterima sebagai murid pada lembaga pendidikan yang menggunakan tes diagnostik, dasarnya tidak hanya kemampuan intelektual, melainkan kesesuaian antara beberapa ciri kepribadian, kemampuan dasar yang dimiliki dengan sifat lembaga pendidikan tersebut.
5.             Tes Standar

Penggunaan tes standar secara sempit adalah tes yang disusun oleh suatu tim ahli, atau disusun lembaga yang khusus menyelenggarakan secara profesional. Tes tersebut diketahui memenuhi syarat sebagai tes yang baik; yakni diketahui validitas dan reliabilitas baik validitas rasional maupun validitas empirik, reliabilitas dalam arti teruji tingkat stabilitas, maupun homoginitasnya.
            Yang dituntut dalam tes standar bukan standar prestasi peserta didik dari penguasaan materi yang diajarkan pada suatu tingkat, lembaga pendidikan tertentu, melainkan adanya kesamaan performance pada kelompok peserta didik atau lembaga pendidikan disebabkan adanya kesamaan tolak ukur. Oleh karena itu dalam tes standar, masalah keseragaman dan konsistensi skoring penting untuk diperhatikan; sehingga tes tersebut dapat dipakai untuk membandingkan prestasi prestasi peserta didik dari berbagi sekolah.
Menurut Suharsmi Arikunto kegunaan tes standar adalah sebagai berikut:
a.         Membandingkan prestasi belajar dengan pembawaan individual atau kelompok,
b.        Membandingkan tingkat prestasi siswa dalam keterampilan di berbagai bidang studi untuk individu atau kelompok,
c.         Membandingkan prestasi siswa berbagai sekolah atau kelas
d.        Mempelajari perkembangan siswa dalam suatu priode atau waktu tertentu (Suharsmi Arikunto, 1984:113)

Apabila pendidik bermaksud menstandarisasikan tes buatannya sendiri  memerlukan perencanaan sendiri, memerlukan perencanaan yang baik, dilakukan uji coba di lapangan beberapa kali, dan ada beberapa yang perlu distandarisasikan, yaitu
a.       Materi yang akan di ujikan
b.      Sistem evaluasi yang digunakan
c.       Waktu penyelesaian soalan tes
d.      Tingkat kesukaran soal
e.       Cara pengolahan soal, termasuk skoring yang digunakan

6.             Tes Nonstandar

Tes non standar kebalikan tes standar, yaitu tes yang disusun oleh seorang pendidik yang belum memiliki keahlian profesional dalam penyusunan tes, atau yang mereka yang memiliki keahlian tetapi tidak sempat menyusun tes secara baik, mengujicobakan, melakukan analisis sehingga validitas dan reliabilitasnya belum dapat dipertanggungjawabkan. Tes nonstandar sering digunakan untuk menyebut tes buatan guru, artinya disusun oleh seorang guru tanpa bantuan tim ahli. Sebenarnya penggunaan yang kedua istilah ini tidak tepat, sebab mendiskriditkan guru sebagai orang yang tidak mampu menyusun tes yang baik penulis lebih cendrung menggunakan pengertian yang mendasarkan pada keriteria kualitatif daripada dilihat dari siapa yang menyusun.
Untuk memberikan gambaran yang jelas, disajikan tabel perbandingan kedua tes tersebut
Tes standar
Tes nonstandar
1.    Didasarkan atas bahan dan tujuan umum pendidikan di seluruh negara
1.      Didasarkan atas bahan dan tujuan khusus yang dirumuskan oleh guru untuk kelasnya sendiri.
2.    Mencakup aspek yang luas dan pengetahuan atau keterampilan dengan hanya sedikit butir tes untuk setiap keterampilan/topik
2.     dapat terjadi hanya mencakup pengetahuan atau pengetahuan yang sempit
3.Disusun dengan kelengkapan staf, profesor, pembahasan,dan editor butir tes.
3.     Biasanya disusun sendiri oleh guru dengan sedikit atau tanpa bantuan orang lain
4.Menggunakan  butir tes yang sudah diujicobakan, dianalisisdan direfisi sebelum diujikan
4.     Jarang menggunakan butir-butir yang sudah ddiujicobakan, dianalisis dan direfisi.
5.Mempunyai reliabilitasyang tinggi
5.     Mempunyai reliabilitas sedang atau rendah.
6.    Dimungkinkanuntuk menggunakan norma untuk seluruh negara
6.Norma kelompok terbatas kelas tertentu.

7.         Tes Tulis
Tes tulis termasuk kedalam tes ferbal, ialah tes yang soal dan jawabannya yang diberikan ole siswa berupa bahasa tulisan. Tes ini kelebihannya dapat mengukur kemampuan sejumlah besara peserta didik dalam dalam tempat yang terpisah dalam waktu yang sama.
Pada tes tulis, karena soal sama obyekrifitas hasil penilaian lebih dapat dipertanggungjawabkan daripada tes lisan atau tes tindakan.
Namun demikian, tes tulis memiliki kekurangan antara lain belum tentu cocock mengukur rana psikomotor, mengukur rana efektif pada tingkat ccharacterization. Disamping itu apabila tidak menggunakan bahasa yang tegas, lugas daapat mengundang pengertian ganda, berakibat data yang masuk salah, demikian pula dalam mengambil kesimpulan.
Tes tulis secara umum dapat diukur dapat dibedakan menjadi dua bagian yaitu:
a.         Tes obyektif (Tes Terstruktur)
Yaitu tes tulis yang itemnya dapat dijawab dengan memilih jawaban yang sudah tersedia; sehingga peserta didik menampilkan keseragaman data, bagi yang menjawb benar maupun mereka yang menjawab salah.kesamaan data inilah yang memungkinkan adanya keseragaman analisis, sehingga subyektivitas pedidik rendah, sebab unsur subyektivitasnya sulit berpengaruh dalam menentukan sektor jawaban. Penjelasan lebih lanjut mengenai pola tes obyektif diuraikan pada bab tersendiri.

b.         Tes Subyektif (Tes Uraian)
Tes subyektif sering disebut dengan tes u raian, tes ini peserta didik memiliki kebebasan memilih dan menentukan jawaban. Kebebasan ini berakibat data jawaban bervariasi, hal inilah yang menggunakan subyektifitas penilai ikut berperan menentukan. Karena itu tes ini disebut pula dengan tes subyektif.

8.         Tes Lisan
Tes ini termasuk kelompok tes verbal, yaitu tes soal dan jawabannya mmenggunakan bahasa lisan. Tes lisan ini memiliki beberapa kelebihan antara lain:
a.         Dapat digunkan untuk menilai kepribadian dan kemampuan penguasaan pengetahuan peserta didik, krena dilakukan secara face to face.
b.         Jika peserta didik belum jelas dengan pertanyaan yang digunakan, pendidik dapat mengubah pertanyaan sehingga dimengerti.
c.         Darisikap dan cara menjawab pertanyaan, pendidik dapat mengetahui apa yang tersirat disamping apa yang tersurat dalam jawaban.
d.        Pendidik dapat menggali lebih lanjut jawaban peserta didik sampai mendetil sehingga mengetahui bagian mana yang dikuasai oleh peserta didik.
e.         Tepat unttuk mengukur kecakapan tertentu, seperti kemampuan membaca, menghafal kalimat tertentu.
f.          Pendidikdapat mengetahui secara langsung hasil tes seketika, (Ngalim Purwanto 1985:46)9.

9.         Tes Tindakan
Yang dimaksud dengan tes tindakan adalah tes dimana repon atau jawaban yang dituntut dari peserta didik berupa tindakan, tingkah-laku kongkrit. Alat yang dapat digunakan untuk melakukan tes ini adalah observasi atau pengamatan terhadap tingka-laku tersebut.
Bentuk tes ini dapat berupa petunjik-petunjukatau perintah-perintah baik secara lisan maupun tulisan., dapat berupa penyediaan situasi dimana peserta didik diminta untuk bereaksi terhadap situasi tersebut, baik dengan disengaja ataupun tidak.
Tes ini mengandung beberapa keuntungan, dan mengandung beberapa kelemahan. Keuntungan bentuk tes ini antara lai.
a.         Tepat untuk mengukur psikomotor
b.         Tepat untuk mengetahui sikap sikap yang merefleksi dalam tingka-laku sehari-hari
c.         Pendidik secara langsung dapat mengetahui dengan jelas jawaban-jawaban sehingga lebih muda dalam memberikan penilaian.


BAB IV
PENYUSUNAN TES OBYEKTIF

A.       Macacam-Macam Tes Obyektif
Tes obyektif, menurut Berg, (1958), sebagaimana dikutip oleh Stanle, tes ini secara umum dapat dibagi menjadi du macam, yakni:
1.      Free response item terdiri dari
a.       Completion test, dan
b.      Short answer
2.      Fixed-respons items, terdiri dari
a.       Tru-flase,
b.      Multiple-choice,
c.       Matching
d.      Rearregement exercise (Stanley, and Keneth)

Tipe soal obyektif soal jawab bebas, baik dalam bentuk melengkapi maupun jawab pendek, pada hakikatnya dapat dibedakan dengan tes uraian. Perbedaan itu terletak pada panjang pendeknya jawaban. Tes uraian jawaban dari peserta didik relatif lebih panjang, dan dimungkinkan munculnya beberapa alternatif jawaban benar. Tetapi dalamtes ini jawaban singkat jika perlu hanya terdiri dari saatu kata, dan hanya satu jawaban yang benar.

B.            PRNSIP-PRINSIP PENYUSUNAN TES OBYEKTI
1.             Fre-response items

Prinsip penyusunan tes obyektif jawab bebas ini secara umum sama dengan seluruh tes obyektif, yakni munculnya keseragaman dan kepastian tentang jawaban yang benar tersebut penididik dapat memberikan penilaian yang obyektif karena karena kesimpulan yang diambil sudah didasarkan atas data yang ajeg, dengan demikian memperkecil peluang munculnyasubyektifitas penilian.
a.              Short-answer objective item
Beberapa petunjuk penyusunan tes ini antara lain dijelaskan Stanley, sebagai berikut
1.      Menggunakan kalimat tanya akan lebih baik daripada menggunakan kalimat berita
2.      Pertanyaan sebaiknya disususn sedemikian rupa sehingga jawaban yang muncul dapat disampaikan sesingkat mungkin, kalau perlu hanya dijawab dengan satu kata lebih baik,
3.      Apabila lembaran jawaban ingin dijadikan satu dengan lembar soal, sebaiknya disediakan kolom jawban yang terpisah engan soalnya.
4.      Hindarkan penggunaan penyusunan kalimat yang persis dalam buku tes,
5.      Pertanyaan disususn sedemikian rupa sehingga hanya ada satu kemungkinan jawaban yang benar. (Stanley, and Kenneth 1978:220-221)

b.              Complrtion Tes

Pengertian Completion test, “tes completion adalah merupakan salah-satu tes jawaban bebas, dimanan butir-butir soalnya berupa satu kalimat di mana dimanan bagian-bagian tertentu dianggap penting dikosongkan. Kepada testee diminta untuk mengisi bagian-bagian yang ditiadakan tersebut (Stanley and Kenneth, 1978:221).

2.             Fixed-response
Tipe ini merupakan salah-satu bentuk tes obyektif, dimana butir-butir soal yang diberikan kepada peserta didik disertai dengan alternatif jawaban,sehingga peserta didik tinggal memilih satu diantara alternatif yang disediakan. Jawaban tersebut hanya ada satu yang benar ataua yang paling benar, sedangkan lainnya salah.
Selanjutnya untukmengetahui bentuk tes tersebut secara rinci dapat diikuti keterangan berikut
a.             True-Falsse test
True-False Test adalah suatu bentuk tes dimana itemnya berupa statemen yang mengandung dua kemungkinan: benar atau salah. Tetapi sistem itu sebenarnya hanya memiliki satu kemungkinan, yaitu bisa benar bisa salah, peserta didik diminta untuk menentukan pilihannya terhadap statement tersebutdengan memilih salah-satu diantara benar atau salah. Ciri bentuk tes ini antara lain,mudah disusun dan dapat mengungkap bahan yang cukup luas; sedangkan kelemahannya adalah faktor terkaan sangat besar sebab hanya memiliki du kemungkinan  antara benar atau salah, disamping ituvaliditas dan reliabilitasnya rendah.


b.              Multiple Choice Test

Pengertian bentuk tes tersebut adalah:“tes pilihan ganda merupakan tes obyektif di mana masing-masing item disediakan lebih dsri dua kemungkinan jawaban, dan hanya satu dari pilihan-pilihan tersebut yang benar atau yang paling benar. (Noeng Muhajir, 1981:81)
 Adapun jenis jawaban yang paling tepat pada tes bentuk multiple-choiceadalah tes setelah pertanyaan/pernyataan diikuti oleh sejumlah alternatif jawaban mengandung kebenaran. Hanya diantara alternatif tersebut ada jawaban yang paling benar/tepat.
Contoh :
Imam Malik, menulis kitab Al-Muwatta’ karena memiliki tujuan untuk
A.    Memenuhi pesanan khalifah
B.     Membukukan sebagian dari hadis-hadis yang telah dihafalnya
C.     Membukukan sejumlah hadis-hadis sahi, asar, dan fatwa tabi’in
D.    Menulis kitab hadis yang ditashih dan disepakati oleh para ‘ulama’ hadis pada masa itu
E.     Menulis kitab yang dapat dijadikan pegangan utama bagi para qadhi dalam memutuskan perkara.

c.       Tes Bentuk Matching (Menjodohkan)
Tes bentuk menjodohkan merupakan bentuk khusus dari tes pilihan jamak. Bentuk ini terdiri atas dua macam kelompok paralel, tiap kolom berisi statement yang satu menepati posisi sebagai soal daan satunya sebagai jawaban, kemudian peserta didikiminta untuk menjodohkan kesesuaian antar dua statement tersebut diatas.
Tes ini sering digunakan untuk mengukur  informasi tentang fakta; hubungan dan pertingan simbol tertentu. Penyusunan tes ini relatif lebih mudah, dan faktor terkaan peserta didikdapat diperkecil. Kelemahan tes ini hanya dapat mengukur ingatan saja, sedangkan kemampuan analisis dan evaluatif sulit diketahui.
Beberapa petunjuk praktis menyusun tes bentuk ini adalah:
1.             Kelompokan hanya premis-premis yang homogen dan jawaban homogen-homogen
2.             Jumlah statemen yang dijadikan jawaban hendaknya lebih banyak bila dibandingkan dengan statemen yang dijadikan soal. Perbandingan tersebut dapat berkisar 10:15
3.             Statemen yang menjadi jawaban hendaknya disusun dalam kalimat yang lebih pendek dan ringkas
4.             Statemen yang menjadi soal, diletakan di sebelah kiri dengan diberi nomor arab, sedangkan jawaban diletakan diwebelah kanan dengan menggunakan abjad.
5.             Dalam membuat petunjuk, jelaskan yang digunakan untuk menjodohkan yang bersifat sederhana, dasar untuk menjodohkan mungkin sudah jelas. Kendatipun demikian harus dijelas secara eksplisit pada petunjuk, sehingga tidak menimbulkan keraguan pada peserta didik
6.             Jangan membuat penjodohan sempurna atau lawan satu. Satu jawaban mungkin dapat dengan lebih satu statemen. Adakalanya baik memasukan jawaban yang tidak ada pasangannya.
7.             Karena kecilnya faktor terkaan dalam menjawaab tes bentuk ini, nilai dihitung dari jumlah jawaban yang benar

d.              Rearrangement Exercises
Yang dimaksud kan rearrangemen exercises adalh bentuk tes berupa rangkaian kalimat utuh dan benar, kemudian diceraikan secara tidak beraturan, sehingga bentuk aslinya sulit dikenali, peserta didik diminta menyusun kembali sesuai dengan urutan yang benar.
Tes bentuk ini dapat mengukur kemampuan berfikir logik atau logical sequencepeserta didik. Bentuk tes ini banyak digunakan untuk mata pelajaran bahasa. Kesulitannya adalahdalam menentukan topik bahasan yang memiliki homogenitas yang cukup baik.
Bentuk ini apabila diterapkan pada mata pelajaran bahasa tidak ada masalah yang pokok. Tetapi jika digunaakan dalam ilmu sosial seperti sejarah, geografi, dan agama, problemhomogenitas tersebut muncul.



BAB V
MASALAH PENGGUNAAN ACUAN DALAM PENILAIAN

A.            DASAR-DASAR PENNGUNAAN ACUAN DALAM PENILAIAN

Jika pada pengukuran problem utama yang dihadapi adalah bagaimana (1) menentukan obyek pengukuran, hal ini dijelaskan secara panjang lebar dalamm taksonomi hasil belajar, (2) bagaimana menyusun alat ukur yang baik, dalam hal ini dibahas tentang masalah bentuk-bentuk tes, validitas dan realibilitas tes dan analisis item, (3) kapan dan bagaimana prosedur pengukuran dan hasil belajar, (4) bagai mana cara mengelola data hasil pengukura.

PENGGUNAAN ACUAN DALAM PENILAIAN

Asumsi Fisolosofi
Kurikulum
Tujuan Pengajara
PBM
Acuan
Psikologik
1.    Keragaman individu
2.    Inshomorphisme
3.    Normalitas distribusu


Dinamika mengejar perkembangan ilmu dan teknologi yang baru
Kemampuan berkembang peserta didik lebih diutamakan dari penguasaan materi
CBSA mengembangkan kompetensi sehat antar peserta didik
PAK keriteria berkembang sesuai dengan kelompokny
Paedagogik
1.    Mereduksi keragaman
2.    Beda sebelum/sesuds belajar
3.    Dapat menerima perlukuan guru
Statik ilmu dan teknologi yang sudah mapan dan jelas keriterianya tidak berkembang
Kemampuan penguasaan materi dan kemampuan menjalankan tugas tertentu lebih diutamakan


Belajar tuntas Modulasi Paket Belajar Belajar Mamdiri
PAP keriteria sesuai dengan tujuanpengajaran
Teologik
1.    Manusia asalnyafitrah/baik
2.    Pendidikan dapat mengubah fitrah
3.    Satunya ilmu-iman dan amal 
Aagama dan humanoria kebenaran mutlak dan universal datang dari tuhan
Menjadikan manusia “baik”, “bermoral”, “iman”, “takwa”.

PAP
 Nilai keriteria benar/baik bersifat mutlak

            Berdasarkan materik tersebut diatas ada tiga acuan yang dapat dikembangkan dalam penilaian hasil belajar, yakni:
1.      Penilaian dengan Acuan Patokan
2.      Penilaian dengan Acuan Kelompok,
3.      Penilaian dengan Acuan “Nilai”.

B.            PENILAIAN ACUAN PATOKAN (PAP)

Apabila kita membaca hasil penilaian terkandung pengertian bahwa hasil belajar tersebut menunjukkan kemampuan peserta didik bergerak dari “tidak menguasai materi pelajaran”; “menguasai”; sampai pada tahap “sangat menguasai”. Seberapa jauh tingkat penguasaan dianggap memadai, tergantung kepada standar atau patokan yang ditetapkan.
Apabila ketiga asumsi ini dapat brjalan semua, maka proses pendidikan akan berjalan dengan baik, namun salah-sati asumsi tersebut tidak dapat dilaksanakan, maka hasil belajar tidak sesuai dengan kenyataan yang diharapkan. Oleh karena itu jika asumsi dapat dilaksanakan seharusnya dalam proses pendidikan sebagian besar peserta didik harus memperoleh nilai A dan B, dan hanya sebagian kecil saja yang kurang atau gagal, tetapi jika proses pengajarannya gagal akan membentuk juling positif.
Tujuan pengajaran secara khusus untuk menguasai sejumlah teori atau keterampilan tertentu. Dan metode mengajar yang digunakana adalah mastery learning,atau metode belajar tuntas, pendidik menekankan pada penguasaan materi daripada kemampuan kreatif peserta didik.
Sebagai gambaran dalam menetapkan besar kecilnya persentase untuk penetapan nilai dalam Penilaian Acuan Kelompok (PAK) ini adalah sebagai berikut

TARAF PENGUASAAN BAHAN
Taraf penguasaan
kualifikasi
Nilai hurf
Angka kualitas
91-100%
81-90%
71-60%
61-70%
Kurang 60%
Memuaskan
Baik
Cukup
Kurang
Gagal
A
B
C
D
E
4
3
2
1
0

C.           PENILAIAN ACUAN KELOMPOK

Pendidikan yang menggunakan acuan kelompok sebagai dasar penilaian, didasarkan atas asumsi psikologik, yakni pandangan yang menyadari bahwa tidak semua orang itu memiliki kesamaan kemampuan, individu itu memiliki kemampuan yang beragam. Namu apabila kemampuan keragaman ini ditarik dari penelitian atas sejumlah sampel akan memberikan gambaran yang membentuk distribusi frekwensi normal, yakni sebagian besar frekwensi akan berada disekitar daerah mean, sedangkan sebagian kecil berada didaerah ekor kanan dan kiri dalam posisi yang berimbang.
Penggunaan acuan ini sangat dependen dengan jenis kelompok, tempat, dan waktu. Kelompok yang homogen berbeda dengan kelompok yang heterogen; kelompok belajar di kota berbeda dengan kelompok belajar di daera terpencil, demikian juga kemampuan kelompok belajar lima tahun  yang lalu berbeda dengan kemampuan kelompok belajar sekarang
Oleh karena keriteria penilaian dalam PAK ini adalh kemampuan rata-rata kelompok, kemudian individu diukur seberapa jumlah penyimpangannya terhadap rata-rata tersebut, hal ini berarti bahwa tes ini harus dapat memberikan gambaran diskriminatif antara kemampuan peserta didik yang pandai dengan yang bodoh. Dalam kaitannya dengan daya diskriminatif sebagai titik-tolak pengembangan tes hasil belajar, ada indikasi makin tinggi daya diskriminatif suatu butir soal, menandakan tes tersebut semakin baik. Daya diskriminatif itu mencakup
1.             Daya diskriminasi antarindividu
2.             Daya diskriminasi antarsituasi belajar-mengajar, dan
3.             Daya diskriminasi antarkelompok (Neong Muhadjir, 1983:7)

D.            PENGOLAHAN HASIL TES DENGAN ACUAN KELOMPOK (PAK)

Jika persoalan yang dihadapi dalam penilaian acuan kelompok adalah masalah sampling materi tes, dan penetapan tinggi rendahnya patokan yang ditetapakan sebagai keriteria keberhasilan, dalam penilaian acuan kelompok adalah pengolahan data karakteristiknya. Sebab standar yang digunakan dalam penilaian ini adalah skor rata-rata kelompok yang mengikuti tes, sehingga penentuannya dilakukan dengan mengola data nilai secara empirik. Pendidikan tidak dapat menetapkan patokan terlebih dahulu seperti pada penilaian acuan patokan.
Adapun langkah yang ditempuh untuk mengelola skor mentah menjadi nilai adalaah sebagai berikut:
1.             Memberikan skor kepada setiap peserta didik,
2.             Mencari nilai rata-rata kelompok,
3.             Mencari besarnya simpang baku,
4.             Membuat pedoman konversi berdasarkan skala yang dikehendaki,
5.             Menentukan nilai masing-masing peserta didik berdasarkan pedoman konversi tersebut

1.             Memberi Skor Mentah
Dalam memberikan skor mentah pada tiap-tiap tes, terlebih dahulu harus diperhatikan
1.             Bentuk masing-masing sub tes, dan
2.             Bobot masing-masing subtes.

Bila tes terdiri dari beberapa subtes, misalnya tiga bentuk Tru-flase, Multiple-choice dan matching, tentunya dalam memberikan skoring tidak sama, tidak dapat hanya menjumlahkan jawaban benar saja, atau sebaliknya menghitung jumlah jawaban sala saja kemudian baru ditentukan nilainya. Sebab pada dasarnya bobot kesukarannya item yang disajikan dalam bentuk yang befariasi itu berbeda. Oleh karena itu memberikan skor dengan memperhatika variasi bentuk soal sebenarnya meningkatkan kewaspadaan untuk mengurangi kelemahan yang melekat bentuk tes.

Adapun cara memberikan skor masin-masing bentuk tes adalah sebagai berikut:
1.             Tes bentuk esai, tinggi rendahnya skor ditentukan atas dasar banyak sedikit volume tugas yang diperlukan bagi peserta didik untuk menyelesaikan tes tersebut.
2.             Tes obyektif bentuk True-flase,skornya dengan rumus B-S (Benar dikurangi salah).
3.             Tes obyektif bentuk jawab singkatdan isian pendek cukup dengan menjumlah jawaban yang benar.
4.             Tes obyektif bentuk multiple-choiceskornya dengan rumus:
B
Keterangan
B = jumlah jawaban yang benar
S = jumlah jawaban yang salah
n = jumlah option (alternatif jawaban)
5.             Tes obyektif bentuk matching, cara menghitungnya dengan skornya dengan rumus
Keterangan
B  =     jumlah jawaban yang benar
S   =     jumlah jawaban yang salaah
n1 =       jumlah item pada lajur kiri (soal)
n2 =    jumlah item pada lajur kanan

6.             tes obyektif rearengement-exerices, sama dengan memberikan skor pada multiple-choice.


2.             Mencari Nilai Rata-Rata
Setelah masing-masing peserta didik memperoleh skor mentah sesuai dengan petunjuk diatas, kemudian dicari besar kecilnya skor rata-rata tes. Ada empat rumus yang digunakan untuk besarnya mean, yaitu:
a.             
M = Besarnya rata-rata yang dicari
X = Jumlah nilai
N = Jumlah peserta tes
Rumus ini mudah digunakan untuk mencari nilai rata-rata untuk sampel kecil, contoh
Nilai bahasa arab Mahasiswa Fak. Tarbiah Jurusan PAI Tahun 1988
Nomor
Nilai
1
2
3
4
5
6
7
8
9
10
45
70
60
55
63
75
50
49
62
66
N
Ʃ 595



Diketahui:
N = 10
Ʃ = 595
b. Rumus keddua adalah
M =
fX = Nilaidikalikan dengan frekwensi
Rumus ini digunakan apabila peserta tes cukup banyak dan nilai disusun dengan nilai berdasrakan distribusi frekwensi, baik tunggal maupun bergolongan.
Penggunaannya dalam distribusi frekwensi tunggal sebagai berikut:
Nilai bahasa arab mahasiswa Fak. Tarbiyah Jurusan PAI
Nilai
f
fX
70
65
60
52
50
49
30
25


5
6
7
15
12
6
4
2
350
390
420
780
600
294
120
50

N = 57
3004

Jadi nilai rata-ratanya adalah



3.             Mencari Besar Kecilnya Standar Devisi

Setelah diketahui besar kecilnya mean yang akan digunakan sebagai acuan dalam menentukan nilai tiap-tiap individu, langkah berikutnya adalah mencari besarnya standar devisi.

Untuk menghitung besar kecilnya SD dicari melalui dua rumus
a.              Rumus kasar
b.      Rumus yang agak mudah digunakan dan cepat menggunakan dan dapat menghitungnya karena tidak dapat melibatkatkan angka-angka besar, adalah rumus mencari SD dengan mean terkaan, seperti berikut ini:

Kelemahan rumus ini ialah angka-aangka yang berbeda dibelakang koma, sehingga apabila taidak diteliti dengan cermat juga memberi peluang yang sangat beasar untuk menyebabkan salah hitung. Sebagai contoh penerapan dapat diambil rumus yang kedua, dengan bahan terdapatpada halaman 96.
Interval
nilai
f
X’
fX’
fX’2
70-74
65-69
60-64
55-59
50-54
3
15
40
30
9
+2
+1
0
-1
-2
+6
+15
0
-30
-18
12
5
0
30
36

97
0
-27
93

Diketahui :
Ʃ fX  = -27                       N = 97
Ʃ fX’2 = 93                       i  = 5
Sehingga besarnya SD =
SD = 5
 = 5
= 5
= 5
= 4,693 dibulatkan menjadi 4,69
4.           Membuat Pedoman Konversi Nilai

Setelah diketahui besarnya mean dan SD, langkah berikutnya adalah membuat pedoman konversi nilai. Untuk menyusun pedoman ini ada dua hal yang perlu diperhatikan yaitu:
1.             Menetapkan skala yang akan digunakan, dan
2.             Menghitung dan menetapkan tabel konversinilai untuk menentukan besar kecilnya nilaiyang diperoleh peserta didik.

5.         Menentukan Nilai Peserta Didik

Yang menjadi dasar semua itu adalah nilai menta peserta didik. Sebelum dijadikan nilai standar, terlebih dahulu dipergunakan dengan nilai rata-rata kelompok. Selamam peserta tes memiliki homogenitas yang cukup tinggi, distri busi nilai akan membentuk kurva normal, dan distribusi pesertanya akan menjadi seperti disebutka diatas. Tetapi apabila keadaan siswa tidak homogen akan membentuk kurva juling negatif. Hal ini akan sedikit menimbulkann kesulitan sebabb penyebaran nilainya tidak merata.

E.     Pennilaian Acuan “Nilai”

Acuan “nilai” yang dapat digunakan untuk melakukan evaluasi pendidikan yangg mengggunakan dasar fiilosofik agama, yakni pandangan yang menyatakan bahwa manusia itu pada dasarnya memiliki fitrah baik, tidak ada unsur dosa waris, atau manusia itu memiliki potensi bawaan yang bersifat jelek.
Sebagai conntoh: niilai berpakaian, dalam islam nilai esensialnya adalah untuk menutup aurat, bersifat mutlak dan universal. Adapun tentang bentuknya, warnanya, bahannya, mode jahitan dan sebagainya, adlh nilai instrumental, bersifat lokal dan temporal. Pada musim dingin di daera yang memiliki suhu dibawa 0 derajat, pakaian dapa dari mantel bulu, ketat, hitam. Tetaoi oada musim panas, pakaian tidak perlu terlalu tebal asalkan menutup aurat.
Yang menjadi kesulitan dalam melakukan penilaian adalaah mengembangkan alat ukur yang memiliki validitas dan reliabilitas yang dapat diandalkan, disamping itu juga menentukan skoringnya.
Tekanan skoringnya didasarkan atas adanya proses perubahan peserta didik ke arah yang lebih baik. Misalnya perubahan ke semakin taat beribdah-semakin toleran-semakin menghormati orang lain-semakin rajin kemesjid-semakin tebal nasionalismenya-semakin baik budi pekertiny. Tidak semata-mata didasrkan atas penguasaan teori, atau kemampuan mendemonstarsasikan satu tata-nilai tertentu.


BAB VI
VALIDITAS DAN RELIABILITAS TES

A.       VALIDITAS TES
1.         Pengertian Validitas

Validitas sering diartikan dengan kesahihan, sedangkan reliabilitasdiartikan dengan keterandalan. Suatu alat ukur disebut memiliki validitas bilaman alat ukur tersebut isinya layak mengukur obyek yang seharusnya diukur dan sesuai dengan keriteria tertentu. Artinya adanya kesesuaian antara alat ukur dengan funngsi pengukuran dan sasaran pengukuran.
Adapun jenis validitas tes secara umum dapat dikelompokkan kedalam tiga pengelompokan, yaitu:

a.       Validitas konstruksi
b.      Validitas isi
c.       Validitas keriteria
-          Validitas pengukuran setara
-          Validitas pengukuran serantak
-          Validitas prediktif

2.         Jenis Validitas
a.         Validitas Konstruksi
Validitas konstruksi atau construc validity adalah suatu tes dimana butir soal tersebut membangun setiap aspek berfikir seperti yang disebutkan dalam tujuan instruksional khusus (TIK). Atau dengan kata lain validitas konstruksi yaitu tes yang butir-butir soalnyamengukur aspek berfikir sesuai dengan konsep atau pendekatan yang digunakn untuk mengurangi aspek berfikir  tersebut.
Untuk menguji validitas konstruksi ini digunakan:
1.      Pengujian validitas konvergen
2.      Pengujian validitas diskriminan
3.      Pengujian stabilitas dan keajegan (Noeng Muhadjir 1983:77).

Cara menguji validitas konstruksi dengan uji validitas konvergen adalah dengan cra uji empirik, yaitu mengkorelasikan skor total dengan skor faktor; dengan asumsi antara skor total dengan skor faktor terdapat korelasi yang signifikan.

b.        Validitas Isi
Validitas sis atau content validty, atau validitas tes mempersoalkan apakah isi butir tes yang diujikan mencerminkan isi kurikulum yang seharusnya diukur atau tidak. Misalnya seorang guru menyusun tes tentang akhlak siswa SMP. Dapat dipersoalkan bahwakeselurhan tes itu mampu mengungkap “tingkah-laku” siswa SMP dari tingkah-laku yang baik sampai tingkah-laku yang kurang baik; bukan mengumgkap kemampuan menghafal teori tentang tingkah-laku; dan bukan pula mengunngkap kemampuan menghafal pendapat para ahli ilmu akhlak. Kecuali dalam kurikulum mencakup tiga segiitu, yaitu aspek kesejahtraan ilmu, aspek teoritiktentang akhlak dan akhlak praktis.
c.         Validitas Keriteria
Validitas keriteri, artinya tes memiliki kesahihan bilamana terdapat kesesuaian dengan keriteria tertentu yang digunakan untuk mnguji tingkat validitas tes tersebut. Keriteria dapat bersifat internal dan dapat pula bersifat external.
Keriteria yang bersifat internal yaitu keriteria yang digunakan untuk melakukan uji validitasitu terkandung dalam tes tersebut, misalnyavaliditas vaktor. Yaitu bilamana tes tersebut memiliki kesesuaian antara skor faktor dengan skor total, ini berarti terdapat konsistensi antara faktor-fktor yang dijadikan indikator pengukuran.
Keriteria yang bersifat eksternal, yaitu bilamana keriteria yang digunakan sebagai prameter untuk melakukan  uji validitas dari luar tes tersebut, misalnya diambilkan hasil pengukuran orang lain yang menggunakan alat lain; hasil pengukuran orang lain yang menggunakan alat sejenis; dan hasil pengukuran dalam bidang yang sama dalam tahun berikutnya.

3.         Hubungan Antara Validitas Dengan Reliabilitas

Ada kemunkinan hubungan antara validitas reliabilitas itu bersifat independent, bebas satu sama lain dan dapat pula bersifat detrimental.
Tujuan validitas dan reliabilitas seringkali bersalingan. Bila kita ingin mempunyai suatu tes reliabel sekaligus valid dengan koefesien tinggi, sering kita mengerjakan pekerjaan yang mempunyai tujuan yang bersalingan. Reliabilitas maksimal membutuhkan interkorelasi tinggi antaritem, sedangkan validitas prediktif yang maksimaal memerlukan interkorelasi antaritem rendah. Reliabilitas maksimal membutuhkan item dengan tingkat kesukaran sama, sedangkan validitas prediktif malsimal menuntut tes memiliki taraf kesukaaran berbeda, sehingga perlu kompromi.
Namun jika langkah ini kita ambil, sebaiknya diperhitungkan apakah penambahan faktor umum ini dapat terjangkau oleh peserta didik. Oleh karena ituperlu dalam penentuan perencanaan, terutama dalam penyusunan kis-kisi tes, faktor umum yang akan diperbanyak itu diperhitungkan juga jangan terlalu keluar dari program dan proses pendidikan sebelumnya.

B.       RELIABILITAS TES
1.         Pengertian Reliabilitas

Reliabilitas sering diartikan dengann keterandalan. Artinya suatu tes memiliki keterandalan bilamana tes tersebut dipakai mengukur berulang-ulang hasilnya sama. Dengan demikian reliabilitas dapat pula diartikan dengan keajegan atau stabilitas.
Reliabilitas diartikan dengan stabilitas bilamana tes itu diujikan dan hasilnya diadakan analisis reliabilitas dengan menggunakan keriteria internal dalam tes tersebut. Cara untuk mengetahui koefisien stabilitas ini adalah dengan beberapa rumus yang seharusnnya cukup menggunakan satu tes dengan sekali diujikan kepada siswa.

2.         Beberapa Pendekatan Uji Reliabilitas

Beberapa cara ynag dapat digunakan untuk mengadakan uji reliabilitas tes adalah sebagai berikut:
a.         Metode test-retest Reliability
b.         Metode Equivalent-Forms Reliability
c.         Metode Spilt-Half Reliability
1.      Rumus Sperman-brown
2.      Rumus Flagan
3.      Rumus Rulon
d.        Uji Homogenitas
1.      Rumus K-R. 20
2.      Rumus K-R. 21
3.      Rumus Alpha.

3.    Metode Tes-Reset Reliability
Yang dimaksud adalah untuk menguji reliabilitas tes dengan jalan mengujikan tes tersebut dua kali atau lebih, kemudian hasilnya dilkorelasikan. Tujuan uji reliabilitas ini untuk mengetahui koefesien stabilitas tes. Tes tersebut memiliki keterandalan bilamana dipakai untuk mengukur obyek yang sama dalamwaktu yang berbeda-beda hasilnya sama.
Adapun langkah yang dapat ditempuh pada uji reliabilitas ini sebagai berikut:
a.         Menyusun sebuah tes yang akan diukur reliabilitasnya
b.         Mengujikan tes yang tersusun tersebut (tahap I),
c.         Menghitung skor hasil tes tahap I
d.        Mengujikan ulang tes yang tersusun tersebut (tahap II)
e.         Menghitung skor hasil tes ulang (tahap II)
f.          Menghitung tes reliabilitas tes tersebut dengan jalan mengkorelasikan skor tes Idengan skor tes II dengan rumus korelasi Product Moment Pearson

4.         Metode Equivalent-Form Reliabilty

Metode ini adalah cara mengukur reliabilitas tes dengan jalan mengukur dua buah tes yang memiliki kemiripan atau kesamaan (equivalent). Walaupun tesnya terdiri dari dua macam, namun hakikat isinya mengukur hal yang samadan alat ukur ini keduanya juga sama.
Cara ini dapat digunakan untuk mengetahui koefisien stabilitas tes dengan asumsi bahwa sistem yang diukur dengan tes tersebut tidak akan berubah dengan hanya digunakan dua bentuk tes.
Adapun langkah yang ditempuh adalah:
a.         Menyusun dua tes yang ekuivalen,
b.         Menguji kedua tes tersebut (dalam waktu yang bersamaan atau beriringan)
c.         Memberikan skor hasil tes yang telah diujikan, disusun dengan memisahkan antara tes A dan tes B
d.        Mencari koefisien stabilitas kedua tes (A dan B) dengan jalan mencari korelasinya melalui rumus korelasi Product Moment.

Persoalannya adalah bagaimana menyusun dua buah tes yang equivalent tersebut? Untuk itu ada beberapa hal yang perlu diprhatikan, yakni:
a.         Materi yang ditanyakan sama,
b.         Bentuk soal sama,
c.         Tingkat kesukaran soal sama,
d.        Banyak sedikit soal sama,
e.         Waktu yang dibutuhkan untuk mengerjakan soal sama,
f.          Sistem evaluasinya sama.

Yang dapat berbeda adalah pembahasan sitematika soal. Bilamana dua buah tes sudah disusun berdasarkan petunjuk tersebut dan sudah diujikan pada suatu sampel, maka hasil kedua buah tes tersebut dikorelasikan dengan rumus korelasi Product Moment seperti digunakan di atas. Bilamana hasilnya menunjukkan korelasi positif, maka tes tersebut reliabel. Tetapi bilamana sebaliknya, maka ia tidak reliabel.

5.         Metode Split-Half Reliability

Metode ini dipakai untuk mengetahui tingkat reliabilitas tes dengan jalan membelah tes menjadi dua bagian dan skor kedua belahan tersebut dikorelasikan dengan rumus tertentu.
Asumsi yang mendasari penggunaan metode ini sebagai cara mengukur reliiabilitas tes adalah tes tersebut disusun dengan pola yang sitematik, sehingga bilamana dibelah menurut belahan ganjil genap atau belahan atas bawah, tidak akan mengubah posisi skir masing-masing siswa. Yang akan dicari dalam metode ini adalah koefisien konsistensi internal dari tes tertentu.
a.         Macam –Macam Reliabilitas Dengan Menggunakan Rumus Spearman-Brown

Rumus ini dapat digunakan untuk mencari reliabilitas tes dengan mengguanakan keriteria internal, yang bertujuan untuk mengetahui koefisien konsistensi internal suatu tes.
Adapun cara yang dapat ditempuh adalah:
1.         Membela skor tes kedalam skor ganjil dan genap.
2.         Skor ganjil menjadi variabel X, dan skor genap menjadi variabel gena Y.
3.         Menghitung koefisien korelasi 1/2  tes dengan menggunakan korelasi Product Moment.
4.         Menghitung koefisien korelasi satu tes penuh dengan rumus Spearman-brown sebagai berikut:

Rumus :             r11  =
Keterangan :
r11              = reliabilitas instrumen (sutu tes penuh)
r1/2 ½          =  reliabilitas setenngah tes
5.         Setelah diketahui koefisien korelasi satu tes penuh, dilanjutkan dengan tes signifikasi tabel nilai r Product Moment

b.        Mencari Reliabilitas Tes Dengan Rumus Flangan

Rumus ini digunakan untuk mencari reliabilitas tes dengan jalan metode belah dua, tetapi tidak menggunakan jalan korelasi Product Moment seperti rumus Spearman-Brown melainkan masing-masing Standar Devisi untuk masing-masing belahan dan pada skor total. Langkah ini lebih praktis bila dibandingkan dengan mmenggunakan rumus Spearman-Brownn. Adapun langkah-langkahnya adalah sebagai berikut:
1.         Membelah hasil tes menjadi dua, yaitu belahan ganjil dan belahan genap serta skor total.
2.         Mencari SD2 pada belahan ganjil, SD2 pada belahan genap dan SD2 pada skor total
3.         Menghitung besarrnnya reliabilitas tes dengan rumus Flangan sebagai berikut:
Rumus :

r11 =
berdasarkan langkah-langkah  tersebut dapat diketahui:
·           Jumlah skor belahan ganjil (X) = 116; SDx =2,81865, SDx2  menjadi 4,7809
·           Jumlah belahan genap (y) = 93 = SDy = 1,6987, SDy2  menjadi 2,8857.
·           Jumlah skor total (t) = 209; SDt = 3,5349, SDt2

Dengan demikian angka-angka tersebut dapt dimasukkan kedalam rumus reliabilitas tersebut menjadi berikut ini:
r11 = 2        
     = 2 (1
    = 2 (1- 0,61357) = 2 x 0,38643 = 0,773
c.         Mencari Reliabilitas Dengan Rumus Rulon

Cara mencari reliabilitas dengan menggunakan rumus Rulon ini tetap menggunkan bahan dari cara belah dua seperti cara-cara yang digunakan oleh rumus Spearman-Brown dan Flanga. Perbedaannya Spearman-Brown menggunakan Korelasi Product Moment, Flanga dengan mencari Standar Devisi kuadrat untuk skor ganjil, skor genap dan skor total, untuk rumus Rulon menggunakan kuadrat dari Devisi nilai ganjildan nilai genap dan standar devisi kuadrat dari skor total.


BAB VII
ANALISIS ITEM SOAL
A.           VALIDITAS BUTIR

Yang dimaksud dengan butir adalah butir tes dapat menjelaskan fungsi pengukuran dengan baik, hal ini dapat diketahui dari seberapa besar peran yang diberikan oleh butir soal tes tersebut dalam mencapai keseluruhan skor seluruh tes.

B.            MENENTUKAN TINGKAT KESELURUHAN ITEM

Item yang baik adalah item yang tingkat kesukarannya dapat diketahui tidak terlalu sukar dan tidak terlalu mudah. Sebab tingkat kesukaran item itu memiliki korelasi dengan daya pembeda.

C.           MENENTUKAN KEMAMPUAN DAYA PEMBEDA

Item yang baik sebagaimana dijelaskan dihaalaman terdahulu adalah item yang mampu membedakan antara kemampuan siswa yang pandai dan siswa yang rendah. Adapun rumus untuk mengetahui daya pembeda adalah:

DP =
Keterangan:
DP = adalah daya pembeda yang ingin dicari
n    = besarnya sampel darisalah satu kelompok

D.           MENGHITUNG TK DAN DP SEKALIGUS

Untuk menghitung TK dan DP sekaligus, adapat diambil contoh sebuah tes mata pelajaran PMP diujikan dengan langkah-langkah sebagai berikut:

a.         Menyusun rangkaian nilai berdasarkan tinggi rendahnya skor pada siswa
b.        Memberikan jawaban terhadap 130 siswa dan memberikan skor pada siswa
c.         Menyusun tabel kerja untuk mencari TK dan DP

E.            MENGANALISIS PENGGUNAAN DDISTRAKTOR

Dalam setiap obyektif selalu digunakan alternatif jawaban yang mengandung dua unsur sekaligus, yaitu jawaban yang tepat dan jawaban yang salah sebagai penyesat (distraktor). Tujuan pemakaian distraktor ini adalah mengecohkan mereka yang kurang mampu (tidak tahu) untuk dapat dibedakan debngan yang mampu.

F.            MENGHITUNG TK DAN DP MENGGUNAKAN TABEL FAN

Beberapa cara yang dikenalkan tersebut  diatas praktis bila digunakan untuk melakukan analisis item dalam jumlah itu cukup banyak cara ini tidak efisien, sebab untuk mencai TK dan DP item masi memerlukan beberapa kali hitungan sehingga memakan waktu yang cukup lama



Tidak ada komentar:

Posting Komentar