Syarat Pokok Tes Yang Baik

Unduh sebagai docx, pdf, atau txt
Unduh sebagai docx, pdf, atau txt
Anda di halaman 1dari 32

RESUME EVALUASI PEMBELAJARAN DI SD

TENTANG

SYARAT POKOK TES YANG BAIK

OLEH :

HAVIZA IZZATUL QAWIYYAH (18129264)

18 BKT 10

DOSEN PEMBIMBING :

Dra. RIFDA ELIYASNI, M. Pd

PENDIDIKAN GURU SEKOLAH DASAR


FAKULTAS ILMU PENDIDIKAN
UNIVERSITAS NEGERI PADANG
2020
SYARAT POKOK TES YANG BAIK

Salah satu bentuk evaluasi yang sering digunakan untuk mengetahui


apakah hasil belajar telah sesuai dengan tujuan pembelajaran adalah dengan
memberikan tes. Dengan kata lain, untuk mengukur keberhasilan dari suatu proses
belajar dan mengajar adalah dengan melalui sebuah tes.
Tes mempunyai banyak fungsi misalnya sebagai alat diagnosa kelemahan
siswa dari materi yang telah diberikan (diagnostic test), sebagai alat untuk
mengetahui pengatahuan/ kemampuan awal (pre-test), sebagai alat untuk
mengetahui pencapaian hasil belajar (post-test/ achievement test), hingga sebagai
alat untuk membuat keputusan misalnya lulus atau tidaknya peserta didik.
Mengingat pentingnya sebuah tes tersebut, apalagi apabila digunakan
sebagai alat pengambil keputusan, tentunya diperlukan sebuah tes yang baik. Tes
yang baik harus memenuhi syarat yaitu sebagai berikut
1. Validitas
a. Pengertian Validitas
Menurut Sugiyono (2012:121) menyatakan bahwa “Valid berarti
instrumen tersebut dapat digunakan untuk mengukur yang seharusnya
diukur”. Sedangkan menurut Ruseffendi (2006:125) menyatakan bahwa
“validitas berkenaan dengan ketetapan test itu mengukur apa yang
semestinya diukur”.
Suatu skala atau instrumen pengukur dapat dikatakan mempunyai
validitas yang tinggi apabila instrumen tersebut menjalankan fungsi
ukurnya, atau memberikan hasil ukur yang sesuai dengan maksud
dilakukannya pengukuran tersebut. Makin tinggi validitas suatu instrumen,
makin baik instrumen itu untuk digunakan. Tetapi perlu diingat bahwa
validitas alat ukur itu tidaklah dapat dilepaskan dari kelompok yang
dikenai instrumen itu karena berlakunya validitas tersebut hanya terbatas
pada kelompok itu atau kelompok lain yang kondisinya hampir sama
dengan kelompok tersebut. Oleh karena itu, suatu alat ukur yang valid
untuk kelompok belum valid untuk kelompok lain. (Muri, 2014:235)
Jika data yang dihasilkan dari sebuah instrumen valid, maka dapat
dikatakan bahwa instrumen tersebut valid, karena dapat memberikan
gambaran tentang data secara benar sesuai dengan kenyataan atau keadaan
sesungguhnya.
Jadi dapat disimpulkan, Validitas adalah suatu ukuran yang
menunjukkan tingkat-tingkat kevalidan sesuatu instrument. Suatu
instrumen dikatakan valid apabila memberikan hasil ukur yang sesuai
dengan maksud dilakukannya pengukuran tersebut. Makin tinggi validitas
suatu instrumen, makin baik instrumen itu untuk digunakan.

b. Bentuk Validitas
Muri (2014:235-237) menjelaskan terdapat empat bentuk validitas yaitu
sebagai berikut
1) Validitas Isi
Validitas isi merupakan modal dasar dalam suatu instrument
penelitian, sebab kesahihan/validitas isi akan menyatakan keterwakilan
aspek yang diukur dalam instrument. Validitas isi dipandang dari segi
isi instrument yang diberikan. Dengan demikian, dapat dikatakan
bahwa validitas isi ini lebih menekankan pada keabsahan instrument
yang disusun dikaitkan dengan domain yang ingin diukur. Sehubungan
dengan itu, spesifikasi apa yang ingin diukur harus tergambar dengan
jelas dan tuntas.
Misalnya, guru ingin mengetahui tentang hubungan motivasi
berprestasi siswa hasil dalam belajar. Guru itu terlebih dahulu harus
memahami konsep atau konstruk motivasi berprestasi secara mendasar,
sehingga dapat membedakannya dari konsep lain, seperti motivasi
belajar, minat belajar, atau kebiasaan belajar.
Agar dalam menyusun instrument yang baik untuk penelitian dan
mempunyai validitas isi yang tinggi, maka guru hendaklah
memperhatikan hal-hal sebagai berikut:
a) Menyusun kisi-kisi perilaku, pengetahuan maupun sikap yang
mencakup keseluruhan isi yang akan diteliti
b) Mengambil sampel dari perilaku, pengetahuan maupun sikap
berdasarkan kisi-kisi yang telah disusun
c) Susun instrument dengan selalu memperhatikan cara-cara
penyusunan instrument yang baik dan benar
Timbang instrument yang telah siap itu kepada seorang ahli di
bidang yang diteliti untuk mendapatkan tanggapan dan komentar serta
saran-saran yang perbaikan. Selanjutnya analisis dengan statistic.
Jadi dapat disimpulkan, validitas isi merupakan ukuran yang
digunakan untuk mengetahui ketepatan dari suatu instrumen bila
ditinjau dari aspek isi (konten/materi). Pengecekan validitas isi dapat
dilakukan dengan cara membandingkan isi (konten/materi) tes dengan
komponen-komponen yang harusnya diukur.
2) Validitas Konstruksi (Susunan)
Konstruksi merupakan konsep atau rekaan yang disusun menurut
pandangan perorangan, seperti ketelitian, intelegensi, kreativitas, dan
sebagainya. Instrument mempunyai validitas yang tinggi dalam
kreativitas kalau instrument itu dapat membedakan orang yang rendah
atau dapat membedakan individu yang satu dan yang lainnya dalam
kreativitas. Dengan kata lain apakah bagian yang penting di dalan
suatu konsep, dinyatakan atau merupakan bagian dari suatu instrument
yang disusun.
Jadi dapat disimpulkan, sebuah tes dikatakan memenuhi validitas
konstruksi yang baik apabila susunan tes tersebut memenuhi syarat-
syarat penyusunan tes yang baik.
3) Validitas Prediktif
Validitas prediktif merupakan ketepatan suatu instrument dalam
meramalkan atau memprediksi sesuatu untuk masa datang, atau
merupakan derajat kesesuaian antara hasil pengukuran dan kinerjanya
dimasa datang dalam aspek yang diukur.
Jadi dapat disimpulkan, validitas prediktif digunakan untuk
mengetahui ketepatan dari tes dimasa mendatang (contohnya untuk tes
UAS).
4) Validitas Pengukuran Serentak
Validitas ini menggambarkan seberapa jauh hubungan suatu skor
instrument dengan instrument lain yang dipandang sebagai kriteria
yang dilaksanakan pada waktu yang sama hampir bersamaan. Tingkat
hubungan itu akan menunjukkan ketetapan instrument yang disusun
sebagai alat pengumpul data dalam penelitian.
Jadi dapat disimpulkan, suatu tes dilaksanakan secara bersamaan,
lalu dilihat hubungan antara tes-tes tersebut yang digunakan sebagai
alat pengumpulan data.

Sedangkan menurut Ruseffendi (2006:125-126) ada beberapa jenis


validitas, antara lain:
1) Validitas ramal (predictive validity)
Kita tidak mungkin dapat mengukur hasil kemampuan seorang
dimasa yang akan datang dari sekarang. Tetapi hasil kemampuan
sekarang dapat dipergunakan sebagai alat ramal hasil kemampuan
dimasa yang akan datang.
2) Validitas bersama (concurrent validity)
Andaikan seorang anak nilainya baik dalam tes tertentu dan baik
pula dalam tes lainnya. Andaikan pula sudah diketahui bahwa tes
pertama itu sudah menjadi alat peramal yang baik baginya. Maka hasil
tes yang lain itu juga dapat dianggap sebagai alat permala baik
didasarkan pada tes pertama.
3) Validitas isi (content validity)
Suatu tes dikatakan valid dalam isi bila test itu betul-betul
mengukur aspek-aspek isi yang ditestkan. Maksudnya ialah apa-apa
yang diukur oleh test itu sesuai dengan yang kita ukur baik aspek-
aspeknya, tujuannya maupun luasnya.
4) Validitas susun (construct validity)
Validitas susun ialah yang berkenaan dengan pengukuran atribut
tertentu, seperti bakat tertentu.

Menurut Sudijono (2011:78) terdapat berbagai jenis validitas, yaitu


sebagai berikut
1) Pengujian Validitas Tes Secara Rasional
Validitas rasional adalah validitas yang diperoleh atas dasar hasil
pemikiran, validitas yang diperoleh dengan berpikir secara logis yaitu
a) Kesahihan isi (content validity)
Kesahihan ini menunjukkan kepada sejauh mana suatu tes mampu
mengukur sampel bahan ajar dan atau perubahan prilaku hasil
belajar secara representatif. Artinya sejauh mana butir butir soal
yang di kembangkan menguji apa yang seharusnya di uji
b) Kesahihan konstruk (construct validity)
Kesahihan ini menunjukkan kepada sejauh mana tes dapat
mengukur konstruk yang di maksud. Konstruk merupakan kualitas
psikologi (traits) yang secara teoritis tercakup dalam aspek
perilaku.
2) Pengujian Validitas Tes Secara Empirik
Validitas empirik adalah ketepatan mengukur yang didasarkan
pada hasil analisis yang bersifat empirik. Dengan kata lain, validitas
empirik adalah validitas yang bersumber pada atau diperoleh atas dasar
pengamatan di lapangan yaitu
a) Validitas ada sekarang/bandingan (concurent validity)
Dalam rangka menguji validitas bandingan, data yang
mencerminkan pengalaman yang diperoleh pada masa lalu itu, kita
bandingkan dengan data hasil tes yang diperoleh sekarang ini.
b) Validitas prediksi/ramalan
Validitas ramalan adalah suatu kondisi yang menunjukkan
seberapa jauhkah semua tes telah dapat dengan secara tepat
menunjukkan kemampuannya untuk meramalkan apa yang bakal
terjadi pada masa mendatang.

Dapat disimpulkan bahwa terdapat beberapa jenis validitas antra lain


validitas yang diuji secara rasional dan empirik. Dalam uji validitas secara
rasional terdapat didalamnya jenis validitas isi dan konstruk sedangan
dalam uji validitas secara empiric terdapat didalamnya validitas ada
sekarang/bandingan dan validitas ramalan.
c. Cara Menentukan Validitas Instrumen
Menurut Muri (2014:238-241) ada beberapa cara yang dapat digunakan
untuk menentukan validita instrument yaitu sebagai berikut:
1) Membandingkan tes/instrument dengan kriteria
Dengan mencari korelasi kedua isntrumen itu secara keseluruhan
maka akan didapat harga r-nya. Apabila harga r (korelasi) itu setelah
dibandingkan dengan harga r table ternyata signifikan, maka dapat
dikatakan bahwa tes/instrument yan disusun sejajar dengan kriteria.
Rumus yang digunakan antara lain
a) Kalau N kelompok uji coba > 30 orang dan data yang dihasilkan
adalah data interval, maka product moment correlation, dapat
digunakan salah satu rumus sebagai berikut
N ∑ XY −(∑ X )(∑ Y )
Rxy =
√ {N ∑ X 2¿ (∑ X 2)}{ N ∑Y 2¿ (∑Y )2

Keterangan :

rxy = kioefisien korelasi X dengan variabel Y

x = selisih skor X dengan rata rata X

y = selisih skor Y dengan nilai rata rata Y

b) Spearman rank order correlation. Rumus ini digunakan apabila N


kecil dan data ordinal
6 ∑ D2
Rho = 1 -
N ( N 2−1)

Keterangan:

D = Deviasi urutan tiap responden pada tes yang disusun dengan


tes kriteria

N = Jumlah responden

2) Validitas butir soal (Analisis butir)


Validitas keseluruhan soal berkualitas erat dengan validitas tiap
butir soal. Apabila tiap butir soal mempunyai validitas yang tinggi
dalam hubungannya dengan skor total, maka instrument itu pada
akhirnya juga akan mempunyai validitas yang tinggi.
Beberapa rumus yang digunakan yaitu
a) Product moment correlation
Dalam hal ini skor tiap butir soal untuk tiap responden
dikorelasikan dengan skor tiap total responden yang bersangkutan.
Hasil yang dapat dibandingkan dengan nilai r pada table Product
moment correlation.
Sebagai contoh, kita telah menguji coba instrumen tes hasil
belajar (yang akan digunakan dalam penelitian), lalu kita ingin
menganalisis tingkat validitasnya, tentunya untuk mengukur
tingkat validitasnya diperlukan instrumen pembanding. Sebagai
instrumen pembanding dapat diambil dari berbagai skor hasil
belajar lainnya. 
Pada tabel di bawah ini, diperoleh skor rata-rata tes formatif
(alat pembanding, X) dengan skor dari hasil uji coba (Y).

No. Subjek X Y X2 Y2 XY
1 8,70 90,00
2 7,90 74,00
3 6,50 70,00
4 5,60 40,00
5 6,20 50,00
6 7,50 74,00
7 6,30 60,00
8 6,50 60,00
9 7,50 76,00
10 8,30 80,00
11 6,50 90,00
12 8,70 80,00
13 7,90 72,00
14 7,70 70,00
15 5,60 50,00

Keterangan :
X = skor hasil belajar (pembanding)
Y = skor belajar hasil uji coba
Sesuai tuntunan rumus Korelasi Product Moment dengan
Angka Kasar, kita lengkapi pehitungannya pada tabel seperti
diperlihatkan pada gambar di bawah ini

Berdasarkan data-data hasil perhitungan berdasarkan


variabel-variabel tersebut, selanjutnya perhitungan berdasarkan
rumus Korelasi Product Moment dengan Angka Kasar, diperoleh
yaitu
N ∑ XY −(∑ X )(∑ Y )
Rxy =
√ {N ∑ X 2¿ (∑ X 2)}{ N ∑Y 2¿ (∑Y )2

15∑7582,40−(∑107,40)(∑1036)
Rxy = }{15 ∑74512¿ (1036)2¿
√ {15 ( 784,48 )−(107,40)2 ¿

2469,60 2469,60
Rxy =
√ (232,44−44384)
= 3211,95

Rxy = 0,77
Dengan demikian Koefisien korelasi diperoleh (rxy) = 0,77.
Nilai koefisien korelasi dikatakan baik atau tinggu atau sempurna
bila mendekati angka 1, jadi validitas 0,77 ditafsirkan validitas
tinggi. 
b) Korelasi Biserial
Rumus yang digunakan yaitu:

mp −mt p
γ pbi =
SDt √ q

Keterangan:

γ pbi = koofisien korelasi biserial

m p = skor rata-rata hitung dari siswa yang menjawab betul

m t = Skor rata-rata dari skor total

SD t = Standar Deviasi dari skor total

p = proporsi siswa yang menjawab benar

q = proporsi siswa yang menjawab salah (q =1-p)

Langkah-langkah yang ditempuh dalam penggunaan rumus ini


sebagai berikut

1. Buat tabel persiapan dengan menentukan siapa yang menjawab


benar dan diberi nilai 1 dan yang menjawab salah nol. Tentukan
pula jumlah benar untuk tiap responden.

Butir soal nomor satu


Sampel Skor nomor satu Skor total
A 1 7

B 0 5

C 0 5

D 1 8
E 1 7

F 1 7

G 1 6

H 1 6

I 1 7

J 1 6

2. Tentukan Responden yang menjawab benar butir soal diatas.


Dalam hal ini: A, B, C, D, E, F, G, H, I, J
3. Jumlahkan skor total masing-masing responden yang menjawab
butir soal itu dengan benar dan kemudian cari mean skor dari
subjek yang menjawab betul (Mp)
7+8+7+ 7+6+6+ 7+6
Mp =
8
= 6,75
4. Jumlahkan semua skor total responden dan kemudian cari mean
total (Mt)
7+5+5+8+ 7+7+6+ 6+7+6
Mt =
10
= 6,4
5. Cari SD total
∑X ∑X
SD = √ – [ ]
N N
∑X = 418
∑X = 64
418 64
SD = √ – [ ]
10 10
= √0,84
= 0,92
6. Tentukan proporsi responden yang menjawab butir itu dengan
benar dan salah
8
p=
10
= 0,8
q = 1 – 0,8 = 0,2
7. Masukkan dalam rumus
mp −mt p
γ pbi =
SDt q√
6,75−6,4 0,8
¿
0,92 0,2√
0,35
= 0,92

= 0,76
2. Reliabilitas
a. Pengertian Reliabilitas
Ruseffendi (2006:16) mengemukakan bahwa “realiabilitas suatu tes ialah
ukuran ketetapan test itu mengukur apa yang semestinya harus diukur”.
Sedangkan menurut Muri ( 2014:242) reliabilitas merupakan “konsistensi
atau kestabilan skor suatu suatu instrument penelitian terhadap individu yang
sama, dan diberikan dalam waktu yang berbeda”.
Jadi dapat disimpulkan, reliabilitas adalah dapat diartikan sejauh mana
hasil suatu pengukuran dapat dipercaya, konsisten dan teliti.

b. Faktor Yang Memengaruhi Reliabilitas


Banyak faktor yang mempengaruhi realiabilitas instrument, tetapi di
antara faktor itu lebih menonjol yaitu
1) Konstruksi butir (soal) yang tidak tepat, sehingga tidak dapat
mempunyai daya pembeda yang kuat
2) Panjangnya suatu instrument akan dapat menurunkan realiabilitas
suatu instrument.
3) Penialaian yang subjektif pada subjektif pada waktu membuat
scoring
4) Ketidaktepatan waktu yang disediakan dalam menyelesaikan suatu
instrument
5) Tingkat kemampuan yang ada dalam kelompok itu
6) Panjangnya instrument yang diberikan makin panjang instrument itu
makin kurang telitilah dalam pengisiannya
7) Penyebaran kelompok responden

Faktor-faktor yang lain yang juga mempengaruhi reliabilitas instrument


evaluasi diantaranya sebagai berikut

1) Panjang Tes
Semakin panjang suatu tes evaluasi, semakin banyak jumlah item
materi pembelajaran diukur. Ini menunjukkan dua kemungkinan yaitu
a) Tes semakin mendekati kebenaran.
b) Dalam mengikuti tes semakin kecil siswa menebak. Berarti akan
semakin tinggi nilai koefisien reliabilitasnya.
2) Penyebaran Skor
Koefisien reliabilitas secara langsung dipengaruhi oleh bentuk
sebaran skor dalam kelompok siswa yang diukur. Semakin tinggi
sebaran, semakin tinggi estimasi koefisien reliabilitas. Hal ini terjadi
karena posisi skor siswa secara individual mempunyai kedudukan
sama pada tes-retes lain, sebagai acuan.
3) Kesulitan Tes
Tes normative yang terlalu mudah atau terlalu sulit untuk siswa,
cenderung menghasilkan skor reliabilitas rendah. Fenomena tersebut
akan menghasilkan sebaran skor yang cenderung terbatas pada salah
satu sisi. Untuk tes yang terlalu mudah skor jawaban siswa akan
mengumpul pada sisi atas, misalnya 9 atau 10. Untuk tes yang terlalu
sulit, skor jawaban siswa akan cenderung mengumpul pada ujung
sebaliknya, atau rendah. Dua gejala tersebut mempunyai kesamaan
yaitu bahwa perbedaan diantara individu adalah kecil dan cenderung
tidak relevan
4) Objektivitas
Yang dimaksud dengan objektif yaitu derajat dimana siswa dengan
kompetensi sama, mencapai hasil sama. Ketika prosedur tes evaluasi
memiliki objektifitas tinggi, maka reliabilitas hasil tes tidak
dipengaruhi oleh prosedur teknik penskoran. Item tes skor objektif
yang dihasilkan tidak dipengaruhi petimbangan atau opini dari seorang
evaluator.

c. Pengukuran Test Perolehan Reliabilitas


Menurut Rueffendi (2006:126-127) test perolehan test dapat diukur
dengan sebagai berikut
1) Reliabilitas test-retest
Realiabilitas test-retest terjadi bila test itu dilakukan lagi setelah
test pertama dilakukan. Korelasi hasil kedua test itu dapat dipandang
sebagai realibitas test itu. Sudah pasti ada penambahan dari yang
ditest itu ketika test kedua itu dilakukan meskipun mungkin
perubahannya kecil; sebab itu bertambah sesuai dengan bertambahnya
umur.
2) Reliabilitas test parallel
Test dapat dibuat dalam 2 bentuk yang parallel. Karena itu kedua
tes itu sesungguhnya dapat diselenggarakan pada saat yang
bersamaan. Reliabilitas test adalah tingkat kesesuaian dari kedua test
itu.
3) Reliabilitas test tengahan
Test dibagi atas dua bagian yang berimbang, misalnya sebagian
terdiri dari nomor-nomor ganjil, sebagian lagi terdiri dari nomor-
nomor genap. Korelasi dari hasil kedua test bagian adalah reliabilitas
tes itu.

d. Cara Menentukan Reliabilitas


1) Metode tes ulang (test- retest method)
Penentuan reliabilitas suatu instrument dengan metode ulangan
ialah dengan memberikan instrument yang sama kepada sejumlah
subjek yang sama pada waktu yang berbeda, tetapi dalam kondisi
pengukuran yang relative sama. Kesukaran yang sering ditemui yaitu
menciptakan suatu kondid yang hamper sama dalam situasi yang
berlainan. Kondisi disini mencakup arti luas. Umpama waktu pagi
dengan dore hari akan memberikan kondisi yang berbeda, demikian
juga dengan motivasi maupun semangat subjek.
Banyak teknik yang dapat digunakan untuk menentukan korelasi
antara hasil tes/instrument pertama dan hasil instrument yang sama
dengan kedua kalinya. Salah satu cara yang dapat digunakan ialah
product moment correlation, apabila data yang dihasilkan data
interval. Adapun formula yang digunakan yaitu sebagai berikut
rxy = ∑xy
√(∑ x2) (∑ y2)
Keterangan :
rxy = koefisien korelasi antara skor X dan skor Y (tes pertama
dan tes kedua)
∑xy = jumlah perkalian x dan y
∑x = jumlah deviasi dari X
∑y = jumlah deviasi dari Y
∑ x2 = jumlah kuadrat deviasi masing-masing skor X dari rata-
rata hitung X
∑ y2 = jumlah kuadrat deviasi masing-masing skor Y dari rata-
rata hitung Y
2) Metode belah dua (split half method)
Dalam pelaksanaannya, suatu instrument diberikan kepada
sekelompok responden kemudian skor yang didapat oleh masing-
masing individu dibagi dua, artinya semua nomor genap dijumlahkan
skornya, demikian juga untuk nomor ganjil, sehingga seorang
responden mendapatkan dua kelompok nilai. Selanjutnya cari korelasi
dari kedua kelompok itu untuk masing-masing responden. Salah satu
diantaranya dengan menggunakan “rank order correlation” yang
dikemukakan oleh Spearman. Apabila rumus ini yang dipakai berarti
instrument yang akan digunakan akan diubah menjadi data ordinal.
Formula untuk rumus ini yaitu

Rho = 1 - 6∑ D2
N(N2-1)

(digunakan apabila N kecil)

Keterangan :

Rho (rs) = korelasi

N = jumlah subjek penelitian

D = perbedaan R1-R2

Apabila N besar gunakanlah formula lain seperti pearson product


moment correlation. Untuk dapat mengetahui reliabilitas instrument
secara keseluruhan, maka pada langkah berikutnya hendaklah dicari
lagi korelasinya dengan menggunakan Spearman-Brown formula
sebagai berikut

rxx = 2r X1X2

1+ r X1X2

Keterangan :

r X1X2 = korelasi skor genap dan ganjil

rxx = reliabilitas instrument secara keseluruhan

Contoh :

No Responden R1 R2 D (R1- D2 (D2)


R2)
1. A 1 2 -1 1
2. B 3 1 2 4
3. C 4 3 1 1
4. D 6 5 1 1
5. E 7 8 1 1
6. F 8 6 2 4
7. G 9 7 2 4
8. H 2 9 -7 49
9. I 5 4 1 1
10. J 10 10 0 0
11. K 11 11 0 0
Jumlah 0 66

Korelasi menurut Spearman yaitu:

Rho = 1- 6 x 66

11(121-1)

= 1- 396

1320

= 1 – 0,30

= 0,70

Reliabilitas instrument yaitu:

rxx = 2 x 0,70

1+ 0,70

= 1,40

1,70

= 0,82

Dari koefisien reliabilitas diatas (0,82) dapat disimpulkan bahwa


alat ukur tersebut cukup reliabel.

Adapun pendapat Flangan kurang sependapat dengan Speraman


Brown, yang mengganggap bahwa varian untuk masing-masing
kelompok sama, karena itu ia menggunakan formula sebagai berikut
rtt = 2
1- σ2 t + σ2 2
σ2 t

Keterangan :

rtt = korelasi keseluruhan

σ2 t = varian skor bagian pertama (add)

σ2 2 = varian skor kedua (ganjil)

σ2 t = varian keseluruhan skor

Disamping menggunakan formula diatas, konsistensi internal dapat


pula diberi dengan Gutmann dan Kuder-Richardson, formula KR20
sebagai berikut
n
Rn = SD2t - ∑ pq
n-1

SD2 t

Keterangan :

rtt = koefisien reliabilitas kesuluruhan instrument

n = jumlah butir dalam keseluruhan instrument

SD t = standar deviasi dari keseluruhan instrument

p = proporsi jumlah responden (dalam persen) yang menjawab tiap


butir dengan benar

q = proporsi jumlah responden (dalam persen) yang gagal menjawab


tiap instrument

∑ pq = jumlah perkalian p dan q untuk semua butir

Adapun KR21 adalah sebagai berikut

n 1 – M (n-M)

n-1 n SD2t
KR21 =

Atau

KR21 = n σ2 t –npq

n-1 σ2 t

Contoh :

Mahasiswa sebanyak 10 orang diberikan ujian dari nomor 1 samapai


nomor 6. Bentuk ujiannya pilihan jamak. Hasilnya sebagai berikut:

No Kunci Jawaban Mahasiswa Proporsi


Soa A B C D E F G H I J p q pq
l
1. c a b c c d c c c d c 0, 0,4 0,24
6
2. b a c c b b b b b d c 0, 0,5 0,25
5
3. a a a b b a a a a c a 0, 0,3 0,21
7
4. d d a b d d d d d d d 0, 0,2 0,16
8
5. c c c b c c c c c c d 0, 0,2 0,16
8
6. d d d a a d d d c c d 0, 0,4 0,24
6
∑pq 1,26

A B C D E F G H I J
Skor 2 1 0 2 3 3 3 2 1 2 ∑X
genap =
(X) 19
Skor 2 2 1 2 2 3 3 3 1 2 ∑Y
ganjil =
(Y) 21
X+Y 4 3 1 4 5 6 6 5 2 4
N = 10

M = ∑(X+Y) = 40 =4

N 10

∑X2 = 45 ∑Y2= 49 ∑(X+Y)2=184

184 ( 40 ) 2
Varians (SD2t) =
10
- 10

18,4 – 16 =2,4

Jumlah item (n) = 6

6 2,4-1,26
KR20 =
6−1
2,4

1,14
1,2 x
2,4

1,2 x 0,475 = 0,57

6 1- 4(6-4)
KR21 =
5
x
6x
2,4

= 1,2 x 8

14,4

= 1,2 x (1-0,56)

= 1,2 x 0,44
= 0,528

KR21 lebih baik digunakan apabila tingkat kesukaran tidak


jauh berbeda antara butir soal yang terdapat dalam tes. Tetapi
angka koefisien yang ditujukan oleh KR21 selalu lenih rendah.
Kalua tingkat kesukaran butir soal yang terdapat dalam ujian atau
tes itu berbeda antara yang satu dan yang lain maka sebaiknya
digunakan KR20 bukan KR21.

3) Metode bentuk paralel (equivalent)


Metode bentuk paralel yaitu dua buah tes yang mempunyai
kesamaan, tujuan, tingkat kesukaran dan materi, tetapi berbeda butir
soal nya. Misalnya tes matematika seri A di cari reliabelnya dengan
tes matematika seri B. kedua soal tersebut di berikan kepada siswa
yang sama dalam waktu yang sama. Pelaksanaan nya bisa di lakukan
dengan waktu yang berselang seling. Skor yang di dapat dengan tes
seri A di korelasikan dengan skor yang di dapat dengan tes seri B.
indeks korelasi yang di dapat dengan cara ini adalah koefisien
ekuivalen.
Pencarian reliabilitas tes dengan metoda paralel dan tes ulang
dapat di gunakan kedua macam rumu produk moment. Sedangkan
untuk metoda belah dua mencari reliabelitas tes dengan produk
moment hasilnya baru berarti setengah reliable dan harus dilanjutkan
dengan pencarian korelasi keseluruhan tes dengan menggunakan
rumus

r11= _2..r ½ ½_

[1+r ½ ½ ]

Keterangan:

r11= reliabilitas seluruh tes

r ½ ½ = reliabilitas ½ dari tes, yaitu reliable yang sudah di cari dengan


rumus produk moment.
kriteria tingkat reliabiitas tes sama dengan criteria yang di gunakan
pada criteria validitas tes.

3. Praktibilitas (practibility)
Sebuah  tes  disebut memiliki  praktibilitas  yang  tinggi apabila  tes tersebut
bersifat praktis, Tes yang praktis adalah tes yang :
a. Mudah dilaksanakan, tidak menuntut peralatan yang banyak dan
memberi kebebasan kepada siswa  mengerjakan terlebih  dahulu bagian
yang dianggap mudah. Karena bersifat  sederhana dalam arti  tidak 
memerlukan peralatan  yang  sulit pengadaannya
b. Mudah pemeriksaannya artinya bahwa tes itu dilengkapi kunci jawaban
maupun pedoman skoringnya. Dilengkapi dengan petunjuk-petunjuk
yang jelas sehingga dapat diberikan atau diawali orang lain.
c. Dilengkapi  dengan petunjuk-petunjuk  yang  jelas  sehingga  dapat 
diberikan atau  diawasi  oleh  orang  lain.

4. Objektivitas
a. Pengertian Objektivitas
Alice Crow, menguraikan masalah objektivitas sebagai
berikut :“The Administrator must follow exact procedure in administering
the test, scoring responces, and interpreting resuls. Otherwise, data
obtained through its administration by different persons, lack employing
his own method of procedure, are not comparable… …these direction
must be understood clearly and without any deviations”.
Uraian ini menunjukkan bahwa setiap test itu haruslah
dikonstruksikan dengan pertimbangan yang semasak-masaknya. Haruslah
jelas apa yang ditetapkan sebagai jawaban dari item-item test dengan
bentuk item mana item itu cocok. Harus pula ditetapkan lebih dahulu
procedure di dalam menilai jawaban-jawaban dan bagaimana pula
menganalisa hasil-hasil tersebut. Setelah itu dilakanakan/ditetapkan maka
seseorang pelaksana atau pembuat test harulah mengikuti proseure-
proedure yang telah ditetapkan itu dengan tidak mengikutsertakan
pertimbangan lain lagi yang sama sekali tidak berhubungan dengan test
yang dibuat.
Masalah yang disebutkan di atas itu terutama berlaku kepada
bentuk test yang informal, yaitu test yang belum distandard. Test yang
distandard umumnya telah mempunyai pedoman jawaban yang benar.
Cara scoring dan mempunyai norma untuk interpretasi. Namun demikian
perlu juga dijaga bahwatest yang distandard pun mungkin terjadi
penyimpangan dalam hal scoring. Petugas scoring yang kurang
memahami rumus scoring yang telah ditetapkan atau kurang bersiat jujur
karena satu dan lain hal akan mengurangi sifat objektivitas ini.
Sehingga dapat ditarik kesimpulan, objektif  berarti  tidak adanya
unsur pribadi  yang mempengaruhinya bukan subjectif.  Sebuah tes
dikatakan memiliki objectivitas apabila  dalam melaksanakan tes tidak 
ada faktor subjectif yang mempengaruhi terutama dalam sistem skornya.
Apabila dikaitkan dengan reliabilitas maka objectivitas menekankan
ketetapan (consistency) pada sistem skoring, sedangkan reliabilitas
menekankan ketetapan dalam hasil tes.
b. Faktor-faktor yang berhubungan dengan syarat objektivitas
Ada beberapa faktor  atau masalah yang mempengaruhi objektivitas  dari
sesuatu tes yaitu 
1) Pengkonstruksian test
Test informal sering dikonstruksikan tidak memenuhi langkah-
langkah yang seharusnya dilaksanakan. Item-item adalah dibuat saja.
Dalam rangka achievemen test sering seseorang membuat test hanya
berdasarkan bahan pelajaran apa yang diingatnya saja, tidak memakai
buku sumber yang sekaligus merupakan buku wajib/pegangan dalam
mata pelajaran sebenarynya masih kurang baik, mengingat bahwa
yang akan di test itu meliputi skill dan attitude dari murid. Dengan
hanya mempedomani buku itu saja maka terungkaplah hanya masalah
penguasaan murid terhadap bahan pelajaran yang diberikan
(knowledge).
Oleh karena itu buku wajib/pegangan guru, serta tujuan
instruksional khusus dari setiap pelajaran, merupakan pedoman yang
harus digunakan dalam mengkonstruksi pelajaran, merupakan
pedoman yang harus digunakan dalam mengkonstruksikan item-item.
2) Penentuan jawaban
Masalah yang kedua ini penting ditekankan dalam bentuk test
essay. Guru harus lebih dahulu menetapkan jawaban-jaaban yang
dituntut dari setiap soal yang akan ditanyakan. Dalam penentuan
jawaban-jawaban yang dianggap benar ini, harus pula ditentukan
luasnya/dalamnya jawaban yang diminta. Mungkin saja jawaban yang
diminta lebih dari satu macam. Untuk itu harus ditentukan terlbih
dahulu, urutan pentingnya atau urutan tepatnya jawaban yang
bermacam-macam itu.
Karena masalah ini berhubungan erat dengan bentuk dan susunan
kalimat dari setiap soal. Salah satu hal yang perlu diingat ialah
menghindarkan kata-kata yang meragukan. Objektipun mungkin
sering terjadi apabila kalimat/ kemungkinan jawaban yang
dicantumkan kurang tepat/meragukan.
3) Penentuan nilai.
Masalah penentuan nilai sangat erat hubungannya dengan
penentuan jawaban. Yang pertama haruus ditentukan ialah bentuk
nilai yang diberikan, apakah nilai dalam bentuk angka atua nilai dalam
bentuk rating. Nilai bentuk angka sebaiknya diberi jarak 0 sampai
dengan 100 atau 0 sampai dengan 10.
Yang perlu mendapat perhatian dalam penentuan nilai ini adalah
tingkat kesukaran item - item. Maksudnya bahwa besarnya nilai
bergantung kepada tingkat kesukarannya setiap item. Bila hal ini telah
didistribusikan hendaknya direncanakan juga pendistribusian nilai
untuk setiap kemungkinan jawaban.
Benarnya jawaban dalam essay secara umum dapat dibagi tiga
macam yaitu : benar, mendekati benar dan salah – hal ini terutama
bagi soal yang menghendaki penguraian. Dalam soal bidang studi
ilmu pasti harus dipertimbangkan pendistribusian nilai untuk proses
perhitungan yang salah tetapi jawaban akhir benar dan proses
perhitungan yang benar tetapi jawaban akhir salah.
Dengan adanya penentuan nilai untuk jawaban –
jawaban yang telah ditentukan, hal ini menghindarkan terjadinya
pengaruh dari sipenilai. Dan perlu ditambahkan di sini, seorang
penilai jangan menggantungkan besarnya nilai dengan kebersihan/
baiknya tulisan, kecuali hal ini penting memang merupakan kriteria
test yang dilaksanakan misalnya dalam menulis indah atau dalam
menggambar.
Untuk menghindarkan suatu subjektivitas penilaian, hendaknya
para penilai harus lebih dahulu mengkoreksi diri sendiri apakah
memang pada saat ia memeriksa itu kondisi badan dan psikisnya baik.
Penelitian-penelitian yang dilaksanakan membuktikan bahwa
penilaian suatu hasil test (scoring) hendaknya dilaksanakan pada pagi
hari di mana keadaan kondisi fisik makin baik. gangguan terhadap
suasana waktu menilai hendaknya dihindarkan. Waktu menilai
menuntut suatu ketenangan, dan harus dilaksanakan pada waktu-
waktu khusus dan tertentu. Jangan sampai terjadi seseoranng menilai
pekerjaan murid sambil ia mengerjakan pekerjaan lain. Dengan
singkat dapat disimpulkan bahwa waktu, suasana, kondisi serta situasi
seaktu pemeriksaan pekerjaan murid harus diciptakan sebaik mungkin
sehingga pemeriksaan benar-benar memusatkan perhatian kepada
pekerjaan tersebut.
Bila test itu merupakan test yang dilaksanakan oleh suatu panitia
maka sebaiknya test penilaian harus diadakan.
Dengan melakukan cara : tiga orang memeriksa masing-masing
untuk satu kerja pekerjaan murid, adalah sangat baik. Nilai akhir
adalah nilai rata- rata untuk ketiga orang pemeriksa, dengan catatan
bahwa perbedaan ketiga nilai yang diberikan tidak terlalu besar (pada
EBTANAS SMTP/SMTA pada masa-masa yang lain, perbedaan itu
paling maksimum 2 point dalam jarak nilai 0 s/d 19). Bila terjadi
perbedaan nilai yang terlalu menyolok maka ketiga nilai itu dibatalkan
dan pekerjaan anak dinilai ulang.
4) Analisa Nilai
Dalam buku-buku evaluasi analisa nilai disebut juga interpretasi
score. Seperti yang disebutkan di atas bahwa interpretasi score ini
dalam test kemampuan yang distandard tidak mengalami kesulitan
lagi, karena normal interpretasi, dan kalaupun ada norma,
harusditinjau latar belakang dari tes itu. Untuk latar belakang yang
sangat berbeda perlu adanya peninjauan terhadap norma yang dibuat
dalam manual tes itu.
Dengan mempergunakan teknik-teknik interpretasi score akan
lebih baik dan tepat. Analisa nilai erat hubungannya dengan jenis test,
system analisa pendidikan yang dianut, ungsi test dan keadaan umum
dari yang di test. Penjelasan mengenai ini akan diuraikan pada bab
berikut ini.
c. Teknik analisis butir soal
Pemeriksaan, pemberian nilai dan penafsiran hasil tes berhubungan
dengan penilaian keberhasilan siswa dalam mengikuti pembelajaran yang
telah dilalui. Tinggi rendahnya nilai yang diperoleh murid dipengaruhi
oleh banyak faktor. Salah satu diantaranya adalah perangkat tes. Pada bab
terdahulu telah dibicarakan tentang analisis perangkat tes, mencakup
syarat validitas dan reliabilitas. Validitas dan reliabilitas korelasi
menunjuk kepada valid tidaknya tes atau reliable tidaknya tes yang
bersangkutan. Adanya variasi koeisien menunjuk pula adanya item
yangkurang baik dan ada item yang sudah memadai. Guru perlu
menganalisa butir soal yang kurang baik sehingga berangsur-angsur dapat
didokumentasikan sejumlah soal yang relative lebih bermutu, yang
selanjutnya dapat digunakn pada masa yang akan datang. Analisis objektif
dimaksudkan adalah pemeriksaan butir soal sehubungan dengan teknik
perhitungan tertentu secara eksak. Perhitungan dimaksud adalah
1) Daya pembeda (discrimining power)
Daya pembeda adalah angka yang menunjuk koefisien korelasi
jumlah yang menjawab benar dari kelompok murid yang pandai
dengan jumlah menjawab benar dari kelompok murid yang lemah.
Berikut ini salah satu contoh perhitungan daya pembeda. Contoh
perhitungan ini adalah salah satu teknik perhitungan dari semacam
teknik yang dapat digunakan.
Langkah-langkah untuk menghitung koeisien korelasi adalah
sebagai berikut
a) Susunlah lembar jawaban dimulai dri lembaran jawaban yang
memperoleh skor paling tinggi sampai kepada lembar jaaban yang
memperoleh skor paling rendah.
b) Tentukan kelompok murid yang pandai berdasarkan skor
kelompok murid yang lemah masing-masing 27 % dari seluruh
peserta, jadi 27 % dari atas susunan adalah kelompok pandai dari
27 % dari bawah susunan adalah kelompok lemah, sisa lembar
jawaban (40%) disisihkan dari perhitungan. Penentuan 27 %
menurut ahli Kelley (1393) adalah sampel yang cukup
representative.
c) Selanjutnya dibuat tabel distribusi jawaban masing-masing untuk
kelompok pandai (disingkat H) dan untuk kelompok lemah
(disingkat L), lihat contoh tabel dibawah ini
DISTRIBUSI JAWABAN OLEH KELOMPOK PANDAI

No. Nama Nomor Butir Soal


uru Murid
t
1 2 3 4 5 6 dst
1 Andilala √ √ √ x √ √ dst
2 Sindang x - √ √ x √ dst
3
4
5
6
dst
Jumla jawaban
h
betul
Persentase
jawaban betul
Keterangan :
Tanda √ = jawban betul
X = Jawaban salah
- = tidak dikerjakan

d) Selajutnya dibuat tabel untuk kelompok lemah.


1. Setelah dilakukan pendaftaran jawaban setiap murid pada
setiap nomor, selanjutnya dijumlahkan jawaban betul untu
setiap item dalam setiap kelompok dan seterusnya dihitung
persentase jawaban betul untuk masing-masing nomor soal
dengan memakai rumus
RH
PH = x 100 %
NH
Keterangan :
PH = Persentase jawaban betul untuk kelompok pandai
(percentage high)
RH = Jumlah jawaban betul oleh kelompok pandai
(right high)
NH = Jumlah semua murid dalam kelompok pandai =
72 % dari seluruh peserta (Number Hight)

Rumus diatas adalah untuk menghitung persentase pada


kelompok pandai sedang pada kelompok lemah, primsip
rumus adalah sama yakni
RL
PL = x 100 %
NL
Keterangan :
PL = percentage lower (persentase jawaban betul
oleh kelompok lemah)
RL = Right lower (jumlah jawaban betul oleh
kelompok lemah)
NL = Number lower (jumlah murid dalam
kelompok lemah = 27 % dari seluruh peserta).
2. Hasil perhitungan langkah keempat dipakai sebagai dasar
perhitungan pada format analisis butir soal. Format analisis
butir soal sekaligus untuk keempat menuliskan tingkat
kesukaran soal.

Contoh :

FORMAT ANALISIS BUTIR SOAL


No. Kelompok Kelompok Daya Tingkat
Soal pandai lemah pembeda kesukaran
𝑅𝐻 𝑃𝐻 𝑅𝐿 𝑃𝐿

1
2
3
4
5
6
Dst

Untuk menghitung daya pembeda yaitu koefisien korelasi


dipergunakan tabel flanagen.
Misalkan kita menemukan hal berikut pada tabel distribusi
jawaban
 Jumlah menjawab betul butir soal nomor (1) dari
kelompok pandai adalah 7 orang (𝑅𝐻 = 7)
 Jumlah menjawab betul butir soal nomor (1) dari
kelompok lemah adalah 2 orang ( 𝑅𝐿 = 2)
 Jumlah semua murid dari kelompok pandai (27 % dari
seluruh murid yang dites adalah 14 orang (𝑁𝐻 = 14)

 Jumlah semua murid dari kelompok lemah (27 %


dari seluruh murid yang dites adalah 14 orang (𝑁𝐿 = 14).
Dari data ini akan dapat dicari persentase untuk setiap
kelompok yaitu
RH 7
PH = x 100 % = x 100 % = 50 %
NH 14
RL 2
PL = x 100 % = x 100 % = 14,2 %
NL 14
Dalam mempergunakan tabel flanagen, kita cari angka 50 angka
pada lajur teratas (proportion of correct responses in the upper 27
percent), kemudian kita telusuri ke bawah sampai pada lajur yang
segaris dengan angka 14 yang terdapat pada kolom tegak lurus
(proportion of correct responses in the lower 27 percent), untuk
butir soal nomor (1) ini ditentukan angka 42, dengan demikian
koeisien korelasi item nomor (1) adalah 0,42.

Contoh yang lain adalah


Item nomor (2) mempunyai data sebagai berikut :
𝑅𝐻 = 4 ; 𝑁𝐻 = 12
𝑅𝐿 = 6 ; 𝑁𝐿 = 12
Perhitungan persentase item nomor (2) adalah
RH 4
PH = x 100 % = x 100 % = 33,3 %
NH 12
RL 6
PL = x 100 % = x 100 % = 50 %
NL 12
Karena 𝑃𝐻 lebih dari 𝑃𝐿 maka koefisien korelasinya adalah
negative dac cara menemukan koefisien korelasi item nomor (2)
dilakukan dengan cara berikut : Angka persentase dari kelompok
pandai (𝑃𝐻) kita pakai pada angka tegak lurus di sebelah kiri
sedang angka persentase dari kelompok lemah (𝑃𝐿), kita pakai
lajur angka yang terdapat di tabel.
Untuk data di atas (butir soal-soal) kita temukan angka dalam
tabel sebagai perpotongan garis horizontal angka 33 dan garis
vertical angka 50 adalah angka 17, jadi koefisien korelasi dari
item (2) adalah –0,17.
2) Tingkat kesukaran (Dificulty level)
Tingkat kesukaran butir soal tes ditentukan oleh semua peserta
yang memberi jawaban betul pada kedua kelompok pandai dan lemah.
Rumus yang dipergunakan untuk menentukan tingkat kesukaran soal
adalah
𝑅𝐻+ 𝑅𝐿
P= X 1OO %

𝑁𝐻+ 𝑁𝐿
P = Tingkat kesukaran

𝑁𝐻, 𝑁𝐿,𝑅𝐻 𝑑𝑎𝑛 𝑅𝐿 Sama maksudnya dengan penjelasan yang


terdapat di muka. Bila rumu tersebut dipergunakan dengan data
yang terdapat pada conoth di atas di mana :
Item nomor (1) : 𝑅𝐻 = 7 ; 𝑅𝐿= 2
𝑁𝐻= 14 ; 𝑁𝐿= 14
Item nomor (2) : 𝑅𝐻 = 4 ; 𝑅𝐿= 6
𝑁𝐻= 12 ; 𝑁𝐿= 12
Maka :
 Tingkat kesukaran item nomor (1) adalah :
𝑅𝐻+ 𝑅𝐿
P = X 1OO %

𝑁𝐻+ 𝑁𝐿

Anda mungkin juga menyukai