Advanced Field Epi:Manual 2 - Diagnostic Tests/id

Halaman ini adalah sebuah versi terjemahan dari halaman Advanced Field Epi:Manual 2 - Diagnostic Tests dan terjemahannya telah selesai 59% dari sumber terkini.

Bahasa lain:
English • ‎Bahasa Indonesia

Uji diagnostik

Dalam epidemiologi lapangan, istilah diagnosis biasanya berarti identifikasi penyakit atau kondisi yang mempengaruhi hewan. Uji diagnostik merupakan suatu prosedur atau proses yang dapat mempengaruhi pengembangan suatu diagnosis. Istilah uji diagnostik digunakan merujuk pada pemeriksaan klinis pada hewan atau uji laboratorium yang dilakukan pada sampel yang dikumpulkan dari hewan (darah, kotoran, dll). Hasil pengujian ditafsirkan dan digunakan untuk menentukan apakah hewan tersebut sakit atau tidak.

Uji diagnostik bisa dilakukan pada hewan (sebagaimana dijelaskan diatas) atau pada kelompok hewan seperti kerumunan, kawanan hewan atau peternakan. Keberadaan satu atau lebih dari satu hewan yang positif terinfeksi penyakit di dalam kerumunan hewan dapat diartikan bahwa kerumunan hewan tersebut dideklarasikan terinfeksi penyakit (diagnosis pada level kerumunan hewan)

Langkah-langkah kinerja uji diagnostik

Keakuratan dan ketepatan

Keakuratan berhubungan dengan kemampuan pengujian menyediakan hasil yang mendekati kebenaran (nilai kebenaran). Keakuratan biasanya dilakukan jangka panjang, hal ini bisa saja berupa beberapa hasil uji. Suatu pengujian dianggap akurat apabila rata-rata hasil pengujian menghasilkan hasil uji yang mendekati kebenaran. Hasil satu pengujian tidak akan memperoleh hasil yang akurat seperti pengujian yang dilakukan berulang-ulang terhadap satu sampel yang sama.

Ketepatan merujuk tentang bagaimana pengujian itu dilakukan berulang-ulang. Apabila pengujian diulangi dan hasil dari pengujian tersebut selalu sama maka pengujian tersebut memenuhi unsur ketepatan (terlepas dari apakah hasilnya akurat atau tidak).

A precise test has a low level of random error i.e. a high level of repeatability.

An accurate (valid) test has a low level of systematic error (bias).

Sebuah pengujian bisa saja tepat tanpa harus akurat atau sebaliknya. Sebuah pengujian yang baik adalah yang bisa mencakup ketepatan dan keakuratan. Konsep tentang ketepatan dan keakuratan biasanya mudah dipahami dengan memfokuskan pada sasaran sebagaimana ditunjukkan dibawah ini. Istilah validasi biasanya digunakan untuk keakuratan.

Diagram showing test accuracy (validity) and precision.jpg

Gambar 4.: Diagram menunjukkan keakuratan pengujian (validitas) dan ketepatan

Ada banyak istilah yang digunakan untuk menggambarkan hal-hal yang berhubungan dengan uji diagnostik.

  • Pengulangan biasanya merujuk pada hasil dari pengujian ulang sampel yang sama yang dilakukan di laboratorium yang sama
  • Reproduktabilitas merujuk pada hasil dari pengujian sampel yang sama di laboratorium yang berbeda (memisahkan sampel asli menjadi sub-sampel dan mengirimkannya ke laboratorium yang berbeda)
  • Kesepakatan merujuk tentang seberapa bagus dua hasil uji yang berbeda tersebut dapat disepakati

Pengujian yang dilakukan untuk mengidentifikasi bahan-bahan yang kelihatannya dalam kondisi yang sama, secara umum tidak memberikan hasil yang sama. Perbedaan ini disebabkan karena galat acak yang melekat pada setiap prosedur pengujian karena faktor-faktor yang dapat mempengaruhi hasil uji tidak sepenuhnya dapat dikendalikan. Ketika menafsirkan hasil uji, variabilitas ini harus dipertimbangkan. Ada banyak faktor berbeda yang mempengaruhi variabilitas suatu prosedur uji, diantaranya:

  • keseragaman bahan uji
  • transportasi dan penyimpanan bahan uji
  • reagen
  • peralatan dan kalibrasinya
  • operator
  • Kondisi lingkungan - suhu, kelembaban, cahaya, polusi udara

Kemampuan pengujian untuk mendeteksi suatu penyakit

Semua pengujian dapat menghasilkan kesalahan-kesalahan pada hasil uji nya. Agar sebuah pengujian dapat memenuhi persyaratan, prosedur harus dilakukan seperti pengelompokan hewan (sakit, tidak sakit) sehingga paling tidak bisa menghasilkan hasil uji yang lebih akurat dibandingkan prosedur yang dilakukan secara acak - seperti melemparkan koin.

Dua jenis kesalahan yang bisa dilakukan oleh sebuah pengujian adalah:

  • false positive - the test identifies an animal to have a disease when it does not
  • false negative - the test identifies an animal not to have a disease when it does

Validitas sebuah pengujian adalah kemungkinan sebuah pengujian mendapatkan klasifikasi yang benar. Validitas digambarkan dengan istilah sensitifitas dan spesifisitas:

  • Sensitivity (Se) is the probability that a positive animal will be identified as positive by the test (1 - false negative rate) - this describes the test ability to detect a disease animal
  • Specificity (Sp) is the probability that a negative animal will be correctly identified as negative by the test (1 - false positive rate) - this describes the tests ability to determine an animal is not diseased

Sensitivity and specificity in relation to true disease status and diagnostic test.jpg

Figure 4.2: Diagram showing interpretation of sensitivity and specificity in relation to true disease status and diagnostic test outcome.


Assessing Se and Sp often includes something called a gold standard test. A gold standard is a test that is absolutely accurate - it correctly detects all diseased animals and it correctly classifies all non-diseased animals as being disease free.

Kinerja pengujian yang dilakukan secara tradisional adalah berdasarkan pada perbandingan dengan gold standard. Metode terbaru telah dikembangkan untuk memungkinkan dilakukannya penilaian kinerja pengujian apabila tidak ada gold standard namun metode-metode ini biasanya lebih rumit.

Kinerja uji diagnostik biasanya dijelaskan menggunakan pendekatan tabel 2x2.

Table 4.3: Table showing 2x2 layout used for assessment of diagnostic test performance. Columns display true disease status based on a gold standard test (+= positive, -=negative) and rows display the results from a diagnostic test.


Gold Std +
Gold Std -
Total
Uji +
a
b
a + b
Uji -
c
d
c + d
Total
a + c
b + d
a + b + c + d

{\mathit  {Se}}={\frac  {a}{\left(a+c\right)}}{\mathit  {Sp}}={\frac  {d}{\left(b+d\right)}}


Jika suatu pengujian dilakukan pada 100 hewan, yang terdiri dari 60 hewan sehat dan 40 hewan sakit, hasil di dalam tabel  4.2 kemungkinan dapat diperoleh.


Infected Healthy Total
Uji + 36 10 46
Uji - 4 50 54
Total 40 60 100
  • the sensitivity of the test is 36/40 =  90%
  • the specificity of the test is 50/60 = 83.3%

Sensitifitas

Sensitifitas adalah proporsi hewan yang terjangkit (atau terinfeksi) penyakit dengan hasil pengujian positif (proporsi yang benar-benar positif).

Sensitifitas (Fraksi yang benar-benar positif): Proporsi hewan yang benar-benar positif sakit. Sensitifitas juga didefinisikan sebagai probabilitas bersyarat yang memungkinkan suatu pengujian mengidentifikasikan hewan-hewan yang terinfeksi penyakit secara tepat (Pr T+|D+).

Fraksi negatif palsu adalah 1 - Se.

Spesifisitas

Spesifisitas adalah proporsi hewan yang terjangkit penyakit dengan hasil pengujian negatif (proporsi yang benar-benar negatif).

Spesifisitas (Fraksi yang benar-benar negatif): Proporsi hewan yang tidak terjangkit penyakit dengan hasil pengujian negatif. Spesifisitas juga didefinisikan sebagai probabilitas bersyarat di mana pengujian akan mengidentifikasi secara benar bahwa hewan-hewan tersebut tidak terinfeksi (Pr T-|D-).

The false positive fraction is 1 - Sp.

Salah satu cara untuk mengingat perbedaan antara Se dan Sp adalah dengan memikirkan:

  • Se = "e" = false negatives and true positives
  • Sp= "p" = false positives and true negatives

Ada hubungan terbalik antara Se dan Sp pada sebagian besar pengujian yang dilakukan dan khususnya yang berdasarkan pada tindakan yang berlanjut, misalnya ELISA. Hal ini bermakna bahwa pengujian yang memiliki tingkat Se yang sangat tinggi seringkali memiliki Sp yang rendah dan sebaliknya.

Pengujian yang menghasilkan tindakan berlanjut (sebagai contoh mengukur konsentrasi antibodi atau enzim dalam darah) dapat menggunakan titik ubah meningkatkan kinerja pengujian agar dapat memiliki Se Dan Sp yang lebih tinggi.

Frequency measure of test results.jpg

Figure 4.3: Plot showing a frequency measure of test results from application of a diagnostic test applied to healthy and diseased animals when the test output is measured on a continuous scale. The vertical line at C-C represents a cut-point to distinguish healthy animals (to the left of C-C) from diseased animals (to the right of C-C).

Hasil untuk hewan yang bebas penyakit (D-) biasanya tumpang tindih dengan hasil pada populasi yang sakit (D+). Hewan di sebelah kanan dari titik potong (C-C) diklasifikasikan sebagai reaktor (sakit atau terinfeksi) dan hewan ke kiri diklasifikasikan sebagai negatif (tidak terinfeksi). Jika positif palsu lebih sedikit diperlukan, C-C dipindahkan ke kanan; spesifisitas meningkat dan sensitivitas menurun. Namun, jika negatif palsu yang lebih sedikit diperlukan, C-C dipindahkan ke kiri: sensitivitas meningkat dan spesifisitas berkurang.

Pemilihan nilai cut-off yang sesuai tergantung pada sejumlah isu termasuk biaya relatif positif palsu dan negatif palsu, tahap program pemberantasan, jika ada, dan ketersediaan tes lainnya. Konsekuensi penting dari kekhususan yang tidak sempurna (yaitu ~ <100%) adalah bahwa jika sejumlah besar hewan diuji dari populasi bebas penyakit tersebut, ada kemungkinan besar hasil abnormal. Sebagai contoh, jika 10 sampel independen diuji dengan menggunakan tes dengan 90% probabilitas spesifisitas minimal 1 hasil tes positif yang terjadi adalah 65%.

Nilai Prediktif

Se dan Sp adalah karakteristik pengujian saat pengujian dilakukan pada hewan yang status penyakitnya diketahui. Se dan Sp tidak memberi tahu kita seberapa berguna pengujian tersebut ketika dilakukan pada hewan yang status penyakitnya tidak diketahui.

For most people in the field, the practical situation is that they have performed the test on an animal with unknown disease status and they wish to use the test results to better classify the animal as disease + or disease - Se and Sp are not helpful in this situation.

Nilai prediktif dapat berguna dalam situasi ini. Nilai prediktif memungkinkan kita untuk menjawab dua pertanyaan yang berhubungan:

  • Berapa proporsi tes hewan positif yang benar-benar terinfeksi?
  • Berapa proporsi tes hewan negatif yang benar-benar tidak terinfeksi?

Nilai prediktif adalah fungsi dari prevalensi dan karakteristik uji sensitifitas dan spesifisitas. Karena prevalensi menurun maka demikian juga dengan nilai prediktif positif. Sebaliknya juga berlaku untuk nilai prediksi negatif.


Positive predictive value = a/(a+b) = Prev x Se
Prev x Se + (1-Prev) x (1-Sp)
Nilai prediktif negatif = d/(c+d) = (1-Prev) x Sp
(1-Prev) x Sp + Prev x (1-Se)

With an understanding of the principles of predictive values, the following rules of thumb for using tests in the diagnostic process at the individual animal level can be recommended:

  • If the objective is to confirm a likely diagnosis (the "rule-in" situation), then choose a test which has high specificity (~>95%) and at least moderate sensitivity (~>75%). If a positive result is returned, then it is highly likely the individual has the disease in question (PPV's are high for tests with high specificity). If a negative result is returned, then further diagnostic work up is required.
  • If the objective is to confirm that an individual is free from a particular disease (the "rule-out" situation), then choose a test with high sensitivity (~>95%) and at least moderate specificity (~>75%). If a negative result is returned, then it is highly likely the individual is free from the disease in question. If a positive result is returned, then further testing is required with more specific tests to ascertain whether or not the result was a false positive result or not.

Beberapa pengujian

Pengujian dua atau lebih dapat digunakan baik secara berurutan atau secara simultan dan hasil ditafsirkan secara seri atau paralel. Dalam interpretasi paralel, hewan dianggap positif jika bereaksi positif terhadap salah satu atau kedua pengujian - ini meningkatkan sensitifitas tetapi cenderung menurunkan spesifisitas pengujian gabungan. Dalam interpretasi seri, hewan harus positif pada kedua pengujian baru dipertimbangkan positif - ini meningkatkan spesifisitas dengan mengorbankan sensitifitas.

Interpretasi pengujian paralel berarti bahwa kedua pengujian harus memberikan hasil yang positif bagi hewan yang akan dianggap positif. Pengujian paralel meningkatkan sensitifitas tetapi cenderung menurunkan spesifisitas, dibandingkan dengan menggunakan pengujian dalam isolasi.

Series interpretation of tests means that the animal is considered positive if either of the tests gives a positive result. Series testing increases specificity at the expense of sensitivity, compared to using either test in isolation.}}

Secara umum, semakin besar jumlah tes yang terlibat, semakin besar peningkatan sensitifitas atau spesifisitas, tergantung pada metode penafsiran yang digunakan.

Sensitifitas dan spesifisitas untuk beberapa tes

Keseluruhan nilai sensitifitas untuk interpretasi pengujian secara seri atau paralel, dengan asumsi independensi bersyarat dari pengujian, dapat dihitung dengan menggunakan contoh berikut.

Sebagai contoh dua pengujian diasumsikan independen dan memiliki karakteristik sebagai berikut:

Test 1 - Se = 50%; Sp = 98.7% Test 2 - Se = 60%; Sp = 98.6%

What are the theoretical sensitivities and specificities of the two tests used in parallel or series?

For sensitivity, we assume an animal is infected and that it is tested with both Test 1 and Test 2. For Test 1, the probability of a positive test result (given that the animal is infected) is Se1 = 0.5 and the corresponding probability that it will give a negative result is 1 - Se1, also = 0.5 for this example. For Test 2, the probability of a positive test result (given that the animal is infected) is Se2 = 0.6 and the corresponding probability that it will give a negative result is 1 - Se2 = 0.4.

Untuk interpretasi seri, kedua pengujian harus positif agar dapat dianggap sebagai hasil yang positif. Dari skenario ini adalah hasil untuk cabang pertama di sebelah kiri, yang memiliki probabilitas P (+/+) = Se 1 x Se 2 = 0,5 x 0,6 = 0,3. Dengan demikian, rumus untuk sensitifitas untuk interpretasi seri Se seri </ sub> = Se 1 x Se 2 dan untuk contoh ini adalah 0,3 atau 30%.

For parallel interpretation, the result is considered positive if either of the individual test results is positive. Alternatively, for a result to be considered negative both test results must be negative. Again this can be determined from the scenario tree, where the limb on the right represents both tests having a negative result and the probability of both negative results is P(-/-) = (1 - Se1) ï‚´ (1 - Se2). Therefore the probability of an overall positive result for parallel interpretation is Separallel = 1 - (1 - Se1) ï‚´ (1 - Se2) = 0.8 (80%) for this example.

Logika yang sama dapat diterapkan pada contoh hewan tidak terinfeksi untuk menurunkan rumus spesifisitas untuk interpretasi seri dan paralel seperti yang ditunjukkan di bawah ini:

Spparallel = Sp1 x Sp2 = 0.973 or 97.3% untuk contoh ini dan

Spseries = 1 - (1 - Sp1) ï‚´ (1 - Sp2) = 0.999 or 99.9% for our example

Scenario tree 1.jpg


Figure 4.4: Scenario tree for calculating overall sensitivity for two tests interpreted in series or parallel

Independensi kondisional dari pengujian

Asumsi penting dari interpretasi pengujian seri dan paralel adalah bahwa pengujian yang dipertimbangkan adalah independensi kondisional. Independensi kondisional berarti bahwa uji sensitifitas (spesifisitas) tetap sama terlepas dari hasil perbandingan pengujian, tergantung pada status infeksi individu.

If the assumption of conditional independence is violated then combined sensitivity (or specificity) will be biased. The "conditional" term relates to the fact that the independence (or lack of independence) is conditional on the disease status of the animal. Therefore sensitivities may be conditionally independent (or not) in diseased animals, while specificities may be conditionally independent (or not) in non-diseased animals.

Two tests are conditionally independent if test sensitivity or specificity (depending on disease status) of one test remains the same regardless of the result of the other (comparison) test

Jika pengujian tidak independen (berkorelasi), secara keseluruhan perbaikan sensitifitas atau spesifisitas mungkin tidak sebaik perkiraan teoritis, karena dua pengujian akan cenderung memberikan hasil yang sama pada sampel hewan yang sama.

Sebagai contoh, mari kita asumsikan bahwa dua pengujian yang dijelaskan di atas dilakukan pada 200 hewan yang terinfeksi dan 7.800 hewan yang tidak terinfeksi dengan hasil sebagai berikut. Apa sensitifitas dan spesifisitas sebenarnya untuk interpretasi paralel dan seri dan bagaimana mereka dibandingkan dengan nilai-nilai teoritis?


Test 1
Test 2
Infected
Uninfected
+
-
30 70
-
+
50 80
+
+
70 30
-
-
50 7620
Total
200 7800

Observed sensitivities and specificities of the two tests used in parallel or series are:

Seseries = 70/200 = 35% Separallel = 150/200 = 75%
Spseries = 7770/7800 = 99.6% Spparallel = 7620/7800 = 97.7%


Sensitifitas pada pengujian seri telah menurun kurang dari yang diperkirakan (35% dan bukan 30% seperti diprediksi), dan sensitifitas pengujian paralel meningkat kurang dari yang diperkirakan (75% dibandingkan dengan 80% yang diperkirakan). Perbedaan nyata antara nilai yang dihitung dan diamati untuk sensitivitas gabungan menunjukkan bahwa pengujian ini sebenarnya berkorelasi.

Perbedaan ini disebabkan oleh korelasi sensitifitas pengujian, sehingga hewan yang positif terinfeksi pada Uji 1 juga lebih cenderung positif dalam Uji 2, seperti yang ditunjukkan oleh perbedaan substansial dalam sensitifitas Uji 2 pada hewan yang positif untuk Uji 1 (70/100 atau 70%) dibandingkan dengan mereka yang negatif untuk Uji 1 (30/100 atau 30%).

Perbedaan spesifisitas yang diamati dan diprediksi jauh lebih kecil dan dalam hal ini mungkin disebabkan oleh variasi acak.


Kurangnya independensi kondisional dari pengujian ini sangat memungkinkan jika dua pengujian mengukur hal yang sama (atau hasil yang sama).

For example: ELISA and AGID are two serological tests for Johne's disease in sheep. Both tests measure antibody levels in serum. Therefore, in an infected animal, the ELISA is more likely to be positive in AGID-positive animals than in AGID-negative animals, so that the sensitivities of the two tests are correlated (not independent). This is illustrated in Table 4.5, where the sensitivities of both tests vary markedly, depending on the result of the other test. In contrast, serological tests such as ELISA and AGID are likely to be less correlated with agent-detection tests, such as faecal culture.


ELISA
AGID
+
-
Total
+
34
21
55
-
13
156
169
Total
47
177
224

All 224 sheep are infected, so we can calculate sensitivities of both ELISA and AGID as follows:

ELISA Se overall
47/224 = 21.0%
AGID Se overall
55/224 = 24.6%
ELISA Se in AGID +
34/55 = 61.8%
AGID Se in ELISA +
34/47 = 72.3%
ELISA Se in AGID -
13/169 = 7.7%
AGID Se in ELISA -
21/177 = 11.9%

Aplikasi pengujian seri dan paralel

Pengujian seri umumnya digunakan untuk meningkatkan spesifisitas, dan karenanya nilai prediksi positif, dari rejimen pengujian (dengan mengorbankan sensitivitas yang berkurang).

Misalnya, dalam program skrining skala besar, seperti untuk pengendalian atau pemberantasan penyakit, sebuah pengujian yang relatif murah dengan sensitifitas dan presisi yang relatif tinggi tetapi hanya spesifisitas sederhana dapat digunakan untuk screening awal. Pengujian jenis ini dapat diterapkan untuk sejumlah besar hewan (seluruh populasi) di mana tujuannya adalah untuk mendapatkan hasil yang meyakinkan bahwa hewan-hewan yang telah di uji negatif pada kenyataannya memang bebas penyakit.

Setiap hasil positif uji skrining awal kemudian diuji menggunakan uji konfirmasi yang sangat spesifik (dan biasanya lebih mahal) untuk meminimalkan jumlah keseluruhan positif palsu pada akhir proses pengujian. Untuk hewan yang dianggap positif harus positif untuk kedua uji skrining awal dan uji konfirmasi tindak lanjut.

Sebuah contoh yang baik dari pengujian seri pada program pemberantasan tuberkulosis sapi, di mana uji skrining awal sering kali pada lipatan ekor atau uji komparatif tuberkulin serviks intradermal, yang ditindaklanjuti dalam berbagai kemungkinan uji positif oleh termasuk uji tambahan pada kulit, uji imunologi gamma interferon atau bahkan euthanasia dan kelenjar getah bening, tergantung pada keadaan.

Dalam situasi di atas adalah penting untuk menyadari bahwa meskipun uji lanjutan hanya diterapkan pada hewan yang positif pada uji pertama, ini masih merupakan contoh penafsiran seri. Karena hewan harus di uji positif untuk kedua pengujian untuk hasil keseluruhan yang positif, hasil uji kedua pada hewan negatif pada pengujian pertama tidak relevan, sehingga pengujian sebenarnya tidak perlu dilakukan. Ini merupakan pertimbangan penting dalam program pengendalian atau pemberantasan, di mana biaya pengujian biasanya menjadi kendala anggaran besar dan penghematan yang signifikan dapat dilakukan dengan menggunakan pengujian skrining murah dengan hasil yang tinggi dilanjutkan dengan uji tindak lanjut yang lebih mahal tapi sangat spesifik.

Pengujian paralel kurang umum digunakan, tetapi terutama diarahkan untuk meningkatkan sensitivitas secara keseluruhan dan nilai prediksi negatif rejimen pengujian. Pengujian paralel terutama diterapkan di mana meminimalkan negatif palsu sangat penting, misalnya dalam program kesehatan masyarakat atau zoonosis, di mana konsekuensi gagal untuk mendeteksi kasus bisa sangat serius. Berbeda dengan pengujian seri, setiap sampel harus diuji dengan kedua tes agar pengujian paralel efektif, oleh karenanya biaya pengujian bisa jadi cukup tinggi.

Sebagai contoh, di beberapa negara pengujian untuk virus flu burung sangat patogen dapat mengandalkan penggunaan kombinasi isolasi virus dan PCR untuk mendeteksi virus, with birds that are positive to either test being considered infected.

Mengukur kesepakatan antara pengujian

Sering kali kepentingan untuk membandingkan kinerja diagnostik dua pengujian (pengujian baru dibandingkan dengan pengujian yang ada) untuk melihat apakah pengujian baru menghasilkan hasil yang sama.

Untuk spesimen yang sama disampaikan kepada masing-masing dari ke dua pengujian, peneliti mencatat data frekuensi yang sesuai ke dalam 4 sel dari tabel 2x2, a (kedua tes positif), b (uji 1 positif dan uji 2 negatif), c (uji 1 negatif dan uji 2 positif), dan d (kedua tes negatif). Nilai kappa (k), ukuran relatif kesepakatan di luar kesempatan, kemudian dapat dihitung dengan menggunakan software seperti EpiTools atau menggunakan rumus dalam teks epidemiologi standar.

Kappa has many similarities to a correlation coefficient and is interpreted along similar lines. It can have values between -1 and +1. Suggested criteria for evaluating agreement are (Everitt, 1989, cited by Thrusfield, 1995):

Table 4.2: Table showing interpretation of kappa values


kappa Evaluation
>0.8 - 1 Excellent agreement
>0.6 - 0.8 Substantial agreement
>0.4 - 0.6 Moderate agreement
>0.2 - 0.4 Fair agreement
>0 - 0.2 Slight agreement
0 Poor agreement
<0 Disagreement

Care must be taken in interpreting kappa - if two tests agree well, they could be equally good or equally bad! However, it may be possible to justify use of a newly developed test if it agrees well with a standard test and if it is cheaper to run in the laboratory.

Conversely, if two tests disagree, one test is likely to be better than the other although there may no way to tell which is better! The exception to this is where both tests have close to 100% specificity (i.e. no or few false positives). In this case the test with the larger number of positive results is likely to be more sensitive. McNemar's Chi-squared test for paired data can also be used to test for significant differences between the discordant cells (b & c).

Contoh kappa dan kesepakatan antara tes

A comparison of two herd-tests for Johne's disease in sheep yields the following results (from Sergeant et al., ([#18 2002])):

Test 2 results
Test 1 results
+
-
Total
+
58
37
95
-
5
196
201
Total
63
233
296

How well do the two tests agree, and can you determine which test is better?

For these tests, kappa is 0.64, suggesting moderate-substantial agreement. However, McNemar’s chi-squared is 22.88, with 1 degree of freedom and P < 0.001. This means that the discordant cells (37 and 5) are significantly different. From the data available it is not possible to say which test is better - the additional positives on Test 1 could be either true or false positives, depending on test specificity.

Dalam kasus ini, Uji 1 adalah kultur feses yang dikumpulkan (spesifisitas diasumsikan 100%) dan Uji 2 adalah uji difusi agar gel dengan tindak lanjut positif melalui otopsi dan histopatologi (spesifisitas juga diasumsikan 100%). Bagaimana ini mengubah penilaian ke dua tes?

Mengingat bahwa kedua tes memiliki spesifisitas yang sama (atau sangat dekat) 100%, ada kemungkinan sangat sedikit positif palsu. Oleh karena itu kelihatannya bahwa sensitivitas Uji 1 (kultur feses yang dikumpulkan) jauh lebih tinggi dari Uji 2 (serologi), karena Uji 1 terdeteksi lebih banyak positif secara keseluruhan.

Kesepakatan proporsional hasil positif dan negatif

Dalam beberapa keadaan, terutama jika total marjinal tabel 2x2 tidak seimbang, kappa tidak selalu menjadi ukuran yang baik untuk tingkat kebenaran dari kesepakatan antara dua tes ([#6 Feinstein dan Cicchetti, 1990]). Misalnya, pada contoh pertama di atas, kappa hanya 0,74, dibandingkan dengan proporsi keseluruhan perjanjian 0,94 Dalam situasi ini, proporsi kesepakatan positif dan negatif telah diusulkan sebagai alternatif yang berguna untuk kappa ([#3 cicchetti dan Feinstein, 1990]). Untuk contoh ini, proporsi kesepakatan positif adalah 0,78, dibandingkan dengan 0,96 untuk proporsi kesepakatan negatif, menunjukkan bahwa daerah utama perselisihan antara tes dalam hasil positif dan kesepakatan antara hasil negatif sangat tinggi.

Estimation of true prevalence from apparent prevalence

When we apply a test in a population, the proportion of positive results observed is the apparent prevalence. However, depending on test performance, apparent prevalence may not be a good indicator of the true level of disease in the population (the true prevalence). However, if we can estimate the sensitivity and specificity of the test, we can also estimate the true prevalence from the apparent (test-positive) prevalence (AP) using the formula ([#16 Rogan and Gladen, 1978]):


True prevalence = AP + Sp - 1
Se + Sp - 1

which has a solution for situations other than when Se + Sp = 1. All values are expressed as proportions (between 0 and 1) rather than percentages for these calculations. Confidence limits can be calculated for the estimate using a variety of methods implemented in EpiTools. When true prevalence is 0, apparent prevalence = 1 - Sp, the false positive test rate.

Sebagai contoh: Katakanlah kita telah melakukan survei dengan tes yang sensitivitasnya adalah 90% (0,9) dan spesifisitasnya adalah 95% (0.95) dan kita menemukan tingkat reaktor (prevalensi jelas) dari 15% (0,15). Dengan menggunakan rumus, kita dapat memperkirakan prevalensi benar menjadi 11,8% (0,118).

Contoh lain

Misalkan kita telah melakukan survei terhadap penyakit bercak putih di tambak udang, menggunakan tes dengan sensitivitas 80% (0,8) dan spesifisitas 100% (1,0). Kami telah menguji 150 udang, dan 6 udang positif. Apa estimasi prevalensi yang benar?

Prevalensi jelas adalah 6/150 = 0,04 atau 4% (Wilson 95% CI: 1,8% - 8,5%)

Therefore, true prevalence = (0.04 + 1 - 1)/(0.8 + 1 - 1) = 0.04/0.8 = 0.05 or 5% (95% CI: 1.1 - 8.9%)

Apa yang terjadi jika kita berasumsi bahwa sensitivitas dan spesifisitas keduanya 90%?

Jika Se = 0.9 dan Sp = 0.9:

Therefore, true prevalence = (0.04 + 0.9 - 1)/(0.9 + 0.9 - 1) = -0.06/0.8 = -0.0625.

The above example illustrates one potential problem with Rogan and Gladen formula, which is that in some circumstances negative estimates can be produced. However, a negative (<0) prevalence is clearly impossible, so for this scenario the assumptions about sensitivity and specificity must be incorrect. For example, if specificity was 90% (0.9), and you tested 150 animals, you would expect to have 0.1*150 or on average about 15 false positive results (even in an uninfected population). Therefore if only 4 positives were recorded, the specificity of the test must be much higher than 90% (a minimum estimate would be to assume all of the positives are false positives, so that specificity = 1 - apparent prevalence = 1 - 4% or 96%).

Karena perkiraan prevalensi adalah proporsi yang juga harus kita hitung dan menghadirkan interval kepercayaan untuk estimasi.


Uji diagnostik kelompok (aggregate)

Pembahasan sebelumnya menjelaskan tentang pengujian pada individu hewan. Namun, dalam investigasi epidemiologi, unit kajian dapat berkompromi untuk kelompok hewan seperti kawanan sapi, kawanan domba, sebuah kandang atau kolam ikan. Sebagai contoh, praktek-praktek yang umum dilakukan untuk menentukan status kawanan atau kelompok untuk beberapa penyakit berdasarkan hasil pengujian sampel hewan, daripada keseluruhan kawanan atau kelompok.

Dalam situasi ini, penting untuk menyadari bahwa pengujian penyakit pada kelompok atau tingkat agregat menggabungkan sejumlah faktor tambahan yang relevan untuk pengujian pada tingkat individu hewan. Dengan demikian, pengujian yang mungkin sangat sensitif dan spesifik pada tingkat individu hewan masih dapat mengakibatkan kesalahan klasifikasi proporsi yang tinggi dari kelompok yang hanya terdiri dari sejumlah kecil hewan di masing-masing kelompok yang diuji.

Pada tingkat individu hewan, kinerja tes diagnostik ditentukan oleh sensitivitas dan spesifisitas. Langkah-langkah tingkat grup yang sesuai adalah sensitivitas kawanan dan spesifisitas kelompok. Sensitivitas kawanan dan spesifisitas kelompok dipengaruhi oleh sensitivitas dan spesifisitas tingkat hewan, jumlah hewan yang diuji, prevalensi penyakit dalam kelompok dan jumlah hasil positif individu hewan (1, 2, 3, dll) yang digunakan untuk mengklasifikasikan kelompok positif. Sama seperti yang kita lakukan untuk individu, kita juga menginginkan sensitivitas dan spesifisitas yang tinggi dalam penafsiran tingkat kelompok kita.

Herd sensitivity (SeH) is the probability that an infected herd will give a positive result to a particular testing protocol, given that it is infected at a prevalence equal to or greater than the specified design prevalence.

Herd specificity (SpH) is the probability that an uninfected herd will give a negative result to a particular testing protocol (HSP)


Calculating herd sensitivity and herd specificity

The herd-level sensitivity (SeH) and specificity (SpH) with a cut-off of 1 reactor to declare a herd infected can be calculated as ([#13 Martin et al., 1992]):

SeH = 1 - (1 - (Prev x Se + (1 - Prev) x (1-Sp)))m dan

SpH = Spm

Dimana Se dan Sp masing-masing adalah sensitivitas dan spesifisitas tingkat hewan, Prev adalah prevalensi penyakit yang benar dan m adalah jumlah hewan yang diuji. SeH setara dengan tingkat kepercayaan mendeteksi infeksi pada kelompok atau kawanan dengan prevalensi infeksi tertentu. SeH and SpH dapat dengan mudah dihitung dengan menggunakan EpiTools atau kalkulator epidemiologi lainnya.

Jika spesifisitas uji adalah 100% (yaitu setiap reaktor ditindaklanjuti untuk mengkonfirmasi statusnya) perhitungan SeH disederhanakan:

SeH = 1 - (1 - Prev</nowiki> x Se)m

Sebuah contoh

Sebagai contoh, dengan asumsi bahwa kita telah menguji 100 hewan dalam suatu kawanan dengan hasil uji memiliki Se = 0.9 dan Sp = 0.99, Berapa sensitivitas kawanan untuk prevalensi yang diasumsikan sebesar 5%?

SeH = 1 - (1 - (0.05*0.9 + (1 - 0.05)*(1 - 0.99)))100

= 0.996 atau 99.6%

Ini berarti bahwa jika penyakit hadir pada prevalensi 5% atau lebih, ada kemungkinan kesempatan 99,6% bahwa satu atau lebih hewan dalam sampel akan diuji secara positif.

Untuk skenario ini, spesifisitas kelompok adalah:

SpH = 0.99100 = 0.37 atau 37%

Ini berarti bahwa ada kesempatan 37% kelompok yang tidak terinfeksi penyakit juga akan ada satu atau lebih dari satu hewan dengan uji positif.

Apa yang terjadi jika kita mengasumsikan bahwa prevalensi infeksi adalah 2% bukan 5%?

Sensitivitas kawanan:

SeH = 1 - (1 - (0.02*0.9 + (1 - 0.02)*(1 - 0.99)))100

= 0.94 atau 94%

SeH menurun seiring penurunan prevalensi.

Spesifisitas kawanan:

SpH = 0.99100

= 0.37 atau 37%

SPH tidak terpengaruh oleh prevalensi karena, menurut definisi, SPH hanya berlaku untuk kawanan dengan nol prevalensi (tidak terpengaruh)

In the above example, increasing the cut-point number of reactors for a positive result from 1 to 2 (i.e. if there are 0 or 1 animals test positive the group is considered "uninfected" while if 2 or more test positive it is infected) results in an increase in SpH to 74% but a reduction in SeH to 77% (from EpiTools: http://epitools.ausvet.com.au/content.php?page=HerdSens3).

Rumus di atas mengasumsikan bahwa ukuran sampel relatif kecil dari ukuran populasi (atau populasinya besar). Rumus yang sama juga tersedia untuk populasi kecil atau dimana ukuran sampel relatif lebih besar dari ukuran populasi.


Risiko infeksi pada hewan uji negatif

Satu-satunya cara untuk menjadi 100% yakin bahwa tidak ada hewan dari kelompok tertentu terinfeksi dengan agen tertentu adalah dengan menguji setiap binatang dalam kelompok dengan uji diagnostik yang memiliki sensitivitas dan spesifisitas yang sempurna. Namun, jika hanya sebagian kecil individu hewan dalam kelompok yang terinfeksi dan hanya sejumlah kecil yang diuji maka kemungkinan besar kelompok terinfeksi akan terjadi kesalahan klasifikasi sebagai kelompok yang tidak terinfeksi. Tabel berikut menunjukkan jumlah hewan yang terinfeksi yang mungkin ada tetapi tidak terdeteksi dalam populasi 100.000, meskipun sampel pengujian negatif menggunakan tes dengan sensitivitas dan spesifisitas yang sempurna pada tingkat individu hewan.

Table 4.3: Number of diseased or infected animals which could remain in a group of 100,000 after a small number are tested and found to be negative using a test which has perfect sensitivity and specificity at the individual animal level for 95% and 99% confidence levels


No. of animals in sample tested from group of 100,000 and found negative
95%
99%
100
2,950
4,499
500
596
915
1,000
298
458
10,000
29
44

Situasi semakin rumit ketika prosedur tes yang digunakan memiliki sensitivitas yang buruk, yang sering kali terjadi pada banyak tes yang digunakan secara reguler.

Probabilitas memperkenalkan infeksi pada kelompok hewan yang diuji negatif adalah sama dengan probabilitas satu atau lebih dari satu hewan dalam kelompok yang terinfeksi tetapi tes negatif. Probabilitas ini dapat dihitung sebagai:


Probability = 1 - NPVm
= 1 - [(1-Prev) x Sp/((1-Prev) x Sp + Prev x (1-Se))]m

Where NPV is the negative predictive value of the test in the population of origin, Se and Sp are animal-level sensitivity and specificity respectively, Prev is true disease prevalence and m is the number of animals tested. As sample size increases the probability that the group will all test negative decreases, so that the overall risk associated with a group can be reduced by increasing the sample size. However, if all animals do test negatively the probability that one or more are actually infected increases (assuming that they are from an infected population), as shown in Figure 4.6.

Sebagai contoh: Jika 20 hewan dipilih dari kelompok atau kawanan dengan prevalensi benar 0,05 (5%) dan diuji menggunakan tes dengan Se = 0,9 dan Sp = 0,99, dan 20 memiliki hasil negatif, kemungkinan bahwa ada satu atau lebih dari satu hewan yang terinfeksi dalam kelompok adalah sekitar 0,1 (10%). Selain itu, kemungkinan bahwa 20 hewan akan memiliki hasil tes negatif adalah sekitar 0,33 (33%).

Dalam bahasa yang sederhana, ada 1 dalam 3 kemungkinan bahwa semua hewan yang diuji negatif dan juga 1 dalam 10 kesempatan bahwa ada satu atau lebih dari satu hewan yang terinfeksi dalam kelompok, bahkan jika mereka semua diuji negatif.

Meningkatkan ukuran sampel antara 20 sampai 40 mengurangi kemungkinan bahwa semua akan diuji negatif dari 33% menjadi sekitar 10%, tetapi bagi semua hewan yang diuji negatif, meningkatkan kemungkinan bahwa satu atau lebih dari satu terinfeksi dari 10% sampai 20% (1 dari 5).


Effect of sample size on the probability.jpg

Gambar 4.: Pengaruh ukuran sampel pada kemungkinan bahwa sekelompok hewan uji-negatif akan mencakup satu atau lebih dari satu yang terinfeksi (tetapi uji-negatif) hewan, dan kemungkinan bahwa ini akan terjadi, untuk diasumsikan Se = 0,9, Sp-0.99 dan prevalensi benar = 0,05 (5%) pada kelompok/kawanan asal.


Demonstrate freedom of detecting disease?

It is impossible to prove that a population is free from a particular disease without testing every individual with a perfect test. However, demonstrating "freedom" from disease in a population is essentially the same as sampling to provide a high level of confidence of detecting disease at specified (design) prevalence. If we don't detect disease, then we can state that we have the appropriate level of confidence that (if the disease is present) it is at prevalence lower than the design prevalence. Provided we have selected appropriate design prevalence, it can then be argued that if the disease were present it would more than likely be at a higher level than the design prevalence, and therefore we can be confident that the population is probably free of the disease.

Pemilihan desain prevalensi yang tepat jelas penting jika ukuran sampel terlalu rendah akan berlebihan, sementara jika terlalu tinggi argumen pada ambang yang tepat untuk mendeteksi penyakit akan lemah. Untuk penyakit menular pada umumnya untuk menggunakan nilai yang sama dengan atau lebih rendah dari nilai yang diamati dalam situasi endemik atau wabah.

Faktor-faktor penting yang perlu diperhatikan dalam pengujian kelompok

Saat menguji sekelompok hewan untuk melihat kehadiran penyakit, ada sejumlah poin penting yang perlu diingat:

  • Individual and group level test characteristics (sensitivity and specificity) are not equivalent.
  • The number of animals to be tested in the group (sample size) is relatively independent of group size except for small groups (<~1000) or where sample size is more than about 10% of the group size. Alternative methods are available for small populations or where sample size is large relative to group size.
  • The number of animals required to be tested in the group depends much more on individual animal specificity than it does on sensitivity.
  • The number of animals to be tested in the group is linearly and inversely related to the expected prevalence of infected animals in the group.
  • As the required level of statistical confidence increases, so the required sample size increases. The usual level is 95%. If this is increased to 99%, there is an approximate increase of 50% in the required sample size. For a reduction from 95% to 90% confidence, there is a decrease in sample size by 25%.
  • As the sample size increases, group level sensitivity increases.
  • As the number of animals used to classify the group as positive is increased, there is a corresponding increase in specificity.
  • As group level sensitivity increases, group level specificity decreases.
  • When specificity = 100% at the individual animal level, all uninfected groups are correctly classified i.e. group level specificity also equals 100%.

Memperkirakan sensitivitas dan spesifisitas tes

Ada dua pendekatan luas untuk memperkirakan sensitivitas dan spesifitas tes.

Metode "gold standard" bergantung pada klasifikasi individu menggunakan tes referensi (atau tes) dengan sensitivitas dan/atau spesifisitas yang sempurna untuk mengidentifikasi kelompok individu yang sakit dan yang tidak sakit di mana tes dapat dievaluasi. Sebaliknya, metode "non gold standard" yang digunakan dalam situasi di mana penentuan status infeksi sebenarnya dari setiap individu tidak memungkinkan atau secara ekonomis tidak layak.

Regardless of the methods used for estimating sensitivity and specificity, a number of important principles must be considered when evaluating tests, as for any other epidemiological study ([#8 Greiner and Gardner, 2000]):

  • Populasi penelitian dari mana sampel diambil harus mewakili populasi di mana tes ini akan diterapkan;
  • Sampel individu tesnya akan diterapkan di mana harus dipilih dengan cara memastikan bahwa sampel tersebut mewakili populasi penelitian;
  • Sampel harus mencakup hewan di semua tahapan proses infeksi/penyakit;
  • Ukuran sampel harus cukup untuk memberikan presisi yang memadai (batas kepercayaan) tentang perkiraan; dan
  • Pengujian harus dilakukan dengan mengaburkan status sebenarnya dari individu dan hasil tes lainnya.

Metode gold standard

Metode gold standard memiliki keuntungan menggunakan status penyakit yang diketahui sebagai tes rujukan. Hal ini memungkinkan perhitungan yang relatif sederhana untuk memperkirakan sensitivitas dan spesifisitas tes yang dievaluasi, menggunakan tabel 2x2 tes sederhana terhadap status penyakit. Namun, untuk berbagai kondisi tes gold standard baik tidak ada atau mahal untuk digunakan (misalnya mungkin memerlukan pemotongan dan pemeriksaan terperinci dan pengujian beberapa jaringan untuk hasil definitif). Dalam kasus-kasus tersebut tes terbaik yang tersedia sering digunakan seolah-olah itu adalah gold standard, sehingga perkiraan bias sensitivitas dan spesifisitas. Kemungkinan lainnya, hanya memungkinkan untuk menggunakan sampel ukuran kecil karena keterbatasan keuangan atau sifat penyakit, yang mengakibatkan pada hasil perkiraan yang tidak tepat.

Gold standard test evaluation assumes comparison with the true disease status of an animal based on the results of a test (or tests) with perfect sensitivity and/or specificity

For example: The "gold-standard" test for bovine spongiform encephalopathy (BSE) is the demonstration of typical histological lesions in the brain of affected animals. However, false-negative results on histology will occur in animals in an early stage of infection. Therefore, if a screening test is evaluated by comparison with histology, specificity will be underestimated because some infected animals could react to the screening test but be histologically negative, resulting in mis-classification as false-positives. In addition, any infected but histologically-negative animals that are negative on the screening test will be mis-classified as true-negatives, resulting in over-estimation of the sensitivity.

If a disease is rare, or if the "gold standard" test is complex and expensive to perform, sample sizes for estimation of sensitivity are likely to be small, leading to imprecise estimates of sensitivity. If a disease does not occur in a country it is impossible to estimate sensitivity in a sample that is representative of the population in which it is to be applied. Conversely, if a disease does not occur in a country or region, it is relatively easy to estimate test specificity, based on a representative sample of animals from the population, because if the population is free of disease all animals in the population must also be disease-free.

Sometimes a new test may appear to be more sensitive (or specific) than the existing "gold standard" test (for example, new DNA-based tests compared to conventional culture). In this situation, the new test will find more (or fewer) positives than the reference test and careful analysis is required to determine whether this is because it is more sensitive or less specific. Even then, it is often not possible to reliably estimate sensitivity or specificity because there is no fixed reference point, so it may only be possible to say that the new test is more sensitive (or specific) than the old test, without specifying a value.

Gold-standard methods for estimating sensitivity and specificity of diagnostic tests and their limitations are discussed in more detail by Greiner and Gardner ([#8 2000]).


Estimating specificity in uninfected populations

One special case of a gold standard comparison is for estimating test specificity in an uninfected population. In this case either historical information or other testing can be used to determine that a defined population is free of the disease of concern. This can be based on either a geographic region which is known to be free, or on intensive testing of a herd or herds over a period of time to provide a high level of confidence of freedom. If the population is assumed to be free, by definition all animals in the population are uninfected. Therefore, if a sample of animals from the population is tested with the new test, any positives are assumed to be false positives and the test specificity is estimated as the proportion of samples that test negatively.

For example, to evaluate the specificity of a new test for foot-and-mouth disease you could collect samples from an appropriate number of animals in a FMD-free country and use these as your reference panel.

Two drawbacks of this approach are: firstly that you cannot estimate sensitivity in this sample, since none of the animals are infected; and secondly that by using a defined (often geographically isolated) population there is a risk that specificity may be different in this population to what might be the case in the target population where the test is to be used.

Non-gold-standard methods

Non-gold-standard methods for test evaluation can often be used in situations where the traditional gold-standard approaches are not possible or feasible. These methods do not depend on determining the true infection status of each individual. Instead, they use statistical approaches to calculate the values of sensitivity and specificity that best fit the available data.

Non gold-standard test evaluation makes no explicit assumptions about the disease state of the animals tested and relies on statistical methods to determine the most likely values for test sensitivity and/or specificity

Although these methods don't rely on a gold standard for comparison, they do depend on a number of important assumptions. Violation of these assumptions could render the resulting estimates invalid. Non-gold-standard methods for estimating sensitivity and specificity of diagnostic tests have been described in more detail by Hui and Walter ([#9 1980]), Staquet et al. ([#19 1981]) and Enøe et al. ([#4 2000]).

Available non-gold-standard methods include:

Maximum likelihood estimation

Maximum likelihood methods use standard statistical methods to estimate sensitivity and specificity of multiple tests from a comparison of the results of multiple tests applied to the same individuals in multiple populations with different prevalence levels ([#9 Hui and Walter, 1980]; [#4 Enøe et al., 2000]; [#15 Pouillot et al., 2002]). Key assumptions for this approach are:

  • The tests are independent, conditional on disease status (the sensitivity [specificity] of one test is the same, regardless of the result of the other test, as discussed in more detail in the section on series and parallel interpretation of tests);
  • Test sensitivity and specificity are constant across populations;
  • The tests are compared in two or more populations with different prevalence between populations; and
  • There are at least as many populations as there are tests being evaluated.

Bayesian estimation

Bayesian methods have been developed that allow the estimation of sensitivity and specificity of one or two tests that are compared in single or multiple populations ([#11 Joseph et al., 1995]; [#4 Enøe et al., 2000]; [#10 Johnson et al., 2001]; [#2 Branscum et al., 2005]). These methods allow incorporation of any prior knowledge on the likely sensitivity and specificity of the test(s) and of disease prevalence as probability distributions, expressing any uncertainty about the assumed prior values. Methods are also available for evaluation of correlated tests, but these require inclusion of additional tests and/or populations to ensure that the Bayesian model works properly ([#7 Georgiadis et al., 2003]).

Bayesian methods rely on the same assumptions as the maximum likelihood methods. In addition, Bayesian methods also assume that appropriate and reasonable distributions have been used for prior estimates for sensitivity and specificity of the tests being evaluated and prevalence in the population(s). For critical distributions where prior knowledge is lacking it may be appropriate to use an uninformative (uniform) prior distribution.

Comparison with a known reference test

Sensitivity and specificity can also be estimated by comparison with a reference test of known sensitivity and/or specificity ([#19 Staquet et al., 1981]). These methods cover a variety of circumstances, depending on whether sensitivity or specificity or both are known for the reference test. Key assumptions are conditional independence of tests, and that the sensitivity and/or specificity of the reference test is known.

In the special situation where the reference test is known to be close to 100% specific (for example culture or PCR-based tests), the sensitivity of the new test can be estimated in those animals that test positive to the reference test:

Se(new test) = Number positive to both tests / Total number positive to the comparison test

However, the specificity of the new test cannot be reliably estimated in this way, and will generally be under-estimated.

Estimation from routine testing data

Where a disease is rare, and truly infected animals can be eliminated from the data, it is possible to estimate test specificity from routine testing results, such as in a disease control program ([#17 Seiler, 1979]). In this situation, test-positives are routinely subject to follow-up, so that truly infected animals are identified and removed from the population. It is also possible to identify and exclude tests from known infected herds or flocks. Specificity can then be estimated as:

Sp = 1 - (Number of reactors / Total number tested)

In fact, this is an under-estimate of the true specificity, because there may be some unidentified but infected animals remaining in the data after exclusion of tests from known infected animals or herds/flocks.

For example: The flock-specificity of pooled faecal culture for the detection of ovine Johne's disease was estimated from laboratory testing records in New South Wales ([#18 Sergeant et al., 2002]). In this analysis, there were nine test-positive flocks out of 227 flocks eligible for inclusion in the analysis. After exclusion of results for seven known infected flocks, there were 2/220 flocks positive, resulting in an estimated minimum flock-specificity of 99.1% (95% Binomial CI: 96.9% - 99.9%). In fact one or both of these flocks could have been infected, and the true flock-specificity could be higher than the estimate of 99.1%.

Modelling approaches

Several novel approaches using modelling have also been used to estimate test sensitivity and/or specificity without having to rely on a comparison with either a gold standard or an alternative, independent test.

Mixture modelling

One approach to estimating test sensitivity and specificity in the absence of a gold standard is that of mixture population modelling. This approach is based on the assumption that the observed distribution of test results (for a test with a continuous outcome reading such as an ELISA) is actually a mixture of two frequency distributions, one for infected individuals and one for uninfected individuals.

Using mixture population modelling methods, it is possible to determine the theoretical probability distributions for uninfected and infected sub-populations that best fit the observed data, and from these distributions to estimate sensitivity and specificity for any cut-point.

For example, this approach was used to estimate sensitivity and specificity for ELISA for Toxoplasma gondii infection in Dutch sheep ([#14 Opsteegh et al., 2010]). ELISA results from 1,179 serum samples collected from sheep at slaughterhouses in the Netherlands were log transformed and normal distributions fitted to the infected and uninfected components. The resulting theoretical distributions allowed determination of a suitable cut-point with estimated sensitivity of 97.8% and specificity of 96.4%.

While this is a useful approach for estimating sensitivity and specificity in the absence of suitable comparative test data, it does depend on the assumptions that the test results follow the theoretical distributions calculated and that the sample tested is representative of the population at large. If the actual results deviate significantly from the theoretical distributions, or the sample is biased, estimates will also be biased.

Simulation modelling of longitudinal testing results

An alternative approach, using simulation modelling, has been used where no comparative test data was available, but results of repeated testing over time were available. In this example, the sensitivity of an ELISA for bovine Johne's disease was estimated from repeated herd-testing results over a 10-year period using a simulation model. Age-specific data from up to 7 annual tests in 542 dairy herds were used to estimate ELISA sensitivity at the first-round test. The total number of infected animals present at the first test was estimated from the number of reactors detected at that test, plus the estimated number of animals that failed to react at that test, but reacted (or would have reacted if they had not died or been previously culled) at a subsequent test, based on reactor rates at subsequent tests. Reactor rates were adjusted for an assumed ELISA specificity of 99.8% to ensure estimates were not biased by imperfect ELISA specificity ([#12 Jubb et al., 2004]). Age-specific estimates of ELISA sensitivity ranged from 1.2% in 2-year-old cattle to 30.8% in 10-year-old cattle, with an overall age-weighted average of 13.5%.

This approach depends on the assumption that most JD-infected animals become infected at a young age, and that all animals that subsequently reacted to the ELISA were in fact infected at the time of the first test. If adult infection occurred in these animals the estimated sensitivity could have substantially under-estimated the true value.

References - diagnostic testing

Branscum, A. J., Gardner, I. A. & Johnson, W. O. 2005. Estimation of diagnostic-test semnsitivity and specificity through Bayesian modelling. Preventive Veterinary Medicine, 68:145-163.

Cicchetti, D. V. & Feinstein, A. R. 1990. High agreement but low kappa: II. Resolving the paradoxes. Journal-of-Clinical-Epidemiology, 43:551-558.

EnØe, C., Georgiadis, M. P. & Johnson, W. O. 2000. Estimation of sensitivity and specificity of diagnostic tests and disease prevalence when the true disease state is unknown. Preventive Veterinary Medicine, 45:61-81.

Everitt, R. S. 1989. Statistical Methods for Medical Investigation, New York, Oxford University Press.

Feinstein, A. R. & Cicchetti, D. V. 1990. High agreement but low kappa: I. The problems of two paradoxes. [see comments.]. Journal of Clinical Epidemiology., 43:43-9.

Georgiadis, M. P., Johnson, W. O., Singh, R. & Gardner, I. A. 2003. Correlation-adjusted estimation of sensitivity and specificity of two diagnostic tests. Applied statistics, 52:63-76.

Greiner, M. & Gardner, I. A. 2000. Epidemiologic issues in the validation of veterinary diagnostic tests. Preventive Veterinary Medicine, 45:3-22.

Hui, S. L. & Walter, S. D. 1980. Estimating the error rates of diagnostic tests. Biometrics, 36:167-171.

Johnson, W. O., Gastwirth, J. L. & Pearson, L. M. 2001. Screening without a "gold standard": the Hui-Walter paradigm revisited. American Journal of Epidemiology, 153:921-924.

Joseph, L., Gyorkos, T. W. & Coupal, L. 1995. Bayesian estimation of disease prevalence and the parameters of diagnostic tests in the absence of a gold standard. American-Journal-of-Epidemiology, 141:263-272.

Jubb, T. F., Sergeant, E. S. G., Callinan, A. P. L. & Galvin, J. W. 2004. Estimate of sensitivity of an ELISA used to detect Johne's disease in Victorian dairy herds. Australian Veterinary Journal, 82:569-573.

Martin, S. W., Shoukri, M. & Thorburn, M. A. 1992. Evaluating the health status of herds based on tests applied to individuals. Preventive-Veterinary-Medicine, 14:33-43.

Opsteegh, M., Teunis, P., Mensink, M., Zuchner, L., Titilincu, A., Langelaar, M. & van der Giessen, J. 2010. Evaluation of ELISA test characteristics and estimation of Toxoplasma gondii seroprevalence in Dutch sheep using mixture models. Preventive Veterinary Medicine.

Pouillot, R., Gerbier, G. & Gardner, I. A. 2002. "TAGS", sebuah program untuk evaluasi akurasi tes dengan tidak adanya gold standard. Preventive Veterinary Medicine, 53:67-81.

Rogan, W. J. & Gladen, B. 1978. Memperkirakan prevalensi hasil uji skrining. American Journal of Epidemiology, 107:71-76.

Seiler, R. J. 1979. Reaktor bukan penyakit: pertimbangan-pertimbangan tentang penafsiran hasil uji skrining. Veterinary-Record, 105:226-228.

Sergeant, E. S. G., Whittington, R. J. & More, S. J. 2002. Sensitivitas dan spesifisitas kultur feses yang dikumpulkan dan serologi sebagai uji skrining kawanan untuk mendeteksi paratuberculosis sapi di Australia. Preventive-Veterinary-Medicine, 52: 199-211.

Staquet, M., Rozencweig, M., Lee, Y. J. & Muggia, F. M. 1981. Metodologi penilaian uji diagnostik dikotomis baru. Jurnal penyakit kronis, 34:599-610.