Κριτική αξιολόγηση της βιβλιογραφίας

Π. Σκαπινάκης Καθ. Ιατρικής Πανεπιστημίου Ιωαννίνων – Α. Γερμενής, Ομότ. Καθ. Ιατρικής Πανεπιστημίου Θεσσαλίας:

Παραπομπή ως: Σκαπινάκης, Π., Γερμενής, Α. Κριτική αξιολόγηση της βιβλιογραφίας. Archive. 2018, 14:33–50. DOI:10.5281/zenodo.4480833, ARK:/13960/t46r2dt4r

Abstract
The term critical appraisal, as used in evidence-based medicine (ΕBΜ), refers to the application of predetermined principles and rules for assessing the methodological quality and clinical usefulness of a scientific article. Of course, the need to evaluate medical studies is not new. However, the new “example” (according to Thomas Khun) of ΕΒΜ places great emphasis on this, because it aims to search for the best indications and, therefore, presupposes the application of a systematic method of prioritization and evaluation of the indications. Critical evaluation of the literature is the central step in the ΕΒΜ process and requires clinical knowledge of research methodology and clinical epidemiology.

Ο όρος κριτική αξιολόγηση (critical appraisal), όπως έχει χρησιμοποιηθεί στα πλαίσια της βασισμένης σε ενδείξεις Ιατρικής (evidence-based medicine, ΙΒΕ) αναφέρεται στην εφαρμογή προκαθορισμένων αρχών και κανόνων για την εκτίμηση της μεθοδολογικής ποιότητας και της κλινικής χρησιμότητας ενός επιστημονικού άρθρου. Η αναγκαιότητα αξιολόγησης των ιατρικών μελετών δεν είναι φυσικά καινούργια. Το νέο, όμως, “παράδειγμα” (κατά τον Thomas Khun) της ΙΒΕ δίνει εξέχουσα βαρύτητα σε αυτό, επειδή αποσκοπεί στην αναζήτηση των βέλτιστων ενδείξεων και, συνεπώς, προϋποθέτει την εφαρμογή μιας συστηματικής μεθόδου ιεράρχησης και αξιολόγησης των ενδείξεων. Η κριτική αξιολόγηση της βιβλιογραφίας συνιστά το κεντρικό βήμα στη διαδικασία της ΙΒΕ (πίν. 1) και απαιτεί από τον κλινικό γιατρό γνώσεις ερευνητικής μεθοδολογίας και κλινικής επιδημιολογίας.

Στη συνέχεια, συνοψίζονται οι αρχές, πάνω στις οποίες βασίζεται η αξιολόγηση ενός επιστημονικού άρθρου, με την αδρή σειρά που ακολουθείται κατά τον σχεδιασμό και την πραγματοποίηση μιας ερευνητικής μελέτης. Συζητούνται οι βασικοί τύποι (σχέδια) των ιατρικών μελετών, εξετάζονται οι κύριες στατιστικές διαδικασίες, που ακολουθούνται κατά την ανάλυση των ερευνητικών δεδομένων (στατιστική σημαντικότητα), παρουσιάζεται ο τρόπος, με τον οποίο διερευνώνται οι συσχετίσεις που ανευρίσκονται ως προς την αιτιακή συνάφεια (αιτιολογική συμπερασματολογία), και, τέλος, σχολιάζεται η έννοια της κλινικής σε αντιπαραβολή με εκείνη της στατιστικής σημαντικότητας.
Τύποι και σχέδια ερευνητικών μελετών:

Ο καλός σχεδιασμός μιας μελέτης αποτελεί βασική προϋπόθεση για την επίτευξη μεθοδολογικής εγκυρότητας. Κάθε ερευνητικό ερώτημα (που μπορεί να αφορά την αιτιολογία, τη διάγνωση, την πρόγνωση-φυσική ιστορία ή την πρόληψη-θεραπεία ενός νοσήματος) απαιτεί διαφορετικό σχεδιασμό για τη διερεύνησή του. Ο λανθασμένος σχεδιασμός οδηγεί αναπόφευκτα σε ελλιπή εσωτερική εγκυρότητα (ο βαθμός, κατά τον οποίο τα αποτελέσματα της έρευνας προσεγγίζουν την “αλήθεια”) και, κατά συνέπεια, και εξωτερική εγκυρότητα (ο βαθμός, κατά τον οποίο τα αποτελέσματα μιας έρευνας μπορούν να εφαρμοσθούν σε ευρύτερους πληθυσμούς, δηλαδή σε “πραγματικές συνθήκες”). Η ελλιπής εγκυρότητα, αντίθετα με ό,τι πιστεύεται, δεν μπορεί να βελτιωθεί με τη χρήση περίπλοκων και δυσνόητων στατιστικών τεχνικών.

Οι ερευνητικές μελέτες διακρίνονται σε πρωτογενείς, από τις οποίες προκύπτουν πρωτότυπα δεδομένα, και σε δευτερογενείς, που συνοψίζουν δεδομένα πρωτογενών μελετών. Οι πρωτογενείς μελέτες διακρίνονται περαιτέρω σε μη πειραματικές ή μελέτες παρατηρήσεως (οικολογικές, συγχρονικές, ασθενών-μαρτύρων και διαχρονικές ή μελέτες κοόρτης) και σε πειραματικές (κυρίως οι τυχαιοποιημένες ελεγχόμενες μελέτες, randomized controlled trials). Κάθε τύπος μελέτης είναι κατάλληλος για συγκεκριμένο γενικό σκοπό έρευνας (πίν. 2).

Μελέτες παρατηρήσεως
Βασική αρχή των μελετών παρατηρήσεως (observational studies) είναι ότι ο ερευνητής δεν παρεμβαίνει αλλά απλά παρατηρεί και καταγράφει με συστηματικό τρόπο κάτι που συμβαίνει. Οι μελέτες αυτές είναι πολύ διαδεδομένες στην Ιατρική, ακριβώς λόγω της μη πειραματικής φύσης τους. Ο ερευνητής δεν παρεμβαίνει άμεσα και έτσι δεν ανακύπτουν ηθικά θέματα, όπως συμβαίνει συχνά με τις πειραματικές μελέτες.

α. Οικολογικές μελέτες (ecological studies). Οι μελέτες αυτές ερευνούν τη συσχέτιση (association) μεταξύ νοσημάτων και παραγόντων ή χαρακτηριστικών σε επίπεδο συλλογικό (aggregate) και όχι ατομικό (individual). Οι οικολογικές συσχετίσεις υποκρύπτουν τον κίνδυνο της καλούμενης “οικολογικής πλάνης”. Συσχετίσεις, δηλαδή, στο συλλογικό επίπεδο μπορεί να μην ευσταθούν στο ατομικό επίπεδο. Παράδειγμα οικολογικής μελέτης αποτελεί η μελέτη των Lewis et al (Lancet 1994, 344:822), οι οποίοι εξέτασαν τη συσχέτιση μεταξύ του προτυπωμένου δείκτη θνησιμότητας από αυτοκτονίες (standardised mortality rate, SMR) και της παροχής ψυχιατρικών υπηρεσιών. Και οι δυο μεταβλητές είναι συλλογικές. Οι ερευνητές βρήκαν ότι τα ποσοστά αυτοκτονίας ήταν μεγαλύτερα σε περιοχές, όπου υπήρχαν περισσότεροι επαγγελματίες ψυχικής υγείας. Η συσχέτιση ωστόσο αυτή μειώθηκε πολύ, όταν οι ερευνητές έλαβαν υπόψη τις συγχυτικές επιδράσεις της οικονομικής ανάπτυξης και της παρουσίας πανεπιστημιακού νοσοκομείου σε κάθε περιοχή. Η ερμηνεία που έδωσαν, ήταν ότι περισσότεροι επαγγελματίες ψυχικής υγείας (στη Μ. Βρετανία) εργάζονται σε φτωχές περιοχές, λόγω της μεγαλύτερης ανάγκης. Επίσης, τα πανεπιστημιακά νοσοκομεία πιο συχνά βρίσκονται σε αστικές περιοχές με υψηλά ποσοστά αυτοκτονίας.

β. Συγχρονικές μελέτες (cross-sectional surveys). Στις μελέτες αυτές εξετάζεται η σχέση μεταξύ της νόσου ή κάποιου άλλου χαρακτηριστικού (‘έκβαση’ ή ‘εξαρτημένη μεταβλητή’ – outcome) και διαφόρων παραγόντων (‘έκθεση’ ή ‘ανεξάρτητη μεταβλητή’ – exposure) σε ένα συγκεκριμένο πληθυσμό, σε μια δεδομένη χρονική στιγμή. Με αυτό τον τρόπο μπορεί να προκύψουν στοιχεία για τον επιπολασμό (όχι όμως και για την επίπτωση, για τα νέα δηλαδή περιστατικά) μιας νόσου σε έναν πληθυσμό. Συγκρίνοντας τον επιπολασμό σε διαφορετικές υπο-ομάδες, που διαφέρουν ως προς τη συχνότητα των διαφόρων παραγόντων ή εκθέσεων, ελέγχονται και αιτιολογικές υποθέσεις. Ωστόσο, οι συσχετίσεις που αποκαλύπτονται με αυτόν τον τρόπο εξαρτώνται όχι μόνο από την έναρξη ενός νέου περιστατικού της νόσου (επίπτωση), αλλά και από τη χρονική της διάρκεια. Επίσης, με τον τύπο αυτό των μελετών δεν προσδιορίζεται αν ο παράγοντας κινδύνου προηγήθηκε της έναρξης της νόσου, και έτσι συχνά προκύπτουν, στην ερμηνεία των αποτελεσμάτων, προβλήματα αντίστροφης αιτιότητας. Το γενικό σχέδιο των συγχρονικών μελετών απεικονίζεται στην εικόνα 1. Παράδειγμα συγχρονικής μελέτης αποτελεί η εργασία των Skapinakis et al (Am J Psychiatry 2000, 157:1492). Στην εργασία αυτή μελετήθηκε ένα αντιπροσωπευτικό δείγμα 10000 περίπου Βρετανών και εκτιμήθηκε η κατάσταση της ψυχολογικής τους υγείας, καθώς και η παρουσία διαφόρων συμπτωμάτων, όπως η χρόνια κόπωση χωρίς εμφανή αιτία. Οι ερευνητές ανέλυσαν το σύμπτωμα της κόπωσης και ανέφεραν τον επιπολασμό της στο γενικό πληθυσμό, καθώς και τη σχέση της με την ψυχιατρική νοσηρότητα, η οποία ήταν πολύ ισχυρή. Η συγχρονική όμως φύση της μελέτης αυτής περιορίζει την αιτιολογική σημασία των αποτελεσμάτων, αφού η ψυχιατρική νοσηρότητα θα μπορούσε να είναι το αποτέλεσμα της κόπωσης και όχι η αιτία της, ή η ψυχιατρική νοσηρότητα θα μπορούσε να έχει σημασία στη διατήρηση της κόπωσης και όχι στην έκλυσή της.

γ. Μελέτες ασθενών-μαρτύρων (case-control studies). Στις αναδρομικές αυτές μελέτες, άτομα με τη νόσο συγκρίνονται με ομάδα ελέγχου χωρίς τη νόσο. Αν ο παράγοντας της έκθεσης είναι συχνότερος στους ασθενείς απ’ ό,τι στους μάρτυρες, η έκθεση μπορεί να αποτελεί παράγοντα κινδύνου για τη νόσο, ενώ αν είναι λιγότερο συχνός, μπορεί να αποτελεί προστατευτικό παράγοντα. Συνήθως, τα αποτελέσματα παρουσιάζονται με τη μορφή του λόγου του πηλίκου των συμπληρωματικών πιθανοτήτων (odds ratio). Το γενικό σχέδιο των μελετών αυτών απεικονίζεται στην εικόνα 2. Οι μελέτες αυτές είναι γρήγορες, έχουν σχετικά χαμηλό κόστος και είναι ιδανικές για τη μελέτη σπάνιων νοσημάτων, όπως π.χ. η σχιζοφρένεια. Είναι ωστόσο ευάλωτες σε συστηματικά σφάλματα, τόσο μέτρησης όσο και επιλογής (βλ. παρακάτω). Χρειάζεται ιδιαίτερη προσπάθεια, ώστε η ομάδα ελέγχου να δίνει μια αμερόληπτη εκτίμηση της συχνότητας της έκθεσης στον πληθυσμό, από τον οποίο προέρχονται οι ασθενείς. Για παράδειγμα, οι Kendell et al (Br J Psychiatry 1996, 168:556) διεξήγαγαν μια μελέτη ασθενών-μαρτύρων, με σκοπό να εξετάσουν τη συσχέτιση μεταξύ των μαιευτικών επιπλοκών και της ανάπτυξης σχιζοφρένειας στην ενήλικο ζωή. Βρήκαν μια ισχυρή θετική συσχέτιση και συμπέραναν ότι το ιστορικό μαιευτικών επιπλοκών, τόσο κατά τη διάρκεια της κύησης όσο και κατά τον τοκετό, αποτελούν παράγοντες που αυξάνουν τον κίνδυνο νόσησης από σχιζοφρένεια αρκετά χρόνια μετά. Ωστόσο, σε νέα τους εργασία (Br J Psychiatry 2000, 176:516) ανάλυσαν ξανά τα ίδια δεδομένα, έχοντας όμως μεγαλύτερο χρόνο παρακολούθησης, και βρήκαν το αντίθετο αποτέλεσμα. Διαπίστωσαν ότι το προηγούμενο αποτέλεσμα οφειλόταν σε συστηματικό σφάλμα επιλογής της ομάδας ελέγχου, που είχε δημιουργηθεί από το σχεδιασμό της μελέτης και το οποίο επέλεγε μάρτυρες με ασυνήθιστα χαμηλή συχνότητα μαιευτικών επιπλοκών. Στην πραγματικότητα, δεν υπήρχε σχέση μεταξύ μαιευτικών επιπλοκών και σχιζοφρένειας.

δ. Μελέτες κοόρτης ή διαχρονικές μελέτες (cohort studies, longitudinal studies). Στις μελέτες αυτές παρακολουθούνται για ένα χρονικό διάστημα δύο ομάδες ατόμων: μια που είναι εκτεθειμένη σε ένα δυνητικό παράγοντα κινδύνου για μια νόσο (π.χ. καπνιστές) και μια που δεν είναι εκτεθειμένη σε αυτόν τον παράγοντα (π.χ. μη καπνιστές). Όλοι οι συμμετέχοντες, κατά τη διάρκεια της εισαγωγής στη μελέτη, δεν νοσούν. Μετά τη λήξη της παρακολούθησης, συγκρίνεται η επίπτωση της νόσου (π.χ. καρκίνος πνεύμονα) στους εκτεθειμένους σε σχέση με τους μη εκτεθειμένους. Συνήθως, τα αποτελέσματα παρουσιάζονται με τη μορφή των σχετικών κινδύνων(relative risks). Μπορούν, όμως, να υπολογισθούν και απόλυτα μέτρα, όπως η διαφορά στην επίπτωση της νόσου μεταξύ των δύο συγκρινόμενων ομάδων (εκτεθειμένων – μη εκτεθειμένων). Το γενικό σχέδιο των μελετών αυτών απεικονίζεται στην εικόνα 3. Η βασική διαφορά από τις μελέτες ασθενών-μαρτύρων είναι ότι η ανίχνευση και μέτρηση της έκθεσης γίνονται πριν από την εμφάνιση της νόσου. Έτσι, αποφεύγονται τα συστηματικά σφάλματα επιλογής και μέτρησης.Επίσης, αποκλείεται ερμηνεία βασιζόμενη σε αντίστροφη αιτιότητα, αφού η έκθεση έχει προηγηθεί εξ ορισμού. Το μειονέκτημα είναι ότι οι έρευνες αυτές κοστίζουν πολύ και είναιιδιαίτερα δύσκολες για τη μελέτη σπάνιων εκβάσεων, λόγω του μεγάλου αριθμού συμμετεχόντων. Επίσης, ιδιαίτερη προσπάθεια χρειάζεται, ώστε να παρακολουθηθεί ο μεγαλύτερος δυνατός αριθμός μέχρι τέλους, επειδή η έκθεση μπορεί να σχετίζεται με τη συμπλήρωση της παρακολούθησης και αυτό θα εισάγει συστηματικό σφάλμα.

Μια ενδιαφέρουσα υποκατηγορία των μελετών κοόρτης αποτελούν οι λεγόμενες ιστορικές μελέτες κοόρτης. Σε αυτές χρησιμοποιούνται ιστορικά δεδομένα (δηλαδή, δεδομένα που έχουν ήδη συλλεχθεί, συχνά για άλλους σκοπούς), τόσο για την έκθεση, όσο και για την έκβαση. Με αυτόn τον τρόπο, δεν είναι ανάγκη να περιμένει κανείς για να καταγράψει την έκβαση, αφού αυτή έχει ήδη συμβεί στο παρελθόν. Η διαφορά από τις μελέτες ασθενών-μαρτύρων είναι ότι οι συμμετέχοντες επιλέγονται πρώτα ως προς την έκθεση και μετά παρακολουθούνται στο χρόνο μέχρι την καταγραφή της έκβασης. Μια κλασική μελέτη κοόρτης στην Ιατρική αποτελεί η μελέτη των Doll και Hill (Br Med J 1964, 1:1399) για τη σχέση καπνίσματος και καρκίνου του πνεύμονα, καθώς και η μελέτη Framingham στην Καρδιολογία (Dawber TR et al. Am J Publ Health 1951, 41:279).

Πειραματικές μελέτες
Οι πειραματικές μελέτες (εxperimental studies) χαρακτηρίζονται από την παρέμβαση του ερευνητή, ο οποίος συμμετέχει ενεργά στη διαμόρφωση των παραγόντων που επιδρούν πάνω στις συγκρινόμενες ομάδες. Οι πειραματικές μελέτες που ενδιαφέρουν ιδιαίτερα την Ιατρική είναι οι τυχαιοποιημένες ελεγχόμενες μελέτες (randomized controlled trials, RCTs). Οι μελέτες αυτές θεωρούνται ως οι πιο ενδεδειγμένες για την εξακρίβωση της αποτελεσματικότητας των προληπτικών ή θεραπευτικών παρεμβάσεων. Η ανάγκη για τυχαιοποίηση προκύπτει από το γεγονός ότι κατά τη διάρκεια μιας μελέτης είναι αδύνατο να ελεγχθούν όλοι οι πιθανοί συγχυτικοί παράγοντες, που μπορεί να δημιουργούν πλασματικές συσχετίσεις (το φαινόμενο της σύγχυσης -confounding- αναλύεται πιο κάτω). Η διαδικασία της τυχαιοποίησης εξασφαλίζει ότι οι πιθανοί συγχυτικοί παράγοντες θα έχουν παρόμοια κατανομή στις ομάδες που συγκρίνονται, εάν βεβαίως ο αριθμός των συμμετεχόντων είναι επαρκής. Αν δεν υπήρχαν πλασματικές συσχετίσεις και η έκβαση μπορούσε να προβλεφθεί με σχετική ακρίβεια, το σχέδιο των διαχρονικών μελετών θα ήταν επαρκές για την διερεύνηση της αποτελεσματικότητας των θεραπευτικών παρεμβάσεων. Η διενέργεια RCTs δικαιολογείται μόνο σε περιπτώσεις, όπου υπάρχει κλινική αβεβαιότητα. Αν δεν υπάρχει αμφισβήτηση για την αποτελεσματικότητα μιας θεραπείας και δεν συντρέχουν άλλοι λόγοι, π.χ. ερωτήματα σχετικά με την ασφάλεια ή την οικονομική της αποδοτικότητα της θεραπείας, τότε η πραγματοποίηση μιας RCT δεν είναι ορθή. Όσο πιο κοινό είναι το θεραπευτικό δίλημμα, τόσο πιο ενδιαφέρουσα και χρήσιμη γίνεται μια RCT. Η κλινική αβεβαιότητα συμβάλλει, επίσης, στην ηθική αποδοχή της τυχαιοποίησης από ασθενείς και ερευνητές. Αν ο κλινικός γιατρός δεν είναι βέβαιος για τα αποτελέσματα μιας θεραπείας, τότε το τυχαιοποιημένο πείραμα είναι, από ηθικής πλευράς, ορθή ή ακόμα και επιβεβλημένη επιλογή.

Στην εικόνα 4 φαίνεται το γενικό σχέδιο των RCTs. Τονίζεται ιδιαίτερα ότι οι ασθενείς πρέπει να κατανέμονται στις δυο ομάδες (παρέμβασης και ελέγχου) με αμερόληπτο τρόπο. Αυτό μπορεί να γίνει μόνο με την απόκρυψη της διαδικασίας τυχαιοποίησης από εκείνους, που κάνουν την αρχική εκτίμηση των ασθενών για το αν πληρούν τα κριτήρια εισόδου. Λόγω της μεγάλης της σημασίας, η μέθοδος απόκρυψης (concealment) της τυχαιοποίησης έχει χρησιμοποιηθεί και ως μέτρο της μεθοδολογικής ποιότητας μιας RCT.

Η εγκυρότητα της σύγκρισης των ομάδων που προέκυψαν με την τυχαιοποίηση εξαρτάται, επίσης, από την αμερόληπτη εκτίμηση της έκβασης στις ομάδες αυτές. Αυτό, συνήθως, εξασφαλίζεται, όταν ο εκτιμητής δεν γνωρίζει σε ποια ομάδα ανήκει ο ασθενής. Οι RCTs είναι συνήθως διπλές τυφλές, δηλαδή τόσο ο ασθενής όσο και ο εκτιμητής δεν γνωρίζουν την ομάδα, στην οποία τοποθετήθηκε ο πρώτος. Τριπλό τυφλό λέγεται το σχέδιο, όταν επιπλέον και ο ερευνητής, που αναλύει τα δεδομένα, δεν γνωρίζει την ομάδα κατανομής.

Ένα από τα κυριότερα προβλήματα που δυσκολεύουν την ερμηνεία των αποτελεσμάτωντων RCTs αφορά τους ασθενείς εκείνους, που ‘χάνονται’ κατά τη διάρκεια της παρακολούθησης ή αποσύρονται για άλλους λόγους από τη μελέτη. Η απόσυρση ασθενών έχει ως αποτέλεσμα τη δημιουργία ανομοιογένειας στις συγκρινόμενες ομάδες και αυτή μπορεί να οδηγήσει σε απώλεια των ωφελειών της αρχικής τυχαιοποίησης. Αν χαθούν πολλοί ασθενείς, είναι πιθανό τα όποια αποτελέσματα να οφείλονται σε αδιευκρίνιστους συγχυτικούς παράγοντες και να είναι πλασματικά. Επίσης, δεδομένου ότι εκείνοι που χάνονται είναι πιο συχνά ασθενείς που έχουν μεγάλη πιθανότητα φτωχής έκβασης, υπάρχει σημαντική πιθανότητα να παρεισφρήσει και συστηματικό σφάλμα επιλογής, όταν χάνονται κατά προτεραιότητα ασθενείς από τη μια ομάδα. Σημειώνεται ότι ο αναγνώστης μιας RCT πρέπει να είναι ιδιαίτερα επιφυλακτικός σε μελέτες, κατά τις οποίες έχουν χρησιμοποιηθεί περίπλοκες στατιστικές τεχνικές, για να σταθμίσουν ως προς τις απώλειες ασθενών κατά την παρακολούθηση.

Ένας τρόπος να διαφυλαχθούν τα οφέλη της τυχαιοποίησης είναι με τη λεγόμενη ανάλυση με βάση την αρχική θεραπευτική πρόθεση, όπως αυτή διαμορφώθηκε από την τυχαιοποίηση (intention to treat analysis). Σ’ αυτού του τύπου την ανάλυση, όλοι οι ασθενείς που τυχαιοποιήθηκαν αρχικά, συμπεριλαμβάνονται στην ανάλυση ως μέλη της αρχικής ομάδας κατανομής, ανεξάρτητα αν τελικά έλαβαν αυτήν ή άλλη θεραπεία (π.χ. αλλαγή της ομάδας μπορεί να έγινε λόγω ανεπιθυμήτων ενεργειών ή ανεπαρκούς ανταπόκρισης). Σε περίπτωση που υπάρχουν ελλιπή δεδομένα, χρησιμοποιούνται όσα στοιχεία υπάρχουν, μέχρι που ο ασθενής‘βγήκε’ από τη μελέτη. Με τον τρόπο αυτό, διατηρούνται τα οφέλη της τυχαιοποίησης, αλλά με το μειονέκτημα της μείωσης του μεγέθους της διαφοράς στην έκβαση, που μπορεί να μην είναιεμφανής σε οριακές καταστάσεις.

Αν και οι RCTs θεωρούνται από πολλούς ως πρότυπο για την εξακρίβωση της αποτελεσματικότητας των θεραπειών, δεν λείπουν και εκείνοι που εκφράζουν τις επιφυλάξεις τους. Τρία είναι τα κύρια επιχειρήματά τους:

α. Εξωτερική εγκυρότητα. Οι RCTs αποκλείουν συνήθως τόσες πολλές κατηγορίες ασθενών (οι οποίοι δεν πληρούν τα κριτήρια εισόδου, δεν συναινούν στην τυχαιοποίηση κ.λπ.), που τα αποτελέσματά τους μπορεί να έχουν μειωμένη κλινική χρησιμότητα..
β. Δυσκολίες στη διεξαγωγή τους. Για πολλά θέματα δεν είναι δυνατό να διεξαχθούν τυχαιοποιημένες μελέτες, ιδιαίτερα αναφορικά με σπάνιες εκβάσεις. Για παράδειγμα, μια μελέτη για την πρόληψη των αυτοκτονιών θα έπρεπε να τυχαιοποιήσει χιλιάδες άτομα.
γ. Σπανιότητα επαρκών RCTs. Πολλοί υποστηρίζουν ότι ο αριθμός των μεθοδολογικά έγκυρων RCTs θα είναι πάντα περιορισμένος και έτσι θα υπάρχουν αναρίθμητες κλινικές αποφάσεις που θα πρέπει να λαμβάνονται με βάση άλλες βιβλιογραφικές ενδείξεις.

Βασικά θέματα στη στατιστική ανάλυση
Το δείγμα της μελέτης
Τον πληθυσμό (population) της μελέτης αποτελούν όλα τα άτομα που αφορά η διεξαγωγή της, π.χ. ο πληθυσμός των ανδρών 50-70 ετών με στεφανιαία νόσο που κατοικούν στην Ελλάδα. Επειδή, συνήθως, δεν είναι δυνατό να μελετηθεί ολόκληρος ο πληθυσμός επιλέγεται ένα δείγμα(sample) των ατόμων αυτών, το οποίο και μελετάται λεπτομερειακά. Υπογραμμίζεται, όμως, ότι τελικός στόχος είναι να εξαχθούν συμπεράσματα για όλον τον πληθυσμό. Αυτό επιτυγχάνεται θεωρητικά, αν επιλεγεί ένα τυχαίο (random) δείγμα που θα είναι αντιπροσωπευτικό(representative) του πληθυσμού.
Αν επιλεγούν δύο τυχαία δείγματα 100 ατόμων, από έναν πληθυσμό που έχει την ίδια αναλογία ανδρών και γυναικών (50% άνδρες, 50% γυναίκες), το ένα δείγμα μπορεί να περιέχει 55γυναίκες και το άλλο 44 γυναίκες. Αυτό δεν σημαίνει ότι τα δείγματα δεν είναι “σωστά”. Ο τυχαίος τρόπος επιλογής των δειγμάτων είχε ως αποτέλεσμα την εισαγωγή σφάλματος κατά τη μέτρηση του χαρακτηριστικού αυτού (φύλου). Αυτό ονομάζεται δειγματική μεταβλητότητα (sampling variation). Η εκτίμηση της δειγματικής μεταβλητότητας γίνεται με στατιστικές τεχνικές, ώστε να καθίσταται δυνατή η εξαγωγή ακριβών συμπερασμάτων για τον πληθυσμό, από τον οποίο προέρχεται το δείγμα. Υπενθυμίζεται ότι, αν δεν υπήρχε μεταβλητότητα, δεν θα υπήρχε και λόγος για την εφαρμογή στατιστικών τεχνικών!

Έλεγχος υποθέσεων
Οι μελέτες, συνήθως, αποσκοπούν στο να απαντήσουν σε κλινικά ερωτήματα του τύπου:“Υπάρχει κάποια διαφορά μεταξύ αυτών των δύο μεθόδων για τη θεραπεία του άσθματος;”. Στη στατιστική, το ερώτημα αυτό συνήθως παίρνει τη μορφή δύο στατιστικών υποθέσεων, οι οποίες ελέγχονται για την ορθότητά τους, της μηδενικής υπόθεσης και των εναλλακτικών. Η μηδενική υπόθεση, η οποία συμβολίζεται ως H0, αντιπροσωπεύει την κατάσταση, κατά την οποία δεν υπάρχει διαφορά ή μεταβολή, ενώ οι εναλλακτικές, που συμβολίζονται ως H1, αντιπροσωπεύουν την κατάσταση εκείνη, κατά την οποία υπάρχει διαφορά μεταξύ των δυο μεθόδων.

Το κριτήριο για το ποια από τις δύο υποθέσεις είναι σωστή αποτελεί το γνωστό p (p-value).Η τιμή του p αποτελεί την πιθανότητα να βρεθεί ένα αποτέλεσμα τουλάχιστον τόσο ακραίο, όσο θα βρισκόταν, αν η μηδενική υπόθεση ήταν σωστή. Μικρή τιμή του κριτηρίου p, όπως π.χ. 0,05,σημαίνει ότι είναι σχετικά απίθανο το αποτέλεσμα αυτό να οφείλεται στην τύχη, και αυτό αποτελεί στοιχείο εναντίον της μηδενικής υπόθεσης. Αντίθετα, μεγάλη τιμή του κριτηρίου p τείνει σε γενικές γραμμές να υποστηρίζει τη μηδενική υπόθεση. Παραδοσιακά, η κρίσιμη τιμή του p που επιλέγεται στην Ιατρική, για να γίνει ο διαχωρισμός μεταξύ απόρριψης ή μη της μηδενικής υπόθεσης, είναι το 0,05 (ή 5%). Σημειώνεται ότι, όταν η τιμή είναι μεγαλύτερη του 0,05, δεν αναφέρεται ότι η μηδενική υπόθεση ισχύει, αλλά ότι τα δεδομένα της μελέτης δεν υποστηρίζουν την απόρριψή της(ένα άλλο δείγμα, π.χ. μεγαλύτερου μεγέθους, θα μπορούσε να έχει μικρότερη τιμή p).

Σφάλματα τύπου Ι και τύπου ΙΙ
Κατά τον έλεγχο των στατιστικών υποθέσεων μπορεί να γίνουν δύο ειδών σφάλματα:

Ως σφάλμα τύπου Ι ορίζεται εκείνο, κατά το οποίο η μηδενική υπόθεση, αν και αληθής, απορρίπτεται. Αν ορισθεί ως επίπεδο σημαντικότητας το 5%, αυτό σημαίνει ότι το 5% όλων των στατιστικά σημαντικών διαφορών είναι στην πραγματικότητα σφάλματα τύπου Ι. Όσο πιο πολλές υποθέσεις ελέγχονται στα δεδομένα, τόσο πιο πολύ αυξάνεται η πιθανότητα εσφαλμένου“στατιστικά σημαντικού” αποτελέσματος.
Ως σφάλμα τύπου ΙΙ ορίζεται εκείνο, κατά το οποίο η μηδενική υπόθεση, αν και εσφαλμένη, δεν απορρίπτεται. Για παράδειγμα, σε μια μελέτη με μικρό δείγμα, είναι αρκετά πιθανό να υπάρξει μεγάλη τιμή του κριτηρίου p, παρότι στον πληθυσμό υπάρχει πραγματικά διαφορά. Τα σφάλματα τύπου ΙΙ πρέπει πάντοτε να λαμβάνονται υπόψη σε όλες τις μελέτες με αρνητικά αποτελέσματα. Τα διαστήματα εμπιστοσύνης (βλ. παρακάτω) μπορούν να βοηθήσουν στην καλύτερη εκτίμηση των αρνητικών αποτελεσμάτων.

Στατιστική ισχύς
Ο όρος στατιστική ισχύς (power) μιας μελέτης αναφέρεται στην πιθανότητα να παρατηρηθεί ένα στατιστικά σημαντικό αποτέλεσμα υποθέτοντας ότι ο πληθυσμός της μελέτης παρουσιάζει μια διαφορά συγκεκριμένου μεγέθους. Πρόκειται, ουσιαστικά, για την πιθανότητα να μην υπάρχει σφάλμα τύπου ΙΙ. Η ισχύς μιας μελέτης εξαρτάται από τρεις παράγοντες: το επίπεδο σημαντικότητας που επιλέγεται (συνήθως 5%), το μέγεθος του αποτελέσματος το οποίο θεωρείται ότι ισχύει για τον πληθυσμό της μελέτης και το μέγεθος του δείγματος. Ο υπολογισμός της ισχύος μιας μελέτης πρέπει να γίνεται κατά τη φάση του σχεδιασμού και εξαρτάται ιδιαίτερα από το μέγεθος του αποτελέσματος που προβλέπεται ότι θα προκύψει. Όσο μικρότερες διαφορές σχεδιάζεται να διερευνηθούν με τη μελέτη, τόσο μικρότερη είναι και η ισχύς της. Σε γενικές γραμμές, ένα αποδεκτό όριο για την ισχύ μιας μελέτης αποτελεί το 80%. Με βάση αυτή την τιμή, μπορεί να υπολογίσθεί το μέγεθος του δείγματος που απαιτείται στο επίπεδο σημαντικότητας 5%.

Η ερμηνεία των “στατιστικά σημαντικών” αποτελεσμάτων
Το 5% όλων των στατιστικών δοκιμασιών που εφαρμόζονται, δίνουν στατιστικά σημαντικόαποτέλεσμα στο επίπεδο σημαντικότητας 5%, για τυχαίους λόγους. Το επίπεδο αυτό είναι βέβαια αυθαίρετο και δεν υπάρχει αληθινή διαφορά μεταξύ του επιπέδου 4% ή 6%. Αν μια μελέτη αναφέρει 20 τιμές p, τότε μια από αυτές αναμένεται να είναι στατιστικά σημαντική μόνο από τύχη .Όσο πιο πολλές δοκιμασίες γίνονται, τόσο αυξάνεται η πιθανότητα σφαλμάτων τύπου Ι.

Διαστήματα εμπιστοσύνης
Είναι γνωστό ότι οι εκτιμήσεις των παραμέτρων μιας μελέτης (π.χ. μέση τιμή, αναλογίακ.λπ.) υπόκεινται σε δειγματοληπτικό σφάλμα. Το πρωταρχικό ενδιαφέρον των ερευνητών είναι το μέγεθος του αποτελέσματος, γι’ αυτό και υπάρχει ανάγκη να είναι γνωστή η ακρίβεια με την οποία έχει εκτιμηθεί η κάθε παράμετρος, π.χ. η αναλογία. Τα διαστήματα εμπιστοσύνης(confidence intervals) βασίζονται στην εκτίμηση του μεγέθους του αποτελέσματος, ενώ ταυτόχρονα δίνουν και το μέτρο της αβεβαιότητας που σχετίζεται με την εκτίμηση αυτή. Το τυπικό σφάλμα (standard error) δείχνει την ακρίβεια, με την οποία εκτιμάται η αληθινή τιμή της παραμέτρου στον πληθυσμό, από το δείγμα που έχει χρησιμοποιηθεί στη μελέτη. Αν γίνει η ίδια μελέτη πολλές φορές, χρησιμοποιώντας κάθε φορά και διαφορετικό τυχαίο δείγμα, τότε το τυπικό σφάλμα μπορεί να θεωρηθεί ως η τυπική απόκλιση (standard deviation) των δειγματικών μέσων τιμών. Μεγαλύτερα δείγματα έχουν μικρότερα τυπικά σφάλματα, αφού αυξάνεται η ακρίβεια, με την οποία εκτιμάται η παράμετρος στον πληθυσμό.
Τα διαστήματα εμπιστοσύνης μιας παραμέτρου υπολογίζονται με τον γνωστό τύπο:

95% ΔΕ = τιμή της παραμέτρου στο δείγμα ± (1,96* SE) όπου, ΔΕ= διάστημα εμπιστοσύνης και SE= τυπικό σφάλμα.

Την τελευταία δεκαετία, οι στατιστικοί και τα ιατρικά περιοδικά έχουν, σε γενικές γραμμές, συμφωνήσει ότι τα αποτελέσματα πρέπει να αναφέρονται με τα διαστήματα εμπιστοσύνης τους και όχι με τις τιμές του κριτηρίου p, επειδή το τελευταίο δεν δίνει εκτίμηση του εύρους των πιθανών τιμών της παραμέτρου.

Αιτιολογική συμπερασματολογία
Στην πράξη, η διερεύνηση της αιτιολογίας των νοσημάτων γίνεται με τη μελέτη της συσχέτισης (association) διαφόρων παραγόντων με το νόσημα που ενδιαφέρει. Στην επιδημιολογική ορολογία, συχνά αναφέρεται με τον όρο έκθεση (exposure) ο παράγοντας και με τον όρο έκβαση (outcome) το νόσημα.

Ο όρος συσχέτιση είναι ένας γενικός όρος που χρησιμοποιείται για να περιγράψει τη (στατιστική) σχέση μεταξύ δυο ή περισσοτέρων συμβάντων, χαρακτηριστικών ή μεταβλητών. Συσχέτιση υπάρχει, όταν η πιθανότητα της εμφάνισης ενός συμβάντος ή χαρακτηριστικού ή το μέγεθος μιας μεταβλητής εξαρτάται από την παρουσία ενός ή περισσοτέρων συμβάντων ή χαρακτηριστικών ή από το μέγεθος μιας ή περισσοτέρων μεταβλητών. Η συσχέτιση μπορεί να είναι αρνητική ή θετική. Η παρουσία, όμως, μιας συσχέτισης δεν σημαίνει κατ’ ανάγκην και αιτιολογική σχέση μεταξύ της έκθεσης και της έκβασης. Η διερεύνηση της φύσης μιας συσχέτισης ονομάζεται αιτιολογική συμπερασματολογία. Μια συσχέτιση μπορεί να οφείλεται σε πέντε λόγους (εικ. 5):

1. Τύχη (chance) ή τυχαία διακύμανση (random variation). Ένας παράγοντας μπορεί να βρεθεί ότι συσχετίζεται με ένα νόσημα για λόγους καθαρά τυχαίας διακύμανσης. Με άλλα λόγια, το δείγμα που επιλέχθηκε να μελετηθεί έτυχε να αναδεικνύει μια συσχέτιση που δεν ισχύει στον ευρύτερο πληθυσμό. Εκεί ακριβώς έγκειται ο ρόλος της στατιστικής, να βοηθήσει δηλαδή στην εκτίμηση του κατά πόσον μια συσχέτιση οφείλεται στην τύχη. Συχνά, χρησιμοποιείται ο όροςστατιστικά σημαντική συσχέτιση για να δηλώσει ότι η συσχέτιση που βρέθηκε είναι σχετικά απίθανο (π.χ. λιγότερο από 5% των περιπτώσεων) να οφείλεται στην τύχη. Η εύρεση μιας στατιστικά σημαντικής συσχέτισης δεν σημαίνει ότι ο παράγοντας έχει αιτιολογική σχέση με το νόσημα, αν δεν αποκλεισθούν και οι άλλες εναλλακτικές ερμηνείες. Επίσης, μια στατιστικά μη σημαντική σχέση δεν σημαίνει απαραίτητα ότι πράγματι δεν υπάρχει συσχέτιση. Μπορεί τομέγεθος του δείγματος να ήταν πολύ μικρό για να την καταδείξει (σφάλμα τύπου ΙΙ).

2. Σε συστηματικά σφάλματα (bias). Τα συστηματικά σφάλματα μπορούν να επηρεάσουν μια συσχέτιση και προς τις δύο κατευθύνσεις, είτε προς τα πάνω είτε προς τα κάτω. Σε καμιά μελέτη δεν απουσιάζουν πλήρως, ο προσεκτικός όμως σχεδιασμός και εκτέλεση μιας μελέτης θα πρέπει να αποσκοπούν στην ελαχιστοποίηση των σφαλμάτων.

Τα σφάλματα ταξινομούνται συνήθως σε σφάλματα επιλογής (selection bias) και σφάλματα πληροφορίας ή μέτρησης (information or measurement bias). Τα συστηματικά σφάλματα επιλογής προκύπτουν κατά την επιλογή του πληθυσμού της μελέτης, όταν οι ερευνητικές μονάδες που επιλέγονται δεν είναι αντιπροσωπευτικές του πληθυσμού-στόχου. Αν και μπορούν να υπεισέλθουν σε όλους τους τύπους ερευνών, τα σφάλματα επιλογής αποτελούν ιδιαίτερο πρόβλημα στις αναδρομικού τύπου έρευνες, όπως οι μελέτες ασθενών-μαρτύρων (case-control). Στην περίπτωση αυτή, σφάλμα επιλογής μπορεί να υπεισέλθει, αν οι μάρτυρες δεν προέρχονται από τον ίδιο πληθυσμό, από τον οποίο προέρχονται οι ασθενείς και έτσι η συχνότητα του παράγοντα έκθεσης στους μάρτυρες δεν μπορεί να αποτελέσει μέτρο σύγκρισης. Για παράδειγμα, ας υποτεθεί ότι θέλουμε να μελετήσουμε αν η παρουσία μικρών παιδιών στο σπίτι αυξάνει τη συχνότητα της κατάθλιψης στις γυναίκες. Για το σκοπό αυτό σχεδιάζεται μια μελέτη ασθενών-μαρτύρων και ως ασθενείς θεωρούνται γυναίκες που νοσηλεύονται σε ψυχιατρικά νοσοκομεία για κατάθλιψη. Αν ως ομάδα ελέγχου χρησιμοποιηθούν γυναίκες χωρίς κατάθλιψη που ζουν στην κοινότητα, μπορεί τα αποτελέσματα να είναι εσφαλμένα, επειδή η νοσηλεία σε ψυχιατρικό νοσοκομείο ενδέχεται να είναι λιγότερο πιθανή, όταν υπάρχουν μικρά παιδιά. Με άλλα λόγια, αν οι γυναίκες μάρτυρες αρρωστήσουν, μπορεί να μην νοσηλευθούν, ακριβώς επειδή έχουν μικρά παιδιά. Έτσι, η ύπαρξη μικρών παιδιών, στην περίπτωση αυτή, μπορεί να είναι το ίδιο συχνή ή και λιγότερο συχνή στις γυναίκες που νοσηλεύονται. Άλλο παράδειγμα σφάλματος επιλογής αναφέρθηκε παραπάνω στη συζήτηση των μελετών ασθενών-μαρτύρων με τη μελέτη των μαιευτικών επιπλοκών και τη σχέση τους με τη σχιζοφρένεια.

Τα σφάλματα πληροφορίας ή μέτρησης συμβαίνουν, όταν η διαδικασία μέτρησης ή επιβεβαίωσης της έκβασης επηρεάζεται από τη γνώση της έκθεσης ή αντιστρόφως. Αυτό συμβαίνει συχνά στις αναδρομικές μελέτες, που η έκβαση είναι γνωστή και οι ασθενείς μπορεί να ανακαλούν πιο συχνά στη μνήμη τους, συγκριτικά με τους μάρτυρες, τον παράγοντα κινδύνου που μελετάται. Αυτό ονομάζεται σφάλμα ανάκλησης (recall bias). Για παράδειγμα, σε μια μελέτη για το ρόλο των λιπιδίων στον καρκίνο του μαστού, οι ασθενείς μπορεί να θυμούνται πιο συχνά την κατανάλωση λιπαρών τροφών συγκριτικά με τους μάρτυρες. Επίσης, σε προοπτικές μελέτες, η γνώση της έκθεσης μπορεί να εισάγει σφάλμα, αν η διάγνωση τίθεται πιo συχνά σε εκείνους που είχαν εκτεθεί στον παράγοντα. Σε αυτές τις περιπτώσεις, επιχειρείται η εκτίμηση της έκβασης (π.χ. η διάγνωση) να γίνεται ‘τυφλά’, χωρίς δηλαδή ο εκτιμητής να γνωρίζει αν ο συμμετέχων στην έρευνα είχε εκτεθεί στον παράγοντα ή όχι. Έτσι, στις RCTs, κατά τις οποίες οι ασθενείς χωρίζονται τυχαία σε δύο ομάδες, π.χ. ενεργού και αδρανούς φαρμάκου, η εκτίμηση της έκβασης (π.χ. βελτίωση των συμπτωμάτων) γίνεται, όπως έχει ήδη αναφερθεί, με ‘τυφλό’ τρόπο και μάλιστα ‘διπλό τυφλό’, δηλαδή ούτε οι ερευνητές ούτε οι ασθενείς γνωρίζουν ποιος έχει λάβει ποια θεραπεία.

3. Σε συγχυτικούς παράγοντες (confounding factors). Σύγχυση είναι το φαινόμενο, κατά το οποίο η συσχέτιση μεταξύ δύο μεταβλητών, όπως ενός παράγοντα κινδύνου και της νόσου, οφείλεται απόλυτα ή εν μέρει στην ύπαρξη ενός άλλου παράγοντα που συσχετίζεται και με τις δύο μεταβλητές. Οι συγχυτικοί λοιπόν παράγοντες έχουν δυο χαρακτηριστικά: (α) συσχετίζονται με τον παράγοντα που μελετάται και (β) συσχετίζονται με την έκβαση (εικ. 6). Αυτό μπορεί να οδηγήσει είτε σε μείωση της συσχέτισης είτε σε αύξησή της. Αν μια συσχέτιση οφείλεται σε συγχυτικούς παράγοντες αυτό δεν σημαίνει ότι δεν είναι αληθινή, αλλά ότι ερμηνεύεται με άλλο τρόπο. Η ηλικία και το φύλο είναι συχνοί συγχυτικοί παράγοντες γι’ Αυτό και πολλές φορές τα αποτελέσματα των μελετών σταθμίζονται ως προς αυτές τις μεταβλητές.4. Σε αντίστροφη αιτιολογική σχέση (reverse causality). Όταν παρατηρείται μια συσχέτιση μεταξύ δυο μεταβλητών, η κατεύθυνση της αιτιότητας μπορεί να είναι και προς τις δύο κατευθύνσεις. δηλαδή, αν ο παράγοντας Α συσχετίζεται με το Β, τότε μπορεί το Α να αποτελεί αίτιο του Β ή το Β να αποτελεί αίτιο του Α. Για παράδειγμα, αν σε μια μελέτη βρεθεί συσχέτιση μεταξύ κατάθλιψης και διαζυγίου, αυτή μπορεί να οφείλεται είτε στο γεγονός ότι τα διαζύγια αυξάνουν τον κίνδυνο κατάθλιψης, είτε στο ότι η κατάθλιψη αυξάνει την πιθανότητα να χωρίσει ένα ζευγάρι. Όπως γίνεται αντιληπτό, η αντίστροφη αιτιότητα είναι μεγαλύτερο πρόβλημα στις συγχρονικές ή αναδρομικές μελέτες, σε αντίθεση με τις προοπτικές.

5. Σε αιτιολογική σχέση (causality). Το γεγονός ότι υπάρχουν πολλές εναλλακτικές ερμηνείες για την ύπαρξη μιας συσχέτισης, δεν σημαίνει ότι δεν υπάρχουν περιπτώσεις, όπου, με αρκετή ασφάλεια, μπορεί να θεωρήθεί ότι ένας παράγοντας αποτελεί πραγματικά μέρος της αιτιολογίας ενός νοσήματος. Η προηγούμενη συζήτηση όμως δείχνει ότι στη διαδικασία αυτή χρειάζεται ιδιαίτερη προσοχή. Η αποδοχή ενός παράγοντα ως αιτιολογικού διευκολύνεται από μια σειρά κριτηρίων που έχουν αναπτυχθεί, με πιο γνωστά αυτά του Bradford Hill (πίν. 3), που αναπτύχθηκαν σε μεγάλο βαθμό κατά τη διάρκεια των μελετών για τη διαλεύκανση της σχέσης καπνίσματος και καρκίνου του πνεύμονα τη δεκαετία 1960-70.

Κλινική σημαντικότητα των αποτελεσμάτων
Μια μελέτη μπορεί να είναι μεθοδολογικά έγκυρη αλλά να μην είναι κλινικά χρήσιμη. Το παράδοξο αυτό φαινόμενο μπορεί να οφείλεται σε δυο κυρίως λόγους. Πρώτον, το είδος της έκβασης (outcome), το οποίο έχει χρησιμοποιηθεί, μπορεί να μην είναι κατάλληλο για την απευθείας μεταφορά των αποτελεσμάτων στην κλινική πράξη και, δεύτερον, το μέγεθος του αποτελέσματος (π.χ. της διαφοράς στην αποτελεσματικότητα δύο αντιϋπερτασικών φαρμάκων) να μην είναι τέτοιο που να δικαιολογεί την αλλαγή της κλινικής πράξης.

Είδη εκβάσεων σχετιζόμενων με την υγεία
Έκβαση θεωρείται κάθε μεταβολή της κλινικής κατάστασης των ατόμων που συμμετέχουν σε μια μελέτη, η οποία σχετίζεται με την έκθεσή τους (exposure) είτε σε παράγοντες κινδύνου είτεσε θεραπευτικές ή προληπτικές παρεμβάσεις (interventions). Γενικά, διακρίνονται δύο είδη εκβάσεων: (α) οι βιολογικές ή ψυχοκοινωνικές που δεν σχετίζονται άμεσα με τη νόσο (π.χ. τιμές χοληστερόλης, σκορ σε μια κλίμακα για την εκτίμηση του κοινωνικού υποστηρικτικού δικτύου του ασθενή) και β) οι κλινικές που έχουν άμεση σχέση με το νόσημα. Οι μη κλινικές εκβάσεις δεν μπορούν παρά να θεωρηθούν ως υποκατάστατα των κλινικών και έτσι δεν μπορούν να χρησιμοποιούνται για την αλλαγή της κλινικής πράξης. Ένα φάρμακο που μειώνει την χοληστερόλη (βιολογική παράμετρος) δεν μπορεί να χρησιμοποιηθεί για την πρόληψη της στεφανιαίας νόσου, εκτός αν τεκμηριώνεται η αποτελεσματικότητά του στη μείωση της επίπτωσης της στεφανιαίας νόσου (κλινική έκβαση). Οι κλινικές εκβάσεις που είναι χρήσιμες στην πράξη, συνήθως αναφέρονται στους τομείς: θάνατος (death), ανικανότητα (disability), στάδιο νόσου(disease status), έλλειψη ικανοποίησης από τη νοσηλεία (dissatisfaction with process of care) και δυσφορία για τις συνέπειες της ασθένειας (discomfort about the effects of disease)(μνημοτεχνικός κανόνας των “five Ds”).

Μέτρα του αποτελέσματος
Για να εκτιμηθεί κατά πόσον το μέγεθος του αποτελέσματος είναι τέτοιο, ώστε να δικαιολογείται η αλλαγή της κλινικής πράξης (δηλαδή, αν είναι κλινικά και όχι μόνο στατιστικά σημαντικό) χρειάζεται κάποιο μέτρο της αποτελεσματικότητας (measure of effect). Στην έρευνα, χρησιμοποιούνται δύο είδη μέτρων, τα σχετικά (relative measures) και τα απόλυτα (absolute measures). Τα σχετικά περιλαμβάνουν, μεταξύ άλλων, το σχετικό κίνδυνο (relative risk) και τον λόγο του πηλίκου των συμπληρωματικών πιθανοτήτων (odds ratio). Τα σχετικά μέτρα είναι χρήσιμα στη διερεύνηση της αιτιολογίας των νοσημάτων, αλλά όχι και για την κλινική πράξη, όπου ενδιαφέρει και το απόλυτο αποτέλεσμα. Η διαφορά των δύο μέτρων φαίνεται στο ακόλουθο παράδειγμα. Ας υποτεθεί ότι σε μια κλινική μελέτη η ομάδα που έλαβε εικονικό φάρμακο εμφάνισε τη νόσο σε ποσοστό 90%, ενώ εκείνη που πήρε το ενεργό φάρμακο σε ποσοστό 30%.Το αποτέλεσμα της μελέτης εκφρασμένο σε σχετικούς όρους θα ήταν ότι το φάρμακο επέφερε μια μείωση του σχετικού κινδύνου νόσησης (relative risk reduction) κατά 66% (90% – 30% / 90%=66%). Η μείωση του απόλυτου κινδύνου (absolute risk reduction) είναι 60% (90% – 30% = 60%).Αν οι αριθμοί αλλάξουν ως εξής: εικονικό φάρμακο 9%, ενεργό φάρμακο 3%, τότε η μείωση του σχετικού κινδύνου παραμένει 66% αλλά η μείωση του απόλυτου κινδύνου περιορίζεται στο 6%.Αν και η μείωση του σχετικού κινδύνου είναι σημαντική και ίδια με το πρώτο παράδειγμα, η μείωση του απόλυτου κινδύνου μπορεί να είναι μικρής κλινικής σημασίας. Το παράδειγμα δείχνει πολύ εύγλωττα το μειονέκτημα των σχετικών μέτρων, ότι δηλαδή δεν μπορούν να διακρίνουν μεταξύ μικρών και μεγάλων αποτελεσμάτων.

Συνηθισμένα απόλυτα μέτρα που χρησιμοποιούνται για δυαδικές (ναι – όχι) εκβάσεις είναιο απόλυτος κίνδυνος (absolute risk) ή ο οφειλόμενος κίνδυνος (attributable risk) που ορίζονται με τον ίδιο τρόπο, δηλαδή ως η διαφορά στον κίνδυνο εμφάνισης της έκβασης μεταξύ των δυο συγκρινόμενων ομάδων, καθώς και ο αριθμός ασθενών που απαιτείται προς θεραπεία (number needed to treat, ΝΝΤ) που ορίζεται ως ο ελάχιστος αριθμός των ασθενών, στους οποίους πρέπει να εφαρμοστεί η παρέμβαση (θεραπεία) προκειμένου να προληφθεί ένα επεισόδιο της υπό μελέτη έκβασης. Για παράδειγμα, ο αριθμός των ασθενών που πρέπει να υποβληθούν σε αντιλιπιδαιμική θεραπεία, ώστε να προληφθεί ένας θάνατος από στεφανιαία νόσο. Ο υπολογισμός του αριθμού αυτού είναι πολύ απλός, αφού αποτελεί το αντίστροφο κλάσμα της μείωσης του απόλυτου κινδύνου. Στο προηγούμενο παράδειγμα της κλινικής μελέτης, όπου ο απόλυτος κίνδυνος ήταν 90% για το εικονικό φάρμακο και 30% για το ενεργό, η μείωση του απόλυτου κινδύνου είναι 60% και ο ΝΝΤ για την πρόληψη ενός επεισοδίου της ανεπιθύμητης έκβασης είναι 100/60=1,66 ασθενείς. Αλλάζοντας τους αριθμούς σε 9% και 3%, αντίστοιχα, η μείωση του απόλυτου κινδύνου είναι 6% και ο ΝΝΤ είναι 16,66 ασθενείς. Η σύγκριση των δύοNNT δείχνει την κλινική σημαντικότητα των δύο αυτών αποτελεσμάτων.

Γλωσσάρι Κλινικής Επιδημιολογίας
-Absolute risk difference (Διαφορά απόλυτου κινδύνου) Η διαφορά του κινδύνου νόσησης ή θανάτου μεταξύ του πληθυσμού, που έχει εκτεθεί στον υπό μελέτη παράγοντα (π.χ κάπνισμα)και του πληθυσμού που δεν έχει εκτεθεί.
-Absolute risk reduction (ARR) (Μείωση απόλυτου κινδύνου) Η διαφορά του απόλυτουκινδύνου μεταξύ της ομάδας, στην οποία εφαρμόστηκε η παρέμβαση και της ομάδας ελέγχου (π.χ. 20% στεφανιαία νόσος στην ομάδα που πήρε αντιλιπιδαιμικό φάρμακο, 30% στην ομάδαplacebo – διαφορά 10%).
-Absolute risk (Απόλυτος κίνδυνος) Η παρατηρούμενη ή υπολογιζόμενη πιθανότητα ενός συμβάντος στον πληθυσμό που μελετάται (π.χ. ο κίνδυνος νόσησης από στεφανιαία νόσο ήταν20%).
-Association (Συσχέτιση) Η στατιστική σχέση μεταξύ δύο ή περισσοτέρων συμβάντων,χαρακτηριστικών ή άλλων μεταβλητών. Η συσχέτιση μπορεί να είναι τυχαία ή να οφείλεται στην επίδραση συστηματικών σφαλμάτων ή συγχυτικών παραγόντων. Η στατιστική συσχέτιση σπανίως είναι αιτιολογική.
-Bias (Συστηματικό σφάλμα) Οποιοδήποτε σφάλμα στο σχεδιασμό, τη διεξαγωγή ή τηνανάλυση μιας μελέτης, που έχει ως συνέπεια την εσφαλμένη εκτίμηση του αποτελέσματος τηςέκθεσης στη συχνότητα (κίνδυνο) της νόσου.
-Blind(ed) study (Τυφλή μελέτη) Στην περίπτωση των πειραματικών μελετών, μελέτη στην οποία δεν είναι γνωστή στους ερευνητές ή και στα άτομα που συμμετέχουν η τελική κατανομή (ποια είναι δηλαδή η ομάδα παρέμβασης και ποια η ομάδα ελέγχου). Στην περίπτωση μελετών παρατηρήσεως, μελέτη στην οποία δεν είναι γνωστός ο πληθυσμός, από τον οποίο προέρχονται τα άτομα. Όταν η κατανομή δεν είναι γνωστή ούτε στους ερευνητές ούτε στα άτομα που συμμετέχουν, η μελέτη ονομάζεται “διπλή τυφλή”. Όταν και η στατιστική ανάλυση γίνεται χωρίς να γνωρίζει ο ερευνητής την ομάδα, από την οποία προέρχονται τα άτομα, η μελέτη πολλές φορές περιγράφεται ως “τριπλή τυφλή”. Σκοπός της “τυφλής” μελέτης είναι να περιοριστούν τα συστηματικά σφάλματα που μπορεί να υπεισέλθουν κατά τη διεξαγωγή των ερευνών.
-Case-control study (Μελέτη ασθενών-μαρτύρων) Αναδρομική μελέτη, στην οποίασυγκρίνονται άτομα με τη νόσο (ασθενείς) με άτομα χωρίς τη νόσο (μάρτυρες) ως προς τησυχνότητα έκθεσης σε έναν παράγοντα (βλ. και Retrospective study – Αναδρομική μελέτη). -Case-series (Σειρά περιστατικών) Τύπος μελέτης, στον οποίο περιγράφεται μια σειράομοειδών περιστατικών.
-Cohort study (Μελέτη κοόρτης) Τύπος μελέτης, κατά τον οποίο μια ομάδα ατόμων (‘κοόρτη’) παρακολουθείται για ένα χρονικό διάστημα, κατά τη διάρκεια του οποίου συλλέγονται πληροφορίες ως προς έναν ή περισσότερους παράγοντες (‘εκθέσεις’) και μετά τη λήξη της παρακολούθησης συγκρίνεται η επίπτωση της νόσου (‘έκβαση’) μεταξύ εκείνων που ήταν εκτεθειμένοι στον ή στους παράγοντες και εκείνων που δεν ήταν εκτεθειμένοι.
-Confidence interval (CI) (διαστήματα εμπιστοσύνης) Το εύρος των τιμών μιας μεταβλητής, εντός του οποίου, με αρκετά μεγάλη εμπιστοσύνη (υπολογισμένη ως πιθανότητα, π.χ. 90% ή 95%), είναι δυνατό να θεωρηθεί ότι θα βρίσκεται η τιμή για τον πληθυσμό, από τον οποίο προέρχεται το δείγμα (δηλαδή η ‘αληθής’ τιμή). Τα διαστήματα εμπιστοσύνης είναι δείκτης της ισχύος της ένδειξης (‘strength of evidence’) και της ακρίβειας, με την οποία αυτή εκτιμάται. Όταν τα διαστήματα είναι μεγάλα, η ακρίβεια είναι μικρή και αντιστρόφως. Το μέγεθος του δείγματος επηρεάζει σημαντικά τα διαστήματα εμπιστοσύνης. Μικρά δείγματα έχουν μεγάλα διαστήματα και μικρή ακρίβεια, ενώ μεγάλα δείγματα έχουν μικρά διαστήματα. Σε μια μελέτη με θετικά ευρήματα, αν το κάτω όριο του διαστήματος είναι και αυτό κλινικά σημαντικό, τότε τα αποτελέσματα μπορούν να γίνουν πιο εύκολα αποδεκτά στην πράξη. Σε μελέτες με αρνητικά ευρήματα πρέπει να ελέγχεται και το άνω όριο, για να διαπιστωθεί μήπως δεν είναι κλινικά σημαντικό, ώστε να απορριφθούν τα ευρήματα της μελέτης.
-Confounding variable (Συγχυτικός παράγοντας/μεταβλητή) Παράγοντας (π.χ. κατανάλωση αλκοόλ), ο οποίος συσχετίζεται τόσο με την έκθεση που μελετάται (π.χ. κάπνισμα), όσο και με την έκβαση (π.χ. καρκίνος παγκρέατος) και δημιουργεί, κατ’ αυτό τον τρόπο, πλασματική συσχέτιση μεταξύ έκθεσης και έκβασης (δηλαδή, μεταξύ καπνίσματος και καρκίνου του παγκρέατος – αυτή η συσχέτιση είναι πλασματική).
-Control event rate (CER) (δείκτης εμφάνισης έκβασης στην ομάδα ελέγχου) Το ποσοστό της ομάδας ελέγχου (π.χ. placebo) που παρουσίασε την υπό μελέτη έκβαση (π.χ. θάνατο).
-Effectiveness (Αποτελεσματικότητα) Μέτρο της ωφέλειας που προκύπτει από μια παρέμβαση σε συνθήκες συνήθους κλινικής φροντίδας για ένα συγκεκριμένο κλινικό πρόβλημα σε έναν συγκεκριμένο πληθυσμό. Η αποτελεσματικότητα περικλείει τόσο τη δραστικότητα μιας παρέμβασης όσο και την αποδοχή της από εκείνους, στους οποίους προσφέρεται ή εφαρμόζεται.
-Efficacy (δραστικότητα) Μέτρο της ωφέλειας που προκύπτει από μια παρέμβαση σε συνθήκες ιδανικής κλινικής φροντίδας (π.χ. σε μια έρευνα) για ένα συγκεκριμένο κλινικό πρόβλημα σε έναν συγκεκριμένο πληθυσμό. Μια παρέμβαση μπορεί να είναι δραστική κάτω από ιδανικές ερευνητικές συνθήκες αλλά όχι και αποτελεσματική κάτω από πραγματικές συνθήκες.
-Experimental event rate (EER) (δείκτης εμφάνισης έκβασης στην ομάδα παρέμβασης) Το ποσοστό της ομάδας παρέμβασης που εμφάνισε την υπό μελέτη έκβαση.
-Follow-up (διαχρονική παρακολούθηση) Η παρατήρηση για κάποιο χρονικό διάστημα ενός ατόμου, μιας ομάδας ή ενός συγκεκριμένου εξαρχής πληθυσμού.
-Gold standard (Το πρότυπο σύγκρισης) Η μέθοδος, διαδικασία ή μέτρηση που είναι ευρύτατα αποδεκτή ως η καλύτερη διαθέσιμη.
-Incidence (Επίπτωση) Ο αριθμός των νέων περιπτώσεων μιας νόσου ή των ατόμων, σταοποία γίνεται διάγνωση μιας νόσου σε ένα συγκεκριμένο πληθυσμό σε μια χρονική περίοδο ορισμένης διάρκειας.
-Information Bias (Συστηματικό σφάλμα πληροφορίας ή μέτρησης) Σφάλματα που συμβαίνουν, όταν η διαδικασία μέτρησης ή επιβεβαίωσης της έκβασης επηρεάζεται από τη γνώση της έκθεσης ή αντιστρόφως.
-Intention to treat analysis (Ανάλυση με στόχο τη θεραπεία) Μέθοδος ανάλυσης των δεδομένων μιας τυχαιοποιημένης ελεγχόμενης μελέτης, κατά την οποία τα δεδομένα αναλύονται σύμφωνα με την ταξινόμηση που προέκυψε από τη διαδικασία τυχαιοποίησης και όχι ανάλογα με την τελική ταξινόμηση που μπορεί να προέκυψε κατά τη διάρκεια της διεξαγωγής της μελέτης. Το πρόβλημα προκύπτει, όταν κάποια άτομα που είχαν τοποθετηθεί σε μια από τις δύο ομάδες (π.χ. στην ομάδα placebo) αλλάζουν ομάδα για λόγους κλινικούς (π.χ. επιδείνωση της κατάστασης). Αν, στη φάση της ανάλυσης, τα δεδομένα από τα άτομα αυτά θεωρηθούν ότι ανήκουν στη νέα ομάδα, χάνεται το πλεονέκτημα της αρχικής τυχαιοποίησης και τα αποτελέσματα της μελέτης έχουν περιορισμένη χρησιμότητα.
-Likelihood ratio (Λόγος πιθανοφάνειας) Στα πλαίσια του ελέγχου των διαγνωστικών δοκιμασιών, ο όρος εκφράζει την πιθανότητα (α) ανεύρεσης θετικής της δοκιμασίας μεταξύ των νοσούντων προς την πιθανότητα ανεύρεσής της θετικής μεταξύ των μη νοσούντων (λόγος πιθανοφάνειας για θετικό αποτέλεσμα) ή (β) ανεύρεσης αρνητικής της δοκιμασίας μεταξύ των νοσούντων προς την πιθανότητα ανεύρεσής της αρνητικής μεταξύ των μη νοσούντων (λόγος πιθανοφάνειας για αρνητικό αποτέλεσμα). Δηλαδή, στον παρακάτω τετράπτυχο πίνακα:

Το πλεονέκτημα του λόγου των πιθανοφανειών, έναντι άλλων πιο κλασικών μεθόδων για την εκτίμηση των αποτελεσμάτων μιας διαγνωστικής δοκιμασίας, είναι ότι δεν επηρεάζεται από τον επιπολασμό της νόσου στο δείγμα όπου εφαρμόζεται. Επίσης, μπορεί να μετατραπεί εύκολα στην πιθανότητα ένα άτομο να έχει τη νόσο αν το αποτέλεσμα της δοκιμασίας είναι θετικό (posttest probability), εφόσον είναι γνωστή η πιθανότητά του να έχει τη νόσο πριν από τη δοκιμασία (pretest probability).
-Number Needed to Treat (NNT) (Αριθμός ασθενών που απαιτείται προς θεραπεία) Ο ελάχιστος αριθμός των ασθενών, στους οποίους πρέπει να εφαρμοστεί η παρέμβαση (θεραπεία), προκειμένου να προληφθεί ένα επεισόδιο της υπό μελέτη έκβασης. Για παράδειγμα, ο αριθμός των ασθενών που πρέπει να υποβληθούν σε αντιλιπιδαιμική θεραπεία,για να προληφθεί ένας θάνατος από στεφανιαία νόσο.
-Odds, Οdds Ratio (Πηλίκο συμπληρωματικών πιθανοτήτων, Λόγος του πηλίκου συμπληρωματικών πιθανοτήτων) Ο όρος αναφέρεται στην πιθανότητα να συμβεί ένα συμβάν προς τη (συμπληρωματική) πιθανότητα να μη συμβεί. Ο λόγος συγκρίνει δύο ομάδες, π.χ.ομάδα ενεργού και ομάδα αδρανούς φαρμάκου ως προς τη στατιστική τους συσχέτιση με την υπό μελέτη έκβαση και, ως εκ τούτου, αποτελεί μέτρο του βαθμού της συσχέτισης μεταξύ δύο μεταβλητών: μιας εξαρτημένης (π,χ, νόσος) και μιας ανεξάρτητης (π.χ. παράγοντας κινδύνου). Για παράδειγμα, σε μια τυχαιοποιημένη μελέτη από τους 100 ασθενείς που πήραν ενεργό φάρμακο οι 60 έγιναν καλά (odds= 60/40), και από τους 100 που πήραν αδρανές φάρμακο οι 40 έγιναν καλά (odds=40/60). Το odds ratio είναι 60/40: 40/60=2,25. Αυτό σημαίνει ότι εκείνοι που πήραν ενεργό φάρμακο ήταν 2,25 φορές πιο πιθανό να γίνουν καλά σε σχέση με εκείνους που πήραν αδρανές φάρμακο. Στην περίπτωση αυτή, το odds ratio εκτιμά τη συσχέτιση μεταξύ τηςέκβασης (εξαρτημένη μεταβλητή) και του είδους της θεραπείας (ανεξάρτητη μεταβλητή).
-Precision (Ακρίβεια) Στα πλαίσια της εκτιμητικής, ο όρος αναφέρεται στον βαθμό της αβεβαιότητας, με την οποία εκτιμάται η αληθής τιμή μιας παραμέτρου στον πληθυσμό, από τον οποίο προέρχεται το δείγμα της μελέτης. Η εκτίμηση αυτή γίνεται με τον υπολογισμό του τυπικού σφάλματος (standard error) της παραμέτρου και των διαστημάτων εμπιστοσύνης (βλ.Confidence interval – διαστήματα εμπιστοσύνης).
-Predictive value (διαγνωστική ή προγνωστική αξία μιας διαγνωστικής δοκιμασίας ή δοκιμασίας διαλογής) Η πιθανότητα ύπαρξης της νόσου, όταν υπάρχει θετικό εύρημα στησυγκεκριμένη διαγνωστική δοκιμασία ή εξέταση προσυμπτωματικού ελέγχου ή η πιθανότητα απουσίας της νόσου, όταν υπάρχει αρνητικό εύρημα. Η διαγνωστική αξία μιας δοκιμασίας προσυμπτωματικού ελέγχου εξαρτάται από την ευαισθησία και την ειδικότητα της δοκιμασίας, καθώς και από τον επιπολασμό της κατάστασης (νόσου) για την οποία εφαρμόζεται ο έλεγχος.
-Prevalence (Επιπολασμός) Η αναλογία των πασχόντων από τη νόσο σε ένα συγκεκριμένο πληθυσμό, σε μια ορισμένη χρονική στιγμή.
-Prognosis (Πρόγνωση) Η ενδεχόμενη έκβαση κάποιας κατάστασης ή νόσου και η πιθανότητά της να εμφανισθεί.
-Prognostic factor (Προγνωστικός παράγοντας) Χαρακτηριστικά (π.χ. δημογραφικοί παράγοντες, παράγοντες σχετιζόμενοι με τη νόσο κ.λπ.) που συσχετίζονται έντονα με την έκβαση μιας κατάστασης, ώστε να μπορούν να προβλέψουν με ακρίβεια την τελική εμφάνιση αυτής της έκβασης (σύγκρινε με παράγοντα κινδύνου). Ούτε οι παράγοντες κινδύνου ούτε οι προγνωστικοί παράγοντες υποδηλώνουν απαραίτητα σχέση αιτίας-αποτελέσματος.
-Prospective study (Προοπτική μελέτη) Μελέτη στην οποία μια ή περισσότερες ομάδες ατόμων (κοόρτες), που κατά την είσοδο στη μελέτη δεν εμφάνιζαν την έκβαση (π.χ. νόσο) που μελετάται, παρακολουθούνται για τη συχνότητα εμφάνισης της έκβασης αυτής στο χρόνο που διαρκεί η μελέτη.
-Randomized controlled trial (Τυχαιοποιημένη ελεγχόμενη μελέτη) Μελέτη κατά την οποία οι παρεμβάσεις ή η ταξινόμηση σε διαφορετικές ομάδες επιτυγχάνονται με τυχαία κατανομή των συμμετεχόντων και όχι με ιδία απόφαση των ερευνητών ή των ασθενών ή ‘όπως τύχει’. Αν το μέγεθος του δείγματος είναι αρκετά μεγάλο, με το είδος αυτό των μελετών αποφεύγονται τα προβλήματα που μπορούν να προκύψουν λόγω συστηματικών σφαλμάτων ή συγχυτικών παραγόντων, επειδή θεωρείται ότι όλοι οι γνωστοί ή άγνωστοι παράγοντες, που μπορούν να επηρεάσουν την εγκυρότητα της μελέτης, κατανέμονται ισότιμα μεταξύ των ομάδων που συγκρίνονται.
-Relative risk (RR) (Σχετικός κίνδυνος) Ο λόγος της πιθανότητας εμφάνισης μιας έκβασης (σε μια συγκεκριμένη χρονική περίοδο) μεταξύ των ατόμων, στα οποία εφαρμόζεται μια θεραπευτική παρέμβαση ή είναι εκτεθειμένα σε έναν παράγοντα κινδύνου, προς την αντίστοιχη πιθανότητα των ατόμων, στα οποία δεν εφαρμόζεται η θεραπευτική παρέμβαση ή δεν είναι εκτεθειμένα στον παράγοντα κινδύνου.
-Relative risk reduction (RRR) (Μείωση σχετικού κινδύνου) Ο βαθμός (η έκταση, το μέγεθος), κατά τον οποίο μια θεραπευτική παρέμβαση ελαττώνει τον κίνδυνο εμφάνισης της έκβασης στα άτομα που εφαρμόζεται, συγκριτικά με τα άτομα στα οποία δεν εφαρμόζεται.
-Retrospective study (Αναδρομική μελέτη) Μελέτη κατά την οποία η συλλογή των δεδομένων γίνεται, αφού έχει ήδη συμβεί η υπό μελέτη έκβαση (βλ. και Μελέτες ασθενών-μαρτύρων).
-Risk factor (Παράγοντας κινδύνου) Κάποιο χαρακτηριστικό του ασθενή ή παράγοντας που σχετίζεται στατιστικά με αυξημένη πιθανότητα εμφάνισης μιας κατάστασης ή νόσου (σύγκρινε με Προγνωστικό παράγοντα ). Ούτε οι παράγοντες κινδύνου ούτε οι προγνωστικοί παράγοντες υποδηλώνουν απαραίτητα σχέση αιτίας-αποτελέσματος.
-Selection Bias (Συστηματικό σφάλμα επιλογής) Αυτό το είδος συστηματικού σφάλματος προκύπτει, όταν οι επιλεγόμενες ομάδες ασθενών και μαρτύρων διαφέρουν μεταξύ τους, όσον αφορά την παρουσία ενός ή περισσοτέρων παραγόντων, που μπορεί να συσχετίζονται με την έκβαση. Γενικότερα, συστηματικά σφάλματα επιλογής προκύπτουν, όταν ο πληθυσμός της μελέτης δεν είναι αντιπροσωπευτικός του ευρύτερου πληθυσμού αναφοράς, από τον οποίο προέρχεται το δείγμα της μελέτης. Για παράδειγμα σε μια μελέτη για την πρόγνωση των σπασμών στην παιδική ηλικία, η επιλογή νοσοκομειακού δείγματος θα αναδείξει βαρύτερη πρόγνωση λόγω σφάλματος επιλογής.
-Sensitivity (of a diagnostic test) (Ευαισθησία διαγνωστικής δοκιμασίας) Η αναλογία των ορθώς θετικών μεταξύ των νοσούντων (όπως αυτοί αναγνωρίζονται με τη χρήση της μεθόδου που αποτελεί το πρότυπο σύγκρισης).
-Specificity (of a diagnostic test) (Ειδικότητα διαγνωστικής δοκιμασίας). Η αναλογία των ορθώς αρνητικών μεταξύ εκείνων που δεν νοσούν (όπως αυτοί αναγνωρίζονται με τη χρήση της μεθόδου που αποτελεί το πρότυπο σύγκρισης).
-Validity (Εγκυρότητα) Η έκταση στην οποία μια μεταβλητή μετρά αυτό που υποτίθεται ότι μετρά ή μια παρέμβαση επιτελεί αυτό που υποτίθεται ότι επιτελεί. Στα πλαίσια μιας μελέτης, η εξωτερική εγκυρότητα αναφέρεται στη δυνατότητα γενίκευσης των αποτελεσμάτων της και σε πληθυσμούς ευρύτερους από τον πληθυσμό της μελέτης, ενώ ο όρος εσωτερική εγκυρότητα αναφέρεται στην μεθοδολογική αρτιότητα και συνοχή της μελέτης. Μια μελέτη μπορεί να έχει εσωτερική εγκυρότητα αλλά πολύ μικρή γενικευσιμότητα λόγω π.χ. αποκλεισμού πολλών κατηγοριών ασθενών από τη μελέτη.

Βιβλιογραφία
BLACK N. 1996, Why we need observational studies to evaluate the effectiveness of health care. Br Med J. 312, 1215-1218.
BROWN GW, HARRIS T. 1978, Social Origins of Depression. London: Tavistock.
FEINSTEIN AR. 1974, A survey of the statistical procedures in general medical journals. Clin Pharmacol Therap 15, 97-107.
KUNZ R, OXMAN AD. 1998, The unpredictability paradox: review of empirical comparisons of randomised and nonrandomised clinical trials. Br Med J 317, 1185-1190.
LAST JM. 1995, A Dictionary of Epidemiology. 3rd ed, New York: Oxford University Press.
LAU J, IOANNIDIS JPA, SCHMID CH. 1998, Summing up evidence: one answer is not always enough. Lancet. 351, 123-127.
LEWIS G, THOMAS H, CANNON M, JONES P. 2001, Epidemiological Methods. In: Thornicroft G, Szmukler G (eds)Textbook of Community Psychiatry. Oxford: Oxford University Press.
MACMAHON B, TRICHOPOULOS D. 1996, Epidemiology. Principles and Methods. Little, Boston: Brown and Company.
MCKEE M, BRITTON A, BLACK N, MCPHERSON K, SANDERSON C, BAIN C. 1999, Methods in health services research. Interpreting the evidence: choosing between randomised and non-randomised studies. Br Med J. 319, 312-315.
MUIR GRAY J. 1997, Evidence Based Health Care. How to Make Health Policy and Management Decisions. New York: Churchill, Livingstone.
POCOCK SJ. 1983, Clinical Trials. A Practical Approach. Chichester: John Wiley & Sons.
ROTHMAN KJ, GREENLAND S. 1998, Modern Epidemiology. 2nd ed. Philadelphia: Lippincott Williams and Wilkins,.
SACKETT B, STRAUS S, RICHARDSON WS, ROSENBERG W, HAYNES RB. 2000, Evidence Based Medicine: How to practice and teach EBM. 2nd ed. Edinburgh: Churchill Livingstone.
ΣΚΑΠΙΝAΚΗΣ Π. 2001, Συστηματικές Ανασκοπήσεις και συστηματικά σφάλματα. Αρχ Ελλην Ιατρ 17, 440-445.
THOMPSON SG. 1994, Why sources of heterogeneity in meta-analysis should be investigated. Br Med J , 309, 1351-1355.

Licensed under a Creative Commons Attribution-ShareAlike 4.0 International License. Writers are the copyright holders of their work and have right to publish it elsewhere with any free or non free license they wish.