Στην ψυχομετρική θεωρία, η εγκυρότητα ενός τεστ είναι η έκταση στην οποία το τεστ μετρά αυτό που προτίθεται ή σκοπεύει να μετρήσει. Μας πληροφορεί για το τι είναι βάσιμο να συμπεράνουμε από τις βαθμολογίες του τεστ.

Τεστ επιπέδου ντροπαλότητας

Φανταστείτε ένα υποθετικό νέο τεστ που σχεδιάστηκε για να μετρήσει το επίπεδο ντροπαλότητας. Ονομάζεται Τεστ Επιπέδου Ντροπαλότητας και δίνει σε κάθε υποκείμενο έναν βαθμό ντροπαλότητας, το Ντ. Q. Ένα υψηλό Ντ. Q. σημαίνει ότι το άτομο είναι πολύ ντροπαλό. Το τεστ περιλαμβάνει μια σειρά θεμάτων τα οποία ζητούν από τους ερωτώμενους να δηλώσουν πώς θα ήταν πιθανό να συμπεριφερθούν σε διάφορες κοινωνικές καταστάσεις που απαιτούν κάποια δράση.

Από την ονομασία του, από τον σκοπό των ανθρώπων που το κατασκεύασαν και από την εμφάνιση των θεμάτων του λοιπόν, το τεστ φαίνεται ότι είναι αυτό που δηλώνει ότι είναι: η μέτρηση μιας θεωρητικής εννοιολογικής κατασκευής, της ντροπαλότητας.

Επιπρόσθετα, η μέθοδος επαναληπτικής μέτρησης, που υπολογίζει την αξιοπιστία των βαθμολογιών, δείχνει ότι οι βαθμολογίες από το Τεστ Επιπέδου Ντροπαλότητας είναι σταθερές σε μια χρονική περίοδο δύο εβδομάδων και ότι ο συντελεστής αξιοπιστίας των ημικλάστων δείχνει πως το μετρά με συνέπεια οποιοδήποτε χαρακτηριστικό.

Το πρόβλημα με το Τεστ Επιπέδου Ντροπαλότητας είναι το τι μετρά.

Κλινικοί ψυχολόγοι που έχουν χρησιμοποιήσει το νέο τεστ αναφέρουν ότι το επίπεδο του Ντ. Q. δεν φαίνεται να είναι σχετικό με το επίπεδο ντροπαλότητας που δείχνουν οι ασθενείς τους κατά τη διάρκεια των κλινικών συνεντεύξεων.

Εγκυρότητα του Τεστ Επιπέδου Ντροπαλότητας

Πολλοί ασθενείς που σημειώνουν υψηλό Ντ. Q. φαίνονται στους ψυχολόγους ότι είναι κάπως «βολικοί» στις κοινωνικές καταστάσεις, ότι έχουν μια σχετικά καλή οπτική επαφή και ότι μιλούν χωρίς δισταγμό όταν τους γίνονται ερωτήσεις.

Επιπλέον, μια μελέτη που αναφέρεται σε ένα ψυχολογικό περιοδικό δείχνει ότι οι βαθμολογίες του Τεστ Επιπέδου Ντροπαλότητας παρουσιάζουν πολύ αδύναμη θετική συσχέτιση με τις βαθμολογίες της κλίμακας Κοινωνικής εσωστρέφειας του τεστ MMPI, η οποία συνιστά γενικά μια μέτρηση καλής θεώρησης του ίδιου χαρακτηριστικού.

Με λίγα λόγια, παρά την ονομασία του και τις καλές προθέσεις των κατασκευαστών του, ανεξάρτητα κριτήρια δείχνουν ότι το Τεστ Επιπέδου Ντροπαλότητας δεν είναι έγκυρο ως μέτρηση της θεωρητικής έννοιας «ντροπαλότητα».

Κριτική στο Τεστ Επιπέδου Ντροπαλότητας

Μια προσεκτική εξέταση των περιεχομένων του Τεστ Επιπέδου Ντροπαλότητας φανερώνει μια πιθανή πηγή των προβλημάτων του.

Πολλές απαντήσεις οι οποίες αυξάνουν τη βαθμολογία Ντ.Q. ενός υποκειμένου δεν δείχνουν αυτό που συνήθως εννοούμε ως ντροπαλότητα, αλλά δείχνουν την ανταπόκριση σε κοινά κοινωνικά ήθη και συνήθειες.

Για παράδειγμα, η βαθμολογία Ντ. Q. αυξάνεται αν ένα άτομο απαντήσει «όχι» στην ερώτηση: «Θα μπορούσατε να ζητήσετε μια μεγάλη χάρη από κάποιον που δεν ξέρετε;». Αλλά δεν είναι μόνο τα ντροπαλά άτομα που διστάζουν να υποχρεωθούν σε αγνώστους. Οι περισσότεροι άνθρωποι πιστεύουν ότι αυτό είναι ανάρμοστο ή αγενές.

Με άλλα λόγια, η ανάλυση των περιεχομένων του Τεστ Επιπέδου Ντροπαλότητας φανερώνει ότι στην πραγματικότητα μπορεί να πρόκειται για ένα τεστ ευγένειας και όχι ντροπαλότητας.

Παρόλο που το τεστ μετρά αξιόπιστα και φαινομενικά έχει την εμφάνιση ενός τεστ ντροπαλότητας, δεν αποτελεί έγκυρη μέτρηση αυτής της θεωρητικής εννοιολογικής κατασκευής. Επειδή το τεστ δεν είναι έγκυρο για τον σκοπό της εκτίμησης της ντροπαλότητας, δεν δικαιολογείται η εξαγωγή συμπερασμάτων βάσει των βαθμολογιών του, διότι αυτά τα συμπεράσματα θα έχουν υψηλή πιθανότητα λάθους.

Ένα τεστ μπορεί να είναι αξιόπιστο χωρίς να είναι έγκυρο

Βλέπουμε ότι ένα τεστ μπορεί να είναι αξιόπιστο χωρίς να είναι έγκυρο για κάποιον συγκεκριμένο σκοπό. Ας δούμε ένα πιο ακραίο παράδειγμα. Σκεφτείτε τι θα μπορούσε να συνέβαινε αν κάποιος θεωρούσε μια ζυγαριά μπάνιου ως καλό εργαλείο για τη μέτρηση του ύψους. Η αξιοπιστία με τη μέθοδο της επαναληπτικής μέτρησης θα ήταν πολύ υψηλή, το ίδιο και η αξιοπιστία με τη μέθοδο των παράλληλων τύπων (με τη ζυγαριά μέτρησης του γείτονα!).

Πολλές αποφάσεις που θα βασίζονταν πάνω σε αυτό το αξιόπιστο αλλά όχι έγκυρο μέσο για τη μέτρηση του ύψους (όπως η επιλογή παικτών για μια ομάδα μπάσκετ!) θα ήταν λανθασμένες.

Ένα τεστ μπορεί να είναι αξιόπιστο χωρίς να είναι έγκυρο. Αλλά για να είναι έγκυρο, ένα τεστ πρέπει να είναι αξιόπιστο.

Ένα έγκυρο τεστ θα έχει υψηλές συσχετίσεις με ανεξάρτητες μετρήσεις ενός χαρακτηριστικού, τέτοιες όπως εξειδικευμένες αναφορές κλινικών ψυχολόγων ή άλλες σχετικές αναφορές ή τα αποτελέσματα από άλλα τεστ.

Αν όμως δεν υπάρχει υψηλή αξιοπιστία στο βασικό μέσο μέτρησης, τότε είναι μαθηματικά αδύνατον οι βαθμολογίες αυτού του τεστ να έχουν αληθή συστηματική συσχέτιση στα επίπεδα κάποιων φαινομένων, τότε δεν είναι δυνατόν να έχουν συστηματική σχέση με κάποια άλλη μέτρηση.

Αν και συχνά ενδιαφερόμαστε περισσότερο για τη σχέση μεταξύ βαθμολογιών του τεστ και μερικών κλινικών καταστάσεων, το πρωταρχικό μας ενδιαφέρον πρέπει πάντοτε να είναι η αξιοπιστία ή σταθερότητα αυτού του εργαλείου μέτρησης.

Η αναγκαιότητα σταθερότητας στις ψυχομετρικές μετρήσεις

Χρήσιμα συμπεράσματα δεν μπορούν να εξαχθούν από ένα μέσο το οποίο δίνει μια διαφορετική μέτρηση κάθε φορά που χρησιμοποιείται. Παρότι οι μετρήσεις που προσφέρονται από τη ζυγαριά του μπάνιου είναι θεωρητικά συνεπείς με την έννοια του σωματικού βάρους, η ζυγαριά δεν μπορεί να προσφέρει μια έγκυρη ένδειξη ούτε αυτού του φαινομένου παρά μόνο αν μετρά σταθερά το βάρος.

Επομένως, ένα τεστ που είναι έγκυρο για την κλινική διάγνωση θα μετρά σταθερά και θα μετρά αυτό που είναι σκόπιμο να μετρά.

Για να είναι πραγματικά χρήσιμο για την κλινική διάγνωση, ένα τέστ θα προσφέρει επιπρόσθετα πληροφόρηση η οποία επιτρέπει στον κλινικό να αναγνωρίσει καταστάσεις που είναι πιθανό να βοηθήσουν τον ασθενή.

Ο ρόλος των εμπειρικών μεθόδων

Η εγκυρότητα ενός τεστ δεν πρέπει να αποδεικνύεται με γενικούς ορισμούς. Επιπρόσθετα, στις λογικές ή θεωρητικές αναλύσεις της σχέσης μεταξύ των περιεχομένων ενός τεστ και των χαρακτηριστικών που αποσκοπεί να μετρήσει, υπάρχει μια ποικιλία εμπειρικών μεθόδων για πιο ακριβή εκτίμηση της ικανότητας του τεστ να εκτελέσει συγκεκριμένες λειτουργίες με συγκεκριμένες ομάδες υποκειμένων.

Οι εμπειρικές μέθοδοι καθορισμού της εγκυρότητας των τεστ αναφέρονται στη σχέση μεταξύ βαθμολογιών των τεστ και άλλων ανεξάρτητων παρατηρήσεων σχετικά με τα χαρακτηριστικά συμπεριφοράς που μετρά το τεστ. Οι λογικές ή οι θεωρητικές αναλύσεις, παρότι σημαντικές, δεν αντικαθιστούν τέτοια εμπειρική εκτίμηση.

Ακόμη και όταν η εγκυρότητά του έχει υποστηριχθεί από εμπειρικές μελέτες, ένα ψυχοδιαγνωστικό τεστ δεν μπορεί να θεωρείται ότι είναι απόλυτα έγκυρο.

Εκθέσεις εγκυρότητας ψυχομετρικών τεστ

Οι εκθέσεις εγκυρότητας πρέπει να γίνονται με αναφορά προς:

α) μια συγκεκριμένη ομάδα ανθρώπων,

β) το χαρακτηριστικό ή χαρακτηριστικά της συμπεριφοράς που μετράται, και

γ) την ιδιαίτερη χρήση στην οποία αποσκοπούν τα αποτελέσματα του τεστ.

Η απόδειξη της εγκυρότητας ενός ψυχοδιαγνωστικού τεστ μπορεί να αποδειχθεί ιδιαίτερα δύσκολη, επειδή τα χαρακτηριστικά τα οποία εμφανίζονται στις κλινικές διαγνώσεις είναι πολύπλοκα και αφηρημένα. Πέραν τούτου, χαρακτηριστικά όπως η νοημοσύνη και η προσωπικότητα, καθώς και διαγνωστικές κατηγορίες όπως το άγχος και η υστερία σημαίνουν διαφορετικά πράγματα για διαφορετικούς ψυχολόγους.

Καθορισμός του τι πραγματικά μετρά ένα τεστ

Πριν από την ανάπτυξη των θεμάτων των τεστ, το προς μέτρηση χαρακτηριστικό πρέπει να περιγράφεται περιεκτικά και να εκτιμάται. Εντούτοις, ακόμη και όταν ένα τεστ είναι κατάλληλα ανεπτυγμένο, μερικές φορές είναι δύσκολο να καθοριστεί τι πραγματικά μετρά.

Για παράδειγμα, οι βαθμολογίες I.Q. (νοημοσύνης) είναι θετικώς συσχετισμένες με μετρήσεις επιτυχίας στο σχολείο, αλλά ο όρος «νοημοσύνη» μπορεί να έχει και πολλές άλλες σημασίες πέραν της σχολικής επίδοσης.

Τα 4 είδη της εγκυρότητας

Σημαντικά ψυχοδιαγνωστικά τεστ περιλαμβάνουν στο εγχειρίδιό τους κάποια συζήτηση σχετικά με το πώς εκτιμήθηκε η εγκυρότητά τους. Η επαγγελματική βιβλιογραφία της ψυχομετρικής και κλινικής ψυχολογίας παρέχει επίσης πολύ βοηθητικές ανεξάρτητες εκτιμήσεις της εγκυρότητας των τεστ για συγκεκριμένους πληθυσμούς και σκοπούς.

Όπως η «αξιοπιστία», έτσι και η «εγκυρότητα» είναι ένας γενικός όρος με πολλές διαφορετικές ειδικές σημασίες.

Κατά παράδοση, έχουν προσδιοριστεί τέσσερα είδη εγκυρότητας:

α) η φαινομενική εγκυρότητα (face validity),

β) η εγκυρότητα περιεχομένου (content validity),

γ) η εγκυρότητα κριτηρίου (criterion validity) και

δ) η εγκυρότητα εννοιολογικής κατασκευής (construct validity).

Κάθε είδος εγκυρότητας έχει διαφορετικές έννοιες και μεθόδους εκτίμησης που συνδέονται με αυτές. Ενώ αυτές οι κατηγορίες εγκυρότητας έχουν εξελιχθεί εδώ και πολλά χρόνια για να μας βοηθήσουν να οργανώσουμε τον υπολογισμό της εγκυρότητας οποιουδήποτε τεστ. Οι εν λόγω κατηγορίες έχουν κοινές έννοιες και τεχνικές μέτρησης.

Το παρόν άρθρο αποτελεί αδειοδοτημένο απόσπασμα από το βιβλίο Κλινική ψυχομετρία που κυκλοφορεί από τις εκδόσεις Πεδίο