Αθήνα, Απρίλιος 2000
Μιλήσαμε ήδη για βάσεις βιολογικών δεδομένων παρόλα αυτά το κεφάλαιο αυτό δεν θα ήταν ολοκληρωμένο αν δεν κάναμε κάποια αναφορά στα συστήματα κατηγοριοποίησης των πρωτεϊνικών δομών (Protein Structure Classification Schemes).
Παρόλο που ο αριθμός των πρωτεϊνικών δομών, που εναποτίθενται στην βάση δεδομένων Protein Data Bank (PDB) από μεθόδους κρυσταλλογραφίας ακτίνων-Χ σε ατομική ή περίπου ατομική διακριτικότητα και φασματοσκοπία NMR, είναι σχετικά μικρός (~10.000), οι πληροφορίες που εμπεριέχουν γίνονται όλο και πιο σημαντικές με την αποκάλυψη και νέων συνδυασμών δευτεροταγούς δομής. Περίπου 200 νέες πρωτεΐνες κατατίθενται μηνιαίως στην PDB.
Πολλές πρωτεΐνες μοιράζονται δομικά στοιχεία και ομοιότητες που αντανακλούν ίσως, σε κάποιες περιπτώσεις, την εξελικτική τους προέλευση. Η ίδια η διαδικασία της εξέλιξης περιλαμβάνει αντικαταστάσεις, εισαγωγές ή / και αφαιρέσεις αμινοξέων από την ακολουθία των βιολογικών μακρομορίων. Στις πρωτεΐνες που έχουν μακρινή εξελικτική σχέση, οι αλλαγές αυτές μπορεί να είναι εκτενείς με αποτέλεσμα να διπλώνουν κατά τέτοιο τρόπο που και ο αριθμός αλλά και ο προσανατολισμός των στοιχείων δευτεροταγούς δομής να ποικίλει σε μεγάλο βαθμό. Παρόλα αυτά, όταν για παράδειγμα, οι λειτουργίες ορισμένων πρωτεϊνών έχουν συντηρηθεί, τα δομικά περιβάλλοντα των αμινοξέων των ενεργών κέντρων είναι επίσης διατηρημένα. Βλέπουμε λοιπόν ότι για να κατανοήσουμε το σύνολο όλων αυτών των τόσων διαφορετικών μα και τόσων όμοιων, σε μερικές περιπτώσεις δομών, είναι ανάγκη να αντιπαραβάλλουμε, σχολιάσουμε αλλά και να κατηγοριοποιήσουμε όλες τις προσδιορισμένες πρωτεΐνες. Έτσι ίσως ερμηνεύσουμε καλύτερα τις σχέσεις μεταξύ αλληλουχίας, δομής και λειτουργίας αλλά και τις βαθύτερες εξελικτικές / φυλογενετικές διαδικασίες που έχουν οδηγήσει στην δημιουργία αυτών των ποικιλόμορφων δομικών σχηματισμών.
Γίνεται εύκολα αντιληπτό ότι το είδος πληροφοριών που παρουσιάζονται σ'ένα σύστημα ταξινόμησης πρωτεϊνικών δομών είναι αποκλειστικά εξαρτώμενο από την φιλοσοφία της μεθόδου και άρα και από τις μεθόδους που χρησιμοποιήθηκαν για την αναγνώριση και εκτίμηση των διαφορών και των ομοιοτήτων μεταξύ διαφόρων δομών.
Από το 1959 που προσδιορίσθηκε η πρώτη τρισδιάστατη δομή της μυοσφαιρίνης μέχρι τώρα, η πολυπλοκότητα και η ποικιλομορφία των πρωτεϊνικών δομών αυξάνεται παράλληλα με τον αριθμό των νέων προσδιοριζόμενων μακρομορίων. Έτσι, από τότε μέχρι σήμερα, έχει αναγνωρισθεί ότι οι πρωτεΐνες αποτελούνται από αυτοτελή ημιανεξάρτητα δομικά στοιχεία που μπορούν να είναι συνεχή ή μη συνεχή στην πρωτεϊνική ακολουθία (Domains). Έτσι, προφανώς, το πρώτο βήμα για την κατάταξη των πρωτεϊνών σε τάξεις, κλάσεις, οικογένειες κλπ είναι η ταυτοποίηση των δομικών στοιχείων τους.
Δυο από τα πιο διαδεδομένα συστήματα κατηγοριοποίησης πρωτεϊνικών δομών παρουσιάζονται παρακάτω.
Η βάση πρωτεϊνικών δομών SCOP (Structural Classification of Proteins) που διατηρείται στο κέντρο ερευνών Μοριακής Βιολογίας και Πρωτεϊνικής Μηχανικής στο Cambridge της Αγγλίας (MRC), περιγράφει τις δομικές και εξελικτικές σχέσεις μεταξύ πρωτεϊνών με γνωστή δομή (Murzin et al, 1995). Επειδή ακόμα και τα πιο σύγχρονα «αυτόματα εργαλεία» για την σύγκριση των στοιχείων δευτεροταγούς δομής δεν μπορούν αξιόπιστα να αναγνωρίσουν όλες τις σχέσεις μεταξύ των πρωτεϊνικών δομών, το SCOP κατασκευάζεται χρησιμοποιώντας άμεσα εποπτικά κριτήρια και την εμπειρία ειδικών αναλυτών. Το εγχείρημα αυτό είναι περίπλοκο μιας και οι πρωτεϊνικές δομές επιδεικνύουν μια τεράστια ποικιλία σχηματισμών που κυμαίνεται από μικρά μοναδιαία δομικά στοιχεία ως και τεράστια σύμπλοκα πολλαπλών domains. Σε μερικές μάλιστα περιπτώσεις, έχει σημασία να αναλύουμε μια πρωτεϊνική δομή στο σύνολο της αλλά και στο επίπεδο των μεμονωμένων αυτοτελών δομικών στοιχείων της.
Οι πρωτείνες ταξινομούνται κατά ένα ιεραρχικό τρόπο ο οποίος αντανακλά την δομική και την εξελικτική τους σχέση. Υπάρχουν πολλά και διαφορετικά επίπεδα στην ιεραρχία, αλλά κατά κύριο λόγο αυτά περιγράφουν τις έννοιες «Οικογένεια» (Family), «Υπέρ-οικογένεια» (Superfamily) και «Δίπλωμα» (Fold). Τα όρια μεταξύ των επιπέδων αυτών μπορεί να είναι υποκειμενικά αλλά κατά έναν γενικό τρόπο τα ανώτερα επίπεδα αντανακλούν και πιο κοντινές δομικές ομοιότητες. Τα πρώτα δυο επίπεδα περιγράφουν κοντινές ή/και μακρινές εξελικτικές σχέσεις ενώ στο τρίτο επίπεδο αναπαριστώνται οι γεωμετρικές ομοιότητες των στοιχείων δευτεροταγούς δομής των πρωτεϊνών.
Πιο συγκεκριμένα, η κατηγοριοποίηση των πρωτεϊνών με βάση το σύστημα SCOP γίνεται με βάση τα παρακάτω κριτήρια:
a) all-α, η δομή ουσιαστικά σχηματίζεται από α-έλικες;
b) all-β, η δομή αποτελείται από β-πτυχωτές επιφάνειες;
γ) α/β, α-έλικες και β-πτυχωτές επιφάνειες εναλλάσσονται στην δομή της πρωτεΐνης; και
δ) α+β, α-έλικες και β-πτυχωτές επιφάνειες βρίσκονται σε διακριτές περιοχές της δομής .
Η ιεραρχική διαμόρφωση του SCOP παρουσιάζεται στην εικόνα 1 για την πρωτεϊνική δομή της ανθρώπινης αιμοσφαιρίνης (κωδικός PDB : 2hhb)
Το σύστημα SCOP είναι ελεύθερα διαθέσιμο για αναζήτηση στην ηλεκτρονική διεύθυνση: http://scop.mrc-lmb.cam.ac.uk/scop/
Η βάση δεδομένων CATH (Orengo et al., 1997), που διατηρείται στο Πανεπιστήμιο UCL του Λονδίνου, περιέχει μια ιεραρχική ταξινόμηση των αυτοτελών δομικών στοιχείων (domains) των πρωτεϊνικών δομών που είναι κατατεθειμένες στην PDB, και οι οποίες έχουν προσδιοριστεί σε διακριτικότητα καλύτερη από 3 A. Μη πρωτεϊνικές δομές, και Cα δομές δεν έχουν συμπεριληφθεί. Το σύστημα CATH με την εφαρμογή μια σειράς αυτοματοποιημένων μεθόδων παρέχει εξειδικευμένες πληροφορίες για την κατηγοριοποίηση των πρωτεϊνικών domains. Παρόλα αυτά, εμπειρικά ανθρώπινα κριτήρια χρησιμοποιούνται για τις εξειδικευμένες περιπτώσεις που τα «αυτόματα εργαλεία» σύγκρισης των πρωτεϊνικών δομών δεν δίνουν ακριβή ή έγκυρα αποτελέσματα. Κατ' αναλογία με το σύστημα ταξινόμησης των ενζύμων (E.C. system) κάθε κατηγορία πρωτεϊνικών δομών χαρακτηρίζεται από ένα μοναδικό αριθμό και ταυτοποιείται από ένα περιγραφικό όνομα. Το σχήμα αυτό επιτρέπει και κατάλληλους χειρισμούς των πληροφοριών.
Πέντε κύρια επίπεδα χρησιμοποιούνται στην ταξινόμηση αυτή: τα επίπεδα Τάξης (Class), Αρχιτεκτονικής (Architecture), Τοπολογίας (Topology), Ομόλογης Υπέρ-οικογένειας (Homologous superfamily) και Αλληλουχίας (Sequence).
Το CATH είναι ελεύθερα προσβάσιμο για αναζήτηση με λέξεις κλειδιά (είτε όνομα-κατηγορία πρωτεϊνών είτε συγκεκριμένο κωδικό πρωτεΐνης στην βάση δεδομένων πρωτεϊνικών δομών PDB (π.χ. 1ECA)) μέσω του διαδικτυακού φυλλομετρητή (Web browser) που εδρεύει στο UCL (URL: http://www.biochem.ucl.ac.uk/bsm/cath/ ).
Ένα παράδειγμα του συστήματος CATH δίνεται στην παρακάτω εικόνα για την δομή της ερυθροκρουορίνης (κωδικός PDB :1ECA).
Στο πρώτο μέρος της άσκησης θα έχουμε πρόσβαση, μέσω του διαδικτύου, σε βάσεις δεδομένων, από τις οποίες θα έχουμε την ευκαιρία να 'αντλήσουμε' κάποιες πρωτεϊνικές ακολουθίες και τις δομές τους. Στη συνέχεια, θα επεξεργαστούμε την πρωτογενή αυτή πληροφορία με προγράμματα λογισμικού (εργαλεία ανάλυσης - analysis tools), που είναι επίσης ελεύθερα προσβάσιμα μέσω του Internet.
όπου '[agnosti.seq]' είναι ακολουθία άγνωστης προέλευσης και λειτουργίας.
στην οποία είναι δυνατόν να επανερχόμαστε επιλέγοντας 'Home' ή 'Αρχική' σελίδα, ανάλογα με το φυλλομετρητή (Web-Browser).
Ένα πρώτο βήμα στη μελέτη μιας 'άγνωστης' πρωτεΐνης είναι η αναζήτηση πιθανών ομολογιών μέσα στις βάσεις πρωτεϊνικών δεδομένων.
> Η ακολουθία πρέπει να εισαχθεί σε FASTA format.
> Είναι σημαντικό να γίνει κατανοητή η διαφορά των αποτελεσμάτων όταν έχει επιλεχθεί 'ungapped alignment'.
> Η προεπιλογή φίλτρου για περιοχές χαμηλής πολυπλοκότητας κάνει περισσότερο ευαίσθητο και αποδοτικό τον αλγόριθμο και καλό είναι να παραμείνει επιλεγμένο.
Παράδειγμα αποτελέσματος για την DYR_LACCA (Query) σε αντιπαραβολή με τον εαυτό της (Subject):
Score = 310 bits (785), Expect = 4e-84 Identities = 148/162 (91%), Positives = 148/162 (91%) Query: 1 TAFLWAQDRDGLIGKDGHLPWHLPDDLHYFRAQTVGKIMVVGRRTYESFPKRPLPERTNV 60 TAFLWAQDRDGLIGKDGHLPWHLPDDLHYFRAQTVGKIMVVGRRTYESFPKRPLPERTNV Sbjct: 2 TAFLWAQDRDGLIGKDGHLPWHLPDDLHYFRAQTVGKIMVVGRRTYESFPKRPLPERTNV 61 Query: 61 VLTHQEDYQAQGXXXXXXXXXXXXXXKQHLDQELVIAGGAQIFTAFKDDVDTLLVTRLAG 120 VLTHQEDYQAQG KQHLDQELVIAGGAQIFTAFKDDVDTLLVTRLAG Sbjct: 62 VLTHQEDYQAQGAVVVHDVAAVFAYAKQHLDQELVIAGGAQIFTAFKDDVDTLLVTRLAG 121 Query: 121 SFEGDTKMIPLNWDDFTKVSSRTVEDTNPALTHTYEVWQKKA 162 SFEGDTKMIPLNWDDFTKVSSRTVEDTNPALTHTYEVWQKKA Sbjct: 122 SFEGDTKMIPLNWDDFTKVSSRTVEDTNPALTHTYEVWQKKA 163 |
Η τιμή Expect είναι ένα μέτρο αξιοπιστίας και εκφράζει την πιθανότητα η ομοιότητα που παρατηρείται να είναι τυχαία. Τιμές < e-6 θεωρούνται αρκετά αξιόπιστες ενδείξεις πραγματικής ομολογίας. Η τιμή Identities δείχνει το ποσοστό ταυτόσημων καταλοίπων, ενώ η Positives το συνολικό ποσοστό ταυτόσημων ή παρόμοιων καταλοίπων.
Ερώτηση:
στην οποία είναι δυνατόν να χρησιμοποιηθεί η μέθοδος ClustalW για την πολλαπλή στοίχιση ακολουθιών και την αναγνώριση ομόλογων περιοχών τους.
Παράδειγμα για την εφαρμογή της μεθόδου δίνεται παρακάτω για την στοίχιση τριών ακολουθιών που ανήκουν στην οικογένεια των cold-shock πρωτεϊνών.
> Οι ακολουθίες πρέπει να εισαχθούν σε FASTA format.
> Συντηρημένα αμινοξέα σημειώνονται με ¨*¨ ενώ κατάλοιπα που είναι μερικώς διατηρημένα μεταξύ των ακολουθιών υπογραμμίζονται με ¨-¨.
Ερώτηση:
Στη συνέχεια θα έχουμε πρόσβαση σε δυο συστήματα κατηγοριοποίησης Πρωτεϊνικών Δομών. Η πρόσβασή μας στις καταχωρήσεις αυτές είναι δυνατή με τη βοήθεια του διαδικτύου, και τις ηλεκτρονικές διευθύνσεις
Ερώτηση:
Σημειώστε την συστηματική ταξινόμηση της πρωτεϊνικής δομής με βάση τα δυο συστήματα κατηγοριοποίησης CATH και SCOP. Παρατηρείται η ίδια ιεραρχική καταχώρηση ή όχι ;
Πόσα domains μπορούν να αναγνωρισθούν στην πρωτεϊνική δομή σας; Δώστε λεπτομερή περιγραφή της δομής της πρωτεΐνης σας. Ποια είναι τα δευτεροταγή στοιχεία της και πως αυτά συνδέονται στο χώρο;
Αναγνωρίστε την παρουσία διαφόρων προσθετικών ομάδων ή άλλων υποκαταστατών στην δομή σας;
Σε συνδυασμό με τις πληροφορίες που σας παρέχουν άλλες βάσεις δεδομένων (ακολουθιών ή/και πρωτεϊνικών δομών) απαντήστε στην παρακάτω ερώτηση:
Πιστεύετε ότι η υψηλή ομολογία στο επίπεδο της αμινοξικής ακολουθίας μπορεί να χρησιμοποιηθεί για εξαγωγή δομικών-λειτουργικών συμπερασμάτων για μια άγνωστη ακολουθία; Δικαιολογήστε την απάντησή σας.
Ποια λειτουργία μπορείτε να αποδώσετε στην άγνωστη ακολουθία σας.
Από τις διάφορες μεθόδους για την πρόγνωση δευτεροταγούς δομής που είναι διαθέσιμες, θα χρησιμοποιήσουμε τη μέθοδο 'SecStr', που έχει αναπτυχθεί στο εργαστήριό μας (Hamodrakas, 1988, Palaios and Hamodrakas, 1999).
Ερώτηση:
Συγκρίνετε τις προγνώσεις με την λυμένη δομή κατατεθειμένη στην PDB (C:\sequences\agnosti.pdb). Σχολιάστε τα αποτελέσματα.
ser.glu.gln_ala.asn.ala.leu.tyr.ser.ile.ser|ile.ser|asx.glu.thr.thr.glu.arg|thr.his.ala.asn|thr.his.arg.glu.glu-asp|ala.asn.ala.leu.tyr.ser.ile.ser.
Μεταφράστε το παραπάνω κείμενο και απαντήστε αν συμφωνείτε ή όχι και γιατί με την πρόταση.
Bairoch, A. and Apweiler, R. (1998) The SWISS-PROT protein sequence databank and its supplement TrEMBL in 1998, Nucleid Acids Res., 26, 38-42
Hubbard, T. J. P., Murzin, A. G., Brenner, S. E. and Chothia, C. (1997). SCOP: a structural classification of proteins database, Nucl. Acids Res., 25, 236-239
Murzin, A.G., Brenner, S.E., Hubbard, T. and Chothia, C.(1995) Scop: a structural classification of proteins database for the investigation of sequences and structures, Journal of Molecular Biology, 247 , 536-540
Orengo, C. A., Michie, A. D., Jones, D. T., Swindells, M. B. and Thornton, J. M. (1997) CATH - A hierarchic classification of protein domain structures, Structure, 5(8) , 1093-1108
Palaios, G.A., and Hamodrakas, S.J. (1999) SecStr: Secondary Structure prediction over the World Wide Web