Ελληνικά
 
English



Εισαγωγικές Πληροφορίες

Tο όνομα της εφαρμογής () έχει δανειστεί τον όρο ‘TAGGING’ από το χώρο της υπολογιστικής γλωσσολογίας, όπου χρησιμοποιείται για να ορίσει τη διαδικασία αναγνώρισης και απόδοσης ετικέτας χαρακτηρισμού (tag) στις λέξεις ενός κειμένου, η οποία δηλώνει συγκεκριμένα χαρακτηριστικά σε διάφορα καθορισμένα εκ των προτέρων επίπεδα όπως φωνολογικό, μορφοσυντακτικό/γραμματικό, συντακτικό κ.λπ. Στην προκειμένη περίπτωση παραπέμπει στην απόδοση μορφοσυντακτικής ειδικότερα ετικέτας στους ρηματικούς τύπους (VERB) της Νέας Ελληνικής (Greek).

Τα γλωσσικά δεδομένα που χρησιμοποιεί η εφαρμογή προέρχονται από τη διδακτορική διατριβή της Π. Λεμπέση με τίτλο "Κλιτικό Σύστημα, Στατιστική Μορφοσυντακτική Αναγνώριση και Αυτόματη Λημματοποίηση της Ρηματικής Κατηγορίας της Νέας Ελληνικής" (Πανεπιστήμιο Marc Bloch, Στρασβούργο, 2005), η οποία αφορά στους μονολεκτικούς ρηματικούς τύπους της Νέας Ελληνικής. Η έρευνα συμπληρώνει παρόμοια μελέτη των ουσιαστικών της γλώσσας (Χαλκιαδάκης, Κουρουπέτρογλου, Τσιατούχας & Λεμπέση 1993 και Λεμπέση 1994).

Στο πλαίσιο της έρευνας αυτής έχουν δημιουργηθεί συνολικά 10 αρχεία γλωσσικών δεδομένων. Για την παρούσα εφαρμογή χρησιμοποιήθηκαν στοιχεία από τα ακόλουθα, τα οποία και περιγράφονται στη συνέχεια:

  1. Αρχείο 8.485 ρηματικών λημμάτων της Νέας Ελληνικής
  2. Νέο κλιτικό σύστημα 385 κλιτικών υποδειγμάτων
  3. 151.527 στατιστικά εντοπισθείσες καταληκτικές γραφηματικές σειρές μορφής ευρύτερης των παραδοσιακών κλιτικών επιθημάτων
  4. Σύστημα κανόνων λημματοποίησης το οποίο λειτουργεί βάσει του νέου κλιτικού συστήματος

1. Αρχείο Ρηματικών Λημμάτων της Νέας Ελληνικής

Το αρχείο των ρηματικών λημμάτων αποτελείται από λεξικοποιημένα (και όχι απλά πιθανά) ρήματα, όπως αυτά έχουν καταγραφεί στα λεξικά:

  • Επίτομο Λεξικό της Νεοελληνικής Γλώσσας (Το Μικρό Λεξικό του Υπερλεξικού) (1991), Αθήνα, Εκδόσεις Παγουλάτου
  • Τεγόπουλος - Φυτράκης (1993), Ελληνικό Λεξικό, Αθήνα, Εκδόσεις Αρμονία
  • Κριαράς Ε. (1995), Νέο Ελληνικό Λεξικό, Αθήνα, Εκδοτική Αθηνών
  • Μπαμπινιώτης Γ. (1998), Λεξικό της Νέας Ελληνικής Γλώσσας, Αθήνα, Κέντρο Λεξικολογίας
  • Λεξικό της Κοινής Νεοελληνικής (1998), Θεσσαλονίκη, Ινστιτούτο Νεοελληνικών Σπουδών

Στις περιπτώσεις αλλομορφίας, μόνο ένας τύπος έχει οριστεί ως λήμμα, ο οποίος και εμφανίζεται στην εφαρμογή, ενώ οι αλλομορφικοί αναγνωρίζονται ως κλιτοί τύποι του ρήματος εισόδου.



2. Νέο Ρηματικό Κλιτικό Σύστημα της Νέας Ελληνικής

Η δημιουργία νέου κλιτικού συστήματος κατέστη αναπόφευκτη λόγω της ανάγκης μονοσήμαντης ντετερμινιστικής αντιστοίχισης κάθε ρηματικού λήμματος προς ένα και μόνο κλιτικό υπόδειγμα, το οποίο να περιλαμβάνει όλους τους ελευθέρως εναλλασσόμενους τύπους. Οι πληροφορίες κλίσης που έχουν καταγραφεί έχουν ως αφετηρία τα κλιτικά συστήματα των Ιορδανίδου (1992) και Κυριακοπούλου (1994) και έχουν εμπλουτισθεί με όλες τις καταχωρημένες στα προαναφερθέντα λεξικά ενδείξεις (1). Η ομαδοποίηση των λημμάτων ανά κλιτικό υπόδειγμα διευκολύνθηκε από την κατά αντίστροφη αλφαβητική σειρά ταξινόμηση των δεδομένων του "Αντίστροφου Λεξικού της Νέας Ελληνικής" (Κουρμούλης 1967). Βασικό κριτήριο διαχωρισμού αποτελεί η ελλειπτική συμπεριφορά των λημμάτων, δηλ. το γεγονός ότι συγκεκριμένα ρήματα δε σχηματίζουν όλους τους δυνατούς κλιτούς τύπους (π.χ αποθετικά ρήματα με μόνο μεσοπαθητικούς τύπους). Ας σημειωθεί ότι για αυτό το είδος ρημάτων έχουν χρησιμοποιηθεί οι αριθμοί από 305 έως και 388, ενώ οι αριθμοί από 302 έως και 304 δεν εμφανίζονται στην εφαρμογή, εφόσον παραμένουν εν εφεδρεία ενόψει ενδεχόμενων νέων κλιτικών υποδειγμάτων της γλώσσας φωνής ενεργητικής.

Για πληροφορίες σχετικά με τη συχνότητα εμφάνισης των κλιτικών υποδειγμάτων πατήστε εδώ.

Για πληρέστερη εικόνα του κλιτικού συστήματος επικοινωνήστε με την Πηνελόπη Λεμπέση.



3. Στατιστικά Εντοπισθείσες Καταληκτικές Γραφηματικές Σειρές

Η μορφοσυντακτική αναγνώριση των τύπων δεν πραγματοποιείται με την κλασική μέθοδο κατάτμησης σε θέμα-κλιτικό επίθημα (κατάληξη) και σύγκρισης δεδομένων εισόδου με δεδομένα μορφολογικού λεξικού. Το νεωτεριστικό στοιχείο της προσέγγισης συνίσταται στη διεύρυνση των ορίων της αντίστροφης (άνευ μορφολογικού λεξικού) μεθόδου με λεπτομερέστερη διείσδυση στο εσωτερικό της λέξης ξεκινώντας από το τέλος αυτής, η οποία έχει ως στόχο τον εντοπισμό μη αμφίσημων καταληκτικών γραφηματικών σειρών μορφής ευρύτερης των παραδοσιακών αμφίσημων κλιτικών επιθημάτων.

Στο πλαίσιο αυτό χρησιμοποιήθηκε το πρόγραμμα στατιστικής ανάλυσης του T. Girard, το οποίο υλοποίησε ως μέλος της ομάδας ανάπτυξης SYSTRAN-EE/TELINDUS στο Λουξεμβούργο για την αυτόματη ενσωμάτωση της Τράπεζας Ορολογίας EURODICAUTOM στα λεξικά του συστήματος αυτόματης μετάφρασης SYSTRAN-EE. Λαμβάνοντας ως είσοδο 519.694 αυτομάτως παραχθέντες (βάσει του νέου κλιτικού συστήματος) ρηματικούς τύπους, το πρόγραμμα εντόπισε 151.527 καταληκτικές γραφηματικές σειρές, με κριτήριο διαχωρισμού το διαφορετικό κλιτικό υπόδειγμα των τύπων εισόδου. Τα αποτελέσματα αυτά ολοκληρώθηκαν με πληροφορίες μορφοσυντακτικού περιεχομένου και λημματοποίησης.

Συνεπώς, η πληροφορία μορφοσυντακτικού περιεχομένου που παρέχεται από την εφαρμογή αφορά πρώτιστα στην εκάστοτε εντοπισθείσα καταληκτική γραφηματική σειρά και κατ' επέκταση στον υπό αναγνώριση ρηματικό τύπο, γεγονός το οποίο δεν αποκλείει την αναγνώριση και μη υπαρκτών ρηματικών τύπων.



4. Σύστημα Κανόνων Λημματοποίησης

Ο κωδικός κλιτικού υποδείγματος που παρέχεται από την εφαρμογή είναι σημαντικός και για την ενεργοποίηση των κατάλληλων κανόνων λημματοποίησης βάσει των οποίων παράγεται το λήμμα του ρηματικού τύπου εισόδου, εφόσον και οι κανόνες αυτοί έχουν ταξινομηθεί σε συνάρτηση με το νέο κλιτικό σύστημα.