Σώματα κειμένων – Διαδικτυακοί πόροι

Άνοιξα το θέμα αυτό στη Λεξιλογία και είπα να το αναρτήσω και εδώ. Η σελίδα αυτή σιγά-σιγά θα μεταφερθεί στην ενότητα Weblinks, αλλά προς το παρόν τα αφήνω συγκεντρωμένα εδώ.

Γερμανικά:

 COSMAS: http://corpora.ids-mannheim.de/ccdb/ … Ένα σώμα κειμένων με… ελληνικό όνομα 🙂 Προσέξτε το ωραίο λεξοσυννεφάκι στα δεξιά της σελίδας. Δείχνει σημασιολογικές συνδέσεις ανάμεσα σε διάφορες λέξεις.

Λίστες συχνότητας:

Γαλλικά:

FreeText (French in Context): http://www.latl.unige.ch/freetext/

Είναι μια δοκιμαστική παρουσίαση. Για κωδικό πρόσβασης στείλτε ηλεμήνυμα στον sebastien.lhaire@lettres.unige.ch

ARTFL-FRANText: http://artfl-project.uchicago.edu/content/artfl-frantext2,900 κείμενα στα Γαλλικά. Καλύπτει την περίοδο από τον 12ο αιώνα ως τον 20ο με 168 εκατομμύρια λέξεις. (Αν ακολουθήσετε τον σύνδεσμο Time Series μπορείτε να κάνετε αναζητήσεις βάσει αιώνα).

Dictionnaires d’autrefois: Αν και το επόμενο δεν είναι καθαυτό σώμα κειμένων, όμως μπορείτε με μια αναζήτηση να ψάξετε τα Jean Nicot Thresor de la langue française (1606), Jean-François Féraud Dictionaire critique de la langue française (1787-1788), Émile Littré Dictionnaire de la langue française (1872-1877) και το λεξικό της γαλλικής Ακαδημίας Dictionnaire de L’Académie française στις εκδόσεις του 1694, του 1762, του 1798, του 1835, και του 1932-5: http://artfl-project.uchicago.edu/content/dictionnaires-dautrefois

Γενικά το ARTFL Project του University of Chicago έχει καλές πηγές για τα Γαλλικά. Ενδεικτικά αναφέρω άλλα κείμενα που περιλαμβάνει και στα οποία μπορείτε να εκτελέσετε αναζητήσεις:

The ARTFL Encyclopédie, Supplément à l’Encyclopédie, The Bibliothèque bleue de Troyes, The Montaigne Project, Artamène ou le Grand Cyrus, Ephraim Chamber’s Cyclopaedia, Balzac. La Comédie humaine, CRL Pamphlets and Periodicals of the French Revolution of 1848, The Image of France, Multilingual Bible Project, Perseus under PhiloLogic.

Λίστες συχνότητας:

http://www.loria.fr/~bonhomme/sw/ (αυτή περιέχει Γερμανικά, Γαλλικά και Αγγλικά)

Ιταλικά:

Banca dati dell’ Italiano Parlato (BADIP): http://badip.uni-graz.at/index.php?option=com_badip&view=vsearch&Itemid=9&lang=en. Είναι μικρούλι (μόλις 490 χιλιάδες λέξεις).

Ισπανικά:

Corpus of Historical Spanish (CORDE): http://www.corpusdelespanol.org/ (Ανήκει στην οικογένεια σωμάτων κειμένων που έχει επιβλέψει ο Mark Davies του οποίου ήδη αναφέραμε άλλα δύο έργα: COHE και COCA)

Universidad Autonoma de Madrid (UAM): Η διεύθυνση είναι (προσέξτε ότι για κωδικό λέει να χρησιμοποιήσετε τη διεύθυνση του ηλεκτρονικού σας ταχυδρομείου, πράγμα που σημαίνει ίσως ότι θα πρέπει να επικοινωνήσετε πρώτα με το τμήμα για να καταχωρίσουν τη διεύθυνσή σας πριν μπείτε):

Host: lola.lllf.uam.es

Login: anonymous

Password:

Τα σώματα κειμένων μπορείτε να τα κατεβάσετε από το εργαστήριο μαζί με την τεκμηρίωσή τους. Τα σώματα κειμένων είναι για ορθογραφική μεταγραφή προφορικού λόγου και για γραπτά κείμενα από Αργεντική και Χιλή.

Ποικίλου ενδιαφέροντος

Για όσους ενδιαφέρονται για την ονοματολογία, μην ξεχνάτε τη λίστα συχνότητας του US Census:http://www.census.gov/genealogy/www/data/1990surnames/index.html

CLUVI Parallel Corpus: http://sli.uvigo.es/CLUVI/index_en.html Σώμα κειμένων του Πανεπιστημίου Βίγκο. Περιέχει κυρίως συνδυασμούς προς Ισπανικά, Βασκικά, Καταλανικά αλλά και έχει και συνδυασμούς με Γερμανικά.

Υπάρχουν σώματα και για άλλους συνδυασμούς. Αν θέλετε και άλλα, αφήστε μήνυμα :){jcomments on}

Tags:

Comments are closed