Εξόρυξη δεδομένων και συναισθηματική ανάλυση κειμένων

Στις 24 Φεβρουαρίου γίνεται εισβολή από στρατιωτικές δυνάμεις της Ρωσίας προς τα ανατολικά σύνορα της Ουκρανίας. Υποστηρίζεται πως η εισβολή αυτή αποτελεί μία έξαρση της ιστορικής συνέχειας του πολέμου μεταξύ Ρωσίας και Ουκρανίας που ξεκίνησε το 2014, και δημιούργησε μία από τις μεγαλύτερες κοινωνικές κρίσης όσον αφορά το προσφυγικό.

Το παρόν άρθρο, θα εστιάσει χρονικά από την εισβολή του Ρωσικού στρατού στην Ουκρανία στις 24 Φεβρουαρίου μέχρι και τις 2 Ιουλίου, και στην συνέχεια θα περιγράψει μεθόδους ανάλυσης του κειμένου τόσο στατιστικά όσο και γλωσσολογικά, με στόχο της κατανομή των κειμενων αυτό σε 3 κλάσεις που δηλώνουν πολικότητα. Η ανάλυση αυτή πραγματοποιείται τόσο σε γλωσσολογικό όσο και σε στατιστικό επίπεδο, με χρήση μοντέλων μηχανικής μάθησης και κλάσεις αλγορίθμων NLP (Natural Language Processing).

Για τις ανάγκες της έρευνας αυτής, απαραίτητη προϋπόθεση είναι η συλλογή δεδομένων που αναφέρονται στην εισβολή της Ουκρανίας. Ώς εκ τούτου, η επιλογή έγινε ανάμεσα από τρία μεγάλα ειδησεογραφικά πρακτορεία της ελλάδας, ΚΑΘΗΜΕΡΙΝΗ, ΝΑΥΤΕΜΠΟΡΙΚΗ, ΕΦΗΜΕΡΙΔΑ ΤΩΝ ΣΥΝΤΑΚΤΩΝ και ένα της Αγγλίας, THE GUARDIAN.

ΠηγήΓλώσσαΆρθραΣχόλια χρηστών
ΚΑΘΗΜΕΡΙΝΗel3230NaN
ΝΑΥΤΕΜΠΟΡΙΚΗel4628NaN
EFSYNel2400NaN
THE GUARDIANen320567478

Η συλλογή των άρθρων έγινε ξεχωριστά για κάθε δημοσιογραφικό μέσο, καθώς χρειάστηκαν διαφορετικές τεχνικές εξόρυξης δεδομένων σε σχέση με την αρχιτεκτονική του κάθε ιστοτόπου. Το αποτέλεσμα της παραπάνω διαδικασίας είναι η δημιουργία μιας βάσης δεδομένων με 20 μεταβλητές και 13.463 συνολικά περιπτώσεις σε 2 γλώσσες, αγγλικά και ελληνικά. 

Η υλοποίηση της βάσης έγινε με γλώσσα προγραμματισμού και βιβλιοθήκες Python. Ο πηγαίος κώδικας βρίσκεται στο Github εδώ.

Πλήθος λέξεων των άρθρων ανα δημοσιογραφικό πρακτορείο, απο την έναρξη της εισβολής μέχρι σήμερα
Πλήθος λέξεων των άρθρων ανα δημοσιογραφικό πρακτορείο, απο την έναρξη της εισβολής μέχρι σήμερα

Φαίνεται πως η διακύμανση είναι καθοδική απο την έναρξη της εισβολής μέχρι και σήμερα, με κατα τόπους μικρές εκρήξεις το οποίο συνδέεται άμεσα με τα γεγονότα ανα μέρα. Συνολικά υπάρχει μία καθοδική πορεία από την αρχή της εισβολής.

Λεπτομέρεια από το παραπάνω γράφημα.
Λεπτομέρεια από το παραπάνω γράφημα.

NLP

Για κάθε ένα από τα άρθρα που συλλέχθηκαν έγινε γλωσσολογική ανάλυση και στα ελληνικά και στα αγγλικά.

Γλωσσολογική ανάλυση σε αγγλική γλώσσα
Γλωσσολογική ανάλυση σε αγγλική γλώσσα
Γλωσσολογική ανάλυση σε ελληνική γλώσσα
Γλωσσολογική ανάλυση σε ελληνική γλώσσα

Ανάλυση κειμένου με την χρήση βιβλιοθήκες spaCy, αγγλικού λεξικού από το οποίο εξάγονται ποιοτικά χαρακτηριστικά λέξεων μέσα από προτάσεις. Συγκεκριμένα, γίνεται αναγνώρισης προσώπων, οργανισμών, χωρών, ημερομηνίας κλπ. 

Επιπλέον, γίνεται εξαγωγή χαρακτηριστικών που αφορούν την δομή της γλώσσας και πιο συγκεκριμένα γίνεται αναγνώριση της σύνταξης της πρότασης σε κόμβους. Κάθε κόμβος αυτός είναι μέρος του λόγου, και δηλώνει την εξάρτηση που έχει στην πρόταση. Ένα παράδειγμα παρακάτω σε οπτική αναπαράσταση.

Ανάλυση πρότασης με χαρακτηριστικά εξάρτησης
Ανάλυση πρότασης με χαρακτηριστικά εξάρτησης

Κατανομή λέξεων ανά συχνότητα και ανά συναισθηματική βαρύτητα.

Sentiment Analysis

Στην συνέχεια, με την χρήση προκαθορισμένων λεξικών που φέρουν συναισθηματικά χαρακτηριστικά ανα λέξη και εκπαιδευμένων μοντέλων ταξινόμησης έγινε προσαρμογή 13463 άρθρων, στην αγγλική και ελληνική γλώσσα για τον χαρακτηρισμό των άρθρων αυτών σε Θετικά, ουδέτερα και αρνητικά. Αυτές είναι οι 3 κλάσεις που αναφέρονται παραπάνω στο άρθρο. Πριν της ταξινόμησης όμως έχουμε ανάθεση δεκαδικών τιμών, δηλαδή βαθμολογιών αξιολόγησης, οι οποίες είναι ήδη ταξινομημένες από τα εκπαιδευμένα μοντέλα. Έτσι, αν και εφόσον, υπάρξει ταίριασμα μία λέξης με αρνητική βαθμολογία, τότε η τιμή που θα γίνει ανάθεση θα υπολογιστεί σύμφωνα με την βαθμολογία του μοντέλου για την λέξη αυτή ανά την συχνότητα εμφάνισης αυτής. Ως εκ τούτου, δημιουργούνται 2 νέες μεταβλητές που παίρνουν τιμές από 0 μέχρι 1 και μετρούν την Θετικότητα και την Αρνητικότητα του άρθρου. Οι τιμές είναι κανονιστικές, έτσι ώστε να η βάση δεδομένων αυτή να χρησιμοποιηθεί με αλγόριθμους μηχανικής μάθησης στο μέλλον.

Κατανομή μεταβλητών πολικότητας ανά δημοσιογραφικό πρακτορείο
Κατανομή μεταβλητών πολικότητας ανά δημοσιογραφικό πρακτορείο
Κατανομή μεταβλητών Θετικότητας, Αρνητικότητας ανα μεταβλητή συναισθήματος
Κατανομή μεταβλητών Θετικότητας, Αρνητικότητας ανα μεταβλητή συναισθήματος
Κατανομή μεταβλητής συναισθήματος ή πολικότητας ανα ημέρα για το ειδησεογραφικό πρακτορείο ΕΦΗΜΕΡΙΔΑ ΤΩΝ ΣΥΝΤΑΚΤΩΝ
Κατανομή μεταβλητής συναισθήματος ή πολικότητας ανα ημέρα για το ειδησεογραφικό πρακτορείο ΕΦΗΜΕΡΙΔΑ ΤΩΝ ΣΥΝΤΑΚΤΩΝ
Κατανομή μεταβλητών Θετικότητας, Αρνητικότητας ανα δημοσιογραφικό πρακτορείο THE GUARDIAN
Κατανομή μεταβλητών Θετικότητας, Αρνητικότητας ανα δημοσιογραφικό πρακτορείο THE GUARDIAN
Κατανομή μεταβλητών Θετικότητας, Αρνητικότητας ανα δημοσιογραφικό πρακτορείο ΚΑΘΗΜΕΡΙΝΗ
Κατανομή μεταβλητών Θετικότητας, Αρνητικότητας ανα δημοσιογραφικό πρακτορείο ΚΑΘΗΜΕΡΙΝΗ
Κατανομή μεταβλητών Θετικότητας, Αρνητικότητας ανα δημοσιογραφικό πρακτορείο ΝΑΥΤΕΜΠΟΡΙΚΗ
Κατανομή μεταβλητών Θετικότητας, Αρνητικότητας ανα δημοσιογραφικό πρακτορείο ΝΑΥΤΕΜΠΟΡΙΚΗ

Ο υποθετικός συναισθηματικός συσχετισμός των άρθρων μεταξύ των ειδησεογραφικών πρακτορείων ανα ημέρα. Η διακύμανση του THE GUARDIAN φαίνεται να έχει μεγαλύτερες τιμές. Επίσης, η διαδικασία κανονικοποίησης των τιμών των μεταβλητών αρνητικότητας και θετικότητας δεν επηρέασε τις διακυμάνσεις τους.

Υποθετική κατανομή μεταβλητότητας της αρνητικότητας ανα ημέρα για κάθε ειδησεογραφικό πρακτορείο
Υποθετική κατανομή μεταβλητότητας της αρνητικότητας ανα ημέρα για κάθε ειδησεογραφικό πρακτορείο
Αριθμός λέξεων ανα ειδησεογραφικό πρακτορείο σε σχέση με την μεταβλητή πολικότητας.
Αριθμός λέξεων ανα ειδησεογραφικό πρακτορείο σε σχέση με την μεταβλητή πολικότητας.
Αριθμός λέξεων ανα μεταβλητή πολικότητας για κάθε ειδησεογραφικό πρακτορείο.
Αριθμός λέξεων ανα μεταβλητή πολικότητας για κάθε ειδησεογραφικό πρακτορείο.
Ποσοστό πολικότητας ανα ειδησεογραφικό πρακτορείο κατα την διάρκεια το 132 ημερών πολέμου
Ποσοστό πολικότητας ανα ειδησεογραφικό πρακτορείο κατα την διάρκεια το 132 ημερών πολέμου
Κανονικές κατανομές περιπτώσεων ανα μεταβλητή πολικότητας
Κανονικές κατανομές περιπτώσεων ανα μεταβλητή πολικότητας
Κανονικές κατανομές περιπτώσεων ανα ειδησεογραφικό πρακτορείο
Κανονικές κατανομές περιπτώσεων ανα ειδησεογραφικό πρακτορείο
Συσχετισμός μεταβλητών της βάσης δεδομένων
Συσχετισμός μεταβλητών της βάσης δεδομένων
Scatter plot: Κατανομή περιπτώσεων ανα μεταβλητές Θετικότητας και Αρνητικότητας.
Scatter plot: Κατανομή περιπτώσεων ανα μεταβλητές Θετικότητας και Αρνητικότητας.
Η φωτογραφία δημιουργήθηκε με την χρήση της βιβλιοθήκης Pytorch και ένα εκπαιδευμένο νευρωνικό δίκτυο GAN από την βάση δεδομένων “MetFaces”. Το αποτέλεσμα προκύπτει απο την διαφορά του λανθάνοντος διαν΄σματος μεταξύ τυχαίας της γέννησης εικόνας απο το παραπάνω δίκτυο και ενός αληθινού πορτραίτο του Βλάντιμιρ Πούτιν.

Αντώνης Καλαγκάτσης

Github

Author

  • Αντώνης Καλαγκάτσης

    Ο Αντώνης Καλαγκάτσης είναι πτυχιούχος της ΑΣΚΤ, προγραμματιστής και φοιτητής στο ΠΜΣ ""Ψηφιακά Μέσα Επικοινωνίας και Περιβάλλοντα Αλληλεπίδρασης" στο ΕΜΜΕ του ΕΚΠΑ.

    View all posts

Αναδημοσιεύστε τις ιστορίες μας: Αυτές οι ιστορίες δεδομένων έχουν δημιουργηθεί από προπτυχιακούς και μεταπτυχιακούς φοιτητές/φοιτήτριες του τμήματος Επικοινωνίας και Μέσων Μαζικής Ενημέρωσης (ΕΜΜΕ) του ΕΚΠΑ. Τα άρθρα είναι διαθέσιμα προς αναδημοσίευση από ειδησεογραφικούς οργανισμούς, εφόσον τηρούνται οι Όροι και Προϋποθέσεις που αναγράφονται σε αυτή τη σελίδα.