Απο την αρχή της στρατιωτικής εισβολής της Ρωσίας στο έδαφος της Ρωσίας, το twitter πήρε με την μεταφορική σημασία του όρου, “φωτιά”. Δημιουργήθηκαν παρα πολλά hashtags, που αναφέρονται στο ζήτημα αυτό. Το πλήθος των hashtags αν και δημιουργεί σύγχυση τόσο για τους ενεργούς χρήστες αλλά τόσο και στους αναγνώστες όταν θέλουν να ψάξουν κάτω από ένα φίλτρο και να διαβάσουν σχετικές αναρτήσεις ή να πληροφορηθούν για τις εξελίξεις πάνω στο θέμα αυτό. Κάποια hashtags φέρουν μία κατεύθυνση ή χρωματισμό μόνο και μόνο από την ίδια τους την ονομασία. Τι όμως μπορεί να συμβαίνει μέσα σε όλο αυτό τον θόρυβο από tweets, κάτω από τα πιο γενικά hashtags: #Πούτιν και #Ζελένσκι?

Με μία συλλογή tweets που έγινε τον προηγούμενο μήνα, μαζεύτηκαν περίπου 54000 αναρτήσεις από αυτά τα 2 hashtags. Στο παρακάτω γράφημα μπορούμε να δούμε τις πιο συχνές λέξεις που εμφανίζονται στα tweets αυτά.

Συχνότητα λέξεων στα κείμενα των tweets
Συχνότητα λέξεων στα κείμενα των tweets

Τα tweets έχουν κοινές λέξεις μεταξύ τους?

Πριν εξετάσουμε τις ομοιότητες και τους συσχετισμούς μεταξύ των λέξεων, ας δούμε μία οπτικοποιημένη αναπαράσταση απο το σύνολο των λέξεων των tweets που έχουν συγκεντρωθεί.

Wordcloud των λέξεων με τη μεγαλύτερη συχνότητα εμφάνισης στα tweets
Wordcloud των λέξεων με τη μεγαλύτερη συχνότητα εμφάνισης στα tweets

Για να εξετάσουμε αν υπάρχει ή δημιουργείται κάποια τάση, έγινε στατιστικός έλεγχος και σύγκριση των συχνοτήτων των tweets αυτών μεταξύ τους. Στο παρακάτω γράφημα, φαίνονται οι συχνότητες των λέξεων που είναι κοινές μεταξύ των tweets.

TfidfVectorizer
TfidfVectorizer

Βλέπουμε πως η λέξη “ουκρανικός” εμφανίζει την μεγαλύτερη συχνότητα στις κοινές λέξεις, και επί της ουσίας αναφέρεται στο “ουκρανικός στρατός”. Η Δεύτερη κοινή λέξη είναι “πούτιν”, και στην συνέχεια “ρωσικός”, επίσης το ρωσικός αναφέρεται στο στρατός. Για να εξετάσουμε ένα δείγμα συσχετισμού των λέξεων, θα δούμε παρακάτω έναν πίνακα συσχετισμών που εξετάζει όλες τις λέξεις μεταξύ τους.

Correlation Matrix
Correlation Matrix
Correlation Matrix
Correlation Matrix

Που ή σε ποιον αναφέρεται κάθε tweet?

Στην συνέχεια της ανάλυσης των κειμένων, ανακαλύψαμε οτι ένα μεγάλο ποσοστό των tweets, αναφέρονται είτε σε ονόματα πολιτικών είτε σε χώρες ακόμα και οργανισμούς όπως για παράδειγμα η ΕΕ και το ΝΑΤΟ. Εξαιρετικά σημαντικό, καθώς μας βοηθάει να κατανοήσουμε σε βάθος αν και πόσα απο τα tweets ασκούν κριτική ή αναφέρονται σε μία απο της παραπάνω ονότητες.

Το αποτέλεσμα της γλωσσολογικής ανάλυσης που έγινε στα κείμενα, δημιούργησε τρείς νέες μεταβλητές στην βάση δεδομένων. Αυτές είναι:

  1. Πρόσωπα
  2. Χώρες
  3. Οργανισμοί

Στην συνέχεια έγινε ο στατιστικός έλεγχος πόσα απο τα συνολικά tweets αναφέρονται στις παραπάνω μεταβλητές μέσα απο τα κείμενα.

Ανάλυση κειμένων tweets, και δημιουργία “label”
Ανάλυση κειμένων tweets, και δημιουργία “label”

Όσον αφορά τα πρόσωπα που εμφανίζουν την μεγαλύτερη συχνότητα μέσα στα κείμενα είναι ο “Πούτιν”, ο “Τσίπρας” και ο Μπαίντεν. Παρακάτω είναι τα 5 πιο συχνά πρόσωπα που αναφέρονται μέσα στα tweets.

Πρόσωπα
Πρόσωπα
Χώρες
Χώρες
Οργανισμοί
Οργανισμοί

Το τελευταίο γράφημα δείχνει εξαιρετικά σημαντικό καθώς μας αποκαλύπτει πως η ΕΕ είναι ένας απο τους οργανισμούς που αναφέρεται πιο συχνά μέσα στα tweets, με αρκετά μεγάλη διαφορά με τον δέυτερο που ειναι το ΝΑΤΟ.

Τα κείμενα έχουν συναισθηματικό πρόσημο?

Στην συνέχεια, έγινε συναισθηματική ανάλυση των κειμένων έτσι ώστε να δημιουργηθεί μια πιό καθαρή εικόνα αν τα tweets που αναφέρονται στα παραπάνω πρόσωπα ή οργανισμούς έχουν συναισθηματικό χρωματισμό. Οι μεταβλητές συναισθήματος που δημιουργήθηκαν είναι “Φόβος”, “Αρνητικότητα”, “Λύπη”, “Εμπιστοσύνη”, “Απέχθεια”, “Χαρά”, “Θετικότητα”, “Προσμονή”, “Θυμός”.

correlation matric: μεταβλητές συναισθημάτων
correlation matric: μεταβλητές συναισθημάτων

Βλέπουμε οτι η Θετικότητα με την Αρνητικότητα έχουν πολύ υψηλό συσχετισμό όπως επίσης και ο Φόβος με την Εμπιστοσύνη. Στην περίοδο του Ιουνίου όμως πώς αναπτύχθηκαν οι μεταβλητές πολικότητας, σύμφωνα με τα tweets όμως που αναφέρονται στην Ρωσία και την Ουκρανία?

Θετικά tweets
Θετικά tweets
Αρνητικά Tweets
Αρνητικά Tweets

Βλέπουμε πως τα θετικά tweets για την Ουκρανία και την Ρωσία έχουν αρκετές διαφοροποιήσεις με την Ρωσία να καταλαμβάνεις περισσότερα θετικά tweets σε σχέση με την Ουκρανία, καθώς επίσης στις 6 Ιουνίου φαίνεται να είναι στατιστικά ίσες οι τιμές της Θετικότητας.

Απο την άλλη, τα αρνητικά tweets για την Ρωσία έχουν μεγαλύτερες διακυμάνσεις και υψηλότερο ποσοστό συνολικά σε σχέση με τα tweets για την Ουκρανία. Αξίζει να αναφερθεί ότι τις χρονικές στιγμές που υπάρχουν κορυφώσεις, και στις 2 περιπτώσεις μεταβλητών οι τιμές μετασχηματίζονται ανάλογα.

Αντώνης Καλαγκάτσης

Github

Author

  • Αντώνης Καλαγκάτσης

    Ο Αντώνης Καλαγκάτσης είναι πτυχιούχος της ΑΣΚΤ, προγραμματιστής και φοιτητής στο ΠΜΣ ""Ψηφιακά Μέσα Επικοινωνίας και Περιβάλλοντα Αλληλεπίδρασης" στο ΕΜΜΕ του ΕΚΠΑ.

    View all posts

Αναδημοσιεύστε τις ιστορίες μας: Αυτές οι ιστορίες δεδομένων έχουν δημιουργηθεί από προπτυχιακούς και μεταπτυχιακούς φοιτητές/φοιτήτριες του τμήματος Επικοινωνίας και Μέσων Μαζικής Ενημέρωσης (ΕΜΜΕ) του ΕΚΠΑ. Τα άρθρα είναι διαθέσιμα προς αναδημοσίευση από ειδησεογραφικούς οργανισμούς, εφόσον τηρούνται οι Όροι και Προϋποθέσεις που αναγράφονται σε αυτή τη σελίδα.