Τα ανοιχτά συνδεδεμένα δεδομένα του Α’ Παγκοσμίου Πολέμου

Την ακόλουθη επιστημονική έρευνα επιμελήθηκαν οι μεταπτυχιακοί φοιτητές: Καρακατσάνης Χρήστος και Καράμπελα Αναστασία.

Τα ανοιχτά συνδεδεμένα δεδομένα (LinkedOpenData), βρίσκονται σε μια περίοδο ανάπτυξης. Το ενδιαφέρον και η αξιοποίηση τους από ερευνητές, τόσο στο δημόσιο όσο και στον ιδιωτικό τομέα, φαίνεται πως αυξάνεται συνεχώς, κάνοντας εύκολα κατανοητό το γεγονός πως, οι δυνατότητες που προσφέρουν και η κατάλληλη αξιοποίηση τους μπορεί να προσφέρουν αρκετά πλεονεκτήματα. Στη συγκεκριμένη μελέτη ερευνήθηκαν τα ανοιχτά συνδεδεμένα δεδομένα του Α’ Παγκοσμίου Πολέμου.

Την περίοδο της πορείας υλοποίησης του οράματος του Σημασιολογικού Ιστού (οράματος του TimBurnersLee), εμφανίστηκε το κίνημα των Συνδεδεμένων Δεδομένων (Linked Data). Ο όρος Συνδεδεμένα Δεδομένα, περιλαμβάνει τη διαδικασία της αξιοποίησης και δημοσίευσης δομημένων δεδομένων στον Παγκόσμιο Ιστό. Εξάλλου, αποτελούν την πιο διαδεδομένη και αποδεκτή μέθοδο δημοσιοποίησης δεδομένων στον παγκόσμιο Σημασιολογικό Ιστό. Σύμφωνα με τον Σπανό, στην έρευνα του με τίτλο “Συνδεδεμένα Δεδομένα: Μια ευκαιρία για τις ελληνικές Βιβλιοθήκες” (2015), υπάρχουν τέσσερις αρχές δημοσίευσης Συνδεδεμένων Δεδομένων:

  1. Η χρήση URIs για την ονομασία οντοτήτων και την αναφορά σε αυτές
  2. Η χρήση URIs που βασίζονται στο πρωτόκολλο HTTP, ώστε αυτά να είναι προσβάσιμα μέσω γνωστών εργαλείων του Παγκόσμιου Ιστού
  3. Κατά την προσπέλαση ενός URI, παροχή πρόσθετης πληροφορίας για την οντότητα στην οποία αυτό αναφέρεται
  4. Ορισμός συνδέσμων προς άλλες οντότητες, οι οποίες επίσης αναγνωρίζονται με αντίστοιχα URIs. Κύρια συστατικά για την υλοποίηση αυτών των τεσσάρων (4) αρχών είναι το πρωτόκολλο HTTP, ως ενιαίος παγκόσμιος μηχανισμός πρόσβασης, καθώς και νέες τεχνολογίες, όπως το μοντέλο RDF για τη δομημένη περιγραφή οντοτήτων και η γλώσσα SPARQL για την αναζήτηση αυτών των δεδομένων.

Το συγκεκριμένο άρθρο έχει ως στόχο να κατανοήσουν οι αναγνώστες την αξία των LinkedOpenData και να εξοικειωθούν με αυτά μέσα από ορισμένες ορολογίες αλλά και πρακτικά παραδείγματα αξιοποίησης τους. Το παράδειγμα, που θα παρουσιαστεί αφορά τα ανοιχτά συνδεδεμένα δεδομένα σχετικά με τον Πρώτο Παγκόσμιο Πόλεμο, τα οποία ανακτήθηκαν από την βάση Datahub με την γλώσσα SPARQL. Αυτή είναι μια γλώσσα ερωτημάτων, που έχει σχεδιαστεί, ώστε να χρησιμοποιεί παρόμοια σύνταξη με την SQL για να ανακτεί δεδομένα από σχεσιακές βάσεις δεδομένων.

Ανοιχτά δεδομένα: Χρησιμότητα

Τα «Ανοιχτά Δεδομένα» και τα «Ανοιχτά Κυβερνητικά Δεδομένα» παρέχουν τεράστιες ποσότητες δεδομένων για αξιοποίηση. Τα ανοιχτά συνδεδεμένα δεδομένα χρησιμοποιούνται, όπως προαναφέρθηκε, από διάφορους οργανισμούς (δημόσιους και ιδιωτικούς), για ακαδημαϊκούς σκοπούς αλλά και από μεμονωμένα άτομα, για ποικίλους λόγους, όπως για παράδειγμα για την εμφάνιση αποτελεσμάτων που αφορούν μια συγκεκριμένη χώρα.

ΔΙΑΒΑΣΤΕ ΑΚΟΜΑ

Συνοπτικά, τα «Ανοιχτά Δεδομένα» είναι δεδομένα, τα οποία είναι ανοιχτά για χρήση, επαναχρησιμοποίηση και διανομή. Παράλληλα ο καθένας μπορεί να έχει πρόσβαση σε αυτά, να τα χρησιμοποιεί και να τα διανέμει.

Το θετικό στην περίπτωση των «Ανοιχτών Κυβερνητικών Δεδομένων», είναι ότι παρέχουν τεράστιες ποσότητες δεδομένων, αλλά και ότι είναι ελεύθερη η χρήση τους, με αποτέλεσμα να εξάγονται ποιοτικά αποτελέσματα. Βασικοί στόχοι των «Ανοιχτών Κυβερνητικών Δεδομένων» είναι η διαφάνεια και η οικονομική ανάπτυξη.

Πρακτικό παράδειγμα αξιοποίησης ανοικτών δεδομένων και περιγραφή πύλης

Περιγραφή Πύλης

Για το συγκεκριμένο παράδειγμα επιλέχθηκε η πύλη ανοιχτών δεδομένων World War 1 as Linked Open Data της σχεσιακής βάσης Datahub. Μελετώντας τη βάση πριν εξαχθούν τα δεδομένα, προηγήθηκε η κατανόηση του συνόλου των δεδομένων, τι αφορά το καθένα, ότι παρέχονται σε μορφή RDFκαι πως είναι διαχωρισμένα.

 H πύλη WorldWar 1 aslinkedopendata, περιέχει μεγάλο αριθμό δεδομένων όσον αφορά γεγονότα, σημαντικά πρόσωπα, μάχες και περιοχές που σχετίζονται με τον Πρώτο Παγκόσμιο πόλεμο.

Αρχικά, οι περιπτώσεις των δεδομένων που βρίσκονται μέσα στην πύλη προέρχονται από διάφορες πηγές. Οι κύριοι τύποι δεδομένων, συμπεριλαμβανομένων και μερικών που προαναφέρθηκαν είναι:

  • Γεγονότα
  • Περιοχές
  • Πρόσωπα
  • Ημερομηνίες

Παράδειγμα μια πηγής αποτελεί το ImperialWarMuseum (IWM) FirstWorldWarCentenaryPartnership, το οποίο παρείχε 326 σημαντικά γεγονότα.  Το  ImperialWarMuseum (IWM), θεωρείται η σημαντικότερη πηγή για τα γεγονότα σχετικά με τον Πρώτο Παγκόσμιο Πόλεμο. Παρόλα αυτά, το ΙWM δεν περιέχει αρκετές πληροφορίες για περιοχές και πρόσωπα. Έτσι δημιουργήθηκε ένας κατάλογος για να καλυφθεί αυτό το κενό, από διάφορες πηγές όπως British Army’s Battle Nomenclatures Committee.

Επιπρόσθετα, υπάρχουν αρκετές πληροφορίες σχετικά με τις θηριωδίες των γερμανικών στρατευμάτων, που έλαβαν μέρος στο Βέλγιο το 1914. Περιλαμβάνονται, επίσης, δεδομένα για το μέρος και την ημερομηνία του κάθε συμβάντος, τα εμπλεκόμενα στρατεύματα, ο αριθμός των θυμάτων και ο αριθμός των κτηριών που καταστράφηκαν.

Το επίκεντρο των δεδομένων είναι το Βέλγιο, καθώς αποτελεί ουσιαστικά των καθρέφτη του Πρώτου Παγκοσμίου Πολέμου, όσον αφορά τα θύματα του πολέμου και τις καταστροφές που προξενήθηκαν.

Πρόσωπα

 Οι πληροφορίες σχετικά με τα πρόσωπα, προέρχονται από δύο κύριες πηγές: α) Συμπεριλαμβάνονται πληροφορίες για τον Αυτοκρατορικό Γερμανικό Στρατό από το έργο του Georg Tessin’s “Deutsche Verbände und Truppe”. Ο λόγος που χρησιμοποιήθηκαν τα δεδομένα για τον γερμανικό στρατό είναι για να συνδεθούν τα δεδομένα με τις θηριωδίες που πραγματοποίησαν.

Τα σημαντικά πρόσωπα του Πρώτου Παγκοσμίου Πολέμου, δεν συνδέονται μόνο μεταξύ τους, αλλά και με σημαντικά γεγονότα.

Για τα συγκεκριμένα δεδομένα, χρησιμοποιήθηκαν πολλά αποδεκτά λεξιλόγια όπως: το W3C Organization Ontology, το RELATIONSHIP ontology, το FOAF schema και το schema.org vocabulary.

Περιοχές

Οι παρούσες πύλες για δεδομένα σχετικά με περιοχές, όπως το GeoNames δεν είναι εφαρμοστέες για γεγονότα όπως ο Πρώτος Παγκόσμιος Πόλεμος. Κι αυτό, επειδή υπάρχει πιθανότητα μια περιοχή  να έχει αλλάξει όνομα από την χρονολογία του πολέμου και τα έγγραφα να αναφέρονται σε αυτή, με το όνομα που είχε κατά τη διάρκεια του πολέμου.

Κύρια πηγή για τα δεδομένα που αφορούν τις ιστορικές περιοχές, συγκεντρώθηκαν από γεωγραφικά λεξιλόγια και λέξεις κλειδιά του IWMWW1. Επιπλέον, υπάρχουν ανοιχτά συνδεδεμένα δεδομένα που ενώνουν τις γεωγραφικές περιοχές, όπως ένα ποτάμι, που ανήκει σε ένα χωριό ή μια χώρα.

Χρονολογίες

Συμφραζόμενα και αβεβαιότητα σχετικά με την ιστορία, πολλές φορές δημιουργούν πολυπλοκότητα, καθώς είναι συχνά δύσκολο να καθοριστεί με ακρίβεια το πότε έλαβε μέρος ένα γεγονός.

Έτσι για να αποφευχθούν οι ανακρίβειες, δημιουργούνται τέσσερα καίρια σημεία για κάθε χρονολογία: α) πιθανή αρχική χρονική στιγμή που έλαβε μέρος το γεγονός,  β) πιθανή τελική στιγμή που έλαβε μέρος το γεγονός, γ) πιθανή αρχική χρονική στιγμή που τελείωσε  το γεγονός δ) πιθανή τελική χρονική στιγμή που τελείωσε το γεγονός.

Πρακτικό παράδειγμα

Στη συνέχεια, θα παρουσιαστούν ορισμένα παραδείγματα με οπτικοποιήσεις και στατιστικές αναλύσεις από τα δεδομένα που ανακτήθηκαν με την SPARQL. Η οπτικοποίηση και στατιστική ανάλυση έγιναν με τα εργαλεία Tableau, Sgvizler και Exploratory.

Στην πρώτη οπτικοποίηση παρατηρείται η συγκέντρωση των κατεστραμμένων κτηρίων και των σκοτωμών, που πραγματοποιήθηκαν σε κάθε πόλη ξεχωριστά. Η οπτικοποίηση των συγκεκριμένων δεδομένων μας δίνει τη δυνατότητα να κατανοήσουμε με εύκολο τρόπο σε ποιο μέρος έγιναν οι περισσότερες θηριωδίες του πεζικού των Γερμανικών Στρατευμάτων κατά τη διάρκεια του Πρώτου Παγκοσμίου Πολέμου.

Ως συμπληρωματική της παραπάνω οπτικοποίησης παραθέτουμε την επόμενη, η οποία παρουσιάζει την ίδια πληροφορία ανά πόλη. Το ενδιαφέρον είναι, ότι μπορούμε να συγκρίνουμε τα αποτελέσματα των επιπτώσεων των θηριωδιών με άλλα στοιχεία, που μπορούμε να αντλήσουμε μέσω της βάσης, όπως ο πληθυσμός των πόλεων αυτών.

Συγκρίνοντας λοιπόν τα παραπάνω διαγράμματα με την αρχική οπτικοποίηση μπορούμε να συμπεράνουμε ότι ο πληθυσμός των πόλεων Liege και Namur, που ήταν στην πρώτη γραμμή του μετώπου, μειώθηκε αισθητά λόγω του μεγάλου αριθμού των μαχών που διεξάγονταν τη συγκεκριμένη χρονική περίοδο. Αντίθετα, ο πληθυσμός της κομητείας του Louxemrurg, παρά των αριθμό των θηριωδιών που συνέβησαν εκεί,  δεδομένου ότι η γραμμή του μετώπου είχε πλέον απομακρυνθεί και δεν διεξάγονταν μάχες στην περιοχή εκείνη, είχε ως επακόλουθο την εισροή προσφύγων από τις εμπόλεμες ζώνες και την μερική αύξηση του πληθυσμού της.

Στη συνέχεια πραγματοποιήθηκε μια οπτικοποίηση με χάρτη, αυτή τη φορά με συγκεντρωμένες τις θηριωδίες του πεζικού της Γερμανικής Στρατιάς. Στο χάρτη περιλαμβάνονται το όνομα κάθε Συντάγματος και το μέρος, όπου συνέβησαν οι θηριωδίες.

Στην παραπάνω εικόνα, ο κάθε κύκλος αντιστοιχεί στην περιοχή που έλαβαν μέρος οι θηριωδίες. Το μέγεθος του κύκλου φανερώνει πόσο μεγάλος ήταν ο αριθμός των καταστροφών και των θυμάτων. Παράλληλα, κάθε κύκλος έχει ένα συγκεκριμένο χρώμα που αντιστοιχεί με την μονάδα της Γερμανικής Στρατιάς που το διέπραξε.

Επιπρόσθετα, στα πλαίσια της έρευνας και στην ανάδειξη της χρησιμότητας για τα ανοιχτά συνδεδεμένα δεδομένα, πραγματοποιήθηκε και ομαδοποίηση των δεδομένων. Στην παρακάτω εικόνα, χρησιμοποιήθηκε ο αλγόριθμος k-means clustering, ο οποίος χωρίζει τα δεδομένα ανάλογα με τα χαρακτηριστικά τους σε ομάδες. Στη συγκεκριμένη περίπτωση, έγινε ομαδοποίηση των θηριωδιών ανάλογα με το μέγεθος τους. Η πρώτη ομάδα έχει θηριωδίες από 1000 και πάνω, η δεύτερη από 300 μέχρι 600 περίπου και η τρίτη από 200 και κάτω.

Η στατιστική ανάλυση βασίστηκε στον αλγόριθμο k-means clustering για k=3, ο οποίος ομαδοποίησε τα δεδομένα σε 3 πανομοιότυπες ομάδες. Στην παρακάτω ανάλυση βλέπουμε ότι στην πρώτη ομάδα (μπλε) ανήκουν οι περιοχές, τις οποίες έχει προσπελάσει ένας μέτριος αριθμός στρατευμάτων (περίπου 150-380 στρατεύματα). Στη δεύτερη ομάδα (πορτοκαλί) ανήκουν κομβικές πόλεις, όπως η Sommeκαι Ypres. Αυτές έπαιξαν πολύ σημαντικό ρόλο στην έκβαση του πολέμου, καθώς υπάρχουν ελάχιστες πόλεις από τις οποίες πέρασαν 400-800 στρατεύματα. Τέλος, στην τρίτη ομάδα (πράσινη) ανήκει ο μεγαλύτερος αριθμός πόλεων, οι οποίες δέχθηκαν τον ελάχιστο αριθμό στρατευμάτων. Περίπου 50 στρατεύματα με μόνο 3 από αυτές να έχουν δεχθεί τον διπλάσιο αριθμό (100).

ανοιχτών δεδομένων

Σύμφωνα με τα παραπάνω παραδείγματα, προσπαθήσαμε να φανερώσουμε με τον πιο κατανοητό τρόπο τη σημαντικότητα της αξιοποίησης των ανοιχτών συνδεδεμένων δεδομένων και του σημασιολογικού ιστού. Το παράδειγμα του Πρώτου Παγκοσμίου Πολέμου φάνηκε να αξιοποιεί σε μεγάλο βαθμό τη δυνατότητα αυτή. Συμπερασματικά γίνεται κατανοητό πως μέσα από τα ανοιχτά συνδεδεμένα δεδομένα μπορεί να εξαχθεί χρήσιμη και ποιοτική γνώση.

Το άρθρο αυτό επιμελήθηκε και συντάχθηκε από τους μεταπτυχιακούς φοιτητές: Καρακατσάνης Χρήστος και Καράμπελα Αναστασία, στην κατεύθυνση «Ηλεκτρονικού Επιχειρείν και Τεχνολογίας Καινοτομίας (E-Business and Innovation Technology» του προγράμματος μεταπτυχιακών σπουδών του τμήματος Εφαρμοσμένης Πληροφορικής του Πανεπιστημίου Μακεδονίας, στα πλαίσια του μαθήματος «Τεχνολογίες Ιστού και Ανάλυση Δεδομένων Ιστού» με υπεύθυνο καθηγητή τον κ. Ταμπούρη Ευθύμιο.

 


Λίγα λόγια για τον συντάκτη

Χρήστος Καρακατσάνης

Απόφοιτος τμήματος Βιβλιοθηκονομίας και Συστημάτων Πληροφόρησης και προπτυχιακός φοιτητής στο μεταπτυχιακό τμήμα Εφαρμοσμένης Πληροφορικής. Μ' αρέσει να ταξιδεύω στην ιστορία με όλους τους διαθέσιμους τρόπους(βιβλία, ντοκιμαντέρ, ταινίες ακόμα και να γράφω για αυτή) ενώ τα games και τα βιβλία επίσης γεμίζουν το χρόνο μου!

Εβδομαδιαία ενημέρωση απο το maxmag στο email σου

Η ενημέρωση σου, για όλα τα θέματα, επί παντός επιστητού, είναι προτεραιότητα για μας στο MAXMAG. Αυτός είναι κ ο λόγος, για τον οποίο κάθε εβδομάδα οι συντάκτες μας θα επιλέγουν τα 15 σημαντικότερα άρθρα, από όλες τις στήλες του περιοδικού και θα φροντίζουμε να τα λαμβάνεις απευθείας στο email σου. Όλες οι σημαντικές ειδήσεις θα σε περιμένουν να τις ανοίξεις. Το μόνο που χρειάζεται να κάνεις είναι μια εγγραφή στο Newsletter μας. Τι περιμένεις λοιπόν;