Έντυπη έκδοση

Υπολογιστές που βλέπουν

Το 1970, οι Marr και Poggio διατύπωσαν μια θεωρία για την ανθρώπινη στερεοσκοπική όραση που έβαλε τις βάσεις για τη μελλοντική πρόοδο στην τριδιάστατη υπολογιστική αντίληψη και την υπολογιστική στερεοσκοπική όραση.

26.02.2024

17:45

ΟΠΑ

Έντυπη έκδοση

Στέφανος Ζαφειρίου

26.02.2024

17:45

ΟΠΑ

Έντυπη έκδοση

Στέφανος Ζαφειρίου

Το 1970, οι Marr και Poggio διατύπωσαν μια θεωρία για την ανθρώπινη στερεοσκοπική όραση που έβαλε τις βάσεις για τη μελλοντική πρόοδο στην τριδιάστατη υπολογιστική αντίληψη και την υπολογιστική στερεοσκοπική όραση.

Κάντε TO BHMA προτιμώμενη πηγή

Ο όρος «Τεχνητή Νοημοσύνη» (ΤΝ) καθιερώθηκε από τον John McCarthy, ο οποίος αργότερα διακρίθηκε ως καθηγητής ΤΝ στο MIT, στη διάρκεια της Διάσκεψης του Dartmouth το 1956. Η συγκεκριμένη διάσκεψη θεωρείται ευρέως ως το σημείο καθιέρωσης της ΤΝ ως ανεξάρτητου πεδίου μελέτης, ορίζοντας την ατζέντα για τις επόμενες δεκαετίες. Δέκα χρόνια αργότερα, ο συνεργάτης του McCarthy και επίσης επιφανής ερευνητής στα αρχικά στάδια της ΤΝ, Marvin Minsky, ξεκίνησε το θερινό πρόγραμμα στην Υπολογιστική Όραση (ΥΟ) για προπτυχιακούς φοιτητές του MIT, το οποίο συχνά αναφέρεται ως ένα από τα θεμελιώδη γεγονότα στην ιστορία του πεδίου.

Ο κύριος στόχος του προγράμματος ήταν να καταστήσει δυνατή την ανάλυση αντικειμένων και σκηνών από έναν υπολογιστή μέσω εικόνων. Αυτό περιελάμβανε τη σύνδεση μιας κάμερας με τον υπολογιστή, με σκοπό να μάθει να διαχωρίζει σχήματα, να ταξινομεί αντικείμενα και να ερμηνεύει απλές σκηνές. Υπάρχει η φήμη ότι αυτό το πρόγραμμα θεωρήθηκε κατάλληλο για φοιτητές προπτυχιακού επιπέδου επειδή ο Minsky θεωρούσε ότι οι προκλήσεις της ΥΟ θα ήταν σχετικά απλές στην επίλυση. Αυτή η υπόθεση, βέβαια, αποδείχθηκε πολύ μακριά από την πραγματικότητα.

Η ΥΟ ασχολείται με την καταγραφή, επεξεργασία, ανάλυση, σύνθεση και κατανόηση ψηφιακών εικόνων, καθιστώντας τη μία από τις πλέον δημοφιλείς και ενεργές περιοχές της επιστήμης υπολογιστών και της μηχανικής. Η έμπνευση των πρώτων μελετών προέκυψε από το ανθρώπινο οπτικό σύστημα. Για παράδειγμα, το 1970, οι Marr και Poggio διατύπωσαν μια θεωρία για την ανθρώπινη στερεοσκοπική όραση που έβαλε τις βάσεις για τη μελλοντική πρόοδο στην τριδιάστατη υπολογιστική αντίληψη και την υπολογιστική στερεοσκοπική όραση. Τη δεκαετία του ’80 και του ’90, η ΥΟ επικεντρώθηκε σε ερωτήματα όπως «Τι μπορεί να πει ο υπολογιστής για μια εικόνα ή ένα βίντεο βάσει ενός δεδομένου μοντέλου;». Ως απάντηση σε αυτά τα ερωτήματα, σχεδιάστηκαν πολύπλοκα μαθηματικά μοντέλα. Προσωπικότητες του επιπέδου του David Mumford, νικητή του μεταλλίου Fields στα μαθηματικά, ενδιαφέρθηκαν για τον τομέα, αναπτύσσοντας τεχνικές για την κατάτμηση εικόνων, τον εντοπισμό ακμών και την αποσύνθεση των εικόνων σε αρχετυπικά σχήματα, όπως κύκλους και τετράγωνα, καθώς και τον καθορισμό κανόνων για την αναγνώριση αντικειμένων στις εικόνες. Παρά τη μαθηματική τους κομψότητα, λίγα από αυτά τα μοντέλα ήταν αποτελεσματικά σε εφαρμογές με πραγματικές εικόνες.

Το 1999 αποτέλεσε ένα κομβικό έτος για την ΥΟ με την παρουσίαση του μετασχηματισμού SIFT, μιας μεθόδου που εντοπίζει και περιγράφει τοπικά χαρακτηριστικά σε εικόνες (π.χ., τοπικά ιστογράμματα κατευθυνόμενων κλίσεων, τα οποία περιγράφουν το τοπικό σχήμα της εικόνας, τέτοια τοπικά χαρακτηριστικά είναι σχετικά αμετάβλητα σε μετασχηματισμούς εικόνας όπως περιστροφή και κλιμάκωση αλλά και στον φωτισμό). Ο μετασχηματισμός SIFT και άλλες συναφείς μέθοδοι περιγραφής εικόνων (π.χ., HOG) όταν συνδυάστηκαν με απλά στατιστικά μοντέλα της εποχής, προκάλεσαν μια σημαντική μετάβαση στην ΥΟ, καθιστώντας για πρώτη φορά δυνατές εφαρμογές όπως η αναγνώριση αντικειμένων, η τριδιάστατη ανακατασκευή σκηνής, η ρομποτική πλοήγηση και χαρτογράφηση, και όλα αυτά χρησιμοποιώντας εικόνες από τον πραγματικό κόσμο εκτός εργαστηρίου. Περίπου μια δεκαετία μετά την παρουσίαση του SIFT, η κοινότητα της ΥΟ αντιμετώπισε μια ακόμη πιο σημαντική αλλαγή παραδείγματος. Το 2012, ένα βαθύ συνελικτικό δίκτυο, το AlexNet, ξεπέρασε κατά πολύ τα πιο προχωρημένα μοντέλα της εποχής σε αναγνώριση αντικειμένων, μεταμορφώνοντας έτσι την ίδια την ΥΟ και τον τρόπο που προσεγγίζουμε τα δεδομένα. Το βασικό ερώτημα στη ΥΟ, τώρα, αλλάζει στο: «Τι μπορώ να πω για μια εικόνα ή ένα βίντεο βάσει των διαθέσιμων εικόνων και δεδομένων στο διαδίκτυο, χωρίς να βασίζομαι σε προκαθορισμένα μοντέλα;».

Η βαθιά μάθηση

Τα βαθιά συνελικτικά δίκτυα (νευρωνικά δίκτυα που περιλαμβάνουν στρώματα που εκτελούν μια μαθηματική πράξη γνωστή ως συνέλιξη) και η βαθιά μάθηση, γενικότερα, αναδύθηκαν ως καινοτόμες τεχνολογίες μετά από εξέλιξη δεκαετιών. Η επικράτησή τους απαιτούσε συντονισμένη επιστημονική προσπάθεια, καθώς και αξιοποίηση της αυξανόμενης υπολογιστικής ισχύος σε συνδυασμό με τον πλέον μεγάλο όγκο δεδομένων. Η σημαντική αλλαγή που εμφανίστηκε το 2012 οφείλεται, μεταξύ άλλων, στην ανάπτυξη των Μονάδων Επεξεργασίας Γραφικών (GPUs), οι οποίες αρχικά σχεδιάστηκαν για επιτάχυνση γραφικών και επεξεργασία εικόνων και σήμερα είναι κρίσιμες στην εκπαίδευση προηγμένων μοντέλων βαθιάς μάθησης. Η εξέλιξη του διαδικτύου, που διευκόλυνε την κοινοποίηση και διαμοίραση ψηφιακού περιεχομένου, έπαιξε επίσης έναν αποφασιστικό ρόλο. Στην εποχή του «χρυσού πυρετού» της ΥΟ και της ΤΝ, η NVIDIA, η βασική εταιρεία που κατασκευάζει GPUs και αρχικά εστίαζε στα παιχνίδια και τα εξειδικευμένα γραφικά, ανέβασε τη χρηματιστηριακή της αξία στα 1,3 τρισεκατομμύρια δολάρια, επιβεβαιώνοντας τη ρήση ότι κατά τους χρυσούς πυρετούς, τα κέρδη βρίσκονται στην πώληση των «φτυαριών».

Η ενσωμάτωση της βαθιάς μάθησης στην YO έχει προκαλέσει πληθώρα επιτυχιών και έχει οδηγήσει στην ανάπτυξη πολλαπλών εφαρμογών. Η βαθιά μάθηση αποτελεί πλέον θεμελιώδες εργαλείο στη δημιουργία αξιόπιστων συστημάτων αναγνώρισης προσώπου, που χρησιμοποιούνται από τον έλεγχο συνόρων μέχρι την ασφάλεια κινητών τηλεφώνων. Έχει επίσης διευκολύνει τη δημιουργία μοντέλων ικανών να αναγνωρίζουν και να καθορίζουν με ακρίβεια τη θέση και το μέγεθος πολλαπλών αντικειμένων εντός εικόνας, σε πραγματικό χρόνο. Τέτοια συστήματα βαθιάς μάθησης είναι κρίσιμα για τη λειτουργία αυτόνομων οχημάτων, καθώς επιτρέπουν την ακριβή αναγνώριση και ερμηνεία του περιβάλλοντος για την ασφαλή πλοήγηση. Στον όμορο χώρο της ανάλυσης ιατρικής εικόνας η βαθιά μάθηση έχει φέρει επανάσταση στην αυτόματη διάγνωση ασθενειών, στην ανίχνευση καρκινικών κυττάρων από ιστολογικά δείγματα, στην πρόβλεψη εξέλιξης των παθήσεων και στον χειρουργικό προγραμματισμό. Σε πολλές από αυτές τις εφαρμογές η ΤΝ είχε καλύτερη επίδοση από εκπαιδευμένους ακτινολόγους.

Η βαθιά μάθηση έχει επαναπροσδιορίσει όχι μόνο τον τρόπο με τον οποίο ανιχνεύουμε και αναγνωρίζουμε αντικείμενα από εικόνες αλλά και τη διαδικασία παραγωγής και σύνθεσης νέων εικόνων, μια δυνατότητα που παλαιότερα ήταν προνόμιο ειδικευμένων γραφικών στούντιο. Προηγμένα μοντέλα, όπως τα Γεννητικά Ανταγωνιστικά Δίκτυα (GANs) και τα μοντέλα διάχυσης (diffusion models), μπορούν να δημιουργούν εικόνες απευθείας από κειμενικές περιγραφές, εμπλουτίζοντας την αλληλεπίδραση μεταξύ οπτικής πληροφορίας και κειμένου. Η συγχώνευση νευρωνικών μοντέλων επεξεργασίας φυσικής γλώσσας, φωνής και εικόνας έχει επιτρέψει τη δημιουργία προηγμένων μοντέλων, όπως το Gemini της Google, που ανοίγουν νέους δρόμους για τη δημιουργία πολυμεσικού περιεχομένου και την επίλυση προκλήσεων σε ευρεία γκάμα τομέων. Αυτές οι τεχνολογίες μας φέρνουν ένα βήμα πιο κοντά στη δημιουργία ψηφιακών ανθρωπόμορφων χαρακτήρων με πειστική αλληλεπίδραση, που κάνουν την πραγματικότητα ταινιών όπως η «Her» πιο εφικτή πολύ συντομότερα από ό,τι αναμέναμε.

Τι περιμένουμε σήμερα

Οι παλαιότερες προβλέψεις πολλών από εμάς που ασχολούμαστε με την ΥΟ και γενικότερα την ΤΝ ωχριούν συγκρινόμενες με αυτά που καταφέραμε τα τελευταία δέκα χρόνια και το μέλλον φαντάζει συναρπαστικό. Οι μελλοντικές απειλές που προσωπικά αναγνωρίζω διαφέρουν σημαντικά από τις απεικονίσεις της επιστημονικής φαντασίας, όπου η ΤΝ γίνεται αυτοσυνείδητη και αντιτίθεται ξαφνικά στην ανθρωπότητα. Προβλήματα θα προκύψουν κυρίως όταν η YO και τα συστήματα ΤΝ χρησιμοποιηθούν υπερβολικά για την αυτόματη λήψη αποφάσεων, όπως σε αυτοκίνητα αυτόνομης οδήγησης. Η έλλειψη διαφάνειας στα σύγχρονα μοντέλα βαθιάς μάθησης εγείρει ζητήματα έλλειψης εξήγησης στη λήψη αποφάσεων. Επίσης, η διαδικασία δημιουργίας των συστημάτων από τα δεδομένα εκπαίδευσης και μόνο δεν διασφαλίζει αυτόματα τη συμμόρφωση και την ευθυγράμμιση των συστημάτων ΤΝ με εντολές και ανθρώπινες αξίες.

Ο Στέφανος Ζαφειρίου είναι Καθηγητής Υπολογιστικής Όρασης και Μηχανικής Μάθησης στο Imperial College London και ερευνητής στο Ερευνητικό Κέντρο «Αθηνά»

Ακολούθησε το Βήμα στο Google news και μάθε όλες τις τελευταίες ειδήσεις.

Σχόλια

Η βαθιά μάθηση

Τι περιμένουμε σήμερα

Τζόναθαν Κόου: «Είναι πιο ενδιαφέρον να επιτρέπεις στους χαρακτήρες σου να σε εκπλήσσουν»

Από τη σιωπή του Τζόρτζιο Μοράντι στο βλέμμα του Τζόελ Μεγέροβιτς

«Δεν είναι 8 χρόνια, είναι σαν 8 λεπτά μετά» - Οι μνήμες και οι ανοιχτές πληγές

Ο τουρισμός και ο προστατευτισμός

Από τα τεκμήρια στη διασυνδεδεμένη γνώση

Ψηφιακές τεχνικές στην αρχαιολογική έρευνα πεδίου

Όταν οι μηχανές «διαβάζουν» τον άνθρωπο

Ψηφιοποίηση υφασμάτων: Προκλήσεις και λύσεις

Matt Damon και Ben Affleck - Μια φιλία που μετρά 45 χρόνια: Από τις αλάνες της Μασαχουσέτης στην κορυφή του Χόλιγουντ - Grace

Ραγδαίες εξελίξεις στην υπόθεση εξαφάνισης της Κινέζας μεσίτριας στην Αρτέμιδα

Καιρός: Καταιγίδες, χαλάζι και πτώση θερμοκρασίας: Το σπάνιο φαινόμενο της Παρασκευής

Ο γιος του Ricky Martin ζητά να μην τον συγκρίνουν με τον διάσημο πατέρα του: «Είμαι ο Valentino» - Grace

Σταύρος Γεωργίου: Συνελήφθη 28χρονος Αιγύπτιος για τη δολοφονία του

Βέρτιγκο

Στον Λακαφώση για γαλακτομπούρεκο, ρυζόγαλο και γιαούρτι στο πήλινο

5 το πρωί: Σύλληψη για τη δολοφονία του Σταύρου Γεωργίου - Σήμερα οι Βάσεις - Καυτό φθινόπωρο για το ΜαξίμουΟ

Αλέξης Σταμάτης: Ο τελευταίος αποχαιρετισμός από τους ανθρώπους που τον γνώρισαν

Ουκρανία: «Πόλεμος» μέσα στον πόλεμο - Η πολιτική κρίση που τάραξε το Κίεβο

Δήμος Φλέσσας: «Ο καλλιτέχνης μπορεί να είναι μοναχικός, αλλά πάντα επιζητεί την εμπλοκή σε ομαδικές ιστορίες»

Οδοιπορικό στη Μεσσηνία: Από την Καλαμάτα έως την Αρχαία Μεσσήνη και την Πύλο

«Μήπως πήρες λάθος ηθοποιό;» - Όταν ο Ντενί Πονταλιντές συνάντησε τον Μαιγκρέ

Jeddah Tower: Ο ουρανοξύστης των 1.000 μέτρων που εκθρονίζει το Burj Khalifa

Παραπομπή Τριαντόπουλου σε Ειδικό Δικαστήριο για τα Τέμπη

Παραπομπή Τριαντόπουλου σε Ειδικό Δικαστήριο για τα Τέμπη

Από το γήπεδο στο AI: το μάθημα της Ισπανίας

Από το ’28 κλιματισμός στους παλιούς συρμούς: Γιατί έχει ακινητοποιηθεί μέρος του στόλου;

Γιατί οι Αμερικανοί «μισούν» τα data centers

Για πρώτη φορά Τρωάδες στην Επίδαυρο για θεατές με αναπηρία

Πού ποντάρει για μια 3η κυβερνητική θητεία - Η κρίσιμη προεκλογική ΔΕΘ

Η συμφωνία Άγκυρας - Ριάντ που ανησυχεί το Ισραήλ - Τι μνήμες ξυπνάει

Πόσες κούπες καφέ την ημέρα είναι ασφαλείς για την καρδιά;

«Τατουάζ» μετρούν το στρες των φυτών

Τάσος Μαντζαβίνος: «Η ζωγραφική με βοήθησε να επιβιώσω. Αλλιώς δεν ξέρω πού θα είχα καταλήξει»

Έτσι θα κυβερνήσει ο Μπέρναμ - «Ξηλώνει» το Γουέστμινστερ, το ανατρεπτικό μοντέλο

Εξοπλισμοί 5 δισ.: Κλειδώνει η «Ασπίδα του Αχιλλέα», ισραηλινή απόβαση στην Αθήνα

Αποκλειστικό: Μείωση φόρου 2% για όλες τις επιχειρήσεις - Το «κλειδωμένο» πακέτο της ΔΕΘ

Στο κατώφλι της Ντάουνινγκ Στριτ ο Αντι Μπέρναμ με οδηγό το «μοντέλο του Μάντσεστερ» - To στοίχημα

Όταν η CIA «έχασε» το πραξικόπημα κατά Μακαρίου - Η απόρρητη έκθεση που «τύφλωσε» τον Νίξον

27+1 θεατρικές παραστάσεις για το καλοκαίρι

Ειδήσεις

Συνδρομές

International Edition

Γνώμες

Μόνο στο Βήμα

ΒΗΜΑgazino

Grace

Podcasts

Videos

Newsletters

ΤΟ ΒΗΜΑ των μαθητών

Special Editions