Σημαντικά βήματα στην αναγνώριση εικόνων από την Google

Η περιγραφή μιας εικόνας είναι ιδιαίτερα εύκολη για τους ανθρώπους- αλλά αυτό δεν ισχύει για τους υπολογιστές. Ωστόσο, αυτό φαίνεται πως αρχίζει να αλλάζει, και ένδειξη είναι η δουλειά ερευνητών της Google, που ανέπτυξαν ένα σύστημα machine learning το οποίο είναι σε θέση να παράγει αυτόματα λεζάντες για να περιγράψει εικόνες την πρώτη φορά που τις «βλέπει».

Όπως γράφουν οι Όριολ Βινιάλς, Αλεξάντερ Τόσεφ, Σάμι Μπέντζιο και Ντουμίτρου Ερχάν, επιστήμονες της εταιρείας στο research blog της Google, αυτού του είδους το σύστημα θα μπορούσε να βοηθήσει μακροπρόθεσμα ανθρώπους με προβλήματα όρασης να κατανοήσουν εικόνες, να παρέχει εναλλακτικό κείμενο για εικόνες σε σημεία του κόσμου όπου οι συνδέσεις δικτύου δεν είναι καλές και να καταστήσει ευκολότερη την αναζήτηση εικόνων στο Google.

Πρόσφατες έρευνες είχαν ως αποτέλεσμα τη σημαντική βελτίωση του εντοπισμού, της καταχώρησης και της επισήμανσης/ τιτλοφόρησης αντικειμένων. Ωστόσο η ακριβής περιγραφή μίας σύνθετης σκηνής απαιτεί βαθύτερη αναπαράσταση του τι συμβαίνει, «πιάνοντας» το πώς τα διάφορα αντικείμενα σχετίζονται το ένα με το άλλο και στη συνέχεια «μεταφράζοντας» το σύνολο των «συμπερασμάτων» σε φυσική γλώσσα.

«Πολλές προσπάθειες να κατασκευάσουμε computer-generated φυσικές περιγραφές εικόνων προτείνουν τον συνδυασμό σύγχρονων state of the art τεχνικών τόσο στο computer vision όσο και στο natural language processing, για τον σχηματισμό μιας συνολικής προσέγγισης περιγραφής εικόνας. Αλλά τι θα γινόταν αν αντί για αυτό συνδυάζαμε πρόσφατα μοντέλα computer vision και γλώσσας μέσα σε ένα μοναδικό, από κοινού ‘εκπαιδευμένο’ σύστημα, λαμβάνοντας μια εικόνα και άμεσα παράγοντας μία ακολουθία λέξεων – αναγνώσιμη από ανθρώπους- για να την περιγράψουμε;» ρωτούν οι ερευνητές.

Η ιδέα προκύπτει από πρόσφατες προόδους στον τομέα του machine translation μεταξύ γλωσσών, όπου ένα RNN (Recurrent Neural Network) μεταφράζει, για παράδειγμα, μια γαλλική πρόταση σε μια απεικόνιση (vector representation) και ένα δεύτερο RNN τη χρησιμοποιεί αυτήν για να παράξει μία πρόταση στα γερμανικά.

Όπως αναφέρουν οι ερευνητές, η ιδέα είναι η αντικατάσταση του πρώτου RNN και των αρχικών λέξεων που εισάγονται με ένα βαθύ CNN (Convolutional Neural Network) που είναι ειδικά «εκπαιδευμένο» για να ταξινομεί αντικείμενα σε εικόνες. Η δυνατότητα που «ανοίγεται», όπως επισημαίνουν, είναι αυτή της «εκπαίδευσης» του συστήματος στο σύνολό του πάνω σε εικόνες και λεζάντες, έτσι ώστε να μεγιστοποιείται το ενδεχόμενο ταιριάσματος μιας περιγραφής με μια εικόνα.

Το σύστημα δοκιμάστηκε σε δημόσια διαθέσιμα datasets, περιλαμβανομένων των Pascal, Flickr8j, Flickr30k και SBU, και επιδεικνύουν καλά αποτελέσματα.

«Μία εικόνα μπορεί να αξίζει όσο 1.000 λέξεις, αλλά κάποιες φορές είναι οι λέξεις που είναι πιο χρήσιμες- οπότε είναι σημαντικό να βρούμε τρόπους να μεταφράζουμε από εικόνες σε λέξεις αυτόματα και με ακρίβεια» σημειώνουν οι ερευνητές.

Πηγή

Ναυτεμπορική

Προβεβλημένα

0 Σχόλια

Πληροφορική

ChatGPT: Το chatbot που θα «σκοτώσει» την αναζήτηση της Google;

από: thanassisk, 16 Ιαν 2023 - 10:29
0 Σχόλια

Θετικές Επιστήμες

Νέο ρεκόρ 62,8 τρισεκατομμυρίων ψηφίων του αριθμού "π" πέτυχαν Ελβετοί επιστήμονες

από: thanassisk, 17 Αυγ 2021 - 16:03
0 Σχόλια

Ενέργεια & Ανανεώσιμες πηγές

Ο ιπτάμενος ήρωας του Τσερνόμπιλ δεν είναι πια εδώ

από: thanassisk, 14 Φεβ 2021 - 18:33

Σημαντικά βήματα στην αναγνώριση εικόνων από την Google

Πηγή

Tags

Προβεβλημένα

ChatGPT: Το chatbot που θα «σκοτώσει» την αναζήτηση της Google;

Νέο ρεκόρ 62,8 τρισεκατομμυρίων ψηφίων του αριθμού "π" πέτυχαν Ελβετοί επιστήμονες

Ο ιπτάμενος ήρωας του Τσερνόμπιλ δεν είναι πια εδώ

Τελευταία νέα

Για πρώτη φορά σε δημοπρασία έργο τέχνης που δημιούργησε ένα ανδροειδές

Φινλανδία: Ανοίγει τον πρώτο «τάφο» για πυρηνικά στον κόσμο – Θα έχει διάρκεια ζωής 100.000 ετών!

Καταρρίφθηκε το παγκόσμιο ρεκόρ ζέστης για δεύτερη φορά σε δύο ημέρες

Ετικέτες

Σημαντικά βήματα στην αναγνώριση εικόνων από την Google

Πηγή

Tags

Σχετικά

Προβεβλημένα

More Πληροφορική

Τελευταία νέα

Ετικέτες

Αναζήτηση στο MyScience

Φόρμα αναζήτησης