Το εργαλείο αυτό είναι σχεδιασμένο να αναγνωρίζει τις κινήσεις του κεφαλιού συμπεριλαμβανομένων, μεταξύ άλλων, της κίνησης των χειλιών, των εκφράσεων.
Έναν ευφάνταστο τρόπο διάλεξε η Microsoft για να παρουσιάσει τις δυνατότητες του νέου εργαλείου τεχνητής νοημοσύνης, VASA-1. Η εταιρεία επέλεξε τον διάσημο πίνακα του Λεονάρντο ντα Βίντσι, τη «Μόνα Λίζα», την οποία έκανε να «τραγουδήσει» ραπ μουσική.
Συγκεκριμένα, για το βίντεο με τη Μόνα Λίζα οι ερευνητές χρησιμοποίησαν τον κωμικό τρόπο με τον οποίο ερμήνευσε η Αν Χάθαγουεϊ το τραγούδι «Paparazzi».
Εξηγούν οι ερευνητές της Microsoft
Σύμφωνα με τους ερευνητές της Microsoft το νέο εργαλείο μπορεί να πάρει μια εικόνα ενός προσώπου και τον ήχο από κάποιο άλλο πρόσωπο για να δημιουργήσει ένα αληθοφανές βίντεο της ακίνητης εικόνας να μιλάει.
Microsoft just dropped VASA-1.
This AI can make single image sing and talk from audio reference expressively. Similar to EMO from Alibaba
10 wild examples:
1. Mona Lisa rapping Paparazzi pic.twitter.com/LSGF3mMVnD
— Min Choi (@minchoi) April 18, 2024
Ειδικά για το βίντεο με τη Μόνα Λίζα οι ερευνητές χρησιμοποίησαν τον κωμικό τρόπο με τον οποίο ερμήνευσε η Αν Χάθαγουεϊ το τραγούδι «Paparazzi». Για την ώρα η Microsoft λέει ότι δεν είναι στα άμεσα σχέδιά της να κυκλοφορήσει στο κοινό το VASA-1.
Όπως εξήγησαν οι ερευνητές της εταιρείας το εργαλείο αυτό είναι σχεδιασμένο να αναγνωρίζει τις κινήσεις του κεφαλιού συμπεριλαμβανομένων, μεταξύ άλλων, της κίνησης των χειλιών, των εκφράσεων, του βλέμματος των ματιών, του ανοιγοκλεισίματος των ματιών. Τέλος, παρακάτω φαίνεται το τραγούδι Paparazzi όπως το ερμήνευσε η Αν Χάθαγουεϊ.