Μια κινεζική εταιρεία τεχνητής νοημοσύνης έχει κάνει τη Σίλικον Βάλεϊ να παρακολουθεί έκπληκτη το πώς οι προγραμματιστές της έφτασαν σχεδόν τους αμερικανούς αντιπάλους τους, παρά τη χρήση κατώτερων μικροεπεξεργαστών.

Τα μοντέλα τεχνητής νοημοσύνης της κινεζικής εταιρείας DeepSeek έχουν εκτοξευθεί στην κορυφαία 10άδα σε επιδόσεις διεθνώς, αποδεικνύοντας ότι οι περιορισμοί των εξαγωγών που έχει επιβάλει η Ουάσιγκτον δεν έχουν καταφέρει να ανακόψουν την ταχεία πρόοδο της Κίνας.

Στις 20 Ιανουαρίου η DeepSeek παρουσίασε το R1, ένα εξειδικευμένο μοντέλο σχεδιασμένο για την επίλυση σύνθετων προβλημάτων.

Καινοτομία

«Το Deepseek R1 είναι μια από τις πιο εκπληκτικές και εντυπωσιακές καινοτομίες που έχω δει ποτέ μου» δήλωσε σε ανάρτησή του στο X την Παρασκευή ο Μαρκ Αντρίσεν, venture capitalist της Σίλικον Βάλεϊ και σύμβουλος του προέδρου Τραμπ. Τα επιτεύγματα της DeepSeek οδήγησαν σε ξεπούλημα στα χρηματιστήρια την περασμένη Δευτέρα, με πρωταγωνιστές τις μετοχές των εταιρειών κατασκευής τσιπ, λόγω των ανησυχιών για τις τεράστιες δαπάνες των αμερικανικών τεχνολογικών κολοσσών για ημιαγωγούς αιχμής και άλλες υποδομές τεχνητής νοημοσύνης.

Πίσω από την εντυπωσιακή ανάπτυξη της DeepSeek βρίσκεται ένας κινέζος διαχειριστής hedge-fund, ο Λιανγκ Γουενφένγκ, ο οποίος έχει γίνει το πρόσωπο της αλματώδους ανάπτυξης της τεχνητής νοημοσύνης στη χώρα. Στις 20 Ιανουαρίου ο Λιανγκ συναντήθηκε με τον πρωθυπουργό της Κίνας και συζήτησε πώς οι εγχώριες εταιρείες θα μπορούσαν να κλείσουν την ψαλίδα με τις ΗΠΑ στον τομέα της τεχνητής νοημοσύνης.

Ανταγωνιστής

Οι ειδικοί υποστηρίζουν ότι η τεχνολογία της DeepSeek υπολείπεται ακόμα της OpenAI και της Google. Αλλά είναι ένας μεγάλος ανταγωνιστής, παρά το γεγονός ότι χρησιμοποιεί λιγότερα και λιγότερο προηγμένα τσιπ και σε ορισμένες περιπτώσεις παραλείπει βήματα που οι αμερικανοί προγραμματιστές θεωρούν απαραίτητα.

Η DeepSeek ανακοίνωσε ότι η εκπαίδευση ενός από τα πιο πρόσφατα μοντέλα της κόστισε μόλις 5,6 εκατομμύρια δολάρια, ενώ πέρυσι ο διευθύνων σύμβουλος της εταιρείας ανάπτυξης τεχνητής νοημοσύνης Anthropic, Ντάριο Αμοντεϊ, ανέφερε ότι το κόστος κατασκευής ενός μοντέλου κυμαινόταν από 100 εκατ. έως 1 δισ. δολάρια.

Ο Μπάρετ Γούντσαϊντ, συνιδρυτής της εταιρείας hardware τεχνητής νοημοσύνης Positron, με έδρα το Σαν Φρανσίσκο, δήλωσε ότι ο ίδιος και οι συνάδελφοί του έχουν ενθουσιαστεί με την DeepSeek. «Είναι απίθανο» είπε ο Γούντσαϊντ αναφερόμενος στα μοντέλα ανοικτού κώδικα της DeepSeek, που σημαίνει ότι ο κώδικας του λογισμικού που χρησιμοποιεί το μοντέλο διατίθεται δωρεάν.

Λογοκρισία

Οι χρήστες της τελευταίας ναυαρχίδας της DeepSeek, του μοντέλου που ονομάζεται V3 και κυκλοφόρησε τον Δεκέμβριο, παρατήρησαν ότι αρνείται να απαντήσει σε ευαίσθητα πολιτικά ερωτήματα σχετικά με την Κίνα και τον ηγέτη της, Σι Τζινπίνγκ. Σε ορισμένες περιπτώσεις, το προϊόν δίνει απαντήσεις που ευθυγραμμίζονται με την επίσημη προπαγάνδα του Πεκίνου, χωρίς να συμπεριλαμβάνει την οπτική των επικριτών της κυβέρνησης όπως κάνει το ChatGPT.

«Το μόνο αρνητικό στοιχείο είναι κάποια κακοστημένη λογοκρισία της ΛΔΚ» σχολίασε ο Γούντσαϊντ, αναφερόμενος στη Λαϊκή Δημοκρατία της Κίνας, αλλά είπε ότι αυτό μπορεί να παρακαμφθεί. Η DeepSeek ανακοίνωσε ότι το R1 και το V3 είχαν και τα δύο καλύτερες ή παρόμοιες επιδόσεις σε σύγκριση με τα κορυφαία δυτικά μοντέλα.

Από το προπερασμένο Σάββατο τα δύο μοντέλα κατατάσσονται στα 10 κορυφαία στο Chatbot Arena, μια πλατφόρμα που υποστηρίζεται από ερευνητές του Πανεπιστημίου της Καλιφόρνιας στο Μπέρκλεϊ και αξιολογεί τις επιδόσεις των chatbot. Στην κορυφή βρίσκεται ένα μοντέλο του Gemini της Google, ενώ το DeepSeek ξεπέρασε το Claude της Anthropic και το Grok της xAI του Ιλον Μασκ.

Η DeepSeek γεννήθηκε από το ερευνητικό τμήμα AI της High-Flyer, ενός hedge-fund με ενεργητικό 8 δισεκατομμυρίων δολαρίων, η οποία είναι γνωστό ότι αξιοποιεί την τεχνητή νοημοσύνη για τη λήψη επενδυτικών αποφάσεων.

«Οταν τις επενδυτικές αποφάσεις τις παίρνουν άνθρωποι είναι τέχνη, και το κάνουν βασιζόμενοι απλά και μόνο στην εμπειρία τους. Οταν τις παίρνουν υπολογιστές είναι επιστήμη και δίνει τη βέλτιστη λύση» έλεγε ο Λιανγκ σε ομιλία του το 2019.

Πρωτοπόρος

Ο Λιανγκ γεννήθηκε το 1985 και μεγάλωσε στην επαρχία Γκουανγκντόνγκ της Νοτιοανατολικής Κίνας. Σπούδασε στο ονομαστό κινεζικό Πανεπιστήμιο Ζετζιάνγκ και ειδικεύτηκε στη μηχανική όραση. Λίγα χρόνια μετά την αποφοίτησή του, το 2015, ο Λιανγκ ίδρυσε την High-Flyer μαζί με δύο συμφοιτητές του. Ο Λιανγκ προτιμά να τον βλέπουν ως μηχανικό παρά ως επενδυτή, σύμφωνα με ανθρώπους του περιβάλλοντός του.

Η High-Flyer υπήρξε πρωτοπόρος στην Κίνα στην εφαρμογή της βαθιάς μάθησης στις χρηματιστηριακές συναλλαγές μέσω υπολογιστών. Η τεχνική αυτή, που βασίζεται στη δομή του ανθρώπινου εγκεφάλου, επιτρέπει στους υπολογιστές να αναλύουν πολύ διαφορετικούς τύπους δεδομένων. Ενώ το κύριο μοντέλο της DeepSeek διατίθεται δωρεάν, η εταιρεία χρεώνει τους χρήστες που συνδέουν τις δικές τους εφαρμογές με το μοντέλο και την υπολογιστική υποδομή της DeepSeek.

Μάχη για τις τιμές

Στις αρχές του περασμένου έτους, η DeepSeek μείωσε τις χρεώσεις για τη συγκεκριμένη υπηρεσία σε ένα κλάσμα της τιμής που χρέωναν οι άλλοι προμηθευτές, ωθώντας τον κλάδο στην Κίνα να ξεκινήσει μια μάχη για τις τιμές.

Ο Αντονι Που, συνιδρυτής μιας startup με έδρα τη Σίλικον Βάλεϊ, που χρησιμοποιεί δημιουργική τεχνητή νοημοσύνη για την πρόβλεψη οικονομικών αποδόσεων, ανακοίνωσε ότι η εταιρεία του μεταπήδησε στην DeepSeek από το μοντέλο Claude της Anthropic τον Σεπτέμβριο. Οι δοκιμές έδειξαν ότι το DeepSeek είχε παρόμοιες επιδόσεις, με το ένα τέταρτο περίπου του κόστους.

«Το μοντέλο της OpenAI είναι το καλύτερο σε επιδόσεις, αλλά δεν προτιθέμεθα να πληρώνουμε για δυνατότητες που δεν χρειαζόμαστε» δήλωσε ο Που.

Στις 20 Ιανουαρίου, ο Λιανγκ της DeepSeek, σε συνάντηση που είχε με τον κινέζο πρωθυπουργό Λι Κιανγκ, είπε ότι, ενώ οι κινεζικές εταιρείες προσπαθούσαν να καλύψουν την απόσταση με τους ανταγωνιστές τους, οι αμερικανικοί περιορισμοί στις εξαγωγές προηγμένων τσιπ στην Κίνα εξακολουθούσαν να αποτελούν εμπόδιο.

Εκπαίδευση

Το 2019, η High-Flyer προχώρησε στην κατασκευή ενός συμπλέγματος τσιπ για έρευνα στον τομέα της τεχνητής νοημοσύνης, με κεφάλαια που προέρχονταν εν μέρει από τη χρηματοοικονομική της δραστηριότητα. Η εταιρεία δήλωσε ότι αργότερα κατασκεύασε ένα μεγαλύτερο σύμπλεγμα περίπου 10.000 μονάδων επεξεργασίας γραφικών της Nvidia που μπορούν να χρησιμοποιηθούν για την εκπαίδευση μεγάλων γλωσσικών μοντέλων.  

Ορισμένοι εξωτερικοί ερευνητές σχολίασαν ότι το μοντέλο της DeepSeek δεν διαθέτει ορισμένες από τις δυνατότητες των ακριβότερα εκπαιδευμένων ανταγωνιστών του όσον αφορά, για παράδειγμα, την παρακολούθηση των συμφραζομένων σε μακροσκελείς συνομιλίες. Η DeepSeek θεωρεί ότι το μοντέλο της, που έχει σχεδιαστεί για την επίλυση δύσκολων λεκτικών μαθηματικών προβλημάτων και παρόμοιες σύνθετες εργασίες, ήταν εφάμιλλο του συλλογιστικού μοντέλου o1 της OpenAI, παρόλο που είχε παραλείψει την επιτηρούμενη μικρορύθμιση και είχε εστιάσει στην ενισχυτική μάθηση – ουσιαστικά σε μια κατευθυνόμενη διαδικασία δοκιμής και σφάλματος.

Σημαντική τομή

Ο Τζιμ Φαν, από τους κορυφαίους ερευνητές της Nvidia, υποδέχθηκε την έκθεση της DeepSeek όπου παρουσιάζονται τα αποτελέσματα ως σημαντική τομή. Ο Ζακ Κας, πρώην στέλεχος της OpenAI, εκτιμά ότι η πρόοδος που πέτυχε η DeepSeek, παρά τους αμερικανικούς περιορισμούς, «εμπεριέχει ένα ευρύτερο δίδαγμα: Οι περιορισμένοι πόροι συχνά προωθούν τη δημιουργικότητα».