La PNL innove-t-elle plus vite que les autres domaines de l'IA ?

Meta a récemment introduit un modèle Open Pretrained Transformer (OPT) de 175 milliards de paramètres. Meta affirme que ce modèle massif, qui est formé sur des ensembles de données accessibles au public, est le premier système de technologie linguistique de cette taille à être publié avec ses modèles préformés et son code de formation. Dans ce qui peut être considéré comme un événement rare, Meta a ouvert ce modèle en open source.

Le modèle OPT rejoint les rangs de plusieurs autres modèles de langage avancés qui ont été développés et introduits récemment. Le domaine NLP de l'IA a connu une innovation massive au cours des dernières années, avec la participation des principales entreprises technologiques du monde. Pourquoi y a-t-il une concurrence aussi intense dans ce domaine, ou en d'autres termes, d'autres domaines de l'IA sont-ils à la traîne du NLP en termes d'innovation ?

THE BELAMY

Inscrivez-vous pour recevoir votre dose hebdomadaire de nouveautés technologiques.

E-mail

Progrès en PNL

Le domaine de l'IA est largement fragmenté en domaines qui ciblent différents types de problèmes. Certains systèmes sont utilisés pour résoudre des problèmes impliquant la navigation et le déplacement dans des espaces physiques, comme les véhicules autonomes et la robotique ; d'autres traitent des applications liées à la vision par ordinateur - différenciation et catégorisation des images et des motifs ; IA de bon sens. D'autres formes d'IA résolvent des problèmes critiques et spécifiques. Comme AlphaFold de DeepMind a résolu un défi vieux de 50 ans. Cette innovation a accéléré le processus de découverte de médicaments.

La PNL innove-t-elle plus rapidement que d'autres domaines de AI

Cela dit, le traitement du langage naturel est sans doute le domaine le plus en vogue de l'IA. Même chez les humains, être multilingue et maîtriser la langue ont été considérés comme des indicateurs majeurs de l'intelligence. Il est généralement considéré comme évocateur d'une capacité à analyser des messages complexes et à déchiffrer les variations de codage selon le contexte, l'argot et les dialectes. Il n'est pas surprenant que les chercheurs en intelligence artificielle considèrent que l'enseignement aux machines de la capacité de comprendre et de répondre au langage naturel est un grand exploit et même un pas vers l'intelligence générale.

Parlant d'innovation dans ce domaine, une percée largement considérée, les 175 milliards de paramètres GPT-3 ont été publiés par OpenAI en 2020. Un réseau de neurones complexe, GPT-3 a été formé sur 700 Go de données récupérées sur le Web. , y compris Wikipédia et les livres numérisés. GPT-3 a créé un précédent pour des modèles encore plus grands, avancés et, dans certains cas, peu coûteux en termes de calcul.

L'innovation qui prend en charge le TAL

Il y a eu plusieurs étapes dans l'évolution du domaine du traitement du langage naturel. Cela a commencé dans les années 80 avec le système expert, passant à la révolution statistique, pour enfin la révolution neuronale. En parlant de révolution neuronale, elle a été rendue possible par la combinaison d'architectures neuronales profondes, de matériel spécialisé et d'une grande quantité de données. Cela dit, la révolution dans le domaine de la PNL a été beaucoup plus lente que d'autres domaines comme la vision par ordinateur, qui ont grandement bénéficié de l'émergence de modèles pré-formés à grande échelle, qui, à leur tour, ont été activés par de grands ensembles de données comme ImageNet. Les modèles ImageNet pré-entraînés ont permis d'obtenir des résultats de pointe dans des tâches telles que la détection d'objets, l'estimation de la pose humaine, la segmentation sémantique et la reconnaissance vidéo. Ils ont permis l'application de la vision par ordinateur à des domaines où le nombre d'exemples de formation est faible et l'annotation coûteuse.

L'une des inventions les plus définitives de ces derniers temps a été les transformateurs. Développé chez Google Brains en 2017, Transformers est une nouvelle architecture de réseau neuronal basée sur le concept du mécanisme d'auto-attention. Le modèle a surpassé les modèles récurrents et convolutifs. Il a également été observé qu'un transformateur nécessite moins de puissance de calcul pour s'entraîner et convient mieux au matériel d'apprentissage automatique moderne qui accélère la formation par ordre de grandeur. Il est devenu l'architecture de choix pour les problèmes NLP, remplaçant les modèles antérieurs comme LSTM. La parallélisation supplémentaire de la formation a permis de s'entraîner sur un ensemble de données beaucoup plus volumineux qu'auparavant.

Grâce à Transformers et à l'invention ultérieure de BERT, NLP a atteint son "moment ImageNet". BERT a révolutionné la PNL, et depuis lors, un large éventail de variantes de ces modèles ont été proposées, telles que RoBERTa, ALBERT et XLNet. Au-delà de Transformers, plusieurs techniques de représentation telles que ELMo et ULMFiT ont fait la une des journaux en démontrant que des modèles de langage pré-entraînés peuvent obtenir des résultats de pointe sur une gamme de tâches NLP.

"L'architecture Transformer a révolutionné le NLP en permettant la génération et l'ajustement du langage à une échelle jamais vue auparavant dans le NLP. De plus, ces modèles fonctionnent mieux lorsqu'ils sont entraînés sur de grandes quantités de données ; par conséquent, les organisations se concentrent sur la formation de modèles de langage de plus en plus grands avec peu de changements dans l'architecture du modèle. De grandes entreprises comme Google et Meta, qui peuvent se permettre ce type de formation, développent de nouveaux modèles de langage, et j'attends la même chose de la part d'autres grandes entreprises », a déclaré Shameed Sait, responsable de l'intelligence artificielle chez tmrw.

Se faisant l'écho du même sentiment, Anoop Kunchukuttan, chercheur chez Microsoft et co-fondateur d'AI4Bharat, a déclaré : "Il est intéressant de noter que les avantages de l'apprentissage en profondeur ont d'abord été largement observés dans le domaine de la vision et de la parole par ordinateur. Ce qui s'est passé, c'est que la PNL a eu une sorte d'avance en termes de types de modèles qui ont été introduits par la suite. Le mécanisme basé sur l'attention, par exemple, a conduit à de grands progrès en PNL. De plus, l'introduction de l'apprentissage auto-supervisé a influencé les progrès dans le domaine de la PNL.

Accès à des données massives

L'un des principaux avantages du NLP est la disponibilité d'une quantité massive d'ensembles de données sur lesquels former des modèles avancés. Hugging Face, une startup qui construit le "GitHub for Machine Learning", travaille à la démocratisation de l'IA, avec un accent particulier sur le NLP. L'année dernière, Hugging Face a publié Datasets, une bibliothèque communautaire pour la PNL, qui a été développée sur un an. Développée par plus de 250 développeurs, cette bibliothèque contient 650 ensembles de données uniques visant à standardiser l'interface utilisateur final, le contrôle de version, la documentation et à offrir une interface légère pour les corpus à l'échelle d'Internet.

De même, la base de données open source FLORES-101 de Facebook AI a permis d'améliorer les modèles de traduction multilingues. Il s'agit d'un ensemble de données d'évaluation plusieurs à plusieurs couvrant 101 langues différentes. En rendant ces informations accessibles au public, Facebook souhaite accélérer les progrès du NLP en permettant aux développeurs de générer des outils plus diversifiés et pertinents localement.

Le principal avantage de la modélisation du langage est que les données d'entraînement sont gratuites avec n'importe quel corpus de texte. La disponibilité d'une quantité potentiellement illimitée de données d'entraînement est particulièrement importante car la PNL ne traite pas uniquement de la langue anglaise.

Vers AGI ? Pas encore là

Lorsque le modèle GPT-3 a été publié, de nombreuses publications trop enthousiastes l'ont qualifié de premier pas vers l'AGI. Bien que le modèle de cette ampleur et de cette puissance de traitement ne soit rien de moins qu'une merveille technologique, le considérer comme un mouvement vers l'AGI est un peu exagéré.

Le professeur émérite de l'université de New York, Gary Marcus, auteur du récent livre "Rebooting AI", a déclaré dans une précédente interview avec Analytics India Magazine : "La piste spécifique sur laquelle nous nous engageons est celle des grands modèles de langage, une extension de Big Data. Mon point de vue à ce sujet n'est pas optimiste. Ils sont moins étonnants dans leur capacité à ne pas être toxiques, à dire la vérité ou à être fiables. Je ne pense pas que nous voulions construire une intelligence générale qui ne soit pas fiable, qui désinforme les gens et qui soit potentiellement dangereuse. Par exemple, vous avez GPT-3 recommandant que les gens se suicident.

Il y a eu d'énormes progrès dans la traduction automatique, mais pas dans la compréhension automatique. Le raisonnement moral n'est nulle part, et je ne pense pas que l'IA soit un domaine sain en ce moment.

Dans un cas rare, le rival de Marcus, Yann LecCun, semble être d'accord avec lui. Dans une conférence séparée, Lecun a qualifié le langage d'épiphénomène de l'intelligence humaine. Il a ajouté qu'il y a beaucoup de choses dans l'intelligence qui n'ont rien à voir avec le langage. "C'est là qu'il faut d'abord attaquer les choses. … [Language] est le numéro 300 dans la liste des 500 problèmes auxquels nous devons faire face », a déclaré Yann LeCun.

Ainsi, bien que les modèles de langage et le domaine de la PNL puissent être certainement importants pour atteindre l'AGI, ce n'est tout simplement pas suffisant. Pour le moment, avec l'annonce imminente du GPT-4 et d'autres modèles de langage en attente d'être introduits, on peut continuer à voir des progrès accélérés dans le domaine pendant encore longtemps.