¿La PNL está innovando más rápido que otros dominios de IA?

Meta introdujo recientemente un modelo de transformador preentrenado abierto (OPT) de 175 000 millones de parámetros. Meta afirma que este modelo masivo, que se entrena en conjuntos de datos disponibles públicamente, es el primer sistema de tecnología de lenguaje de este tamaño que se lanza con sus modelos preentrenados y su código de entrenamiento. En lo que puede considerarse una ocurrencia rara, Meta abrió este modelo.

El modelo OPT se une a las filas de varios otros modelos de lenguaje avanzado que se han desarrollado e introducido recientemente. El campo de NLP de AI ha visto una innovación masiva en los últimos años, con la participación de compañías tecnológicas líderes en el mundo. ¿Por qué hay una competencia tan intensa en este campo o, en otras palabras, hay otros dominios de IA que van a la zaga de la PNL en términos de innovación?

THE BELAMY

Regístrese para recibir su dosis semanal de lo que está de moda en tecnología emergente.

Correo electrónico

Progreso en PNL

El campo de la IA está ampliamente fragmentado en dominios que se enfocan en diferentes tipos de problemas. Algunos sistemas se utilizan para resolver problemas que involucran navegación y movimiento a través de espacios físicos, como vehículos autónomos y robótica; otros se ocupan de aplicaciones relacionadas con la visión por computadora: diferenciación y categorización de imágenes y patrones; IA de sentido común. Otras formas de IA resuelven problemas críticos y específicos. Como AlphaFold de DeepMind resolvió un desafío de 50 años. Esta innovación ha acelerado la variedad del proceso de descubrimiento de fármacos.

¿La PNL está innovando más rápido que otros dominios de AI

Dicho esto, podría decirse que el procesamiento del lenguaje natural es el campo más candente de la IA. Incluso en los humanos, ser multilingüe y tener dominio del idioma se han considerado indicadores importantes de inteligencia. En general, se considera que sugiere la capacidad de analizar mensajes complejos y descifrar variaciones de codificación en contextos, jergas y dialectos. No sorprende que los investigadores de IA consideren que enseñar a las máquinas la capacidad de comprender y responder al lenguaje natural es una gran hazaña e incluso un paso hacia el logro de la inteligencia general.

Hablando de innovación en este campo, OpenAI lanzó el GPT-3 de 175 000 millones de parámetros en 2020, un avance ampliamente considerado. GPT-3, una red neuronal compleja, ha sido entrenada en 700 gigabytes de datos extraídos de toda la web. , incluyendo Wikipedia y libros digitalizados. GPT-3 sentó un precedente para modelos aún más grandes, avanzados y, en algunos casos, computacionalmente económicos.

Innovación que respalda la PNL

Ha habido varias etapas en la evolución del campo del procesamiento del lenguaje natural. Empezó en los años 80 con el sistema experto, pasando a la revolución estadística, para finalmente la revolución neuronal. Hablando de la revolución neuronal, fue posible gracias a la combinación de arquitecturas neuronales profundas, hardware especializado y una gran cantidad de datos. Dicho esto, la revolución en el dominio de la PNL fue mucho más lenta que en otros campos como la visión por computadora, que se benefició enormemente de la aparición de modelos preentrenados a gran escala que, a su vez, fueron habilitados por grandes conjuntos de datos como ImageNet. Los modelos de ImageNet previamente entrenados ayudaron a lograr resultados de vanguardia en tareas como la detección de objetos, la estimación de la postura humana, la segmentación semántica y el reconocimiento de video. Permitieron la aplicación de la visión por computadora a dominios donde la cantidad de ejemplos de capacitación es pequeña y la anotación es costosa.

Uno de los inventos más definitivos de los últimos tiempos fueron los Transformers. Desarrollado en Google Brains en 2017, Transformers es una arquitectura de red neuronal novedosa y se basa en el concepto del mecanismo de autoatención. El modelo superó a los modelos recurrentes y convolucionales. También se observó que un transformador requiere menos poder computacional para entrenar y se adapta mejor al hardware de aprendizaje automático moderno que acelera el entrenamiento en un orden de magnitud. Se convirtió en la arquitectura elegida para los problemas de PNL, reemplazando modelos anteriores como LSTM. La paralelización de entrenamiento adicional permitió el entrenamiento en un conjunto de datos mucho más grande de lo que alguna vez fue posible.

Gracias a Transformers y la posterior invención de BERT, NLP logró su "momento ImageNet". BERT revolucionó la PNL y, desde entonces, se han propuesto una amplia gama de variaciones de estos modelos, como RoBERTa, ALBERT y XLNet. Más allá de Transformers, varias técnicas de representación como ELMo y ULMFiT han aparecido en los titulares al demostrar que los modelos de lenguaje entrenados previamente pueden lograr resultados de vanguardia en una variedad de tareas de PNL.

“La arquitectura Transformer ha revolucionado la PNL al permitir la generación y el ajuste fino del lenguaje a una escala nunca antes vista en la PNL. Además, estos modelos funcionan mejor cuando se entrenan con grandes cantidades de datos; por lo tanto, las organizaciones se están enfocando en entrenar modelos de lenguaje cada vez más grandes con pocos cambios en la arquitectura del modelo. Grandes empresas como Google y Meta, que pueden permitirse este tipo de capacitación, están desarrollando modelos de lenguaje novedosos y espero más de lo mismo de otras grandes corporaciones”, dijo Shameed Sait, director de inteligencia artificial de tmrw.

Haciéndose eco del mismo sentimiento, Anoop Kunchukuttan, investigador de Microsoft y cofundador de AI4Bharat, dijo: "Curiosamente, los beneficios del aprendizaje profundo se observaron inicialmente en gran medida en el campo de la visión y el habla por computadora. Lo que sucedió fue que la PNL obtuvo una especie de ventaja inicial en términos del tipo de modelos que se introdujeron posteriormente. El mecanismo basado en la atención, por ejemplo, condujo a grandes avances en la PNL. Además, la introducción del aprendizaje autosupervisado influyó en el progreso en el campo de la PNL”.

Acceso a datos masivos

Una de las principales ventajas de la PNL es la disponibilidad de una gran cantidad de conjuntos de datos para entrenar modelos avanzados. Hugging Face, una startup que está construyendo el 'GitHub para el aprendizaje automático', ha estado trabajando en la democratización de la IA, con un enfoque especial en la PNL. El año pasado, Hugging Face lanzó Datasets, una biblioteca comunitaria para NLP, que se desarrolló durante un año. Desarrollada por más de 250 desarrolladores, esta biblioteca contiene 650 conjuntos de datos únicos destinados a estandarizar la interfaz de usuario final, el control de versiones, la documentación y ofrecer una interfaz liviana para corpus a escala de Internet.

Del mismo modo, la base de datos FLORES-101 de código abierto de Facebook AI para mejorar los modelos de traducción multilingüe. Es un conjunto de datos de evaluación de muchos a muchos que cubre 101 idiomas diferentes. Al hacer que esta información esté disponible públicamente, Facebook quiere acelerar el progreso en NLP al permitir que los desarrolladores generen herramientas más diversas y relevantes a nivel local.

El mayor beneficio que tiene el modelado de lenguaje es que los datos de entrenamiento son gratuitos con cualquier corpus de texto. La disponibilidad de una cantidad potencialmente ilimitada de datos de entrenamiento es particularmente importante ya que la PNL no solo se ocupa del idioma inglés.

¿Hacia AGI? Pero aún no está allí

Cuando se lanzó el modelo GPT-3, muchas publicaciones demasiado entusiastas lo calificaron como el primer paso hacia AGI. Si bien el modelo de esta magnitud y potencia de procesamiento es nada menos que una maravilla tecnológica, considerarlo un movimiento hacia AGI es un poco exagerado.

El profesor emérito de la Universidad de Nueva York, Gary Marcus, autor del libro reciente ''Rebooting AI'', dijo en una entrevista anterior con la revista Analytics India: "El camino específico en el que nos encontramos son los modelos de lenguaje grandes, una extensión de grandes datos Mi opinión sobre ellos no es optimista. Son menos sorprendentes en su capacidad de no ser tóxicos, decir la verdad o ser confiables. No creo que queramos construir una inteligencia general que no sea confiable, que desinforme a las personas y que sea potencialmente peligrosa. Por ejemplo, tiene GPT-3 recomendando que las personas se suiciden.

Ha habido un enorme progreso en la traducción automática, pero no en la comprensión automática. El razonamiento moral no está en ninguna parte, y no creo que la IA sea un campo saludable en este momento”.

En raras ocasiones, el rival de Marcus, Yann LecCun, parece estar de acuerdo con él. En una conferencia separada, Lecun llamó al lenguaje un epifenómeno de la inteligencia humana. Agregó que hay mucho en la inteligencia que no tiene nada que ver con el lenguaje. “Ahí es donde debemos atacar las cosas primero. … [El idioma] es el número 300 en la lista de 500 problemas que debemos enfrentar”, dijo Yann LeCun.

Entonces, si bien los modelos de lenguaje y el dominio de NLP pueden ser ciertamente importantes para lograr AGI, simplemente no es suficiente. Por el momento, con el inminente anuncio de GPT-4 y otros modelos de lenguaje a la espera de ser presentados, se puede seguir viendo un progreso acelerado en el campo durante mucho tiempo.