Meta наскоро представи модел на Open Pretrained Transformer (OPT) със 175 милиарда параметъра. Meta твърди, че този масивен модел, който се обучава на публично достъпни набори от данни, е първата езикова технологична система от такъв размер, която ще бъде пусната със своите предварително обучени модели и код за обучение. В нещо, което може да се счита за рядък случай, Meta отвори този модел с отворен код.
Моделът OPT се присъединява към редиците на няколко други усъвършенствани езикови модела, които са разработени и въведени наскоро. Полето на НЛП на изкуствения интелект претърпя огромна иновация през последните няколко години с участието на водещи технологични компании в света. Защо има толкова силна конкуренция в тази област, или с други думи, изостават ли други области на ИИ от НЛП по отношение на иновациите?
THE BELAMY
Регистрирайте се за вашата седмична доза от това, което се случва в нововъзникващите технологии.
Напредък в НЛП
Полето на ИИ е широко фрагментирано в области, които са насочени към различни видове проблеми. Някои системи се използват за решаване на проблеми, които включват навигация и движение през физически пространства, като автономни превозни средства и роботика; други се занимават с приложения, свързани с компютърното зрение – диференциране и категоризиране на изображения и модели; AI на здравия разум. Други форми на AI решават критични и специфични проблеми. Като AlphaFold на DeepMind реши 50-годишно предизвикателство. Тази иновация многократно ускори процеса на откриване на лекарства.
Въпреки това обработката на естествен език е може би най-горещата област на ИИ. Дори при хората многоезичието и владеенето на езика се считат за основни показатели за интелигентност. Обикновено се смята, че предполага възможност за анализиране на сложни съобщения и дешифриране на вариации на кодиране в контекст, жаргон и диалекти. Едва ли е изненадващо, че изследователите на AI смятат обучението на машини на способността да разбират и реагират на естествения език като страхотен подвиг и дори стъпка към постигане на обща интелигентност.
Говорейки за иновация в тази област, широко смятан за пробив, 175-милиардният параметър GPT-3 беше пуснат от OpenAI през 2020 г. Сложна невронна мрежа, GPT-3 е обучена на 700 гигабайта данни, извлечени от цялата мрежа , включително Wikipedia и дигитализирани книги. GPT-3 създаде прецедент за още по-големи, усъвършенствани и, в някои случаи, изчислително евтини модели.
Иновация, която поддържа НЛП
Има няколко етапа в еволюцията на полето за обработка на естествен език. Започна през 80-те години с експертната система, премина към статистическата революция и накрая невронната революция. Говорейки за невронната революция, тя беше активирана от комбинацията от дълбоки невронни архитектури, специализиран хардуер и голямо количество данни. Това каза, че революцията в домейна на НЛП беше много по-бавна от други области като компютърното зрение, което се възползва значително от появата на широкомащабни предварително обучени модели, които от своя страна бяха активирани от големи набори от данни като ImageNet. Предварително обучени модели на ImageNet помогнаха за постигане на най-съвременни резултати при задачи като откриване на обекти, оценка на човешка поза, семантично сегментиране и видео разпознаване. Те позволиха прилагането на компютърно зрение в области, където броят на примерите за обучение е малък и анотацията е скъпа.
Едно от най-категоричните изобретения в последно време бяха Трансформърс. Разработена в Google Brains през 2017 г., Transformers е нова невронна мрежова архитектура и се основава на концепцията за механизма за самовнимание. Моделът превъзхожда както повтарящите се, така и конволюционните модели. Беше отбелязано също, че Transformer изисква по-малка изчислителна мощност за обучение и е по-подходящ за модерен хардуер за машинно обучение, който ускорява обучението с порядък на величина. Той се превърна в предпочитана архитектура за проблеми с НЛП, заменяйки по-ранни модели като LSTM. Допълнителното паралелизиране на обучението позволи обучение върху много по-голям набор от данни, отколкото някога беше възможно.
Благодарение на Transformers и последвалото изобретение на BERT, НЛП постигна своя „ImageNet момент“. BERT направи революция в НЛП и оттогава бяха предложени широка гама от вариации на тези модели, като RoBERTa, ALBERT и XLNet. Отвъд Transformers, няколко техники за представяне като ELMo и ULMFiT направиха заглавия, като демонстрираха, че предварително обучените езикови модели могат да постигнат най-съвременни резултати при набор от NLP задачи.
„Трансформиращата архитектура направи революция в НЛП, като позволи генериране на език и фина настройка в мащаб, невиждан досега в НЛП. Освен това тези модели се представят по-добре, когато се обучават върху големи количества данни; следователно организациите се фокусират върху обучението на все по-големи и по-големи езикови модели с малка промяна в архитектурата на модела. Големи фирми като Google и Meta, които могат да си позволят този тип обучение, разработват нови езикови модели и очаквам повече от същото от други големи корпорации“, каза Shameed Sait, ръководител на изкуствения интелект в tmrw.
Повтаряйки същото мнение, Anoop Kunchukuttan, изследовател на Microsoft и съосновател на AI4Bharat, каза: „Интересното е, че ползите от задълбоченото обучение първоначално бяха наблюдавани до голяма степен в областта на компютърното зрение и речта. Това, което се случи, беше, че НЛП получи някаква преднина по отношение на типа модели, които бяха въведени впоследствие. Механизмът, базиран на вниманието, например, доведе до голям напредък в НЛП. Освен това въвеждането на самоконтролирано обучение повлия на напредъка в областта на НЛП.“
Достъп до масивни данни
Едно от основните предимства на НЛП е наличието на огромно количество набори от данни, върху които да се обучават напреднали модели. Hugging Face, стартираща компания, която изгражда „GitHub за машинно обучение“, работи върху демократизирането на ИИ със специален фокус върху НЛП. Миналата година Hugging Face пусна Datasets, общностна библиотека за НЛП, която беше разработена в продължение на една година. Разработена от над 250 разработчици, тази библиотека съдържа 650 уникални набора от данни, насочени към стандартизиране на интерфейса на крайния потребител, контрол на версиите, документация и предлагане на олекотен интерфейс за корпуси в интернет мащаб.
По същия начин, Facebook AI с отворен код FLORES-101 база данни за подобряване на моделите за многоезичен превод. Това е набор от данни за оценка много към много, обхващащ 101 различни езика. Правейки тази информация публично достъпна, Facebook иска да ускори напредъка в НЛП, като позволи на разработчиците да генерират по-разнообразни и подходящи за местно ниво инструменти.
Най-голямата полза от езиковото моделиране е, че данните за обучение са безплатни с всеки текстов корпус. Наличието на потенциално неограничено количество данни за обучение е особено важно, тъй като НЛП не се занимава само с английски език.
Към AGI? Просто все още не е там
Когато моделът GPT-3 беше пуснат, много прекалено ентусиазирани публикации го нарекоха първата стъпка към AGI. Въпреки че моделът с такъв мащаб и мощност на обработка не е нищо друго освен технологично чудо, разглеждането му като преминаване към AGI е малко трудно.
Почетният професор от Нюйоркския университет Гари Маркъс, автор на неотдавнашната книга „Rebooting AI“, каза в по-ранно интервю за списание Analytics India, „Конкретният път, по който се движим, са големи езикови модели, разширение на голяма информация. Мнението ми за тях не е оптимистично. Те са по-малко удивителни със способността си да не са токсични, да казват истината или да бъдат надеждни. Не мисля, че искаме да изградим обща интелигентност, която е ненадеждна, дезинформира хората и е потенциално опасна. Например, имате GPT-3, който препоръчва на хората да се самоубиват.
Има огромен напредък в машинния превод, но не и в машинното разбиране. Моралните разсъждения са никъде и не мисля, че AI е здравословна област в момента.“
В рядък случай съперникът на Маркъс Ян Лекун изглежда е съгласен с него. В отделна конференция Лекун нарече езика епифеномен на човешкия интелект. Той добави, че в интелигентността има много неща, които нямат нищо общо с езика. „Там първо трябва да атакуваме нещата. … [Езикът] е номер 300 в списъка с 500 проблема, с които трябва да се изправим“, каза Ян Лекун.
Така че, докато езиковите модели и областта на НЛП може да са със сигурност важни за постигането на AGI, това просто не е достатъчно. За момента, с предстоящото съобщение за GPT-4 и други езикови модели, които чакат да бъдат представени, може да продължите да виждате ускорен напредък в областта за дълго време напред.