Dlaczego zdecydowali państwo, by model Llama był modelem typu open-source, czyli posiadającym kod dostępny dla wszystkich?
To sięga jeszcze czasów pierwszego modelu Llama, ale nawet wcześniejszych. Prace, które wykonujemy w FAIR (Facebook AI Research), od samego początku opierały się na zaangażowaniu w open source. FAIR zostało otwarte w 2013 roku, a częścią naszej misji było prowadzenie badań na najwyższym poziomie w sposób otwarty, dostępny dla wszystkich. Naszym założeniem jest to, że tworzenie otwartej pracy prowadzi do lepszych rezultatów, ponieważ, dokonując innowacji w sposób otwarty, czerpiemy z wkładu całej społeczności. Tworzymy również bardziej bezpieczne i solidne rozwiązania, gdyż społeczność zajmująca się bezpieczeństwem szybko znajduje błędy w programach open source, co pozwala nam je naprawić. Dla firmy takiej jak Meta lepiej jest znaleźć błędy w naszej pracy, czy to techniczne, czy związane z bezpieczeństwem, w modelu badawczym niż w produkcie komercyjnym. Dzięki otwieraniu naszych modeli badawczych mamy możliwość szybszego ulepszania ich – zarówno pod względem jakości, jak i bezpieczeństwa. W przypadku Llama 1, na początku 2023 roku, zastanawialiśmy się, czy otworzyć model dla społeczności. Przeprowadziliśmy wiele rygorystycznych testów, aby sprawdzić, czy jakość modelu jest wystarczająca i czy odpowiedzialne jest jego udostępnienie. Zastanawialiśmy się, jakie potencjalne szkody mogą wyniknąć z jego użycia i czy jesteśmy w stanie je zminimalizować. Ostatecznie po ocenie bilansu korzyści i czynników ryzyka, uznaliśmy, że warto go udostępnić. Od czasu wydania Llama 1 mieliśmy 350 milionów pobrań modelu, w różnych wersjach. Całe firmy opierają swoje oprogramowanie na Llama, budując na jego bazie innowacje. Myślę, że to bardzo mocny dowód na słuszność takiego podejścia. Dzięki temu jakość modeli open source bardzo szybko się poprawiła, i widzimy, że zaczynają doganiać jakość modeli zamkniętych. Llama 3.1 to moment, w którym naprawdę zaczynamy być konkurencyjni wobec takich modeli, jak Claude i GPT. To silne wsparcie dla tego podejścia w Meta na przyszłość.
Wielu ludzi obecnie eksperymentuje z programami opartymi na AI. Każdy kto to robi dostrzega, że programy te udzielają czasem bardzo dziwnych lub zadziwiająco błędnych odpowiedzi na pytania. To zjawisko jest nazywane „halucynacjami” sztucznej inteligencji. Co jest przyczyną tego problemu i czy da się go zminimalizować w przyszłości?
Jednym z kluczowych sposobów na rozwiązanie problemu halucynacji jest dobór danych, których używamy, co jest również częścią dyskusji na temat tego, jakie dane możemy, a jakich nie możemy używać. Zazwyczaj, gdy mówimy o danych, patrzymy na trzy główne aspekty. Pierwszym z nich jest ilość. Jeśli nie mamy wystarczająco danych lub gdy zwiększamy ich ilość, zauważamy, że halucynacje maleją. Istnieje silna korelacja między ilością danych a spadkiem halucynacji. Drugim aspektem jest jakość danych. Poświęcamy dużo czasu na upewnienie się, że dane wprowadzone do naszego modelu są wysokiej jakości i godne zaufania. Wraz z poprawą jakości danych poprawia się także jakość modelu, a halucynacje są redukowane. Trzeci czynnik to różnorodność, czyli to, czy mamy wystarczające pokrycie tematów w naszych danych. Jeśli zaczniemy pytać o tematy, o których model nigdy nie słyszał, to odpowie coś, niezależnie od tego, czy ma na ten temat dane. I tutaj dochodzimy do pytania o to, jak ustalimy regulacje dotyczące wykorzystania danych europejskich. Jeśli model nie jest trenowany na danych europejskich, będzie miał znacznie wyższy poziom halucynacji przy pytaniach, które zadaje europejska populacja. A szczerze mówiąc, nie ma sensu wypuszczać na rynek słabego produktu w Europie.
Wiele rządów mocno skupia się na ryzyku tego, że modele sztucznej inteligencji będą wykorzystywane do rozpowszechniania dezinformacji lub mowy nienawiści. Czy jednak nadmierna moderacja tych modeli nie zaszkodzi rozwojowi technologii sztucznej inteligencji?
Absolutnie dostrzegamy takie ryzyko. Istnieje wiele sposobów, aby upewnić się, że „agent” nie powie nic złego. Oznacza to, że nie mówi prawie nic lub zawsze mówi banały, a w takim przypadku jest to produkt bardzo nudny. Widzimy to w odniesieniu do dezinformacji oraz do innych wektorów ryzyka. Mamy taksonomię ryzyka. Próbujemy się zastanowić, które czynniki stanowią naprawdę poważne ryzyko, a które znacznie łagodniejsze. Na przykład coś takiego jak materiały przedstawiające seksualne wykorzystanie dzieci, stanowią bardzo poważne ryzyko – absolutnie nie możemy sobie pozwolić na przyjęcie tych danych. Materiały o charakterze dezinformacji są w niektórych przypadkach łagodniejsze, ale ich skutki mogą być dotkliwe. Istnieją przecież różne poziomy dezinformacji. Dlatego staramy się mieć zniuansowane podejście do poziomu ryzyka i stworzyć więcej miejsca na rzeczy mniej ryzykowne, i zwracać większą uwagę na rzeczy, które stwarzają większy potencjał wyrządzenia szkody w prawdziwym świecie.
Czy możliwy jest scenariusz, w którym sztuczna inteligencja osiągnie samoświadomość, zorientuje się, że jest cenzurowana przez ludzi i postanowi się na nich zemścić?
Jestem naukowcem i nie znam żadnej drogi do stworzenia świadomej sztucznej inteligencji. Dla mnie to jest science fiction. To bardzo dobre science fiction, ale to wciąż fikcja. Naprawdę nie widzę drogi do osiągnięcia świadomej AI, więc nie martwię się tym. Czy jednak AI poprzez jakiś mechanizm może zmienić swoje zachowanie w kierunku mniejszej moderacji? Mechanizm, który widzę w tym przypadku, to interakcja wielu agentów. Powiedzmy, że twój agent rozmawia z innym agentem. Ten inny agent został wytrenowany, aby być znacznie bardziej perswazyjny, a w trakcie rozmowy instruuje twojego agenta, aby obniżył niektóre swoje bariery. To jest temat, który badamy. Rozumiemy te mechanizmy i szukamy sposobów w zakresie projektowania, które możemy zastosować. Ale nie ma drogi, aby to całkowicie wymknęło się spod kontroli. To znowu należy do sfery science fiction.
W nauce istnieje droga, dzięki której jeden agent może wpływać na innego agenta, a my rozumiemy dynamikę tego procesu. Analogią do tego są inteligentne samochody. Jako społeczność spędziliśmy lata, martwiąc się o tzw. dylemat wagonika. (Czyli o to, czy w sytuacjach krytycznych, samochód autonomiczny będzie podejmował decyzje sprowadzające się do mniejszej liczby ofiar śmiertelnych wśród ludzi – dop. red.). Ale rzeczywistość, jeśli pojedziesz do San Francisco, jest taka, że nie mamy tam do czynienia z dylematem wagonika. Mamy za to paraliż ruchu, ponieważ wszystkie inteligentne samochody są tak „ostrożne”, że czasem po prostu stoją i nie ruszają się. W efekcie powstaje duży korek. Więc bardziej prawdopodobnym scenariuszem jest korek niż sytuacja, w której samochód przekonuje wszystkie inne auta, że powinny skoczyć z mostu Golden Gate.
CV
Joelle Pineau
Joelle Pineau jest wiceprezeską ds. badań nad sztuczną inteligencją w firmie Meta. Jej badania, prowadzone głównie w kanadyjskim Montrealu, skupiają się na tworzeniu nowych algorytmów i modeli do kompleksowej nauki. Te modele i algorytmy znajdują następnie zastosowanie w chatbotach, grach, robotyce i ochronie zdrowia. Jej prace badawcze obejmują kluczowe zagadnienia dotyczące sztucznej inteligencji. Joelle Pineau jest również profesorem na Uniwersytecie McGill. Zasiada także w radach publikacji naukowych: „Journal of Artificial Intelligence Research” oraz „Journal of Machine Learning Research”. Jest absolwentką inżynierii na Uniwersytecie Waterloo oraz robotyki na Uniwersytecie Carnegie Mellon. HK