AI bierze udział w popularnej grze Minecraft w konkursie uczenia maszynowego



Aby zobaczyć podział na najlepszą sztuczną inteligencję i zdolności umysłowe siedmioletniego dziecka, nie szukaj dalej niż popularna gra wideo Minecraft. Młody człowiek może nauczyć się, jak znaleźć rzadki diament w grze po obejrzeniu 10-minutowej demonstracji na YouTube. Sztuczna inteligencja (AI) nie jest nigdzie blisko. Ale w wyjątkowym konkursie komputerowym, który zakończy się w tym miesiącu, naukowcy mają nadzieję zmniejszyć różnicę między maszyną a dzieckiem – pomagając w ten sposób zmniejszyć moc obliczeniową potrzebną do trenowania sztucznej inteligencji.

Zawodnicy mogą zająć do czterech dni i wykonać nie więcej niż osiem milionów kroków, aby wyszkolić AI w poszukiwaniu diamentu. To wciąż dużo dłużej, niż uczyłoby się dziecko, ale znacznie szybciej niż typowe modele AI.

Konkurs ma na celu stymulowanie postępów w podejściu zwanym uczeniem się naśladownictwa. Kontrastuje to z popularną techniką znaną jako uczenie się wzmacniające, w której programy próbują tysięcy lub milionów losowych działań metodą prób i błędów, aby znaleźć najlepszy proces. Uczenie się przez wzmocnienie pomogło wygenerować rekomendacje dla użytkowników Netflix, stworzyło sposoby trenowania broni robotycznej w fabrykach, a nawet pokonania ludzi w grach. Ale może to wymagać dużo czasu i mocy obliczeniowej. Próby wykorzystania uczenia wzmacniającego do tworzenia algorytmów, które mogą bezpiecznie prowadzić samochód lub wygrywać wyrafinowane gry, takie jak Go, obejmowały setki lub tysiące komputerów pracujących równolegle, aby wspólnie przeprowadzać setki lat symulacji – coś tylko dla najbardziej zagłębionych rządów a korporacje mogą sobie pozwolić.

Uczenie się naśladownictwa może poprawić efektywność procesu uczenia się, naśladując sposób, w jaki ludzie lub nawet inne algorytmy AI radzą sobie z tym zadaniem. A wydarzenie kodowania, znane jako Konkurs MineRL (wymawiane jako „minerał”), zachęca uczestników do korzystania z tej techniki, aby nauczyć AI gry.

William Guss, doktorant z teorii głębokiego uczenia się na Uniwersytecie Carnegie Mellon w Pittsburghu w Pensylwanii, szef zespołu organizującego konkurs MineRL, twierdzi, że techniki uczenia się przez wzmacnianie nie będą miały szans w tym konkursie. Działając losowo, SI może odnieść sukces tylko w wycięciu drzewa lub dwóch w ośmiomilionowym limicie zawodów – i to tylko jeden z warunków koniecznych do stworzenia żelaznego kilofu do wydobywania diamentów w grze. „Eksploracja jest naprawdę bardzo trudna” – mówi Guss. „Uczenie się imitacji daje ci dobry wstęp do swojego środowiska”.

Guss i jego koledzy mają nadzieję, że konkurs sponsorowany między innymi przez Carnegie Mellon i Microsoft może mieć wpływ nie tylko na lokalizację Minecraft klejnoty, inspirując programistów do przekraczania granic uczenia się naśladownictwa. Takie badania mogą ostatecznie pomóc w trenowaniu sztucznej inteligencji, aby mogła lepiej oddziaływać z ludźmi w wielu różnych sytuacjach, a także nawigować w środowiskach, które są pełne niepewności i złożoności. „Uczenie się imitacji jest podstawą uczenia się i rozwoju inteligencji” – mówi Oriol Vinyals, naukowiec z Google DeepMind w Londynie i członek komitetu doradczego MineRL Competition. „Pozwala nam to szybko nauczyć się zadania bez konieczności wymyślania rozwiązania, które ewolucja znalazła„ od zera ”.”

Granie przez przykład

Grupa stojąca za zawodami tak mówi Minecraft jest szczególnie dobry jako wirtualny poligon. Gracze prezentują wiele inteligentnych zachowań. W popularnym trybie przetrwania muszą bronić się przed potworami, paszą lub gospodarstwem i stale gromadzić materiały do ​​budowy konstrukcji i narzędzi rzemieślniczych. Nowi gracze muszą się uczyć MinecraftWersja fizyki, a także odkrywanie przepisów na przekształcanie materiałów w zasoby lub narzędzia. Gra zasłynęła z kreatywności, którą wyzwala w swoich graczach, którzy tworzą blokowe wirtualne wersje wielu różnych rzeczy: Wieży Eiffla, Disneylandu, wykopu Gwiazdy Śmierci z Gwiezdnych wojen, a nawet działającego komputera w grze.

Aby utworzyć dane treningowe dla zawodów, organizatorzy MineRL utworzyli publiczną Minecraft serwery i rekrutowane osoby do wykonania zadań mających na celu zademonstrowanie określonych zadań, takich jak tworzenie różnych narzędzi. W końcu udało im się uchwycić 60 milionów przykładów działań, które można podjąć w danej sytuacji, oraz około 1000 godzin zarejestrowanego zachowania, które można przekazać zespołom. Nagrania stanowią jeden z pierwszych i największych zestawów danych poświęconych w szczególności badaniom nad imitacją.

Konkurs koncentruje się na wykorzystaniu imitacji do nauki „bootstrapu”, aby AI nie musiały poświęcać tak dużo czasu na badanie środowiska, aby dowiedzieć się, co jest możliwe z pierwszych zasad, i zamiast tego wykorzystać wiedzę zgromadzoną przez ludzi, mówi Rohin Shah, doktorant z informatyki na Uniwersytecie Kalifornijskim w Berkeley, który zajmuje się AI Biuletyn informacyjny. „Według mojej wiedzy, nie było innych konkursów AI poświęconych w szczególności temu zagadnieniu”.

Zainspirowane przetwarzaniem w chmurze i dużą ilością danych, nauka wzmacniająca zazwyczaj generuje ogromną część nowych prac badawczych nad AI. Jednak zainteresowanie uczeniem się naśladownictwa rośnie, po części dlatego, że badacze zmagają się z ograniczeniami metody prób i błędów. Uczenie się w ten sposób wymaga danych szkoleniowych, które mogą pokazać wszystkie możliwości i konsekwencje różnych interakcji środowiskowych, mówi Katja Hofmann, główny badacz w grupie Game Intelligence w Microsoft Research w Cambridge w Wielkiej Brytanii i członek komitetu organizacyjnego konkursu MineRL (Microsoft nabył MinecraftProgramista za 2,5 mld USD w 2014 r.). Takie dane mogą być trudne do zdobycia w złożonych, rzeczywistych środowiskach, w których odtworzenie wszystkich konsekwencji złych decyzji nie jest łatwe ani bezpieczne.

Weźmy na przykład samochody samojezdne. Przeszkolenie ich głównie poprzez naukę wspomagania wymagałoby tysięcy lub milionów prób, aby ustalić różnice między bezpieczną a lekkomyślną jazdą. Jednak symulacje jazdy nie mogą obejmować wszystkich możliwych warunków, które mogą prowadzić do awarii w prawdziwym świecie. Umożliwienie nauki samobieżnemu samochodowi powtarzania się wypadków na drogach publicznych byłoby wręcz niebezpieczne. Oprócz zagadnień związanych z bezpieczeństwem uczenie się na temat wzmacniania może być drogie, wymagając mocy obliczeniowej wartej miliony dolarów, mówi Hofmann.

W przeciwieństwie do podejścia polegającego na uczeniu się od samego początku, nauka imitacji wymaga skrótów, dzięki czemu można zacząć od uczenia się na przykładzie. Znalazł już dom w zastosowaniach obok uczenia się przez wzmacnianie. Niektóre z najbardziej znanych pokazów sztucznej inteligencji ostatnich kilku lat, w tym niepokojenie ludzkich mistrzów Go przez algorytm AlphaGo w 2017 r., Łączyły oba podejścia, zaczynając od podstawowego modelu wygenerowanego za pomocą uczenia się imitacji.

Nauka imitacji ma również ograniczenia. Jednym z nich jest tendencyjność w stosunku do rozwiązań, które zostały już wykazane w przykładach uczenia się. W ten sposób przeszkolona sztuczna inteligencja może być nieelastyczna. „Jeśli system AI popełni błąd lub odbiegnie nieco od tego, co zrobiłby człowiek, to znajdzie się w nowym otoczeniu, innym niż to, co zobaczył podczas demonstracji” – mówi Shah. „Ponieważ nie widział takiej sytuacji, staje się jeszcze bardziej zdezorientowany i popełnia więcej błędów, które dodatkowo się komplikują, co prowadzi do całkiem poważnych awarii”.

Mimo to wielu naukowców dostrzega ogromny potencjał tej techniki, szczególnie jeśli chodzi o szkolenie AI w celu osiągnięcia określonych celów. „Zaletą uczenia się naśladownictwa w przeciwieństwie do uczenia się wzmacniającego jest demonstrowanie sukcesu”, mówi Debadeepta Dey, główny badacz w grupie Adaptive Systems and Interaction w Microsoft Research w Redmond w stanie Waszyngton. „To naprawdę pomaga przyspieszyć naukę”.

Aby dostać się do diamentowego skarbu, kontrolowani przez AI gracze lub agenci w konkursie MineRL muszą opanować proces wieloetapowy. Najpierw zbierają drewno i żelazo do produkcji kilofów. Następnie budują pochodnie, by oświetlić drogę. Mogą również nosić wiadro wody, aby ugasić podziemne przepływy lawy. Po przygotowaniu wszystkiego sztuczna inteligencja może rozpocząć eksplorację szybów i jaskiń, a także tunelować drogę pod ziemię w poszukiwaniu rudy diamentu.

Zawodnicy muszą szkolić swoje AI za pomocą zestawu sprzętu składającego się z nie więcej niż sześciu rdzeni centralnego przetwarzania i jednej karty graficznej NVIDIA – coś, na co większość laboratoriów badawczych może sobie pozwolić dzięki usługom przetwarzania w chmurze. Ponad 900 drużyn zapisało się na pierwszą rundę zawodów, a 39 ostatecznie zgłosiło agentów AI. Dziesięć grup, które poczyniły największe postępy w szkoleniu sztucznej inteligencji do odkrywania diamentów, awansowało do drugiej i ostatniej rundy. Niektórym AI udało się pozyskać rudę żelaza i zbudować piec, dwa inne warunki konieczne do wykonania żelaznego kilofu. Ale Guss nie spodziewa się, że którykolwiek z przedstawicieli zespołów znajdzie diament – przynajmniej w tych pierwszych zawodach.

Chociaż konkurs koncentruje się na określonym celu, może pobudzić szersze badania nad sztuczną inteligencją Minecraft. „Jestem szczególnie zainteresowany Minecraft ponieważ jest to przykład środowiska, w którym ludzie mają tak naprawdę różnorodne cele – nie ma „jednej rzeczy”, którą ludzie robią w Minecraft”- mówi Shah. „To sprawia, że ​​jest to znacznie bardziej odpowiednie miejsce do testowania technik, które próbują nauczyć się ludzkich celów.”

A nawet jeśli grafika i zasady gry nie odzwierciedlają rzeczywistości fizycznej, opracowujemy bardziej wydajne sposoby trenowania sztucznej inteligencji Minecraft może przełożyć się na szybsze uczenie się sztucznej inteligencji w obszarach takich jak robotyka. MineRL „może prowadzić do wyników, które miałyby wpływ na domeny rzeczywiste, takie jak robotyzacja złożonych obiektów lub każda inna domena, w której wymagane jest uczenie się złożonego zachowania”, mówi Joni Pajarinen, lider grupy badawczej w laboratorium Intelligent Autonomous Systems na Politechnice w Darmstadt w Niemczech.

Gdy ostatnia runda konkursu zakończy się 25 listopada, Guss i inni organizatorzy sprawdzą zgłoszenia, aby ustalić, która sztuczna inteligencja jest najbardziej zaawansowanym łowcą diamentów. Ostateczne wyniki zostaną upublicznione 6 grudnia, tuż przed NeurIPS (konferencją nt. Neuronowych systemów przetwarzania informacji) w Vancouver w Kanadzie, gdzie wszystkie dziesięć finalistów zostanie zaproszonych do przedstawienia swoich wyników.

Jeśli konkurs MineRL zostanie przyjęty i stanie się powracającą tradycją, może stanowić publiczny punkt odniesienia do śledzenia postępów w nauce imitacji. „Wydaje się całkiem prawdopodobne, że MineRL zachęci do dalszych badań nad uczeniem się naśladownictwa” – mówi Shah. „To, czy uczenie się imitacji będzie miało znaczenie dla rzeczywistych aplikacji, dopiero się okaże, ale jestem optymistą”.

Ten artykuł został powielony za zgodą i został opublikowany 26 listopada 2019 r.