Abstract
Roboter i dag brukes først og fremst til oppgaver som er repetitive og forutsigbare. Men mange oppgaver som skaper verdi for samfunnet vårt inkluderer høy grad av tilfeldighet, for eksempel å plukke opp gjenstander. På grunn av det enorme mangfoldet av forskjellige objekter, er roboter tradisjonelt begrenset til å plukke i miljøer der objektets geometri er kjent og ingen forstyrrelser oppstår. Tatt i betraktning det generelle problemet med manipulasjonsoppgaver i den virkelige verden, ser modellfri reinforcement learning ut som svært passende familie av algoritmer, siden de ikke gjør noen antagelser om systemets dynamikk. I stedet finner de sekvensen av handlinger nødvendig for å løse oppgaven gjennom erfaring. Denne oppgaven vil studere disse metodene, med fokus på deres anvendelse på griping av objekter med roboter, samt evaluere deres ytelse og begrensninger når de plukker objekter som ikke er sett tidligere. En serie eksperimenter utføres i et simulert miljø, der de to populære modellfrie reinforcement learning-algoritmene Soft Actor-Critic og Proximal Policy Optimization får i oppgave å plukke opp en kube med en mekanisk manipulator. Det er vist at modellfrie reinforcement learning-algoritmer gir et rammeverk som kan brukes på ulike manipulasjonsproblemer. Resultatene viser at slike algoritmer kan løse plukkeoppgaven i simulatoren uten oppgavespesifikk tilpasning. Oppgaven belyser også betydelige utfordringer som hindrer algoritmene i å løse generelle manipulasjonsproblemer i praksis, viktigst av alt behovet for store datamengder. Til slutt identifiseres og presenteres mulige løsninger på de identifiserte utfordringene.