Abstract
En viktig oppgave i robotmanipulering er 6-DOF (6 frihetsgrader) griping. Mange av de tidligere løsningene på dette problemet var basert på håndlagde metoder, så det er ønskelig å lære en "closed-loop" kontroller med reinforcement learning. Derfor tar mange nyere metoder for 6-DOF-griping denne veien. Imidlertid sliter disse metodene med å lære multimodal atferd, hvor roboten kan tilpasse seg å løse samme problem på flere måter, for eksempel å gripe et objekt fra flere retninger. De siste par årene har vist at diffusjonsmodeller er i stand til mye mer enn bildegenerering og kan skape svært dyktige, multimodale reinforcement learning agenter. Mange av disse systemene er fortsatt i stor grad avhengige av "behavioral cloning", selv om noe av det nyeste arbeidet går inn i online læring gjennom interaksjon med miljøet. Consistency modeller kombinerer de komplekse evnene til diffusjonsmodeller med mye raskere inferens, noe som krever mindre databehandling. Dette er ideelt for "closed-loop" systemer i robotikk, som må kjøres i sanntid. Denne masteroppgaven undersøker hvordan anvendelse av en konsistensmodell på "closed-loop" 6-DOF-griping med RGB-D (rødt, grønt, blått, dybde) bildeinput kan forbedre multimodal atferd. En ny metode, SLCP (Stochastic Latent Consistency Policy), foreslås og trenes fullstendig i simulering med reinforcement learning for å utføre 6-DOF-griping på en Franka Emika Panda-robot. Dette er, så vidt forfatteren vet, den første metoden som kombinerer en stokastisk latent variabelmodell og en consistency policy, og den første metoden som anvender en consistency policy i et delvis observerbart miljø. RL-agenten overføres deretter til en faktisk robot og evalueres med hensyn til både ytelse og multimodalitet. SLCP-algoritmen overgår ikke tidligere, sammenlignbare metoder, verken i simulering eller i den virkelige verden. Den oppnår imidlertid en total suksessrate på 65.9 % på både kjente og ukjente objekter, og 69.7 % på kjente objekter i simulering. Videre konkluderer denne oppgaven med at, i motsetning til vår hypotese, er anvendelse av en consistency policy ikke tilstrekkelig for å oppnå multimodalitet.