పెద్ద భాషా నమూనాల నుండి ప్రేరణ పొందిన పరిశోధకులు రోబోట్లకు కొత్త నైపుణ్యాలను నేర్పడానికి విభిన్న డేటాను పూల్ చేసే శిక్షణా సాంకేతికతను అభివృద్ధి చేస్తారు.
“ది జెట్సన్స్” అనే క్లాసిక్ కార్టూన్లో రోసీ రోబో పనిమనిషి ఇంటిని వాక్యూమ్ చేయడం నుండి డిన్నర్ వండడం వరకు చెత్తను బయటకు తీయడం వరకు సజావుగా మారుతుంది. కానీ నిజ జీవితంలో, సాధారణ ప్రయోజన రోబోట్కు శిక్షణ ఇవ్వడం పెద్ద సవాలుగా మిగిలిపోయింది.
సాధారణంగా, ఇంజనీర్లు నియంత్రిత వాతావరణంలో రోబోట్కు శిక్షణ ఇవ్వడానికి ఉపయోగించే నిర్దిష్ట రోబోట్ మరియు టాస్క్కి సంబంధించిన డేటాను సేకరిస్తారు. అయినప్పటికీ, ఈ డేటాను సేకరించడం చాలా ఖరీదైనది మరియు సమయం తీసుకుంటుంది మరియు రోబోట్ మునుపెన్నడూ చూడని పర్యావరణాలు లేదా పనులకు అనుగుణంగా కష్టపడవచ్చు.
మెరుగైన సాధారణ-ప్రయోజన రోబోట్లకు శిక్షణ ఇవ్వడానికి, MIT పరిశోధకులు బహుముఖ సాంకేతికతను అభివృద్ధి చేశారు, ఇది అనేక మూలాల నుండి భారీ మొత్తంలో భిన్నమైన డేటాను ఒక వ్యవస్థగా మిళితం చేస్తుంది, ఇది ఏదైనా రోబోట్కు విస్తృత శ్రేణి పనులను నేర్పుతుంది.
వారి పద్ధతిలో అనుకరణలు మరియు నిజమైన రోబోట్ల వంటి విభిన్న డొమైన్ల నుండి డేటాను సమలేఖనం చేయడం మరియు విజన్ సెన్సార్లు మరియు రోబోటిక్ ఆర్మ్ పొజిషన్ ఎన్కోడర్లతో సహా బహుళ పద్ధతులు, ఉత్పాదక AI మోడల్ని ప్రాసెస్ చేయగల భాగస్వామ్య “భాష”లో చేర్చడం.
అటువంటి అపారమైన డేటాను కలపడం ద్వారా, ఈ విధానం రోబోట్కు ప్రతిసారీ మొదటి నుండి శిక్షణ ఇవ్వాల్సిన అవసరం లేకుండా వివిధ రకాల పనులను చేయడానికి శిక్షణనిస్తుంది.
ఈ పద్ధతి సాంప్రదాయ పద్ధతుల కంటే వేగంగా మరియు తక్కువ ఖర్చుతో కూడుకున్నది కావచ్చు ఎందుకంటే దీనికి చాలా తక్కువ పని-నిర్దిష్ట డేటా అవసరం. అదనంగా, ఇది అనుకరణ మరియు వాస్తవ ప్రపంచ ప్రయోగాలలో మొదటి నుండి 20 శాతం కంటే ఎక్కువ శిక్షణను అధిగమించింది.
“రోబోటిక్స్లో, మా వద్ద తగినంత శిక్షణ డేటా లేదని ప్రజలు తరచుగా క్లెయిమ్ చేస్తుంటారు. కానీ నా దృష్టిలో, మరొక పెద్ద సమస్య ఏమిటంటే, డేటా చాలా విభిన్న డొమైన్లు, పద్ధతులు మరియు రోబోట్ హార్డ్వేర్ నుండి వచ్చింది. మీరు ఎలా ఉంటారో మా పని చూపిస్తుంది. వీటన్నింటిని కలిపి రోబోట్కు శిక్షణ ఇవ్వగలడు” అని ఎలక్ట్రికల్ ఇంజనీరింగ్ మరియు కంప్యూటర్ సైన్స్ (EECS) గ్రాడ్యుయేట్ విద్యార్థి మరియు ఈ టెక్నిక్పై ఒక పేపర్కి ప్రధాన రచయిత లిరుయ్ వాంగ్ చెప్పారు.
వాంగ్ యొక్క సహ రచయితలలో తోటి EECS గ్రాడ్యుయేట్ విద్యార్థి జిలియాంగ్ జావో ఉన్నారు; జిన్లీ చెన్, మెటాలో పరిశోధనా శాస్త్రవేత్త; మరియు సీనియర్ రచయిత కైమింగ్ హి, EECSలో అసోసియేట్ ప్రొఫెసర్ మరియు కంప్యూటర్ సైన్స్ అండ్ ఆర్టిఫిషియల్ ఇంటెలిజెన్స్ లాబొరేటరీ (CSAIL) సభ్యుడు. న్యూరల్ ఇన్ఫర్మేషన్ ప్రాసెసింగ్ సిస్టమ్స్పై కాన్ఫరెన్స్లో పరిశోధన ప్రదర్శించబడుతుంది.
LLMల నుండి ప్రేరణ పొందారు
ఒక రోబోటిక్ “విధానం” కెమెరా ఇమేజ్లు లేదా ప్రోప్రియోసెప్టివ్ కొలతలు వంటి సెన్సార్ పరిశీలనలను తీసుకుంటుంది, వేగాన్ని ట్రాక్ చేస్తుంది మరియు రోబోటిక్ చేతిని ఉంచుతుంది, ఆపై ఎలా మరియు ఎక్కడికి తరలించాలో రోబోట్కు చెబుతుంది.
విధానాలు సాధారణంగా అనుకరణ అభ్యాసాన్ని ఉపయోగించి శిక్షణ పొందుతాయి, అంటే మానవుడు చర్యలను ప్రదర్శిస్తాడు లేదా డేటాను రూపొందించడానికి రోబోట్ను టెలిఆపరేట్ చేస్తాడు, ఇవి పాలసీని నేర్చుకునే AI మోడల్లో అందించబడతాయి. ఈ పద్ధతి పని-నిర్దిష్ట డేటాను తక్కువ మొత్తంలో ఉపయోగిస్తుంది కాబట్టి, రోబోట్లు వాటి వాతావరణం లేదా పని మారినప్పుడు తరచుగా విఫలమవుతాయి.
మెరుగైన విధానాన్ని అభివృద్ధి చేయడానికి, వాంగ్ మరియు అతని సహకారులు GPT-4 వంటి పెద్ద భాషా నమూనాల నుండి ప్రేరణ పొందారు.
ఈ మోడల్లు అపారమైన విభిన్న భాషా డేటాను ఉపయోగించి ముందస్తుగా శిక్షణ పొందాయి మరియు వాటికి చిన్న మొత్తంలో టాస్క్-నిర్దిష్ట డేటాను అందించడం ద్వారా చక్కగా ట్యూన్ చేయబడతాయి. చాలా డేటాపై ముందస్తు శిక్షణ పొందడం వల్ల మోడల్లు వివిధ రకాల పనులపై బాగా పని చేయడానికి అనుగుణంగా ఉంటాయి.
“లాంగ్వేజ్ డొమైన్లో, డేటా అన్నీ కేవలం వాక్యాలే. రోబోటిక్స్లో, డేటాలోని అన్ని వైవిధ్యతను బట్టి, మీరు ఇదే పద్ధతిలో ప్రిట్రైన్ చేయాలనుకుంటే, మాకు వేరే ఆర్కిటెక్చర్ అవసరం” అని ఆయన చెప్పారు.
రోబోటిక్ డేటా అనేక రూపాలను తీసుకుంటుంది, కెమెరా చిత్రాల నుండి భాషా సూచనల వరకు డెప్త్ మ్యాప్ల వరకు. అదే సమయంలో, ప్రతి రోబోట్ యాంత్రికంగా ప్రత్యేకంగా ఉంటుంది, ఆయుధాలు, గ్రిప్పర్లు మరియు సెన్సార్ల యొక్క విభిన్న సంఖ్య మరియు విన్యాసాన్ని కలిగి ఉంటుంది. అదనంగా, డేటా సేకరించబడే పరిసరాలు విస్తృతంగా మారుతూ ఉంటాయి.
MIT పరిశోధకులు ఈ విభిన్న పద్ధతులు మరియు డొమైన్ల నుండి డేటాను ఏకీకృతం చేసే హెటెరోజెనియస్ ప్రీట్రైన్డ్ ట్రాన్స్ఫార్మర్స్ (HPT) అనే కొత్త నిర్మాణాన్ని అభివృద్ధి చేశారు.
వారు తమ ఆర్కిటెక్చర్ మధ్యలో ట్రాన్స్ఫార్మర్ అని పిలువబడే మెషిన్-లెర్నింగ్ మోడల్ను ఉంచారు, ఇది దృష్టి మరియు ప్రోప్రియోసెప్షన్ ఇన్పుట్లను ప్రాసెస్ చేస్తుంది. ట్రాన్స్ఫార్మర్ అనేది పెద్ద భాషా నమూనాలకు వెన్నెముకగా ఉండే అదే రకమైన మోడల్.
పరిశోధకులు దృష్టి మరియు ప్రొప్రియోసెప్షన్ నుండి డేటాను ట్రాన్స్ఫార్మర్ ప్రాసెస్ చేయగల టోకెన్ అని పిలిచే ఒకే రకమైన ఇన్పుట్లోకి సమలేఖనం చేస్తారు. ప్రతి ఇన్పుట్ ఒకే నిర్దిష్ట సంఖ్యలో టోకెన్లతో సూచించబడుతుంది.
అప్పుడు ట్రాన్స్ఫార్మర్ అన్ని ఇన్పుట్లను ఒక భాగస్వామ్య స్థలంలోకి మ్యాప్ చేస్తుంది, ఇది మరింత డేటాను ప్రాసెస్ చేయడం మరియు నేర్చుకునేటప్పుడు భారీ, ముందుగా శిక్షణ పొందిన మోడల్గా అభివృద్ధి చెందుతుంది. ట్రాన్స్ఫార్మర్ ఎంత పెద్దదిగా మారితే అంత మెరుగ్గా పని చేస్తుంది.
ఒక వినియోగదారు వారి రోబోట్ రూపకల్పన, సెటప్ మరియు వారు చేయాలనుకుంటున్న పనిపై HPTకి కొద్దిపాటి డేటాను మాత్రమే అందించాలి. అప్పుడు HPT కొత్త పనిని తెలుసుకోవడానికి ముందస్తు శిక్షణ సమయంలో ట్రాన్స్ఫార్మర్ గ్రెయిన్ చేసిన జ్ఞానాన్ని బదిలీ చేస్తుంది.
నైపుణ్యం గల కదలికలను ప్రారంభించడం
మానవ డెమో వీడియోలు మరియు అనుకరణతో సహా నాలుగు వర్గాలలో 200,000 కంటే ఎక్కువ రోబోట్ ట్రాజెక్టరీలతో 52 డేటాసెట్లను కలిగి ఉన్న ట్రాన్స్ఫార్మర్ను ప్రీట్రైన్ చేయడానికి భారీ డేటాసెట్ను రూపొందించడం HPTని అభివృద్ధి చేయడంలో అతిపెద్ద సవాళ్లలో ఒకటి.
సెన్సార్ల శ్రేణి నుండి ముడి ప్రొప్రియోసెప్షన్ సిగ్నల్లను ట్రాన్స్ఫార్మర్ నిర్వహించగలిగే డేటాగా మార్చడానికి పరిశోధకులు సమర్థవంతమైన మార్గాన్ని అభివృద్ధి చేయాల్సిన అవసరం ఉంది.
“చాలా నైపుణ్యం గల కదలికలను ప్రారంభించడానికి ప్రోప్రియోసెప్షన్ కీలకం. ఎందుకంటే మా నిర్మాణంలో టోకెన్ల సంఖ్య ఎల్లప్పుడూ ఒకే విధంగా ఉంటుంది, మేము ప్రొప్రియోసెప్షన్ మరియు దృష్టికి అదే ప్రాముఖ్యతనిస్తాము” అని వాంగ్ వివరించాడు.
వారు HPTని పరీక్షించినప్పుడు, ఇది ప్రతిసారీ మొదటి నుండి శిక్షణతో పోలిస్తే, అనుకరణ మరియు వాస్తవ-ప్రపంచ పనులపై 20 శాతం కంటే ఎక్కువ రోబోట్ పనితీరును మెరుగుపరిచింది. ప్రీట్రైనింగ్ డేటా నుండి టాస్క్ చాలా భిన్నంగా ఉన్నప్పటికీ, HPT ఇప్పటికీ పనితీరును మెరుగుపరుస్తుంది.
“ఈ పత్రం బహుళ రోబోట్ అవతారంలో ఒకే విధానాన్ని శిక్షణ ఇవ్వడానికి ఒక నవల విధానాన్ని అందిస్తుంది. ఇది విభిన్న డేటాసెట్లలో శిక్షణనిస్తుంది, రోబోట్ లెర్నింగ్ పద్ధతులను వారు శిక్షణ పొందగల డేటాసెట్ల పరిమాణాన్ని గణనీయంగా పెంచడానికి వీలు కల్పిస్తుంది. ఇది మోడల్ను త్వరగా స్వీకరించడానికి అనుమతిస్తుంది. కొత్త రోబోట్ రూపాలకు, కొత్త రోబోట్ డిజైన్లు నిరంతరం ఉత్పత్తి అవుతున్నందున ఇది చాలా ముఖ్యం” అని ఈ పనిలో పాలుపంచుకోని కార్నెగీ మెల్లన్ యూనివర్శిటీ రోబోటిక్స్ ఇన్స్టిట్యూట్లో అసోసియేట్ ప్రొఫెసర్ డేవిడ్ హెల్డ్ చెప్పారు.
భవిష్యత్తులో, డేటా వైవిధ్యం HPT పనితీరును ఎలా పెంచుతుందో పరిశోధకులు అధ్యయనం చేయాలనుకుంటున్నారు. వారు HPTని మెరుగుపరచాలనుకుంటున్నారు, తద్వారా ఇది GPT-4 మరియు ఇతర పెద్ద భాషా నమూనాల వంటి లేబుల్ చేయని డేటాను ప్రాసెస్ చేయగలదు.
“ఏ విధమైన శిక్షణ లేకుండానే మీరు మీ రోబోట్ కోసం డౌన్లోడ్ చేసుకొని ఉపయోగించగల సార్వత్రిక రోబోట్ మెదడును కలిగి ఉండాలనేది మా కల. మేము ప్రారంభ దశలోనే ఉన్నాము, మేము గట్టిగా ముందుకు వెళ్తాము మరియు స్కేలింగ్ రోబోటిక్లో పురోగతికి దారితీస్తుందని ఆశిస్తున్నాము. పెద్ద భాషా నమూనాల మాదిరిగానే విధానాలు,” అని ఆయన చెప్పారు.