Home సైన్స్ సాధారణ ప్రయోజన రోబోట్‌లకు శిక్షణ ఇవ్వడానికి వేగవంతమైన, మెరుగైన మార్గం

సైన్స్

సాధారణ ప్రయోజన రోబోట్‌లకు శిక్షణ ఇవ్వడానికి వేగవంతమైన, మెరుగైన మార్గం

28 October 2024

సహ రచయిత జియాలియన్‌కు రోబోటిక్ ఆర్మ్ ఫీడింగ్ యొక్క బహుళ ఉదాహరణలను పరిశోధకులు చిత్రీకరించారు — సహ రచయిత జియాలియాంగ్ జావో యొక్క పూజ్యమైన కుక్క మోమోకు రోబోటిక్ ఆర్మ్ ఫీడింగ్ యొక్క అనేక ఉదాహరణలను పరిశోధకులు చిత్రీకరించారు. రోబోట్‌కు శిక్షణ ఇవ్వడానికి వీడియోలు డేటాసెట్‌లలో చేర్చబడ్డాయి.

పెద్ద భాషా నమూనాల నుండి ప్రేరణ పొందిన పరిశోధకులు రోబోట్‌లకు కొత్త నైపుణ్యాలను నేర్పడానికి విభిన్న డేటాను పూల్ చేసే శిక్షణా సాంకేతికతను అభివృద్ధి చేస్తారు.

“ది జెట్సన్స్” అనే క్లాసిక్ కార్టూన్‌లో రోసీ రోబో పనిమనిషి ఇంటిని వాక్యూమ్ చేయడం నుండి డిన్నర్ వండడం వరకు చెత్తను బయటకు తీయడం వరకు సజావుగా మారుతుంది. కానీ నిజ జీవితంలో, సాధారణ ప్రయోజన రోబోట్‌కు శిక్షణ ఇవ్వడం పెద్ద సవాలుగా మిగిలిపోయింది.

సాధారణంగా, ఇంజనీర్లు నియంత్రిత వాతావరణంలో రోబోట్‌కు శిక్షణ ఇవ్వడానికి ఉపయోగించే నిర్దిష్ట రోబోట్ మరియు టాస్క్‌కి సంబంధించిన డేటాను సేకరిస్తారు. అయినప్పటికీ, ఈ డేటాను సేకరించడం చాలా ఖరీదైనది మరియు సమయం తీసుకుంటుంది మరియు రోబోట్ మునుపెన్నడూ చూడని పర్యావరణాలు లేదా పనులకు అనుగుణంగా కష్టపడవచ్చు.

మెరుగైన సాధారణ-ప్రయోజన రోబోట్‌లకు శిక్షణ ఇవ్వడానికి, MIT పరిశోధకులు బహుముఖ సాంకేతికతను అభివృద్ధి చేశారు, ఇది అనేక మూలాల నుండి భారీ మొత్తంలో భిన్నమైన డేటాను ఒక వ్యవస్థగా మిళితం చేస్తుంది, ఇది ఏదైనా రోబోట్‌కు విస్తృత శ్రేణి పనులను నేర్పుతుంది.

వారి పద్ధతిలో అనుకరణలు మరియు నిజమైన రోబోట్‌ల వంటి విభిన్న డొమైన్‌ల నుండి డేటాను సమలేఖనం చేయడం మరియు విజన్ సెన్సార్‌లు మరియు రోబోటిక్ ఆర్మ్ పొజిషన్ ఎన్‌కోడర్‌లతో సహా బహుళ పద్ధతులు, ఉత్పాదక AI మోడల్‌ని ప్రాసెస్ చేయగల భాగస్వామ్య “భాష”లో చేర్చడం.

అటువంటి అపారమైన డేటాను కలపడం ద్వారా, ఈ విధానం రోబోట్‌కు ప్రతిసారీ మొదటి నుండి శిక్షణ ఇవ్వాల్సిన అవసరం లేకుండా వివిధ రకాల పనులను చేయడానికి శిక్షణనిస్తుంది.

ఈ పద్ధతి సాంప్రదాయ పద్ధతుల కంటే వేగంగా మరియు తక్కువ ఖర్చుతో కూడుకున్నది కావచ్చు ఎందుకంటే దీనికి చాలా తక్కువ పని-నిర్దిష్ట డేటా అవసరం. అదనంగా, ఇది అనుకరణ మరియు వాస్తవ ప్రపంచ ప్రయోగాలలో మొదటి నుండి 20 శాతం కంటే ఎక్కువ శిక్షణను అధిగమించింది.

“రోబోటిక్స్‌లో, మా వద్ద తగినంత శిక్షణ డేటా లేదని ప్రజలు తరచుగా క్లెయిమ్ చేస్తుంటారు. కానీ నా దృష్టిలో, మరొక పెద్ద సమస్య ఏమిటంటే, డేటా చాలా విభిన్న డొమైన్‌లు, పద్ధతులు మరియు రోబోట్ హార్డ్‌వేర్ నుండి వచ్చింది. మీరు ఎలా ఉంటారో మా పని చూపిస్తుంది. వీటన్నింటిని కలిపి రోబోట్‌కు శిక్షణ ఇవ్వగలడు” అని ఎలక్ట్రికల్ ఇంజనీరింగ్ మరియు కంప్యూటర్ సైన్స్ (EECS) గ్రాడ్యుయేట్ విద్యార్థి మరియు ఈ టెక్నిక్‌పై ఒక పేపర్‌కి ప్రధాన రచయిత లిరుయ్ వాంగ్ చెప్పారు.

వాంగ్ యొక్క సహ రచయితలలో తోటి EECS గ్రాడ్యుయేట్ విద్యార్థి జిలియాంగ్ జావో ఉన్నారు; జిన్లీ చెన్, మెటాలో పరిశోధనా శాస్త్రవేత్త; మరియు సీనియర్ రచయిత కైమింగ్ హి, EECSలో అసోసియేట్ ప్రొఫెసర్ మరియు కంప్యూటర్ సైన్స్ అండ్ ఆర్టిఫిషియల్ ఇంటెలిజెన్స్ లాబొరేటరీ (CSAIL) సభ్యుడు. న్యూరల్ ఇన్ఫర్మేషన్ ప్రాసెసింగ్ సిస్టమ్స్‌పై కాన్ఫరెన్స్‌లో పరిశోధన ప్రదర్శించబడుతుంది.

LLMల నుండి ప్రేరణ పొందారు

ఒక రోబోటిక్ “విధానం” కెమెరా ఇమేజ్‌లు లేదా ప్రోప్రియోసెప్టివ్ కొలతలు వంటి సెన్సార్ పరిశీలనలను తీసుకుంటుంది, వేగాన్ని ట్రాక్ చేస్తుంది మరియు రోబోటిక్ చేతిని ఉంచుతుంది, ఆపై ఎలా మరియు ఎక్కడికి తరలించాలో రోబోట్‌కు చెబుతుంది.

విధానాలు సాధారణంగా అనుకరణ అభ్యాసాన్ని ఉపయోగించి శిక్షణ పొందుతాయి, అంటే మానవుడు చర్యలను ప్రదర్శిస్తాడు లేదా డేటాను రూపొందించడానికి రోబోట్‌ను టెలిఆపరేట్ చేస్తాడు, ఇవి పాలసీని నేర్చుకునే AI మోడల్‌లో అందించబడతాయి. ఈ పద్ధతి పని-నిర్దిష్ట డేటాను తక్కువ మొత్తంలో ఉపయోగిస్తుంది కాబట్టి, రోబోట్‌లు వాటి వాతావరణం లేదా పని మారినప్పుడు తరచుగా విఫలమవుతాయి.

మెరుగైన విధానాన్ని అభివృద్ధి చేయడానికి, వాంగ్ మరియు అతని సహకారులు GPT-4 వంటి పెద్ద భాషా నమూనాల నుండి ప్రేరణ పొందారు.

ఈ మోడల్‌లు అపారమైన విభిన్న భాషా డేటాను ఉపయోగించి ముందస్తుగా శిక్షణ పొందాయి మరియు వాటికి చిన్న మొత్తంలో టాస్క్-నిర్దిష్ట డేటాను అందించడం ద్వారా చక్కగా ట్యూన్ చేయబడతాయి. చాలా డేటాపై ముందస్తు శిక్షణ పొందడం వల్ల మోడల్‌లు వివిధ రకాల పనులపై బాగా పని చేయడానికి అనుగుణంగా ఉంటాయి.

“లాంగ్వేజ్ డొమైన్‌లో, డేటా అన్నీ కేవలం వాక్యాలే. రోబోటిక్స్‌లో, డేటాలోని అన్ని వైవిధ్యతను బట్టి, మీరు ఇదే పద్ధతిలో ప్రిట్రైన్ చేయాలనుకుంటే, మాకు వేరే ఆర్కిటెక్చర్ అవసరం” అని ఆయన చెప్పారు.

మూర్తి 1 — కొత్త టెక్నిక్ అనుకరణ మరియు నిజమైన రోబోట్‌లు మరియు విజన్ సెన్సార్‌లు మరియు రోబోటిక్ ఆర్మ్ పొజిషన్ ఎన్‌కోడర్‌లతో సహా అనేక రకాలైన డొమైన్‌ల నుండి డేటాను ఒక భాగస్వామ్య AI మోడల్ ప్రాసెస్ చేయగల భాగస్వామ్య 'భాష'లోకి ఎలా సమలేఖనం చేస్తుందో చూపిస్తుంది.

రోబోటిక్ డేటా అనేక రూపాలను తీసుకుంటుంది, కెమెరా చిత్రాల నుండి భాషా సూచనల వరకు డెప్త్ మ్యాప్‌ల వరకు. అదే సమయంలో, ప్రతి రోబోట్ యాంత్రికంగా ప్రత్యేకంగా ఉంటుంది, ఆయుధాలు, గ్రిప్పర్లు మరియు సెన్సార్ల యొక్క విభిన్న సంఖ్య మరియు విన్యాసాన్ని కలిగి ఉంటుంది. అదనంగా, డేటా సేకరించబడే పరిసరాలు విస్తృతంగా మారుతూ ఉంటాయి.

MIT పరిశోధకులు ఈ విభిన్న పద్ధతులు మరియు డొమైన్‌ల నుండి డేటాను ఏకీకృతం చేసే హెటెరోజెనియస్ ప్రీట్రైన్డ్ ట్రాన్స్‌ఫార్మర్స్ (HPT) అనే కొత్త నిర్మాణాన్ని అభివృద్ధి చేశారు.

వారు తమ ఆర్కిటెక్చర్ మధ్యలో ట్రాన్స్‌ఫార్మర్ అని పిలువబడే మెషిన్-లెర్నింగ్ మోడల్‌ను ఉంచారు, ఇది దృష్టి మరియు ప్రోప్రియోసెప్షన్ ఇన్‌పుట్‌లను ప్రాసెస్ చేస్తుంది. ట్రాన్స్‌ఫార్మర్ అనేది పెద్ద భాషా నమూనాలకు వెన్నెముకగా ఉండే అదే రకమైన మోడల్.

పరిశోధకులు దృష్టి మరియు ప్రొప్రియోసెప్షన్ నుండి డేటాను ట్రాన్స్‌ఫార్మర్ ప్రాసెస్ చేయగల టోకెన్ అని పిలిచే ఒకే రకమైన ఇన్‌పుట్‌లోకి సమలేఖనం చేస్తారు. ప్రతి ఇన్‌పుట్ ఒకే నిర్దిష్ట సంఖ్యలో టోకెన్‌లతో సూచించబడుతుంది.

అప్పుడు ట్రాన్స్‌ఫార్మర్ అన్ని ఇన్‌పుట్‌లను ఒక భాగస్వామ్య స్థలంలోకి మ్యాప్ చేస్తుంది, ఇది మరింత డేటాను ప్రాసెస్ చేయడం మరియు నేర్చుకునేటప్పుడు భారీ, ముందుగా శిక్షణ పొందిన మోడల్‌గా అభివృద్ధి చెందుతుంది. ట్రాన్స్‌ఫార్మర్ ఎంత పెద్దదిగా మారితే అంత మెరుగ్గా పని చేస్తుంది.

ఒక వినియోగదారు వారి రోబోట్ రూపకల్పన, సెటప్ మరియు వారు చేయాలనుకుంటున్న పనిపై HPTకి కొద్దిపాటి డేటాను మాత్రమే అందించాలి. అప్పుడు HPT కొత్త పనిని తెలుసుకోవడానికి ముందస్తు శిక్షణ సమయంలో ట్రాన్స్‌ఫార్మర్ గ్రెయిన్ చేసిన జ్ఞానాన్ని బదిలీ చేస్తుంది.

నైపుణ్యం గల కదలికలను ప్రారంభించడం

మానవ డెమో వీడియోలు మరియు అనుకరణతో సహా నాలుగు వర్గాలలో 200,000 కంటే ఎక్కువ రోబోట్ ట్రాజెక్టరీలతో 52 డేటాసెట్‌లను కలిగి ఉన్న ట్రాన్స్‌ఫార్మర్‌ను ప్రీట్రైన్ చేయడానికి భారీ డేటాసెట్‌ను రూపొందించడం HPTని అభివృద్ధి చేయడంలో అతిపెద్ద సవాళ్లలో ఒకటి.

సెన్సార్ల శ్రేణి నుండి ముడి ప్రొప్రియోసెప్షన్ సిగ్నల్‌లను ట్రాన్స్‌ఫార్మర్ నిర్వహించగలిగే డేటాగా మార్చడానికి పరిశోధకులు సమర్థవంతమైన మార్గాన్ని అభివృద్ధి చేయాల్సిన అవసరం ఉంది.

“చాలా నైపుణ్యం గల కదలికలను ప్రారంభించడానికి ప్రోప్రియోసెప్షన్ కీలకం. ఎందుకంటే మా నిర్మాణంలో టోకెన్‌ల సంఖ్య ఎల్లప్పుడూ ఒకే విధంగా ఉంటుంది, మేము ప్రొప్రియోసెప్షన్ మరియు దృష్టికి అదే ప్రాముఖ్యతనిస్తాము” అని వాంగ్ వివరించాడు.

వారు HPTని పరీక్షించినప్పుడు, ఇది ప్రతిసారీ మొదటి నుండి శిక్షణతో పోలిస్తే, అనుకరణ మరియు వాస్తవ-ప్రపంచ పనులపై 20 శాతం కంటే ఎక్కువ రోబోట్ పనితీరును మెరుగుపరిచింది. ప్రీట్రైనింగ్ డేటా నుండి టాస్క్ చాలా భిన్నంగా ఉన్నప్పటికీ, HPT ఇప్పటికీ పనితీరును మెరుగుపరుస్తుంది.

“ఈ పత్రం బహుళ రోబోట్ అవతారంలో ఒకే విధానాన్ని శిక్షణ ఇవ్వడానికి ఒక నవల విధానాన్ని అందిస్తుంది. ఇది విభిన్న డేటాసెట్‌లలో శిక్షణనిస్తుంది, రోబోట్ లెర్నింగ్ పద్ధతులను వారు శిక్షణ పొందగల డేటాసెట్‌ల పరిమాణాన్ని గణనీయంగా పెంచడానికి వీలు కల్పిస్తుంది. ఇది మోడల్‌ను త్వరగా స్వీకరించడానికి అనుమతిస్తుంది. కొత్త రోబోట్ రూపాలకు, కొత్త రోబోట్ డిజైన్‌లు నిరంతరం ఉత్పత్తి అవుతున్నందున ఇది చాలా ముఖ్యం” అని ఈ పనిలో పాలుపంచుకోని కార్నెగీ మెల్లన్ యూనివర్శిటీ రోబోటిక్స్ ఇన్‌స్టిట్యూట్‌లో అసోసియేట్ ప్రొఫెసర్ డేవిడ్ హెల్డ్ చెప్పారు.

భవిష్యత్తులో, డేటా వైవిధ్యం HPT పనితీరును ఎలా పెంచుతుందో పరిశోధకులు అధ్యయనం చేయాలనుకుంటున్నారు. వారు HPTని మెరుగుపరచాలనుకుంటున్నారు, తద్వారా ఇది GPT-4 మరియు ఇతర పెద్ద భాషా నమూనాల వంటి లేబుల్ చేయని డేటాను ప్రాసెస్ చేయగలదు.

“ఏ విధమైన శిక్షణ లేకుండానే మీరు మీ రోబోట్ కోసం డౌన్‌లోడ్ చేసుకొని ఉపయోగించగల సార్వత్రిక రోబోట్ మెదడును కలిగి ఉండాలనేది మా కల. మేము ప్రారంభ దశలోనే ఉన్నాము, మేము గట్టిగా ముందుకు వెళ్తాము మరియు స్కేలింగ్ రోబోటిక్‌లో పురోగతికి దారితీస్తుందని ఆశిస్తున్నాము. పెద్ద భాషా నమూనాల మాదిరిగానే విధానాలు,” అని ఆయన చెప్పారు.

Source

సాధారణ ప్రయోజన రోబోట్‌లకు శిక్షణ ఇవ్వడానికి వేగవంతమైన, మెరుగైన మార్గం

LLMల నుండి ప్రేరణ పొందారు

నైపుణ్యం గల కదలికలను ప్రారంభించడం

EDITOR PICKS

ఈ సీజన్‌లో జేసన్ టాటమ్ ఎలా ఆధిపత్యం చెలాయిస్తున్నాడో గణాంకాలు చూపుతాయి

రాడ్ సెర్లింగ్ ట్విలైట్ జోన్ తర్వాత హర్రర్ ఆంథాలజీ సిరీస్‌ను రూపొందించారు

10/31: CBS సాయంత్రం వార్తలు