Meta-ның ImageBind AI адамның қабылдауына еліктей алады

Мета кодты атымен ашық қолжетімді жасанды интеллектте жариялайды кескінді байланыстыру, ол адамдардың қоршаған ортаны қалай қабылдайтыны немесе елестететініне ұқсас деректер арасындағы қатынастарды болжайды. Midjourney, Stable Diffusion және DALL-E 2 сияқты кескін генераторлары мәтіндік сипаттамаға негізделген визуалды көріністерді жасауға мүмкіндік беретін сөздерді кескіндерге байланыстырса, ImageBind одан да асып түседі. Ол мәтінді, кескіндерді немесе бейнені, аудионы, 3D өлшемдерін, температура деректерін және қозғалыс деректерін байланыстыра алады және мұны кез келген мүмкіндікте алдын ала жаттығуды қажет етпей жасайды. Бұл мәтіндік шақыру, кескін немесе аудио (немесе олардың тіркесімі) сияқты қарапайым кірістерден күрделі орталарды генерациялай алатын құрылымның бастапқы кезеңі.

Метаверс жобасы

ImageBind-ті адам оқуына машиналық оқытудың жуықтауы ретінде қарастыруға болады. Мысалы, сіз бос емес қала көшесі сияқты динамикалық ортада тұрсаңыз, миыңыз (негізінен бейсаналық) өтіп бара жатқан көліктер, биік ғимараттар, ауа-райы және т.б. туралы ақпаратты алу үшін көріністерді, дыбыстарды және басқа да сенсорлық сезімдерді сіңіреді. . Адамдар мен басқа жануарлар біздің генетикалық артықшылығымыз үшін бұл деректерді өңдеу үшін дамыды: тірі қалу және біздің ДНҚ-ны беру. (Айналаңыз туралы көбірек білсеңіз, соғұрлым қауіп-қатерден аулақ бола аласыз және жақсы өмір сүру және өркендеу үшін қоршаған ортаға бейімделе аласыз). Компьютерлер жануарлардың мультисенсорлық байланыстарын имитациялауға жақындаған сайын, олар бұл қосылымдарды шектеулі деректер бөліктеріне негізделген толық жүзеге асырылған көріністерді жасау үшін пайдалана алады.

Сонымен, сіз Midjourney қолданбасын «жағажай шарында теңестіретін Гандалф костюміндегі бассеталық ит» жасау және осы оғаш көріністің салыстырмалы түрде шынайы фотосуретін алу үшін пайдалансаңыз, ImageBind сияқты мультимодальды AI құралы итпен сәйкес бейнені жасауы мүмкін. дыбыстар, соның ішінде егжей-тегжейлі қонақ бөлме, бөлме температурасы және иттің және оқиға орнындағы басқалардың нақты орналасқан жері. «Бұл дыбыстық шақырулармен біріктіру арқылы статикалық кескіндерден анимациялар жасауға тамаша мүмкіндік береді», - деп атап өтті Meta зерттеушілері әзірлеушілерге бағытталған блогында. «Мысалы, жасаушы суретті оятқышпен және шақырған әтешпен біріктіре алады және сағатты сегменттеу және бейне тізбегінде екеуін де анимациялау үшін әтешті немесе оятқыш дыбысын сегменттеу үшін дыбыстық сигналды пайдалана алады.

Meta

Бұл жаңа ойыншықпен тағы не істеуге болатынына келетін болсақ, ол Метаның негізгі амбицияларының біріне нұсқайды: VR, аралас шындық және метакеңістік. Мысалы, толық жүзеге асырылған 3D көріністерді (дыбыспен, қозғалыспен және т.б.) жылдам құра алатын болашақ гарнитураны елестетіңіз. Немесе виртуалды ойын әзірлеушілер оны дизайн процесіндегі ауыр жұмыстың маңызды бөлігін үнемдеу үшін пайдалана алады. Сол сияқты, мазмұн жасаушылар мәтінге, кескіндерге немесе аудиоға негізделген шынайы саундтректері мен қозғалысы бар иммерсивті бейнелер жасай алады. Сондай-ақ, ImageBind сияқты құрал көру немесе есту қабілеті нашар адамдарға қоршаған ортаны жақсырақ түсінуге көмектесу үшін нақты уақыттағы мультимедиялық сипаттамаларды жасау арқылы қолжетімділікте жаңа есіктерді қалай ашатынын елестету оңай.

Сондай-ақ қызықты: Жасанды интеллектке негізделген ең жақсы құралдар

«Типтік AI жүйелерінде әрбір тиісті модальділік үшін белгілі бір ендіру (яғни, деректерді және олардың машиналық оқытудағы қатынастарын көрсете алатын сандар векторлары) бар», - дейді Мета. «ImageBind модальділіктердің әрбір жеке комбинациясы бар деректер бойынша жаттығудың қажеті жоқ, бірнеше модальділер үшін ортақ ендіру кеңістігін жасауға болатынын көрсетеді. Бұл өте маңызды, өйткені зерттеушілер мысалы, дыбыстық деректер мен қала көшелерінің жылу деректерін немесе тереңдік деректерін және теңіз жағасындағы жартастың мәтіндік сипаттамасын қамтитын үлгілермен деректер жиынын жасай алмайды.

Мета бұл технология, былайша айтқанда, қазіргі алты «сезім» шеңберінен шығып кетеді деп есептейді. «Біз қазіргі зерттеуімізде алты әдісті зерттегенімізге қарамастан, сенсорлық, сөйлеу, иіс және fMRI ми сигналдары сияқты мүмкіндігінше көп сезімдерді байланыстыратын жаңа әдістерді енгізу адамға бағытталған AI үлгілеріне мүмкіндік береді деп сенеміз». Осы жаңа құмсалғышты зерттеуге мүдделі әзірлеушілер Meta-ның ашық бастапқы кодына енуден бастай алады.

Сондай-ақ оқыңыз:

ДжерелоEngadget

Тіркелу

0 Пікірлер

Енгізілген шолулар

Барлық пікірлерді көру

Басқа мақалалар

Meta-ның ImageBind AI адамның қабылдауына еліктей алады

Соңғы пікірлер