Root NationЖаңалықтарIT жаңалықтарыЖаңа AI Microsoft 3 секундтық аудио үлгісіндегі кез келген адамның дауысына еліктейді

Жаңа AI Microsoft 3 секундтық аудио үлгісіндегі кез келген адамның дауысына еліктейді

-

Бейсенбіде зерттеушілер Microsoft VALL-E деп аталатын жаңа жасанды интеллект (AI) үлгісін жариялады, ол үш секундтық аудио үлгісі берілгенде адам дауысын дәл қайталай алады. Белгілі бір дауысты үйренгеннен кейін, VALL-E спикердің эмоционалды үнін сақтай отырып, сол адамның кез келген нәрсені айтқан дыбысын синтездей алады.

Оның авторлары VALL-E-ді жоғары сапалы мәтінді сөйлеуге, сөйлеуді өңдеуге қолдануға болады, мұнда адамның жазбасын мәтін транскрипциясынан өңдеуге және өзгертуге болады (оларды бастапқыда айтпаған нәрселерді айтуға мәжбүр етеді) және сияқты басқа генеративті AI үлгілерімен біріктірілген аудио мазмұнды жасауға арналған GPT-3.

Microsoft AI VALL-E

Microsoft VALL-E-ді «Нейрондық кодек тілінің моделі» деп атайды және ол Meta 2022 жылдың қазан айында жариялаған EnCodec деп аталатын технологияға негізделген. Әдетте толқын пішіндерін басқару арқылы сөйлеуді синтездейтін басқа мәтінді дыбысқа шығару әдістерінен айырмашылығы, VALL-E дискретті дыбысты жасайды. мәтіндік және дыбыстық сұраулардан кодек кодтары. Ол негізінен адамның дыбысын талдайды, EnCodec арқасында бұл ақпаратты дискретті құрамдастарға («токендер» деп аталады) бөледі және егер ол сырттан басқа сөз тіркестерін айтса, дауыс қандай болатыны туралы «білетініне» сәйкестендіру үшін жаттығу деректерін пайдаланады. үш секундтық үлгінің.

Microsoft LibriLight деп аталатын Meta құрастырған аудио кітапханада VALL-E сөйлеуді синтездеу мүмкіндіктерін оқытты. Ол негізінен жалпыға қолжетімді LibriVox аудиокітаптарынан алынған 60-нан астам дикторлардың 7 XNUMX сағаттық ағылшын тіліндегі хабарларын қамтиды.

Дауыс тембрі мен диктордың эмоционалдық тонусын сақтаумен қатар, VALL-E аудио үлгісінің «акустикалық ортасын» имитациялай алады. Мысалы, үлгі телефон сөйлесуінен алынған болса, синтезделген дыбыс шығысы телефон сөйлесуінің акустикалық және жиілік қасиеттерін имитациялайды. Сондай-ақ үлгілер Microsoft VALL-E вокалдық тембрлік вариацияларды жасай алатынын көрсетіңіз.

Microsoft AI VALL-E

Мүмкін VALL-E алаяқтық пен алдауды жеңілдету қабілетіне байланысты болуы мүмкін, Microsoft басқаларға тәжірибе жасау үшін VALL-E кодын бермеген, сондықтан біз оның мүмкіндіктерін тексере алмаймыз. Зерттеушілер бұл технологияның әлеуетті әлеуметтік зияны туралы білетін сияқты. Мақаланың қорытындысында олар былай деп жазады:

«VALL-E динамиктің жеке басын сақтайтын сөйлеуді синтездей алатындықтан, ол дауысты анықтауды жалғандау немесе белгілі бір динамиктің кейпін көрсету сияқты үлгіні теріс пайдаланудың ықтимал қауіптерін қамтуы мүмкін. Мұндай тәуекелдерді азайту үшін аудиоклиптің VALL-E көмегімен синтезделгенін анықтау үшін тану моделі жасалады.

Сіз Украинаға орыс басқыншыларына қарсы күресуге көмектесе аласыз. Мұны істеудің ең жақсы жолы - Украина Қарулы Күштеріне қаражат беру Lifelife немесе ресми парақшасы арқылы NBU.

Сондай-ақ оқыңыз:

Джерелоарстехника
Тіркелу
туралы хабарлау
қонақ

0 Пікірлер
Енгізілген шолулар
Барлық пікірлерді көру