Cercetătorii din domeniul inovației s-au concentrat asupra în jurul noilor tehnologii referitoare la inteligența artificială(AI) dar și asupra modului cum acestea vor schimba lumea virtuală și anumite profesii.
Microsoft continuă dezvoltarea de astfel de soluții cu VALL-E, un nou algoritm de inteligență artificială care poate reproduce aproape oricare voce umană care vorbește în limba engleză folosind o mostră de doar trei secunde de vorbire – relatează arstechnica.com.
Software-ul va putea prelua o mostră de voce iar apoi, introducând un text, VALL-E va putea să citească redând glasul înregistrat. Descoperirea va accelera domeniul producțiilor video și audio, în special în mass-media.
Redactarea unui text, care apoi trebuie înregistrat audio și editat pentru a fi inclus într-un material finit este unul de durată în mod obișnuit dar cu softul amintit nu mai este necesar decât textul iar vocea este generată în câteva secunde.
Folosind inteligența artificială pentru a redacta un text, se scade semnificativ timpul realizării unui material
Microsoft numește acest AI drept „neural codec language model”, construit pe tehnologia EnCodec.
Acesta folosește rezultatele pentru a crea o reproducere cât mai corectă a vocii: testarea AI-ului VALL-E a fost realizat folosind o selecție de 60.000 de ore de sunet de la 7.000 de persoane diferite, din biblioteca de sunete LibriVox, care include cărți audio gratuite.
Rezultatele sunt mai bune dacă vocea sursă se aseamănă mai mult cu vocile din acea fonotec; AI-ul poate păstra timbrul vocal și cel emoțional al vorbitorului, însă este capabil și să le schimbe, pe baza unor variabile.
Noua tehnologie aduce ar putea fi folosită și în scopuri infracționale iar, din acest motiv, Microsoft va păstra VALL-E cu sursă închisă putând fi folosit doar în modul în care compania dorește.
În plus, există și posibilitatea de a identifica înregistrările generate de AI:
„Întrucât VALL-E poate sintetiza vorbire care păstrează identitatea vorbitorului, ar putea veni cu riscuri în utilizarea în moduri nedorite a acestuia, precum păcălirea sistemelor de securitate bazate pe voce sau imitarea unui anume vorbitor.
Pentru a nu ne supune la astfel de riscuri, este posibil să creăm și un model de detecție pentru a verifica dacă un clip audio a fost sau nu realizat cu VALL-E. Vom pune de asemenea Principiile Microsoft AI în practică atunci când dezvoltăm modele noi în viitor”, spun autorii din spatele acestui proiect.