
En kompleksaj medioj, homoj povas kompreni la signifon de parolo pli bone ol artefarita inteligenteco, ĉar ni uzas ne nur niajn orelojn sed ankaŭ niajn okulojn.
Ekzemple, ni vidas ies buŝon moviĝi kaj eble intuicie scias, ke la sono, kiun ni aŭdas, devas veni de tiu persono.
Meta AI laboras pri nova dialogsistemo por AI, kiu celas instrui al AI ankaŭ lerni rekoni subtilajn korelaciojn inter tio, kion ĝi vidas kaj aŭdas en konversacio.
VisualVoice lernas simile al kiel homoj lernas majstri novajn kapablojn, ebligante aŭdvidan parolapartigon per lernado de vidaj kaj aŭdaj indikoj el neetikeditaj filmetoj.
Por maŝinoj, tio kreas pli bonan percepton, dum homa percepto pliboniĝas.
Imagu povi partopreni grupajn kunvenojn en la metaverso kun kolegoj el la tuta mondo, aliĝante al pli malgrandaj grupaj kunvenoj dum ili moviĝas tra la virtuala spaco, dum kiuj la sonaj resonadoj kaj sonkoloroj en la sceno adaptiĝas al la ĉirkaŭaĵo.
Tio estas, ĝi povas samtempe akiri aŭdajn, videajn kaj tekstajn informojn, kaj havas pli riĉan modelon de media kompreno, permesante al uzantoj havi "tre impresan" sonsperton.
Afiŝtempo: 20-a de Julio, 2022