/ miércoles 28 de septiembre de 2022

Deepfakes: Una amenaza que no está lejos

Las falsificaciones tanto de audio como de video ya son posibles con el desarrollo de tecnologías de aprendizaje automático y no está lejos el día en que las personas puedan ser víctimas de este tipo de ilícitos

Imagina el siguiente escenario. Suena un teléfono. Un oficinista responde y escucha a su jefe, quien le dice que olvidó transferir dinero a un cliente y que necesita que él lo haga. Así que le dan la información de la transferencia bancaria, la cual realiza inmediatamente.

Unos minutos después, el mismo empleado observa cómo su jefe entra por la puerta. Y resulta que la voz al otro lado de la llamada no era su jefe. De hecho, ni siquiera era un humano, sino una muestra de audio generada por una máquina diseñada para sonar exactamente como su jefe.

Puede interesarte: ¿Qué es la Valija del Tesoro, la nueva modalidad de ciberestafa?

Ya se han producido ataques como este que utilizan audio grabado, y es posible que las falsificaciones profundas de audio conversacional no estén muy lejos.

Los llamados Deepfakes, tanto de audio como de video, solo han sido posibles con el desarrollo de tecnologías sofisticadas de aprendizaje automático en los últimos años.

Esto ha traído consigo un nuevo nivel de incertidumbre en torno a los medios digitales. Para detectar falsificaciones profundas, muchos investigadores han recurrido al análisis de artefactos visuales (fallas mínimas e inconsistencias) que se encuentran en las falsificaciones profundas de video.

Sin embargo, los deepfakes de audio potencialmente representan una amenaza aún mayor, ya que las personas a menudo se comunican verbalmente sin video, por ejemplo, a través de llamadas telefónicas, radio y grabaciones de voz. Estas comunicaciones de solo voz amplían en gran medida las posibilidades de que los atacantes utilicen deepfakes.

Para detectar falsificaciones profundas de audio, nosotros y nuestros colegas investigadores de la Universidad de Florida hemos desarrollado una técnica que mide las diferencias acústicas y dinámicas de fluidos entre las muestras de voz creadas orgánicamente por hablantes humanos y las generadas sintéticamente por computadoras.

Voces orgánicas contra sintéticas

Los seres humanos vocalizan forzando el aire sobre las diversas estructuras del tracto vocal, incluidas las cuerdas vocales, la lengua y los labios. Al reorganizar estas estructuras, altera las propiedades acústicas de su tracto vocal, lo que le permite crear más de 200 sonidos o fonemas distintos.

Es posible que las "falsificaciones profundas" de audio conversacional no estén muy lejos de nosotros / Cortesía | PEXELS

Sin embargo, la anatomía humana limita fundamentalmente el comportamiento acústico de estos diferentes fonemas, lo que da como resultado una gama relativamente pequeña de sonidos correctos para cada uno.

Por el contrario, las falsificaciones profundas de audio se crean permitiendo primero que una computadora escuche las grabaciones de audio de un hablante de la víctima objetivo.

Dependiendo de las técnicas exactas que se utilicen, es posible que la computadora necesite escuchar tan solo de 10 a 20 segundos de audio. Este audio se utiliza para extraer información clave sobre los aspectos únicos de la voz de la víctima.

El atacante selecciona una frase para que hable el deepfake y luego, utilizando un algoritmo modificado de texto a voz, genera una muestra de audio que suena como si la víctima dijera la frase seleccionada. Este proceso de creación de una sola muestra de audio falsificada se puede lograr en cuestión de segundos, lo que potencialmente permite a los atacantes suficiente flexibilidad para usar la voz falsa en una conversación.

Detección de deepfakes de audio

El primer paso para diferenciar el habla producida por humanos del habla generada por deepfakes es comprender cómo modelar acústicamente el tracto vocal. Afortunadamente, los científicos tienen técnicas para estimar cómo sonaría alguien, o algún ser como un dinosaurio, en función de las mediciones anatómicas de su tracto vocal.

Hicimos al revés. Al invertir muchas de estas mismas técnicas, pudimos extraer una aproximación del tracto vocal de un hablante durante un segmento del habla. Esto nos permitió observar de manera efectiva la anatomía del hablante que creó la muestra de audio.

➡️ Suscríbete a nuestro Newsletter y recibe las notas más relevantes en tu correo

A partir de aquí planteamos la hipótesis de que las muestras de audio deepfake no estarían limitadas por las mismas limitaciones anatómicas que tienen los humanos. En otras palabras, el análisis de muestras de audio falsificadas simulaba formas del tracto vocal que no existen en las personas.

Por qué importa todo esto

El mundo de hoy está definido por el intercambio digital de medios e información. Todo, desde noticias hasta entretenimiento y conversaciones con seres queridos, generalmente ocurre a través de intercambios digitales. Incluso en su infancia, los videos y audios falsos socavan la confianza que las personas tienen en estos intercambios, limitando efectivamente su utilidad.

Si el mundo digital va a seguir siendo un recurso crítico para la información en la vida de las personas, las técnicas efectivas y seguras para determinar la fuente de una muestra de audio son cruciales.

* Informática y Ciencias de la Información e Ingeniería de la Universidad de Florida.

Lee también otros contenidos de Normal ⬇️

Imagina el siguiente escenario. Suena un teléfono. Un oficinista responde y escucha a su jefe, quien le dice que olvidó transferir dinero a un cliente y que necesita que él lo haga. Así que le dan la información de la transferencia bancaria, la cual realiza inmediatamente.

Unos minutos después, el mismo empleado observa cómo su jefe entra por la puerta. Y resulta que la voz al otro lado de la llamada no era su jefe. De hecho, ni siquiera era un humano, sino una muestra de audio generada por una máquina diseñada para sonar exactamente como su jefe.

Puede interesarte: ¿Qué es la Valija del Tesoro, la nueva modalidad de ciberestafa?

Ya se han producido ataques como este que utilizan audio grabado, y es posible que las falsificaciones profundas de audio conversacional no estén muy lejos.

Los llamados Deepfakes, tanto de audio como de video, solo han sido posibles con el desarrollo de tecnologías sofisticadas de aprendizaje automático en los últimos años.

Esto ha traído consigo un nuevo nivel de incertidumbre en torno a los medios digitales. Para detectar falsificaciones profundas, muchos investigadores han recurrido al análisis de artefactos visuales (fallas mínimas e inconsistencias) que se encuentran en las falsificaciones profundas de video.

Sin embargo, los deepfakes de audio potencialmente representan una amenaza aún mayor, ya que las personas a menudo se comunican verbalmente sin video, por ejemplo, a través de llamadas telefónicas, radio y grabaciones de voz. Estas comunicaciones de solo voz amplían en gran medida las posibilidades de que los atacantes utilicen deepfakes.

Para detectar falsificaciones profundas de audio, nosotros y nuestros colegas investigadores de la Universidad de Florida hemos desarrollado una técnica que mide las diferencias acústicas y dinámicas de fluidos entre las muestras de voz creadas orgánicamente por hablantes humanos y las generadas sintéticamente por computadoras.

Voces orgánicas contra sintéticas

Los seres humanos vocalizan forzando el aire sobre las diversas estructuras del tracto vocal, incluidas las cuerdas vocales, la lengua y los labios. Al reorganizar estas estructuras, altera las propiedades acústicas de su tracto vocal, lo que le permite crear más de 200 sonidos o fonemas distintos.

Es posible que las "falsificaciones profundas" de audio conversacional no estén muy lejos de nosotros / Cortesía | PEXELS

Sin embargo, la anatomía humana limita fundamentalmente el comportamiento acústico de estos diferentes fonemas, lo que da como resultado una gama relativamente pequeña de sonidos correctos para cada uno.

Por el contrario, las falsificaciones profundas de audio se crean permitiendo primero que una computadora escuche las grabaciones de audio de un hablante de la víctima objetivo.

Dependiendo de las técnicas exactas que se utilicen, es posible que la computadora necesite escuchar tan solo de 10 a 20 segundos de audio. Este audio se utiliza para extraer información clave sobre los aspectos únicos de la voz de la víctima.

El atacante selecciona una frase para que hable el deepfake y luego, utilizando un algoritmo modificado de texto a voz, genera una muestra de audio que suena como si la víctima dijera la frase seleccionada. Este proceso de creación de una sola muestra de audio falsificada se puede lograr en cuestión de segundos, lo que potencialmente permite a los atacantes suficiente flexibilidad para usar la voz falsa en una conversación.

Detección de deepfakes de audio

El primer paso para diferenciar el habla producida por humanos del habla generada por deepfakes es comprender cómo modelar acústicamente el tracto vocal. Afortunadamente, los científicos tienen técnicas para estimar cómo sonaría alguien, o algún ser como un dinosaurio, en función de las mediciones anatómicas de su tracto vocal.

Hicimos al revés. Al invertir muchas de estas mismas técnicas, pudimos extraer una aproximación del tracto vocal de un hablante durante un segmento del habla. Esto nos permitió observar de manera efectiva la anatomía del hablante que creó la muestra de audio.

➡️ Suscríbete a nuestro Newsletter y recibe las notas más relevantes en tu correo

A partir de aquí planteamos la hipótesis de que las muestras de audio deepfake no estarían limitadas por las mismas limitaciones anatómicas que tienen los humanos. En otras palabras, el análisis de muestras de audio falsificadas simulaba formas del tracto vocal que no existen en las personas.

Por qué importa todo esto

El mundo de hoy está definido por el intercambio digital de medios e información. Todo, desde noticias hasta entretenimiento y conversaciones con seres queridos, generalmente ocurre a través de intercambios digitales. Incluso en su infancia, los videos y audios falsos socavan la confianza que las personas tienen en estos intercambios, limitando efectivamente su utilidad.

Si el mundo digital va a seguir siendo un recurso crítico para la información en la vida de las personas, las técnicas efectivas y seguras para determinar la fuente de una muestra de audio son cruciales.

* Informática y Ciencias de la Información e Ingeniería de la Universidad de Florida.

Lee también otros contenidos de Normal ⬇️

Doble Vía

El mole de panza de Orizaba, ¿qué es y cómo se prepara?

¿Has escuchado del Mole de panza? No se trata de platillo típico de puebla con pollo, pasta de mole, chocolate, galleta y chiles sino de un exquisito platillo veracruzano

Local

90 emprendedoras de Zongolica reciben apoyo para promover sus productos

Algunas mujeres se dedican al cuidado de gallinas ponedoras y, aunque no todo el producto que obtienen de ellas se puede decir que es 100% orgánico

Ecología

Con reducción de presupuesto para ANP se perdería el trabajo de conservación

Existe la posibilidad de que se reduzca el presupuesto y se destine solo un peso por hectárea para la conservación de las Áreas Naturales Protegidas, lo que afectaría a la Comisión Nacional de Áreas Naturales Protegidas

Local

Orizaba y Emiliano Zapata, los municipios con más feminicidios en Veracruz

De enero a la fecha en la entidad veracruzana se registraron 57 feminicidios, de acuerdo con el Observatorio Universitario de Violencias contra las Mujeres

Policiaca

Provoca torton choque múltiple sobre la autopista Puebla-Veracruz en Ixtaczoquitlán

Se movilizaron al sitio paramédicos de Caminos y Puentes Federales para atender a los lesionados

Doble Vía

Músicos no bajan los brazos pese a ser desplazados por karaoke y el celular

Este viernes, 22 de noviembre celebran a Santa Cecilia, su patrona, a quien se encomiendan y piden por el eterno descanso de quienes se adelantaron en el camino