Yearly Archives: 2021

Entrevista

 

 

Para su lectura haz click   / Click here to read it

 

 

Para escucharla haz click / To listen to it click

DEEPFAKE TODAY

En nuestro presente, ya es posible construir una realidad dentro del género del superrealismo, una falsa realidad compuesta por piezas vivas de una apariencia brillante, fascinante y esencial como potenciador de la creatividad artística. Un buen ejemplo de ello es el último vídeo realizado con la técnica deepfake para la campaña publicitaria de Cruzcampo.

El marketing ha encontrado su filón de oro con este avance en el campo del software dentro de la inteligencia artificial. Una de las empresas que ha utilizado esta técnica ha sido Cruzcampo, con su vídeo, emitido en algún medio, en el cual devuelve a la vida a una de las iconos españolas más queridas, Lola Flores. Su título “Con mucho acento”, en él retumba de nuevo su voz para recordarnos algo muy nuestro: el poderío.

La agencia publicitaria que se encuentra detrás del proyecto es Ogilvy y Metropolitana el estudio de postproducción y efectos especiales que lo ha llevado a cabo. Todo ha sido posible gracias a dos herramientas, una es FaceSwap, un software de código abierto basado en TensorFlow, Keras y Python, lenguaje de programación multiparadigma, es decir, programas usando más de un estilo de programación, y la otra, es DeepFaceLab, un segundo software gratuito que usando vídeos o imágenes ya existentes, a través de sus novedosas redes neuronales, permite sustituir las caras en los vídeos. Está alojado en GitHub, plataforma de desarrollo colaborativo, que ha dado lugar a innumerables tutoriales en Internet.

Aquí se puede ver el vídeo antes referido:

Fuente: https://www.youtube.com/watch?v=47AYlU5dbEc&ab_channel=ElIndependiente

Pero antes que nada, hay que poner en situación lo que realmente tenemos entre manos: un mundo virtual creado por ordenador que nos hace reproducir con fidelidad realidades irreales muy exactas para el ojo humano, no analítico.

¿Y cómo se puede hacer esto? Pues tan “sencillo” como entender que estas nuevas herramientas usan un lenguaje de programación que se basa en una serie de algoritmos RGAs (GANs en inglés) que técnicamente son dos redes neuronales generativas que trabajan una contra la otra, es decir, una de ellas, entrena a generador (decodificador), un tipo de red neuronal artificial que se utiliza para aprender codificaciones de datos eficientes de forma no supervisada. Su objetivo es aprender una representación (codificación) para un conjunto de datos, normalmente para la reducción de la dimensionalidad, entrenando a la red para que ignore el «ruido» de la señal, o dicho de otra manera, crear la representación latente del material de origen, la cual contiene la información de rasgos faciales y de lenguaje corporal.

Y la otra red, un discriminador, que reconstruye la imagen a partir de la representación latente que intentará generar, con dicha codificación reducida, una representación lo más parecida posible a su entrada original.

En resumen, un GAN entrena a un generador, en este caso el descodificador, y a un discriminador en una relación adversarial. El generador crea nuevas imágenes a partir de la representación latente del material de origen, mientras que el discriminador intenta determinar si la imagen es generada o no. Esto hace que el generador cree imágenes que imitan la realidad con gran fidelidad, ya que cualquier defecto sería detectado por el discriminador. Ambos algoritmos mejoran constantemente en un juego de suma cero. Matemáticamente crece hasta llegar a un equilibrio, lo que significa que ninguno de los dos puede aprender nuevos trucos y mejorar. Al retarse constantemente y mejorándose el uno al otro, van evolucionando y cada vez son más difíciles de combatir, ya que se corrigen los defectos automáticamente.

                                                  Fuente:  https://machinelearningparatodos.com/tipos-de-aprendizaje-automatico/                                                                      

Tengamos en cuenta que deepfake es un acrónimo del inglés formado por las palabras fake, falsificación y deep learning, aprendizaje profundo (métodos de aprendizaje automático basados en asimilar representaciones de datos).

Lo curioso es que no es una nueva técnica, sino que lleva utilizándose desde hace ya algunos años en el género cinematográfico del falso documental o mockumentaries; por ejemplo, el retrato superpuesto de Abraham Lincoln sobre el cuerpo de John C. Calhoun (1865, de manera fotográfica), o la narración de La guerra de los mundos, de O. Wells, (1938, en voz).

Desde los años 90, la tecnología deepfake ha sido desarrollada por investigadores de instituciones académicas, y posteriormente, por aficionados en comunidades online. Se conoce en todos los campo posibles: fraudes, pornografía, política, artes, cine y televisión. Un claro ejemplo es Disney, considerado como el mayor utilitario de esta técnica en sus películas, ahorrando coste operativos y de producción, además de tener el modelo de resolución de imagen mucho mayor y produciendo resultados más realistas que los modelos comunes como es el caso de la película Rogue One una historia de Star Wars con la imagen de Carrie Fisher (2016, cinematográficamente).

                                  

Abraham Lincoln sobre el cuerpo de  John C. Calhoun. Fuente:  https://www.alteredimagesbdc.org/lincoln  //  Escena Rogue One una historia de Star Wars. Fuente: https://www.youtube.com/watch?v=byKy9kGnyvo&ab_channel=Shamook

 

Pero vamos a ver las costuras y dobladillos de esta técnica del deepfake, como dice Lola en su vídeo. Si se elige el vídeo de Cruzcampo como referencia, en una segunda versión, observaremos en qué consiste el making off y los diferentes pasos que se siguen para su creación:

  • Primero se realiza la extracción de los datos morfológicos originales, a través de los múltiples vídeos de la cantaora (cerca de unas cinco mil imágenes), para que el programa pueda aprender todas las microexpresiones, expresiones y gestos que aparezcan en ellas. Mientras, por otro lado, se realiza un vídeo con una actriz que recrea de manera humana estos gestos tan característicos para hacer el alineamiento.

    

  •  A continuación, se procede al alineamiento de los rasgos faciales del vídeo latente, (decodificador), es decir, los gestos de Lola.

      

  • Se produce entonces el alineamiento de la imagen latente (original) con la estructura facial de la actriz (discriminador), el software empieza a funcionar rellenando estructuras computacionalmente.

        

        

  • Una vez alineadas las dos caras, se ajustan las similitudes mediante el lenguaje de programación. Se unen. Y comienzan los retoques 3D, compositing y efectos visuales hasta llegar al resultado maravilloso.

    

Obteniendo un resultado final totalmente creíble, como se muestra en este link.

             https://www.youtube.com/watch?v=6PU0mOjHQ2U&ab_channel=CULTURA2.0

El trabajo de este programa por unir las expresiones y microexpresiones da auténtico respeto. Ya que al ritmo que avanza esta técnica, ya hay profesionales que se encargan de demostrar que vídeos son fakes o cuáles no.

Nos encontramos ante unos programas informáticos que estudian las emociones y microexpresiones básicas para manipularlas sobre otro ser humano y crear una réplica artificial de algo que es genuino y no repetible de cada uno.

En el lenguaje no verbal, existen diferentes tipos de expresiones como microexpresiones. Las unas dependen de las otras para crear nuestra manera de habla visual. Las primeras son más reconocibles a simple vista, la segundas son tan rápidas como un relámpago y responden a patrones específicos de activación muscular para cada una de estas, que actualmente son capaces de ser reproducidas por algoritmos artificiales de manera casi perfectas al ojo humano no entrenado para detectarlas, y que pueden llevarnos, en un futuro, a desconfiar de toda imagen que se pueda presentar ante un juez sin antes pasar un filtro de análisis forense para detectar posibles estafas y campañas de desinformación.

¿Cómo podríamos estar seguros de que lo que estamos viendo es real o no?

Deberemos poner mucha atención. Y sobre todo ser críticos con todo aquello que llegue a nuestras manos. Para un analista de lenguaje no verbal se debería tener en cuenta varios métodos, para poder diferenciar los patrones repetitivos de expresiones faciales, como por ejemplo: la señal fisiológica del pulso humano, la ausencia o presencia de esta resultante de los cambios en el flujo sanguíneo clasificaría a la persona generada por ordenador o como humana. Como se realiza en el polígrafo, aunque tendríamos que tener el vídeo original para poder analizar los fotogramas de los rasgos faciales. Se podría recurrir también a la técnica euleriana de ampliación de vídeo, con la cual eligiendo un punto del rostro y analizando su variación de luminancia revelaría si existe la variación de color comparable con la del pulso humano o no.

Aunque se han creado nuevos algoritmos que pueden llegar a percibir el flujo de sangre en las personas que aparecen en los vídeos. Otro método que se podría utilizar, es el seguimiento de la posición y la alineación de la cabeza, a través de un logaritmo o manualmente, que analice fotogramas continuos extraídos, en donde deberán coincidir escala y postura teniendo en cuenta la iluminación y el movimiento, ya que el software rellena los huecos con información inventada. La misma técnica se podría utilizar para hacer una medición lineal de unidades faciales de la musculación como las arrugas de la nariz, levantamiento de pómulos, estiramiento de la comisura de los labios, la arruga de las cejas en la expresión de tristeza…

El más interesante y detectable hasta ahora es el parpadeo, el algoritmo aún no está diseñado para realizar esta acción tan rápida como la haría un ser humano (una vez entre 2 a 8 segundos y una duración de 1,4 décimas de segundo). La razón es que muchas de las imágenes de uso común están sacadas de Internet y no se suelen usarse aquellas que tienen los ojos cerrados, por cuestión de estética.

  • Otras técnicas de la detección que podríamos observar para detectarlos, en el marco del campo del análisis forense digital, son:
  • Efectos de luz extraños en iluminación.
  • El movimiento de cabello (suele ser difícil de reproducir).
  • La calidad tanto del sonido de la voz como del sonido de fondo: su sincronización entre ruido e imagen. Por cada segundo que una persona habla, su voz contiene entre 8.000 y 50.000 datos que pueden ayudar al ordenador a verificar su autenticidad; por ejemplo, la pronunciación de los sonidos fricativos, como la letra f, ya que a los sistemas de deeplearning les cuesta mucho diferenciar esos sonidos con posibles ruidos.
  • Los detalles: hay que estar muy atento a las discrepancias entre las imágenes superpuestas, como el interior de las bocas, un cierto desenfoque en desacorde con la nitidez del rostro, joyas y complementos. Otra fuente de información puede ser el reflejo del iris (un estudio realizado por científicos españoles detectó una precisión final del 87,5 % sobre una base de datos propia).
  • Duración del vídeo: al ser trabajos costosos en sus procesos suelen ser de corta duración; por el momento, la tecnología avanza muy rápido.
  • Corroborar la fuente: algo obvio saber cual es el origen antes de darlo por verdadero.
  • Análisis digital forense de metadatos.

En este vídeo podemos observar muchas cuestiones de las que se ha hablado hasta ahora:

Obama fake. Fuente:  https://www.youtube.com/watch?v=cQ54GDm1eL0&ab_channel=BuzzFeedVideo

Algunas empresas tecnológicas ya están financiando investigaciones para trabajos más sofisticados. La plataforma Facebook anunció que no permitirá y eliminará vídeos modificados por AI, como los deepfake. En el ámbito tecnológico, se empieza a crear un debate ético sobre su uso que debería acabar en leyes de protección para las diversas consecuencias que pueda generar toda esta tecnología en usos no correctos. Aunque ya se conocen algunos casos de estafa, y se están tomando medidas, por ahora se necesita de un actor real para poder recrearlos. Pero no todo es negativo, el mundo de las redes es algo realmente fascinante, y nos hace pasar un buen rato viendo perfiles de amigo, memes y demás ocurrencias de uso cómico que hacen que sea una tecnología de lo más divertida. Porque aplicaciones hay muchas para poder jugar con ellas, entre las cuales destacan Zao, Doublicat, AvengeThem… entre otras.

Aquí tenemos dos ejemplos:

                 

El equipo E. Fuente: https://www.youtube.com/watch?v=dj5M4s-cdAw&ab_channel=FaceToFake // J’adore starring Mr Bean. Fuente: https://www.youtube.com/watch?v=tDAToEnJEY8&ab_channel=crookedpixel

No quisiera terminar este artículo sin hablar de un fotógrafo de quien soy muy fan; sobre todo de sus vídeos, me refiero al fotógrafo Brais G. Ruoco que utiliza la app Reface para poner su rostro en todo tipo de películas y cuadros, creando escenas muy divertidas. Esta app para móvil utiliza la tecnología faceswap (intercambio de caras) y es una de las más descargadas en 2020 (más de 40 millones de descargas).

  

 Instagram Brais G . Ruoco. Fuente: https://www.instagram.com/braisgrouco/                  // https://www.instagram.com/stories/highlights/17849976902355443/

Comunicación no verb-ART

Como bien se aprende al estudiar la comunicación no verbal, el mejor método para observar un lenguaje lleno de emociones es a través de una serie de frames o fotogramas seguidos, lo que se suele considerar un archivo de vídeo. Es en él donde mejor se puede crear una base de comportamiento para estudiar a la persona y crear patrones, ya que solo con una imagen no podemos llegar a una conclusión congruente. Algo que ocurre de manera totalmente diferente en el día a día de nuestra comunicación diaria visual mediante la gran cantidad de medios digitales de los que disponemos. La vida se rige en frames buscados o encontrados que inconscientemente nos puede provocar reacciones adversas o positivas hacia una situación, emoción, pensamiento crítico, político…

Que nos atraigan o disgusten ciertas imágenes, como puede ser en disciplinas como la pintura , el cine, la fotografía entre otros, es un lenguaje también muy estudiado. En el arte de la imagen existen también clases de ángulos o planos que se usan para dar más importancia a un sujeto o resaltar las características de éste o hacerlo vulnerable. Se utiliza tanto en positivo como negativo. Se expresan esa serie de emociones que nos hacen mella y que hacen que nos creemos una opinión rápida sobre un tema nada más verlas. Y todo dependerá de la influencia al hacer la toma: la opinión del creador, del que realiza el encargo y hacia el público al que está dirigido.

La comunicación no verbal que transmitimos y que se nos transmite enriqueciendo una conversación, analizando un comportamiento en vivo no tiene igual. Una expresión no se puede copiar, siempre es única en cada momento. Este excelente trabajo de Sandro Miller, junto a John Malkovich, nos demuestra cómo no se puede.

Para poder explicar todo lo que he mencionado anteriormente, voy a relacionar 3 de las expresiones faciales básicas (alegría, tristeza y miedo), más la expresión de la grandeza o del control, con 7 tipos de ángulos y planos, en las modalidades de cine, pintura y fotografía.

John Malkovich

 

©Sandro Miller 
Fuente: https://culturainquieta.com/es/foto/item/12536-john-malkovich-posa-como-modelo-en-imagenes-famosas-de-la-historia-de-la-fotografia.html

Alegría

La expresión de la alegría está determinada por marcadores muy descifrables y es la que más fácilmente reconocemos: arrugas alrededor de los ojos (patas de gallo), mejillas elevadas, comisura de labios levantadas o enseñando dientes. En el tema de la pintura, fotografía y arte, se utiliza el ángulo frontal, o incluso el primer plano. En él, encontramos un efecto emocional, en este caso, una cierta conexión emocional. Así lo vemos en las reproducciones de Warhol, o en la portada del Joker. Ésta última nos incita a ver la película sin esperarnos todo lo acontece después y nada tiene que ver con la amable portada.

Cierto es que los retratos de pintura clásicos que observamos en museos o libros tienen un rostro serio, pero esto se debe a que, en épocas pasadas, la higiene dental era deficiente y se tenía por poco estético en los retratos. Esto sumado a que, para retratar a alguien, se tardaban horas, mientras que actualmente en dos segundos puedes tener una instantánea sonriendo. ¿Te imaginas 6 horas de posado sonriendo? Al final, la expresión no es la correcta, se va perdiendo intensidad al cansarse los músculos de la cara.

Miedo

El miedo se caracteriza por los siguientes movimientos musculares: cejas arqueadas y juntas, párpados superiores levantados y los inferiores en tensión, labios estirados hacia las orejas e incluso boca abierta. Se suele utilizar un plano cercano o primer plano para empatizar totalmente con el terror que se vive o la emoción de angustia y el nerviosismo. Así nos ocurre al ver la película “Psicosis” de Alfred Hitchcock. En la escena de “Parásitos”, además de la imagen que ya transmite tensión, hay un plano picado, que ayuda a ver el vértigo que se siente.

Escena de "Psicosis"   Escena de "Parásitos"

Escena de la película Psicosis. Alfred Hitchcock Fuente: https://historiadelcine.es/glosario-terminos-cinematograficos/tipos-planos-en-cine/  Escena de la película Parasitos de Bong Joon-ho Fuente:https://www.vix.com/es/cine/223440/parasitos-esta-llena-de-simbolismos-que-pocos-notaron-y-la-hacen-aun-mas-fabulosa

Tristeza

En el lenguaje audiovisual, esto sirve para transmitir una situación de indefensión, sumisión, inferioridad, simpatía, burla, lástima o inseguridad del sujeto filmado o fotografiado hacia el espectador. En la vida cotidiana podemos hallar muchas de estas expresiones en las campañas presidenciales, campañas de fe multitudinarias, y en las portadas de periódicos. Se busca relatar el tema en cuestión, induciendo la emoción buscada con la que te informarás sobre el tema. El plano picado es el opuesto al contrapicado, que comunica lo contrario, más relacionado con el desprecio. Aunque, a veces, el primer plano ayuda a que empaticemos con la emoción que vemos, haciéndola nuestra. Por ejemplo, Richard Avedon retrató así a Marilyn Monroe en uno de sus peores momentos.

Los movimientos musculares característicos de la emoción de tristeza son: parte interna de las cejas elevada, párpado superior caído, pérdida de enfoque y las comisuras de los labios caen ligeramente. Es una de las más difíciles de crear si no se siente la emoción, sobre todo en la región ocular (párpados y cejas).

También es muy utilizado desde hace unos años ya, en el fenómeno Selfie, la toma en picado, que genera una acentuación de los rasgos faciales: ojos más grandes, nariz más pequeña y piel más brillante. Realmente, se crea una imagen dismórfica, en la cual la emoción que se desprende es la de ternura o fragilidad.

Grandeza o control

En el lenguaje audiovisual, este plano sirve para transmitir una situación de control, poder, grandeza y seguridad. Los planos contrapicados nos colocan en una posición aparente de inferioridad, de ser súbditos, de estar admirando a un líder. De hecho, este plano era usado habitualmente en la propaganda de la época fascistas y actualmente se usa mucho en prensa, y como en el caso de Batman, para resaltar al héroe.

En conclusión, consciente o no, en todo lo que percibimos dentro de las artes existe una comunicación no verbal, que es utilizada para influir en las emociones, y que, gracias a esta ciencia de la que poco a poco va teniendo más consciencia la sociedad, podemos entender en cuanto a su base de comportamiento y lo que nos transmite nuestro interlocutor. Siempre que observemos bien.

Publicado en Revista Asenove el 8 septiembre 2020

MAGAZINES / BOOKS

El concepto de obra requiere un estudio completo de todo su contenido y forma. Es por ello que cada trabajo artístico que realizo, aún estando dentro de la crítica constructiva sobre un tema en concreto, está la importancia de un ...
Comprar / Buy

El concepto de obra requiere un estudio completo de todo su contenido y forma. Es por ello que cada trabajo artístico que realizo, aún estando dentro de la crítica constructiva sobre un tema en concreto, está la importancia de un concepto cerrado como objeto de colección.

Eñe es la primera de la serie de revistas como tal que te presento.

Está alojado en la plataforma Burlb. Sólo tienes que entrar en el enlace y realizar la compra.

Precio: 14,12€

Tamaño: 22×28 cm

N.º de páginas: 20

Idioma: Español.

Revista impresa en papel impresión: Fine Art

Link:  https://www.blurb.es/b/10569650-e-e

Comprar / Buy.

Formulario de compra. Serie copias numeradas.

ES / EN

Todas las fotografías de esta página están disponibles para la venta.  Las imágenes se imprimen en un laboratorio de impresión profesional en papel blanco con base de algodón llamado FineArt Hahnemühle Photo Rag®, 308 g/m². Las dimensiones indican el tamaño de la imagen. Cada impresión incluye un pequeño borde blanco alrededor de la imagen para permitir un fácil enmarcado. Si desea otras dimensiones de impresión, no dude en ponerte en contacto conmigo.

Los derechos de difusión, reproducción, representación y explotación de las imágenes siguen siendo propiedad de su autor, la venta de las copias originales sólo es posible en caso de uso privado y con exclusión de cualquier otro.

Cómo pedir una copia:

1/ Usted me envía un e-mail especificando la imagen que desea pedir en el formulario que se encuentra en esta misma página o al correo info@anajimenezphoto.com indicando la referencia, el tamaño, la cantidad de impresiones y sus datos personales para poder tramitar el pedido.

2/ Al recibir el email, me pondré en contacto con usted para concretar el método de pago y de entrega (envío por correo postal o en persona).

Tiempo de entrega:

Entre 1 y 7 días. Dependiendo el método de entrega que se haya pactado.

Modos de pago:

El modo de pago será a través de Paypal o transferencia. Los detalles y datos se entregan al recibir el email de confirmación de encargo. Una vez realizado el pago, comienza el proceso de impresión y envío. Todos los pedidos dentro de la Unión Europea (UE) están sujetos al impuesto sobre el valor añadido de la Unión Europea (IVA de la UE). 

El envío por correo tiene un coste extra de 10€, con seguimiento de paquete a través de una código, no incluidos en el precio de la obra. Este precio es igual para España y el resto de Europa.

Gracias

Formulario de compra / Purchase form :

EN

All photographs on this page are available for sale.  The images are printed in a professional printing lab on Hahnemühle FineArt paper Photo Rag® 308 g/m², printed on white cotton-based paper. The dimensions shown indicate the image size. Each print includes a small white border around the image to allow for easy framing.If you would like other dimensions of the print, please do not hesitate to contact me.

The rights of diffusion, reproduction, representation and exploitation of the images remain the property of their author, the sale of original copies is only possible in case of private use and to the exclusion of any other.

How to order a copy:

1/ You send me an e-mail specifying the image you wish to order in the form on this page or to info@anajimenezphoto.com indicating the reference, size, quantity of prints and your personal details in order to process the order.

2/ Upon receipt of the email, I will contact you to specify the method of payment and delivery (mail or in person).

Delivery time:

Between 1 and 7 days. Depending on the method of delivery that has been agreed.

Methods of payment:

The method of payment will be through Paypal or transfer. The details and data are delivered upon receipt of the order confirmation email. Once the payment is made, the printing and shipping process begins. All orders within the European Union (EU) are subject to European Union Value Added Tax (EU VAT).

Shipping by mail has an extra cost of 10 €,with package tracking through a code, not included in the price of the artwork. This price is the same for Spain and the rest of Europe.

 Fill in the purchase form to place an order

Thanks

CA EN ES