Diversity in Faces per promuovere l'imparzialità dell’AI nel riconoscimento facciale

di John R. Smith



Molti dei progressi fatti nel campo dell'Intelligenza Artificiale hanno consentito notevoli passi avanti affinchè i computer potessero essere utilizzati per mansioni sempre più sofisticate. Ad esempio tradurre testi da una lingua all'altra per superare gli ostacoli di comunicazione tra le diverse culture, migliorare complesse transazioni uomo-macchina e riconoscere automaticamente contenuti video per consentirci una maggiore sicurezza.

Una buona parte della potenza dell'AI oggi deriva dall'uso del deep learning che utilizza quantità di dati crescenti. Tuttavia le potenzialità di queste tecnologie potrebbero avere anche un punto debole. I sistemi AI, infatti, imparano quanto viene loro insegnato e se non vengono istruiti per mezzo di data set robusti e diversificati, accuratezza e precisione potrebbero essere a rischio. Per questo motivo la comunità di ricerca tutta ha la necessità di riflettere attentamente su quali dati vengono usati per la formazione dei sistemi di AI. Come IBM ci impegnamo a sviluppare sistemi in che aiutino ad ottenere risposte più eque.

La sfida nell’istruzione dei sistemi di AI si manifesta in modo molto evidente e profondo nel caso della tecnologia di riconoscimento facciale. Ad oggi può essere molto difficile riuscire a creare sistemi di riconoscimento facciale in grado di soddisfare aspettative di equità. Il cuore del problema non riguarda la tecnologia di per sé, ma come i sistemi di riconoscimento facciale basati sull'AI sono istruiti. Affinché funzionino correttamente e i risultati siano sempre più precisi, i dati della formazione devono essere diversificati e devono potere offrire un'ampia copertura. Per esempio, i data set devono essere sufficientemente vasti da permettere alla tecnologia di apprendere come i volti si diversificano per riconoscere attentamente tali differenze nelle più svariate situazioni. Le immagini devono riflettere la distribuzione delle caratteristiche facciali che vediamo nel mondo.

In che modo misuriamo e garantiamo la diversità dei volti umani? Da un lato riconosciamo facilmente le diversità facciali in base a età, genere e colore della pelle e comprendiamo che i diversi volti possono differire nell'ambito di alcuni di questi parametri. Gran parte dell'attenzione rivolta alla tecnologia del riconoscimento facciale ha riguardato il livello di performance raggiunto usando questi attributi. Tuttavia, come emerge da precedenti studi, questi attributi rappresentano solamente un tassello del puzzle e non sono in grado di caratterizzare interamente l'ampia diversità dei volti umani. Sono importanti anche dimensioni come la simmetria e il contrasto facciale (luminosità), la posa assunta dal volto, la lunghezza o larghezza delle varie parti del viso (occhi, naso, fronte, ecc.).

IBM Research ha pubblicato un nuovo ampio data set chiamato Diversity in Faces (DiF) per potenziare lo studio di precisione e l’accuratezza nell'ambito della tecnologia del riconoscimento facciale. Primo nel suo genere a disposizione di tutta la comunità di ricerca, DiF fornisce un insieme di annotazioni pari a un milione di immagini facciali umane. Utilizzando immagini disponibili a livello pubblico dal data set YFCC-100M Creative Commons, sono stati catalogati i volti utilizzando dieci schemi di codifica ben consolidati e indipendenti ricavati dalla letteratura scientifica [1-10]. Gli schemi di codifica includono principalmente misure oggettive dei volti umani, come caratteristiche craniofacciali (ad es. lunghezza della testa, del naso, altezza della fronte), ma anche annotazioni soggettive come previsioni relative all’età e al genere tipiche dell’uomo. Riteniamo che questo schema di codifica potrà accelerare lo studio della diversità per i sistemi di riconoscimento facciale basati sull'intelligenza artificiale e garantire maggiore precisione e accuratezza. L'attuale pubblicazione rappresenta semplicemente il primo passo in questa direzione.

Il data set DiF e i suoi 10 schemi di codifica possono offrire un punto di partenza per i ricercatori che stanno studiando la tecnologia del riconoscimento facciale. I 10 metodi di codifica facciale includono parametri come le misure craniofacciali sopra indicate, i rapporti facciali (simmetria), gli attributi visivi (età, genere), la posa e la risoluzione, ecc. Gli schemi applicati trovano un consolidato riscontro nella letteratura scientifica, fornendo un fondamento valido alla conoscenza collettiva.

La nostra analisi iniziale ha mostrato che il data set DiF fornisce una distribuzione più bilanciata e una copertura più vasta di immagini facciali rispetto ai precedenti data set. Inoltre, le informazioni ottenute dall'analisi statistica dei 10 schemi di codifica iniziali di DiF hanno approfondito la nostra comprensione di ciò che è importante per la caratterizzazione dei volti umani e ci hanno permesso di proseguire la ricerca per migliorare la tecnologia.

Il data set è oggi a disposizione della comunità di ricerca su richiesta, il nostro obiettivo è quello di potenziare la ricerca collettiva e di contribuire alla creazione di sistemi AI più equi.
Riteniamo però di non potere agire da soli. Con questa pubblicazione esortiamo altri a contribuire alla crescita della ricerca per portare avanti questo importante programma scientifico.

30 gennaio 2019

John R. Smith, IBM Fellow



Bibliografia:
[1] L. G. Farkas, Anthropometry of the Head and Face, Raven Press, 1994.
[2] A. Chardon I. Cretois and C. Hourseau, “Skin colour typology and suntanning pathways,” International Journal of Cosmetic Science , Aug. 1991, 13(4), pp. 191-208.
[3] Y. Liu, K. L. Schmidt, J. F. Cohn, S. Mitra, “Facial asymmetry quantification for expression invariant human identification,” Computer Vision and Image Understanding, Volume 91, Issues 1–2, July–August 2003, pp. 138-159.
[4] L. G. Farkas, et. al, “International anthropometric study of facial morphology in various ethnic groups/races,” J Craniofac Surg. 2005 Jul;16(4), pp. 615-46.
[5] N. Ramanathan, R. Chellappa, “Modeling Age Progression in Young Faces,”Intl. Conf. on Computer Vision and Pattern Recognition (CVPR), 2006, pp. 387-394.
[6] A. C. Little, B. C. Jones, L. M. DeBruine, “Facial attractiveness: evolutionary based research,” Philos Trans R Soc Lond B Biol Sci. 2011 Jun 12;366(1571), pp. 1638-59.
[7] X. Zhu, D. Ramanan, “Face Detection, Pose Estimation, and Landmark Localization in the Wild,” Intl. Conf. on Computer Vision and Pattern Recognition (CVPR), 2012, pp. 2879-2886. [8] A. Porcheron, E. Mauger, R. Russell, “Aspects of Facial Contrast Decrease with Age and Are Cues for Age Perception,” PLoS One 8(3), Mar. 6, 2013
[9] Z. Liu, P. Luo, X. Wang, X. Tang, “Deep Learning Face Attributes in the Wild”, Intl. Conf. on Computer Vision (ICCV), 2015, pp. 3730-3738.
[10] R. Rothe, R. Timofte, L. Van Gool, “Deep Expectation of Real and Apparent Age from a Single Image Without Facial Landmarks”, Intl. Journal of Computer Vision, Volume 126 Issue 2-4, April 2018, pp. 144-157.

Visit us on LinkedIn