Oportunidades de un Machine Learning más justo

Las oportunidades de un Machine Learning más justo

La equidad en los modelos de analítica avanzada

En 2014, la Administración Obama ya citaba la enorme necesidad de evitar la discriminación en decisiones automatizadas sobre grandes conjuntos de información, citando que tal discriminación podría ser el resultado inadvertido de “la forma en que se estructuran y utilizan las grandes tecnologías de datos”. En el año 2016, otro informe de la Casa Blanca llamado “Big Data: A report on algorithmic systems, opportunity, and civil rights” hace énfasis en el problema de la igualdad de oportunidades en el diseño de modelos de Analítica Avanzada aplicados a mercados tan sensibles como el crédito al consumo.

Es fácil garantizar la equidad, pero…

A priori, podría parecer un tema con cierta complejidad; pero, en realidad, es llamar al normal principio de justicia en la toma de decisiones sobre un procedimiento (concesión de crédito, por ejemplo) que evite una equivocada valoración de nuestra solicitud basada en el comportamiento de otros; y, más específicamente en datos protegidos como pueden ser la edad, el sexo, la religión, la raza o nuestra orientación política.

No es un tema complejo en cuanto, hoy en día, la democratización en el acceso a la tecnología y a los algoritmos que soportan los procesos automatizados de decisión nos permiten corregir en etapas tempranas de la implantación los sesgos provenientes de los datos protegidos. En todo caso, es un procedimiento de aseguramiento de la calidad basado en una ingeniería de datos cuidadosa, una matemática rigurosa y un toque de reflexión.

Pero, exactamente, ¿cuál es el problema de la equidad en los modelos de analítica avanzada?

Fundamentalmente, hay dos principios que debería cuidar un buen procedimiento de imparcialidad/equidad (fairness, en inglés) en la construcción de un modelo de Analítica Avanzada:

  • La paridad demográfica, o que la variable objetivo del modelo no esté correlacionada con un atributo protegido (por ejemplo, raza, género o edad).
  • La igualdad de oportunidades, que requiere que las personas que califican para un buen resultado obtengan ese resultado con la misma probabilidad, independientemente de si son miembros del grupo protegido.

El desafío es balancear estos dos principios sin que esto afecte a la calidad de las predicciones. Algunos tips que pueden ayudar a gestionar este equilibrio son, en primer lugar, la valoración de la distribución del scoring versus la captura de la clase objetivo por cada población protegida. Las curvas resultantes mostrarían un posible sesgo que alertaría para una recalibración del modelo con una muestra diferente para subsanar la posible disparidad.

La igualdad de oportunidades es quizás más laboriosa de controlar, ya que obliga a utilizar una técnica matemática más rigurosa basada en la probabilidad condicional de los distintos grupos protegidos hacia la variable objetivo. Es un proceso complejo de definición ya que combina la inferencia bayesiana con un modelo de optimización matemática que controla la paridad de oportunidades. En una próxima entrega profundizaré en este rigor matemático ya que merece un detalle más extenso para los posibles casos de aprendizaje automático en que se aplica.

Para una empresa ¿es factible aplicar estos principios?

Aplicar estos principios no es caro, ni difícil, es cuestión de metodología. Los beneficios, a priori, cualitativos permiten de inicio cumplir las leyes de privacidad europeas especificadas en la GDPR (General Data Protection Regulation) en lo que respecta al artículo 5 que cita el procesamiento de datos personales en la fase de exploración del modelo, al artículo 22 sobre el derecho de los individuos a no ser sujetos solamente de una decisión automatizada que condicione su vida cotidiana, a los artículos 13 y 15 que refieren al derecho a la explicación de las decisiones basadas en un modelo de algoritmia avanzada. Y, cuantitativamente, este contexto presenta una excelente oportunidad de negocio ya que eliminar los sesgos en las decisiones del modelo permite mejorar la calidad de las predicciones, al obligar a la recalibración constante del modelo y la monitorización de sus inputs.

Leave a Reply

Your email address will not be published.

Share This

Copy Link to Clipboard

Copy