Algoritmos de aprendizaje automático y sus sesgos

Pedro Luis Martín Olivares - Algoritmos de aprendizaje automático y sus sesgos

Pedro Luis Martín Olivares – Dejando a un lado los mitos, la inteligencia artificial es tan propensa a los prejuicios como el ser humano. La buena noticia es que los sesgos en los algoritmos también se pueden diagnosticar y tratar.

Las empresas se están moviendo rápidamente para aplicar el aprendizaje automático a la toma de decisiones empresariales. Nuevos programas se lanzan constantemente, configurando algoritmos complejos para trabajar con abundante data actualizada con frecuencia. La velocidad a la que esto sucede da fe del atractivo de la tecnología, pero la falta de experiencia crea riesgos reales. El sesgo algorítmico es uno de los mayores riesgos porque compromete el verdadero propósito del aprendizaje automático. Este defecto que a menudo se pasa por alto puede desencadenar errores costosos y, si no se controla, puede llevar a proyectos y organizaciones en direcciones totalmente equivocadas. Los esfuerzos efectivos para enfrentar este problema desde el principio se justifican, permitiendo que el verdadero potencial del aprendizaje automático se realice de la manera más eficiente.

El aprendizaje automático ha estado en uso científico durante más de medio siglo como un término que describe el reconocimiento de patrones programables. El concepto es aún más antiguo, ya que fue expresado por matemáticos pioneros a principios del siglo XIX. Se ha fortalecido en las últimas dos décadas, con el advenimiento de poderosas computadoras, Internet y la digitalización masiva de información. En el dominio de la inteligencia artificial, el aprendizaje automático se refiere cada vez más a la toma de decisiones asistida por computadora, basada en algoritmos estadísticos que generan conocimientos basados ​​en datos.

Entre sus usos más visibles está el modelado predictivo. Esto tiene aplicaciones comerciales amplias y familiares, desde recomendaciones automáticas de clientes hasta procesos de aprobación de crédito. El aprendizaje automático magnifica el poder de los modelos predictivos a través de una gran fuerza computacional. Para crear un algoritmo estadístico funcional por medio de una regresión logística, por ejemplo, las variables faltantes deben ser reemplazadas por valores numéricos asumidos, un proceso llamado imputación. Los algoritmos de aprendizaje automático a menudo se construyen para interpretar «faltantes» como un valor posible y luego proceden a desarrollar la mejor predicción para los casos en los que falta el valor. El aprendizaje automático es capaz de administrar grandes cantidades de datos y detectar muchos patrones más complejos dentro de ellos, a menudo logrando un poder predictivo superior.

En la calificación de crédito, por ejemplo, generalmente se determina que los clientes con una larga historia de mantener préstamos sin morosidad son de bajo riesgo. Pero, ¿qué sucede si las hipotecas que estos clientes han estado manteniendo fueron durante años respaldadas por importantes beneficios fiscales que expiran? Un aumento en los valores predeterminados puede estar a la vista, no contabilizado en el modelo de riesgo estadístico de la institución prestamista. Con el acceso a los datos correctos y la orientación de los expertos en la materia, los modelos predictivos de aprendizaje automático podrían encontrar los patrones ocultos en los datos y corregir dichos picos.

En los procesos comerciales automatizados, los algoritmos de aprendizaje automático toman decisiones más rápido que los responsables de la toma de decisiones humanas y a una fracción del costo. El aprendizaje automático también promete mejorar la calidad de la decisión, debido a la supuesta ausencia de sesgos humanos. Los tomadores de decisiones humanos podrían, por ejemplo, ser propensos a dar un peso extra a sus experiencias personales. Esta es una forma de sesgo conocido como anclaje, uno de los muchos que pueden afectar las decisiones comerciales. El sesgo de disponibilidad es otro. Este es un atajo mental, heurístico, mediante el cual las personas hacen suposiciones familiares cuando se enfrentan con decisiones. Las suposiciones habrán servido adecuadamente en el pasado, pero podrían ser inmerecidas en situaciones nuevas. El sesgo de confirmación es la tendencia a seleccionar evidencia que respalda las creencias preconcebidas, mientras que el sesgo de aversión a la pérdida impone un conservadurismo indebido en los procesos de toma de decisiones.

El aprendizaje automático se está utilizando en muchas decisiones con implicaciones comerciales, como la aprobación de préstamos en la banca y con implicaciones personales, como las decisiones de diagnóstico en las salas de emergencia de los hospitales. Los beneficios de eliminar los sesgos perjudiciales de tales decisiones son obvios y altamente deseables, ya sea que se presenten en forma financiera, médica o de alguna otra forma.

Algunos aprendizajes automáticos están diseñados para emular la mecánica del cerebro humano, como el aprendizaje profundo, con sus redes neuronales artificiales. Si los sesgos afectan la inteligencia humana, entonces ¿qué ocurre con la inteligencia artificial? ¿Las máquinas son parciales? La respuesta, por supuesto, es sí, por algunas razones básicas. En primer lugar, los algoritmos de aprendizaje automático son propensos a incorporar los sesgos de sus creadores humanos. Algoritmos pueden formalizar parámetros de sesgos creados por las fuerzas de ventas o los oficiales de crédito, por ejemplo.

Cuando el aprendizaje automático predice los resultados conductuales, la confianza necesaria en los criterios históricos reforzará los prejuicios pasados, incluido el sesgo de estabilidad. Esta es la tendencia a descartar la posibilidad de un cambio significativo, por ejemplo, a través de los efectos de sustitución creados por la innovación. La severidad de este sesgo se puede magnificar mediante algoritmos de aprendizaje automático que deben suponer que las cosas continuarán más o menos como antes para poder operar.

Otro factor básico que genera un sesgo es la información incompleta. Cada algoritmo de aprendizaje automático opera completamente dentro del mundo definido por los datos que se utilizaron para calibrarlo. Las limitaciones en el conjunto de datos sesgarán los resultados, a veces severamente.

Comportamiento predictivo: «El ganador se lleva todo» El aprendizaje automático puede perpetuar e incluso amplificar los sesgos de comportamiento. Por diseño, un sitio de medios sociales que filtra noticias basadas en las preferencias del usuario refuerza el sesgo de confirmación natural en los lectores. El sitio puede incluso prevenir sistemáticamente que las perspectivas sean desafiadas con evidencia contradictoria. La profecía auto cumplida es un subproducto relacionado de los algoritmos. Las compañías financieramente sólidas pueden entrar en conflicto con los algoritmos de calificación de los bancos y encontrarse sin acceso al capital de trabajo. Si no pueden convencer a los oficiales de crédito con lógica factual, una crisis de liquidez podría acabar con toda una clase de negocios. Estos ejemplos revelan un cierto resultado de «ganador toma todo» que afecta a los algoritmos de aprendizaje automático diseñados para replicar la toma de decisiones humanas.

El aprendizaje de máquina puede revelar información valiosa en conjuntos de datos complejos, pero las anomalías y errores de datos pueden desviar los algoritmos. Del mismo modo que un accidente infantil traumático puede causar una distorsión conductual duradera en los adultos, también los eventos no representativos pueden causar que los algoritmos de aprendizaje automático se desvíen del curso. Si una serie de eventos climáticos extraordinarios o acciones fraudulentas desencadenan picos en las tasas de incumplimiento, por ejemplo, las tarjetas de puntaje crediticio podrían marcar una región como «de alto riesgo» a pesar de la ausencia de una causa estructural permanente. En tales casos, los algoritmos inadecuados perpetuarán el sesgo a menos que se tomen medidas correctivas.

Las compañías que buscan superar los sesgos con procesos estadísticos de toma de decisiones pueden encontrar que los científicos de datos que supervisan sus algoritmos de aprendizaje automático están sujetos a estos mismos sesgos. Los sesgos de estabilidad, por ejemplo, pueden hacer que los científicos de datos prefieran los mismos datos que los responsables de la toma de decisiones humanas han utilizado para predecir los resultados. Mientras tanto, las presiones de costo y tiempo podrían disuadirlos de recopilar otros tipos de datos que alberguen los verdaderos impulsores de los resultados a predecir.

El problema del sesgo de estabilidad: La tendencia a la inercia en un entorno incierto, es en realidad un problema importante para algoritmos de aprendizaje automático. Los modelos predictivos operan en patrones detectados en datos históricos. Si los mismos patrones dejan de existir, entonces el modelo sería similar a un viejo horario ferroviario, valioso para los historiadores, pero no útil para viajar aquí y ahora. Es frustrantemente difícil dar forma a los algoritmos de aprendizaje automático para reconocer un patrón que no está presente en los datos, incluso uno que los analistas humanos saben que es probable que se manifieste en algún momento. Para cerrar la brecha entre la evidencia disponible y la realidad evidente, se pueden crear puntos de datos sintéticos. Sin embargo, dado que los algoritmos de aprendizaje automático intentan capturar patrones en un nivel muy detallado, cada atributo de cada punto de datos sintéticos debería elaborarse con sumo cuidado.

En 2007, un economista con un indicio de que los valores predeterminados de las tarjetas de crédito y los precios de las viviendas estaban vinculados no habría podido construir un modelo predictivo que muestre esta relación, ya que aún no había aparecido en los datos. La relación fue revelada, precipitadamente, solo cuando golpeó la crisis financiera y los precios de la vivienda comenzaron a caer. Si se permiten ciertas limitaciones de datos para regular las opciones de modelado, pueden surgir algoritmos defectuosos. Los modelos no podrán reconocer cambios obviamente reales pero inesperados. Algunos modelos de hipotecas de los Estados Unidos diseñados antes de la crisis financiera no podían aceptar matemáticamente los cambios negativos en los precios de las viviendas. Hasta que aparecieron las tasas de interés negativas en el mundo real, no fueron reconocidas estadísticamente y ningún algoritmo de aprendizaje automático en el mundo hubiese podido haber predicho su aparición.

Sabías que puedes leer este artículo en Telegram

Pedro Luis Martín Olivares
Economía y Finanzas

Sé el primero en comentar en «Algoritmos de aprendizaje automático y sus sesgos»

Deja un comentario

Tu dirección de correo electrónico no será publicada.


*


*