El sesgo sistémico en los modelos de datos es una cuestión de derechos humanos


Una economía política basada en datos puede ser una experiencia bastante deshumanizante, ya que los modelos sociales basados en datos no son inmunes a los errores, sesgos o conclusiones discriminatorias sobre la interacción humana. Estos sesgos y conclusiones engañosas pueden tener consecuencias radicales en la vida real de las personas y comunidades vulnerables. Es por eso que los académicos usan términos drásticos como el “colonialismo de datos” para describir la manera en que una lógica económica basada en la tecnología considera los valores, normas y tradiciones humanas como obstáculos para hacer negocios, en lugar de tratarlos con el respeto que merecen.

Una crítica fundamental que hacen muchos grupos de derechos humanos a las empresas de tecnología es que no colaboran con los titulares de derechos afectados por los errores de datos y los puntos ciegos culturales. La falta de colaboración tiene profundas repercusiones, incluido el sesgo sistémico en los modelos de datos. Este sesgo es difícil de afrontar y superar porque los algoritmos de aprendizaje automático suelen entrenarse utilizando conjuntos de datos históricos que pueden reproducir el sesgo racista y de género en la sociedad. Este proceso refuerza los sesgos históricos y da lugar a la discriminación contra grupos vulnerables que han sido sistemáticamente subrepresentados o evaluados de manera desfavorable.

Creencias sociales sesgadas y datos no representativos basados en modelos

La brecha de género en cuestión de datos incide en una multitud de contextos, entre ellos, las políticas gubernamentales, la investigación médica, la tecnología, los lugares de trabajo, la planificación urbana y los medios de comunicación. Dado que los conjuntos de datos se basan por lo general en características masculinas, hay puntos ciegos importantes con respecto a la representación femenina. Por ejemplo, en el ámbito laboral, las medidas de salud y seguridad ocupacional suelen diseñarse con base en datos centrados en los hombres, descuidando la fisonomía y las medidas físicas consecuentes para la protección de las mujeres. De manera similar, los algoritmos de aprendizaje automático están entrenados para clasificar a las personas en categorías (binarias) claras, como “masculino/femenino”, pero cabe preguntarse cómo se pueden respetar los derechos de las personas cuya fisonomía o identidad no se ajusta a estas categorías fijas cuando son literalmente invisibles para la tecnología.

Un ejemplo clásico: si una empresa usa los datos personales de aspirantes a un empleo con fines de reclutamiento, es posible que los adquiera de intermediarios sin que el sujeto de dicha información haya dado su consentimiento. Con base en esos datos, un algoritmo podría decidir que una persona de color o de sexo femenino podría estar menos capacitada para el puesto. Esto podría deberse a un sesgo algorítmico, el cual puede ocurrir cuando un algoritmo fue entrenado con datos sesgados de, por ejemplo, una empresa de tecnología que anteriormente contrató personal en su mayoría masculino y blanco. Aprendiendo de estos datos históricos de entrenamiento, el algoritmo concluiría que ser hombre y blanco es el perfil de un aspirante adecuado, lo que daría lugar a la discriminación contra aspirantes de color y de sexo femenino. La carga de la prueba recae sobre los aspirantes, quienes tienen muy pocas posibilidades de obtener la información para probar que el modelo de datos de contratación estaba sesgado.

El universalismo de los datos no es la cura

La posición supuesta por defecto al implementar modelos de negocio basados en datos suele reflejar un “universalismo de los datos” que no tiene en cuenta el hecho de que los derechos humanos están integrados en una amplia variedad de contextos sociales, culturales, económicos y políticos. Ignorar la importancia del contexto puede dar lugar a efectos negativos en cascada sobre los individuos afectados, sobre todo en el Sur global. No es posible “curar” de este problema a los modelos de datos mediante la simple eliminación de las cuestiones “estadísticas” en torno al sesgo sin tomar en cuenta el contexto de su uso.

Por ejemplo, si bien el trabajo basado en plataformas puede crear nuevas oportunidades en el Sur global y ampliar la participación de algunos actores, también podría reforzar las jerarquías socioculturales existentes, como en el caso de los sistemas de castas en la India. Así, la gobernanza algorítmica podría consagrar la precariedad para los trabajadores informales, a menos que haya una consideración localizada de las necesidades históricas y laborales exclusivas de las geografías del Sur global, en lugar de una adopción ciega de los futuros “universales” (es decir, occidentales) de la IA.

No es posible “curar” de este problema a los modelos de datos mediante la simple eliminación de las cuestiones “estadísticas” en torno al sesgo sin tomar en cuenta el contexto de su uso.

Además de lo anterior, el tratamiento universalista de las posibles víctimas mediante la categorización de los abusos resulta problemático. A menudo, las denuncias de abusos solo se pueden presentar mediante un sistema que se ajusta al sistema de respuestas computarizado propagado por las empresas de tecnología. Esta práctica puede ser muy engañosa en el contexto de la conducta sexual inapropiada como un “sistema construido de definición y clasificación, que no logra capturar toda la variedad de experiencias de conducta sexual inapropiada de los usuarios”, como sostienen Margie Cheesman y Kate Sim.

Se necesitan modelos para contextos específicos

El examen de los modelos de datos desde una perspectiva de derechos humanos en contextos específicos contribuirá de manera cada vez más decisiva a establecer los límites del capitalismo de vigilancia y a hacer posible que miles de millones de personas y sus respectivas comunidades vivan una vida digna a través de los medios digitales. A la hora de responder a estos desafíos en la práctica, esto implica que los abogados de derechos humanos, los encargados de formular políticas, los científicos sociales, los informáticos y los ingenieros deben trabajar juntos para cuestionar de forma crítica los puntos ciegos de la IA en la conducta empresarial basada en datos (p. ej., si los datos son representativos para toda la población, si se respeta la privacidad a lo largo del ciclo de vida tecnológico, si los resultados son explicables, si no se discrimina a las personas de forma indirecta, como en función de un grupo, si las personas afectadas tienen derecho a impugnar, etc.). Se pueden encontrar algunos requisitos fundamentales para superar estos sesgos inherentes en el Feminist Data Manifest-No (Manifiest-no feminista sobre datos) o la declaración de Toronto, entre muchas otras declaraciones. Estos documentos pueden servir para iniciar la conversación sobre cómo adaptar los procesos de diligencia debida en materia de derechos humanos a los modelos de negocio basados en datos.

Nuestro estudio sobre las empresas y los derechos humanos en la economía de datos contiene sugerencias adicionales sobre cómo usar la diligencia debida en materia de derechos humanos para hacer frente al impacto en los derechos humanos de la conducta empresarial basada en datos. Las tres principales recomendaciones son:

  1. Las empresas necesitan un enfoque de ciclo de vida para captar los problemas emergentes y sistémicos de derechos humanos, a fin de identificar, afrontar y erradicar las distorsiones sistemáticas que tienen efectos negativos sobre los derechos humanos en contextos centrados en los datos. Es preciso superar el “universalismo de los datos” y desarrollar conceptos que tengan en cuenta la integración local, con base en una diligencia debida sólida en materia de derechos humanos.
  2. La sociedad civil necesita desarrollar nuevos métodos para hacer que las empresas rindan cuentas por las violaciones “digitales” de los derechos humanos. Este punto está muy relacionado con el debate de política pública sobre el deber de los Estados de proteger los derechos humanos y, por lo tanto, también los derechos digitales.
  3. Los encargados de formular políticas deben tomar en cuenta los derechos digitales en sus propuestas legislativas sobre la diligencia debida en materia de derechos humanos de las empresas y volver a analizar si la protección existente todavía puede abarcar las cuestiones digitales que van surgiendo. Los legisladores deben fortalecer los derechos digitales en los próximos años y vincularlos estratégicamente con otros debates legislativos sobre la diligencia debida en materia de derechos humanos.

Como describimos antes, es necesario hacer preguntas que aborden las implicaciones políticas, económicas y culturales más amplias de la tecnología y los derechos humanos, y no solo sus aspectos técnicos.