4  Datos Abiertos CINDAI

En esta sección se describe el repositorio de Datos Abiertos de CINDAI. El propósito de este repositorio es poner a disposición de la comunidad datos relevantes sobre investigación en la Facultad de Ciencias Sociales de manera accesible y transparantes, respetando los datos personales de los investigadores. Así, a diferencia de los datos descritos en Capítulo 2, este repositorio se encuentra abierto para su descarga y utilización, bajo ciertas condiciones de uso.

4.1 Base de datos anonimizada

Contiene la misma información que la Base Integrada, con la diferencia de que se resguarda el RUT de los investigadores. La construcción y actualización de estos datos sigue el mismo flujo que la base sin anonimizar.

Especificamente, el script anonimizacion.R aplica funciones para anonimizar la base y exportarla automáticamente a Datos Abiertos CINDAI. Es importante que para que este procedimiento funcione, es necesario tener clonado locamente tanto el repositorio base-datos-dip como [datos-abiertos-dip]((https://github.com/facso-investigacion/datos-abiertos-dip).

Para la anonimización se utilizó la función xxhash32del paquete digest(Eddelbuettel, 2024). El resultado es que cada RUT se transformó en una cadena de 32-bits (o 8 caracteres) único y no reversible.

Además, para facilitar la identificación por Departamentos, se creo un ID númerico de 5 caracteres, donde los dos primeros representan el departamento al que está adscrito el académico, y los tres últimos son un correlativo. Los Departamentos fueron asignados como sigue:

Departamento Código
Postgrado 11
Educación 12
Antropología 21
Trabajo Social 22
Sociología 31
Psicología 41

La siguiente tabla ejemplifica el proceso de anonimización realizado.

Proceso de anonimización datos de investigadores
rut_investigador rut_hash id
0029311803 dd715a7b 11001
0053990622 5778e5ce 11002
0048548652 ee9c94b7 11003
0117376184 33f09bb2 11004
0156399981 b646c3f2 11005
0141201395 73b38133 11006
4865693 315b3e81 12001
0021327255 66e2a0e2 12002
0047489253 b5e8aa87 12003
0085274600 a7814360 12004

4.2 Libros de Códigos

Puede revisar el Libro de Código de las bases anonimizadas aquí

4.3 Licencia

Las bases de datos están protegidas por Creative Commons Attribution-NonCommercial 4.0 International Public License (CC BY-NC 4.0). CC BY-NC 4.0 es una licencia abierta que permite compartir y adaptar los datos bajos las siguientes condiciones:

Atribución: Se debe dar crédito adecuado a la Dirección de Investigación y Publicaciones, de la siguiente forma. [agregar cita]

No comercial: No se puede usar el material con fines comercial, incluyendo usos directos e inderictos cuyo objetivo principal sea obtener un beneficio económico.