ChatGPT crea los datos con las relaciones estadísticas que quieras

Quiero que generes una base de datos con 3 variables y 1200 casos: la primera variable es sexo y sus 2 posibles categorías son 1-hombre, 2-mujer. La segunda variable es Tolerancia con la prostitución que es una variable de 10 posibles categorías, es una escala cuyos valores van de 1-nunca a 10-siempre. La tercera variable es nivel educativo que tiene 4 categorías: 1-primarios, 2-secundarios, 3-post-secundarios, y 4-terciarios. Simula una respuesta de las posibles para cada uno de los 1200 casos. Hazlo de tal manera que al hacer un análisis de ANOVA de un factor, haya relación estadísticamente significativa y fuerte entre las variables sexo y tolerancia con la prostitución: que las mujeres tengan una media más alta que los hombres en tolerancia con la prostitución. También simula las respuestas para que no haya relación significativa entre las variables tolerancia con la prostitución y nivel educativo. Entrégame la base de datos en Excel

Me ha contestado generando una base de datos en Excel con datos simulados. En este enlace puedes descargar la base de datos generada por ChatGPT: descargar base de datos simulados.

Para comprobar que ChatGPT ha creado la base de datos con las relaciones significativas entre variables que solicité, he realizado análisis de ANOVA en el software estadístico SPSS. Como puedes ver en los resultados lo ha hecho tal como se lo pedí. Ha creado una relación significativa y fuerte entre sexo y tolerancia de la prostitución, en la que las mujeres tienen un promedio más alto en tolerancia con la prostitución (7,26) que los hombres (5,63).

También me ha obedecido y al generar los datos, ha hecho que no haya relación significativa entre nivel educativo y tolerancia con la prostitución. Llama la atención que, sin pedírselo, ha generados grupos (submuestras) de similar tamaño para hombre y mujer, y para cada uno de los niveles educativos.

Pedí a ChatGPT que creara una base de datos de 1200 casos (personas) ya que es el mismo tamaño de muestra usado en España para la Encuesta Mundial de Valores, y solicité que creara esas relaciones entre variables porque es totalmente al revés de la realidad. El análisis de los datos reales de la Encuesta Mundial de Valores para España indican que sí existe una relación significativa entre nivel educativo y tolerancia con la prostitución, y que los hombres son más tolerantes con la prostitución que las mujeres, como puedes ver en la imagen.

He hecho otra prueba ahora pidiéndole datos para hacer un análisis multivariante de regresión lineal múltiple. Este ha sido el prompt: Quiero que generes una base de datos con 4 variables y 1200 casos: la primera variable es sexo y sus 2 posibles categorías son 1-hombre, 2-mujer. La segunda variable es Tolerancia con la prostitución que es una variable de 10 posibles categorías, es una escala cuyos valores van de 1-nunca a 10-siempre. La tercera variable es nivel educativo que tiene 4 categorías: 1-primarios, 2-secundarios, 3-post-secundarios, y 4-terciarios. La cuarta variable es nivel de ingresos que tiene 10 posibles categorias que van de 1-muy bajos a 10-muy altos. Simula una respuesta de las posibles para cada uno de los 1200 casos. Hazlo de tal manera que al hacer un análisis de regresión lineal con la VD Tolerancia con la prostitución haya relación estadísticamente significativa con las VI sexo (las mujeres son más tolerantes que los hombres) y nivel de ingresos (a más ingresos, más tolerancia). También simula las respuestas para que no haya relación significativa entre las variables tolerancia con la prostitución y nivel educativo. Entrégame la base de datos en Excel

Aquí puedes descargar la base de datos en Excel que me generó ChatGPT. He realizado el análisis de regresión lineal múltiple (también regresión ordinal) y los resultados son tal cual como se los pedí: las personas más tolerantes con la prostitución son mujeres con altos ingresos, y la educación no influye.

La IA es capaz de crear los datos que necesites para demostrar una realidad que no existe, contraria a la real, o tal como te gustaría para tu tesis. Puede que estés pensando: qué peligro, cómo vamos a controlar esto, what the fuck. ¿Qué podemos hacer para preservar la investigación científica? No tengo respuesta para ello. Las revistas científicas han estado pidiendo a los investigadores que compartan los datos usados en los estudios para que editores o revisores puedan comprobar los análisis. Pero esta iniciativa no sirve de mucho porque la inteligencia artificial (IA) crea datos compartibles pero ficticios. Es decir, la persona que quiera engañar, podrá seguir engañando y mucho más que antes.

Nada de esto es nuevo. Ya existían herramientas de simulación, aunque quizás no al alcance de cualquiera y a tan bajo coste. Dice el filósofo Daniel Dennett que uno de los mayores peligros de la IA es que puede que llegue un momento que no confiemos en nadie. Ese momento está llegando a la investigación científica.

Escrito por Julián Cárdenas

IA para interpretar resultados estadísticos a partir de una imagen

¿Te gustaría subir una imagen de una tabla de cualquier análisis estadístico y obtener la interpretación de los resultados? ChatGPT Plus ha habilitado la posibilidad de "diseñar" GPTs a tu gusto. He creado un GPT llamado "Data Interpretation" en el que le subes una imagen de una tabla con resultados estadísticos, y ChatGPT responde comentando todos los resultados, explicándolos, interpretando los hallazgos y hasta proponiendo una acción o intervención.

Acceso a "Data Interpretation": https://chat.openai.com/g/g-dZnBLNSvQ-data-interpretation

Haces una captura de pantalla de los resultados obtenidos con SPSS, Jamovi, Stata, R o una tabla de un artículo científico, subes esa imagen a ChaGPT "Data Interpretation", y obtienes de forma detallada una interpretación de los resultados. Si quieres que la interpretación sea más concreta, debes especificar cuáles son las variables dependiente (VD) e independientes (VI), y el orden de las categorías. Por ejemplo, la VD es "tolerancia con el aborto" (1-nunca... 10-mucho) y las VI son sexo (1-hombre, 0-mujer), edad, y nivel de ingresos (1-bajos... 10-altos). ChaGPT "Data Interpretation" te preguntará por el tipo de variables (nominal, ordinal, escalar) para comprobar que usaste las variables correctas. Seguidamente "Data Interpretation" comentará e interpretará los resultados del análisis estadístico. Puedes seguir chateando para que te explique los resultados como quieras, con lenguaje sencillo, analogías, ejemplos o pidiendo más detalles. En el vídeo puedes ver un ejemplo de interpretación de regresión lineal: incluye comentario sobre la R-cuadrado, significación, betas, multicolinealidad...

El análisis estadístico de datos es imprescindible en la sociedad en la que vivimos donde cada movimiento que hacemos deja un rastro de datos. Herramientas de IA como "Data Interpretation" está facilitando hacer más accesible la interpretación de resultados estadísticos. Un cambio radical para hacer una tesis, entender análisis de datos, y mejorar las clases de cualquier asignatura. Seguimos.

Acceso a Data Interpretation: https://chat.openai.com/g/g-dZnBLNSvQ-data-interpretation

Qué es la Regresión Lineal Múltiple y cómo analizarla en 4 pasos

Regresión lineal múltiple

La regresión lineal es una técnica estadística destinada a analizar por qué pasan las cosas o cuáles son las principales explicaciones de algún fenómeno. A partir de los análisis de regresión lineal múltiple podemos:

  • identificar que variables independientes (explicativas) que explican una variable dependiente (resultado)
  • comparar y comprobar modelos explicativos
  • predecir valores de una variable, es decir, a partir de unas características predecir de forma aproximada un comportamiento o estado
regresion lineal multiple

Este tutorial enseña a analizar la regresión lineal múltiple en 4 sencillos pasos, sin complicaciones ni lenguaje sofisticado, todo directo y claro para que seamos capaces de entender investigaciones que aplican regresión lineal y ser capaces de usarla en nuestros estudios cuando queramos averiguar las explicaciones de algún fenómeno.

Sigue leyendo Qué es la Regresión Lineal Múltiple y cómo analizarla en 4 pasos

Odd ratio: qué es y cómo se interpreta

Odd, odd ratio... wtf?

Los odds y odd ratios son de esos conceptos estadísticos por los que la gente se asusta de la estadística y termina odiándola. Podríamos pasar olímpicamente de estos conceptos e ignorarlos, pero son imprescindibles para interpretar los resultados de las regresiones logísticas ya que están basados en la idea de probabilidad, y además se usan mucho en el mundo de las apuestas y las predicciones. Los odd y odd ratio son complejos de entender y explicar. Hasta hoy. En el siguiente artículo explico de forma detallada qué son, para qué sirven, por qué se usan en la regresión logística y cómo se interpretan. Empecemos paso por paso y con ejemplos claros y reales.

odd ratio interpretacion facil

Sigue leyendo Odd ratio: qué es y cómo se interpreta

Qué es ANOVA de un factor y cómo analizarla

ANOVA de un factor

ANOVA de un factor (también llamada ANOVA unifactorial o one-way ANOVA en inglés) es una técnica estadística que señala si dos variables (una independiente y otra dependiente) están relacionadas en base a si las medias de la variable dependiente son diferentes en las categorías o grupos de la variable independiente. Es decir, señala si las medias entre dos o más grupos son similares o diferentes.

como analizar ANOVA

Sigue leyendo Qué es ANOVA de un factor y cómo analizarla

Tablas de contingencia: Cómo analizarlas fácilmente

Análisis de tablas de contingencia

Las tablas de contingencia (también llamadas a veces tablas dinámicas, tablas cruzadas, tablas de control o crosstabs como se conocen en inglés) son posiblemente la técnica estadística más utilizada en análisis de datos. En este tutorial mostraré cómo se analizan las tablas de contingencia para que cada vez que nos encontremos con una en un periódico, artículo científico o informe, podamos leerla e interpretar fácilmente los resultados. Y también para que podamos hacer tablas de contingencia en SPSS y analizar sus resultados de forma muy fácil y sencilla. 

cómo hacer tablas de contingencia facilmente

Sigue leyendo Tablas de contingencia: Cómo analizarlas fácilmente

¿Quiénes son los más intolerantes con la homosexualidad?

“¿Justificaría la homosexualidad? Responda en una escala en una escala del 1 al 10, donde 1 es Nunca y 10 es Siempre". Analizamos las respuestas a esta pregunta que fue realizada en 58 países del mundo en la Encuesta Mundial de Valores entre 2010 y 2014. 

tolerancia homosexualidad

¿Cuáles son los países más intolerantes con la homosexualidad? ¿Dónde hay más variación de opiniones? ¿Qué posibles causas ayudan a explicar la intolerancia respectos al colectivo LGBT (lesbinas, gays, bisexuales y transexuales)? Para responder estas preguntas usamos la técnica de comparación de medias y desviaciones típicas. La encuesta está basada en muestras representativas, por tanto los resultados son extrapolables a la población (nivel de confianza 95%, margen de error del 2%). Veamos los resultados.

Sigue leyendo ¿Quiénes son los más intolerantes con la homosexualidad?

Qué es la regresión logística binaria y cómo analizarla en 6 pasos

Regresión logística binaria

La regresión logística es un grupo de técnicas estadísticas que tienen como objetivo comprobar hipótesis o relaciones causales cuando la variable dependiente es nominal. Es algo compleja, aunque trataremos de hacer un tutorial sencillo para que se entienda y sobre todo para que la podáis usar en investigaciones, proyectos, tesis o consultorías ya que tiene mucha utilidad para comprender las causas de los fenómenos y los comportamientos.

 
tutorial regresión logística binaria
 
 

Hay varios tipos de regresión logística, las 2 principales
son:

  • Regresión logística binaria – se usa cuando la variable dependiente es una variable binaria, es decir, de solo dos categorías, también conocidas como dummy o dicotómica. Por ejemplo: 1-Sí, 0-No o por ejemplo 1-Soltero, 0-No Soltero
  • Regresión logística multinomial – se usa cuando la variable dependiente es una variable nominal de más de 2 categorías, de ahí su nombre multi-nomial. Por ejemplo: 1-Soltero, 2-Casado, 3-Divorciado, 4-Viudo 5-Otros; o por ejemplo: 1- Comedia, 2-Acción, 3-Suspense, 4-Drama, 5-Policiaco, 6-Otros.

Hoy nos centramos en explicar qué es la regresión logística binaria y cómo analizarla en 6 pasos.

Sigue leyendo Qué es la regresión logística binaria y cómo analizarla en 6 pasos

Qué es la correlación bivariada y cómo analizarla

Correlación bivariada

La correlación bivariada es una técnica estadística destinada a averiguar: 

  • a) si dos variables tienen relación entre sí
  • b) si la relación es fuerte-moderada-o débil y
  • c) qué dirección tiene la relación
correlaciones spss

Las coincidencias muchas veces esconden asociaciones entre fenómenos. La correlación es la técnica más usada para medir asociación lineal en todas las ciencias. Indica asociación o relación entre dos variables, no implica causalidad.

Sigue leyendo Qué es la correlación bivariada y cómo analizarla

Uso de cookies

Este sitio web utiliza cookies para que usted tenga la mejor experiencia de usuario. Si continúa navegando está dando su consentimiento para la aceptación de las mencionadas cookies y la aceptación de nuestra política de cookies, pinche el enlace para mayor información.plugin cookies

ACEPTAR
Aviso de cookies