Reddit Chile: Conversación política
Análisis de la conversación política en comunidades chilenas de Reddit: actividad, concentración de usuarios y uso de LLMs para etiquetar contenido.
Introducción
Con el objeto de tener un primer acercamiento a los datos de reddit y evaluar un proyecto de más largo alcance, me propuse descargar publicaciones y comentarios de algunos subreddits populares en Chile. Al comenzar a trabajar, mi motivación de fondo era evaluar si tenía sentido usar estos datos para estudiar opiniones políticas. En términos técnicos, me interesaba sobretodo evaluar el pipeline de descarga (orquestado en Dagster. Detalles en un próximo artículo), familiarizarme con la fuente de información y probar el uso de LLMs para etiquetar datos.
¡En esta publicación te cuento el resultado de esta primera exploración y algunos aprendizajes!
Descarga de datos
Para obtener la información, me concentré en subreddits que tuvieran una participación mayoritaria de usuarios y usuarias de Chile. A continuación, se listan los subreddits incluidos en la descarga:
- Chile
- RepublicadeChile
- ComentariosEmol
- Santiago
- EducacionChile
- derechoenchile
- AskChile
- yo_ctm
La herramienta seleccionada fue la API de Reddit, a través del paquete praw de Python. Dado que la información se va actualizando todo el tiempo, decidí crear un flujo automatizado que corre cada 6 horas y que en cada descarga, busca los últimos 35 posts de cada subreddit, junto con sus respectivos comentarios. La información se fue almacenando en 2 tablas de Postgres.
En términos muy generales, el código hace lo siguiente: si el post (o comentario) no está en la base de datos, se inserta. En caso contrario, es decir, si el identificador ya existe, se actualiza el valor de score (balance entre likes y dislikes), ya que este campo muy probablemente habrá cambiado desde la última descarga. Este flujo permite recolectar los mensajes que van agregándose y actualizar la información que ya se ha descargado.
Las siguientes imágenes muestran cómo lucen las 2 tablas generadas.
Tabla de posts

Tabla de comentarios

Descripción general de la descarga
Siempre es útil conocer la ventana de tiempo dentro de la cual fue publicado el contenido analizado. En ese sentido, el contenido que da forma al ejercicio que aquí se describe fue generado en el periodo comprendido entre el 17-09-2025 y el 02-03-2026, y suman 18.208 posts y 416.234 comentarios.
La siguiente tabla muestra que 2 subreddits (RepublicadeChile y chile) concentran la mayor parte de la actividad. De hecho, ambos representan el 65.3% de los posts y el 80% de los comentarios.
| Subreddit | Cantidad de posts | Cantidad de comentarios | % posts | % comentarios |
|---|---|---|---|---|
| chile | 6.620 | 181.921 | 36.4 | 43.7 |
| RepublicadeChile | 5.260 | 151.129 | 28.9 | 36.3 |
| EducacionChile | 3.343 | 29.093 | 18.4 | 7.0 |
| Santiago | 1.493 | 14.067 | 8.2 | 3.4 |
| AskChile | 293 | 8.166 | 1.6 | 2.0 |
| yo_ctm | 791 | 21.998 | 4.3 | 5.3 |
| ComentariosEmol | 160 | 7.182 | 0.9 | 1.7 |
| derechoenchile | 248 | 2.678 | 1.4 | 0.6 |
Otro dato interesante es la distribución del contenido a través de los usuarios. Al respecto, los datos muestran que una pequeña porción de los usuarios concentra la mayor parte del contenido generado en los subreddits analizados. El gráfico de más abajo ordena en el eje x a los usuarios en veintiles, según la cantidad de posts publicados. Así, los veintiles ubicados a la izquierda corresponden a los usuarios con más publicaciones.
El gráfico muestra que más de un 30% de los posts es producido por apenas un 5% de los usuarios. Siguiendo la misma línea, los 2 primeros veintiles, es decir, el 10% de los usuarios con más publicaciones, explica aproximadamente la mitad de los posts.

Respecto la publicación de comentarios, ocurre algo similar, pero de manera aún más acentuada, ya que el 5% de los usuarios es responsable de más de la mitad del contenido.

Esta primera mirada nos muestra que si bien los subreddits analizados cuentan con una gran cantidad de miembros, una buena parte del contenido depende de una pequeña porción de usuarios, que, de alguna manera, “determinan la agenda” de temas a discutir.
Intervenciones políticas
Por fin, llegamos a la principal motivación de este documento, es decir, el análisis del contenido político publicado en reddit. Para identificar qué publicaciones corresponden a temas políticos, se utilizó un LLM, al cual se le solicitó la tarea de asignar dos posibles etiquetas: “político” o “no político”. Para ello, se utilizó el siguiente prompt:
prompt = (
"Clasifica cada comentario de Reddit como POLÍTICO o NO_POLÍTICO.\n\n"
"Un comentario es POLITICO SOLO si cumple al menos UNA de estas condiciones:\n"
"1. Menciona explícitamente a un político, partido, elección o ideología política.\n"
"2. Expresa una opinión, crítica o apoyo a una política pública, decisión de gobierno o actor político.\n"
"3. Usa los conceptos izquierda o derecha en un contexto ideológico o político.\n\n"
"NO es político si el comentario:\n"
"- Describe una experiencia personal o un problema cotidiano\n"
"- Menciona instituciones, servicios públicos o carreras universitarias SIN juicio político\n"
"- Habla de Chile u otros países sin expresar opinión política\n\n"
"Ejemplos de comentarios difíciles que NO son políticos:\n"
"- sociología en la PUC\n"
"- Situación odontología en Chile\n"
"- me da terror pensar en un nuevo apagón como el de febrero\n"
"- Dejar Derecho por Sociología o Adm. Pública\n\n"
"Políticos chilenos relevantes de la última elección:\n"
"- Kaiser, Kast, Jara\n\n"
"En caso de duda, clasifica como NO_POLÍTICO.\n\n"
"Responde SOLO con un objeto JSON con esta estructura:\n"
"{\n"
' "comments": [\n'
' {"id": <id>, "label": "POLÍTICO" | "NO_POLÍTICO"}\n'
" ]\n"
"}\n\n"
)
Debido a que la tarea no es demasiado compleja utilicé gpt-4o-mini, un modelo relativamente pequeño, sin grandes capacidades, pero con una muy buena relación precio-calidad. Para conectarme a la API utilicé el paquete de python OpenAI, que facilita enormemente la interacción con el modelo.
Dado que la tarea de etiquetado fue delegada a un LLM, es importante revisar si las categorías asignadas tienen sentido. Para ello, podemos revisar aleatoriamente 100 registros de cada categoría (político y no político).
Una lectura rápida de algunos posts muestra que en general los códigos fueron asignados de manera correcta. Es importante mencionar que es imposible que un modelo etiquete correctamente todos los casos. Para tener una medida insesgada del accuracy es necesario revisar más casos, siguiendo criterios estandarizados, sin embargo, dado que este es solo un ejercicio exploratorio, nos conformaremos con esta inspección visual.
A partir de las categorías predichas por el modelo, es posible hacer algunos análisis. Para empezar, la siguiente tabla muestra que del total de posts, el 19.69% corresponde a contenido político.
| Etiqueta | N | Porcentaje |
|---|---|---|
| NO_POLÍTICO | 14.623 | 80.31% |
| POLÍTICO | 3.585 | 19.69% |
Al separar por subreddit, se advierte que algunos de ellos destacan por su alto contenido político. Este es el caso de ComentariosEmol, RepublicadeChile y chile.
| Subreddit | Etiqueta | N | Porcentaje |
|---|---|---|---|
| AskChile | NO_POLÍTICO | 287 | 97.95% |
| AskChile | POLÍTICO | 6 | 2.05% |
| ComentariosEmol | NO_POLÍTICO | 97 | 60.62% |
| ComentariosEmol | POLÍTICO | 63 | 39.38% |
| EducacionChile | NO_POLÍTICO | 3.253 | 97.31% |
| EducacionChile | POLÍTICO | 90 | 2.69% |
| RepublicadeChile | NO_POLÍTICO | 3.755 | 71.39% |
| RepublicadeChile | POLÍTICO | 1.505 | 28.61% |
| Santiago | NO_POLÍTICO | 1.468 | 98.33% |
| Santiago | POLÍTICO | 25 | 1.67% |
| chile | NO_POLÍTICO | 4.769 | 72.04% |
| chile | POLÍTICO | 1.851 | 27.96% |
| derechoenchile | NO_POLÍTICO | 234 | 94.35% |
| derechoenchile | POLÍTICO | 14 | 5.65% |
| yo_ctm | NO_POLÍTICO | 760 | 96.08% |
| yo_ctm | POLÍTICO | 31 | 3.92% |
Con el objeto de explorar si los posts políticos tienen algunas particularidades respecto al resto de publicaciones, analizaremos 3 variables: número de comentarios, score y sentimiento de los comentarios asociados.
Número de comentarios
Al observar la cantidad de comentarios asociados a las publicaciones políticas, se advierte que esta es mayor al del resto de publicaciones. El siguiente gráfico muestra que los posts políticos reciben en promedio 15.6 comentarios, mientras que los no políticos, 12. Al tratarse de temas controversiales, es esperable que los posts políticos generen mayor discusión y/o conversación.

Score
Al mirar el score (likes - dislikes) asociado a los comentarios políticos, se advierte que este, en promedio, es más alto que en los comentarios no políticos, tal como se muestra en el gráfico de más abajo.

Podría plantearse que esto es un efecto de la mayor cantidad de respuestas generadas por los comentarios políticos, es decir, dado que hay más reacciones, es natural que se produzcan más likes. Si bien este argumento tiene sentido, también podría plantearse que en reddit existe la posibilidad de usar dislike, lo cual podría generar una suerte de balance entre votos positivos y negativos. Esto es, ante una opinión polémica algunos usuarios podrían votar like y otros dislike, lo cual tendería a generar una compensación entre ambos polos. Para que ello sea posible, los comentarios tendrían que ser leídos y comentados por un número similar de personas a favor y en contra, lo que no necesariamente ocurre.
Comentarios negativos
El último indicador que decidí incluir es el porcentaje de comentarios negativos para los posts políticos y no políticos. Para etiquetar los comentarios, se utilizó un modelo transformer disponible en Huggingface llamado Robertuito, al cual se aplica un proceso de fine tuning para ajustarlo a la tarea específica de clasificar sentimiento. El modelo está entrenado para predecir 3 categorías de sentimiento: positivo, negativo o neutro.
Una vez que los comentarios han sido etiquetados, es posible calcular el porcentaje etiquetado con sentimiento negativo para los conjuntos de posts con contenido político y no político, tal como muestra el gráfico de más abajo. En él se puede observar que los posts políticos generan más comentarios negativos que el resto de posts. Así, cerca de la mitad de los comentarios asociados a posts políticos tienen un sentimiento negativo, mientras que dicho valor es del 34% en los comentarios asociados a posts que no tienen contenido político.

Conclusiones
La información presentada en este ejercicio preliminar no permite responder demasiadas preguntas y, como la intención de esta publicación no es encontrar respuestas, sino simplemente explorar los datos, me permito esbozar algunas hipótesis e ideas finales, que intentaré testear en las próximas publicaciones.
-
El mayor número de likes en posts de contenido político puede deberse a que las interacciones se producen entre personas que piensan de manera similar. Dicho de otro modo, las personas tienden a fijar la atención en posts que se acercan a su propia posición política, dejando a un lado aquellas publicaciones que se alejan. Esto podría estar explicando el mayor score en posts con contenido político.
-
Los usuarios que generan contenido político tienen un comportamiento en reddit diferente al de usuarios que no generan mayormente contenido político.