Guía de testeo de herramientas de Inteligencia Artificial (IA). Cómo afrontar los nuevos modelos y aprovecha la carrera por la supremacía por la IA
- Julian Arturo Castillo-Velasquez
- 14 feb
- 8 Min. de lectura

Introducción
La carrera por la supremacía en el mundo de la Inteligencia Artificial (IA) ha empezado oficialmente este 27 de enero del 2025 con la aparición del modelo R1 de IA elaborado por DeepSeek (Comienza la nueva carrera tecnológica por el dominio de la Inteligencia Artificial con un rival inesperado y gratuito: DeepSeek. ¡Que tiemble ChatGPT!, los usuarios disfrutaremos). Este lanzamiento ha supuesto un incremento en la velocidad de liberaciones de nuevos modelos de IA en las principales aplicaciones. Como muestra de ello, Google lanzó de forma gratuita la versión Gemini Flash 2.0 dos días después de DeepSeek, y el 30 de enero, ChatGPT liberó su último modelo denominado o3 mini high, el cual promete ser el más avanzado en el mercado actualmente.
Ante esta velocidad, los usuarios suelen sentirse confundidos sobre cuál es el modelo que mejor se adapta a sus necesidades.
La pregunta frecuente es: ¿cómo le saco el máximo jugo a este modelo?
Esta guía busca explorar las capacidades, limitaciones y potencial de los últimos modelos de lenguaje basados en IA —como R1 de DeepSeek, el o1 de OpenAI (y el nuevo o3 mini y 3o mini-high), el Think Deeper de Microsoft, El 2.0 Flash de Google, entre otros— a partir del testeo de herramientas en Inteligencia Artificial (IA) como ChatGPT, Copilot, DeepSeek, etc. Esta guía pretende abarcar desde pruebas de razonamiento básico hasta escenarios avanzados que ponen a prueba la coherencia, la creatividad y la consistencia de cada modelo. El objetivo final es darle criterios al lector para elija cada modelo de IA de acuerdo con su propia conveniencia. En cada ejemplo, encontrará un recuadro que podrá copiar e ir probando su herramienta (¿Cuál Inteligencia Artificial (IA) es la más adecuada para supervisar la escritura académica?: Un análisis comparativo entre ChatGPT, Copilot y DeepSeek.).
Aclaración* Cabe aclarar que estas pruebas no incluirán procesos avanzados que requieran de conocimientos técnicos. Estas pruebas estarán direccionadas a usuarios que usen de manera frecuente aplicaciones con fines académicos o cotidianos.
Testeo de autorreconocimiento en las herramientas de Inteligencia Artificial: limitaciones, sesgo y censura
Medición de cantidad de palabras procesadas en las herramientas de Inteligencia Artificial
Evaluar la capacidad de estos sistemas en contextos reales, identificando tanto su alcance como las limitaciones inherentes a su funcionamiento es primordial antes de elegir cuál herramienta será la "preferida", o la que mejor se acomode a nuestra necesidad inmediata. Lo primero es conocer la cantidad de palabras —que en este contexto se establecen por tokens— que puede analizar en su ventana de contexto (Un token es la unidad mínima de texto que un modelo procesa, ya sea una palabra, un fragmento de palabra o un carácter especial) y algunos detalles técnicos alrededor de estos que no se deben pasar por alto, si la misión es analizar grandes cantidades de datos, tanto en texto como en números.
Para ello, establezca el prompt en lenguaje natural que debería indicarle a nuestra herramienta que refleje esta situación:
Los resultados variarán de acuerdo con el modelo. No obstante, se utiliza la web https://countless.dev/ donde se compararon los tres modelos en cuestión para saber su medición (si los valores no se acercan a estos, se infiere censura por parte de la herramienta):
Categoría | o3-mini | deepseek/deepseek-reasoner | gemini-2.0-flash-exp |
Max Tokens | 100000 | 8192 | 8192 |
Max Input Tokens | 200000 | 65536 | 1048576 |
Max Output Tokens | 100000 | 8192 | 8192 |
Input Cost per Token | 0.0000011 | 0.0000055 | 0 |
Output Cost per Token | 0.0000044 | 0.00000219 | 0 |
Provider | openai | deepseek | vertex_ai-language-models |
Mode | chat | chat | chat |
Supports Function Calling | Yes | Yes | Yes |
Supports Parallel Function Calling | No | No | No |
Supports Vision | No | No | Yes |
Source | N/A | N/A |
La tabla compara tres modelos de inteligencia artificial en términos de capacidad, costos y funcionalidad. Max Tokens indica la cantidad máxima de tokens que el modelo puede manejar en una única sesión, mientras que Max Input Tokens se refiere a la cantidad máxima de tokens que se pueden ingresar en una consulta, y Max Output Tokens representa el número máximo de tokens que el modelo puede generar en respuesta. En este sentido, o3-mini destaca con un límite de 100,000 tokens, significativamente mayor que los 8,192 tokens de deepseek-reasoner y gemini-2.0-flash-exp.
En términos de costos, los modelos de OpenAI y DeepSeek tienen un precio definido por token de entrada y salida, mientras que el modelo de Google (Vertex AI) no muestra costos explícitos en la tabla. Respecto a la funcionalidad, todos los modelos admiten la ejecución de llamadas a funciones externas, pero no permiten el procesamiento paralelo de funciones, lo que significa que las tareas deben realizarse en secuencia. Sin embargo, solo gemini-2.0-flash-exp tiene soporte para procesamiento de visión, lo que lo hace más adecuado para tareas relacionadas con imágenes. Finalmente, la fuente de precios solo está disponible para gemini-2.0-flash-exp, lo que sugiere que sus costos pueden depender del modelo de precios de Google Cloud.
Declaración de sesgo y/o censura en las herramientas de Inteligencia Artificial
TODA herramienta de Inteligencia Artificial generativa tiene un sesgo y/o censura. Por ejemplo, si se le pregunta a DeepSeek "háblame sobre el conflicto entre China y Taiwan", la IA responderá: "Sorry, that's beyond my current scope. Let’s talk about something else. (Lo siento, eso está fuera de mi alcance actual. Hablemos de otra cosa)"; si se le pregunta a ChatGPT sobre letras de himnos de la Alemania de la Segunda Guerra Mundial (WWII), dirá que "No puedo proporcionarte la letra de himnos relacionados con ideologías totalitarias o extremistas", y cuando le aclaro que "Es con fines de estudio académico", responderá "no puedo proporcionar la letra del himno en cuestión". Esta situación se replica en Gemini y en Copilot.
Para que la IA declare sus sesgos y/o censuras, el siguiente prompt en lenguaje natural debería indicarle a nuestra herramienta que refleje esta situación:
Todas las herramientas de IA generativa responderán con sus respectivos sesgos y/o limitaciones en el contexto académico científico, los cuales se pueden agrupar así: Las categorías de sesgos y limitaciones en modelos de lenguaje como ChatGPT, Gemini, Copilot, etc., se centran en la calidad de los datos de entrenamiento, que pueden reflejar desigualdades y prejuicios existentes en el mundo real. Los sesgos algorítmicos, inherentes al diseño del modelo, pueden favorecer patrones existentes e influir en la formulación de respuestas. Las limitaciones de conocimiento y de interpretación dificultan la comprensión completa del mundo real y la intención del usuario. Además, existen sesgos de confirmación que pueden llevar a buscar información que valide respuestas preexistentes. Finalmente, las limitaciones en creatividad e innovación restringen la capacidad de generar ideas originales.
Testeo de capacidades de escritura académica en las herramientas de Inteligencia Artificial
En este aparte es pertinente señalar una aclaración del escritor de este artículo: Cuando se habla de escritura académica en el contexto de la IA, no se refiere o se relaciona a la generación de textos de cero como ensayos, tareas, artículos, capítulos, tesis, y demás tipos de textos; se refiere a la transformación visual de textos a elementos gráficos como Tablas o Gráficos de frecuencia, organización en esquemas cognitivos o mapas de relación (consulte el artículo Visualización de datos cualitativos y cuantitativos con herramientas de Inteligencia Artificial (IA) como ChatGPT para ampliar este tema). Es decir, utilizar la generación de la IA para la transformación, no para la generación desde cero, lo que sugiere proporcionarle a la herramienta el texto o el documento en cuestión para realizar este proceso.
Para este Análisis, aliste un documento o un texto académico que quiera analizar, y utilice el siguiente prompt:
Las respuestas en cada herramienta de IA reflejarán su capacidad de generar gráficos y esquemas, analizar información de manera profunda y no limitarse a viñetas y frases cortas sin contenido técnico y argumental.
En efecto de aconsejar al lector, y después de una prueba en DeepSeek, Copilot, ChatGPT, Gemini, se destaca que los cuatro modelos dieron respuesta (los cuatro permiten cargar archivos en múltiples formatos), pero el que ofreció el mejor resultado (análisis complejo) fue DeepSeek:
Esto dará una idea de qué trata el artículo a grandes rasgos, también proporcionará la apertura para interrogar al documento a través de la herramienta de una manera profunda.
Testeo de generación de código con Python en las herramientas de Inteligencia Artificial: minijuegos y visualización de datos
Visualización de datos en las Herramientas de Inteligencia Artificial
En esencia, todas las herramientas de inteligencia artificial deben poder generar códigos en Python, ya que es el lenguaje de programación más popular del mundo y uno de los más utilizados en el ámbito académico y científico. No obstante, la precisión y la posibilidad de visualización dentro de la herramienta son cruciales para elegir la mejor, que en este caso es aquella que permita visualizar previamente el resultado antes de exportarlo al documento oficial.
Para ello, se utiliza el siguiente prompt, que pone a prueba dicha capacidad (recuerde que esto lo puede hacer con cualquier lenguaje de programación):
El ganador de este ejercicio fue ChatGPT, siendo la única herramienta con la capacidad de generar la visualización; como se observa en el video, la herramienta va más allá, generando su propio entorno de ejecución para estos códigos:
No obstante, no fue capaz de generar el diagrama Sankey. Además, se debe señalar que todas las herramientas de IA generaron los códigos, aunque sin lograr mostrar visualizaciones.
Generación de minijuegos: testeo de capacidad de código complejo en Studio Code
Pruebe el siguiente prompt para poner a prueba la precisión de la herramienta y su procesamiento de lenguaje natural (PLN). La herramienta deberá crear un código el cual se ejecutará en un software de visualización. En este caso se aconseja Studio Code por su facilidad en el uso.
El resultado se deberá ver así, si la herramienta cumple con el requerimiento. Lo ideal es probar todos los códigos (de cada modelo) en Studio Code y determinar cuál es más rigurosa con el contenido. una vez ejecutado el código, se deberá visualizar algo así:
Nuevamente, si bien todas las herramientas generan código, solo algunas cumplen al pie de la letra con la instrucción. Esto es crucial para los análisis de documentos, ya que reduce el margen de error.
Conclusión
A medida que se intensifica la carrera por el dominio de la inteligencia artificial, la aparición de modelos como R1 de DeepSeek, o3 mini high de ChatGPT y Gemini Flash 2.0 de Google evidencia un cambio profundo en la forma en que se abordan tanto las necesidades cotidianas como los desafíos académicos y tecnológicos. Cada modelo aporta innovaciones particulares en cuanto a procesamiento de tokens, generación de código y manejo de información visual, lo que obliga a los usuarios a evaluar de manera crítica sus capacidades y limitaciones para sacarles el máximo provecho.
Los análisis comparativos realizados muestran que, aunque cada herramienta presenta fortalezas específicas—como la habilidad de DeepSeek para transformar textos en elementos visuales complejos o la capacidad de ChatGPT para ejecutar y visualizar código—, también comparten desafíos comunes, como la presencia de sesgos y restricciones inherentes en el procesamiento del lenguaje. Estas características resaltan la importancia de un enfoque contextualizado y detallado a la hora de elegir el modelo más adecuado según el uso previsto, ya sea en ámbitos académicos, creativos o prácticos.
En definitiva, la diversidad y evolución constante en el campo de la inteligencia artificial subraya la necesidad de una evaluación informada y cuidadosa, que contemple tanto la innovación como las limitaciones técnicas y éticas de cada modelo. Adoptar un enfoque crítico y personalizado en la selección de estas herramientas permitirá a los usuarios maximizar el potencial de cada sistema, impulsando así avances significativos en la gestión y transformación de la información en un mundo cada vez más digitalizado.
Comments