Evolución de la IA en la resolución de problemas contables: Comparación entre GPT4 y GPT4o en el Examen de Competencia Contable

Cargando...
Miniatura

Título de la revista

ISSN de la revista

Título del volumen

Editor

Pontificia Universidad Católica del Perú

Acceso al texto completo solo para la Comunidad PUCP

Resumen

The research aimed to evaluate the performance of the GPT-4o model compared to the GPT-4 model in solving questions on the Accounting Proficiency Exam. This study is grounded in the concept of natural language processing (PLN), as discussed by Brown et al. (2020). The research was conducted using the design science methodology, which aims to build and/or evaluate different technological artifacts by applying the proficiency exam questions to GPT-4o, using OpenAI's ChatGPT. While actual statistics for the Proficiency Exam show that only a portion of accountants pass, the results of artificial intelligence (AI) showed that all four editions evaluated passed with at least a 64% success rate. Overall, across the sample analyzed, the GPT-4o AI model achieved 77% accuracy compared to 71% for the GPT-4 model, achieving 84% accuracy in the last two exams using the most recent model. However, on some questions that the GPT-4 model had previously answered correctly, the more recent model ended up answering incorrectly or differently than expected by the question developers. These results contribute to the literature studying the use of AI in accounting, particularly the application of natural language processing models and large language models (LLMs).
La investigación tuvo como objetivo evaluar el rendimiento del modelo GPT-4o en comparación con el modelo GPT-4 en la resolución de preguntas del Examen de Competencia Contable. Este estudio se fundamenta en el concepto de procesamiento del lenguaje natural (PLN) de Brown et al. (2020). La investigación se realizó utilizando la metodología design science, que busca construir y/o evaluar diferentes artefactos tecnológicos aplicando las preguntas del Examen de Competencia al GPT-4o, utilizando ChatGPT de OpenAI. Si bien las estadísticas reales del Examen de Competencia muestran que solo una parte de los contadores lo aprueba, los resultados de la inteligencia artificial (IA) mostraron que las cuatro ediciones evaluadas aprobaron con al menos 64% de éxito. En general, en la muestra analizada, el modelo de IA GPT-4o alcanzó 77% de precisión, en comparación con el 71% del modelo GPT-4; así, se alcanzó un 84% de precisión en los dos últimos exámenes con el modelo más reciente. Sin embargo, en algunas preguntas que el modelo GPT-4 había respondido correctamente previamente, el modelo más reciente terminó respondiendo incorrectamente o de forma diferente a la esperada por los desarrolladores. Estos resultados contribuyen a la literatura que estudia el uso de la IA en contabilidad, en particular, en la aplicación de modelos de procesamiento del lenguaje natural y modelos de lenguaje extenso (LLMs).
A pesquisa teve por objetivo avaliar o desempenho do modelo GPT-4o em relação ao modelo GPT-4 na resolução de questões do Exame de Suficiência em Contabilidade. Esse estudo se caseia no conceito de processamento de linguagem natural (PLN) de Brown et al. (2020). A pesquisa foi operacionalizada com a metodologia de design science, que visa construir e/ou avaliar diferentes artefatos tecnológicos, mediante a aplicação das questões do Exame de Suficiência no GPT-4o, por meio do ChatGPT da OpenAI. Enquanto as estatísticas reais do Exame de Suficiência demonstram a aprovação de apenas uma parcela dos contabilistas, os resultados da inteligência artificial (IA) foram de aprovação em todas as quatro edições avaliadas com pelo menos 64% de aproveitamento.  No âmbito geral da amostra analisada, o modelo de IA do GPT-4o apresentou 77% de aproveitamento de respostas frente a 71% do modelo GPT-4, alcançando uma acurácia de 84% nos últimos dois exames pelo modelo mais recente. Ainda assim, em algumas questões que o modelo GPT-4 havia acertado, esse modelo mais atual acabou respondendo de forma equivocada, ou diferente do previsto pelos elaboradores das questões. Esses resultados contribuem para a literatura que estuda o uso de IA dentro do campo da contabilidade, em especial a aplicação de modelos de linguagem de processamento natural e large language models (LLMs).

Descripción

Palabras clave

Use of technologies, ChatGPT4o, Large language models (LLMs), Uso de tecnologías, ChatGPT4o, Modelos de lenguaje extensos (LLMs), Uso de tecnologias, ChatGPT4o, Large Language Models

Citación

item.page.endorsement

item.page.review

item.page.supplemented

item.page.referenced

Licencia Creative Commons

Excepto se indique lo contrario, la licencia de este artículo se describe como info:eu-repo/semantics/openAccess