ÖZ
Amaç
Bu çalışmada çeşitli chatbotlarda (yapay zeka robotu) farklı promptlar (istemler) kullanılarak büyük dil modelleri (BDM) ile yapay zeka tarafından üretilen çoktan seçmeli soruların (ÇSS) zorluk seviyesinin, insan tarafından yazılmış sorularla karşılaştırmalı bir şekilde değerlendirilmesi amaçlanmıştır.
Yöntem
Dört BDM tabanlı chatbotta (yapay zeka robotu) iki farklı istem kullanarak obstetrik ve jinekoloji üzerine vaka tabanlı ÇSS’lar oluşturulmuştur. Uzman grubu tarafından incelendikten sonra, ÇSS’lar kadın hastalıkları ve doğum anabilim dalında staj yapan 97 tıp öğrencisine uygulanmıştır. Daha sonra her bir ÇSS için madde (soru) güçlük indeksleri hesaplanmıştır.
Bulgular
Yapay zeka tarafından üretilen soruların ortalama zorluk endeksi 0,30’dur. İstemlerden biri 0,34 zorluk indeksine sahip (zor olarak sınıflandırılan) sorular üretirken, diğeri 0,25’lik daha düşük bir zorluk indeksi (çok zor olarak kabul edilen) ile sonuçlanmıştır. Buna karşılık, insan tarafından yazılan soruların ortalama zorluk endeksi 0,63’tür ve bu da orta düzeyde bir zorluğa işaret etmektedir.
Sonuç
Çalışmamız, tıp eğitiminde yapay zeka tarafından üretilen ÇSS’lar ile insan üretimi olan ÇSS’lar yerine kullanımında karşılaşılabilecek zorlukları vurgulamaktadır. Yapay zeka, soru üretimi açısından umut verici görünmekle birlikte, üretilen soruların genellikle tıp öğrencileri için yüksek zorlukta olduğu gözlemlenmiştir. Bu sonuçlar ölçme değerlendirme gereksinimlerini karşılayabilecek yapay zeka çıktılarına ulaşabilmek için daha detaylandırılmış ve bağlamla uyumlu istemlerin yapılması gereksinimini vurgulamaktadır. Ayrıca, BDM tabanlı chatbotlar verimlilik açısından destek sağlarken, soruların uygunluğunu ve kalitesini sağlamak için uzman incelemesi önemini korumaktadır.


