The rapid development of large language models (LLMs), such as ChatGPT-4, Gemini and Claude 3, has sparked considerable interest in their potential to enhance both medical education and clinical decision-making [1]. Within ultrasound, where diagnostic reasoning is often complex and context-dependent, several comparative studies have attempted to evaluate the performance of LLMs versus physicians at different stages of training [1- 4]. These investigations suggest that such systems may eventually supplement traditional expertise, yet their methodological limitations prevent confident interpretation of the findings. In this issue, a study was published presenting a comparative analysis of the effectiveness of two large language models, ChatGPT-4 and Claude 3, in enhancing the accuracy of responses provided by senior and junior sonologists [2]. Motivated by these findings, the present editorial has been prepared to critically appraise the study, delineate methodological constraints, and elaborate on additional perspectives that may inform the interpretation and broader implications of the findings.
Most comparative studies adopt designs in
which LLMs are tested alongside physicians who are stratified by training
level, such as junior and senior [2]. While this format offers a
straight forward framework for comparison, the implementation is often
critically underpowered. In some instances, only one participant represents
each level of training [2]. This approach collapses individual performance into
a proxy for population competence, an assumption that cannot be justified given
the well-documented variability in cognitive strategies, knowledge bases, and
test-taking abilities across physicians. While appropriate for binary data,
reliance solely on p-values limits interpretability, particularly in small
samples [2]. For this reason, future investigations with larger datasets could
benefit from incorporating supplementary descriptive statistics and alternative
effect size metrics, such as odds ratios or risk differences, to provide a more
nuanced understanding of performance differences. Such an approach would
enhance the robustness, transparency, and educational relevance of comparative
analyses between LLMs and human experts. Beyond statistical measures, the true
value of integrating LLMs into ultrasound education and clinical practice lies
not in narrow improvements in multiple-choice performance, but in fostering
conceptual understanding, diagnostic reasoning, and durable clinical competence
[1- 5]. A correct answer generated by a model may provide immediate benefit,
but if it lacks explanation or contextualization, its educational contribution
remains limited [2]. Conversely, even an incorrect response from a human expert
may stimulate productive discussion, reveal sources of diagnostic uncertainty,
and model the reasoning strategies essential to medical practice. Comparative
studies that focus exclusively on accuracy rates overlook these broader
dimensions of educational value. This issue leads to a complex question: what
role should LLMs play in the training of physicians and their future clinical
practice? They may serve as interactive resources for reviewing knowledge,
offering efficient retrieval of structured information that supplements
traditional study [5-8]. In this role, they act as digital companions to
textbooks or question banks, with the potential advantage of adaptability to
learner queries. Alternatively, they may be used more ambitiously to shape
clinical 0 Ștefan Lucian Popa Comparative studies of LLMs vs human experts in
supporting US in clinical practice: challenges and limitations reasoning,
guiding trainees through case-based scenarios, generating differentials, and
weighing management strategies. The latter application, however, is more
problematic. Clinical reasoning is not simply the application of diagnostic
rules; it requires contextual judgment, integration of multimodal information,
and tolerance of uncertainty. While LLMs can simulate reasoning chains, they
are vulnerable to generating plausible but flawed outputs [5-8]. Overreliance
on these explanations could risk undermining the development of critical
thinking, a cornerstone of medical education. As a final point, what is the
current role and limitation of pilot studies in evaluating the use of AI models
for medical training and clinical decision support? They provide valuable
feasibility data, highlight potential benefits, and identify risks. Early
reports suggest that novices may benefit from simplified outputs while advanced
trainees may find value in testing their reasoning against model-generated
alternatives. At the same time, the small sample sizes that characterize pilot
studies limit their generalizability, and their results must be interpreted as
hypothesis-generating rather than definitive. Future research must therefore
pursue greater methodological rigor. Larger and more representative samples,
drawn across multiple centers, are essential to capture the variability in
physician expertise [8]. Descriptive statistics, confidence intervals, and
effect sizes should accompany p-values to allow meaningful interpretation of
observed differences. Mixed-methods approaches are particularly valuable,
combining quantitative performance measures with qualitative insights from
learners and faculty. Longitudinal designs that track knowledge retention and
clinical transferability over time will be needed to evaluate whether the
integration of LLMs translates into genuine improvements in practice. Finally, research
should move beyond simplified multiple-choice formats toward more realistic,
case-based tasks that better reflect the complexities of ultrasound diagnosis.
In conclusion, LLMs represent an exciting frontier for medical education, with
the potential to support training in diagnostic ultrasound. Yet the current
body of comparative research is constrained by a limited number of studies with
small sample sizes, inadequate statistical reporting, and narrow outcome
measures. Multidimensional studies will be required before meaningful
conclusions can be drawn about their place alongside human expertise.
Nghiên cứu so sánh giữa LLM và chuyên gia trong việc hỗ trợ siêu âm trong thực hành lâm sàng: thách thức và hạn chế
Sự phát triển nhanh chóng các mô hình ngôn ngữ lớn (LLM), như ChatGPT-4, Gemini và Claude 3, đã làm quan tâm về tiềm năng trong việc nâng cao giáo dục y khoa và ra quyết định lâm sàng [1]. Trong lĩnh vực siêu âm, nơi mà việc lập luận chẩn đoán thường phức tạp và phụ thuộc vào ngữ cảnh, một số nghiên cứu so sánh đã cố đánh giá hiệu suất của LLM so với bác sĩ ở các giai đoạn đào tạo khác nhau [1-4]. Những nghiên cứu này cho thấy các hệ thống trên có thể bổ sung cho chuyên môn truyền thống, nhưng các hạn chế về phương pháp luận làm cho các phát hiện này trở nên không chắc chắn. Trong số này, một nghiên cứu đã trình bày một phân tích so sánh về hiệu quả của hai mô hình ngôn ngữ lớn, ChatGPT-4 và Claude 3, trong việc nâng cao độ chính xác của phản hồi do các bác sĩ siêu âm cấp cao và cấp thấp cung cấp [2]. Xuất phát từ phát hiện này, bài xã luận này nhằm đánh giá có phê phán, vạch ra những hạn chế về phương pháp luận và trình bày chi tiết các quan điểm bổ sung giúp thông tin cho việc diễn giải và làm rộng hơn ý nghĩa.
Hầu hết các nghiên cứu so sánh đều áp dụng thiết kế, trong đó LLM được kiểm tra cùng với các bác sĩ được phân tầng theo trình độ đào tạo, chẳng hạn như cấp dưới và cấp trên [2]. Mặc dù định dạng này cung cấp một khuôn khổ so sánh đơn giản, nhưng việc triển khai thường bị thiếu hụt nghiêm trọng. Trong một số trường hợp, chỉ có một người tham gia đại diện cho mỗi cấp độ đào tạo [2]. Cách tiếp cận này gộp hiệu suất cá nhân thành một đại diện cho năng lực của quần thể, một giả định không thể biện minh do sự khác biệt rõ về các chiến lược nhận thức, cơ sở kiến thức và khả năng làm bài kiểm tra giữa các bác sĩ. Mặc dù phù hợp với dữ liệu nhị phân, việc chỉ dựa vào giá trị p sẽ hạn chế khả năng diễn giải, đặc biệt là trong các mẫu nhỏ [2]. Vì lý do này, các nghiên cứu trong tương lai với dữ liệu lớn hơn có lợi từ kết hợp các thống kê mô tả bổ sung và các số liệu đo lường hiệu ứng thay thế, chẳng hạn như tỷ lệ chênh lệch hoặc chênh lệch rủi ro, để hiểu rõ hơn khác biệt về hiệu suất. Cách tiếp cận như vậy sẽ tăng cường tính mạnh mẽ, minh bạch và tính liên quan về mặt giáo dục của các phân tích so sánh giữa các LLM và chuyên gia. Ngoài các biện pháp thống kê, giá trị thực sự của việc tích hợp LLM vào giáo dục siêu âm và thực hành lâm sàng không chỉ là cải thiện nhỏ về hiệu suất trắc nghiệm, mà còn thúc đẩy sự hiểu biết khái niệm, lý luận chẩn đoán và năng lực lâm sàng vững [1-5]. Một câu trả lời đúng do mô hình tạo ra có thể mang lại lợi ích tức thời, nhưng nếu thiếu lời giải thích hoặc ngữ cảnh hóa, thì đóng góp về mặt giáo dục vẫn còn hạn chế [2]. Ngược lại, ngay cả một câu trả lời không chính xác từ một chuyên gia cũng có thể kích thích thảo luận, nêu ra các yếu tố không chắc chắn về chẩn đoán và mô hình hóa các lập luận thiết yếu cho thực hành y khoa. Các nghiên cứu so sánh chỉ tập trung vào tỷ lệ chính xác đã bỏ qua những khía cạnh rộng hơn này của giá trị giáo dục. Vấn đề này dẫn đến một câu hỏi phức tạp: LLM nên đóng vai trò gì trong việc đào tạo bác sĩ và thực hành lâm sàng trong tương lai của họ? LLM có thể là nguồn tài nguyên tương tác để xem xét kiến thức, cung cấp khả năng truy xuất thông tin có hiệu quả bổ sung cho nghiên cứu truyền thống [5-8]. Trong vai trò này, LLM như những người đồng hành kỹ thuật số cho sách giáo khoa hoặc ngân hàng câu hỏi, với lợi thế tiềm năng là khả năng thích ứng với các truy vấn của người học. Ngoài ra, có thể sử dụng LLM nhằm định hình lập luận, hướng dẫn học viên thông qua các tình huống dựa trên trường hợp, tạo ra các phân biệt và cân nhắc các chiến lược quản lý. Tuy nhiên, ứng dụng sau cùng này có nhiều vấn đề hơn. Lập luận lâm sàng không chỉ đơn giản là áp dụng các quy tắc chẩn đoán; nó đòi hỏi sự phán đoán theo ngữ cảnh, tích hợp thông tin đa phương thức và khả năng chịu đựng sự không chắc chắn. Mặc dù LLM có thể mô phỏng các chuỗi lập luận, chúng dễ tạo ra các kết quả tuy hợp lý nhưng có sai sót [5-8]. Việc quá phụ thuộc vào những giải thích này làm tư duy phản biện, một nền tảng của giáo dục y khoa, trở nên yếu kém.
Cuối cùng, vai trò và hạn chế hiện tại của các nghiên cứu thí điểm trong đánh giá việc sử dụng các mô hình AI cho đào tạo y khoa và hỗ trợ quyết định lâm sàng là gì? Chúng cung cấp dữ liệu có giá trị, làm nổi bật các lợi ích tiềm năng và xác định rủi ro. Các báo cáo ban đầu cho thấy người mới có thể được hưởng lợi từ các kết quả được đơn giản hóa, trong khi học viên cao cấp thấy có lợi khi kiểm tra lập luận của họ với các phương án thay thế do mô hình tạo ra. Đồng thời, quy mô mẫu nhỏ đặc trưng của các nghiên cứu thí điểm làm hạn chế khả năng khái quát hóa và kết quả được diễn giải là chỉ để tạo ra giả thuyết hơn là mang tính quyết định. Do đó, nghiên cứu trong tương lai phải chặt chẽ hơn về phương pháp luận. Các mẫu lớn hơn và có tính đại diện hơn, được thu thập từ nhiều trung tâm, là điều cần thiết để nắm bắt được sự thay đổi về chuyên môn của bác sĩ [8]. Thống kê mô tả, khoảng tin cậy và quy mô hiệu ứng nên đi kèm với giá trị p cho phép diễn giải có ý nghĩa về những khác biệt quan sát được. Các phương pháp tiếp cận hỗn hợp đặc biệt có giá trị, kết hợp các biện pháp đánh giá hiệu suất định lượng với những hiểu biết định tính từ người học và giảng viên. Các thiết kế theo chiều dọc theo dõi khả năng duy trì kiến thức và khả năng chuyển giao lâm sàng theo thời gian là cần thiết nhằm đánh giá liệu việc tích hợp các chương trình (LLM) có cải tiến thực sự trong thực hành hay không. Cuối cùng, nghiên cứu nên vượt ra ngoài các hình thức trắc nghiệm đơn giản hóa, hướng tới các nhiệm vụ thực tế hơn, dựa trên ca bệnh, phản ánh tốt hơn sự phức tạp của chẩn đoán siêu âm.
Tóm lại, LLM đại diện cho một lĩnh vực mới đầy hứa hẹn cho giáo dục
y khoa, với tiềm năng hỗ trợ đào tạo siêu âm chẩn đoán. Tuy nhiên, các nghiên cứu so sánh hiện tại bị hạn chế bởi số lượng các nghiên cứu với quy mô mẫu nhỏ, thống kê không đầy đủ và kết quả đo lường hạn hẹp. Cần có các nghiên cứu đa chiều trước khi có kết luận có ý
nghĩa về vị trí của các mô hình ngôn ngữ lớn LLM bên cạnh chuyên môn của con người.
Không có nhận xét nào :
Đăng nhận xét