ChatGPT, a popular artificial intelligence language-processing model, failed a gastroenterology self-assessment test several times in a recent study.
ChatGPT, một mô hình xử lý ngôn ngữ trí tuệ nhân tạo phổ biến, đã nhiều lần thất bại trong bài kiểm tra tự đánh giá về tiêu hóa trong một nghiên cứu gần đây.
Versions 3 and 4 of the chatbot scored only 65% and 62%, respectively, on the American College of Gastroenterology (ACG) Self-Assessment Test. The minimum passing grade is 70%.
Phiên bản 3 và phiên bản 4 của chatbot chỉ đạt điểm lần lượt là 65% và 62% trên Bài kiểm tra tự đánh giá của Học viện Tiêu hóa Mỹ (ACG). Điểm đỗ tối thiểu là 70%.
Arvind J. Trindade, MD
"You might expect a physician to score 99%, or at least 95%," lead author Arvind J. Trindade, MD, regional director of endoscopy at Northwell Health (Central Region) in New Hyde Park, New York, told Medscape Medical News in an interview.
Tác giả chính Arvind J. Trindade, MD, giám đốc khu vực về nội soi tại Northwell Health (Khu vực Trung tâm) ở New Hyde Park, New York, nói với Medscape Medical News: "Bạn có thể mong đợi bác sĩ chấm điểm 99% hoặc ít nhất là 95%. trong một cuộc phỏng vấn.
The study was published online May 22 in the American Journal of Gastroenterology.
Nghiên cứu được công bố trực tuyến vào ngày 22 tháng 5 trên Tạp chí Tiêu hóa Hoa Kỳ.
Trindade and colleagues undertook the study amid growing reports of students using the tool across many academic areas, including law and medicine, and growing interest in the chatbot's potential in medical education.
Trindade và các đồng nghiệp đã tiến hành nghiên cứu trong bối cảnh ngày càng có nhiều báo cáo về việc sinh viên sử dụng công cụ này trong nhiều lĩnh vực học thuật, bao gồm luật và y học, đồng thời ngày càng quan tâm đến tiềm năng của chatbot trong giáo dục y tế.
"I saw gastroenterology students typing questions into it. I wanted to know how accurate it was in gastroenterology — if it was going to be used in medical education and patient care," said Trindade, who is also an associate professor at Feinstein Institutes for Medical Research in Manhasset, New York. "Based on our research, ChatGPT should not be used for medical education in gastroenterology at this time, and it has a way to go before it should be implemented into the healthcare field."
"Tôi thấy các sinh viên khoa tiêu hóa gõ câu hỏi vào đó. Tôi muốn biết độ chính xác của nó trong khoa tiêu hóa - liệu nó có được sử dụng trong giáo dục y tế và chăm sóc bệnh nhân hay không", Trindade, đồng thời là phó giáo sư tại Viện Y khoa Feinstein, cho biết. Nghiên cứu tại Manhasset, New York. "Dựa trên nghiên cứu của chúng tôi, ChatGPT không nên được sử dụng cho giáo dục y tế về tiêu hóa vào thời điểm này và nó cần phải thực hiện trước khi được triển khai trong lĩnh vực chăm sóc sức khỏe."
Kết quả không tốt
The researchers tested the two versions of ChatGPT on both the 2021 and 2022 online ACG Self-Assessment Test, a multiple-choice exam designed to gauge how well a trainee would do on the American Board of Internal Medicine Gastroenterology board examination.
Các nhà nghiên cứu đã thử nghiệm hai phiên bản ChatGPT trên cả Bài kiểm tra tự đánh giá ACG trực tuyến năm 2021 và 2022, một bài kiểm tra trắc nghiệm được thiết kế để đánh giá mức độ một học viên sẽ làm trong bài kiểm tra của Hội đồng Nội khoa Tiêu hóa Hoa Kỳ.
Questions that involved image selection were excluded from the study. For those that remained, the questions and answer choices were copied and pasted directly into ChatGPT, which returned answers and explanations. The corresponding answer was selected on the ACG website based on the chatbot's response.
Các câu hỏi liên quan đến lựa chọn hình ảnh đã bị loại khỏi nghiên cứu. Đối với những câu hỏi còn lại, các câu hỏi và lựa chọn trả lời đã được sao chép và dán trực tiếp vào ChatGPT, ứng dụng này sẽ trả về câu trả lời và giải thích. Câu trả lời tương ứng được chọn trên trang web của ACG dựa trên phản hồi của chatbot.
Of the 455 questions posed, ChatGPT-3 correctly answered 296, and ChatGPT-4 got 284 right. There was no discernible pattern in the type of question that the chatbot answered incorrectly, but questions on surveillance timing for various disease states, diagnosis, and pharmaceutical regimens were all answered incorrectly.
Trong số 455 câu hỏi được đặt ra, ChatGPT-3 trả lời đúng 296 câu và ChatGPT-4 trả lời đúng 284 câu. Không có mẫu câu hỏi rõ ràng nào trong loại câu hỏi mà chatbot trả lời sai, nhưng các câu hỏi về thời gian giám sát đối với các tình trạng bệnh khác nhau, chẩn đoán và phác đồ dược phẩm đều được trả lời sai.
The reasons for the tool's poor performance could lie with the large language model underpinning ChatGPT, the researchers write. The model was trained on freely available information — not specifically on medical literature and not on materials that require paid journal subscriptions — to be a general-purpose interactive program.
Nguyên nhân của hiệu suất kém của công cụ có thể nằm ở mô hình ngôn ngữ lớn hỗ trợ ChatGPT, các nhà nghiên cứu viết. Mô hình này đã được đào tạo trên thông tin miễn phí có sẵn, không đặc biệt trên văn bản y học và không trên tài liệu đòi hỏi đăng ký tạp chí trả phí, để trở thành một chương trình tương tác mục đích chung.
Additionally, the chatbot may use information from a variety of sources, including non- or quasi-medical sources, or out-of-date sources, which can lead to errors, they note. ChatGPT-3 was last updated in June 2021 and ChatGPT-4 in September 2021.
Ngoài ra, chatbot có thể sử dụng thông tin từ nhiều nguồn khác nhau, bao gồm các nguồn phi y tế hoặc bán y tế hoặc các nguồn lỗi thời, có thể dẫn đến sai sót, họ lưu ý. ChatGPT-3 được cập nhật lần cuối vào tháng 6 năm 2021 và ChatGPT-4 vào tháng 9 năm 2021.
"ChatGPT does not have an intrinsic understanding of an issue," Trindade said. "Its basic function is to predict the next word in a string of text to produce an expected response, regardless of whether such a response is factually correct or not."
"ChatGPT không có hiểu biết nội tại về một vấn đề," Trindade nói. "Chức năng cơ bản của nó là dự đoán từ tiếp theo trong một chuỗi văn bản để tạo ra phản hồi mong đợi, bất kể phản hồi đó có thực sự chính xác hay không."
Nghiên cứu trước đây
In a previous study, ChatGPT was able to pass parts of the US Medical Licensing Examination (USMLE).
Trong một nghiên cứu trước đây, ChatGPT đã có thể vượt qua các phần của Kỳ thi cấp phép y tế Hoa Kỳ (USMLE).
The chatbot may have performed better on the USMLE because the information tested on the exam may have been more widely available for ChatGPT's language training, Trindade said. "In addition, the threshold for passing [the USMLE] is lower with regard to the percentage of questions correctly answered," he said.
Trindade cho biết chatbot có thể đã hoạt động tốt hơn trên USMLE vì thông tin được kiểm tra trong bài kiểm tra có thể đã được phổ biến rộng rãi hơn cho việc đào tạo ngôn ngữ của ChatGPT. "Ngoài ra, ngưỡng để vượt qua [USMLE] thấp hơn đối với tỷ lệ phần trăm câu hỏi được trả lời đúng," ông nói.
ChatGPT seems to fare better at helping to inform patients than it does on medical exams. The chatbot provided generally satisfactory answers to common patient queries about colonoscopy in one study and about hepatocellular carcinoma and liver cirrhosis in another study.
ChatGPT dường như giúp thông báo cho bệnh nhân tốt hơn so với trong các cuộc kiểm tra y tế. Chatbot đã cung cấp các câu trả lời nhìn chung thỏa đáng cho các câu hỏi phổ biến của bệnh nhân về nội soi trong một nghiên cứu và về ung thư biểu mô tế bào gan và xơ gan trong một nghiên cứu khác.
For ChatGPT to be valuable in medical education, "future versions would need to be updated with medical resources such as journal articles, society guidelines, and medical databases, such as UpToDate," Trindade said. "With directed medical training in gastroenterology, it may be a future tool for education or patient use in this field, but not currently as it is now. Before it can be used in gastroenterology, it should be validated."
Để ChatGPT có giá trị trong giáo dục y tế, "các phiên bản trong tương lai sẽ cần được cập nhật với các tài nguyên y tế như bài báo, hướng dẫn xã hội và cơ sở dữ liệu y tế, chẳng hạn như UpToDate," Trindade nói. "Với việc đào tạo y tế trực tiếp về khoa tiêu hóa, nó có thể là một công cụ trong tương lai cho giáo dục hoặc bệnh nhân sử dụng trong lĩnh vực này, nhưng không phải như hiện tại. Trước khi nó có thể được sử dụng trong khoa tiêu hóa, nó cần được xác nhận."
That said, he noted, medical education has evolved from being based on textbooks and print journals to include internet-based journal data and practice guidelines on specialty websites. If properly primed, resources such as ChatGPT may be the next logical step.
Điều đó nói rằng, ông lưu ý, giáo dục y tế đã phát triển từ việc dựa trên sách giáo khoa và tạp chí in để bao gồm dữ liệu tạp chí dựa trên internet và hướng dẫn thực hành trên các trang web chuyên ngành. Nếu được chuẩn bị đúng cách, các tài nguyên như ChatGPT có thể là bước hợp lý tiếp theo.
This study received no funding. Trindade is a consultant for Pentax Medical, Boston Scientific, Lucid Diagnostic, and Exact Science and receives research support from Lucid Diagnostics.
Nghiên cứu này không nhận tài trợ. Trindade là cố vấn cho Pentax Medical, Boston Scientific, Lucid Diagnostic và Exact Science và nhận hỗ trợ nghiên cứu từ Lucid Diagnostics.
Am J Gastroenterol. Published online May 22, 2023. Abstract
Diana Swift is a freelance medical journalist based in Toronto.
For more news, follow Medscape on Facebook, Twitter, Instagram, and YouTube
Nội dung bài viết được lấy từ website https://www.medscape.com/
Link bài viết xin mời xem Tại đây
Dịch giả: Chat GPT