Trí tuệ nhân tạo (AI) mang lại tiềm năng to lớn trong việc nâng cao chất lượng, an toàn, hiệu quả, trải nghiệm và công bằng trong cung cấp dịch vụ chăm sóc sức khỏe. Kể từ khi các mô hình ngôn ngữ lớn (LLMs) được phát hành rộng rãi vào cuối năm 2022, khả năng tóm tắt văn bản phức tạp, trích xuất dữ liệu có cấu trúc và tạo nội dung mới của chúng đã thúc đẩy sự quan tâm và kỳ vọng ngày càng tăng đối với AI trong lĩnh vực y tế. Mặc dù các ứng dụng của LLMs trong việc lập tài liệu lâm sàng, soạn thảo tin nhắn nội bộ và tóm tắt các cuộc gặp với bệnh nhân đang dần xuất hiện, nhưng các đánh giá toàn diện về tính hợp lệ và tác động của chúng vẫn còn hạn chế, đặc biệt khi so sánh với nội dung do các bác sĩ tạo ra – tiêu chuẩn hiện tại trong chăm sóc y tế. Thậm chí ít được nghiên cứu hơn là các cuộc thảo luận về việc sử dụng AI trong các môi trường chăm sóc cấp cứu.
Một lĩnh vực mà AI có tiềm năng được ứng dụng là nâng cao độ chính xác và hiệu quả trong quá trình chuyển giao từ khoa cấp cứu (ED) sang các khoa nội trú. Khi bệnh nhân được chuyển từ ED vào các khoa nội trú, việc bàn giao thông tin từ nhân viên y tế tại ED sang đội ngũ điều trị nội trú đóng vai trò quan trọng trong việc duy trì tính liên tục của chăm sóc và đảm bảo an toàn cho bệnh nhân. Những lần bàn giao không được thực hiện tốt, với thông tin không đầy đủ hoặc sai lệch, các phương pháp giao tiếp không hiệu quả, và thiếu các quy trình chuẩn hóa, có thể dẫn đến các sự cố bất lợi. Ngoài ra, quá trình bàn giao thường tốn nhiều thời gian đối với các nhân viên y tế bận rộn tại ED, và những sự chậm trễ này có thể cản trở dòng chảy bệnh nhân trong các ED vốn đã quá tải.
Trong bối cảnh này, Hartman và cộng sự đã phát triển và xác thực một thuật toán AI mới sử dụng các mô hình ngôn ngữ lớn (LLMs) để tạo ra các ghi chú bàn giao từ khoa cấp cứu (ED) — những bản tóm tắt có cấu trúc về quá trình điều trị tại ED dành cho đội ngũ chăm sóc nội trú. Thuật toán này kết hợp phương pháp khớp mẫu dựa trên quy tắc để lấy dữ liệu có cấu trúc sẵn có và một LLM được tiền huấn luyện, tinh chỉnh bằng 1500 hồ sơ bệnh nhân tại ED để tạo ra các ghi chú bàn giao. Để đánh giá chất lượng và mức độ an toàn của các ghi chú do AI tạo ra, các nhà nghiên cứu đã chọn ngẫu nhiên 50 trường hợp bệnh nhân để so sánh giữa ghi chú bàn giao do LLM tạo ra và ghi chú do bác sĩ viết.
Sử dụng các công cụ đánh giá dựa trên AI để đo lường mức độ tương đồng của văn bản, nghiên cứu phát hiện rằng các ghi chú do LLM tạo ra giống với ghi chú nguồn từ ED hơn và chi tiết hơn so với các bản tóm tắt do bác sĩ viết. Ba bác sĩ sau đó đã xem xét cả ghi chú bàn giao do AI tạo và do bác sĩ viết, đánh giá chúng về độ tin cậy, tính đầy đủ, mức độ sắp xếp thông tin, độ chính xác, rủi ro an toàn cho bệnh nhân và tính hữu ích. Ghi chú do LLM tạo ra đạt điểm tốt nhưng thấp hơn so với ghi chú do bác sĩ viết (ví dụ: tính hữu ích có điểm trung bình là 4,04 so với 4,36 trên thang điểm 5), và không có rủi ro nào đe dọa tính mạng bệnh nhân được ghi nhận.
Hartman và cộng sự đã tận dụng thực tế rằng khoa cấp cứu (ED) tại Trung tâm Y tế Weill Cornell đã sử dụng sẵn một mẫu ghi chú bàn giao ED chuẩn hóa; tuy nhiên, thực hành này không phổ biến ở hầu hết các ED, nơi việc bàn giao thường được thực hiện qua điện thoại. Chỉ có rất ít nghiên cứu đánh giá hiệu quả của các công cụ bàn giao điện tử tại ED, và Hartman cùng cộng sự cũng lưu ý rằng trong đánh giá nội bộ của họ, các ghi chú chuẩn hóa cho thấy mức độ hoàn chỉnh, chất lượng và tính hữu ích thay đổi. Một rào cản đáng kể đối với việc áp dụng ghi chú bàn giao bằng văn bản là khối lượng công việc bổ sung mà chúng gây ra cho các nhân viên y tế tại ED vốn đã rất bận rộn. Những kết quả tích cực từ nghiên cứu này có thể làm tăng sự quan tâm và khuyến khích việc áp dụng các ghi chú bàn giao bằng văn bản chuẩn hóa tại ED, tương tự như việc điều dưỡng đã áp dụng định dạng "tình huống, bối cảnh, đánh giá và khuyến nghị" (situation, background, assessment, recommendation – SBAR).
Mặc dù Hartman và cộng sự đã thực hiện một nghiên cứu xác thực ban đầu khá vững chắc đối với thuật toán, nghiên cứu của họ vẫn có một số hạn chế. Đánh giá chỉ tập trung vào chất lượng ghi chú và dựa trên một mẫu dữ liệu hồi cứu khá khiêm tốn mà không có so sánh thống kê. Một nghiên cứu tiến cứu với quy mô đủ lớn để phát hiện sự khác biệt và áp dụng các kiểm định thống kê có thể củng cố thêm các phát hiện này. Để giải quyết các câu hỏi còn tồn tại về hiệu quả của ghi chú bàn giao bằng văn bản tại ED, một thử nghiệm lâm sàng ngẫu nhiên với 3 nhóm trong tương lai có thể so sánh tác động của ghi chú do LLM tạo ra, ghi chú do bác sĩ viết và bàn giao qua điện thoại đối với các kết quả chuyển giao tại ED. Điều quan trọng là các nghiên cứu trong tương lai cần bao gồm cả quan điểm của các bác sĩ nhận bàn giao, chẳng hạn như các bác sĩ nội trú, trong quá trình đánh giá.
Đảm bảo chất lượng và an toàn trong AI y tế là ưu tiên hàng đầu. Nghiên cứu của Hartman và cộng sự so sánh các ghi chú do AI tạo ra với tiêu chuẩn tham chiếu là các ghi chú do bác sĩ chuyên môn viết, cho thấy chất lượng tổng thể thấp hơn và tiềm ẩn nhiều rủi ro an toàn cho bệnh nhân hơn trong các ghi chú do AI tạo. Mặc dù phân tích này đưa ra ước tính thận trọng về rủi ro khi sử dụng AI một cách độc lập, một quy trình làm việc thay thế và có thể được ưa chuộng hơn là để AI soạn thảo ghi chú bàn giao, sau đó bác sĩ tại ED sẽ xem xét và chỉnh sửa.
Phương pháp kết hợp giữa người và máy (human-in-the-loop) này cho phép kiểm soát các lỗi trong ghi chú do LLM tạo ra và có thể bổ sung những chi tiết quan trọng cần thiết. Chẳng hạn, mức độ quan trọng của việc ghi lại chi tiết tiền sử bệnh so với việc nhấn mạnh một kết quả xét nghiệm hoặc hình ảnh chính có thể khác nhau đáng kể tùy theo tình huống lâm sàng, điều mà AI có thể gặp khó khăn trong việc đánh giá đầy đủ. Hơn nữa, việc tích hợp các công cụ giải thích vào đầu ra của AI, chẳng hạn như liên kết đến các tài liệu nguồn, có thể cải thiện quá trình xem xét của bác sĩ.
Để thúc đẩy việc ứng dụng AI trong y tế, việc tích hợp liền mạch vào quy trình làm việc lâm sàng và hệ thống hồ sơ sức khỏe điện tử (EHR) là rất quan trọng. Vì nghiên cứu của Hartman và cộng sự được thực hiện hồi cứu, tất cả dữ liệu cần thiết đều đã có sẵn cho thuật toán AI. Tuy nhiên, trong thực tế tại khoa cấp cứu (ED), một số ghi chú được sử dụng làm đầu vào (chẳng hạn như ghi chú của bác sĩ ED, ghi chú tư vấn, ghi chú tiến trình và ghi chú thủ thuật) có thể chưa hoàn thành vào thời điểm bàn giao, điều này có thể hạn chế hiệu quả của công cụ.
Do đó, công cụ bàn giao ED cần được tích hợp với hệ thống EHR để truy cập dữ liệu theo thời gian thực, có khả năng tận dụng các tiêu chuẩn tương tác như Fast Healthcare Interoperability Resources (FHIR) và US Core Data for Interoperability (USCDI). Thêm vào đó, khi các nhà cung cấp EHR phát triển các công cụ LLM của riêng họ, họ có thể tích hợp các giải pháp bàn giao ED tương tự trực tiếp vào hệ thống. Việc tích hợp chặt chẽ với EHR cũng sẽ hỗ trợ (và thậm chí có thể bắt buộc) các quy trình làm việc trong đó bác sĩ xem xét và chỉnh sửa các ghi chú do LLM tạo ra.
Các mô hình AI đang phát triển và cải thiện nhanh chóng. Trong nghiên cứu này, Hartman và cộng sự sử dụng mô hình mã nguồn mở LLaMa 2, đồng thời áp dụng các chiến lược heuristic và các mô hình saliency dựa trên Robustly Optimized BERT Approach (RoBERTa) để rút ngắn ghi chú từ ED nhằm phù hợp với đầu vào của mô hình. Phiên bản mới nhất của LLM mà Hartman và cộng sự sử dụng, phiên bản 3.1, cung cấp độ dài ngữ cảnh lớn hơn đáng kể, có khả năng loại bỏ nhu cầu rút ngắn đầu vào, qua đó cải thiện hiệu quả, hiệu suất và giảm chi phí.
Khi các mô hình tiến bộ, việc tái đánh giá hiệu suất của chúng một cách liên tục là cần thiết, điều này sẽ tạo ra những thách thức mới trong triển khai và đánh giá; không thể giả định rằng quy trình hoạt động tốt trên phiên bản hiện tại của LLM cũng sẽ đạt kết quả tương tự ở các phiên bản tương lai. Bên cạnh đó, việc giám sát hiệu suất liên tục của các thuật toán AI trong môi trường lâm sàng là rất quan trọng, với các tiêu chuẩn và công cụ hỗ trợ đang được phát triển nhanh chóng. Học hỏi từ các phương pháp tốt nhất trong giám sát hỗ trợ quyết định lâm sàng, chẳng hạn như thu thập phản hồi trực tiếp về hiệu suất từ người dùng cuối, có thể mang lại nhiều lợi ích.
Kể từ khi hệ thống hồ sơ sức khỏe điện tử (EHR) ra đời, các bác sĩ đã dành một lượng lớn thời gian cho việc nhập dữ liệu có cấu trúc và không cấu trúc, cả trong và ngoài giờ làm việc lâm sàng. Các công cụ do LLM tạo ra, chẳng hạn như ghi chú bàn giao từ khoa cấp cứu (ED) được thảo luận ở đây, mang đến cái nhìn về một tương lai nơi các bác sĩ có thể tập trung hơn vào chăm sóc bệnh nhân trong khi máy tính xử lý các nhiệm vụ ghi chép và hành chính khác.
Các công cụ tài liệu môi trường (ambient documentation tools) mới nổi hiện nay đã cho phép ghi lại các ghi chú lâm sàng chất lượng cao gần như theo thời gian thực, và những ghi chú này có thể được sử dụng làm đầu vào cho các công cụ AI như hệ thống bàn giao ED để đơn giản hóa quy trình nhập viện. Các ứng dụng AI tương tự có thể được phát triển để cung cấp ngữ cảnh cho các tư vấn chuyên khoa nội trú và giới thiệu ngoại trú, tiềm năng tiết kiệm thời gian và cải thiện quá trình chuyển giao chăm sóc.
Bằng cách chuyển vai trò của bác sĩ sang việc xem xét và tinh chỉnh nội dung do AI tạo ra, tương tự như cách bác sĩ giám sát học viên, chúng ta có thể nâng cao trải nghiệm của bác sĩ, đồng thời tạo điều kiện để họ có thêm thời gian tương tác với bệnh nhân và tư duy phản biện.
Mặc dù việc đạt được sự tích hợp lý tưởng của AI trong y học vẫn cần nhiều nghiên cứu hơn, nghiên cứu của Hartman và cộng sự đại diện cho một bước tiến đầy hứa hẹn trong việc sử dụng các mô hình ngôn ngữ lớn (LLMs) trong chăm sóc cấp cứu. Những nỗ lực trong tương lai nên tập trung vào việc đánh giá tiến cứu sâu hơn và lập kế hoạch triển khai cẩn thận để khai thác tối đa tiềm năng của các công cụ này.