أحدث إصدار من ChatGPT ، الذكاء الاصطناعي روبوت الدردشة من OpenAI ذكي بما يكفي لاجتياز اختبار على غرار لوحة الأشعة ، وفقًا لبحث جديد من جامعة تورنتو.
أجاب GPT-4 ، الذي تم إطلاقه رسميًا في 13 مارس 2023 ، بشكل صحيح على 81٪ من 150 سؤال متعدد الخيارات في الامتحان.
على الرغم من الدقة العالية لبرنامج chatbot ، وجدت الدراسة – المنشورة في مجلة Radiological Society of North America (RSNA) – بعض الأخطاء المقلقة.
يقدم CHATGPT نصيحة طبية أفضل من الأطباء الحقيقيين في الدراسة العمياء: “سيكون هذا مغيرًا للعبة”
أوضح المؤلف الرئيسي راجيش بهايانا ، طبيب أشعة البطن ورئيس قسم الأشعة ، أن “أخصائي الأشعة يقوم بثلاثة أشياء عند تفسير الصور الطبية: البحث عن النتائج ، واستخدام المنطق المتقدم لفهم معنى النتائج ، ثم نقل هذه النتائج إلى المرضى والأطباء الآخرين”. مسؤول التكنولوجيا في التصوير الطبي بجامعة تورنتو ، مستشفى تورنتو العام في تورنتو كندافي تصريح لفوكس نيوز ديجيتال.

توصلت دراسة جديدة من جامعة تورنتو إلى أن أحدث إصدار من ChatGPT ، روبوت محادثة الذكاء الاصطناعي الخاص بـ OpenAI ، ذكي بما يكفي لاجتياز اختبار على غرار لوحة الأشعة. (آي ستوك)
وتابعت قائلة: “تركز معظم أبحاث الذكاء الاصطناعي في علم الأشعة على رؤية الكمبيوتر ، لكن نماذج اللغة مثل ChatGPT تؤدي بشكل أساسي خطوتين وثلاث خطوات (الاستدلال المتقدم ومهام اللغة)”.
“يوفر بحثنا نظرة ثاقبة لفعالية ChatGPT في سياق إشعاعي ، ويسلط الضوء على الإمكانات المذهلة لنماذج اللغة واسعة النطاق ، إلى جانب القيود الحالية التي تجعلها غير موثوقة.”
دردشة لمقدمي الرعاية الصحية: هل يمكن للذكاء الاصطناعي أن يجعل عمل الخبراء أسهل؟
وصمم الباحثون الأسئلة بطريقة تعكس أسلوب ومحتوى وصعوبة امتحانات الكلية الملكية الكندية والبورد الأمريكي للأشعة ، بحسب مناقشة الدراسة في المجلة الطبية.
(نظرًا لأن ChatGPT لا يقبل الصور بعد ، فقد اقتصر الباحثون على الأسئلة النصية.)
ثم طُرحت الأسئلة على شخصين مختلفين إصدارات ChatGPT: GPT-3.5 وأحدث GPT-4.
“تحسن ملحوظ” في التفكير المتقدم
أجاب الإصدار GPT-3.5 من ChatGPT على 69٪ من الأسئلة بشكل صحيح (104 من 150) ، بالقرب من علامة النجاح البالغة 70٪ التي استخدمتها الكلية الملكية الكندية ، وفقًا لنتائج الدراسة.
لقد عانى أكثر من غيره مع الأسئلة التي تنطوي على “مهارات التفكير العليا” ، مثل وصف نتائج التصوير.

قال المؤلف الرئيسي للدراسة الجديدة (غير مصور): “يقوم اختصاصي الأشعة بثلاثة أشياء عند تفسير الصور الطبية: البحث عن النتائج ، واستخدام المنطق المتقدم لفهم معنى النتائج ، ثم نقل هذه النتائج إلى المرضى والأطباء الآخرين”. . (آي ستوك)
أما بالنسبة لـ GPT-4 ، فقد أجاب على 81٪ (121 من 150) من نفس الأسئلة بشكل صحيح – متجاوزًا عتبة النجاح البالغة 70٪.
كان الإصدار الأحدث أفضل بكثير في الإجابة على أسئلة التفكير العليا.
قال بهايانا: “كان الغرض من الدراسة هو معرفة أداء ChatGPT في سياق علم الأشعة – كل من التفكير المتقدم والمعرفة الأساسية”.
أجاب GPT-4 على 81٪ من الأسئلة بشكل صحيح ، متجاوزًا عتبة النجاح البالغة 70٪.
وأضافت: “كان أداء GPT-4 جيدًا للغاية في كلا المجالين وأظهر فهماً أفضل لسياق لغة الأشعة المحددة – وهو أمر أساسي لتمكين أدوات أكثر تقدمًا يمكن لأخصائيي الأشعة استخدامها ليكونوا أكثر كفاءة وفعالية”.
فوجئ الباحثون بـ “التحسن الملحوظ” لـ GPT-4 في قدرات التفكير المتقدمة على GPT-3.5.
قال بهايانا: “تسلط النتائج التي توصلنا إليها الضوء على الإمكانات المتزايدة لهذه النماذج في مجال الأشعة ، ولكن أيضًا في مجالات أخرى من الطب”.

قال المؤلف الرئيسي للدراسة الجديدة: “تسلط النتائج التي توصلنا إليها الضوء على الإمكانات المتزايدة لهذه النماذج في علم الأشعة ، ولكن أيضًا في مجالات أخرى من الطب”. (نيلسون الميدا / وكالة الصحافة الفرنسية عبر غيتي إيماجز)
دكتور هارفي كاسترو ، أ مقرها في دالاس ، تكساس طبيب طب الطوارئ المعتمد من مجلس الإدارة والمتحدث الوطني في مجال الذكاء الاصطناعي في الرعاية الصحية ، لم يشارك في الدراسة ولكنه راجع النتائج.
قال لـ Fox News Digital: “يمكن أن تُعزى القفزة في الأداء من GPT-3.5 إلى GPT-4 إلى مجموعة بيانات التدريب الأكثر شمولاً وزيادة التركيز على التعلم البشري”.
وأضاف: “هذا التدريب المعزز يمكّن GPT-4 من تفسير وفهم واستخدام المعرفة المضمنة بشكل أكثر فاعلية”.
الدردشة والرعاية الصحية: هل يمكن للذكاء الاصطناعي أن يغير تجربة المريض؟
وأشار كاسترو إلى أن الحصول على درجة أعلى في اختبار معياري لا يعني بالضرورة فهمًا أعمق لموضوع طبي مثل الأشعة.
وقال: “إنه يظهر أن GPT-4 أفضل في التعرف على الأنماط بناءً على الكمية الهائلة من المعلومات التي تدرب عليها”.
مستقبل ChatGPT في الرعاية الصحية
الكثير من خبراء التكنولوجيا الصحيةبما في ذلك Bhayana ، يعتقد أن نماذج اللغة واسعة النطاق (LLMs) مثل GPT-4 ستغير الطريقة التي يتفاعل بها الناس مع التكنولوجيا بشكل عام – والطب ، على وجه التحديد.
وقالت لشبكة فوكس نيوز ديجيتال: “لقد تم دمجها بالفعل في محركات البحث مثل Google والسجلات الطبية الإلكترونية مثل Epic وبرامج الإملاء الطبي مثل Nuance”.
“ولكن هناك العديد من التطبيقات المتقدمة لهذه الأدوات التي ستفعل ذلك تحويل الرعاية الصحية أبعد من ذلك.”

قال الدكتور هارفي كاسترو ، طبيب الطوارئ المعتمد من مجلس الإدارة والمتحدث الوطني حول الذكاء الاصطناعي في الرعاية الصحية: “يمكن أن تُعزى القفزة في الأداء من GPT-3.5 إلى GPT-4 إلى مجموعة بيانات التدريب الأكثر شمولًا والتركيز المتزايد على التعلم البشري”. . لصالح فوكس نيوز ديجيتال. (جاكوب بورزيكي / نور فوتو)
في المستقبل ، يعتقد بهايانا أن هذه النماذج يمكن أن تجيب بدقة على أسئلة المرضى ، وتساعد الأطباء على إجراء التشخيصات وتوجيه قرارات العلاج.
من خلال التدريب في مجال الأشعة ، تصورت أن LLMs يمكن أن تساعد في زيادة قدرات أطباء الأشعة وجعلهم أكثر كفاءة وفعالية.
وأضافت: “لم نصل إلى هذا الحد بعد – النماذج ليست موثوقة بما يكفي لاستخدامها في الممارسة السريرية – لكننا نتحرك بسرعة في الاتجاه الصحيح”.
حدود ChatGPT في الطب
قال كاسترو: ربما يكون أكبر قيود على LLMs في علم الأشعة هو عدم قدرتها على تفسير البيانات المرئية ، وهو جانب رئيسي من جوانب الأشعة.
نماذج اللغات الكبيرة (LLM) مثل ChatGPT وأشار بهايانا إلى أنهم معروفون أيضًا بميلهم إلى “الهلوسة” ، أي عندما يقدمون معلومات غير صحيحة بطريقة تبدو واثقة.
“النماذج ليست موثوقة بعد بما يكفي لاستخدامها في الممارسة السريرية.”
وقالت: “انخفضت هذه الهلوسة في GPT-4 مقارنة بـ 3.5 ، لكنها لا تزال تحدث بشكل متكرر للغاية بحيث لا يمكن الاعتماد عليها في الممارسة السريرية”.
وأضاف بهايانا: “يجب أن يكون الأطباء والمرضى على دراية بمزايا وقيود هذه النماذج ، بما في ذلك إدراك أنه لا يمكن الاعتماد عليها حاليًا كمصدر وحيد للمعلومات”.

“يجب أن يكون الأطباء والمرضى على دراية بمزايا وقيود هذه النماذج ، بما في ذلك إدراك أنه لا يمكن الاعتماد عليها حاليًا كمصدر وحيد للمعلومات.” (فرانك رامبنهورست / فوتو أليانس عبر غيتي إيماجز)
وافق كاسترو على أنه على الرغم من أن LLM قد يكون لديها معرفة كافية لاجتياز الاختبارات ، إلا أنها لا تتطابق مع الأطباء البشريين عندما يتعلق الأمر بتشخيص المرضى ووضع خطط العلاج.
وقال: “الفحوصات الموحدة ، بما في ذلك تلك الخاصة بالأشعة ، تركز في الغالب على الحالات” الكتابية “.
“لكن في الممارسة السريرية ، نادرًا ما يعاني المرضى من أعراض الكتب المدرسية.”
انقر هنا لتنزيل تطبيق FOX NEWS
وقال كاسترو إن كل مريض لديه أعراض فريدة وتاريخ وعوامل شخصية قد تختلف عن الحالات “القياسية”.
“غالبًا ما يتطلب هذا التعقيد حكمًا دقيقًا واتخاذ قرارات دقيقة ، وهي قدرة يفتقر إليها الذكاء الاصطناعي حاليًا – بما في ذلك النماذج المتقدمة مثل GPT-4.”
انقر هنا للاشتراك في نشرتنا الإخبارية الصحية
في حين أن نتائج GPT-4 المحسّنة واعدة ، قال كاسترو ، “هناك الكثير من العمل الذي يتعين القيام به لضمان أن أدوات الذكاء الاصطناعي دقيقة وآمنة وقيمة في بيئة سريرية حقيقية”.