Mit tippel, ki diagnosztizál jobban, az orvosjelöltek vagy chatbot? A mesterséges intelligencia sokkolóan gyors fejlődéséről szinte naponta jelennek meg hírek. Egy friss kutatás arra irányult, miként teljesít orvosi kérdések megválaszolásában
Azt szerették volna megtudni, hogy miként válaszolják meg az orvosi kérdéseket, milyen tájékoztatást adnak a kezelési lehetőségekről. A kísérlet azt firtatta, vannak-e jelentős különbségek a vezető platformok között a klinikai alkalmasságuk tekintetében.
Azokat a kérdéseket tették fel a chatbotoknak, amelyeket a rezidenseknek is meg kell válaszolniuk, mielőtt az engedélyüket megkapják. A vizsgázóknak a kérdések 60 százalékára kell helyesen válaszolniuk, a történelmi átlag 75 százalékos eredmény – írja cikkében a CNBC. A kérdéssort az amerikai gyakorlatban az első év végén kell kitölteniük a rezidenseknek, és azt méri, hogy mennyire tudják alkalmazni a klinikai tudományokkal kapcsolatos ismereteiket a felügyelet nélküli orvosi gyakorlatban. Emellett tesztelték azt a képességüket is, hogy a különböző tudományágak között hogyan képesek a betegeket navigálni, ellátni.
Nem egyformán teljesítettek a chatbotokA teszt ellenőrzésekor a következő sorrend alakult ki:
|
A kísérletben tehát az OpenAI ChatGPT-4o szerepelt a legjobban, amely 98 százalékot ért el. Részletes orvosi elemzéseket nyújtott, az orvosi nyelvezetet használta. Nemcsak széles körű érveléssel adott válaszokat, hanem kontextusba helyezte a döntéshozatali folyamatát, sőt azt is megmagyarázta, hogy az alternatív válaszok miért kevésbé megfelelők.
Második helyen az Anthropic fejlesztése, a Claude végzett 90 százalékos eredménnyel. Emberszerűbb válaszokat adott egyszerűbb nyelvezettel, és úgy építette fel a magyarázatot, hogy az a betegek számára érhetőbb volt. A 86 százalékot elérő Gemini válaszai ugyanakkor nem voltak olyan alaposak, mint a ChatGPT-é vagy Claude-é. Nem érvelt annyira világosan, de a válaszai tömörek és egyértelműek voltak.
A Grok, az Elon Musk-féle xAI csevegőbotja is figyelemre méltó eredmény ért el – 84 százalékot –, de az elemzők szerint nem szolgált kielégítő érveléssel, nehéz volt megérteni, hogyan jutott el a válaszokhoz. Ebben a mérésben utolsó helyen a HuggingChat végzett 66 százalékkal: a helyesen megválaszolt kérdéseket jól megindokolta, tömör válaszokat és forráshivatkozásokat is adott.
Az elemzők hangsúlyozzák: ezeket a modelleket nem orvosi érvelésre tervezték, a fogyasztói technológiai szektor termékei, elsősorban olyan feladatok elvégzésére szánták, mint a fordítás és a tartalomgyártás.
Ehhez képest az derült ki, hogy klinikai érvelésre is képesek, egészen kiváló eredménnyel.
A fejlesztők már foglalkoznak olyan platformok építésével, amelyek kifejezetten az egészségügyi problémák megoldásában fognak segíteni.
A Google a közelmúltban bemutatta a Med-Geminit, a korábbi Gemini-modellek továbbfejlesztett változatát, amely webalapú keresésre is képes a klinikai gondolkodás javítására.
A szakértők azt mondják, ahogy a mesterséges intelligencia, ezek a nyelvi modellek is fejlődnek. Ezzel egy időben fejlődik az összetett egészségügyi adatok elemzése is, valamint egyre jobban tudnak diagnosztizálni és kezeléseket ajánlani. Olyan szintű precizitást és következetességet kínálhatnak, amely kizárja például az orvos fáradtságából eredő tévedést. Ez pedig utat nyit egy olyan jövő felé, ahol az orvosi ellátásra fejlesztett portálokat nem orvosok, hanem gépek is működtethetik.
Portfóliónk minőségi tartalmat jelent minden olvasó számára. Egyedülálló elérést, országos lefedettséget és változatos megjelenési lehetőséget biztosít. Folyamatosan keressük az új irányokat és fejlődési lehetőségeket. Ez jövőnk záloga.