Tyrėjai teigia, kad OpenAI bendrosios paskirties kalbos atpažinimo modelis yra ydingas

„Associated Press“ neseniai pranešė, kad apklausė daugiau nei tuziną programinės įrangos inžinierių, kūrėjų ir akademinių tyrėjų, kurie nesutinka su dirbtinio intelekto kūrėjo „OpenAI“ teiginiu, kad vienas iš jos mašininio mokymosi įrankių, kuris naudojamas daugelio JAV sveikatos sistemų klinikiniuose dokumentuose. , turi žmogaus panašų tikslumą.
KODĖL TAI SVARBU
Mičigano universiteto ir kiti mokslininkai nustatė, kad AI haliucinacijos lėmė klaidingus nuorašus – kartais su rasine ir smurtine retorika, be įsivaizduojamo medicininio gydymo, rašo AP.
Susirūpinimą kelia plačiai paplitęs įrankių, naudojančių Whisper, prieinamą atvirąjį kodą arba kaip API, naudojimas, dėl kurio pacientai gali diagnozuoti klaidingai arba priimti netinkamus medicininius sprendimus.
„Hint Health“ yra vienas klinikinių technologijų tiekėjų, praėjusiais metais pridėjęs Whisper API, suteikdamas gydytojams galimybę įrašyti pacientų konsultacijas pardavėjo programoje ir jas perrašyti naudojant didelius „OpenAI“ kalbų modelius.
Tuo tarpu daugiau nei 30 000 gydytojų ir 40 sveikatos sistemų, tokių kaip Los Andželo vaikų ligoninė, naudoja aplinkos dirbtinį intelektą iš Nable, kuriame yra Whisper pagrindu sukurta priemonė. Nabla teigė, kad pagal ataskaitą Whisper buvo naudojamas maždaug septyniems milijonams medicininių vizitų perrašyti.
Šios bendrovės atstovas citavo pirmadienį paskelbtą tinklaraštį, kuriame aptariami konkretūs veiksmai, kurių bendrovė imasi siekdama užtikrinti, kad modeliai būtų tinkamai naudojami ir stebimi.
„Nabla aptinka neteisingai sugeneruotą turinį, remdamasi rankiniu užrašo redagavimu ir atsiliepimais paprasta kalba“, – tinklaraštyje rašo bendrovė. „Tai suteikia tikslų realaus pasaulio našumo matą ir suteikia mums papildomos informacijos, kad laikui bėgant patobulintume modelius.
Pažymėtina, kad „Whisper“ taip pat yra integruotas į kai kurias „OpenAI“ pavyzdinio pokalbių roboto „ChatGPT“ versijas ir yra integruotas „Oracle“ ir „Microsoft“ debesų kompiuterijos platformose, teigia AP.
Tuo tarpu „OpenAI“ įspėja vartotojus, kad įrankis neturėtų būti naudojamas „didelės rizikos domenuose“, ir savo internetiniuose pranešimuose rekomenduoja nenaudoti Whisper „sprendimų priėmimo kontekste, kur dėl tikslumo trūkumų gali atsirasti ryškių rezultatų trūkumų“.
„Ar kitas modelis pagerins didelių v3, sukeliančių daug haliucinacijų, problemą?“, – antradienį OpenAI „GitHub Whisper“ diskusijų lentoje paklausė vienas vartotojas. Klausimas, į kurį spaudos metu nebuvo atsakyta.
„Tai atrodo išspręsta, jei įmonė nori jai teikti pirmenybę“, – AP sakė San Franciske įsikūręs tyrimų inžinierius Williamas Saundersas, kuris paliko OpenAI šių metų pradžioje. ji gali tai padaryti ir integruoti į visas šias kitas sistemas.
Pažymėtina, kad OpenAI neseniai paskelbė darbo vietą sveikatos AI tyrinėtojui, kurio pagrindinė pareiga būtų „kurti ir taikyti praktinius ir keičiamus metodus, siekiant pagerinti mūsų modelių saugą ir patikimumą“ ir „įvertinti metodus naudojant su sveikata susijusius duomenis, užtikrinant modeliai suteikia tikslią, patikimą ir patikimą informaciją.”
DIDESNĖ TENDENCIJA
Rugsėjo mėnesį Teksaso generalinis prokuroras Kenas Paxtonas paskelbė susitarimą su Dalase įsikūrusia dirbtinio intelekto kūrėja „Pieces Technologies“ dėl kaltinimų, kad bendrovės generatyvūs dirbtinio intelekto įrankiai kelia pavojų pacientų saugumui, nes per daug žadėjo tikslumą. Ši bendrovė naudoja genAI, kad apibendrintų realiojo laiko elektroninių sveikatos įrašų duomenis apie pacientų būklę ir gydymą.
O Masačusetso universiteto Amherst ir Mendel, dirbtinio intelekto įmonės, orientuotos į AI haliucinacijų aptikimą, tyrime, kuriame buvo nagrinėjamas LLM tikslumas rengiant medicininius užrašus, buvo daug klaidų.
Tyrėjai palygino Open AI GPT-4o ir Meta Llama-3 ir rado 50 medicininių užrašų, GPT turėjo 21 santrauką su neteisinga informacija ir 50 su apibendrinta informacija, o Llama turėjo 19 klaidų ir 47 apibendrinimus.
ĮRAŠĄ
„Į šią problemą žiūrime rimtai ir nuolat stengiamės pagerinti savo modelių tikslumą, įskaitant haliucinacijų mažinimą“, – sakė „OpenAI“ atstovas. Sveikatos priežiūros IT naujienos elektroniniu paštu antradienį.
„Naudojant Whisper mūsų API platformoje, mūsų naudojimo politika draudžia naudoti tam tikruose svarbiuose sprendimų priėmimo kontekstuose, o atvirojo kodo naudojimo pavyzdinėje kortelėje pateikiamos rekomendacijos nenaudoti didelės rizikos srityse. Dėkojame tyrėjams už pasidalinimą savo išvadomis. “.
Andrea Fox yra „Healthcare IT News“ vyresnioji redaktorė.
paštas: afox@himss.org
„Healthcare IT News“ yra HIMSS žiniasklaidos leidinys.