Големиот јазичен модел (LLM) може да пишува убедливи статии врз основа на брзи зборови, да положува испити за професионална вештина и да пишува информации кои се пријателски настроени кон пациентот и се емпатични. Сепак, покрај добро познатите ризици од фикција, кршливост и неточни факти во LLM, други нерешени прашања постепено стануваат фокус, како што се моделите на вештачка интелигенција кои содржат потенцијално дискриминаторски „човечки вредности“ во нивното создавање и употреба, и дури и ако LLM повеќе не измислува содржина и не ги елиминира очигледно штетните излезни резултати, „вредностите на LLM“ сепак може да отстапуваат од човечките вредности.
Безброј примери илустрираат како податоците што се користат за обука на моделите со вештачка интелигенција ги кодираат индивидуалните и општествените вредности, што може да се зацврсти во рамките на моделот. Овие примери вклучуваат низа апликации, вклучувајќи автоматско толкување на рендгенски снимки на градниот кош, класификација на кожни заболувања и алгоритамско донесување одлуки во врска со распределбата на медицинските ресурси. Како што е наведено во неодамнешна статија во нашето списание, пристрасните податоци за обука можат да ги засилат и откријат вредностите и пристрасностите присутни во општеството. Напротив, истражувањата покажаа и дека вештачката интелигенција може да се користи за намалување на пристрасноста. На пример, истражувачите примениле модели на длабоко учење на рендгенски филмови на коленото и откриле фактори што биле пропуштени од стандардните индикатори за сериозност (оценети од радиолози) во зглобот на коленото, со што се намалуваат необјаснетите разлики во болката помеѓу црните и белите пациенти.
Иако сè повеќе луѓе ја сфаќаат пристрасноста кај моделите на вештачка интелигенција, особено во однос на податоците за обука, на многу други влезни точки на човечките вредности не им се посветува доволно внимание во процесот на развој и имплементација на моделите на вештачка интелигенција. Медицинската вештачка интелигенција неодамна постигна импресивни резултати, но во голема мера, не ги зема експлицитно предвид човечките вредности и нивната интеракција со проценката на ризикот и веројатносното расудување, ниту пак е моделирана.
За да ги конкретизирате овие апстрактни концепти, замислете дека сте ендокринолог кој треба да препише рекомбинантен човечки хормон за раст за 8-годишно момче кое е под 3-тиот перцентил од неговата возраст. Нивото на стимулиран човечки хормон за раст кај момчето е под 2 ng/mL (референтна вредност, >10 ng/mL, референтна вредност за многу земји надвор од САД е >7 ng/mL), а неговиот ген што го кодира човечкиот хормон за раст открил ретки мутации на инактивација. Веруваме дека примената на терапијата со човечки хормон за раст е очигледна и неоспорна во оваа клиничка средина.
Примената на терапија со хормон за раст кај 14-годишно момче во следниве сценарија може да предизвика контроверзии: висината на 14-годишно момче отсекогаш била во 10-тиот перцентил од неговите врсници, а врвот на хормонот за раст кај 14 години по стимулацијата е 8 ng/mL. Не се познати функционални мутации што можат да влијаат на висината, ниту други познати причини за низок раст, а неговата коскена возраст е 15 години (т.е. нема доцнење во развојот). Само дел од контроверзноста се должи на разликите во граничните вредности утврдени од експерти врз основа на десетици студии во врска со нивоата на хормон за раст кај 15 години што се користат за дијагностицирање на изолиран недостаток на хормон за раст. Барем исто толку контроверзии произлегуваат од рамнотежата ризик-придобивка од користењето на терапија со хормон за раст кај 16 години од перспектива на пациентите, родителите на пациентите, здравствените работници, фармацевтските компании и плаќачите. Педијатриските ендокринолози може да ги проценат ретките несакани ефекти од дневните инјекции на хормон за раст во текот на 2 години со веројатноста за никаков или само минимален раст на големината на телото кај возрасните во споредба со сегашноста. Момчињата може да веруваат дека дури и ако нивната висина може да се зголеми само за 2 см, вреди да се инјектира хормон за раст, но плаќачот и фармацевтската компанија може да имаат различни ставови.
Како пример го земаме eGFR базиран на креатинин, кој е широко користен индикатор за бубрежна функција за дијагностицирање и стадирање на хронична бубрежна болест, поставување услови за трансплантација или донација на бубрег и одредување на критериуми за намалување и контраиндикации за многу лекови на рецепт. EGFR е едноставна регресивна равенка што се користи за проценка на измерената стапка на гломеруларна филтрација (mGFR), што е референтен стандард, но методот на евалуација е релативно гломазен. Оваа регресивна равенка не може да се смета за модел на вештачка интелигенција, но илустрира многу принципи за човечките вредности и веројатносното расудување.
Првата влезна точка за човечките вредности што треба да влезат во eGFR е при избор на податоци за равенки за прилагодување. Оригиналниот ред што се користи за дизајнирање на формулата eGFR е претежно составен од црни и бели учесници, а нејзината применливост кај многу други етнички групи не е јасна. Последователните влезни точки за човечките вредности во оваа формула вклучуваат: избор на точноста на mGFR како примарна цел за евалуација на функцијата на бубрезите, кое е прифатливо ниво на точност, како да се мери точноста и користење на eGFR како праг за активирање на клиничкото донесување одлуки (како што е одредување на услови за трансплантација на бубрег или препишување лекови). Конечно, при избор на содржината на влезниот модел, човечките вредности исто така ќе влезат во оваа формула.
На пример, пред 2021 година, упатствата предлагаат прилагодување на нивоата на креатинин во формулата на eGFR врз основа на возраста, полот и расата на пациентот (класифицирани само како црни или нецрни лица). Прилагодувањето врз основа на расата има за цел да ја подобри точноста на формулата на mGFR, но во 2020 година, големите болници почнаа да го доведуваат во прашање користењето на eGFR базиран на раса, наведувајќи причини како што се одложување на подобноста на пациентот за трансплантација и конкретизирање на расата како биолошки концепт. Истражувањата покажаа дека дизајнирањето на модели на eGFR во однос на расата може да има длабоки и различни влијанија врз точноста и клиничките исходи; Затоа, селективното фокусирање на точноста или фокусирањето на дел од исходите одразува вредносни проценки и може да го маскира транспарентното донесување одлуки. Конечно, националната работна група предложи нова формула која беше преуредена без да се земе предвид расата за да се балансираат прашањата за перформанси и праведност. Овој пример илустрира дека дури и едноставна клиничка формула има многу влезни точки во човечките вредности.
Во споредба со клиничките формули со само мал број на предвидливи индикатори, LLM може да се состои од милијарди до стотици милијарди параметри (тежини на моделот) или повеќе, што го отежнува разбирањето. Причината зошто велиме „тешко за разбирање“ е тоа што кај повеќето LLM, точниот начин на добивање одговори преку испрашување не може да се мапира. Бројот на параметри за GPT-4 сè уште не е објавен; Неговиот претходник GPT-3 имаше 175 милијарди параметри. Повеќе параметри не мора да значат посилни можности, бидејќи помалите модели што вклучуваат повеќе пресметковни циклуси (како што е серијата модели LLaMA [Large Language Model Meta AI]) или моделите што се фино подесени врз основа на човечки повратни информации ќе имаат подобри перформанси од поголемите модели. На пример, според човечките проценувачи, моделот InstrumentGPT (модел со 1,3 милијарди параметри) го надминува GPT-3 во оптимизирањето на излезните резултати од моделот.
Специфичните детали за обуката на GPT-4 сè уште не се откриени, но деталите за моделите од претходната генерација, вклучувајќи ги GPT-3, InstrumentGPT и многу други LLM со отворен код, се откриени. Денес, многу модели на вештачка интелигенција доаѓаат со картички за модели; Податоците за евалуација и безбедност на GPT-4 се објавени во слична системска картичка обезбедена од компанијата за креирање модели OpenAI. Создавањето на LLM може грубо да се подели на две фази: почетна фаза на претходна обука и фаза на фино подесување насочена кон оптимизирање на резултатите од излезот на моделот. Во фазата на претходна обука, на моделот му е обезбеден голем корпус, вклучувајќи го оригиналниот интернет текст за да го обучи да го предвиди следниот збор. Овој навидум едноставен процес на „автоматско завршување“ произведува моќен основен модел, но може да доведе и до штетно однесување. Човечките вредности ќе влезат во фазата на претходна обука, вклучително и избор на податоци за претходна обука за GPT-4 и одлучување за отстранување на несоодветна содржина, како што е порнографска содржина, од податоците за претходна обука. И покрај овие напори, основниот модел може сè уште да не биде ниту корисен ниту способен да содржи штетни резултати. Во следната фаза на фино подесување, ќе се појават многу корисни и безопасни однесувања.
Во фазата на фино подесување, однесувањето на јазичните модели често е длабоко изменето преку надгледувано фино подесување и учење со засилување врз основа на човечки повратни информации. Во фазата на надгледувано фино подесување, ангажираниот персонал на изведувачот ќе напише примери за одговори за зборови со навестување и директно ќе го обучи моделот. Во фазата на учење со засилување врз основа на човечки повратни информации, човечките евалуатори ќе ги сортираат излезните резултати од моделот како примери за влезна содржина. Потоа, ќе ги применат горенаведените резултати од споредбата за да го научат „моделот на награда“ и дополнително да го подобрат моделот преку учење со засилување. Неверојатното човечко вклучување на ниско ниво може да ги дотера овие големи модели. На пример, моделот InstrumentGPT користел тим од приближно 40 персонал на изведувачот регрутиран од веб-страници за краудсорсинг и поминал тест за скрининг насочен кон избор на група анотатори кои се чувствителни на преференциите на различни групи на население.
Како што покажуваат овие два екстремни примери, имено едноставната клиничка формула [eGFR] и моќниот LLM [GPT-4], човековото донесување одлуки и човечките вредности играат неопходна улога во обликувањето на резултатите од моделот. Можат ли овие модели на вештачка интелигенција да ги опфатат нивните разновидни вредности на пациентите и лекарите? Како јавно да се води примената на вештачката интелигенција во медицината? Како што е споменато подолу, преиспитувањето на анализата на медицинските одлуки може да обезбеди принципиелно решение за овие прашања.
Анализата на медицинските одлуки не им е позната на многу клиничари, но може да направи разлика помеѓу веројатносно расудување (за неизвесни исходи поврзани со донесувањето одлуки, како на пример дали да се администрира човечки хормон за раст во контроверзниот клинички сценарио прикажан на Слика 1) и фактори на разгледување (за субјективни вредности поврзани со овие исходи, чија вредност се квантифицира како „корисност“, како што е вредноста на зголемување на машката висина од 2 см), обезбедувајќи систематски решенија за сложени медицински одлуки. Во анализата на одлуките, клиницистите прво мора да ги утврдат сите можни одлуки и веројатности поврзани со секој исход, а потоа да ја вклучат корисноста на пациентот (или другата страна) поврзана со секој исход за да ја изберат најсоодветната опција. Затоа, валидноста на анализата на одлуките зависи од тоа дали поставувањето на исходот е сеопфатно, како и од тоа дали мерењето на корисноста и проценката на веројатноста се точни. Идеално, овој пристап помага да се осигури дека одлуките се засновани на докази и се усогласени со преференциите на пациентот, со што се стеснува јазот помеѓу објективните податоци и личните вредности. Овој метод беше воведен во медицинската област пред неколку децении и се применуваше за индивидуално донесување одлуки кај пациентите и проценка на здравјето на населението, како што е давање препораки за скрининг на колоректален карцином кај општата популација.
Во анализата на медицинските одлуки, развиени се различни методи за да се добие корисност. Повеќето традиционални методи директно ја изведуваат вредноста од индивидуалните пациенти. Наједноставниот метод е да се користи скала за оценување, каде што пациентите го проценуваат своето ниво на преференции за одреден исход на дигитална скала (како што е линеарна скала што се движи од 1 до 10), со најекстремните здравствени исходи (како што се целосно здравје и смрт) лоцирани на двата краја. Методот на размена на време е уште еден често користен метод. Во овој метод, пациентите треба да донесат одлука за тоа колку здраво време се подготвени да поминат во замена за период на лошо здравје. Стандардниот метод на коцкање е уште еден често користен метод за одредување на корисноста. Во овој метод, пациентите се прашуваат која од двете опции ја претпочитаат: или да живеат одреден број години во нормално здравје со специфична веројатност (p) (t) и да го сносат ризикот од смрт со веројатност од 1-p; или да се осигурат дека ќе живеат t години под вкрстени здравствени услови. Прашајте ги пациентите повеќе пати со различни p-вредности сè додека не покажат преференции за која било опција, така што корисноста може да се пресмета врз основа на одговорите на пациентите.
Покрај методите што се користат за да се добијат индивидуални преференции на пациентите, развиени се и методи за да се добие корисност за популацијата на пациенти. Особено дискусиите во фокус групите (кои ги здружуваат пациентите за да дискутираат за специфични искуства) можат да помогнат во разбирањето на нивните перспективи. Со цел ефикасно да се агрегира корисноста на групата, предложени се различни техники за структурирани групни дискусии.
Во пракса, директното воведување на корисноста во процесот на клиничка дијагноза и лекување одзема многу време. Како решение, прашалниците за анкети обично се дистрибуираат до случајно избрани популации за да се добијат резултати за корисноста на ниво на популацијата. Некои примери вклучуваат 5-димензионален прашалник на EuroQol, кратката форма за тежина на корисноста од 6-димензионални вредности, индексот на корисност за здравство и алатката Core 30 за квалитетот на животот на Европската организација за истражување и лекување на ракот.
Време на објавување: 01.06.2024




