Ar jūsų balsas gali išduoti tai, ko nepasakote žodžiais? KTU mokslininkų tyrimas atskleidė, kad dirbtinis intelektas geba atpažinti depresiją vien iš balso – net tada, kai žmogus stengiasi ją nuslėpti. Dar įspūdingiau, kad šie akustiniai požymiai pasirodė esantys universalūs ir nepriklausomi nuo kalbos, todėl tai gali tapti proveržiu kuriant naujas, lengvai prieinamas psichikos sveikatos stebėjimo priemones.
Daugelis žmonių mano, kad depresija pasireiškia tik akivaizdžiais emocijų ar elgesio pokyčiais, tačiau moksliniai tyrimai rodo, jog balso savybės taip pat gali būti objektyvus šios būklės biologinis žymuo.
„Idėja, kad balsas gali išduoti depresiją, kyla iš neuromuskulinės fiziologijos: depresija veikia ne tik nuotaiką, bet ir smegenų sritis, atsakingas už motorinę kontrolę, įskaitant balso stygų ir kalbos aparato raumenų veiklą. Dėl to depresija sergantiems asmenims pasireiškia vadinamasis psichomotorinis sulėtėjimas, kuris tiesiogiai keičia kalbos ypatybes“, – aiškina Kauno technologijos universiteto Informatikos fakulteto (KTU IF) profesorius Rytis Maskeliūnas.
Pasak jo, realiame gyvenime šie pokyčiai dažnai yra labai subtilūs ir sunkiai sąmoningai kontroliuojami, todėl, pasitelkus dirbtinį intelektą (DI), net ir tada, kai žmogus bando nuslėpti savo emocinę būseną, analizuojant balso mechaniką, galima atskleisti depresijai būdingus fiziologinius dėsningumus.
„Mūsų hipotezė grindžiama prielaida, kad galima identifikuoti universalius, nuo kalbos nepriklausančius akustinius biožymenis. Tai leidžia manyti, kad balsas yra tarsi langas į neurofiziologinę būseną, galintis atskleisti depresijai būdingus dėsningumus net ir tada, kai jie nėra akivaizdūs stebint elgesį“, – sako KTU profesorius.
Depresijos požymiai balse – universalūs skirtingomis kalbomis
Tyrimą vykdantis KTU doktorantas Musyyab Yousufi teigia, kad depresijos požymiai balse gali būti panašūs skirtingose kalbose. Tai pagrindžia antrąją hipotezę – pagrindiniai depresijos sukelti fiziologiniai pokyčiai balso formavimo mechanizmuose yra universalūs, nepaisant kalbinių ar kultūrinių skirtumų.
„Tyrimo metu buvo identifikuoti stabilūs akustiniai požymiai (analizuota apie 50 skirtingų parametrų). Šie požymiai pasirodė reikšmingi labai skirtingose kalbinėse terpėse – analizuoti kinų (mandarinų) ir anglų kalbų duomenų rinkiniai (deja, lietuviškų duomenų kol kas neturime pakankamai)“, – pasakoja jis.
Nors šių požymių kitimo amplitudė skyrėsi, jų kryptingumas išliko pastovus. Pavyzdžiui, stebėta mažesnė balso moduliacija ir sumažėjęs spektrinis nuolydis. Tai rodo, kad depresija, veikdama psichomotorinius procesus, raumenų įtampą ir kvėpavimo kontrolę, sukelia panašius akustinius pokyčius, nepriklausomai nuo to, kokia kalba žmogus kalba.
Nepastebimi žmogui, bet atpažįstami DI
DI, atpažindamas depresiją iš balso, analizuoja ne žodžių prasmę, o subtilius balso akustinius parametrus, kurie veikia kaip fiziologiniai biožymenys.
„DI sistemų mokymas vyksta išgryninant konkrečias balso ypatybes iš ilgesnių kalbos segmentų, o vėliau, taikant penkis skirtingus požymių atrankos algoritmus ir sujungiant jų rezultatus į konsensusinį reitingą, nustatoma, kurie požymiai yra stabiliausi ir labiausiai susiję su depresija skirtingose kalbose bei įrašymo sąlygose“, – pasakoja R. Maskeliūnas.
Pavyzdžiui, tyrime nustatyti universalūs biožymenys, tokie kaip sumažėjusi pagrindinio tono dažnio variacija (rodanti monotoniškesnę kalbą), padidėjęs pauzių skaičius ir pakitę tam tikri MFCC koeficientai, apibūdinantys balso spektrines savybes. Šie požymiai iš dalies atspindi psichomotorinį sulėtėjimą ir sumažėjusią balso energiją.
Be to, nustatyta, kad depresija sergantiems asmenims būdingas padidėjęs balso dažnio netolygumas (angl. jitter) ir amplitudės svyravimai (angl. shimmer), taip pat sumažėjęs harmonikų ir triukšmo santykis (HNR). Tai rodo balso stygų veiklos nestabilumą, kuris gali pasireikšti kaip lengvai virpanti kalba.
„Vis dėlto visi šie rodikliai yra labai subtilūs ir paprastai lieka nepastebėti žmogaus ausiai. Moksliškai kalbant, depresijos akustinį parašą sudaro sudėtingas makroskopinių ir mikroskopinių balso požymių derinys“, – sako M. Yousufi.
Perpranta skirtingas kalbas
KTU profesoriaus teigimu, itin svarbu tai, kad modeliai, apmokyti naudojant vieną duomenų rinkinį, gebėjo atpažinti depresiją ir kituose rinkiniuose. Tai tiesiogiai sprendžia vieną pagrindinių šios srities iššūkių – modelių gebėjimą generalizuoti, t. y. veiksmingai veikti ne tik su mokymo duomenimis, bet ir naujose, modeliui nepažįstamose populiacijose.
„Tyrimo rezultatai svarbūs ir tuo, kad rodo, jog naudojant atrinktus, keliais metodais patvirtintus (konsensusinius) akustinius požymius galima pasiekti bent dalinį modelių perkėlimą iš anglų į mandarinų kalbą ir atvirkščiai“, – dalijasi jis.
Pavyzdžiui, modeliai, apmokyti su gausesniu ir įvairesniu E-DAIC (anglų kalbos) duomenų rinkiniu, MODMA (mandarinų kalbos) rinkinyje pasiekė panašius ar net geresnius rezultatus nei pačiame E-DAIC rinkinyje. Tai rodo, kad egzistuoja universalūs, nuo kalbos nepriklausomi depresijos biožymenys.
„Nors buvo fiksuotas našumo sumažėjimas (angl. domain loss), ypač perkeliant modelius iš mažesnio (MODMA) į didesnį ir sudėtingesnį (E-DAIC) rinkinį, pats sėkmingo perkėlimo faktas atveria galimybes kurti praktiškai pritaikomas depresijos atpažinimo sistemas, veikiančias platesnėje klinikinėje aplinkoje“, – sako M. Yousufi.
Ne visi balso pokyčiai reiškia depresiją
Pagrindinis iššūkis nustatant depresiją iš balso yra tai, kad mašininio mokymosi modeliai, nors ir pasiekia gerų rezultatų viename duomenų rinkinyje, dažnai prasčiau veikia su naujais kalbėtojais, kitomis kalbomis ar naudojant skirtingą įrašymo įrangą. Tokiais atvejais DI neretai išmoksta ne universalių depresijos požymių, o konkrečiam duomenų rinkiniui būdingų artefaktų.
„Šią problemą dar labiau apsunkina tai, kad tie patys akustiniai parametrai, siejami su depresija (pavyzdžiui, sumažėjusi balso aukščio variacija, lėtesnis kalbėjimo tempas ar prastesnė balso kokybė), nėra išskirtiniai – balsą stipriai veikia ir kiti veiksniai, tokie kaip nuovargis, ūminis stresas, peršalimas ar net individualios kalbėjimo ypatybės“, – teigia KTU profesorius.
Tai apsunkina galimybę atskirti, ar akustiniai pokyčiai susiję su depresijai būdingu psichomotoriniu sulėtėjimu, ar tik su laikina fiziologine būsena. Todėl, siekiant nustatyti patikimus biožymenis, būtina taikyti įvairiapuses metodikas, leidžiančias išskirti tuos požymius, kurie išlieka stabilūs ir nuosekliai pasikartoja skirtingomis sąlygomis.
Depresijos stebėjimas gali persikelti į išmaniuosius įrenginius
R. Maskeliūno teigimu, DI galimybių progresas yra toks spartus, kad artėjame prie programėlių, galinčių analizuoti kalbą naudojant išmaniųjų telefonų ar kompiuterių mikrofonus. Tokios sistemos galėtų stebėti depresijos simptomų sunkumo dinamiką, anksti perspėti apie galimą būklės pablogėjimą ir realiuoju laiku vertinti gydymo efektyvumą, nesiremiant vien retais vizitais pas gydytoją.
„Tai atveria kelią prieinamesnei, neinvazinei ir tęstinei psichikos sveikatos priežiūrai, ypač tais atvejais, kai dėl įvairių priežasčių žmogus nenori ar negali kreiptis į specialistą arba tenka ilgai laukti eilėje“, – pažymi jis.
Vis dėlto svarbu pabrėžti, kad ši technologija turėtų būti naudojama kaip pagalbinė priemonė, o ne kaip savarankiška diagnostikos sistema.

























