लार्ज लँग्वेज मॉडेल (LLM) त्वरित शब्दांवर आधारित प्रेरक लेख लिहू शकते, व्यावसायिक प्रवीणता परीक्षा उत्तीर्ण करू शकते आणि रुग्ण-अनुकूल आणि सहानुभूतीपूर्ण माहिती लिहू शकते. तथापि, LLM मध्ये काल्पनिक कथा, नाजूकपणा आणि चुकीच्या तथ्यांच्या सुप्रसिद्ध जोखमींव्यतिरिक्त, इतर निराकरण न झालेले मुद्दे हळूहळू लक्ष केंद्रित करत आहेत, जसे की AI मॉडेल्स त्यांच्या निर्मिती आणि वापरात संभाव्य भेदभावपूर्ण "मानवी मूल्ये" समाविष्ट करतात आणि जरी LLM यापुढे सामग्री तयार करत नसेल आणि स्पष्टपणे हानिकारक आउटपुट परिणाम काढून टाकत नसेल तरीही, "LLM मूल्ये" मानवी मूल्यांपासून विचलित होऊ शकतात.
असंख्य उदाहरणे दर्शवितात की एआय मॉडेल्सना प्रशिक्षित करण्यासाठी वापरला जाणारा डेटा वैयक्तिक आणि सामाजिक मूल्यांना कसे एन्कोड करतो, जे मॉडेलमध्ये दृढ होऊ शकते. या उदाहरणांमध्ये छातीच्या एक्स-रेचे स्वयंचलित अर्थ लावणे, त्वचा रोगांचे वर्गीकरण आणि वैद्यकीय संसाधन वाटपाबाबत अल्गोरिथमिक निर्णय घेणे यासह अनेक अनुप्रयोगांचा समावेश आहे. आमच्या जर्नलमधील अलीकडील लेखात म्हटल्याप्रमाणे, पक्षपाती प्रशिक्षण डेटा समाजात उपस्थित असलेली मूल्ये आणि पक्षपात वाढवू शकतो आणि प्रकट करू शकतो. उलट, संशोधनात असेही दिसून आले आहे की एआयचा वापर पक्षपात कमी करण्यासाठी केला जाऊ शकतो. उदाहरणार्थ, संशोधकांनी गुडघ्याच्या एक्स-रे फिल्म्सवर डीप लर्निंग मॉडेल्स लागू केले आणि गुडघ्याच्या सांध्यातील मानक तीव्रता निर्देशकांनी (रेडिओलॉजिस्टद्वारे श्रेणीबद्ध) चुकवलेले घटक शोधले, ज्यामुळे काळ्या आणि पांढऱ्या रुग्णांमधील अस्पष्ट वेदना फरक कमी झाला.
जरी अधिकाधिक लोकांना एआय मॉडेल्समधील पक्षपात जाणवत असला तरी, विशेषतः प्रशिक्षण डेटाच्या बाबतीत, एआय मॉडेल्सच्या विकास आणि तैनाती प्रक्रियेत मानवी मूल्यांच्या इतर अनेक प्रवेश बिंदूंवर पुरेसे लक्ष दिले जात नाही. वैद्यकीय एआयने अलीकडेच प्रभावी परिणाम साध्य केले आहेत, परंतु मोठ्या प्रमाणात, त्यांनी मानवी मूल्ये आणि जोखीम मूल्यांकन आणि संभाव्य तर्क यांच्याशी त्यांचा परस्परसंवाद स्पष्टपणे विचारात घेतलेला नाही किंवा त्याचे मॉडेलिंगही केलेले नाही.
या अमूर्त संकल्पनांना ठोसपणे मांडण्यासाठी, अशी कल्पना करा की तुम्ही एक एंडोक्राइनोलॉजिस्ट आहात ज्यांना त्याच्या वयाच्या तिसऱ्या टक्केवारीपेक्षा कमी असलेल्या ८ वर्षांच्या मुलासाठी रीकॉम्बीनंट मानवी वाढ संप्रेरक लिहून द्यावे लागते. मुलाची उत्तेजित मानवी वाढ संप्रेरक पातळी २ एनजी/एमएलपेक्षा कमी आहे (संदर्भ मूल्य,>१० एनजी/एमएल, युनायटेड स्टेट्स बाहेरील अनेक देशांसाठी संदर्भ मूल्य>७ एनजी/एमएल आहे), आणि त्याच्या मानवी वाढ संप्रेरक कोडिंग जीनने दुर्मिळ निष्क्रियता उत्परिवर्तन शोधले आहेत. आम्हाला वाटते की या क्लिनिकल सेटिंगमध्ये मानवी वाढ संप्रेरक थेरपीचा वापर स्पष्ट आणि निर्विवाद आहे.
खालील परिस्थितींमध्ये मानवी वाढ संप्रेरक थेरपीचा वापर वाद निर्माण करू शकतो: १४ वर्षांच्या मुलाची उंची नेहमीच त्याच्या समवयस्कांच्या १० व्या टक्केवारीत असते आणि उत्तेजनानंतर मानवी वाढ संप्रेरकाची शिखर पातळी ८ एनजी/एमएल असते. उंचीवर परिणाम करणारे कोणतेही ज्ञात कार्यात्मक उत्परिवर्तन नाही किंवा लहान उंचीची इतर ज्ञात कारणे नाहीत आणि त्याचे हाडांचे वय १५ वर्षांचे आहे (म्हणजे विकासात्मक विलंब नाही). या वादाचा एक भाग म्हणजे वेगळ्या वाढ संप्रेरकाच्या कमतरतेचे निदान करण्यासाठी वापरल्या जाणाऱ्या मानवी वाढ संप्रेरकाच्या पातळींबद्दलच्या डझनभर अभ्यासांवर आधारित तज्ञांनी निर्धारित केलेल्या उंबरठ्यातील फरक. किमान तितकाच वाद रुग्ण, रुग्ण पालक, आरोग्यसेवा व्यावसायिक, औषध कंपन्या आणि देयक देणाऱ्यांच्या दृष्टिकोनातून मानवी वाढ संप्रेरक थेरपी वापरण्याच्या जोखीम लाभ संतुलनातून उद्भवतो. बालरोगतज्ज्ञ २ वर्षांपर्यंत वाढ संप्रेरकाच्या दररोज इंजेक्शनच्या दुर्मिळ प्रतिकूल परिणामांचे वजन करू शकतात ज्यामध्ये सध्याच्या तुलनेत प्रौढांच्या शरीराच्या आकारात कोणतीही वाढ नाही किंवा फक्त कमीत कमी वाढ होण्याची शक्यता असते. मुलांचा असा विश्वास असेल की त्यांची उंची फक्त २ सेमीने वाढली तरी ग्रोथ हार्मोन इंजेक्शन देणे फायदेशीर आहे, परंतु पैसे देणारे आणि औषध कंपनीचे मत वेगवेगळे असू शकते.
आपण क्रिएटिनिनवर आधारित eGFR चे उदाहरण घेऊ, जे दीर्घकालीन मूत्रपिंडाच्या आजाराचे निदान आणि स्टेजिंग करण्यासाठी, मूत्रपिंड प्रत्यारोपण किंवा देणगीच्या अटी निश्चित करण्यासाठी आणि अनेक प्रिस्क्रिप्शन औषधांसाठी कपात निकष आणि विरोधाभास निश्चित करण्यासाठी मोठ्या प्रमाणावर वापरले जाणारे मूत्रपिंड कार्य सूचक आहे. EGFR हे मोजलेले ग्लोमेरुलर फिल्ट्रेशन रेट (mGFR) अंदाज करण्यासाठी वापरले जाणारे एक साधे प्रतिगमन समीकरण आहे, जे एक संदर्भ मानक आहे, परंतु मूल्यांकन पद्धत तुलनेने अवजड आहे. हे प्रतिगमन समीकरण AI मॉडेल मानले जाऊ शकत नाही, परंतु ते मानवी मूल्ये आणि संभाव्य तर्कांबद्दल अनेक तत्त्वे स्पष्ट करते.
eGFR मध्ये मानवी मूल्यांचा पहिला प्रवेश बिंदू म्हणजे समीकरणे बसवण्यासाठी डेटा निवडणे. eGFR सूत्र डिझाइन करण्यासाठी वापरलेली मूळ रांग बहुतेक काळे आणि पांढरे सहभागींनी बनलेली असते आणि इतर अनेक वांशिक गटांना त्याची लागूता स्पष्ट नाही. या सूत्रात मानवी मूल्यांसाठी पुढील प्रवेश बिंदूंमध्ये हे समाविष्ट आहे: मूत्रपिंडाच्या कार्याचे मूल्यांकन करण्यासाठी प्राथमिक उद्दिष्ट म्हणून mGFR अचूकता निवडणे, अचूकतेची स्वीकार्य पातळी काय आहे, अचूकता कशी मोजायची आणि क्लिनिकल निर्णय घेण्यास ट्रिगर करण्यासाठी eGFR चा उंबरठा म्हणून वापर करणे (जसे की मूत्रपिंड प्रत्यारोपणासाठी परिस्थिती निश्चित करणे किंवा औषधे लिहून देणे). शेवटी, इनपुट मॉडेलची सामग्री निवडताना, मानवी मूल्ये देखील या सूत्रात प्रवेश करतील.
उदाहरणार्थ, २०२१ पूर्वी, मार्गदर्शक तत्त्वांमध्ये रुग्णांचे वय, लिंग आणि वंश (फक्त काळ्या किंवा काळ्या नसलेल्या व्यक्तींमध्ये वर्गीकृत) यावर आधारित eGFR सूत्रात क्रिएटिनिन पातळी समायोजित करण्याचे सुचवले आहे. वंशावर आधारित समायोजन mGFR सूत्राची अचूकता सुधारण्याच्या उद्देशाने आहे, परंतु २०२० मध्ये, प्रमुख रुग्णालयांनी प्रत्यारोपणासाठी रुग्णाची पात्रता विलंबित करणे आणि वंशाला जैविक संकल्पना म्हणून ठोस करणे यासारख्या कारणांचा उल्लेख करून वंशावर आधारित eGFR च्या वापरावर प्रश्नचिन्ह उपस्थित करण्यास सुरुवात केली. संशोधनातून असे दिसून आले आहे की वंशाच्या दृष्टीने eGFR मॉडेल्स डिझाइन केल्याने अचूकता आणि क्लिनिकल परिणामांवर खोल आणि वेगवेगळे परिणाम होऊ शकतात; म्हणून, निवडकपणे अचूकतेवर लक्ष केंद्रित करणे किंवा निकालांच्या एका भागावर लक्ष केंद्रित करणे मूल्य निर्णय प्रतिबिंबित करते आणि पारदर्शक निर्णय घेण्यास लपवू शकते. शेवटी, राष्ट्रीय कार्यगटाने एक नवीन सूत्र प्रस्तावित केले जे कामगिरी आणि निष्पक्षतेच्या मुद्द्यांचा समतोल साधण्यासाठी वंश विचारात न घेता पुन्हा बसवले गेले. हे उदाहरण स्पष्ट करते की साध्या क्लिनिकल सूत्रात देखील मानवी मूल्यांमध्ये अनेक प्रवेश बिंदू असतात.
काही मोजक्याच प्रेडिक्टिव इंडिकेटर असलेल्या क्लिनिकल सूत्रांच्या तुलनेत, LLM मध्ये अब्जावधी ते शेकडो अब्ज पॅरामीटर्स (मॉडेल वेट्स) किंवा त्याहून अधिक असू शकतात, ज्यामुळे ते समजणे कठीण होते. आपण "समजण्यास कठीण" असे का म्हणतो याचे कारण म्हणजे बहुतेक LLM मध्ये, प्रश्नांद्वारे प्रतिसाद मिळविण्याचा अचूक मार्ग मॅप केला जाऊ शकत नाही. GPT-4 साठी पॅरामीटर्सची संख्या अद्याप जाहीर केलेली नाही; त्याच्या पूर्ववर्ती GPT-3 मध्ये 175 अब्ज पॅरामीटर्स होते. अधिक पॅरामीटर्सचा अर्थ मजबूत क्षमता असणे आवश्यक नाही, कारण लहान मॉडेल ज्यामध्ये अधिक संगणकीय चक्रे समाविष्ट आहेत (जसे की LLaMA [लार्ज लँग्वेज मॉडेल मेटा एआय] मॉडेल मालिका) किंवा मानवी अभिप्रायावर आधारित बारीक ट्यून केलेले मॉडेल मोठ्या मॉडेल्सपेक्षा चांगले कामगिरी करतील. उदाहरणार्थ, मानवी मूल्यांकनकर्त्यांनुसार, InstrumentGPT मॉडेल (1.3 अब्ज पॅरामीटर्स असलेले मॉडेल) मॉडेल आउटपुट परिणाम ऑप्टिमायझ करण्यात GPT-3 पेक्षा चांगले कामगिरी करते.
GPT-4 चे विशिष्ट प्रशिक्षण तपशील अद्याप उघड केलेले नाहीत, परंतु GPT-3, InstrumentGPT आणि इतर अनेक ओपन-सोर्स LLMs यासारख्या मागील पिढीच्या मॉडेल्सचे तपशील उघड केले गेले आहेत. आजकाल, अनेक AI मॉडेल्स मॉडेल कार्डसह येतात; GPT-4 चे मूल्यांकन आणि सुरक्षा डेटा मॉडेल निर्मिती कंपनी OpenAI द्वारे प्रदान केलेल्या समान सिस्टम कार्डमध्ये प्रकाशित केला गेला आहे. LLM ची निर्मिती साधारणपणे दोन टप्प्यात विभागली जाऊ शकते: प्रारंभिक पूर्व प्रशिक्षण टप्पा आणि मॉडेल आउटपुट परिणाम ऑप्टिमायझ करण्याच्या उद्देशाने फाइन-ट्यूनिंग टप्पा. प्रशिक्षण पूर्व टप्प्यात, मॉडेलला पुढील शब्दाचा अंदाज लावण्यासाठी प्रशिक्षित करण्यासाठी मूळ इंटरनेट मजकूरासह एक मोठा संग्रह प्रदान केला जातो. ही वरवर सोपी "स्वयंचलित पूर्णता" प्रक्रिया एक शक्तिशाली पायाभूत मॉडेल तयार करते, परंतु ती हानिकारक वर्तनास देखील कारणीभूत ठरू शकते. मानवी मूल्ये पूर्व प्रशिक्षण टप्प्यात प्रवेश करतील, ज्यामध्ये GPT-4 साठी पूर्व प्रशिक्षण डेटा निवडणे आणि पूर्व प्रशिक्षण डेटामधून अश्लील सामग्री सारखी अनुचित सामग्री काढून टाकण्याचा निर्णय घेणे समाविष्ट आहे. या प्रयत्नांना न जुमानता, मूलभूत मॉडेल अद्याप उपयुक्त किंवा हानिकारक आउटपुट परिणाम समाविष्ट करण्यास सक्षम असू शकत नाही. फाइन-ट्यूनिंगच्या पुढील टप्प्यात, अनेक उपयुक्त आणि निरुपद्रवी वर्तन उदयास येतील.
फाइन-ट्यूनिंग टप्प्यात, मानवी अभिप्रायावर आधारित पर्यवेक्षित फाइन-ट्यूनिंग आणि रीइन्फोर्समेंट लर्निंगद्वारे भाषा मॉडेल्सचे वर्तन अनेकदा खोलवर बदलले जाते. पर्यवेक्षित फाइन-ट्यूनिंग टप्प्यात, नियुक्त कंत्राटदार कर्मचारी त्वरित शब्दांसाठी प्रतिसाद उदाहरणे लिहितील आणि मॉडेलला थेट प्रशिक्षण देतील. मानवी अभिप्रायावर आधारित रीइन्फोर्समेंट लर्निंग टप्प्यात, मानवी मूल्यांकनकर्ता मॉडेल आउटपुट निकालांना इनपुट सामग्री उदाहरणे म्हणून क्रमवारी लावतील. नंतर "रिवॉर्ड मॉडेल" शिकण्यासाठी आणि रीइन्फोर्समेंट लर्निंगद्वारे मॉडेलमध्ये आणखी सुधारणा करण्यासाठी वरील तुलना परिणाम लागू करा. आश्चर्यकारक निम्न-स्तरीय मानवी सहभाग या मोठ्या मॉडेल्सना फाइन-ट्यून करू शकतो. उदाहरणार्थ, इन्स्ट्रुमेंटजीपीटी मॉडेलने क्राउडसोर्सिंग वेबसाइट्सवरून भरती केलेल्या सुमारे 40 कंत्राटदार कर्मचाऱ्यांच्या टीमचा वापर केला आणि वेगवेगळ्या लोकसंख्या गटांच्या पसंतींबद्दल संवेदनशील असलेल्या भाष्यकारांच्या गटाची निवड करण्याच्या उद्देशाने स्क्रीनिंग चाचणी उत्तीर्ण केली.
साधे क्लिनिकल सूत्र [eGFR] आणि शक्तिशाली LLM [GPT-4] ही दोन टोकाची उदाहरणे दाखवून देतात की, मानवी निर्णय घेण्याची क्षमता आणि मानवी मूल्ये मॉडेल आउटपुट निकालांना आकार देण्यात अपरिहार्य भूमिका बजावतात. हे AI मॉडेल्स त्यांच्या विविध रुग्ण आणि डॉक्टरांच्या मूल्यांना कॅप्चर करू शकतात का? औषधात AI च्या वापराचे सार्वजनिक मार्गदर्शन कसे करावे? खाली नमूद केल्याप्रमाणे, वैद्यकीय निर्णय विश्लेषणाचे पुनर्परीक्षण या समस्यांवर एक तत्वनिष्ठ उपाय प्रदान करू शकते.
वैद्यकीय निर्णय विश्लेषण अनेक चिकित्सकांना परिचित नाही, परंतु ते संभाव्य तर्क (निर्णय घेण्याशी संबंधित अनिश्चित परिणामांसाठी, जसे की आकृती 1 मध्ये दर्शविलेल्या वादग्रस्त क्लिनिकल परिस्थितीत मानवी वाढ संप्रेरक वापरायचे की नाही) आणि विचार घटक (या निकालांशी जोडलेल्या व्यक्तिनिष्ठ मूल्यांसाठी, ज्यांचे मूल्य "उपयुक्तता" म्हणून परिमाणित केले जाते, जसे की पुरुष उंचीमध्ये 2 सेमी वाढीचे मूल्य), यांच्यात फरक करू शकते. जटिल वैद्यकीय निर्णयांसाठी पद्धतशीर उपाय प्रदान करणे. निर्णय विश्लेषणात, चिकित्सकांनी प्रथम प्रत्येक निकालाशी संबंधित सर्व संभाव्य निर्णय आणि संभाव्यता निश्चित केल्या पाहिजेत आणि नंतर सर्वात योग्य पर्याय निवडण्यासाठी प्रत्येक निकालाशी संबंधित रुग्ण (किंवा इतर पक्ष) उपयुक्तता समाविष्ट केली पाहिजे. म्हणून, निर्णय विश्लेषणाची वैधता परिणाम सेटिंग व्यापक आहे की नाही, तसेच उपयुक्ततेचे मोजमाप आणि संभाव्यतेचा अंदाज अचूक आहे की नाही यावर अवलंबून असते. आदर्शपणे, हा दृष्टिकोन निर्णय पुराव्यावर आधारित आणि रुग्णांच्या पसंतींशी जुळवून घेण्यास मदत करतो, ज्यामुळे वस्तुनिष्ठ डेटा आणि वैयक्तिक मूल्यांमधील अंतर कमी होते. ही पद्धत अनेक दशकांपूर्वी वैद्यकीय क्षेत्रात सादर करण्यात आली होती आणि वैयक्तिक रुग्ण निर्णय घेण्यावर आणि लोकसंख्या आरोग्य मूल्यांकनावर लागू केली गेली होती, जसे की सामान्य लोकसंख्येला कोलोरेक्टल कर्करोग तपासणीसाठी शिफारसी प्रदान करणे.
वैद्यकीय निर्णय विश्लेषणात, उपयुक्तता मिळविण्यासाठी विविध पद्धती विकसित केल्या गेल्या आहेत. बहुतेक पारंपारिक पद्धती थेट वैयक्तिक रुग्णांकडून मूल्य मिळवतात. सर्वात सोपी पद्धत म्हणजे रेटिंग स्केल वापरणे, जिथे रुग्ण डिजिटल स्केलवर (जसे की 1 ते 10 पर्यंतचा रेषीय स्केल) विशिष्ट परिणामासाठी त्यांच्या पसंतीच्या पातळीचे मूल्यांकन करतात, ज्यामध्ये सर्वात जास्त आरोग्य परिणाम (जसे की संपूर्ण आरोग्य आणि मृत्यू) दोन्ही टोकांवर असतात. वेळ विनिमय पद्धत ही आणखी एक सामान्यतः वापरली जाणारी पद्धत आहे. या पद्धतीमध्ये, रुग्णांना खराब आरोग्याच्या कालावधीच्या बदल्यात ते किती निरोगी वेळ घालवण्यास तयार आहेत याचा निर्णय घ्यावा लागतो. उपयुक्तता निश्चित करण्यासाठी मानक जुगार पद्धत ही आणखी एक सामान्यतः वापरली जाणारी पद्धत आहे. या पद्धतीमध्ये, रुग्णांना विचारले जाते की ते दोन पर्यायांपैकी कोणता पर्याय पसंत करतात: एकतर विशिष्ट संभाव्यता (p) (t) सह सामान्य आरोग्यात विशिष्ट संख्येने वर्षे जगा आणि 1-p संभाव्यतेसह मृत्यूचा धोका पत्करा; एकतर क्रॉस हेल्थ परिस्थितीत t वर्षे जगण्याची खात्री करा. रुग्णांना वेगवेगळ्या p-मूल्यांवर अनेक वेळा विचारा जोपर्यंत ते कोणत्याही पर्यायासाठी प्राधान्य दर्शवत नाहीत, जेणेकरून रुग्णांच्या प्रतिसादांवर आधारित उपयुक्तता मोजता येईल.
रुग्णांच्या वैयक्तिक आवडीनिवडी जाणून घेण्यासाठी वापरल्या जाणाऱ्या पद्धतींव्यतिरिक्त, रुग्णांच्या लोकसंख्येसाठी उपयुक्तता मिळविण्यासाठी पद्धती देखील विकसित केल्या गेल्या आहेत. विशेषतः फोकस ग्रुप चर्चा (रुग्णांना विशिष्ट अनुभवांवर चर्चा करण्यासाठी एकत्र आणणे) त्यांचे दृष्टिकोन समजून घेण्यास मदत करू शकते. गट उपयुक्तता प्रभावीपणे एकत्रित करण्यासाठी, विविध संरचित ग्रुप चर्चा तंत्रे प्रस्तावित केली आहेत.
प्रत्यक्षात, क्लिनिकल निदान आणि उपचार प्रक्रियेत उपयुक्ततेचा थेट परिचय खूप वेळखाऊ आहे. यावर उपाय म्हणून, सर्वेक्षण प्रश्नावली सामान्यतः लोकसंख्या पातळीवर उपयुक्तता गुण मिळविण्यासाठी यादृच्छिकपणे निवडलेल्या लोकसंख्येला वितरित केल्या जातात. काही उदाहरणांमध्ये युरोकॉल ५-आयामी प्रश्नावली, ६-आयामी उपयुक्तता वजन लघुरूप, आरोग्य उपयुक्तता निर्देशांक आणि कर्करोग विशिष्ट युरोपियन कर्करोग संशोधन आणि उपचार संघटना जीवन गुणवत्ता प्रश्नावली कोर ३० साधन समाविष्ट आहे.
पोस्ट वेळ: जून-०१-२०२४




