पेज_बॅनर

बातम्या

लार्ज लँग्वेज मॉडेल (LLM) त्वरित शब्दांवर आधारित प्रेरक लेख लिहू शकते, व्यावसायिक प्रवीणता परीक्षा उत्तीर्ण करू शकते आणि रुग्ण-अनुकूल आणि सहानुभूतीपूर्ण माहिती लिहू शकते. तथापि, LLM मध्ये काल्पनिक कथा, नाजूकपणा आणि चुकीच्या तथ्यांच्या सुप्रसिद्ध जोखमींव्यतिरिक्त, इतर निराकरण न झालेले मुद्दे हळूहळू लक्ष केंद्रित करत आहेत, जसे की AI मॉडेल्स त्यांच्या निर्मिती आणि वापरात संभाव्य भेदभावपूर्ण "मानवी मूल्ये" समाविष्ट करतात आणि जरी LLM यापुढे सामग्री तयार करत नसेल आणि स्पष्टपणे हानिकारक आउटपुट परिणाम काढून टाकत नसेल तरीही, "LLM मूल्ये" मानवी मूल्यांपासून विचलित होऊ शकतात.

 

असंख्य उदाहरणे दर्शवितात की एआय मॉडेल्सना प्रशिक्षित करण्यासाठी वापरला जाणारा डेटा वैयक्तिक आणि सामाजिक मूल्यांना कसे एन्कोड करतो, जे मॉडेलमध्ये दृढ होऊ शकते. या उदाहरणांमध्ये छातीच्या एक्स-रेचे स्वयंचलित अर्थ लावणे, त्वचा रोगांचे वर्गीकरण आणि वैद्यकीय संसाधन वाटपाबाबत अल्गोरिथमिक निर्णय घेणे यासह अनेक अनुप्रयोगांचा समावेश आहे. आमच्या जर्नलमधील अलीकडील लेखात म्हटल्याप्रमाणे, पक्षपाती प्रशिक्षण डेटा समाजात उपस्थित असलेली मूल्ये आणि पक्षपात वाढवू शकतो आणि प्रकट करू शकतो. उलट, संशोधनात असेही दिसून आले आहे की एआयचा वापर पक्षपात कमी करण्यासाठी केला जाऊ शकतो. उदाहरणार्थ, संशोधकांनी गुडघ्याच्या एक्स-रे फिल्म्सवर डीप लर्निंग मॉडेल्स लागू केले आणि गुडघ्याच्या सांध्यातील मानक तीव्रता निर्देशकांनी (रेडिओलॉजिस्टद्वारे श्रेणीबद्ध) चुकवलेले घटक शोधले, ज्यामुळे काळ्या आणि पांढऱ्या रुग्णांमधील अस्पष्ट वेदना फरक कमी झाला.

जरी अधिकाधिक लोकांना एआय मॉडेल्समधील पक्षपात जाणवत असला तरी, विशेषतः प्रशिक्षण डेटाच्या बाबतीत, एआय मॉडेल्सच्या विकास आणि तैनाती प्रक्रियेत मानवी मूल्यांच्या इतर अनेक प्रवेश बिंदूंवर पुरेसे लक्ष दिले जात नाही. वैद्यकीय एआयने अलीकडेच प्रभावी परिणाम साध्य केले आहेत, परंतु मोठ्या प्रमाणात, त्यांनी मानवी मूल्ये आणि जोखीम मूल्यांकन आणि संभाव्य तर्क यांच्याशी त्यांचा परस्परसंवाद स्पष्टपणे विचारात घेतलेला नाही किंवा त्याचे मॉडेलिंगही केलेले नाही.

 

या अमूर्त संकल्पनांना ठोसपणे मांडण्यासाठी, अशी कल्पना करा की तुम्ही एक एंडोक्राइनोलॉजिस्ट आहात ज्यांना त्याच्या वयाच्या तिसऱ्या टक्केवारीपेक्षा कमी असलेल्या ८ वर्षांच्या मुलासाठी रीकॉम्बीनंट मानवी वाढ संप्रेरक लिहून द्यावे लागते. मुलाची उत्तेजित मानवी वाढ संप्रेरक पातळी २ एनजी/एमएलपेक्षा कमी आहे (संदर्भ मूल्य,>१० एनजी/एमएल, युनायटेड स्टेट्स बाहेरील अनेक देशांसाठी संदर्भ मूल्य>७ एनजी/एमएल आहे), आणि त्याच्या मानवी वाढ संप्रेरक कोडिंग जीनने दुर्मिळ निष्क्रियता उत्परिवर्तन शोधले आहेत. आम्हाला वाटते की या क्लिनिकल सेटिंगमध्ये मानवी वाढ संप्रेरक थेरपीचा वापर स्पष्ट आणि निर्विवाद आहे.

खालील परिस्थितींमध्ये मानवी वाढ संप्रेरक थेरपीचा वापर वाद निर्माण करू शकतो: १४ वर्षांच्या मुलाची उंची नेहमीच त्याच्या समवयस्कांच्या १० व्या टक्केवारीत असते आणि उत्तेजनानंतर मानवी वाढ संप्रेरकाची शिखर पातळी ८ एनजी/एमएल असते. उंचीवर परिणाम करणारे कोणतेही ज्ञात कार्यात्मक उत्परिवर्तन नाही किंवा लहान उंचीची इतर ज्ञात कारणे नाहीत आणि त्याचे हाडांचे वय १५ वर्षांचे आहे (म्हणजे विकासात्मक विलंब नाही). या वादाचा एक भाग म्हणजे वेगळ्या वाढ संप्रेरकाच्या कमतरतेचे निदान करण्यासाठी वापरल्या जाणाऱ्या मानवी वाढ संप्रेरकाच्या पातळींबद्दलच्या डझनभर अभ्यासांवर आधारित तज्ञांनी निर्धारित केलेल्या उंबरठ्यातील फरक. किमान तितकाच वाद रुग्ण, रुग्ण पालक, आरोग्यसेवा व्यावसायिक, औषध कंपन्या आणि देयक देणाऱ्यांच्या दृष्टिकोनातून मानवी वाढ संप्रेरक थेरपी वापरण्याच्या जोखीम लाभ संतुलनातून उद्भवतो. बालरोगतज्ज्ञ २ वर्षांपर्यंत वाढ संप्रेरकाच्या दररोज इंजेक्शनच्या दुर्मिळ प्रतिकूल परिणामांचे वजन करू शकतात ज्यामध्ये सध्याच्या तुलनेत प्रौढांच्या शरीराच्या आकारात कोणतीही वाढ नाही किंवा फक्त कमीत कमी वाढ होण्याची शक्यता असते. मुलांचा असा विश्वास असेल की त्यांची उंची फक्त २ सेमीने वाढली तरी ग्रोथ हार्मोन इंजेक्शन देणे फायदेशीर आहे, परंतु पैसे देणारे आणि औषध कंपनीचे मत वेगवेगळे असू शकते.

 

आपण क्रिएटिनिनवर आधारित eGFR चे उदाहरण घेऊ, जे दीर्घकालीन मूत्रपिंडाच्या आजाराचे निदान आणि स्टेजिंग करण्यासाठी, मूत्रपिंड प्रत्यारोपण किंवा देणगीच्या अटी निश्चित करण्यासाठी आणि अनेक प्रिस्क्रिप्शन औषधांसाठी कपात निकष आणि विरोधाभास निश्चित करण्यासाठी मोठ्या प्रमाणावर वापरले जाणारे मूत्रपिंड कार्य सूचक आहे. EGFR हे मोजलेले ग्लोमेरुलर फिल्ट्रेशन रेट (mGFR) अंदाज करण्यासाठी वापरले जाणारे एक साधे प्रतिगमन समीकरण आहे, जे एक संदर्भ मानक आहे, परंतु मूल्यांकन पद्धत तुलनेने अवजड आहे. हे प्रतिगमन समीकरण AI मॉडेल मानले जाऊ शकत नाही, परंतु ते मानवी मूल्ये आणि संभाव्य तर्कांबद्दल अनेक तत्त्वे स्पष्ट करते.

eGFR मध्ये मानवी मूल्यांचा पहिला प्रवेश बिंदू म्हणजे समीकरणे बसवण्यासाठी डेटा निवडणे. eGFR सूत्र डिझाइन करण्यासाठी वापरलेली मूळ रांग बहुतेक काळे आणि पांढरे सहभागींनी बनलेली असते आणि इतर अनेक वांशिक गटांना त्याची लागूता स्पष्ट नाही. या सूत्रात मानवी मूल्यांसाठी पुढील प्रवेश बिंदूंमध्ये हे समाविष्ट आहे: मूत्रपिंडाच्या कार्याचे मूल्यांकन करण्यासाठी प्राथमिक उद्दिष्ट म्हणून mGFR अचूकता निवडणे, अचूकतेची स्वीकार्य पातळी काय आहे, अचूकता कशी मोजायची आणि क्लिनिकल निर्णय घेण्यास ट्रिगर करण्यासाठी eGFR चा उंबरठा म्हणून वापर करणे (जसे की मूत्रपिंड प्रत्यारोपणासाठी परिस्थिती निश्चित करणे किंवा औषधे लिहून देणे). शेवटी, इनपुट मॉडेलची सामग्री निवडताना, मानवी मूल्ये देखील या सूत्रात प्रवेश करतील.

उदाहरणार्थ, २०२१ पूर्वी, मार्गदर्शक तत्त्वांमध्ये रुग्णांचे वय, लिंग आणि वंश (फक्त काळ्या किंवा काळ्या नसलेल्या व्यक्तींमध्ये वर्गीकृत) यावर आधारित eGFR सूत्रात क्रिएटिनिन पातळी समायोजित करण्याचे सुचवले आहे. वंशावर आधारित समायोजन mGFR सूत्राची अचूकता सुधारण्याच्या उद्देशाने आहे, परंतु २०२० मध्ये, प्रमुख रुग्णालयांनी प्रत्यारोपणासाठी रुग्णाची पात्रता विलंबित करणे आणि वंशाला जैविक संकल्पना म्हणून ठोस करणे यासारख्या कारणांचा उल्लेख करून वंशावर आधारित eGFR च्या वापरावर प्रश्नचिन्ह उपस्थित करण्यास सुरुवात केली. संशोधनातून असे दिसून आले आहे की वंशाच्या दृष्टीने eGFR मॉडेल्स डिझाइन केल्याने अचूकता आणि क्लिनिकल परिणामांवर खोल आणि वेगवेगळे परिणाम होऊ शकतात; म्हणून, निवडकपणे अचूकतेवर लक्ष केंद्रित करणे किंवा निकालांच्या एका भागावर लक्ष केंद्रित करणे मूल्य निर्णय प्रतिबिंबित करते आणि पारदर्शक निर्णय घेण्यास लपवू शकते. शेवटी, राष्ट्रीय कार्यगटाने एक नवीन सूत्र प्रस्तावित केले जे कामगिरी आणि निष्पक्षतेच्या मुद्द्यांचा समतोल साधण्यासाठी वंश विचारात न घेता पुन्हा बसवले गेले. हे उदाहरण स्पष्ट करते की साध्या क्लिनिकल सूत्रात देखील मानवी मूल्यांमध्ये अनेक प्रवेश बिंदू असतात.

हॉस्पिटलमधील ऑपरेशन रूममध्ये व्हर्च्युअल रिअ‍ॅलिटी असलेले डॉक्टर. तंत्रज्ञानाच्या डिजिटल फ्युचरिस्टिक व्हर्च्युअल इंटरफेसवर, डिजिटल होलोग्राफिक, विज्ञान आणि औषध संकल्पनेत नाविन्यपूर्ण, रुग्णाच्या हृदय चाचणी निकालांचे आणि मानवी शरीरशास्त्राचे विश्लेषण करणारे सर्जन.

काही मोजक्याच प्रेडिक्टिव इंडिकेटर असलेल्या क्लिनिकल सूत्रांच्या तुलनेत, LLM मध्ये अब्जावधी ते शेकडो अब्ज पॅरामीटर्स (मॉडेल वेट्स) किंवा त्याहून अधिक असू शकतात, ज्यामुळे ते समजणे कठीण होते. आपण "समजण्यास कठीण" असे का म्हणतो याचे कारण म्हणजे बहुतेक LLM मध्ये, प्रश्नांद्वारे प्रतिसाद मिळविण्याचा अचूक मार्ग मॅप केला जाऊ शकत नाही. GPT-4 साठी पॅरामीटर्सची संख्या अद्याप जाहीर केलेली नाही; त्याच्या पूर्ववर्ती GPT-3 मध्ये 175 अब्ज पॅरामीटर्स होते. अधिक पॅरामीटर्सचा अर्थ मजबूत क्षमता असणे आवश्यक नाही, कारण लहान मॉडेल ज्यामध्ये अधिक संगणकीय चक्रे समाविष्ट आहेत (जसे की LLaMA [लार्ज लँग्वेज मॉडेल मेटा एआय] मॉडेल मालिका) किंवा मानवी अभिप्रायावर आधारित बारीक ट्यून केलेले मॉडेल मोठ्या मॉडेल्सपेक्षा चांगले कामगिरी करतील. उदाहरणार्थ, मानवी मूल्यांकनकर्त्यांनुसार, InstrumentGPT मॉडेल (1.3 अब्ज पॅरामीटर्स असलेले मॉडेल) मॉडेल आउटपुट परिणाम ऑप्टिमायझ करण्यात GPT-3 पेक्षा चांगले कामगिरी करते.

GPT-4 चे विशिष्ट प्रशिक्षण तपशील अद्याप उघड केलेले नाहीत, परंतु GPT-3, InstrumentGPT आणि इतर अनेक ओपन-सोर्स LLMs यासारख्या मागील पिढीच्या मॉडेल्सचे तपशील उघड केले गेले आहेत. आजकाल, अनेक AI मॉडेल्स मॉडेल कार्डसह येतात; GPT-4 चे मूल्यांकन आणि सुरक्षा डेटा मॉडेल निर्मिती कंपनी OpenAI द्वारे प्रदान केलेल्या समान सिस्टम कार्डमध्ये प्रकाशित केला गेला आहे. LLM ची निर्मिती साधारणपणे दोन टप्प्यात विभागली जाऊ शकते: प्रारंभिक पूर्व प्रशिक्षण टप्पा आणि मॉडेल आउटपुट परिणाम ऑप्टिमायझ करण्याच्या उद्देशाने फाइन-ट्यूनिंग टप्पा. प्रशिक्षण पूर्व टप्प्यात, मॉडेलला पुढील शब्दाचा अंदाज लावण्यासाठी प्रशिक्षित करण्यासाठी मूळ इंटरनेट मजकूरासह एक मोठा संग्रह प्रदान केला जातो. ही वरवर सोपी "स्वयंचलित पूर्णता" प्रक्रिया एक शक्तिशाली पायाभूत मॉडेल तयार करते, परंतु ती हानिकारक वर्तनास देखील कारणीभूत ठरू शकते. मानवी मूल्ये पूर्व प्रशिक्षण टप्प्यात प्रवेश करतील, ज्यामध्ये GPT-4 साठी पूर्व प्रशिक्षण डेटा निवडणे आणि पूर्व प्रशिक्षण डेटामधून अश्लील सामग्री सारखी अनुचित सामग्री काढून टाकण्याचा निर्णय घेणे समाविष्ट आहे. या प्रयत्नांना न जुमानता, मूलभूत मॉडेल अद्याप उपयुक्त किंवा हानिकारक आउटपुट परिणाम समाविष्ट करण्यास सक्षम असू शकत नाही. फाइन-ट्यूनिंगच्या पुढील टप्प्यात, अनेक उपयुक्त आणि निरुपद्रवी वर्तन उदयास येतील.

फाइन-ट्यूनिंग टप्प्यात, मानवी अभिप्रायावर आधारित पर्यवेक्षित फाइन-ट्यूनिंग आणि रीइन्फोर्समेंट लर्निंगद्वारे भाषा मॉडेल्सचे वर्तन अनेकदा खोलवर बदलले जाते. पर्यवेक्षित फाइन-ट्यूनिंग टप्प्यात, नियुक्त कंत्राटदार कर्मचारी त्वरित शब्दांसाठी प्रतिसाद उदाहरणे लिहितील आणि मॉडेलला थेट प्रशिक्षण देतील. मानवी अभिप्रायावर आधारित रीइन्फोर्समेंट लर्निंग टप्प्यात, मानवी मूल्यांकनकर्ता मॉडेल आउटपुट निकालांना इनपुट सामग्री उदाहरणे म्हणून क्रमवारी लावतील. नंतर "रिवॉर्ड मॉडेल" शिकण्यासाठी आणि रीइन्फोर्समेंट लर्निंगद्वारे मॉडेलमध्ये आणखी सुधारणा करण्यासाठी वरील तुलना परिणाम लागू करा. आश्चर्यकारक निम्न-स्तरीय मानवी सहभाग या मोठ्या मॉडेल्सना फाइन-ट्यून करू शकतो. उदाहरणार्थ, इन्स्ट्रुमेंटजीपीटी मॉडेलने क्राउडसोर्सिंग वेबसाइट्सवरून भरती केलेल्या सुमारे 40 कंत्राटदार कर्मचाऱ्यांच्या टीमचा वापर केला आणि वेगवेगळ्या लोकसंख्या गटांच्या पसंतींबद्दल संवेदनशील असलेल्या भाष्यकारांच्या गटाची निवड करण्याच्या उद्देशाने स्क्रीनिंग चाचणी उत्तीर्ण केली.

साधे क्लिनिकल सूत्र [eGFR] आणि शक्तिशाली LLM [GPT-4] ही दोन टोकाची उदाहरणे दाखवून देतात की, मानवी निर्णय घेण्याची क्षमता आणि मानवी मूल्ये मॉडेल आउटपुट निकालांना आकार देण्यात अपरिहार्य भूमिका बजावतात. हे AI मॉडेल्स त्यांच्या विविध रुग्ण आणि डॉक्टरांच्या मूल्यांना कॅप्चर करू शकतात का? औषधात AI च्या वापराचे सार्वजनिक मार्गदर्शन कसे करावे? खाली नमूद केल्याप्रमाणे, वैद्यकीय निर्णय विश्लेषणाचे पुनर्परीक्षण या समस्यांवर एक तत्वनिष्ठ उपाय प्रदान करू शकते.

 

वैद्यकीय निर्णय विश्लेषण अनेक चिकित्सकांना परिचित नाही, परंतु ते संभाव्य तर्क (निर्णय घेण्याशी संबंधित अनिश्चित परिणामांसाठी, जसे की आकृती 1 मध्ये दर्शविलेल्या वादग्रस्त क्लिनिकल परिस्थितीत मानवी वाढ संप्रेरक वापरायचे की नाही) आणि विचार घटक (या निकालांशी जोडलेल्या व्यक्तिनिष्ठ मूल्यांसाठी, ज्यांचे मूल्य "उपयुक्तता" म्हणून परिमाणित केले जाते, जसे की पुरुष उंचीमध्ये 2 सेमी वाढीचे मूल्य), यांच्यात फरक करू शकते. जटिल वैद्यकीय निर्णयांसाठी पद्धतशीर उपाय प्रदान करणे. निर्णय विश्लेषणात, चिकित्सकांनी प्रथम प्रत्येक निकालाशी संबंधित सर्व संभाव्य निर्णय आणि संभाव्यता निश्चित केल्या पाहिजेत आणि नंतर सर्वात योग्य पर्याय निवडण्यासाठी प्रत्येक निकालाशी संबंधित रुग्ण (किंवा इतर पक्ष) उपयुक्तता समाविष्ट केली पाहिजे. म्हणून, निर्णय विश्लेषणाची वैधता परिणाम सेटिंग व्यापक आहे की नाही, तसेच उपयुक्ततेचे मोजमाप आणि संभाव्यतेचा अंदाज अचूक आहे की नाही यावर अवलंबून असते. आदर्शपणे, हा दृष्टिकोन निर्णय पुराव्यावर आधारित आणि रुग्णांच्या पसंतींशी जुळवून घेण्यास मदत करतो, ज्यामुळे वस्तुनिष्ठ डेटा आणि वैयक्तिक मूल्यांमधील अंतर कमी होते. ही पद्धत अनेक दशकांपूर्वी वैद्यकीय क्षेत्रात सादर करण्यात आली होती आणि वैयक्तिक रुग्ण निर्णय घेण्यावर आणि लोकसंख्या आरोग्य मूल्यांकनावर लागू केली गेली होती, जसे की सामान्य लोकसंख्येला कोलोरेक्टल कर्करोग तपासणीसाठी शिफारसी प्रदान करणे.

 

वैद्यकीय निर्णय विश्लेषणात, उपयुक्तता मिळविण्यासाठी विविध पद्धती विकसित केल्या गेल्या आहेत. बहुतेक पारंपारिक पद्धती थेट वैयक्तिक रुग्णांकडून मूल्य मिळवतात. सर्वात सोपी पद्धत म्हणजे रेटिंग स्केल वापरणे, जिथे रुग्ण डिजिटल स्केलवर (जसे की 1 ते 10 पर्यंतचा रेषीय स्केल) विशिष्ट परिणामासाठी त्यांच्या पसंतीच्या पातळीचे मूल्यांकन करतात, ज्यामध्ये सर्वात जास्त आरोग्य परिणाम (जसे की संपूर्ण आरोग्य आणि मृत्यू) दोन्ही टोकांवर असतात. वेळ विनिमय पद्धत ही आणखी एक सामान्यतः वापरली जाणारी पद्धत आहे. या पद्धतीमध्ये, रुग्णांना खराब आरोग्याच्या कालावधीच्या बदल्यात ते किती निरोगी वेळ घालवण्यास तयार आहेत याचा निर्णय घ्यावा लागतो. उपयुक्तता निश्चित करण्यासाठी मानक जुगार पद्धत ही आणखी एक सामान्यतः वापरली जाणारी पद्धत आहे. या पद्धतीमध्ये, रुग्णांना विचारले जाते की ते दोन पर्यायांपैकी कोणता पर्याय पसंत करतात: एकतर विशिष्ट संभाव्यता (p) (t) सह सामान्य आरोग्यात विशिष्ट संख्येने वर्षे जगा आणि 1-p संभाव्यतेसह मृत्यूचा धोका पत्करा; एकतर क्रॉस हेल्थ परिस्थितीत t वर्षे जगण्याची खात्री करा. रुग्णांना वेगवेगळ्या p-मूल्यांवर अनेक वेळा विचारा जोपर्यंत ते कोणत्याही पर्यायासाठी प्राधान्य दर्शवत नाहीत, जेणेकरून रुग्णांच्या प्रतिसादांवर आधारित उपयुक्तता मोजता येईल.
रुग्णांच्या वैयक्तिक आवडीनिवडी जाणून घेण्यासाठी वापरल्या जाणाऱ्या पद्धतींव्यतिरिक्त, रुग्णांच्या लोकसंख्येसाठी उपयुक्तता मिळविण्यासाठी पद्धती देखील विकसित केल्या गेल्या आहेत. विशेषतः फोकस ग्रुप चर्चा (रुग्णांना विशिष्ट अनुभवांवर चर्चा करण्यासाठी एकत्र आणणे) त्यांचे दृष्टिकोन समजून घेण्यास मदत करू शकते. गट उपयुक्तता प्रभावीपणे एकत्रित करण्यासाठी, विविध संरचित ग्रुप चर्चा तंत्रे प्रस्तावित केली आहेत.
प्रत्यक्षात, क्लिनिकल निदान आणि उपचार प्रक्रियेत उपयुक्ततेचा थेट परिचय खूप वेळखाऊ आहे. यावर उपाय म्हणून, सर्वेक्षण प्रश्नावली सामान्यतः लोकसंख्या पातळीवर उपयुक्तता गुण मिळविण्यासाठी यादृच्छिकपणे निवडलेल्या लोकसंख्येला वितरित केल्या जातात. काही उदाहरणांमध्ये युरोकॉल ५-आयामी प्रश्नावली, ६-आयामी उपयुक्तता वजन लघुरूप, आरोग्य उपयुक्तता निर्देशांक आणि कर्करोग विशिष्ट युरोपियन कर्करोग संशोधन आणि उपचार संघटना जीवन गुणवत्ता प्रश्नावली कोर ३० साधन समाविष्ट आहे.


पोस्ट वेळ: जून-०१-२०२४