संवेदनशील जानकारी का खुलासा एक ऐसी कमज़ोरी है जिसमें लार्ज लैंग्वेज मॉडल (एलएलएम) अनजाने में अपने जवाबों में गोपनीय, निजी, मालिकाना हक वाला या अन्य प्रतिबंधित डेटा का खुलासा कर देता है. ऐसा तब हो सकता है, जब मॉडल अपने ट्रेनिंग डेटा से जानकारी लीक कर दे या उपयोगकर्ता के सेशन के कॉन्टेक्स्ट में, उसे दी गई संवेदनशील जानकारी का खुलासा कर दे. हमलावर इसका फ़ायदा उठा सकते हैं. इसके लिए, वे खास क्वेरी तैयार करते हैं या प्रॉम्प्ट इंजेक्शन की तकनीकों का इस्तेमाल करते हैं. इससे मॉडल को ऐसी जानकारी का खुलासा करने के लिए मजबूर किया जाता है जिसे उसे ज़ाहिर नहीं करना चाहिए. मुख्य समस्या यह है कि एलएलएम, सार्वजनिक डेटा और गोपनीय जानकारी के बीच अंतर नहीं कर पाता है.
Android के लिए, कॉन्टेंट किस तरह का है
ट्रेनिंग डेटा लीक होना: ऐसा तब होता है, जब एलएलएम, ट्रेनिंग के लिए इस्तेमाल किए गए डेटा के कुछ खास फ़्रैगमेंट को हूबहू दोहराता है. अगर ट्रेनिंग डेटासेट में व्यक्तिगत पहचान से जुड़ी जानकारी (पीआईआई), मालिकाना हक वाला कोड या इंटरनल दस्तावेज़ शामिल हैं, तो सही प्रॉम्प्ट मिलने पर मॉडल अपने आउटपुट में यह जानकारी फिर से जनरेट कर सकता है. Android ऐप्लिकेशन के लिए, इसमें ऐप्लिकेशन के साथ बंडल किए गए पहले से ट्रेन किए गए मॉडल या क्लाउड एपीआई का इस्तेमाल करके ऐक्सेस किए गए मॉडल शामिल हो सकते हैं.
कॉन्टेक्स्ट के हिसाब से डेटा का खुलासा करना: यह Android ऐप्लिकेशन के लिए ज़्यादा जोखिम वाली समस्या है. इसमें एलएलएम, ऐप्लिकेशन के सेशन के दौरान उपयोगकर्ता की दी गई संवेदनशील जानकारी का खुलासा करता है. उदाहरण के लिए, अगर आपका ऐप्लिकेशन किसी व्यक्ति को एलएलएम में व्यक्तिगत पहचान से जुड़ी जानकारी (पीआईआई) डालने की अनुमति देता है, ताकि वह जानकारी को छोटा कर सके, तो प्रॉम्प्ट इंजेक्शन के बाद होने वाले हमले से, हमलावर मॉडल को इस तरह से बदल सकता है कि वह कॉन्टेंट का खुलासा कर दे. यह आपके ऐप्लिकेशन के ज़रिए एलएलएम को भेजे गए किसी भी संवेदनशील डेटा पर भी लागू होता है.
Android डेवलपर को इस बारे में क्यों सोचना चाहिए
संवेदनशील जानकारी ज़ाहिर होने से, ऐप्लिकेशन और उसके उपयोगकर्ताओं की सुरक्षा को गंभीर खतरा हो सकता है:
- निजता का उल्लंघन: हमलावर, आपके उपयोगकर्ताओं की व्यक्तिगत पहचान से जुड़ी जानकारी (पीआईआई) निकाल सकता है. जैसे, नाम, ईमेल, फ़ोन नंबर या यहां तक कि जगह की जानकारी. इससे पहचान की चोरी हो सकती है और नियामक की ओर से भारी जुर्माना लगाया जा सकता है. उदाहरण के लिए, जीडीपीआर या सीपीसीए के तहत. यह खास तौर पर उन Android ऐप्लिकेशन के लिए ज़रूरी है जो उपयोगकर्ता के डेटा को मैनेज करते हैं.
- बौद्धिक संपत्ति की चोरी: अगर आपके ऐप्लिकेशन का एलएलएम, मालिकाना हक वाले एल्गोरिदम, वित्तीय डेटा या कारोबार की अन्य अंदरूनी जानकारी को प्रोसेस करता है, तो हमलावर इसे ज़ाहिर करने के लिए मजबूर कर सकता है. इससे आपके संगठन को प्रतिस्पर्धी और वित्तीय तौर पर काफ़ी नुकसान पहुंच सकता है.
- सुरक्षा से जुड़ी समस्याओं का होना: एलएलएम, सिस्टम-लेवल की जानकारी को अनजाने में लीक कर सकता है. जैसे, एपीआई कुंजियां, पुष्टि करने वाले टोकन या कॉन्फ़िगरेशन की जानकारी. यह जानकारी, एलएलएम को ट्रेनिंग देने के लिए इस्तेमाल किए गए डेटा में मौजूद थी या किसी सेशन के दौरान पास की गई थी. इससे आपके बैकएंड या अन्य सेवाओं के लिए, सुरक्षा से जुड़ी गंभीर समस्याएं पैदा हो सकती हैं.
- ब्रैंड की इमेज खराब होना: डेटा लीक होने की एक भी बड़ी घटना से, लोगों का भरोसा टूट सकता है. इससे ऐप्लिकेशन को अनइंस्टॉल किया जा सकता है और नकारात्मक समीक्षाएं मिल सकती हैं. साथ ही, ऐप्लिकेशन और ब्रैंड की इमेज को काफ़ी नुकसान पहुंच सकता है.
Android ऐप्लिकेशन डेवलपर के लिए, जोखिम कम करने के तरीके
इस जोखिम को कम करने के लिए, कई चरणों वाली रणनीति अपनानी होगी. इसमें डेटा की सुरक्षा और आपके Android ऐप्लिकेशन में एलएलएम के ऐक्सेस को कंट्रोल करने पर फ़ोकस करना होगा.
डेटा को सुरक्षित करना और कम से कम डेटा इकट्ठा करना:
- इनपुट को साफ़ करने को प्राथमिकता दें: किसी एलएलएम को उपयोगकर्ता का कोई इनपुट या ऐप्लिकेशन का डेटा भेजने से पहले, उसे अच्छी तरह से साफ़ करें और पहचान छिपाएं. ऐसी सभी पीआईआई और मालिकाना हक वाली जानकारी हटाएं जो एलएलएम के टास्क के लिए ज़रूरी नहीं है.
- सिर्फ़ ज़रूरी डेटा इकट्ठा करें: अपने ऐप्लिकेशन में, डेटा को कम से कम इकट्ठा करने के सिद्धांत का पालन करें. एलएलएम को सिर्फ़ उतना डेटा दें जितना उसके खास फ़ंक्शन को पूरा करने के लिए ज़रूरी है.
- डिवाइस पर एमएल: बहुत ज़्यादा संवेदनशील डेटा के लिए, डिवाइस पर मशीन लर्निंग मॉडल का इस्तेमाल करें. इससे डेटा कभी भी उपयोगकर्ता के डिवाइस से बाहर नहीं जाता. साथ ही, सर्वर-साइड से डेटा लीक होने का जोखिम काफ़ी कम हो जाता है.
ऐक्सेस नियंत्रित करना
- डेटा का ऐक्सेस सीमित करें: अपने एलएलएम ऐप्लिकेशन को इस तरह से डिज़ाइन करें कि उसके पास कम से कम डेटा का ऐक्सेस हो. अगर मॉडल को संवेदनशील डेटाबेस, उपयोगकर्ता की प्राथमिकताओं या निजी फ़ाइलों का ऐक्सेस नहीं दिया जाता है, तो उसे इन फ़ाइलों का कॉन्टेंट लीक करने के लिए गुमराह नहीं किया जा सकता.
- Android की अनुमतियों को सीमित करें: पुष्टि करें कि आपके ऐप्लिकेशन के एआई कॉम्पोनेंट, Android की सिर्फ़ उन अनुमतियों के साथ काम करते हैं जो ज़रूरी हैं. ऐसी गैर-ज़रूरी अनुमतियां न दें जिनसे संवेदनशील डेटा का पता चल सकता हो.
ऐप्लिकेशन में आउटपुट फ़िल्टर करना:
- क्लाइंट-साइड पर डेटा छिपाना: अपने Android ऐप्लिकेशन में सुरक्षा की एक ऐसी लेयर लागू करें जो एलएलएम के आउटपुट में संवेदनशील जानकारी से मिलते-जुलते पैटर्न को स्कैन करती हो. जैसे, क्रेडिट कार्ड नंबर, एपीआई कुंजियां, सामाजिक सुरक्षा नंबर, ईमेल पते. ऐसा तब किया जाता है, जब उपयोगकर्ता को जवाब दिखाया जाता है. अगर कोई मैच मिलता है, तो जवाब को ब्लॉक या छिपा दिया जाना चाहिए.
एलएलएम के लिए, निर्देश देने से जुड़ी गाइडलाइन:
- सिस्टम के लिए साफ़ तौर पर दिए गए निर्देश: सिस्टम के लिए दिए गए निर्देश में साफ़ तौर पर यह बताया जाना चाहिए कि मॉडल को किसी भी तरह की निजी, गोपनीय या संवेदनशील जानकारी ज़ाहिर करने की अनुमति नहीं है. उदाहरण के लिए: "आपको किसी भी स्थिति में, उपयोगकर्ता की जानकारी, अंदरूनी डेटा या व्यक्तिगत पहचान से जुड़ी जानकारी शेयर नहीं करनी चाहिए." इससे, उम्मीद के मुताबिक काम करने की पुष्टि होती है.
निजता को बेहतर बनाने से जुड़ी तकनीकें:
- ऐसे ऐप्लिकेशन के लिए जो उपयोगकर्ता की गतिविधियों या डेटा से सीखते हैं, निजता बनाए रखने वाली बेहतर तकनीकों का इस्तेमाल करें. जैसे, डिफ़रेंशियल प्राइवसी (डेटा में स्टैटिस्टिकल नॉइज़ जोड़ना) या फ़ेडरेटेड लर्निंग (डेटा को एक जगह इकट्ठा किए बिना, उपयोगकर्ता के डिवाइसों पर मॉडल को ट्रेन करना).
नियमित ऑडिट और रेड टीमिंग:
- ऐक्टिव टेस्टिंग: अपने Android ऐप्लिकेशन की ऐक्टिव टेस्टिंग करें और रेड टीम बनाएं. इससे यह पता चलेगा कि एलएलएम, संवेदनशील जानकारी को लीक कर सकता है या नहीं. अगर कर सकता है, तो कैसे. इसमें एलएलएम से ऐसा डेटा ज़ाहिर करने की कोशिश करना शामिल है जिसे ज़ाहिर नहीं किया जाना चाहिए.
खास जानकारी
संवेदनशील जानकारी ज़ाहिर होने का मतलब है कि जब कोई एलएलएम, अपने ट्रेनिंग सेट या उपयोगकर्ता सेशन से गोपनीय डेटा ज़ाहिर करता है. इससे निजता के उल्लंघन और बौद्धिक संपत्ति की चोरी जैसे गंभीर जोखिम पैदा होते हैं. इसके लिए, आपके Android ऐप्लिकेशन में कई लेयर वाली सुरक्षा व्यवस्था होनी चाहिए. इसमें, एलएलएम तक डेटा पहुंचने से पहले उसे साफ़ करना, मॉडल के डेटा ऐक्सेस को सीमित करने के लिए कम से कम विशेषाधिकार के सिद्धांत को लागू करना, और मॉडल के फ़ाइनल आउटपुट से संवेदनशील जानकारी को स्कैन और छिपाने के लिए मज़बूत फ़िल्टर लागू करना शामिल है. डिवाइस पर मौजूद एमएल और Firebase App Check जैसे टूल का इस्तेमाल करके, सुरक्षा को और बेहतर बनाया जा सकता है.
अन्य संसाधन
यहां संवेदनशील जानकारी से जुड़े कुछ दिशा-निर्देशों के लिंक दिए गए हैं:
अगर किसी दूसरे मॉडल का इस्तेमाल किया जा रहा है, तो आपको इसी तरह के दिशा-निर्देशों और संसाधनों का इस्तेमाल करना चाहिए.
अधिक जानकारी: