भारतवर्ष के वास्ते

अंग्रेजी को प्राथमिकता देने के दौर को पीछे छोड़ देश अब अपने विविध समुदायों-समाजों की मदद और उन्हें ताकत देने के खातिर बहुभाषी, संदर्भों से जुड़ा हुआ एआइ विकसित करने की ओर बढ़ा.

सांकेतिक तस्वीर
सांकेतिक तस्वीर

- कालिका बाली

ग्रामीण राजस्थान के उदयपुर जिले में एक मान्यता प्राप्त सामाजिक स्वास्थ्य कार्यकर्ता (आशा) पाती है कि एक नवजात शिशु के वजन में कई हफ्तों से बदलाव नहीं आया है. उसने सभी निर्धारित मानकों का पालन किया है. मां का कहना है कि बच्चा दूध भी ठीक-ठाक पी रहा है. कोई चिंताजनक लक्षण नहीं दिखे हैं. फिर भी कुछ गड़बड़ है—और समझ नहीं आ रहा है कि आगे क्या जांच करनी चाहिए.

कोई मैनुअल खंगालने या किसी सुपरवाइजर से बात करने—जो शायद उपलब्ध न हो—के बजाए आशा कार्यकर्ता व्हाट्सऐप खोलती है और अपने फोन पर हिंदी में बोलती है कि शिशु नियमित दूध पी रहा है, उम्र इतनी है, वजन नहीं बढ़ रहा वगैरह...वह कुछ भी टाइप नहीं कर रही, बस हमेशा की तरह बोल रही है.

फौरन जवाब आता है, लिखे में नहीं, बल्कि बोली में. उसमें वजन न बढ़ने के संभावित कारणों का जिक्र होता है और सलाह मिलती है कि अगली जांच से पहले किन बातों पर गौर किया जाए. यह बताने वाला कोई और नहीं, बल्कि आशाबॉट है, जिसे माइक्रोसॉफ्ट रिसर्च इंडिया में विकसित किया गया है और संबंधित लोगों को उपलब्ध कराया गया है. यह इसकी शुरुआती झलक भर है कि आर्टिफिशियल इंटेलिजेंस से लोगों को मदद मिल रही और जानकारी अंग्रेजी टेक्स्ट में नहीं, बल्कि स्थानीय बोली में मिलती है.

यह देश में एआइ के मामले में बिना हो-हल्ले के अहम बदलाव की मिसाल है. अब सवाल यह नहीं कि देश में एआइ का इस्तेमाल होगा या नहीं, बल्कि यह है कि किस भाषा में, और किस आदमी को जानकारी मुहैया कराया जा रहा है.

देश में 22 आधिकारिक भाषाएं, सैकड़ों बोलियां और आम बोलचाल में कई भाषाओं का इस्तेमाल करने वालों की भी कमी नहीं है. अधिकांश लोग आराम से दूसरी भाषाओं के शब्दों, लहजों और मुहावरों का इस्तेमाल करते हैं. यहां भाषा सिर्फ संवाद का साधन नहीं; बल्कि पहचान, अधिकार और दायरे का भी इजहार है. यानी देश में भाषा पसंद का मामला नहीं, बल्कि दरवाजे की तरह है.

पिछले दशक के डिजिटल इंडिया अभियान के तहत सिर्फ पटरी बिछायी गई है, यानी सिर्फ पहचान, भुगतान, कनेक्टिविटी की खातिर. लेकिन बुनियादी ढांचा उपलब्धता की गारंटी नहीं हो सकता. भाषायी एआइ तय करता है कि कौन संबंधित प्लेटफॉर्म का लाभ उठा सकता है. यह एआइ अंग्रेजी में तो ठीक काम करता है लेकिन देसी भाषाओं के मामले में लड़खड़ा जाता है. इससे एक बड़ा वर्ग सुविधाओं का लाभ उठाने के दायरे से बाहर हो जाता है.

मौजूूदा समय में अधिकांश बहुभाषी एआइ इस पर आधारित है कि मॉडल अच्छी अंग्रेजी में बने और बाकी सब कुछ अनुवाद कर दें. यह तरीका वैश्विक उपभोक्ता ऐप्स के मामले में ठीक-ठाक काम करता है लेकिन भारत में यह चूक जाता है. दरअसल, अनुवाद किताबी भाषा में आता है, जबकि लोग संदर्भों में बोलते हैं.  

सोचिए, आशा कार्यकर्ता बोलचाल की हिंदी में पूछती है, ''बच्चा दूध पी रहा है, पर वजन क्यों नहीं बढ़ रहा?’’ इसका अक्षरश: अनुवाद शब्दों को तो पकड़ता है लेकिन मूल भाव को नहीं. वह वास्तव में यह जानना चाहती है कि क्या समस्या दूध पिलाने, किसी संक्रमण, मां के पोषण की दिक्कत है, या कुछ और करने की दरकार है? आम अनूदित जवाब शिशु विकास चार्ट या कैलोरी खुराक का आंकड़ा दे सकता है, जो तकनीकी रूप से सही होंगे लेकिन व्यवहार में बेमानी.

आम बोलचाल में अर्थ शब्दों के बीच निहित होते हैं, जैसे लहजे में, अनकहे शब्दों में, उम्र, आहार और जोखिम को लेकर साझी आशंकाओं में. अनुवाद बोले गए शब्दों के लहजों को नहीं पकड़ पाता. उत्तर में सहजता नजर आती है. सलाह भरोसे वाली लगती है. फिर भी, यह बात तो तय है कि एआइ ने सवाल को ही गलत संदर्भ में समझा. स्वास्थ्य सेवा, शासन या शिक्षा जैसे  क्षेत्रों में कोई तकनीकी सीमा नहीं है. ऐसे में यह सुरक्षा के लिए एक खतरा है.

मजबूत बुनियाद का निर्माण
इसी एहसास ने देश में भाषायी एआइ को नया आकार देना शुरू किया है. उसे अब अतिरिक्त सुविधा नहीं, बल्कि साझा बुनियादी ढांचे के तौर पर देखा जा रहा है, जो भाषा, क्षेत्र और संदर्भ को समझकर काम करे. यह बदलाव इंडियाएआइ मिशन जैसे राष्ट्रीय प्रयासों से औपचारिक रूप ले रहा है, जिसके तहत भाषा, कंप्यूटिंग क्षमता और जनहित को एआइ रणनीति का आधार बनाया गया है. लेकिन भाषायी एआइ अचानक अस्तित्व में नहीं आया.

पिछले कुछ वर्षों में एआइ4भारत ने भाषायी एआइ के विकास और उपयोग के तरीके को बदलने में भूमिका निभाई है. इसका सबसे बड़ा योगदान आंकड़ों और विभिन्न मॉडल के जरिए यह जाहिर करना था कि भारतीय भाषाएं आधुनिक एआइ प्रणालियों में कैसे वरीयता हासिल कर सकती हैं. सभी 22 आधिकारिक भाषाओं के लिए पाठ, भाषण, अनुवाद, ओसीआर और टेक्स्ट-टू-स्पीच समेत व्यापक ओपेन डेटासेट जारी करके एआइ4भारत ने इस धारणा को ध्वस्त कर दिया कि भारतीय भाषाओं में प्रासंगिकता की कमी है.

एआइ4भारत से यह साबित करने में मदद मिली कि भारतीय भाषाओं में एआइ का विकास संभव है तो भाषिणी से यह तय हुआ कि उसका बड़े पैमाने पर इस्तेमाल हो. राष्ट्रीय भाषा प्रौद्योगिकी मंच की अवधारणा से बनी भाषिणी की देश के डिजिटल इन्फ्रास्ट्रक्चर (डीपीआइ) में भाषा की अहम भूमिका है, जिससे भारतीय भाषाओं में बोले गए शब्दों की पहचान, अनुवाद, टेक्स्ट-टू-स्पीच और ओसीआर के लिए साझा एपीआइ, डेटासेट और सेवाएं उपलब्ध  हों. यह एकल ऐप्लिकेशन के बजाए मजबूत बुनियाद के तौर पर काम करती है और सरकारी प्लेटफार्मों, स्टार्टअप और डेवलपरों को उपलब्ध सेवाओं में स्थानीय भाषा को जोड़ने की छूट देती है.

इस तरीके ने पूरी दुनिया का ध्यान खींचा. मसलन, गेट्स फाउंडेशन ने आवाज और टेक्स्ट वाली भाषाई तकनीकों को स्वास्थ्य, शिक्षा, कृषि और सरकारी सेवाओं में एआइ के लिए बुनियादी जरूरत बताया. इन क्षमताओं को डिजिटल सार्वजनिक संपत्ति के तौर पर विकसित करने से अब पूरा ध्यान अलग-अलग ऐप बनाने के बजाए दीर्घकालिक क्षमता निर्माण पर केंद्रित हो गया है. ठीक वैसे ही जैसे भारत ने डीपीआइ को अपना आधार बनाया था. हालांकि, यह भी पता चला कि भारत का भाषाई मानचित्र अभी कितना अधूरा है.

इंडियन इंस्टीट्यूट ऑफ साइंस की स्पायर लैब में रेस्पिन और प्रोजेक्ट वाणी जैसी पहलकदमियों के माध्यम से शोधकर्ताओं ने भाषायी एआइ की सबसे बड़ी कमी को दूर करना शुरू कर दिया है: वह है व्यापक डेटा का अभाव. इन प्रयासों के तहत सैकड़ों जिलों से बोलियों को रिकॉर्ड किया गया है, जिनमें वे बोलियां भी शामिल हैं जिन्हें जनगणना में भी जोड़ा नहीं गया: जैसे अगरिया, अंगिका, बज्जिका, बेरीबाशे, मालवणी, पनिया, शेखावाटी और सिलहटी. इन प्रयासों ने उन बोलियों को भी जोड़ा, जिन्हें पुराने डेटासेट लंबे समय तक नजरअंदाज करते रहे थे. गूगल समेत कई कंपनियों के सहयोग से चल रहे प्रोजेक्ट वाणी का मकसद स्पष्ट है देश में एआइ का इस्तेमाल टाइप करके नहीं, बोलकर होगा.

लेकिन सुनने से ज्यादा कठिन समझना है. भारतीय भाषाओं को सुनकर लिखना किसी कौशल से कम नहीं. अक्सर दो लिखने वाले एक ही बात पर असहमत हो सकते हैं—इसलिए नहीं कि कोई गलत है बल्कि इसलिए कि भाषा में बदलाव और विविधता स्वाभाविक है. देसी एआइ की सबसे बड़ी समस्या ऐसे मानक बनाना है जो भाषाई विविधता का सम्मान करे.

यहीं सुरक्षा अहम मुद्दा बन जाती है. 'कार्य’ जैसी समुदाय-केंद्रित पहल एआइ की धाराप्रवाह लेकिन कमजोरियों को बताती है. कार्य के तहत देशभर में विभिन्न समुदायों के साथ मिलकर हाइ न्न्वालिटी डेटा जुटाया जाता है और डेटा देने वालों को उचित भुगतान भी किया जाता है. इंडियाएआइ मिशन के तहत सॉकेट.एआइ की टीमों ने उस सचाई का भी पता लगाया जिसे वैश्विक प्रणालियां अक्सर अनदेखा करती रही हैं. इंटरनेट पर यह जानकारी नहीं है कि भारत के लोगों के बोलने का लहजा क्या है.

जिम्मेदार एआइ
भारतजेन और सर्वम एआइ जैसी पहल की अग्रणी भूमिका बताती है कि भारत अब सिर्फ वैश्विक मॉडल अपनाने से संतुष्ट नहीं. ऐसी पहल का उद्देश्य भारतीय डेटा, लिपियों और उपयोग-आधारित बहुभाषी और बहुआयामी प्रणालियां विकसित करना है.
जैसे-जैसे मॉडल ज्यादा सशक्त बनते जाते हैं, उनका प्रबंधन जरूरी हो जाता है.

एआइ कोष इंडियाएआइ मिशन का दूसरा प्रमुख स्तंभ है, जिसकी अवधारणा करीने से छांटे गए डेटासेट, मॉडल और बेंचमार्क के सुरक्षित भंडार के तौर पर की गई है. यह सहमति, गोपनीयता और जवाबदेही के उपायों के साथ पुन: उपयोग की छूट देता है. गहरे सामाजिक मायने रखने वाले भाषा डेटा की यह व्यवस्था एक तरह की सुरक्षा देती है.

2026 में स्थानीय भाषा में काम करने वाली एआइ प्रणालियां सलाह देने वाले उपकरणों से आगे बढ़कर फैसले सुनाने वाले ढांचे में बदल जाएंगी. उनका इस्तेमाल कल्याणकारी सेवाओं, स्वास्थ्य सेवा, शिकायत निवारण तंत्र और स्थानीय प्रशासन में गहराई से किया जा सकेगा. वॉयस-फर्स्ट असिस्टेंट न केवल सवालों के जवाब देंगे, बल्कि खतरों से आगाह भी करेंगे, आगे संभावित कदमों के बारे में सुझाएंगे और अनिश्चितता को दूर करने में मददगार होंगे.

इस संदर्भ में देखें तो आशाबॉट सिर्फ प्रारंभिक सफलता नहीं, बल्कि इससे भविष्य की सुनहरी तस्वीर भी सामने आती है. आशाबॉट जैसी प्रणालियां लोगों की मदद के लिए डिजाइन की गई हैं. भारत में एआइ का भविष्य इससे तय नहीं होगा कि वह कितना भरोसेमंद जानकारी देता है, बल्कि इससे निर्धारित होगा कि वह पूछे जाने वाले सवालों को कितनी सावधानी से सुनता-समझता है. 

खास बातें
एआइ4भारत ने साबित किया कि आधुनिक एआइ प्रणालियों में भारतीय भाषाओं को पूरी अहमियत के साथ शामिल और उनका इस्तेमाल किया जा सकता है.

भाषिणी देश के डिजिटल सार्वजनिक इन्फ्रास्ट्रक्चर की भाषायी लेयर की तरह काम करती है. इसका उपयोग साझा एपीआइ और सेवाओं में बोली की पहचान और अनुवाद वगैरह के लिए किया जा सकता है.

भारतजेन और सर्वम एआइ का मकसद भारतीय डेटा, लिपियों, इस्तेमाल करने के तरीकों वगैरह से संबंधित बहुभाषी और बहुआयामी विशाल बुनियादी मॉडल तैयार करना है, जो सबके काम आए.

(कालिका बाली, माइक्रोसॉफ्ट रिसर्च इंडिया में सीनियर प्रिंसिपल रिसर्चर हैं.)

Read more!