समझाया: क्या है भारत का सर्वम एआई मॉडल जिससे गूगल के सीईओ सुंदर पिचाई काफी प्रभावित हैं
गूगल सीईओ सुन्दर पिचाई कहा कि वह सर्वम एआई के काम से प्रभावित हैं। चल रहे भारत एआई इम्पैक्ट समिट 2026 में बोलते हुए, पिचाई ने कहा, “जब भी मैं यात्रा करता हूं तो मुझे भारत में डेवलपर ऊर्जा मिलती है, यह किसी से पीछे नहीं है,” उन्होंने कहा कि देश में उद्यमिता पारिस्थितिकी तंत्र “संपन्न” है। पिचाई ने विशेष रूप से भारतीय भाषाओं और संदर्भों के अनुरूप स्थानीय एआई मॉडल विकसित करने के लिए सर्वम एआई पर प्रकाश डाला और कहा, “स्थानीय एआई मॉडल विकसित करने के लिए सर्वम ने जो काम किया है …. मुझे इसमें कोई बाधा नहीं दिख रही है, और मुझे लगता है कि यह बहुत, बहुत अच्छी स्थिति में है”। एआई स्टार्टअप ने हाल ही में इंटरनेट पर तहलका मचा दिया है और कंपनी ने दावा किया है कि उसके एआई मॉडल ने एआई में कुछ सबसे बड़े नामों को पीछे छोड़ दिया है, जिसमें गूगल का जेमिनी और ओपनएआईचैटजीपीटी. सर्वम एआई के सीईओ प्रत्यूष कुमार ने लिखा, “सर्वम विजन ने जेमिनी 3 प्रो जैसे फ्रंटियर मॉडल और डीपसीक ओसीआर 2 जैसे हालिया ओसीआर मॉडल से बेहतर प्रदर्शन करते हुए ओएलएमओसीआर-बेंच (केवल अंग्रेजी उपसमूह) पर 84.3% की अत्याधुनिक सटीकता हासिल की है।”
भारत का सर्वम एआई क्या है जिसकी सुंदर पिचाई ने प्रशंसा की
सर्वम की स्थापना विवेक राघवन और प्रत्यूष कुमार ने अगस्त 2023 में की थी। एक ब्लॉग पोस्ट में, कंपनी ने बताया कि इसका सर्वम एआई मॉडल छवि कैप्शनिंग, दृश्य पाठ पहचान, चार्ट व्याख्या और जटिल तालिका पार्सिंग सहित दृश्य समझ कार्यों की एक श्रृंखला में सक्षम है। कंपनी का एक उद्देश्य भारत के उस ज्ञान को उजागर करना है जो भौतिक दस्तावेजों, स्कैन किए गए अभिलेखागार और ऐतिहासिक संग्रहों में अंतर्निहित है। एक अन्य प्रमुख समस्या जिस पर कंपनी काम कर रही है वह भारतीय उपयोगकर्ताओं के लिए एआई कार्यक्षमता लाना है। कंपनी ने कहा, “अधिकांश वैश्विक मॉडल भारतीय भाषाओं को गौण मानते हैं, जिसके परिणामस्वरूप अक्सर क्षेत्रीय लिपियों की सटीकता कम हो जाती है। सटीकता की सीमाओं को आगे बढ़ाने के साथ-साथ, हमारा वीएलएम एक अनुमान-कुशल 3बी राज्य-अंतरिक्ष मॉडल है।”कंपनी का कहना है कि सर्वम एआई मॉडल को 22 आधिकारिक भारतीय भाषाओं को कवर करने वाले उच्च गुणवत्ता वाले डेटासेट पर प्रशिक्षित किया गया है, जिसमें विभिन्न वित्तीय दस्तावेज, साहित्य, समाचार पत्र, ऐतिहासिक ग्रंथ और बहुत कुछ शामिल हैं।सर्वम एआई का वाक् पहचान मॉडल एक 74-मिलियन-पैरामीटर मॉडल के भीतर 10 भारतीय भाषाओं का समर्थन करता है जो एक डिवाइस पर लगभग 294 एमबी रखता है। यह स्वचालित रूप से बोली जाने वाली भाषा की पहचान कर सकता है, उपयोगकर्ता को इसे चुनने की आवश्यकता के बिना। मॉडल लगभग 8.5x वास्तविक समय पर भाषण को संसाधित कर सकता है और क्वालकॉम स्नैपड्रैगन 8 जेन 3 चिपसेट पर 300 मिलीसेकंड से कम का टाइम-टू-फर्स्ट-टोकन प्रदान करता है। इसके भाषण संश्लेषण मॉडल में लगभग 60 एमबी और 24 मिलियन पैरामीटर का डिवाइस फ़ुटप्रिंट है। मॉडल एक मानक बेंचमार्क पर 0.0173 की औसत वर्ण त्रुटि दर प्राप्त करता है, जो दर्शाता है कि संश्लेषित भाषण सभी भाषाओं में इच्छित पाठ से निकटता से मेल खाता है। इस पर कस्टम वॉयस क्लोनिंग का भी समर्थन किया गया है, जिसका अर्थ है कि लगभग एक घंटे के ऑडियो डेटा का उपयोग करके एक नई आवाज जोड़ी जा सकती है और उसी 60 एमबी मॉडल फ़ाइल में तैनात की जा सकती है।दूसरी ओर, अनुवाद मॉडल में 150 मिलियन पैरामीटर और लगभग 334एमबी का ऑन-डिवाइस फ़ुटप्रिंट है। यह किसी मध्यवर्ती भाषा के माध्यम से रूट किए बिना, 10 भारतीय भाषाओं और अंग्रेजी सहित 110 भाषा युग्मों में द्विदिश अनुवाद को संभालता है।
सर्वम एआई जेमिनी और चैटजीपीटी से किस प्रकार भिन्न है
भारत के सर्वम एआई और जेमिनी और चैटजीपीटी के बीच मुख्य अंतर यह है कि पूर्व का ध्यान भारतीय भाषाओं पर है, जिसमें अंग्रेजी को प्राथमिकता दी जाती है और बाकी को गौण माना जाता है। चूंकि यह 22 भारतीय भाषाओं में प्रशिक्षित है, इसलिए यह क्षेत्रीय लिपियों के लिए उच्च सटीकता दे सकता है।जबकि अन्य मॉडल केवल दस्तावेज़ों या छवियों से पाठ निकालने में सक्षम हैं, सर्वमएआई बेहतर समझ और अतिरिक्त ज्ञान के लिए दृश्य तत्वों की व्याख्या भी कर सकता है। यह भारतीय भाषाओं के लिए बड़े पैमाने पर इंडिक ओसीआर बेंचमार्क के साथ समझ के स्तर पर विभिन्न जटिल दस्तावेजों पर बेहतर प्रदर्शन सुनिश्चित करता है।
सर्वम एआई मॉडल उपलब्धता
दस्तावेज़ इंटेलिजेंस एपीआई फरवरी 2026 के लिए मुफ़्त है, जो उपयोगकर्ताओं को सर्वम विज़न के साथ बड़े पैमाने पर अन्वेषण और निर्माण करने की अनुमति देता है, जिसकी शुरुआत आज पूरी तरह से मुफ़्त है।
भारत का सर्वम एआई: प्रमुख विशेषताएं
यहां भारत के सर्वम एआई मॉडल की प्रमुख विशेषताओं का संक्षिप्त सारांश दिया गया है:
- मल्टीमॉडल विज़न-लैंग्वेज: यह इमेज कैप्शनिंग, चार्ट या टेबल व्याख्या को अधिक आसानी से सक्षम करने के लिए छवियों और टेक्स्ट को एक साथ समझने में मदद करता है।
- दस्तावेज़ समझ (भारतीय भाषाओं पर केंद्रित): इसमें ऐतिहासिक ग्रंथों और स्कैन किए गए दस्तावेज़ों सहित 22 भारतीय भाषाओं के लिए उच्च सटीकता वाला ओसीआर और ज्ञान निष्कर्षण है।
- चार्ट और डेटा व्याख्या: सर्वम एआई टेक्स्ट से अधिक समझने में सक्षम है। दस्तावेज़ों के चार्ट, डेटा, चित्र और दृश्य विश्लेषण।
- बहुभाषी दृश्य: एआई मॉडल एक ही दस्तावेज़ में कई भाषाओं में दृश्य तत्वों को समझता है और व्याख्या करता है।
- अग्रणी प्रदर्शन: सर्वम एआई वैश्विक अंग्रेजी बेंचमार्क में उत्कृष्टता प्राप्त करता है और भारतीय भाषाओं के लिए सर्वम इंडिक ओसीआर बेंच पेश करता है।
- एक्सेसिबल एपीआई: इसके दस्तावेज़ इंटेलिजेंस एपीआई उत्पादन के लिए तैयार हैं और फरवरी 2026 में प्रयोग के लिए निःशुल्क हैं।