DeepSeek AI app logo photo illustration, of the Chinese artificial intelligence company that develops open-source large language models LLM in a fraction of the cost of the US based competition. DeepSeek logo displayed on a smartphone screen on an illuminated laptop keyboard. Amsterdam, the Netherlands on January 28, 2025 (Photo by Nicolas Economou/NurPhoto via Getty Images)
पिछले सप्ताह एक डेवलपर प्लेटफॉर्म पर गुमनाम रूप से सामने आए एक शक्तिशाली कृत्रिम बुद्धिमत्ता मॉडल ने इस अटकल को जन्म दिया है कि चीनी स्टार्टअप डीपसीक आधिकारिक लॉन्च से पहले चुपचाप अपनी अगली पीढ़ी की प्रणाली का परीक्षण कर रहा होगा।
हंटर अल्फा नामक यह मुफ्त मॉडल 11 मार्च को एआई गेटवे प्लेटफॉर्म ओपनराउटर पर बिना किसी डेवलपर के नाम के सामने आया और बाद में प्लेटफॉर्म द्वारा इसे “स्टील्थ मॉडल” के रूप में वर्णित किया गया।
रॉयटर्स द्वारा किए गए परीक्षणों के दौरान, हंटर अल्फा चैटबॉट ने खुद को “एक चीनी एआई मॉडल बताया जिसे मुख्य रूप से चीनी भाषा में प्रशिक्षित किया गया है” और कहा कि इसका प्रशिक्षण डेटा मई 2025 तक फैला हुआ है, जो कि डीपसीक के अपने चैटबॉट द्वारा रिपोर्ट किए गए ज्ञान की सीमा के समान है।
हालांकि, जब इसके निर्माता के बारे में पूछा गया, तो सिस्टम ने अपने डेवलपर की पहचान बताने से इनकार कर दिया।
चैटबॉट ने कहा, “मुझे सिर्फ अपना नाम, अपना पैरामीटर स्केल और अपनी कॉन्टेक्स्ट विंडो की लंबाई पता है।”
न तो डीपसीक और न ही ओपनराउटर ने मॉडल के निर्माता की पहचान की है और उन्होंने टिप्पणी के लिए किए गए अनुरोधों का जवाब नहीं दिया है।
हंटर अल्फा के प्रोफाइल पेज पर इसे 1 ट्रिलियन पैरामीटर वाला मॉडल बताया गया है, जिसका अर्थ है कि इसे लगभग एक ट्रिलियन समायोज्य मानों का उपयोग करके प्रशिक्षित किया गया था जो यह निर्धारित करते हैं कि सिस्टम भाषा को कैसे संसाधित करता है और प्रतिक्रियाएँ उत्पन्न करता है। अधिक पैरामीटर वाले मॉडलों को आमतौर पर संचालित करने के लिए काफी अधिक कंप्यूटिंग शक्ति की आवश्यकता होती है।
यह सिस्टम दस लाख टोकन तक की एक संदर्भ विंडो का भी विज्ञापन करता है, जो यह मापता है कि एक एआई मॉडल एक ही इंटरैक्शन के दौरान कितना टेक्स्ट प्रोसेस या याद रख सकता है। एक टोकन मोटे तौर पर टेक्स्ट के एक छोटे से हिस्से, जैसे कि किसी शब्द के एक भाग के बराबर होता है।
एआई एजेंट सिस्टम बनाने वाले इंजीनियर नबील हाउआम ने कहा, “हंटर अल्फा के 1 मिलियन टोकन के संदर्भ, तर्क क्षमता और मुफ्त पहुंच का संयोजन सबसे अलग था।”
उन्होंने आगे कहा, “उस संदर्भ सीमा वाले अधिकांश अग्रणी मॉडलों को बड़े पैमाने पर लागू करने में वास्तविक लागत आती है।”
ये विशिष्टताएँ स्थानीय मीडिया में डीपसीक के अगली पीढ़ी के V4 मॉडल के लिए जताई जा रही उम्मीदों से मिलती-जुलती हैं, जिसके बारे में चीनी मीडिया ने बताया है कि यह अप्रैल की शुरुआत में लॉन्च हो सकता है। डीपसीक, अपने कई चीनी प्रतिस्पर्धियों की तरह, अच्छी तरह से वित्तपोषित है, हालांकि इसकी संरचना थोड़ी असामान्य है क्योंकि इसकी मूल कंपनी एक तकनीकी समूह के बजाय एक क्वांटिटेटिव हेज फंड है।
हालांकि यह समानता सीधे तौर पर कोई संबंध स्थापित नहीं करती है, लेकिन इसने डेवलपर्स के बीच इस अटकल को तेज कर दिया है कि यह अनाम प्रणाली डीपसीक द्वारा आगामी रिलीज का एक प्रारंभिक परीक्षण संस्करण हो सकती है।
“विचारों की श्रृंखला का पैटर्न शायद सबसे मजबूत संकेत है,” एआई इंजीनियर डैनियल ड्यूहर्स्ट ने कहा, जिन्होंने मॉडल के जारी होने के बाद उसका विश्लेषण किया था, यह बताते हुए कि एआई मॉडल कैसे तर्क करता है।
“तर्क शैली को छिपाना मुश्किल है और यह इस बात को दर्शाती है कि मॉडल को कैसे प्रशिक्षित किया गया था।”
उन्होंने कहा कि हंटर अल्फा का आकार और मेमोरी क्षमता भी डीपसीक वी4 के लिए इस साल की शुरुआत से प्रसारित हो रही विशिष्टताओं से मेल खाती है।
फिर भी, कुछ डेवलपर्स ने चेतावनी दी कि मॉडल को डीपसीक से जोड़ने वाले सबूत निर्णायक नहीं थे।
स्वतंत्र एआई बेंचमार्क परीक्षण करने वाले उमुर ओज़कुल ने कहा, “मेरे विश्लेषण से पता चलता है कि हंटर अल्फा संभवतः डीपसीक वी4 नहीं है,” उन्होंने डीपसीक की मौजूदा प्रणालियों की तुलना में टोकन-संबंधित व्यवहार और वास्तुशिल्प पैटर्न में अंतर का हवाला दिया।
उन्होंने कहा कि मॉडल को डीपसीक से जोड़ने वाली अटकलें, विज्ञापित समय और क्षमताओं को देखते हुए, समझ में आती हैं।
डेवलपर परीक्षण
अनाम मॉडल लॉन्च असामान्य नहीं हैं, क्योंकि ओपनराउटर जैसे प्लेटफॉर्म डेवलपर्स को एक ही इंटरफेस के माध्यम से दर्जनों एआई मॉडल को क्वेरी भेजने की अनुमति देते हैं, जिससे वे नए सिस्टम के लिए एक लोकप्रिय परीक्षण स्थल बन जाते हैं।
पोनी अल्फा नामक एक अज्ञात मॉडल फरवरी में ओपनराउटर पर दिखाई दिया, जिसके पांच दिन बाद चीनी फर्म ज़िपू एआई ने पुष्टि की कि यह उसके जीएलएम-5 सिस्टम का हिस्सा था।
हंटर अल्फा के प्रोफाइल पेज पर एक नोटिस में कहा गया है कि मॉडल के लिए सभी प्रॉम्प्ट और पूर्णताएँ “प्रदाता द्वारा लॉग की जाती हैं और मॉडल को बेहतर बनाने के लिए उपयोग की जा सकती हैं,” जो निष्पक्ष प्रतिक्रिया के लिए गुप्त मॉडल लॉन्च का उपयोग करने की उद्योग-व्यापी प्रथा को रेखांकित करता है।
ओपनराउटर के आंकड़ों के अनुसार, प्लेटफॉर्म पर आने के बाद इस मॉडल को तेजी से अपनाया गया और रविवार तक इसने 160 बिलियन से अधिक टोकन संसाधित किए।
इस गतिविधि का अधिकांश हिस्सा ओपनक्लॉ जैसे सॉफ्टवेयर विकास उपकरणों और एआई एजेंट फ्रेमवर्क से आया, जो एआई सिस्टम को स्वायत्त रूप से कार्यों की योजना बनाने और बाहरी सॉफ्टवेयर के साथ बातचीत करने की अनुमति देते हैं।
