Skip to content

Big Data क्या है, इसके अर्थ, प्रकार, उपयोग, फायदे, नुकसान

    Big Data क्या है, इसके अर्थ, प्रकार, उपयोग, फायदे, नुकसान

    Big Data (बिग डाटा)

    डाटा, आज की सबसे मूल्यवान वस्तु है। और यह एक तथ्य है। इसमें कोई संदेह नहीं है। क्योंकि आजकल हर छोटे-बड़े Business के संचालन में Data की मदद ली जाती है। और यह जरूरी भी है। क्योंकि बिना डाटा के बिजनेस को चलाना बहुत ही मुश्किल है। इसीलिए आजकल हर छोटी-बड़ी कंपनी अपने कस्टमर्स के Data पर नजर रखती है।

     

    आज लगभग हर छोटी-बड़ी कंपनी अपने बिजनेस संचालन के लिए बड़ी मात्रा में Data Store करती हैं। और इस Data का उपयोग Customers की पसंंद-नापसंद जानने, उनके Buying Pattern और Behavior को समझने, अपने उत्पाद और सेवाओं में सुधार करने, Customers Service को बेहतर बनाने और ग्राहकों की आवश्यकता के अनुरूप नये प्रोडक्ट्स डिजायन करने में करती हैं। इसीलिए डाटा काफी महत्वपूर्ण होता है।

    अगर आप एक Online Job Seeker हैं तो आपको पता होगा कि आजकल Big Data से जुड़ी काफी Jobs काफी Demand में हैं। और सबसे ज्यादा पैसा भी इन्हीं जॉब्स में है। क्योंकि बिग डाटा एक Trending और भविष्योन्मुखी तकनीक है, जिसमें करियर की अपार संंभवनाऐं हैं। इसीलिए आजकल BigData पढ़ने की सलाह दी जाती है। लेकिन सवाल यह है कि यह बिग डाटा आखिर है क्या? और इसे कैसे इस्तेमाल किया जाता है? आइए, समझते हैं।

    Big Data क्या है?

    बिग डाटा (Big Data) शब्द, दो शब्दों से मिलकर बना है Big और Data. यहाँ Big का अर्थ है बड़ा या विशाल। और Data का अर्थ है सूचनाऐं (Information), आंकड़ें अथवा जानकारी। इस तरह Big Data का अर्थ हुआ सूचनाओं या जानकारियों का विशाल संग्रह। या Information का बहुत बड़ा भंडार, जिसमें Structured, Semi Structured और Unstructured Data शामिल हो।

    असल में जो भी सूचनाऐं Digitally बन रही हैं या लिखी जा रही हैं, वे सब Data हैं। आप इस वक्त यह जो आर्टिकल पढ़ रहे हैं यह भी एक डाटा है। इसी तरह आप किसी से बात कर रहे हैं; अपने Phone या Computer में कुछ लिख रहे हैं; फोटो क्लिक कर रहे हैं; वीडियो शूट कर रहे हैं या किसी को मैसेज भेज रहे हैं – यह सब Data है। और इसी Data को इकट्ठा करके कंपनियांँ अपने फायदे के लिए इस्तेमाल करती हैं।

    BigData इसी Informational Data का प्रतिनिधित्व करता है। यानि कि बहुत सारा डाटा मिलकर Big Data का निर्माण करता है। और यह इतना बड़ा है कि आप सोच भी नहीं सकते। दुर्भाग्य से, Big Data इतना विशाल है कि कोई भी Data Management Tool इसे Collect या कुशलतापूर्वक Store नहीं कर सकता।

    Big Data का उत्पादन

    हम रोज लगभग 2.5 Quintillion Bytes से अधिक डाटा का उत्पादन करते हैं। अकेला NewYork Stock Exchange ही लगभग एक टेराबाइट से अधिक Data का उत्पादन रोज करता है। इसके अलावा बिग डाटा के उत्पादन में सोशल मीडिया प्लेटफॉर्म्स का भी काफी बड़ा योगदान है। इसी तरह, दुनिया के तमाम Airlines मिलकर रोज कई Petabyte (1,000 टेराबाइट) डाटा का उत्पादन करते हैं। हालांकि इस एक आम इंसान के लिए इस Data का कोई खास महत्व नहीं है। लेकिन बड़ी-बड़ी कंपनियों, समाचार एजेंसियों और राजनीतिक दलों के लिए इस डाटा का बहुत महत्व है।

    अर्थात् ये इस डाटा को Collect करके अपने फायदे के लिए इस्तेमाल करते हैं। जैसा कि पिछले आर्टिकल (Data Science) में आपने जाना था कि किस तरह Big Data को Process करके उसमें से काम की Information निकाली जाती है? और किस तरह उसे अपने फायदे के लिए इस्तेमाल किया जाता है?

    5 V’s of Big Data

    बिग डाटा की 5 सबसे बड़ी और मुख्य विशेषताऐं हैं, जिन्हें 5 V’s of Data Science के नाम से जाना जाता है। ये 5 V हैं – Volume, Velocity, Variety, Veracity और Value. क्या मतलब है इनका? आइए, जानते हैं :-

    1. Volume

    वॉल्यूम का अर्थ है मात्रा। अर्थात् Amount of Data. यह Big Data की मात्रा को संदर्भित करता है। Volume, बिग डाटा का आधारभूत तत्व है। क्योंकि इसी के आधार पर तय होता है कि कोई डाटा Big Data है या नहीं? अगर डाटा की मात्रा काफी ज्यादा है, तो उसे बिग डाटा माना जा सकता है। लेकिन कम मात्रा में मौजूद डाटा को बिग डाटा नहीं माना जा सकता। अर्थात् Large amount of data को ही Big Data Consider किया जाता है।

    2. Velocity

    वैलोसिटी का अर्थ है वेग या गति। यह असल में डाटा उत्पन्न होने की गति (Speed) को संदर्भित करता है। यानि कि Data कितनी तेजी से उत्पन्न हो रहा है? और वह किस रफ्तार से चल रहा है। यह बहुत मायने रखता है। क्योंकि कंपनियों के लिएडाटा को तेजी से प्रवाहित करने की आवश्यकता होती है। ताकि सही समय पर उचित व्यावसायिक निर्णय लिए जा सकें।

    बिग डाटा का इस्तेमाल करने वाले Organization के पास Data का निरंतर प्रवाह जरूरी है। अर्थात् जो डाटा उत्पन्न हो रहा है, उसका सही समय पर Analysis और उपयोग करने की जरूरत होती है। यह डाटा कहीं से भी प्रवाहित हो सकता है। जैसे कि कम्प्यूटर नेटवर्क, स्मार्टफोन, सोशल मीडिया आदि।

    3. Variety

    वैरायटी का अर्थ है विविधता अर्थात् डाटा की भिन्नता। यह असल में Big Data की विविधता को दर्शाता है। अर्थात् डाटा के प्रकारों और विविधता को संदर्भित करता है। चूंकि एक Organization द्वारा अलग-अलग Sources (सोशल मीडिया, Forums, कम्प्यूटर नेटवर्क आदि) से Data Collect किया जाता है। इसीलिए उसमें एकरूपता नहीं होती। यह डाटा अलग-अलग स्वरूपों में हो सकता है। जैसे Numbers, Texts, दस्तावेज़, चित्र, ऑडियो, वीडियो, ईमेल, ग्राफिक्स आदि।

    4. Veracity

    वैरासिटी का अर्थ है सत्यता। अर्थात् डाटा की सटीकता या प्रामाणिकता। यह असल में Big Data की विसंगतियों और अनिश्चितताओं को दर्शाता है। अर्थात् डाटा में मौजूद गड़बड़ियों व त्रुटियों को संदर्भित करता हैं। क्योंकि अलग-अलग स्त्रोतों से प्रवाहित होने के कारण Big Data परिवर्तनशील होता है। इसीलिए उसकी Quality (सटीकता और गुणवता) को Control करना काफी मुश्किल होता है।

    5. Value

    पाँचवां और अंतिम V है Value. अर्थात् मूल्य। यह दरअसल डाटा की उपयोगिता को दर्शाता है। अर्थात् कोई Data उपयोगी है या नहीं? अथवा कितना उपयोगी है? यह Big Data की सबसे बड़ी और सबसे महत्वपूर्ण विशेषता है। क्योंकि बिना मूल्य के कोई डाटा किसी काम का नहीं है।

    अगर डाटा के एक विशाल संंग्रह से कोई भी काम की Information न निकले, तो वह किसी काम का नहीं है। अर्थात् जब तक बिग डाटा को किसी उपयोगी चीज में नहीं बदला जा सकता, वह महत्वहीन (Useless) है। इसीलिए Value सबसे महत्वपूर्ण है।

    Big Data का इतिहास

    बिग डाटा का इतिहास काफी पुराना है। अगर आप इतिहास में जाऐंगे तो आपको पता चलेगा कि सबसे पहले 1663 में Big Data का उपयोग किया गया था। यह वह दौर था जब यूरोप में Bubonic Plague फैला हुआ था। और John Graunt इस पर Research कर रहे थे। इसी सिलसिले में John Graunt ने भारी मात्रा में जानकारी (Data) का सामना किया था।

    Graunt Statistical Data विश्लेषण का उपयोग करने वाले पहले व्यक्ति थे। बाद में, 1800 के दशक की शुरुआत में Data के संग्रह और विश्लेषण के लिए Statistics Data के क्षेत्र में तेजी से विकास हुआ। लेकिन Big Data को 1880 में पहली बार एक समस्या के रूप में देखा गया था। उस समय अमेरिकी जनगणना ब्यूरो ने घोषणा की थी कि उस वर्ष जनगणना कार्यक्रम के दौरान एकत्र किए गए Data को संभालने और संसाधित करने में आठ साल लगेंगे।

    1881 में, Herman Hollerith Buero के एक व्यक्ति ने Hollerith Tabulating मशीन का आविष्कार किया। इस मशीन ने गणना के कार्य को काफी आसान कर दिया।

    उसके बाद 20वीं सदी में, Data का उत्पादन तेजी से बढ़ा। क्योंकि यह वह वक्त था, जब सूचनाओं को चुंबकीय रूप में संग्रहीत करने और संदेशों में Scanning Patterns के लिए मशीनें, और कंप्यूटर बनने शुरू हो गए थे। इससे Big Data विकास का मुख्य बिन्दु बन गया। उसके बाद 1965 में, अमेरिकी सरकार ने लाखों फ़िंगरप्रिंट सेट और Tax Returns को संग्रहीत करने के उद्देश्य से पहला Data Center बनाया। उसके बाद जैसे-जैसे आवश्यकता पड़ी, Big Data उपकरणों का आविष्कार होता रहा। जैसे कि –

    1970

    1970 में Edgar F. Codd ने एक Relation Model का आविष्कार किया। जो बड़े डेटाबेस में डाटा की संरचना व स्थान को जाने बिना जानकारी तक पहुँच प्रदान करता था। यह Data Management के लिए काफी उपयोगी टूल था। जिसने बड़े डाटा को मैनज करना काफी आसान बना दिया।

    1976

    आगे चलकर 1976 में Material Requirements Planning (MRP) सिस्टम का आविष्कार हुआ। जो Business में सूचनाओं को व्यवस्थित व Schedule करने के लिए डिजायन किया गया था। इसने बिजनेस मैनजमेंट को काफी आसान बना दिया। बाद में यह Business Management के लिए बड़े पैमाने पर इस्तेमाल होने लगा।

    1989

    साल 1989 में Tim Berners Lee ने WWW (World Wide Web) का आविष्कार किया। यह Technology के क्षेत्र में एक अभूतपूर्व खोज थी। क्योंकि इसके बाद इंटरनेट के जरिए भारी मात्रा में Data उत्पन्न होने लगा।

    2001

    Doug Laney ने “3 Vs of Big Data” का वर्णन करते हुए एक पेपर प्रस्तुत किया, जो Bigdata की मूलभूत विशेषताओं का वर्णन करता था। यही वह वर्ष था जब “software-as-a-service” शब्द पहली बार लोगों के साथ साझा किया गया था।

    2005

    वर्ल्ड वाइड वेब और इंटरनेट की खोज के बाद Data इतनी तेजी से उत्पन्न होने लगा कि डाटा को संग्रह और संसाधित करना एक चुनौती बन गई। परिणामस्वरूप Hadoop जैसे Open-Source Software Framework का निर्माण हुआ। जो Big Data को Store करने के लिए डिजायन किया गया था।

    2007

    शब्द “Big Data” को Wired Article “The End of Theory”: द डेटा डेल्यूज मेक्स द साइंटिफिक मेथड अप्रचलित” में जनता के लिए पेश किया गया।

    2008

    कंप्यूटर विज्ञान शोधकर्ताओं की एक टीम ने “Big Data Computing: क्रिएटिंग रिवोल्यूशनरी ब्रेकथ्रू इन कॉमर्स, साइंस एंड सोसाइटी पेपर प्रकाशित किया, जिसमें बताया गया कि कैसे BigData कंपनियों और Business के तरीके को बदल रहा है।

    2014

    इस समय तक अधिक से अधिक कंपनियां अपने Enterprise Resource Planning Systems (ERP) को Cloud पर ले जाना शुरू कर चुकी थी। क्योंकि इस समय तक Internet of Things (IoT) का बड़े स्तर पर इस्तेमाल किया जाने लगा था। और प्रतिदिन बड़ी मात्रा में डेटा संचारित (Transmitting) होने लगा था। इस वक्त लगभग 3.7 बिलियन कनेक्टेड डिवाइसेज अथवा उपयोग में आने वाली चीज़ों के साथ IoT का इस्तेमाल हो रहा था।

    2016

    ओबामा प्रशासन ने “Federal Big Data Research and Strategic Development Plan” जारी किया। जिसमें कहा गया कि Big Data Business को विकास की ओर ले जाने और चलाने के लिए डिजायन किया गया है। यह सीधे समाज और अर्थव्यवस्था को लाभान्वित करेगा।

    2017

    2017 में IBM के अध्ययन में कहा गया कि इस वक्त प्रतिदिन 2.5 क्विंटल बाइट डेटा उत्पन्न हो रहा है। और दुनिया का 90% डेटा पिछले दो वर्षों में पैदा हुआ है। उसके बाद डाटा का उत्पादन लगातार बढ़ रहा है।

    Big Data के प्रकार

    वैसे तो Data कई प्रकार का होता है। लेकिन मूल रूप से इसे तीन श्रेणियों में बांटा जाता है। ये तीन श्रेणियां हैं Structured, Un-Structured और Semi-Structured. क्या फर्क है तीनों में? आइए, समझते हैं।

    Structured Data

    जिस डाटा को एक निश्चित प्रारूप में संग्रहीत, संसाधित और एक्सेस किया जा सकता है, उसे Structured Data कहा जाता है। यह एक समान प्रारूप में होता है, इसलिए इसे Analyse करके Businesses अधिकतम लाभ उठा सकते हैं। इसके अलावा Structured Data का इस्तेमाल Machine Learning और Data Science में भी होता है। आज संरचित डेटा का निर्माण इतनी तेजी से हो रहा है कि यह ज़ेटाबाइट्स के निशान तक पहुँच चुका है।

    Un-Structured Data

    Unstructured Data का कोई निश्चित प्रारूप या सरंचना नहीं होती। इसीलिए इसे संंसाधित करना काफी कठिन होता है। यह Files का एक बड़ा संग्रह होता है, जिसमें सभी तरह की फाईलें हो सकती हैंं। मसलन, Text Files, Image Files, Audio Files, Video Files, Social Media Posts आदि। यह Humen Generated भी हो सकते हैं। और Machine Generated भी।

    हालांकि UnStructured Data में Internal Structure हो सकता है। लेकिन यह Data Models द्वारा Pre-Defined नहीं होता। इसीलिए इसे संसाधित करना और सूचनाऐं निकालना एक चुनौतीपूर्ण कार्य है। क्योंकि ऐसे डाटा किसी भी रूप में हो सकते हैं।

    Semi-Structured Data

    Semi-Structured Data संरचित और असंरचित डाटा का मिश्रण होता है। इसमें Structured Data भी होता है, और UnStructured भी। यानि कि दोनों तरह के Datasets होते हैं। हालांकि Semi Structured Data को आप Structured Data के रूप में भी समझ सकते हैं, लेकिन इसको Database के अंदर नहीं दिखा सकते।

    वेब एप्लिकेशन्स से आने वालाडाटा Semi-Structured Data का एक अच्छा उदाहरण है। इसमें Unstructured Data जैसे कि Log Files, Receive-Transfer History Files आदि शामिल हैं। OLTP सिस्टम संरचित डेटा के साथ काम करने के लिए बनाए गए हैं। जिसमें डाटा को एक नियम से संग्रहित किया जाता है।

    Big Data का उपयोग कैसे किया जाता है?

    अब सवाल यह है कि Big Data का इस्तेमाल कैसे किया जाता है? How is bigdata used? तो इसके लिए कई Advanced Tools और मशीनों का उपयोग किया जाता है। जैसे कि NoSQL Database. यह एक विशेष डाटाबेस है, जो बिगडाटा को स्टोर करने के लिए इस्तेमाल होता है। इसमें किसी विशेष मॉडल के सख्त Rules को Follow करने की जरूरत नहीं पड़ती।

    NoSQL Database, डाटा के बारे में पूरी जानकारी प्राप्त करने और उसका विश्लेषण करने के लिए एक Flexible Interface मुहैया करवाता है। जिसकी मदद से आप यह पता लगा सकते हैं कि Data के साथ क्या हो रहा है? आमतौर पर BigData को एकत्रित, संसाधित और Analyse करने के लिए दो भागों में बांटा जाता है। एक Operational और दूसरा Analytical Data.

    Operational Systems बिग डाटा को कई सर्वरों पर इकट्ठा करते हैं। जिनमें इन्वेंट्री, ग्राहक डेटा और खरीद करने जैसे Input शामिल होते हैं। वहीं Analytical Data में जो डाटा अधिक महत्वपूर्ण होता है, उसे Analyse किया जाता है। और उसके बाद Filter करके बिजनेस में फायदे के लिए इस्तेमाल किया जाता है।

    आजकल लगभग हर Business में Big Data का उपयोग किया जाता है। कंपनियाँ, Market में चल रहे Trends को समझने, Users की पसंंद-नापसंद जानने, करोबार को आगे बढ़ाने और विज्ञापन के जरिए मनचाहे ग्राहकों तक पहुंचने के लिए Big Data का उपयोग करती हैं। साथ ही बिजनेस में आने वाली मुश्किलों व चुनौतियों से निपटने के लिए भी बिग डाटा का उपयोग करती हैं।

    Big Data के उपयोग

    अब सवाल यह है कि बिग डाटा का उपयोग क्या है? What are the uses of bigdata? और इसका इस्तेमाल कहाँ होता है? आइए, कुछ उदाहरण देखते हैं। The uses of bigdata :-

    Finance

    फाइनेंस सेक्टर में बैंकों के साथ धोखाधड़ी का पता लगाने, जोखिम का आंकलन करने, Loan, Insurance, Credit Score, Brokerage Services, Blockchain Technology और भविष्य में होने वाले फायदों व जोखिमों का पता लगाने के लिए Bigdata उपयोग किया जाता है। साथ ही Finance संस्थान अपने साइबर सुरक्षा के प्रयासों को बढ़ाने और ग्राहकों के लिए वित्तीय निर्णयों को Personalize करने के लिए भी BigData का बड़े स्तर पर उपयोग करते हैं।

    Healthcare

    हेल्थकेयर सेक्टर में Hospitals, Researchers और Pharmaceutical Companies स्वास्थ्य सेवाओं को बेहतर बनाने और जीवन रक्षक दवाओं की खोज करने के लिए BigData का उपयोग करती हैं। साथ ही बड़ी संख्या में मरीजों के डाटा का विश्लेषण करने और गंभीर रोगों का ईलाज ढूँढने में बिग डाटा की मदद ली जाती है।

    असल में, मेडिकल रिसर्च के लिए मरीजों का डाटा बहुत महत्वपूर्ण होता है। क्योंकि इससे रोगों का प्रभाव जानने और उनका ईलाज ढूँढने में काफी मदद मिलती है। यानि कि मरीजों के डाटा का विश्लेषण करके Pharmaceutical Companies सही व असरदार दवाएं बना सकती हैं। आमतौर पर Cancer व Alzheimer जैसी बीमारियों के लिए इसी तरह नई दवाएं विकसित की जाती हैं।

    Media & Entertainment

    यदि आप OTT Platforms (Netflix, Hotstar आदि) पर Movies, वेब सीरीज और मनोरंजक कार्यक्रम देखने के शौकीन हैं! तो आपको पता होगा कि इन प्लेटफॉर्म्स को इस्तेमाल करने से पहले आपको SignUp करना पड़ता है। अर्थात् अपना Account Create करना पड़ता है। और अपनी पसंंद बतानी पड़ती है। साथ ही अपना Personal Data भी शेयर करना पड़ता है।

    असल में ये Apps आपकी हरेक गतिविधि पर नजर रखती हैं। जैसे कि आप क्या देख रहे हैं? क्या सर्च कर रहे हैं? किस तरह के प्रोग्राम्स ज्यादा देख रहे हैं? कौनसे Formats में ज्यादा Interest ले रहे हैं? अर्थात् फिल्में ज्यादा देख रहे हैं या वेब सीरीज? टीवी सीरियल्स ज्यादा देख रहे हैं? या रियलिटी शोज? और दिन के किस वक्त में क्या देख रहे हैं? यह सारी जानकारी OTT Platforms इकट्ठा करते हैं। और इसका इस्तेमाल अपने फायदे के लिए करते हैं।

    अर्थात् इकट्ठा किए गए Data का इस्तेमाल न सिर्फ Users को Personalized Content Recommend करने के लिए किया जाता है। बल्कि ऐसे Programs के निर्माण में भी किया जाता है, जो Users को सबसे ज्यादा पसंंद होते हैं। क्योंकि Data की मदद से OTT Platforms को पता चल जाता है कि लोग क्या देखना चाहते हैं? नेटफ्लिक्स ग्राहकों की प्राथमिकताओं के बारे में निर्णय लेने के लिए ग्राफिक्स, Title और रंगों के डेटा का भी उपयोग करता है।

    Agriculture

    आजकल बीजों के उत्पादन से लेकर नई किस्मों के विकास, मृदा स्वास्थ्य, फसल चक्र, कीट प्रबंधन, Water Cycle, Fertilizers, Automated Irrigation System और Climate Change जैसे अनेक कार्यों में BigData का उपयोग किया जाता है। साथ ही वैश्विक स्तर पर भूखमरी और कुपोषण जैसी समस्याओं के आंकलन में भी बिग डाटा का उपयोग किया जाता है।

    आज दुनियाभर में भूखमरी और कुपोषण से लड़ने के लिए मुहिम चलाई जा रही है। और इसमें Global Open Data for Agriculture & Nutrition (GODAN) जैसे समूह महत्वपूर्ण भूमिका निभा रहे हैं। GODAN जैसे समूहों के साथ भूखमरी से पीड़ित लोगों का Data शेयर करके वैश्विक पोषण और कृषि को बढ़ावा देने में मदद मिल रही है। साथ ही वैश्विक भूख और कुपोषण को समाप्त करने में मदद मिल रही है।

    Big Data Technologies

    बिग डाटा को Manage करना आसान नहीं होता। इसे मैनेज करने के लिए कई सारी Technologies का इस्तेमाल होता है। यानि कि बड़ी मात्रा में Real Time Data Analysis के लिए बड़ी Data Processing Technologies की जरूरत पड़ती है। और इसके लिए निम्न Technologies का इस्तेमाल किया जाता है:-

    1. Apache Hadoop

    यह सबसे प्रसिद्ध Bigdata Tool है। Apache Hadoop एक Open-Source Software Framework है। जिसे Apache Software Foundation द्वारा BigData को Store व Process करने के लिए विकसित किया गया है। यह Java Language में लिखा गया है।

    Hadoop Distributed File System (HDFS) आज के समय में सबसे पॉपुलर और सबसे विश्वसनीय Data Storage Software है। यह एक महंगा, Fault-Tolerant और सबसे अधिक इस्तेमाल किया जाने वाला Framework है। जो किसी भी आकार और प्रकार के डेटा को संसाधित कर सकता है। Hadoop Commodity Hardware के Computing वातावरण में डाटा को संग्रहित और संसाधित करता है।

    Apache Hadoop की विशेषताएं:

    • यह सबसे अधिक उपयोग किया जाने वाला Software है।
    • इसमें गलती होने की संभावना ना के बराबर है।
    • फ्रेमवर्क को इस तरह से डिजाइन किया गया है कि यह Machine Crash जैसी प्रतिकूल परिस्थितियों में भी काम कर सकता है।
    • फ्रेमवर्क Commodity Hardware में डेटा स्टोर करता है, जो Hadoop को Cost-Effective बनाता है।
    • यह Distributed File System का उपयोग करता है। जिसकी वजह से डेटा प्रोसेसिंग काफी तेजी से होती है।

    Hadoop का उपयोग करने वाली कंपनियां Facebook, LinkedIn, IBM, MapR, Intel, Microsoft इत्यादि हैं। इनके अलावा भी कई दिग्गज कंपनियाँ हैं, जो Hadoop का इस्तेमाल करती हैं।

    2. MongoDB

    यह एक Open-Source Data Analysis Tool है, जो 2009 में MongoDB द्वारा विकसित किया गया है। यह एक NoSQL Document-Oriented Database है। और यह C, C ++ और Javascript में लिखा गया है। यह Unstructured Data को JSON फॉर्मेट में स्टोर करने की सुविधा देता है।

     

    MongoDB, BigData के लिए सबसे लोकप्रिय डेटाबेस में से एक है। यह Unstructured, Semi-Structured और अक्सर बदलने वाले Data को भी आसानी से Manage कर सकता है। MongoDB Software, MEAN Stack, NET एप्लिकेशन और Java आदि Languages पर आसानी से Execute हो जाता है साथ ही Cloud में भी आसानी से चल जाता है।

    MongoDB की विशेषताएं:

    • यह अत्यधिक विश्वसनीय और किफायती है।
    • यह MongoDB Query Language (MQL) का उपयोग करता है, जो Developers के लिए काफी आसान है।
    • यह एक शक्तिशाली Database है जो कठिन से कठिन समस्याओं को भी ठीक करने में सक्षम है।
    • इसमें रिलेशनल डेटाबेस की सभी शक्तियां हैं।
    • यह Ad hoc queries, Indexing, Sharding और Replication जैसी समस्याओं को हल करता है

    अगर उपयोगकर्ताओं की बात करें तो Facebook, eBay, MetLife और Google जैसी कंपनियाँ MongoDB का उपयोग करती हैं।

    3. Apache Storm

    यह एक Distributed Real-Time Computational Framework है, जो Clojure और Java Language में लिखा गया है। यह Unlimited Data Processing की सुविधा देता है। और इसे किसी भी प्रोग्रामिंग लैंग्वेज के साथ प्रयोग किया जा सकता है। Apache Storm का उपयोग Real-Time Data Analysis, निरंतर गणना, Online Machine Learning और ETL जैसे कार्यों में किया जाता है।

    Apache Storm की विशेषताएं:

    • Apache Storm मुफ़्त और Open-Source Technology है।
    • यह Highly Scalable है।
    • यह इस्तेमाल करने में काफी आसान है।
    • Apache Storm डाटा प्रोसेसिंग की गारंटी देता है।
    • इसमें प्रति नोड प्रति सेकंड लाखों Tuples को संसाधित करने की क्षमता है।

    अगर उपयोगकर्ताओं की बात करें तो Yahoo, Alibaba, Groupon, Twitter और Spotify जैसी कंपनियाँ Apache Storm का उपयोग करती हैं।

    Big Data के फायदे

    अब सवाल यह है कि Big Data के फायदे क्या हैं? What are the benefits of big data? तो वैसे तो बिग डाटा के कई सारे फायदे हैं। लेकिन यहाँ हम कुछ चुनिंदा फायदों के बारे में ही बात करेंगे। तो आइए, बिन्दुवार समझते हैं कि बिग डाटा के क्या-क्या फायदे हैंं? The benefits of big data :-

    • Big Data का इस्तेमाल करके आप लोगों की पसंंद-नापसंद जान सकते हैं। और जरूरतों को समझ सकते हैं।
    • BigData का इस्तेमाल करके आप अपने प्रोडक्ट्स की लागत में कमी ला सकते हैं।
    • इसके जरिए आप मार्केट में चल रहे Trends और नवाचारों को समझ सकते हैं।
    • बिग डाटा की मदद से आप बड़े व्यवसायों के साथ प्रतिस्पर्धा कर सकते हैं।
    • यह आपको स्थानीय मार्केट प्राथमिकताओं पर ध्यान केंद्रित करने की अनुमति देता है।
    • बिगडाटा का उपयोग आप अपनी बिक्री और भरोसे को बढ़ाने के लिए कर सकते हैं।
    • BigData का उपयोग करके आप कंपनी में सही कर्मचरियों की नियुक्ति कर सकते हैं।

    Big Data के नुकसान

    बिग डाटा के फायदे तो आपने जान लिए। लेकिन आपको बताना चाहूंँगा कि Big Data के जितने फायदे हैं, उतने ही नुकसान भी हैं। आइए, इन नुकसानों के बारे में जानते हैं। The disadvantages of big data :-

    • Big Data का विश्लेषण करना Users की Privacy के सिद्धांतों का उल्लंघन करता है।
    • बिग डाटा का उपयोग गलत कार्यों में किया जा सकता हैं।
    • Traditional Storage में बिग डाटा स्टोर करना काफी खर्चीला होता है।
    • बिग डाटा का उपयोग ग्राहकों के रिकॉर्ड में हेरफेर करने के लिए किया जा सकता है।
    • यह Social Stratification को बढ़ा सकता है।
    • BigData का फायदा उठाने के लिए इसका बार-बार और लगातार विश्लेषण करना पड़ता है।
    • बिग डाटा का ज्यादातर हिस्सा Unstructured होता है। इसलिए इसे Analyze करना थोड़ा मुश्किल होता है।
    • BigData Analysis के परिणाम कभी-कभी संदेहजनक होते हैं।
    • BigData में तेजी से अपडेट होने के कारण यह वास्तविक Data के आंकड़ों से मेल नहीं खाते।

    Career In Big Data

    अगर करियर के हिसाब से देखें तो बिग डाटा एक ऐसा फील्ड है। जिसमें Career की अपार संभावनाएं नजर आती हैं। क्योंकि यह एक Futuristic Technology है। और इसका इस्तेमाल तेजी-से बढ़ रहा है। इसीलिए करियर के हिसाब से यह एक बढ़िया Opportunity है। लेकिन इसके लिए आपके पास कुछ जरूरी Skills होनी चाहिए। अगर आप Big Data Engineer बनना चाहते हैं तो आपके पास निम्नलिखित Skills का होना जरूरी है :-

    Programming Language

    एक Big Data Engineer को Programming Languages का नॉलेज होना बहुत जरूरी है। क्योंकि बिग डाटा के क्षेत्र में प्रोग्रामिंग लैंग्वेजेज का काफी ज्यादा इस्तेमाल होता है। इसीलिए अगर आप Big Data Engineer बनना चाहते हैं तो आपको C+, C++, Java और Python जैसी लैंग्वेजेज की अच्छी-खासी जानकारी होनी चाहिए

    Database and SQL

    एक Big Data Engineer को DBMS और SQL की अच्छी जानकारी होनी चाहिए। क्योंकि इससे यह समझने में मदद मिलती है कि Database में Data को Manage और Maintain कैसे करना है? आमतौर पर Big Data Engineer के लिए उपयोग किए जाने वाले कुछ Database Management Systems, MySQL, Oracle Database और Microsoft SQL सर्वर हैं। और बिग डाटा इंजिनियर बनने के लिए इन सभी को सीखना जरूरी है।

    ETL And Data Warehousing

    एक Big Data Engineer को Data Warehouse का निर्माण और उपयोग करना आना चाहिए। क्योंकि बतौर एक बिग डाटा इंजीनियर, आपको अलग-अलग Sources से Data इकट्ठा करना पड़ता है। इसीलिए इसमें काम आने वाले Tools जैसे कि Talend, IBM Datastage, Pentaho और Informatica के बारे में अच्छे-से पता होना चाहिए।

    Operating Systems

    बिग डाटा के क्षेत्र में मल्टीपल Operating Systems का इस्तेमाल होता है। यानि कि Unix, Linux, Windows और Solaris जैसे तमाम पॉपुलर ऑपरेटिंग सिस्टम्स का इस्तेमाल होता है। इसीलिए बतौर एक Big Data Engineer आपको पता होना चाहिए कि कौनसा Operating Systems किस तरह काम करता है?

    Hadoop Tools & Frameworks

    एक बिग डाटा इंजीनियर को Hadoop Based Analytics का Experience होना बहुत जरूरी है। क्योंकि Hadoop सबसे ज्यादा इस्तेमाल किए जाने वाले Big Data Tools में से एक है। और इसका इस्तेमाल हर जगह होता है। इसलिए बतौर एक बिग डाटा इंजीनियर, आपको Apache Hadoop पर आधारित Technologies जैसे HDFS, MapReduce, Apache Pig, Hive और Apache HBase का Experience होना बहुत जरूरी है।

    Apache Spark

    एक Big Data Engineer को बड़ी मात्रा में Data के साथ काम करना होता है। इसलिए Spark जैसे Analytics Engine की जरूरत पड़ती है। Apache Spark का उपयोग Batch और Real-Time Data Processing दोनों के लिए किया जाता है। Spark Twitter, Instagram और Facebook जैसे कई Sources से Live Streaming Data को Process कर सकता है।

    Data Mining And Modeling

    Big Data Engineer बनने के लिए आपको Data Wrangling, Data Mining और Data Modeling जैसी Techniques का अनुभव होना बहुत जरूरी है। इन सभी Skills को सीखने के लिए आप M.Sc Data Science या B.Tech Big Data Analytics का Cource कर सकते हैं। आजकल कई सारे Big Data Cources आ गए, जिनकी मदद से आप Big Data इंजीनियर बन सकते हैं।

    close