सेमल्ट एक्सपर्ट जावास्क्रिप्ट के साथ वेब को स्क्रैप करने के लिए एक गाइड प्रदान करता है

वेब स्क्रैपिंग महत्वपूर्ण डेटा का एक उत्कृष्ट स्रोत हो सकता है जो किसी भी व्यवसाय में निर्णय लेने की प्रक्रिया में उपयोग किया जाता है। इसलिए, यह डेटा विश्लेषण के मूल में है क्योंकि यह विश्वसनीय डेटा एकत्र करने का एक निश्चित तरीका है। लेकिन, क्योंकि स्क्रैप किए जाने के लिए उपलब्ध ऑनलाइन सामग्री की मात्रा हमेशा बढ़ रही है, इसलिए प्रत्येक पृष्ठ को मैन्युअल रूप से स्क्रैप करना लगभग असंभव हो सकता है। यह स्वचालन के लिए कहता है।

जबकि वहाँ कई उपकरण हैं जो अलग-अलग स्वचालित स्क्रैपिंग परियोजनाओं के लिए तैयार किए गए हैं, उनमें से अधिकांश प्रीमियम हैं और आपको एक भाग्य खर्च होंगे। यह वह जगह है जहाँ Puppeteer + Chrome + Node.JS आते हैं। यह ट्यूटोरियल आपको यह सुनिश्चित करने की प्रक्रिया के माध्यम से मार्गदर्शन करेगा कि आप वेबसाइटों को आसानी से स्वचालित कर सकते हैं।

सेटअप कैसे काम करता है?

यह ध्यान रखना महत्वपूर्ण है कि जावास्क्रिप्ट पर थोड़ा सा ज्ञान होना इस परियोजना में काम आएगा। शुरुआत के लिए, आपको उपरोक्त 3 कार्यक्रम अलग से प्राप्त करने होंगे। Puppeteer एक नोड लाइब्रेरी है जिसका उपयोग हेडलेस क्रोम को नियंत्रित करने के लिए किया जा सकता है। हैडलेस क्रोम अपने जीयूआई के बिना क्रोम चलाने की प्रक्रिया को संदर्भित करता है, या दूसरे शब्दों में क्रोम को चलाए बिना। आपको इसकी आधिकारिक वेबसाइट से Node 8+ इंस्टॉल करना होगा।

कार्यक्रमों को स्थापित करने के बाद, कोड को डिजाइन करना शुरू करने के लिए एक नई परियोजना बनाने का समय आ गया है। आदर्श रूप से, यह जावास्क्रिप्ट स्क्रैपिंग है जिसमें आप स्क्रैपिंग प्रक्रिया को स्वचालित करने के लिए कोड का उपयोग करेंगे। कठपुतली के बारे में अधिक जानकारी के लिए इसके दस्तावेज़ीकरण का संदर्भ लें, आपके साथ खेलने के लिए सैकड़ों उदाहरण उपलब्ध हैं।

जावास्क्रिप्ट स्क्रैपिंग को स्वचालित करने के लिए कैसे

एक नया प्रोजेक्ट बनाने पर, एक फ़ाइल (.js) बनाने के लिए आगे बढ़ें। पहली पंक्ति में, आपको उस प्यूपिटर निर्भरता को कॉल करना होगा जिसे आपने पहले स्थापित किया था। इसके बाद एक प्राथमिक फ़ंक्शन "गेटपिक ()" होता है जो सभी स्वचालन कोड को रखेगा। तीसरी लाइन "getPic ()" फ़ंक्शन को चलाएगी ताकि इसे चलाया जा सके। यह देखते हुए कि getPic () फ़ंक्शन एक "async" फ़ंक्शन है, हम तब प्रतीक्षित अभिव्यक्ति का उपयोग कर सकते हैं जो कोड की अगली पंक्ति में जाने से पहले हल करने के लिए "वादा" की प्रतीक्षा करते हुए फ़ंक्शन को रोक देगा। यह प्राथमिक स्वचालन समारोह के रूप में कार्य करेगा।

हेडलेस क्रोम को कैसे कॉल करें

कोड की अगली पंक्ति: "const ब्राउज़र = कठपुतली का इंतजार करें। लंच ();" स्वचालित रूप से कठपुतली को लॉन्च करेगा और हमारे नए बनाए गए "ब्राउज़र" वेरिएबल में इसे स्थापित करते हुए एक क्रोम इंस्टेंस चलाएगा। एक पेज बनाने के लिए आगे बढ़ें जो तब उस URL पर नेविगेट करने के लिए उपयोग किया जाएगा जिसे आप स्क्रैप करना चाहते हैं।

डेटा कैसे स्क्रैप करें

कठपुतली एपीआई आपको अलग-अलग वेबसाइट इनपुट जैसे कि क्लॉकिंग, फॉर्म भरने और साथ ही डेटा पढ़ने के साथ खेलने की अनुमति देता है। आप इसे देखें कि आप उन प्रक्रियाओं को कैसे स्वचालित कर सकते हैं। "स्क्रैपिंग ()" फ़ंक्शन का उपयोग हमारे स्क्रैपिंग कोड को इनपुट करने के लिए किया जाएगा। स्क्रैपिंग प्रक्रिया शुरू करने के लिए नोड स्क्रेप.जेएस फ़ंक्शन को चलाने के लिए आगे बढ़ें। पूरे सेटअप को तब आवश्यक सामग्री का उत्पादन शुरू करना चाहिए। अपने कोड के माध्यम से जाना और रास्ते में त्रुटियों से बचने के लिए डिजाइन के अनुसार सब कुछ काम कर रहा है यह जांचना याद रखना महत्वपूर्ण है।

mass gmail