Web Scraping

 

Please Try Again
Prepared By: Bijoy Bhattacharjee

১নং ধাপঃ প্রথমে Yellow Pages enter করতে হবে। ২নং ধাপঃ এরপর নির্দিষ্ট Place এবং নির্দিষ্ট শহর সিলেক্ট করে নিতে হবে। ৩নং ধাপঃ এই ক্ষেত্রে কাজ করা জন্য Web Developer Mode থেকে করা লাগবে। এর মানে হল এই Website কিভাবে তৈরি করা হয়েছে । যেখানে কোডিং ফাইলগুলো থাকে সেখানে যেতে হবে।
৪নং ধাপঃ মাউসের রাইট ক্লিক করে Inspect> New Window আসবে । এই নিউ Window থেকে ক্রস বাটন এর পাশে থ্রি ডট এ ক্লিক করে Dock to Bottom দিলে উইন্ডোটা নিচে আসবে।
৫নং ধাপঃ তারপর উপরে মেনু থেকে Web Scraper > Create New Sitemap>  ২টা অপশন আসবে একটা হল Create new Sitemap এবং অন্য একটি হল Import Sitemap. আমাদের সিলেক্ট করতে হবে Create New Sitemap> ক্লিক করা পর ২টা অপশন পাবো। Sitemap Name & Start URL.
Sitemap Name: এইখানে আমি যে কোন একটা নাম দিতে পারবো আমি আমার মতো করে।
Start URL: এটা হল আমি যে সাইড থেকে তথ্য Collect করব সে সাইডের Address দিতে হবে।

Please Try Again
Prepared By: Bijoy Bhattacharjee

৬নং ধাপঃ তারপর Create Sitemap ক্লিক করে দিব। তারপর রুট হয়ে যাবে এটা।

Please Try Again
Prepared By: Bijoy Bhattacharjee

৭নং ধাপঃ এবার হল আমি এই সাইট থেকে কতগুলো তথ্য নিব বা কি কি তথ্য লাগবে আমার সেটা বুঝানোর জন্য Add New Sector এ ক্লিক করতে হবে। Add New Sector ক্লিক করা পর যে অপশনগুলো আসবে সেগুলো হল ID, Type, Selector,  Regex & Parent Selectors.

ID: এইখানে আমি যে কোন একটা নাম দিতে পারবো । আমি Use করছি List.

Type: আমি যে এইখানে কোন তথ্য দিচ্ছি সেটা কি কোন লিংক না কি টেবিল না কি কোন Image বা Normal Text . জফি Link হয় তাহলে Type> Link সিলেক্ট করে নিতে হবে।

Selector: এরপর Selector থেকে সিলেক্ট করে নিতে হবে। আর আমরা যেহেতু একের অধিক তথ্য নিব সেক্ষেত্রে আমরা Multiple Select করে নিব। তারপর মাউস দিয়ে দুইটা বা তিনটা ক্লিক করলে সবগুলো সিলেক্ট হয়ে যাবে। তারপর Done Selecting কিলক করে দিতে হবে। তারপর Save Selector দিয়ে দিলে হয়ে যাবে।

৮নং ধাপঃ এখন হল আমরা যে Selector টা বানালাম সেটা এখন এর ভিতরে লিস্ট করতে হবে যে কোন কোন তথ্যগুলো আমার লাগবে। তাই আবার সে Selector উপর ক্লিক করে ভিতরে প্রবেশ করা পর আমাদের যে কোন একটি Site যেতে হবে। তারপর সেখান থেকে আমরা কি কি তথ্য নিব সেটা দেখতে হবে। আমি যা নিব তা হল Name, Phone number, Address, Web Address.

এর জন্য আমাদের Add New Selector ক্লিক করে Add New Sector ক্লিক করা পর যে অপশনগুলো আসবে সেগুলো হল ID, Type, Selector,  Regex & Parent Selectors.

ID: এইখানে আমি  Use করব Name.

Type: তারপর Type থেকে দিব Text. এর কারণ আমরা এখন একটি Site এর ভিতরে আছি তাই।

Selector: তারপর Selector থেকে Select করে নিব। এখন আর Multiple নিব না কারণ আমরা এখন একটা সিলেক্ট করব তাই। তারপর Done Selecting দিলে হয়ে যাবে। এরপর Save Selector দিলে হবে। আমরা এইখানে একটা তথ্য নিয়ে নিয়েছি ।

Prepared By: Bijoy Bhattacharjee

৯ নং ধাপঃ তারপর আবার Add New Selector থেকে  Add New Selector ক্লিক করা পর যে অপশনগুলো আসবে সেগুলো হল ID, Type, Selector,  Regex & Parent Selectors.

ID: এইখানে আমি  Use করব Phone Number.

Type: তারপর Type থেকে দিব Text. এর কারণ আমরা এখন একটি Site এর ভিতরে আছি তাই।

Selector: তারপর Selector থেকে Select করে নিব। এখন আর Multiple নিব না কারণ আমরা এখন একটা সিলেক্ট করব তাই। তারপর Done Selecting দিলে হয়ে যাবে। এরপর Save Selector দিলে হবে। আমরা এইখানে একটা তথ্য নিয়ে নিয়েছি । যদি Done Selecting না করি তাহলে তথ্য ভুল আসবে। এই খান থাকে আমাদের আরও একটি তথ্য নিয়ে নেওয়া হল। এভাবে করে আমরা নিব বাকি যা তথ্য লাগবে।

website: যখন আমরা কোন Website এড্রেস নিব তখন সেক্ষেত্রে Text > Link সিলেক্ট করে নিতে হব এজন্য যে Website এড্রেস Link আকারে রয়েছে তাই। এখন আমি যে কাজগুলো করেছি সেগুলো কিভাবে কাজ করবে তার জন্য Selector Map> Selector Graph দিলে হয়ে যাবে।

১০ নং ধাপঃ যদি সবগুলো পেজ একসাথে নিতে চাই সেক্ষেত্রে  Sitemap > Root এর উপর ক্লিক করলে List চলে আসবে। এখন আরও একটা List তৈরি করা জন্য Add New Selector > Id> Pages, Type> Link [ কারণ এইখানে প্রত্যেকটা Link.]> Selector > Select> Multiple> দিয়ে তারপর প্রত্যেক Page এর নাম্বার select করে দিব ক্লিক করে। তারপর Done Selecting করে দিতে হবে।  এরপর Save Selector করে দিতে হবে। এখন কথা আমরা প্রথমে List এর ভিতরে যে তথ্য নিবে Page এর ভিতরে সে তথ্য নিবে না । তার জন্য Edit করতে হবে প্রথমে List থেকে করতে হবে। তাই List এ যাওয়া পর Rot এবং Ctrl চেপে ধরে Page সিলেক্ট করে Save Selector দিলে হবে।  তারপর Sitemap থেকে Scrape করে নিতে হবে। তারপর যেভাবে আসছে সেভাবে থাকবে আমরা সেখান থেকে Start Scraping করে দেব তাহলে হবে। এরপর নিউ একটি Window আসবে অনেক সময় লাগবে কাজ শেষ হওয়া পর আমরা Excel File এ ডাউনলোড করে নিজেদের মত Format করে নিব। তাহলে হয়ে যাবে।

Leave a Reply

Your email address will not be published. Required fields are marked *