X
تبلیغات
رایتل
آموزش الکترونیکی علمی-کاربردی صنعت آب و برق
  
 آموزش مجازی در صنعت آب و برق
 
آرشیو
موضوع بندی
 
پنج‌شنبه 14 تیر‌ماه سال 1386
موتورهای جستجو چگونه کار می کنند؟

وقتی جستجویی در یک موتور جستجوگر انجام و نتایج جستجو ارایه می شود، کاربران در واقع نتیجه کار بخش های متفاوت موتور جستجوگر را می بینند. موتور جستجوگر قبلا" پایگاه داده اش را آماده کرده است و این گونه نیست که درست در همان لحظه جستجو، تمام وب را بگردد. بسیاری از خود می پرسند که چگونه ممکن است گوگل در کمتر از یک ثانیه تمام سایت های وب را بگردد و میلیون ها صفحه را در نتایج جستجوی خود  ارایه کند؟

گوگل و هیچ موتور جستجوگر دیگری توانایی انجام این کار را ندارند. همه آنها در زمان پاسخ گویی به جستجوهای کاربران، تنها در پایگاه داده ای که در اختیار دارند به جستجو می پردازند و نه در وب! موتور جستجوگر به کمک بخش های متفاوت خود، اطلاعات مورد نیاز را قبلا" جمع آوری، تجزیه و تحلیل می کند، آنرا در پایگاه داده اش ذخیره می نماید و به هنگام جستجوی کاربر تنها در همین پایگاه داده  می گردد. بخش های مجزای یک موتور جستجوگر عبارتند از:

Spider یا عنکبوت

Crawler یا خزنده

Indexer یا بایگانی کننده

Database یا پایگاه داده

Ranker یا سیستم رتبه بندی


الف
Spider- (عنکبوت)
اسپایدر یا روبوت (
Robot)، نرم افزاری است که کار جمع آوری اطلاعات مورد نیاز یک موتور جستجوگر را بر عهده دارد. اسپایدر به صفحات مختلف سر می زند، محتوای آنها را می خواند، لینکها را دنبال می کند، اطلاعات مورد نیاز را جمع آوری می کند و آنرا در اختیار سایر بخش های موتور جستجوگر قرار می دهد. کار یک اسپایدر، بسیار شبیه کار کاربران وب است. همانطور که کاربران، صفحات مختلف را بازدید می کنند، اسپایدر هم درست این کار را انجام می دهد با این تفاوت که اسپایدر کدهای HTML صفحات را می بیند اما کاربران نتیجه حاصل از کنار هم قرار گرفتن این کدها را.

اما یک اسپایدر آنرا چگونه می بیند؟
برای این که شما هم بتوانید دنیای وب را از دیدگاه یک اسپایدر ببینید، کافی است که کدهای
HTML صفحات را مشاهده کنید.برای این کار به شکلهای زیر نگاه کنید.

 

اسپایدر، به هنگام مشاهده صفحات، بر روی سرورها رد پا برجای می گذارد. شما اگر اجازه دسترسی به آمار دید و بازدیدهای صورت گرفته از یک سایت و اتفاقات انجام شده در آن را داشته باشید، می توانید مشخص کنید که اسپایدر کدام یک از موتورهای جستجوگر صفحات سایت را مورد بازدید قرار داده است

اسپایدرها کاربردهای دیگری نیز دارند، به عنوان مثال عده ای از آنها به سایت های مختلف مراجعه می کنند و فقط به بررسی فعال بودن لینک های آنها می پردازند و یا به دنبال آدرس ایمیل (Email) می گردند.

ب- Crawler (خزنده)
کراولر، نرم افزاری است که به عنوان یک فرمانده برای اسپایدر عمل می کند. آن مشخص می کند که اسپایدر کدام صفحات را مورد بازدید قرار دهد. در واقع کراولر تصمیم  می گیرد که کدام یک از لینک های صفحه ای که اسپایدر در حال حاضر در آن قرار دارد، دنبال شود. ممکن است همه آنها را دنبال کند، بعضی ها را دنبال کند و یا هیچ کدام را دنبال نکند.

کراولر، ممکن است قبلا" برنامه ریزی شده باشد که آدرس های خاصی را طبق برنامه، در اختیار اسپایدر قرار دهد تا از آنها دیدن کند. دنبال کردن لینک های یک صفحه به این بستگی دارد که موتور جستجوگر چه حجمی از اطلاعات یک سایت را می تواند (می خواهد) در پایگاه داده اش ذخیره کند. همچنین ممکن است اجازه دسترسی به بعضی از صفحات به موتورهای جستجوگر داده نشده باشد.

شما به عنوان دارنده سایت، همان طور که دوست دارید موتورهای جستجوگر اطلاعات سایت شما را با خود ببرند، می توانید آنها را از بعضی صفحات سایت تان دور کنید و اجازه دسترسی به محتوای آن صفحات را به آنها ندهید. موتور جستجو اگر مودب باشد قبل از ورود به هر سایتی ابتدا قوانین دسترسی به محتوای سایت را (در صورت وجود) در فایلی خاص بررسی می کند و از حقوق دسترسی خود اطلاع می یابد. تنظیم میزان دسترسی موتورهای جستجوگر به محتوای یک سایت توسط پروتکل Robots انجام می شود. به عمل کراولر ، خزش (Crawling) می گویند.

ج- Indexer (بایگانی کننده)
تمام اطلاعات جمع آوری شده توسط اسپایدر در اختیار ایندکسر قرار می گیرد. در این بخش اطلاعات ارسالی مورد تجزیه و تحلیل قرار می گیرند و به بخش های متفاوتی تقسیم می شوند. تجزیه و تحلیل بدین معنی است که مشخص می شود اطلاعات از کدام صفحه ارسال شده است، چه حجمی دارد، کلمات موجود در آن کدامند، کلمات چندبار تکرار شده اند، کلمات در کجای صفحه قرار دارند و ... .

در حقیقت ایندکسر، صفحه را به پارامترهای آن خرد می کند و تمام این پارامترها را به یک مقیاس عددی تبدیل می کند تا سیستم رتبه بندی بتواند پارامترهای صفحات مختلف را با هم مقایسه کند. در زمان تجزیه و تحلیل اطلاعات، ایندکسر برای کاهش حجم داده ها از بعضی کلمات که بسیار رایج هستند صرفنظر می کند. کلماتی نظیر a ، an ، the  ، www ، is و ... . از این گونه کلمات هستند.

د - Database (پایگاه داده)
تمام داده های تجزیه و تحلیل شده در ایندکسر، به پایگاه داده ارسال می گردد. در این بخش داده ها گروه بندی، کدگذاری و ذخیره می شود. همچنین داده ها قبل از آنکه ذخیره شوند، طبق تکنیکهای خاصی فشرده می شوند تا حجم کمی از پایگاه داده را اشغال کنند. یک موتور جستجوگر باید پایگاده داده عظیمی داشته باشد و به طور مداوم حجم محتوای آنرا گسترش دهد و البته اطلاعات قدیمی را هم به روز رسانی نماید. بزرگی و به روز بودن پایگاه داده یک موتور جستجوگر برای آن امتیاز محسوب می گردد. یکی از تفاوتهای اصلی موتورهای جستجوگر در حجم پایگاه داده آنها و همچنین روش ذخیره سازی داده ها در پایگاه داده است.

و- Ranker (سیستم رتبه بندی)
بعد از آنکه تمام مراحل قبل انجام شد، موتور جستجوگر آماده پاسخ گویی به سوالات کاربران است. کاربران چند کلمه را در جعبه جستجوی (
Search Box) آن وارد می کنند و سپس با فشردن Enter منتظر پــاسخ می مانند. برای پاسخگویی به درخواست کاربر، ابتدا تمام صفحات موجود در پایگاه داده که به موضوع جستجو شده، مرتبط هستند، مشخص می شوند. پس از آن سیستم رتبه بندی وارد عمل شده، آنها را از بیشترین ارتباط تا کمترین ارتباط مرتب می کند و به عنوان نتایج جستجو به کاربر نمایش می دهد.

حتی اگر موتور جستجوگر بهترین و کامل ترین پایگاه داده را داشته باشد اما نتواند پاسخ های مرتبطی را ارایه کند، یک موتور جستجوگر ضعیف خواهد بود. در حقیقت سیستم رتبه بندی قلب تپنده یک موتور جستجوگر است و تفاوت اصلی موتورهای جستجوگر در این بخش قرار دارد. سیستم رتبه بندی برای پاسخ گویی به سوالات کاربران، پارامترهای بسیاری را در نظر می گیرد تا بتواند بهترین پاسخ ها را در اختیار آنها قرار دارد.

یک موتور جستجوگر به وسیله الگوریتمی که در اختیار دارد، تصمیم می گیرد که صفحات مرتبط را چگونه در نتایج جستجو مرتب و رتبه بندی کند. در حال حاضر قدرتمندترین سیستم رتبه بندی را گوگل در اختیار دارد.

 

مفاهیم و اصطلاحات دنیای جستجو و موتورهای جستجوگر

قبل از شروع گفتگو درباره هر موضوعی نیاز به آن است که مفاهیم اولیه و اصطلاحات رایج در آن موضوع، بیان شود تا طرفین گفتگو راحت تر به منظور یکدیگر پی ببرند. برخی از مفاهیم و اصطلاحات حوزه SEO در این مقاله شــرح داده شده است.

Spider, Crawler, Robot
نرم افزاری است که کار جمع آوری اطلاعات از صفحات سایتهای مختلف را بر عهده دارد.

Directory
فهرست. نوعی از موتورهای جستجوگر که پایگاه داده آن توسط ویراستاران تکمیل می گردد. در آنها سایتها در گروههایی موضوعی دسته بندی می شوند.

Keyword
بــه واژه ها ی مهم (کلیدی) هر صفحه گفته می شود. اما غالبا" منظور کلماتی است که دوست داریم با آنها رتبه های مناسبی کسب کنیم.

Keyword Density
چگالی کلمه، منظور تعداد دفعات تکرار واژه های کلیدی در مقایسه با سایر کلمات متن است.

Keyword Staffing
تکرار یک کلمه به دفعات و پشت سر هم به منظور بالا بردن چگالی کلمه. این کار تقلب محسوب می شود.

Tinny Text
نوشتن متن با اندازه های بسیار کوچک و ریز به گونه ای که کلمات بسیاری بدین ترتیب در یک خط قرار داده می شود و به سختی نیز در صفحه قابل رویت هستند. نوشتن مطالب به این صورت، تقلب محسوب است.

Invisible Text
متن نامرئی. منظور استفاده از متن های همرنگ با پس زمینه صفحه است. متن هایی که از دید کاربران مخفی می ماند. به عنوان مثال اگر پس زمینه یک صفحه سیاه است، متن صفحه نیز با رنگ سیاه نوشته می شود تا دیده نشود . این نوع متن ها از مصادیق تقلب می باشند.

Spam
تقلب، به تمام تلاش هایی گفته می شود که به کمک آن سعی می شود از راه های غیر معمول، رتبه های بالایی کسب شود. یا در اختیار گذاردن اطلاعاتی که موتورهای جستجوگر آنرا دوست ندارند (اطلاعات ناخواسته) مانند تکرار یک کلمه به دفعات و پشت سر هم، استفاده از متن های هم رنگ زمینه و ...

ALT tag
محتوای این شناسه، متنی است که یک عکس را توضیح می دهد.

Deep Crawl
به معنای این است که موتور جستجوگر، می تواندصفحات زیادی از یک سایت را در پایگاه داده اش قرار دهد. موتور جستجوگر هرچه پایگاه داده اش بزرگتر باشد، صفحات بیشتری از یک سایت را می تواند در پایگاه داده اش قرار دهد. همه موتورهای جستجوگر دارای این ویژگی نمی باشند.

Robots.txt
با این فایل متنی و ساده، میزان دسترسی موتور جستجوگر به محتوای یک "سایت" را می توان کنترل کرد.

META robots tag
به کمک این شناسه میزان دسترسی موتور جستجوگر به محتوای یک "صفحه" را می توان کنترل کرد.

Link
پیوند. در واقع پلی بین دو صفحه است. به کمک آن می توان از یک صفحه به صفحه دیگر رفت.

Link Popularity
مقصود این است که چه تعداد از سایت های دیگر به سایتی مشخص لینک کرده اند یا اینکه از چند سایت دیگر می توان به کمک پیوندها به سایتی مشخص رفت.

Link Reputation
اشاره به این دارد که سایر سایتها درباره سایتی که بدان لینک داده اند، چه می گویند. عموما در این موارد عنوان، متن لینک و کلمات اطراف لینک در سایت مقصد، بررسی می شوند.

Learn Frequency
بعضی از موتورهای جستجوگر می توانند تشخیص دهند که محتوای صفحات پس از چه مدتی تغییر می کند (به روز می گردد) و بعد از آن مدت به آن صفحات مراجعه می کنند.

URL-Uniform Resource Locator
به آدرس منحصر به فرد هر منبع موجود در اینترنت گفته می شود. این منبع می تواند یک صفحه وب، یک فایل متنی و... باشد

Stop Word
به کلماتی گفته می شود که در کل اینترنت از آنها بسیار استفاده شده است. کلماتی نظیر
the, a, an, web www, home page, و ...

Meta tags
به کمک این شناسه ها، اطلاعاتی از صفحه در اختیار بینندگان (موتور جستجوگر، مرورگرها و ...) قرار داده می شود.

META Keywords
به کمک آن، کلمات کلیدی صفحه در اختیار موتورهای جستجوگر قرار داده می شود.

META Description
به کمک آن، توضیحی مختصر از صفحه در اختیار موتورهای جستجوگر قرار داده می شود.

Stemming
به معنای این است که موتور جستجوگر می تواند صورت های مختلف یک کلمه را جستجو کند. به عنوان مثال با جستجوی
swim موتور جستجوگر به دنبال swimmer ، swimming نیز می گردد. همه موتورهای جستجوگر دارای این ویژگی نمی باشند.

Rank
رتبه یک صفحه در نتایج جستجو است زمانی که جستجویی مرتبط با محتوای آن صفحه انجام می شود.

Spam indexing
منظور طراحی و معرفی صفحاتی به موتورهای جستجوگر است که کیفیت نتایج جستجو را پایین می آورند. موتورهای جستجوگر تمایل دارند که کاربران بارها و بارها به آنها مراجعه کنند و کیفیت بالای نتایج می تواند این روند را تضمین کند. لذا آنها هرکدام به نوعی سعی در تشخیص صفحاتی دارند که کیفیت نتایج جستجو را پایین می آورد. برخی از این موارد عبارتند از: ساختن صفحاتی که همگی دارای محتوای یکسانی اند، تکرار یک کلمه بیش از حد و ...

Comment
توضیحاتی است که طراحان سایت در لا به لای کدهای
HTML می گنجانند تا برای فهمیدن وظیفه بخش های متفاوت کدهای HTML در مراجعات آتی نیازی به صرف وقت بسیار نداشته باشند.

 

 

 

گوگل محبوبترین موتور جستجو:

ا«گوگل» یکى از بزرگ‌‌ترین موتورهاى جست‌وجوى جهان در اینترنت است که بیش از تمام موتورهاى جست‌وجوى دیگر و به ویژه براى فارسى زبان‌‌ها، کاربرد دارد.
به دلیل قابلیت‌‌هاى گوگل(Google)، اغلب کاربران تمایل دارند براى جست‌وجوى اطلاعات در تصاویر و صفحات از این موتور جستجو که قابلیت جست‌وجوى فارسى نیز دارد، استفاده کنند.
بنابراین گزارش، توسط گوگل، مى‌‌توان به جست‌وجوى تصاویر، ترجمه صفحات وب، فایل‌‌هایPDF، لینک‌‌هاى درون Cached نگه‌‌داشته شده، صفحات مشابه‌‌ و افرادى که به کاربران لینک کرده‌‌اند، پرداخت.
گفتنى است، اگر چه گوگل به عنوان یکى از مشهورترین موتورهاى جست‌وجو، تقریبا براى تمام کاربران شناخته شده است‌‌، ولى بسیارى از کاربران با کاربردها و قابلیت‌‌هاى ویژه این موتور جست‌وجو آشنا نیستند. این گزارش حاکى است، گوگل، سد زبان را با قابلیت ترجمه جدید خود(بتا) شکسته و با استفاده از قابلیت ترجمه با ماشین، این موتور به انگلیسى زبانان قابلیت استفاده از بسیارى صفحات غیر انگلیسى را مى‌‌دهد. همچنین، توسط این موتور مى‌‌توان به جست‌وجوى بیش از 250 میلیون تصویر قابل مشاهده در فهرست پرداخت و یا فایل‌‌هاى PDF را مورد جست‌وجو قرار داد، فهرست سندهایى که گوگل براى کاربران مى‌‌یابد، اکنون فایل‌‌هاى PDF را نیز در بر مى‌‌گیرد و ذخیره‌سازى یک عکس از هر صفحه به عنوان نسخه پشتیبان براى زمانى که صفحه اصلى موجود نباشد، از دیگر امکانات این موتور است.
گفتنى است، وقتى کاربر بر روى Similar pages براى دیدن نتیجه یک جست‌وجو کلیک کند، گوگل به صورت خودکار صفحات مربوطه را براى رسیدن به نتیجه، اکتشاف مى‌‌کند، با تایپ آدرس مقابل کلمه Link در محل جست‌وجوى گوگل مى‌‌توان کسانى که به آدرس تایپ شده کاربر لینک داده‌‌اند را، دریافت کرد.
همچنین، با قرار دادن آدرس دامین یک سایت در مقابل کلمه Sit در محل جست‌وجوى گوگل مى‌‌توان جست‌وجوى خود را به دامین آن سایت محدود کرد و در آخر با کلیک کردن بر روى گزینه«یا شانس یا اقبال» (I m feeling lucky)، مى‌‌توان به اولین صفحه وبى که گوگل جست‌وجو کرده رفت، بدون آن‌‌ که نتایج دیگر جست‌وجو را مشاهده کرد.

بر اساس تازه‌ترین نظرسنجی انجام شده ، "Google" به عنوان محبوب ترین موتور جستجوگر برای کاربران ایرانی شناخته شد.
در این نظرسنجی که در سایت "ایران سئو" انجام شد، از کاربران خواسته شده است تا "موتور جستجوگر محبوب" خود را مشخص کنند.
بنا بر نتایج به دست آمده از نظرسنجی مذکور، سایت گوگل با اختلاف زیادی در رده اول با کسب
۶۷درصد آراء و سایت "یاهو" با کسب ۱۲درصد آراء در رده دوم قرار گرفته است.
رتبه‌های بعدی این نظر سنجی به"
ASK" با ۱۱درصد و "MSN" با سه درصد اختصاص یافته است.
پنج درصد آرا نیز به سایر موتورهای جستجوگر داده شد.
بنا بر گزارش سایت ایران سئو ، مقایسه این نظرسنجی با نمونه‌های مشابه که در خارج از کشور انجام شده است، نشان می‌دهد که اختلاف گوگل با رقبای اصلی آن یعنی یاهو و
MSNبسیار چشمگیر است.
در این گزارش امده است: پشتیبانی مناسب گوگل از زبان فارسی مهمترین دلیل در کسب این جایگاه است.
در این نظرسنجی دو هزار و ۵۰۷
کاربر اینترنت شرکت کرده اند.

 

بزرگترین بانک‌های اطلاعاتی جهان

حدس بزنید بزرگ‌ترین بانک‌های اطلاعاتی (Database) جهان کدامند؟ برای یافتن پاسخ کافی است حضور ذهن داشته باشید تا نام دوتا از بزرگ‌ترین‌ها را به خاطر بیاورید. بله! آن‌ها گوگل و یاهو هستند. این بانک‌های اطلاعاتی غول‌آسا یک نسخه از جدیدترین صفحات وب اکثر سایت‌های اینترنتی جهان را در خود ثبت کرده‌اند. البته بحث درباره این که کدام یک از این دو بانک بزرگ‌تر است، سال‌هاست جریان دارد و گویا پایانی هم برای آن متصور نیست.
مقامات مسئول هریک از دو سایت آمار متفاوتی درباره خود و دیگری ارائه می‌دهند و البته طرفداران این دو رقیب نیز نظرات متفاوتی دارند. با این وجود، از شواهد چنین برمی‌آید که دیتابیس گوگل به مراتب بزرگ‌تر از یاهو است و این را می‌توان از تفاوت تعداد صفحات ثبت شده در موتور جست‌وجوی این دو و نیز تعداد مراجعات از هر یک از آن‌ها به یک سایت مشخص حدس زد.

از سال 2001 به این سو، یک شرکت تحقیقاتی به نام وینتر (Winter) دست به ابتکار جالبی زده است. این شرکت تلاش می‌کند هر دو سال یک‌بار فهرست بزرگ‌ترین بانک‌های اطلاعاتی جهان را براساس یک روش پژوهشی معین تهیه و منتشر کند. تحقیق وینتر فقط آن دسته از شرکت‌هایی را شامل می‌شود که حجم دیتابیس مورد استفاده آن‌ها حداقل یک ترابایت (هزار گیگابایت) باشد.
با این حال، چون هدف این شرکت از تهیه فهرست رده‌بندی مذکور، مقایسه قدرت و کارایی نرم‌افزارهای تجاری مدیریت بانک‌های اطلاعاتی است، متأسفانه نام گوگل در این رده‌بندی دیده نمی‌شود؛ زیرا گوگل از یک سیستم فایلی ویژه استفاده می‌کند و به هیچ نرم‌افزار تجاری خاص برای ایجاد بانک اطلاعاتی خود متکی نیست. بنابراین می‌توان حدس زد که اولین نام در فهرست ده دیتابیس بزرگ جهان در این فهرست، همان یاهو است.

 

یاهو در صدر
طبق گزارش شرکت وینتر در سال 2005، بانک‌اطلاعاتی یاهو بیش از صد ترابایت ( صدهزار گیگابایت) حجم دارد. جالب است بدانید این دیتابیس عظیم‌ روی نرم‌افزار مشهور اوراکل و سیستم‌عامل قدرتمند یونیکس بنا شده است. یاهو نرم‌افزار اوراکل را مستقیماً از شرکت اوراکل خریداری کرده است، اما سرورهای یاهو از نوع Prime Power و ساخت شرکت فوجیتسو زیمنس است و سیستم ذخیره‌سازی اطلاعات این بانک اطلاعاتی غول‌آسا را شرکتEMC  به یاهو فروخته است.

                                                                               تهیه و تنظیم

                                                            سید محمد حسین سعادت بهشتی

--------

توصیح: در این نوشته از اطلاعات موجود در اینترنت استفاده شده است که در همه موارد به مراجع لینک لازم داده نشده است.  در یک مورد - که مورد اصلی هم هست - به سایت ایران سئو لینک داده شده است. در بخش دیگری نیز مقاله آقای بهروز نوعی پور در ماهنامه شبکه آمده است که لینک مطلب را می توانید دنبال کنید. قسمت گوگل توسط ایلنا تهیه شده است که لینک آن ذکر گردیده است.

 


برای عضویت در خبرنامه این وبلاگ نام کاربری خود در سیستم بلاگ اسکای را وارد کنید
نام کاربری
 
تعداد بازدیدکنندگان : 607992


Powered by BlogSky.com

عناوین آخرین یادداشت ها