تحقیق درباره نگاهي به موتورهاي جستجو
تحقیق درباره نگاهي به موتورهاي جستجو
تاريخچه موتورهاي جستجو
موتورهاي جست و جو وب، تاريخچه مختصري دارند، به طوري كه عمر آن ها كمتر از يك دهه است. تاريخچه موتورهاي جست و جو در اين بخش بررسي مي كنيم.
قبل از اين كه موتورهاي جست و جو به وجود آيند ، آشفتگي حاصي در وب وجود داشت. براي يافتن چيزي در اينترنت مي بايست آدرس دقيق آن مشخص بود. با ايجاد گوفر آشفتگي تا حدي بر طرف شد و محتويات اينترنت سازمان يافته شد. گوفر در دانشگاه ماينسو تا ايجاد شد. گوفر بر اسسا HTML طراحي نشده بود و استفاده از عناوين فايل با توصيف هاي جزئي در آن موسوم بود. اما اگر طريقه استفاده از گوفر را بدانيد به راحتي مي توانيد فايل ها را از اينترنت برداريد. گوفر در دهه 1980 در دانشگاه ماينسوتا به وجود آمده تا مشكلات كامپيوتري آن را حل كند. در اين دانشگاه دپارتمامن هاي زيادي با فايل هاي متعددي وجود داشت كه افراد زيادي مي خواستند به آنها دسترسي داشته باشند. لازم بود اين اطلاعات به راحتي در هر دپارتمان قابل دسترسي باشند. دانشگاه ماينوستا گوفر را به عنوان نرم افزاري تعريف كرد كه از قرار داد TCP/IP در شبكه بندي استفاده كرده است. سايت گوفر حاوي منويي است كه از طريق آن مي توان به اطلاعات مورد نظر دست يافت.
توسعه سريع وب جهاني گوفر را از دور خارج كرد. در وب جهاني مي توان ابر پيوندها را دنبال كرد. متن ها را جست و جو نمود، از مرورگرهاي گرافيكي استفاده كرد، و بسياري از تكنيك هاي محاوريه اي را به كاربرد و موتورهاي جست و جوي وب را ايجاد نمود.
اولين موتور جستجو موفق، WebCrawler بود كه در دانشگاه واشيتگتون طراحي و ساخته شد و در سال 1994 به كار گرفته شد. در مدت يك سال، سه رقيب براي آن پيدا شدند: Lycos, infoseek و open text در اواخر 1995 موتورهاي جستجوي Alta vista, excite بوجود آمدند. جالب است كه بدانيد اغلب فناوري هاي جست و جو كه امروزه توسط جست و جو كنندگان مورد استفاده قرار مي گيرند با درجات مختلفي در اين موتورهاي جستجوي موجوددر خدمات online مثل Dialog و lexisnexis را ندارند. علاوه بر اين نه موتورهاي جستجو و نه امكاناتي مثل داير كتوري هاي وب از نظريه دسته بندي موضوعي جامعه و شيوه هاي كاري نوين استفاده نمي كنند. اين نكات از نظر عملي مطرح اند، به طوري كه جست و جوگر جدي بايد تشخيص دهد كه اغلب موتورهاي جست و جو براي جست و جو گرهاي مبتندي طراحي شدند، نه براي كسني كه مايل هستند از روشها و تكنيك هاي پيشرفته تري استفاده كنند.
موتور جست و جوي hot Bot در سال 1996 و موتور جستو جوي Northern light در سال 1997 به وجودآمد. Hot bot داراي واسط پيشرفته با كاربردي ساده بود كه به بانك اطلاعاتي بزرگي وصل بود ( در اواخر سال 1997 ، بزرگترين بانك اطلاعاتي بود).
Notrhern light جستجوي وب را با جست و جوي اطلاعاتي خصوصي تركيب كرده است . Google در سال 1998 به وجود آمد و دو ويژگي مهم آن يعني واسط بسيار ساده وچيدن ركوردها بر اساس محبوبيت باعث شده است كه به سرعت بين جست و جو گرهاي مبتدي و حرفه اي ( يا موردي و دائمي) محبوبيت پيدا كند. به هر حال مسابقه براي توليد بزرگترين موتور جستجو تا حدي فروكش كرد تا اين كه در سال 1999 موتور جستجو fast search به وجود آمد و بانك اطلاعاتي آن 200 ميليون ركورد داشت. اين عامل به همراه ساير عوامل رقابتي منجر به مسابقه و انگيزه ديگري شده است و به اين ترتيب در ژوئن 200 چهار موتور جستجو از بانك اطلاعاتي 200 ميليون ركوردي استفاده كردند.
از بين موتورهاي جست و جوي اوليه open text اولين موتوري بود كه از بين رفت. از اوايل 1998 تا كنون دگير موجود نيست. به نظر مي رسد در دو يا سه سال آينده موتورهاي جستجوي بيشتري از بين بروند و موتور جستجو جيديد به وجود آيند. موتور جستجوي موجود نيز تغيير مي كنند، گرچه بسياري از اين ها به صورت كم يا زياد به عنوان بخشي از ماهيت دروازه اي خدمات هستند نه بخش اصلي جنبه جست و جو. اميدواريم توليد كنندگان اين ابزارها دائما به فكر پيشرفت امكانات جستجو باشند و به نظر مي رسد كه جنبه هاي رقابتي اين قضيه ادامه دارد.
شركت هاي توليد كنننده موتور جستجو همانند ساير بخشهاي تجارت مستعد رشد هستند و سال هاي 1996 و 1997 موتور داراي نسخه پيشرفته اي بود.، صرف نظر از اين كه آيا نسخه پيشرفته واقعا پيشرفته بود يا همانند ساير چيزهايي بود كه نمي توانست در صفحه اول گنجانده شود.
در سال 1998 دروازه و شخصي سازي در وب شدت يافت. دروازه وب به صورت ايستگاه هاي هواشناسي، گروه هاي خبري، رديابي اوراق بهادار، تقويم هاي شخصي و غيره در صفحه اول ظاهر شدند. به اين ترتيب، همه چيز در صفحه اصلي وب در دسترس است.
در سال هاي 1999 و 2000 مفهوم دروازه قوت بيشتري پيدا كرد. ابزارهايي كه به دروازه هاي اوليه اضافه شدند (مثل دايركتوري ها و غيره)، در صفحه اول قرار گرفتند تا افراد از آن ها استفاده كنند. در سال 1999 به اين صورت عمل شد كه محتويات اين ابزارها به طور خود كار در صفحات نتيجه (صفحاتي كه در اثر جست و جو پيدا شدند)، ظاهر شدند. يعني همزمان بانك اطلاعاتي موتور جست و جو مورد جستجو به طور منظم به نمايش در مي آيند. اين نوع تركيب منابع، كيفيت نتايج جست و جو را بهبود داد، به طوري كه خروجي ها به طور پيوسته به جست و جوگر نشان داده مي شود و نياز به اجراي جست و جوي جداگانه در ابزارهاي مختلف نيست. توجه كنيد كه جست و جو فقط يك شاخص وب نيست بلكه جست وجوي داركتوري يك شركت، جست و جو دايركتوري و غيره است.
مرحله بعدي به كاربران موتور جست و جو مربوط مي شود ابزارهايي كه مورد توجه كاربر قرار مي گيرند نگهكداري شده بهبود مي يابند كپي كپي مي شوند و از نظر آن ها ارزشمند هستند. مسئله اين است كه كسي كه اين كتاب را مطالعه مي كند و كسي كه به ويژگي ها ابزارهاي معرفي شده در اين كتاب مياز دارد يك كاربر عادي موتور جست و جو نيست. كاربر عادي به ويژگي ها يپيشرفته و مربوط به پژوهش توجهي ندارد. اگر به جست و جو هاي عادي توجه كنيد درجه درستي اين مطلب مشخص مي شود.lycos ليستي از جست جو هاي محبوب را آماده مي كند. در يك هفته آزمايشي، 50 جستجوي بهتر، حاوي 46 جستجو در مورد سرگرمي، ورزش ها يا بازي ها بوده است. معنايش اين است كه اغلب جستجوهايي كه در وب انجام ميگيرند اهداف پژوهشي ندارند. اما خوشبختانه تعداد كل افرادي كه از اينترنت استفاده مي كنند در حا لاف است و افرادي كه از موتور جستجو براي اهداف حرفه اي مثل سرمايه گذاري و كسب اطلاعاتي راجع به علوم، بشريت تجارت و پزشكي استفاده مي كنند به سرعت در حال افزايش است به همين دليل موتورهاي جست و جو بايد توجه بيشتري به اين موضوعات داشته باشند.
ساختار موتورهاي جستجو
پرداختن به جزئيات موتور جستجو تا حدي ضروري است هر چند كه بدون پرد اختن به جزئيات نيز مي توان از آنها استفاده كرد. به عنوان مثال راننده اتومبيل بدون اطلاعات از عملكرد موتور اتومبيل مي تواند از آن استفاده كند، اما بهتر است همين راننده چگونگي تست سطح روغن وسوخت را بداند. به همين دليل پژوهشگران بايد مطالب بيشتري در مورد موتور جست و جو داشته باشند تا كارايي جست وجوي خود را بهبود بخشند. براي اين كار بايد با ساختار موتور جستجو تا حدي آشنا باشد.
215
ابزارهاي مافوق جست و جو
با توجه به اين كه هشت موتور جستجوي عمده وجود دارد، جالب است وسيله وجود داشته باشد كه تعدادي از آنها را به طور همزمان جست و جو كند. اين ايده بسيار خوب است. خوشبختانه اين كار امكان پذير است و مي توان چندين موتور جستجو را به طور همزمان جست و جو نود.
براي جست و جو چندين موتور جستجو به طور همزمان دو روش وجود دارد. يكي از آنها سايت هاي ماوفوق جست و جو است كه به طور رايگان در وب وجوددارند. روش ديگر استفاده از برنامه مافوق جست و جو مشتري است اين بنرامه در كامپيوترتان قرار مي گيرد و به جستجو رايگان بوده استفاده از آن ها آسان است، اما ضعف آن ها در كامل كردن كار است.برنامه هاي سمت مشتري كار را به خوبي انجام مي دهند، ولي برنامه بايد اينترنت از اينترنت برداشته شود و براي دريافت نتيجه نياز به چندين مرحله است. نمونه هايي از هر روش را بررسي خواهيم كرد.
سايت هاي مافوق جست و جو
امتياز اين وب سايت هاي رايگان، سهولت استفاده از آن ها است و نياز به برداشتن برنامه اي از اينترنت نيست، ولي معايب مهمي دارند.
عيب آن ها را بامثالي شرح مي دهيم. در جدول 1-11 واژه Hilgreave در چند موتور جست و جو، و سپس در چند موتور مافوق جست و جو شده است.اگر اين جدول را بررسي كنيد، مي توانيد به دو يا سه نتيجه مهم برسيد كه هنگام جست و جو در آن موتورها بايد در نظر داشته باشيد.
جدول 1-11
اگر بيش از نيمي از سايت هاي مرتبط بايد درموتورهاي جست و جو پيدا شوند موتورهاي مافوق جست و جو اغلب آن ها را پيدا نمي كنند. اين كار به عوامل زيادي بستگي دارد،مثل: محدوديت هايي كه خدمات جست و جو به تعداد ركودهاي بازيابي شده از هر موتور جست و جو اعمال مي كند، مهلت زماني كه خدمات جست و جو براي جست و جو در يك موتور در نظر مي گيرد، شكست در ترجمه تقاضا به نحو خاصي كه مورد نياز موتور جست و جو است و عوامل ديگر. خوشبختانه، بعضي از موتورهاي مافوق جست و جو تمام ركورد هايي را بر مي گردانند كه واقعا و جود دارند.
سه ضعف عمده موتورهاي مافوق جست و جو عبارت اند از:
1- معمولا تعداد ركوردهايي را كه بايد از يك موتور جست و جو بازيابي شوند محدود مي كند (گاهي كمتر از 10 ركورد).
2- معمولا تقاضا هاي پيچيده تر را به موتورهاي جست و جو منتقل نمي كنند.
3- در بسياري از موارد، بيش از 2 تا 3 موتور جست و جو را جست و جو نمي كنند.
ايجاد يكي از اين سايت ها دشوار نيست. طبقه هاي Yahoo! براي اين موتورها، بيش از 100 عدد را نشان مي دهد. بعضي از آنها مجموعه از كادر هاي جست و جو هستند كه از موتورهاي جست و جوي ديگر كپي شده اند. بعضي از آنها نيز طوري هستند كه يك يا دو ضعف فوق را بر طرف مي سازند.
موتورهاي مافوق جست و جو در موارد زير با يكديگر فرق مي كنند:
o موتورهاي جست و جوي ويژه اي كه تحت پوشش قرار مي دهند.
o تعداد موتورهاي جست و جويي كه در هر زمان مي توانند جست و جو كنند.
o توانايي آنها در انتقال تقاضاهاي پيجيده تر به موتور جست و جو، مثل آنهايي كه شامل عبارات، دستورات بولي و غيره هستند.
o محدوديت آنها در تعداد ركوردهايي كه بايد از هر موتور جست و جو بازيابي شود (مي تواند كمتر از 10 ركورد باشد)
o مدت زماني كه براي جست و جو در هر موتور جست و جو تخصيص مي يابد.
o چگونگي نمايش خروجي و اين كه آيا ركوردهاي تكراري ناشي از موتورهاي مختلف را حذف مي كنند يا خير.
موتورهاي مافوق جست و جو معمولا وقتي مفيد و مؤثر هستند كه دنبال اطلاعات قديمي مي گرديد و فكر مي كنيد كه تعداد آنها خيلي كم است.ركوردهاي زيادي وجود دارند كه در بعضي از موتورهاي جست و جوي كوچكتر پيدا مي شوند ولي از طريق سه يا چهار موتور جست و جوي بزرگتر پيدا نمي شوند و در نتيجه، جست و جوي آن ها وقت را به هدر مي دهد. موتورهاي مافوق جست و جو به شما اجازه مي دهند سريعا چندين موتور جست و جو را بررسي كنيد و واژه ها يا عباراتي را بيابيد.
نمي توان تمام موتورهيا مافوق جست و جو را در اين جا بررسي كرد، بلكه پنج موتور مافوق جست و جو معروف را بررسي خواهيم كرد. اين پنج موتور مافوق جست و جو، قابليت هاي فراواني دارند و عبارات اند از:
Dogpile:www.dogpile.com
Ixquick:ixquick.com
Metacrawler:www.metacrawler.com
Profusion:www.profusion.com
Search.com:search
براي مشاهده ليست گسترده اي از سايت هاي مافوق جست و جو، مسير زير را در yahoo! ببينيد:
Computers and Internet>Internet>Worldwideweb>searching the web>search Engines and Directories>ALI-in-one search pages
در ادامه چند موتور مافوق جست و جو را شرح مي دهيم تاهنگام استفاده از آنها، از ويژگي هاي مفيديبهره ببريد.منظور از"More engines covered"اين است كه چه تعدادي از 9 موتور جست و جو با بيش از200 ميليون ركود، توسط موتور مافوق جست و جو، جست وجو مي شود.total engines/directories searched تعداد كل موتور جستجو يا دايركتوري هاي وب را مشخص مي كند كه جست و جو شده اند. Boolean option مشخص مي كند آيا كاربرد مي تواند از هر موتور جستجو چند ركورد بازيابي شود.
قبل از اينكه د رمورد ساختار موتورهاي جست و جو بحث نيم، بهتر است به زمينه فعاليت آنها بپردازيم: آنها به عنوان دروازه عمل ميكنند. ايده وراي دروازه اين است كه، ممكن است يك صفحه (سايت) اوليه در وب باشد كه كاربر به طور خودكار ابتدا به آن صفحه ميرود و آن صفحه به عنوان دروازهاي براي نيازهاي كاربر عمل ميكند. اين دروازه، مجموعهاي از اطلاعات و ابزارهاي مورد نياز را در اختيار كاربر قرار ميدهد و لازم نيست كاربر براي يافتن آنها به چند محل مراجعه كند.
به عنوان مثال، با استفاده از صفحه شخصي Excite به عنوان صفحه شروع مرورگر، ميتوان گروههاي انتخابي رئوس اخبار، پيشبيني وضع هواي محلي، اوراق بهادار، و تاريخ تعهدات آينده را ديد.
از همه مهمتر اين كه در اين كتاب، كادر تقاضاي موتور جست و جو نشان داده ميشود. در اين كادر ميتوان تقاضايي را در يك بانك اطلاعاتي با بيش از 200 ميليون سايت مطرح كرد. ابتدا به اين بخش از سايتها، يعني خودموتور جست و جو ميپردازيم. ولي ساير ويژگيهاي دروازه را نيز ناديده نخواهيم گرفت.
به خصوص، به چگونگي دريافت نتايج بهتر خواهيم پرداخت.
متأسفانه در كاربردهاي متداول منظور از موتور جست و جو، هم كل خدمات سايت و هم بخشي از سايت كه تقاضاها را ميپذيرد و هم جست و جوي با نك اطلاعاتي بزرگ است. در اغلب موارد، اصطلاح موتور جست و جو به جست و جوي بانك اطلاعاتي اطلاق ميشود و خدمات يا دروازه به كل سايت اطلاق ميگردد. منظور از ويژگيهاي دروازه، ساير ابزارها و اطلاعاتي است كه تدارك ديده ميشود. (دايركتوريها، هواشناسي و غيره) اما به اين نكته نيز توجه كنيد كه خدمات Alta Vista دروازهاي را آماده ميكند كه حاوي موتور جست و جو و ساير ويژگيهاي دروازه مثل اخبار، دايركتوري وب و ابزارهاي ديگر است.
خود موتور جست و جو داراي پنج بخش عملياتي است:
1 ـ خزنده موتور كه صفحات و سايتهاي وب را مي يابد.
2 ـ بانك اطلاعاتي كه حاوي اطلاعاتي راجع به صفحات پيدا شده توسط خزنده و ساير صفحاتي است كه از منابع ديگري جمع آوري شدهاند.
3 ـ برنامه شاخص بندي كه محتويات بانك اطلاعاتي را مرتب مي كند.
4 ـ موتوربازياب يكه شامل الگوريتم و برنامهنويسيهاي مربوط به آن، دستگاهها و غيره است كه اطلاعات تقاضاشده را از بانك اطلاعاتي / شاخص بازيابي ميكند.
5 ـ واسط گرافيكي (HTML) كه داده هاي تقاضا را از كاربر جمعآوري ميكند و به موتور بازيابي تحويل ميدهد.
خزندهها
خزندهها يا عنكبوتها برنامههايي هستند كه براي موارد زير در وب حركت ميكنند:
1 ـ شناسايي سايتهاي جديدي كه بايد به موتور جست و جو اضافه شوند.
2ـ شناسايي سايتهايي كه قبلا پيدا شدند و اكنون تغيير كردهاند.
خزنده ها اطلاعات مربوط به صفحات را از سايتها پيدا ميكنند و آنها را در بانك اطلاعاتي موتور جست و جوگر قرار ميدهند. مطالب زيادي در اين مورد مي توان بيان كرد ولي فقط بخشي از مطالب به جست و جوگر مربوط مي شود و جست و جوگر به اين مسئله پي مي برد كه چرا بعضي از صفحات در بعضي از موتورها پيدا ميشوند ولي در موتورهاي ديگر پيدا نميشوند. براي بسياري از موتورها. سايتهاي معروفتر (مثل انهايي كه اغلب توسط كاربران كليك ميشوند تا آنهايي كه پيوند به آنها لغو شده است)، نسبت به سايتهاي ديگر بيشتر در دسترس هستند. خزندهها ميتوانند به صورت عمقي يا عرضي يا هر دو برنامهنويسي شوند.آنهايي كه به صورت عرضي برنامه نويسي ميشوند نه تنها سايتهاي اصلي را مي يابند بلكه صفحات فرعي آن صفحات و صفحات فرعي اين صفحات فرعي را مي يابند و اين روند ادامه مييابد.
خزنده هايي كه به صورت عرضي برنامهنويسي شدهاند، صفحات اصلي تر را مييابند و الزاماً تمام صفحات فرعي آنها را پيدا نميكنند. هر چه موتورهاي حست و جو رشد كردند و بازار رقابت را به وجود آوردند، جست و جوي همزمان عرضي و عمقي مورد توجه قرار گرفتند.
بانك اطلاعاتي موتور جست و جو
كل اطلاعاتي كه راجع به تمام صفحات وب به دست ميآيد، بانك اطلاعاتي موتور جست و جو را تشكيل ميدهد. اين اطلاعات شامل صفحاتي است كه توسط خزنده شناخته شدند، اما صفحات پيدا شده توسط منابع يا تكنيكهاي ديگر را نيز دربر ميگيرد. تعداد زيادي از سايتهايي كه در بانك اطلاعاتي موتور جست و جو ذخيره ميشود، توسط ناشرين صفحات وب به آن تحويل داده ميشوند. اگر صفحه اول هر موتور جستجويي را نگاه كنيد، احتمالا پيوندي را ميبينيد كه به شما اجازه مي دهد تا صفحهاي را به اين موتورهاي جست و جو تحويل دهيد. اگر اين صفحات سپام نباشند در بانك اطلاعاتي ذخيره ميشوند. سپام ها مزاحمتهاي پستياند كه توجه موتورهاي جست و جو را به خود جلب ميكنند. تمام يا اغلب توليدكنندگان موتورهاي جست و جو، صفحات تحويل شده را كنترل ميكنند تا سپام نباشند.
منابع ديگر نيز ممكن است در بانك اطلاعاتي موتور جست و جو قرار گيرند. به عنوان مثال بانك اطلاعاتي ممكن است حاوي عناوين صفحه و يا موضوعي از يك دايركتوري مثل Open Directory يا Yahoo! باشد.
وقتي از موتور جست و جو استفاده ميكنيم، مستقيما با جست و جوي وب سروكار نداريم، بلكه با بانك اطلاعاتي سروكار داريم كه ركوردهاي آن، بخشي از صفحات موجود در وب را توصيف ميكنند. با توجه به اين حقيقت، نبايد انتظارات غيرمنتظرهاي از موتورهاي جست و جو داشته باشيم.
برنامه شاخص بندي و شاخص
باتوجه به صفحاتي كه در اثر يك تقاضا بازيابي ميشوند، شاخصبندي ميتواند حياتي تر از فرانيد خزنده باشد. برنامه شاخص بندي، اطلاعات موجود در بانك اطلاعاتي را بررسي كرده وروديهاي مناسبي را درشاخص قرار ميدهد. وقتي تقاضايي انجام ميشود، اين شاخص براي شناسايي ركوردهاي موردنظر به كار گرفته ميشود.
اغلب موتورهاي جست و جو ادعا ميكنند كه تمام واژههاي هر صفحه را شاخص بندي مي كنند. مسئله اين است كه موتورهاي جستوجو چه چيزي را به عنوان واژه ميشناسند. بعضي از انها داراي واژههاي توقف هستند(واژ9هاي كوچك و متداولي كه اهميت چنداني ندارند) و شاخص بندي نميشوند. بعضي از آنها از حروف تعريف و ربط صرف نظر ميكنند. بعضي ديگر از واژههاي پراستفاده ولي بالقوه ارزشمند، مثل وب و اينترنت صرف نظر مينمايند. گاهي از اعداد صرف نظر ميشود، زيرا جستوجوي واژهاي مثل Troop 13 دشوار است. اما در طول چند سال گذشته، موتورهاي جستوجو واژههاي كمتري را به عنوان واژههاي توقف در نظر گرفتند و جستوجوي Troop13 در بسياري از موتورهاي جستوجو صورت ميگيرد.
تمام موتورهاي اصلي، فيلدهاي ارزشمندي مثل عناوين و URL را شاخص بندي ميكنند. اغلب شبه دستورات HTML نيز شاخصبندي ميشوند. شبه دستورات شامل واژهها، عبارات يا جملاتي كه در بخش خاصي ا زكد زبان HTML قرار مي گيرند تا محتويات صفحه را توصيف كنند. شبه دستورات هنگام مشاهده صفحه ديده نمي شوند، گرچه مي توانيد به مرورگر بگوييد كه مد منبع را نمايش دهد. كد منبع، كد سازنده صفحه است. براي كساني كه با HTML آشنايي ندارند، مشاهده كد منبع ارزش چنداني ندارد.
محتويات شبه دستورات براي بازيابي اطلاعات مناسباند. اما بعضي از موتورها بعضي از شبه دستورات را شاخص بندي نمي كنند، زيرا شبه دستورات بخشي از صفحهاند كه تحت تأثير سپامها قرار ميگيرند. از اين رو حجم زيادي از اطلاعات شاخصبندي ارزشمند، ناديده گرفته ميشود.
آنهايي كه با HTML اشنايي دارند، ميدانند كه فريمةا در ميليونها سايت استفاده ميشوند.
فريمها دستگاههايي از HTML هستند كه بخشهاي مختلف صفحه را به عنوان پنجرههايي درنظر ميگيرند. بعضي از مووتورهاي جست و جو فريمةار ا شاخص بندي نميكنند و در نتيجه بسياري از سايتها از دست ميروند. اين ضعف به اين صورت برطرف ميشود كه توسعه دهندگان هوشمند صفحات وب، نسخههايي از وب سايت بدون فريم را ايجاد ميكنند كه معادل سايت با فريم است. علاوه بر اين با تكامل ساخت صفحات وب از فريمها به ندرت استفاده ميشود.
بعضي از موتورهاي جست و جو، واژههاي موجود در پيوندهاي آبرمتن (مثل Click Here) اسامي اپلت هاي جاوا، پيوندهاي موجود در نقشههاي تصوير يو غيره را با شاخصبندي نميكنند. باتوچه به اين مطالب مشخص ميشود كه چرا بعضي از صفحات در تعدادي از جستو جوها بازيابي نميشوند.
موتور بازيابي
موتور بازيابي برنامهاي است كه تقاضاي شما را دريافت ميكند و سپس شاخص را جست و جو ميكند تا ركوردهاي مطابق با تقاضاي شما را شناسايي كند و تحويل دهد. در واقع، در اين فرآيند دو مسئله اتفاق ميآفتد:
1 ـ موتور بازيابي با استفاده از الگوريتم بازيابي ركوردهاي مطابق با تقاضاي شما را شناسايي ميكند.
2 ـ سپس اين موتور ركوردهاي بازيابي شده را به ترتيب خاصي تنظيم ميكند و به كاربر تحويل ميإهد. اين دو عمليات ممكن است به طور همزمان يا به طور مجزا انجام شوند.
الگوريتمهاي بازيابي را در ادامه شرح ميإهيم. فعلا به اين نكته اكتفا مي:نيم كه اين برنامهها با استفاده از معيارهاي تطبيق تعيين ميكنند كه چه ركوردهايي حاوي واژهها عبارات يا تركيبي از آنها است.
ممكن است ساير معيارهاي تعريف شده توسط كاربر را نيز تطبيق كنند، مثل آيا صفحه خاصي حاوي فايلهاي صوتي و تصويري هست يا خير.
بخشي از موتور جست و جو كه ارتباط ركوردها را مشخص ميكند، ممكن است با الگوريتم بازيابي تركيب شده باشد يا فرآيند جداگانهاي باشد. حتي اگر به صورت فرآيند جداگانهاي باشد. اين تفكيك ممكن است از نظر كاربو مشخص نباشد و معمولا لازم نيست مشخص باشد. در بعضي موارد ممكن است تفكيك اين دو فرآيند روشن باشد. به عنوان مثال، در جست و جوي پيشرفته در Alta Vista كاربر بايد در كادر جداگانهاي به نام Sort by مشخص كند مرتب سازي چگونه بايد صورت گيرد.
واسط HTML
آنچه كه كاربران هنگام اتصال با موتور جست و جو ميبينند، واسط HTML است. اين واسط، داده هاي تقاضا را از كاربر ميگيرد و آن داده ها را به موتور جست و جو ميفرستد تا بازيابي را انجام دهد. بديهي ترين عمل آن، تهيه ابزاري براي كاربر است تا كاربر بتواند تقاضايش را مشخص كند. اما اين واسط اعمال ديگري را نيز انجام ميدهد، مثل فضايي براي تبليغات كه درآمدي براي شركت موتور جست و جو محسوب ميشود، امكان دستيابي به ويژگيهاي مختلف دروازه، و فراهم كردن پيوندهايي به صفحات كمكي و اطلاعات ديگري راجع به خدمات.
بانك اطلاعاتي در وراي بانك اطلاعاتي
دقت كنيد كه تمام موتورهاي جستوجو، بانكهاي اطلاعاتي مخصوص به خود را ايجاد نميكنند. بعضي از موتورهاي جستو جو از بانك اطلاعاتي كه توسط ديگران ايجاد شد استفاده ميكنند و سپس محتويات، ويژگيها و الگورتيمهاي مرتبسازي خاص خودشان را اضافه ميكنند. بعضي از موتورهاي جستو جو مثل HotBot و MSN از بانك اطلاعاتي Inktomi استفاده ميكنند. Inktomi (با 500 ميليون ركورد) با عمل خزنده اطلاعات را جمع آوري كرد و آن را شاخص بندي نمودو سپس اين بانك اطلاعاتي را به HotBot و سايرين فروخت. از اين پس، اين موتورهاي جست و جو ميتوانند بانك اطلاعاتي را دستكاري كنند. نقاط دستيابي مختلفي را ايجاد كنند(جست و جوي فيلدها) و در صورت لزوم نتايج حاصل از جست و جوي بانك اطلاعاتي Inktomi را با نتايج حاصل از ساير منابع تركيب نمايند. در نتيجه جست و جوي دو موتور جست و جو كه هر دو از Inktomi استفاده ميكنند. ممكن است نتايج مختلفي را توليد نمايد.
موتور جست و جوي Fast Search بانك اطلاعاتي خودش را در اختيار ديگران قرار مي دهد و از طريق سايت خودش نيز مستقيما ميتوان به بانك اطلاعاتي آن دست يافت (برخلاف Inktomi) Lycos اولين موتور جست و جويي بود كه از بانك اطلاعاتي Fast Search استفاده كرد.
ويژگيهاي دروازه
منظور از ويژگي دروازه، ابزارها و اقلام اطلاعاتياند كه در واسط خدمات ظاهر ميشوند و الزاما بخشي از عمليات جست و جوي وب نيستند. دايركتوريهاي وب، اخبار، دايركتوريهاي شركت، اطلاعات سهام، نقشهها، هواشناسي و غيره. براي اهدافي كه فعلا داريم، عمل جست و جو را به عنوان فرآيندي تعريف ميكنيم كه كاربر معيار خاصي را وارد ميكند و بانك اطلاعاتي جست و جو ميشود تا صفحاتي از وب شناسايي شوند كه با آن معيار جور درآيند.
وقتي مفهوم دروازه ابتدا توسط خدمات جست و جو توسعه يافتند، اغلب ويژگيهاي غيرجستوجو به عنوان امكاناتي اضافي بودند. اينها با عمليات جست و جو تركيب نشدند و فوايد ناشي از آنها را ميتوان به شكل بهتري از جاي ديگر به دست آورد.
احتمال اولين مثال از جامعيت (تركيب) جست و چوي بانك اطلاعاتي وب با يكي از اين ابزارها، سايت ياهو است. در ياهو، عمل جست و جو و عمليات دايركتوري با هم تركيب شدند. ياهو معمولا به صورت يك دايركتوري نگريسته ميشود(يك مجموعه قابل مرور، دسته بندي شده و انتخابي) نه يك موتور جست و جوي عمومي وب. اما چون اين دو عمليات باهم تركيب شدهاند، در هر دو رده ميگنجد.
ياهو عمل مرور كردن را به خوبي جامعيت ميبخشد، زيرا هنگام جست و جو در ياهو عناوين دستهبندي ياهو جست و جو ميشوند و هنگام مرور در هرسطحي در الگوي دسته بندي جست و جوگر ميتواند دسته يا گروه موردنظر خودش را انتخاب نمايد. ياهو نه تنها در بانك اطلاعاتي خودش، بلكه در بانك اطلاعاتي ساير موتورهاي جست و جو نيز جست و جو ميكند(اوايل از بانك اطلاعاتي AltaVista استفاده ميكرد و فعلا از بانك اطلاعاتي Google استفاده مينمايد). باتوجه به اين كه خدمات جست و جوي وب به صورت دروازه درآمدند، اغلب خدمات به اين نوع جامعيت ابزار روي آوردند. همان طور كه خواهيم ديد اين جامعيت نه تنها به جامعيت جست و جو و منابع دايركتوري وب مربوط ميشود به جامعيت ابزارهاي ديگر نيز مربوط خواهد شد.
نكته مهم در بررسي فوايد دروازه اين است كه كاربرد توانايي دارد تا صفحه اول سايت را شخصيسازي نمايد. اغلب خدمات جستوجوي وب كه ويژگيهاي دروازهاي را تدارك ميبنند، به جست و جوي وب نيز صادق است. سايتهاي جديدي مثل MSNBC و CNN اطلاعاتي بيش از اخبار خودشان را ارائه ميكنند. و اجازه مي دهند كه سايتهاي آنها شخصي سازي شوند.
اگر تاكنون صفحه اول هيچ سايتي را سفارشي نكرده باشيد، حتما اين كار را انجام دهيد. با انجام اين كار وقتي به آن سايت ميرويد تمام عناوين موردنظرتان را خواهيد ديد.
از اينكه با جنبه دروازهآي اين خدمات به عنوان مكمل عمليات جست ؤ جو نگريسته ميشود به معناي اين نيست كه جنبه دروازهاي اهميت كمتري دارد به اين علت با دروازه به اين صورت رفتار ميشود كه هدف اين كتاب بررسي جست و جو در وب است و آنچه كه در مورد دروازه گفته ميشود، به جست و جو مربوط ميگردد و برعكس، درواقع، هر جست و جوگربايد با مفهوم دروازه و امكان آن آشنا باشد. فقط به خاطر جست و جو به وب نميرويم. براي بسياري از افراد، انتخاب، سفارشي كردن، و استفاده از دروازه در وب، بيشتر از استفاده از تلفن اتفاق ميافتد.
اجزاي صفحه اول موتور جست و جو
بسته به اين كه خدمات جست و جوي وب، مبتني بر دروازه يا مبتني بر جست و جو ميباشد، نماي صفحه اول آنها بسيار متفاوت است. خوب است كه جست و جوگران يك تصوير ذهني از خدمات مختلف داشته باشند اما تا زماني كه افراد با چند موتور جست و جو آشنا نشوند، عدم سازگاري بين آنها منجر به تضادهايي ميشود. به همين دليل خوب است كه نگاهي به صفحه اول خدمات موتور جست و جو داشته باشيم تا محتويات و ويژگيهايي را كه اين خدمات دارند، شناسايي كنيم. وقتي شباهتها پيدا شدندبه راحتي مي توان تشخيص داد كه چه كارهايي با آن موتور جست و جو ميتوان انجام داد. عناصر موجود در صفحه اول Alta Vista بسيار زياد است و در شكل 1-1 آمده است.
گزينههاي بانك اطلاعاتي
بعضي از موتورهاي جست و جو مشخص ميكنند كه چه مجموعهاي از منابع بايد جست و جو شود. اين گزينه ها ممكن است شامل جست و جوي بانك اطلاعاتي اصلي موتور جستوجو يا جستو جوي مجموعههاي ديگري از بانك اطلاعاتي مثل تصاوير، صوت و فيلم، مقالات خصوصي و گروههاي بحث باشد.
مهمترين گزينه و گزينه پيش فرض، واژه the web است كه تمام صفحاتي از وب را دربرميگيرد كه در بانك اطلاعاتي آن خدمات جست و جو وجود دارد. معمولا براي گزينههاي جست و جو از كادر متني يا دكمههاي راديويي استفاده ميشود.
اغلب، در جاهايي از صفحه، پيوندهايي براي جست و جو در ساير بانكهاي اطلاعاتي وجود دارد (مثل بانكهاي اطلاعاتي مربوط به اطلاعات سهام)، اما موتور جست و جويي كه براي اين پيوندها به كار ميرود متفاوت است و معمولا شركت ديگري آن را تهيه كرده است. به عنوان مثال Excite چنين پيوندري را براي مظنه سهام و هواشناسي تدارك ميبيند كه هر كدام از آنها صفحات واسط پيچيدهاي دارند.
كادر تقاضا
اين كادرها قلب موتور جست و جو هستند زيرا تقاضاها در اين وارد ميشوند. آنچه كه ميتوان در اين كادر وارد كرد (عبارت منطق بولي و غيره) بسته به نوع موتور جستوجو دارد.
گزينههاي اصلاح كننده تقاضا
تقريبا نيمي از موتورهاي جستو جو گزينههايي را در صفحه اول فراهم ميكنند تا بتوان تقاضا را اصلاح كرد. اين گزينهها اغلب به صورت پنجره بازشونده، دكمههاي راديويي، يا كادرهاي كنترلي نمايش داده ميشوند. اينها گزينههايي را فراهم ميكنند تا بتوان جستو جو را برحسب زبان، تاريخ، محتويات خاص، به كارگيري عملگرهاي منطقي و غيره به نحو بهتري انجام داد.
پيوند به نسخههاي پيشرفتهتر
براي تمام موتورهايي كه گزينه نسخه پيشرفته را تدارك ميبينند، پيوندهايي در صفحه اول وجود دارد كه به نسخه پيشرفتهتري هدايت ميشوند. اغلب، خود پيوند بسيار كوچك است، به طوري كه گويي نميتوانيد آن را ببينيد. به ياد داشته باشيد كه اگر نسخه پيشرفته را ترجيح ميدهيد ميتوانيد آن را به جاي صفحه اول موتور جست وجو علامت گذاري كنيد.
آگهي تبليغاتي
اگهي تبليغاتي در موتورهاي جست و جو تقريبا اجتنابناپذير است. براي اغلب شركتهايي كه موتورهاي جستوجو را تهيه ميكنند، آگهي تبليغاتي و فروش نرمافزار، عمدهترين موضوعات سودآور هستند. دقت داشته باشيد كه آگهي ها معمولا در رابطه با جستوجويي كه انجام مي دهيد بخش ميشوند. به عنوان مثال، اگر جستوجويي را انجام دهيد كه حاوي واژه furniture باشد، آگهي تبليغاتي مربوط به اثاثيه (معناي واژهfurniture) ظاهر ميشود. كسي كه اين آگهي را داده است، اين طور خواسته است كه در مواقع مناسبي پخش گردد. اگر اين موضوع را از ديدگاه مثبت نگاه كنيد، اين آگهي ميتواند براي مشتري و آگهي دهنده سود داشته باشد.
دايركتوري (موضوعات كانالها و دستهبندي)
براي موتورهاي بزرگ، معمولا ليستهاي وسيعي از منابع اطلاعات وب به يكي از فرمتهاي زير ظاهر ميشود:
دايركتوري يا ليست دسته بندي شدهاي از سايتها. به ياد داشته باشيد كه در هر موتور، اين سايتهاي انتخاب شده فقط بخش كوچكي از سايتهاي موجود در بانك اطلاعاتي موتور جستوجو را تشكيل مي دهند، بعضي از موتورهاي جستو جو، دايركتوري هايي را ايجاد و نگهداري ميكنند، در حالي كه بعضي ديگر از موتورها از يك دايركتوري استفاده مي كنند كه در اختيار چندين موتور جستو جو قرار دارند. فعلا Open Directory (كه شكل عادي آن در سايت www.domz.org قرار دارد) و (LookSmart.com) LookSmart دايركتوريهايي هستند كه چندين موتور جستو جو از آنها استفاده ميكنند.
چون Open Directory بيشتر به امور پژوهشي مربوط است، خوب است كه در اينجا توضيحي راجع به آن مطرح شود. Open Directory بزرگترين دايركتوريهاي وب است كه بيش از 2 ميليون ركورد دارد. برخلاف ياهو، كه صدها ويراستار دساتخدام دارد و به آنها مبالغي را پرداخت ميكند، Open Directory در حدود 300000 ويراستار داوطلب دارد. از يك طرف، اين موضوع ميتواند به معناي كيفيت متغيري در انتخاب سايتها باشد، ولي از طرف ديگر به معناي اين است كه بسياري از ويراستارها در زمينه تخصصي خود نسبت به ويراستارهاي ياهو باتحربهتراند. به طوري كلي به نظر ميرسد كيفيت محتويات خوب است و يك صفحه خوب با احتمال و سرعت بيشتري وارد Open Directory ميشود تا ياهو. Open Directory داراي 15 دسته سطح بالا است و اغلب طبقه يا طبقههاي فرعي داراي چهار يا پنج سطح پايين تر هستند. حاوي ارجاعات متقابل و توصيفهايي براي دستهها است و جست و جو در هر سطح همانند سطح بالا انجام ميگيرد.
هر موتور جستوجو، Open Directory را تقريبا متفاوت از ديگري پيادهسازي ميكند.
ـ كانالها يا صفحات اختصاصي در مورد موضوعاتي مثل تجارت، سرگرمي يا ورزش، هر يك از اين صفحات، ممكن است حاوي ليست دايركتوري در مورد ان موضوع سايتهاي قابل جستوجو و غيره باشد. به عنوان مثال در Excite در زير طبقه Bussiness پيوندي به بخش Bussiness دايركتوري مربوط به Excite حستوجوي مظنه سهام، دايركتوري هاي شركت، مجموعهاي از ابزارهاي تجارت Online و بسياري از پيوندهاي تجاري مرتبط دارد.
ارتقاي سايت
جايي است كه توليدكننده موتور جستوجو ويژگيهاي بارز خود را نشان ميدهد. معمولا ويژگيها يا محتويات بارز در ان برجسته ميشوند. موتورهاي جستو جو معمولا خدماتي را در اين جا مطرح ميكنند كه ممكن است در سايتهاي ديگر نباشد.
ساير ويژگيهاي دروازه
اين طبقه شامل ويژگيهاي مختلف و متعددي است كه در جدول 1-1 آمدهاند.
پيوندهاي Help
اين پيوند شما را به صفحات بيشتري هدايت ميكند كه چگونگي عملكرد موتور جست و جو را براي شما تشريح ميكند. گرچه اغلب چيزهايي كه در صفحه كمكي ميخوانيد درست هستند، ولي بعضي از موتورهاي جستوجو چيزهايي را مطرح ميكنند كه به انها عمل نميكنند. در بعضي از موارد اين خدمات ويژگيهايي را ارائه ميكنند كه در صفحات كمكي آنها گنجانده نشده است. بعضي از خدمات ممكن است در طول عمر خود تغيير كنند ولي اين تغييرات به صفحات كمكي آنها اعمال نشود. به طور كلي، صفحات كمكي خوب هستند و كيفيت آنها رو به افزايش است.
چه انتظاري از اين خدمات داريد
براي كساني كه جستوجوهاي زيادي را با خدمات Online مثل DIALOG و LEXIS – NEXIS انجام دادند، انتظارات مربوط به موتورهاي جستوجوي وب بايد تعديل شود. تنوع ويژگيها، پيچيدگيها و قابليت اعتماد ويژگيها و در بعضي از موارد قابليت اعتماد نتايج حاصل از موتورهاي جستوجو، برابر با آن خدمات تجاري نيست. ماهيت عمومي بودن موتورهاي جستو جو، به خصوص تمايل به جذب ميليونها كاربر موجب شده است تا سطح پشتيباني آنها از مشتريان، كمتر از خدمات قديميتر باشد.
اما چون خدمات جستو جوي وب رايگان هستند، ميتوان اين عيبها و نقصها را نيز تحمل كرد. به طوري كه حق اشتراك گرفته نميشود و بابت جستوجو نيز پولي دريافت نميگردد.
فاصله بين انتظارات بازيابي قديمي و انتظارات جستو جوي وب وقتي كمتر ميشود كه عوامل ديگر نيز درنظر گرفته شوند. تشخيص اين عوامل براي جستوجوگرهايي مناسب است كه بخواهند از هر دو نوع خدمات استفاده كنند.
عامل اول اين است كه موتورهاي جستو جو با دادههاي بدون ساختار سروكار دارند، يا با دادههايي سروكار دارند كه ساختار آنها سازگاري ندارد. در واقع، ساختاري معين براي HTML وجود دارد. بدنه صفحات ساختار، سازگاري چنداني ندارد كه خدمات جستوجوي وب بتواند براي جستوجوي ساخت يافته استفاده كند. وقتي سازندگان صفحات وب از گزينه هايي مثل XML استفاده كنند، اين وضعيت تغيير ميكند. XML انواع مختلف دادههاي موجوددر صفحه را به خوبي شناسايي ميكند. بعضي از موتورهاي جستو جو سعي ميكنند كه از اين امتياز استفاده كنند و فعلا منتظر سايتها هستند تا اين نوع ساختارها در انها به وجود آيد.
عامل دوم اين است كه باتوجه به حجم دادههاي موجود در وب، به اضافه دادههايي كه روزانه اضافه ميشوند، كاري كه موتورهاي جستو جو در يك دوره زماني كوتاه انجام ميدهند، جالب است، توجه به اين حقيقت كه حداقل يك سطح دستيابي اوليه به صدها ميليون صفحه وجود دارد، جاي اميدواري است و ميتوان عيبها راناديده گرفت.
در جولاي 1999، در مقاله قابليت دستيابي اطلاعات در وب استيولورنس و سي. ال.گيلز مطالعاتي در مورد حوزه دستيابي موتورهاي جست و جو انجام دادند. در اين مقاله، پژوهشگران براورد كردند كه وب در آن زمان حاوي 800 ميليون صفحه از اطلاعات بود و هر موتور جستوجوي قوي كمتر از يك چهارن اين محتويات را تحت پوشش قرار داد. آنها برآورد كردند كه از بين 800 ميليون صفحه موتور جست و جوي Northern فقط 16 درصد، SNAP و AltaVista فقط 5/5 درصد و HotBot فقط 11 درصد و بقيه كمترا ز 10 درصد را شامل ميشوند.
يادآوري ميشود كه ارقام مطرح شده توسط تمام بينندگان وب قابل قبول نيست. بعضي از توليدكنندگان موتور جست و جو احساس ميكنند كه اين ارقام تحت تأثير اين حقيقت قرار گرفتند كه بسياري از صفحاتي كه در اين مطالعه شناسايي شدهاند، تكراري اند ولي URL يكساني دارند. يعني چندين URL به يك صفحه اشاره ميكردند، مثل www.onstract.comو onstrat.com. با اين كه صفحات مشابهي در كارگزاران مختلف بودند. علاوه بر اين بسياري از آنها نيز سپام(مزاحمتهاي پستاند) اگر اين مشاهدات درس باشد موتورهاي جستوجو صفحاتي بيش از آنچه را كه در مطالعات لورنس وگيلز مطرح شد، دربر ميگيرند.
هر كدام از نظرات درست باشد براي افزودن ديدگاهي به اين اعداد، دقت داشته باشيد كه حتي اگر يك چهارم صفحات نيز تحت پوشش قرار گيرند، مناسب است. توجه كنيد كه بسياري از خدمات جستو جوي قديمي تمايل ندارند تمام صفحات منتشر شده را نگهداري كنند. خدمات مشهوري مثل Psychological Abstract, Chemical Abstract و يا ساير خدمات حتي سعي نميكنند تمام چيزهايي را كه به ترتيب در مورد شيمي يا روانشناختي منتشر شدهاند، دربرگيرند. به اين نكته توجه داشته باشيد كه اگر ميخواهيد به تمام اطلاعات مربوط به يك موضوع دسترسي داشته باشيد، بايد چندين موتور جستوجو را بررسي كنيد.
حتي اگر چندين موتور جستو جو نيز جستو جو شوند، بازهم بخشي از وب را مشاهده نخواهيد كرد. اين بخش را اصطلاحا وب غيرقابل مشاهده مينامند. اين صفحات در سايتهايي قرار دارند كه ورود به آنها مستلزم داشتن كلمه عبور است يا صفحاتياند كه بخشي از بانكهاي اطلاعاتي هستند كه براي جستجو نياز به وروديهايي از طرف كاربر دارند. براي دستيابي به اين بانكهاي اطلاعاتي، بايد ثبت نام كرده كلمه عبوري را وارد كنيد و يا بايد تقاضايي را در صفحهاي از ان سايت وارد كنيد. براي دستيابي به صفحات موجود در اين سايتها بايد مستقيما به آن سايت برويد، نه اين كه سعي كنيد انها را با استفاده از موتور جستوجوي وب جستوجو كنيد. براي مشاهده مجموعهاي از اين نوع سايتها به آدرس زير مراجعه كنيد:
gwis2.circ.gwv.edul~gpriceldirect.htm
براي مجموعهاي از انتظارات منطقي در مورد قابليت جستوجو، بايد يك جنبه اضافي را درنظر داشت. به طور كلي، اغلب موتورهاي جستوجو براي جستوجوگرهاي جدي طراحي نشدند. بسياري از آنها براي كاربران موردي طراحي شدند، نه براي كساني كه در محيطهاي تجاري و پژوهشي كار ميكنند. با مراجعه به مستندات جستوجو و مشاهده مثالهايي كه در آن ارائه ميشود، ميتوانيم به استفاده كنندگان آن پي ببريم. باتوجه به اين حقيقت، اگر از آنچه كه توسط موتور جستوجو ارائه ميشود استفاده صحيحي به عمل آيد، نتايج معقولي به دست خواهند آمد. اگر كاربران جدي از ويژگيهاي پيشرفتهتر استفاده كنند، ممكن است روشهاي پيشرفتهتري ارائه شوند. گرچه ممكن است بسياري از سايتها بتوانند به كاربران موردي پاسخ دهند، ولي معمولا همه سعي ميكنند از موتورهاي جستوجوي قويتر استفاده كنند. اين موضوع در مورد Northern light رخ داده است. به همين ترتيب، اغلب موتورهاي جستوجو سعي ميكنند تمام امكانات جستوجو را فراهم كنند.
موارد ديگري كه نبايد انتظار داشت:
ـ سازگاري از يك موتور جستوجو به موتور جستوجوي ديگر. اين موضوع را ميتوان يك نكته مثبت تلقي كرد، نه منفي، زيرا هنوز بهترين روش جستوجو در وب مشخص نشده است و بايد در اين راه تلاش كرد.
ـ ابزارهاي قديمي كه با فروشندگان Online مورد استفاده قرار ميگيرند (مثل واژهنامه كنترل شده، دامنه كاملي از اتصال دهندههاي بولي و الحاقي، فرمتهاي خروجي و غيره).
ـ جستوجوي كتابشناسي جامع ـ تا مشخص شود چه ژورنالها، كتابها، گزارشهاي تكنيكي، پايان نامه ها و غيره چاپ شدهاند كه موتورهاي جستوجو هنوز نتايج قطعي را اعلان نميكنند به خصوص براي جستو جوهاي بعدي. براي بسياري از موضوعات، بهترين شرط براي جستوجوي كتابشناسي اين است كه از يكي از خدمات اقتصادي استفاده شود يا يك بانك اطلاعاتي مثل ERIC پيدا شود كه خواستهةاي موردنظرتان را داشته باشد.
ـ بدانيد كه در اثناي جستوجو چه اتفاقاتي رخ ميدهد. پژوهشگران مجرب Online اغلب دوست دارند تمام چيزهايي را كه در پشت صحنه رخ ميدهد، بدانند. لذا ميتوانند تشخيص دهند كه آيا واقعا به اهداف خود دست مييابند يا خير.
آنچه كه واقعا در پشت صحنه جستوجو رخ ميدهد به دلايل رقابتي مخفي است و فقط در اختيار توليدكننده خدمات جست و جو است. اين موضوع به همراه ناسازگاريهاي موجود و بديهي، به معناي اين است كه نميتوان به دانش كافي در مورد پشت صحنه جستوجو دست يافت. در واقع، پشت صحنه، مخفي است.
سرانجام ، آنچه را كه امروز در مورد يك موتور جستوجوي خاص ميآموزيد، ممكنا ست فردا درست نباشد. بلكه بايد به عوامل موجود در فرآيند جستوجو پي ببريد. در اين صورت ميتوانيد آنچه را كه ميبينيد تفسير كنيد و قدم بعدي را با ديد بازتري انتخاب كنيد.
موضوعات يا نواحي تحت پوشش موتورهاي جستوجو
براي هيچ كدام از موتورهاي جستوجو كه در اين مطرح شدند، مستنداتي وجود ندارد كه مشخص كند بيشتر به چه نوع صفحاتي تأكيد دارند. البته موتورهاي جستوجو كه در اين بحث ميشوند موتورهاي جستوجوي كلياند و به موتورهاي جستوجوي اختصاصي نمي پردازيم. تعداد موتورهاي جستوجوي خصوصي نيز زياد است.
روزآمد كردن موتورهاي جستوجو
تازهبودن محتويات بانك اطلاعاتي خدمات جستوجوي وب به اين بستگي دارد كه خزنده ها چگونه سايت ها را پيدا ميكنند و صفحات جديد و تغيير يافته با چه سرعتي به بان كاطلاعاتي اضافه ميشوند و URL هاي تحويل شده با چه سرعتي به بانك اطلاعاتي اضافه ميشوند.
حتي در يك خدمات جستوجوي وب نيز اين عوامل ممكن است دائما تغيير كند. سايتهايي كه فعلا در بانك اطلاعاتي موتور جستو جو قرار دارند، ممكن است هر هفته تجديدنظر شوند، اما سايتهاي مشهورتر ممكن است به دفعات بيشتري پيدا شوند و سايتهايي كه شهرت زيادي ندارند، به دفعات كمتري پيدا شوند.
از زماني كه صفحه جديد تحويل داده شده تا زماني كه كاملا شاخص بندي شود، از يك روز تا چند ماه تغيير ميكند. موتورهاي مختلف ادعاهاي مختلفي دارند و سطح قابليت پذيرش آنها نيز متفاوت است. ممكن است بتوانيد صفحهاي را بيابيد كه ديروز به وب اضافه شده است. اما ممكن است در بعضي از موتورهاي جستوجو چند هفته يا چند ماه طول بكشد تا صفحهاي پيدا شود و به بانك اطلاعاتي آن اضافه گردد صفحاتي كه در سايتهاي مشهور پيوند دارند، به احتمال زياد زودتر پيدا ميشوند.
بعضي از خدمات جستوجو ادعا ميكنند كه تمام سايتهاي معرفي شده را در مدت يك يا دو روز پيدا ميكنند، ولي در بعضي از آنها نيز چند هفته طول ميكشد. اما وقتي صفحهاي به بانك اطلاعاتي اضافه شد به معناي اين نيست كه كاملا شاخصبندي شده است. اين كار ممكن است در چند مرحله انجام شود.
ابتدا خود URL شاخصبندي شود، سپس عنوان، و حتي چند ماه بعد متن آن صفحه شاخص بندي شود.
عوامل بازيابي و رتبهبندي
وقتي كاربر تقاضايي را وارد كرد، آن تقاضا به برنامهاي فرستاده ميشود كه بانك اطلاعاتي موتور جست وجو را جستوجو ميكند تا موارد زير را تعيين نمايد:
1ـ چه ركوردهايي به چه ترتيبي بايد نمايش داده شوند.
2 ـ آن ركوردها به چه ترتيبي بايد نمايش داده شوند.
اين دو كار ممكن است به طور مستقل يا به صورت يك عمليات انجام شوند.
عمليات اول، يعني شناسايي ركوردها براساس موارد زير مشخص ميشود:
الف) استفاده از يك روش پيشفرض كه د رآن، كاربر واژهها، عبارات، يا جملات را بدو ننياز به نحو خاصي وارد ميكند
ب) با استفاده از وروديي از كاربر كه از نجوي پيروي ميكند و شامل معيارهايي مثل عملگرهاي همسايگي، مشخص كننده فيلد و غيره است.
وقتي كاربر ا زنحو ساخت يافته استفاده نميكند، سادهترين روش براي شناسايي ركوردها اين است كه برنامه بازيابي، تمام يا بعضي از واژههاي ورودي كاربر را بگيرد، آنها را با عملگرهاي بولي AND يا OR متصل كند و بانك اطلاعاتي را با استفاده از آن عبارت بولي جستوجو نمايد. نحو ساخت يافته را ميتوان جستوجوي زبان طبيعي ناميد. آنهايي كه بخش عمدهاي از زندگي خود را با جنبههاي حرفهاي و پيچيده پردازش زبان طبعيي (NLP) ميگذرانند، نميتوانند بپذيرند كه نحو ساخت يافته به عنوان جستوجوي زبان طبعيي مطرح شود. اغلب موتورهاي جستوجو فراتر از اين شكل ابتدايي رفتار ميكنند و از روشها و تكنيكهاي پيشرفته تري استفاده مينمايند. در اغلب موتورهاي مهم، تطبيق بولي به عنوان بخش مهمي از كار فرآيند جست و جو است. راههاي ديگري غير از تطبيق بولي وجود دارند و ركوردها را براساس عوامل محبوبيت و تحليل زبان شناختي حرفهاي بازيابي ميكنند.
وقتي كاربر از نحو مشخصي مثل بولي استفاده مي كند ممكن است الگوريتم پيش فرض موتور را تحت پوشش قرار دهد. يك موتور جست و جو ممكن است از هر يك از اين روشها استفاده كند الگوريتم پيش فرض براساس منطق بولي ضمني و ساير معيارها، نحو به كاربرده شده توسط كاربر، و تحليل زبان شناختي حرفهاي.
اولين كار برنامه، شناسايي ركوردهاي انتخابي، و دومين كار برنامه رتبهبند / بازيابي موتور جست وجو اين است كه ارتباط تقريبي هر ركورد را تعيين كند. درجه تطبيق يك ركورد با تقاضاي كاربر به صورت رتبهبندي يا امتيازبندي ركورد تعيين ميكند آيا ركورد بازيابي شود يا خير(فقط ركوردهايي كه حدي معيني از امتياز را دارا باشند، به عنوان نتيجه نمايش داده مي شوند.
به دليل ماهيت رقابتي صنعت موتور جستوجو، جزئيات الگوريتمهاي بازيابي و رتبهبندي كاملا مخفي است. براي استفاده مؤثر از موتورهاي جستوجو، خوب است جزئيات عوامل مؤثر را بررسي كنيم. اين عوامل عبارت از چيزهايي هستند كه موتور جستوجو در ركوردي جستوجو ميند. تا تعيين شود آيا ركورد بازيابي شود يا خير و چكونه بايد رتبهبندي گردد. در عمل رتبهبندي، معمولا تعيين ميشود كه ركوردها به چه ترتيبي به كاربر نمايش داده شوند. در ادامه عوامل مشهور هر موتور به طور مختصر بحث خواهد شد. براي اشنايي بيشتر بايد به مستندات Online موتورها مراجعه شود.
عوامل مؤثر در تعيين بازيابي يا عدم بازيابي ركورد و رتبهبندي ركوردها تركيبي از موارد زير است:
ـ محبوبيت صفحه درجه محبوبيت يك صفحه ميتواند براي بسياري از موتورهاي جست و جو به عنوان يك عامل بازيابي باشد. در بعضي از موتورها مثل Google اين عامل يك عامل اوليه است. محبوبيت معمولا به دو روش اندازه گيري مي شود. محبوبيت پيوند مقداري را به ركورد نسبت مي دهد و اين مقدار به تعداد پيوندهايي بستگي دارد كه به آن ركورد مراجعه ميكنند. محبوبيت كليك نيز امتيازي را به ركورد نسبت ميدهد و اين امتياز بستگي به اين دارد كه وقتي تقاضاي خاصي از كاربر جستوجو ميشود بر روي يك ركورد چند بار كليك ميشود.
ـ فراواني واژهها اگر واژه مورد تقاضا بيش از يك بار در ركورد رخ دهد، به آنها امتياز تعلق ميگيرد. هرچه فراواني واژهها بيشتر باشد، امتيازهاي بيشتري منظور ميشود، اما بعضي از موتورهاي جستوجو امتياز محدودي را براي فراواني واژهها در نظر ميگيرند .علتش اين است كه برنامه نويسان سعي نكنند تا با افزايش واژهها ركوردهاي خود را در اولويت جستوجو قرار دهند. طول سند نيز گاهي به عنوان يك عامل درنظر گرفته ميشود، به طوري كه دوبار تكرار يك واژه در سندي بلند، نسبت به دوبار تكرار همان واژه در سند كوتاه، امتياز بيشتري دارد.
ـ تعداد واژههاي موردتقاضايي كه تطبيق شده اند اگر تقاضا حاوي سه واژه باشد ركوردهايي كه هر سه واژه را داشته باشند، نسبت به ركوردهايي كه يك يا دو واژه را دارند امتياز بيشتري خواهند داشت.
ـ نادر بودن واژهها اگر تقاضا حاوي واژه متداولي باشد و واژه دوم به ندرت در بانك اطلاعاتي موتور جستوجو وجود داشته باشد، ركوردي كه حاوي آن واژه نادر است، نسبت به ركوردي كه حاوي واژه متداول است، امتياز بيشتري ميگيرد.
ـ همسايگي واژهها اگر دو واژه از تقاضا نزديك به هم باشند، نسبت به حالتي كه دور از هم باشند، امتياز بيشتري به ركورد داده ميشود.
ـ تعيين وزن براساس ترتيبي كه جستوجوگر واژهها را وارد كرد ركوردي كه حاوي اولين واژه است، نسبت به ركوردي كه حاوي دمين واژه است. امتياز بيشتري ميگيرد.
ـ گوناگوني واژه بعضي ازموتورها ميتوانند واژههايي را شناسايي كنند كه ريشه آنها با ريشه واژه مورد تقاضا يكسان باشد. بنابراين، موتور جستوجو ممكن است علاوه بر ركوردهاي حاوي واژههاي موردتقاضا، ركوردهايي را بازيابي كند كه حاوي واژههاي هم ريشه آنها هستند.
ـ حساسيت به حروف كوچك و بزرگ بعضي از موتورهاي جستوجو، حروف كوچك را از حروف بزرگ تشخيص ميدهند. در اين وضعيتها، موتور جستوجو ميتواند فقط ركوردهايي را برگرداند كه حاوي واژه موردنظرتان باشد، به طوري كه در مقايسه واژهها حروف كوچك و بزرگ نيز منظور شوند. به عنوان مثال. اگر در تقاضاي خود واژه AIDS را وارد كنيد اين نوع موتورهاي جستوجو فقط ركوردهايي را بازيابي ميكنند كه حاوي واژه AIDS باشد و آن دسته از ركوردهايي كه حاوي واژههاي Aids, aids و يا شكلهاي ديگري از آن باشند، ظاهر نخواهند شد.
ـ تحليل اسناد در بانك اطلاعاتي ممكن است از روش وابستگي واژه، شبكههاي انجمني، تحليل خوشه و يا ساير روشها استفاده شود.
ـ بازخورد ارتباط كه به ركوردهاي بازيابي شده اعمال ميشود كاربر ميتواند ركورد موردنظرش را شناسايي كند و بگويد كه به اين ركورد علاقمند هستم. سپس موتور جستوجو ركوردهايي را جستوجو كند كه محتويات آنها مطابق با خواسته كاربر است.
ـ تاريخ ركوردهاي جديدتر نسبت به ركوردهاي قديميتر امتياز بيشتري دارند.
ملاكهاي مقايسه موتورهاي جستوجو
براي درك تفاوتهاي بين موتورهاي جستوجو، خوب است نتايج حاصل از موتورهاي جستوجو را با هم مقايسه كرد. در تفسير نتايج اين مقايسهها بايد احتياط كافي به خرج داد، زيرا متغيرهاي زيادي دخالت دارند، مثل وجود تكرارهايي در نتايح قابليت اعتماد اعداد گزارش شده توسط موتور جستوجو، احتمالا مهمترين ملاكها براي موتورهاي جستوجو مقايسه نتايج واژهها، عبارات و غيره د رموضوع مرتبط با ناحيه جستوجو است. ملاكهايي كه در جدول 2-1 آمدهاند از موضوعات مختلفي ناشي شده اند و كارايي نسبي موتورهاي جستوجو را مشخص ميكنند.
قبل از بررسي جدول 2-1 بايد به چند نكته توجه داشته باشيد. اولا اعداد نشان داده شده توسط خدمات (موتور جستوجوي) مربوط به هر جست و جو گزارش شده است نميتوان كنترل كرد كه آيا اين اعداد درست هستند ياخير. براي تحليل خوبي از اين عوامل، سايت searchengineshowdown.com را ببينيد.
شايد مهمترين نتيجه اين باشد كه خواننده نبايد با توجه به اين جدول قضاوت كند كه موتور جستوجوي بهتر است از ارقام آن در جدول از همه بيشتر باشد و هميشه با آن كار كند. هر يك از موتورهاي مهم، به دليل درجه پايين از همپوشاني ميتواند تعداد زيادي از نتايج را ارائه كند كه در موتورهاي ديگر وجود ندارد. حتي موتورهاي كوچكتر نيز ركوردهايي را بازيابي ميكنند كه توسط موتورهاي جستوجوي بزرگتر پيدا نميشوند. بنابراين، اگر جستوجوگر فقط از يك موتور جستوجو استفاده كند ممكن است به بسياري از ركوردها دست پيدا نكند.
هم پوشاني بازيابي بين موتورهاي جستوجو
يكي از مهمترين نكاتي كه بايد در مورد استفاده از موتورهاي جستوجو درنظر داشت عبارت است از:
اگر علاقمند هستيد بازيابيهاي جالبي داشته باشيد (بيشترين سايتهايي را بيابيد كه با خواستههاي شما تطبيق دارند)، بايد جستوجو را در بيش از يك موتور جستوجو انجام دهيد.
معنايش اين نيست كه هميشه بايد بيش از يك موتور جستوجو را مورد استفاده قرار دهيد. وقتي صفحه معنايش اين نيست كه وقتي صفحه خاصي را جستوجوميكنيد، يا قطعهاي از اطلاعات را جستوجو ميكنيد و آن را در اولين موتور جستوجو مييابيد، بسيار خوب است.
اما اگر به دنبال مطالبي ميگرديد و آن را در موتور جستوجو مييابيد ولي به آن مطمئن نيستيد، بايد موتور جستوجوي ديگري را مورد استفاده قرار دهيد.
اين موضوع را ميتوان با مثالي شرح داد پنج موتور جستوجو براي عبارت erris head استفاده شدهاند و تعدادي از ركوردها را به عنوان نتيجه برگرداندهاند:
Fast Search 45
Northern Light 36
AltaVista 31
Excite 16
HotBot 9
در يك نگاه مشخص ميشود كه Fast Search موفقتر است، اما تحليل هر يك از ركوردها نشان داد كه 64 ركورد منحصر به فرد وجود داشته است از بين اين 64 ركورد:
ـ موتور جست و جويي با بالاترين بازيابي، فقط 70 درصد را پيدا كرد.
ـ موتور جستوجوي بعدي 12 درصد را پيدا كرد كه در اولي نبوده اند.
ـ دو موتور جستوجوي فوق 7 ركورد (10درصد) را پيدا نكردهاند.
ـ HotBot , Excite با همديگر 7 ركوردي را پيدا كردند كه سه موتور جستو جوي قبلي آنها را پيدا نكردند.
مقايسههاي ديگر با واژههاي ديگر نيز نتايج مشابهي را ارائه كردند.
گزينههاي جستوجوي متداول
باتوجه به تاريخچه مختصر موتورهاي جستوجو و آشنايي با اجزاي آنها، قدم بعدي براي استفاده مؤثر از آنها آشنايي با ويژگيهاي جستوجو در آنهاست. اين ويژگيها شامل گزينههايي براي جستوجوي بخشي از بانك اطلاعاتي، منطق بولي، اختصار جستوجوي متنها، جستوجوي عبارات، جستوجوي همسايگي، جستوجوي نام مناسب، جستوجوي موضوعي، و انتخاب فرمت خروجي و تعداد صفحاتي هسند كه بايد در هر صفحه نتيجه چاپ شوند. ويژگيهاي ديگري توس طهر موتور جستوجو ارائه ميشود كه به آنها خواهيم پرداخت .
انتخاب چيزي كه بايد جستوجو شود
هنگام استفاده از موتورهاي جستوجويي كه حاوي دايركتوريهايي هستند، گزينه اي در اختيار شما قرار ميگيرد تا مشخص كنيد كه آيا كل بانك اطلاعاتي جستوجو شود يا فقط سايتهاي موجود در آن دايركتوري جستوجو شوند.
بانك اطلاعاتي بعضي از موتورهاي جستوجو. مجموعه گوناگوني از اسناد را دربرمي گيرد. ه عنوان مثال در Northern Light به شما اجازه داده مي شود تا انتخاب كنيد كه اسناد وب جستوجو شوند يا اسناد خصوصي Northern Light جستوجو گردد يا هردو. ممكن است براي جستوجو در يوزنت، دايركتوريهاي پست الكترونيكي و غيره نيز انتخابهايي در اختيارتان قرار گيرد.
وقتي جستوجو د رغير از وب انتخاب شود معمولا واسطي در اختيارتان قرار مي گيرد كه متفاوت از واسط جستوجوي وب است.
خدمات موتور جستوجو ممكن است تلاش كند تا واسطي مشابه واسط وب ايجاد نمايد. اما چون اطلاعات متفاوتي را ارائه ميكند، ممكن است واسط جستوجوي وب و واسط ديگر دقيقا مشابه نباشند.
منطق بولي
منطق بولي يا جبر بولي را ميتوان استفاده از عملگرهايي مثل AND ، OR و NOT دانست كه براي شناسايي صفحات (ركوردهايي) به كار ميروند كه حاوي تركيب خاصي از واژهها هستند.
تمام موتورهاي جستوجو، شكل خاصي از جستوجوي بولي را با استفاده از + و – يا ANDOR و NOT انجام مي دهند.
اگر موتور جستوجو از عملگرهاي AND، OR و NOT استفاده كند، گزينههاي زير را ارائه مي نمايد.
AND دو واژه را باهم تركيب ميكند كه هر دو واژه بايد در ركورد وجود داشته باشند تا آن ركورد بازيابي شود. مثال زير را ببينيد.
Utomobile AND sales
اگر تقاضاي فوق صادر شود، فقط صفحاتي بازيابي ميشوند كه هردو واژه automobile و sales در آنها وجود داشته باشند.
OR دو واژه را تركيب ميكند و ركوردي بازيابي ميشود كه حداقل يكي از آن دو واژه را داشته باشد. مثال زير را ببينيد:
Automobile OR car
اگر اين تقاضا صادر شود، صفحات بازيابي ميشوند كه حداقل يكي از دو واژه automobile يا car در آنها وجود داشته باشد.
NOT مشخص ميكند كه صفحه فاقد واژهاي به عنوان ركورد موردنظر نمايش داده شود. مثال زير را ببينيد:
Automobile NOT van
اگر اين تقاضا صادر شود، صفحات يا ركوردهايي بازيابي شوند كه حاوي واژه automobile باشند ولي فاقد واژه van باشند.
قابليت تودرتويي (استفاده از پرانتزها)
واژهها چگونه با هم گروهبندي ميشوند يا ترتيب عملكرد منطق بولي چگونه بايد باشد؟ مثال زير را ببينيد
(Automobile OR car) AND sales
اين تقاضا، ركوردهايي را بازاريابي مي كند كه حاوي واژه Sales باشند و يكي از دو واژخ automobile يا car را نيز دارا باشند. توجه كنيد كه اگر پرانتزها حذف شوند، نتيجه مشابهي در دست نخواهد بود(نتيجه فرق خواهد كرد).
بعضي از موتورهاي جستوجو، منطق بولي سادهشدهاي دارند به طوري كه به جاي AND از جمع و به جاي NOT از منها استفاده ميكنند. بسياري از آنها نيز فاقد قابليت تودرتويي اند. بدون اين قابليت تقاضاهاي بولي پيچيدهتر (به خصوص آنهايي كه چندين گروه از واژههاي OR دارند) الزاما انجام پذير نيستند.
نمونهاي از يك عبارت كه عملگرهاي بولي كامل استفاده ميكند در زير آمده است.
Chemical industry AND (Mexico OR Mexican) NOT pollution
جدول1-2 نشان ميدهد كه اين عبارت جستوجو چگونه در موتورهاي جستوجو بيان ميشود. (براي موتورهاي جستوجويي كه بيش از يك نسخه دارند، نسخهاي استفاده شد كه از منطق بولي استفاده ميكند). براي موتورهايي مثل Fast Search و Lycos كه منطق بولي كاملي ندارند و الاما تمام واژهها را با يكديگر AND نميكنند، ميتوان جستوجوي بولي را با مجموعهاي از OR ها انجام داد. واژههاي AND شده را با علامت + مشخص كنيد. واژههاي NOT شده را با علامت – نمايش دهيد. و واژههاي OR شده را با هيچ كدام . د رمثال فوق در Lycos ركوردهايي در اختيارتان قرار ميگيرد كه Mexico يا Mexican بيان نشدند. توجه كنيد كه ABC-D + تقريبا برابر با عبارت زير است:
A AND (B OR C) NOT D
توجه كنيد كه استفاده از عملگرهاي بولي به شكل AND NOT , OR , AND گاهي بازيابي مربوط را لغو ميكند(+ و – اين كار را انجام نمي دهند). اگر فقط به AND كردن واژهها نياز داشته باشيد از علامتهاي + و – استفاده كنيد زيرا درك آنها ساده بوده و وارد كردن آنها آسان است و از احتمال لغو كردن رتبهبندي جلوگيري به عمل مي آيد.
در بعضي از موتورهاي جستوجو لازم است عملگرهاي بولي با حروف بزرگ نوشته شوند، در حالي كه رد بعضي ديگر لازم است با حروف كوچك تايپ شوند. سادهترين روش اين است كه آناه را با حروف بزرگ تايپ كنيد.
اختصار متنهاي جستوجو
اختصار به معناي امكان جستوجو در ساقه يا ريشه يك واژه است و در اغلب موتورهاي جستوجوي عمده انجام ميگيرد. اين ويژگي اغلب به معناي استفاده از كاركترهاي عمومي خوانده ميشود. در بعضي از موتورهاي جستوجو، اختصار به طور خودكار انجام ميشود و موتور جستوجو به طور خودكار واژههايي با پسوندهاي گوناگون را شناسايي و بازيابي ميكند. در بعضي ديگر از موتورهاي جستوجو كاربر مشخص ميكند كه مختصر سازي بايد صورت گيرد. براي اين منظور ساقه را به نماد مختصرسازي ختم ميكند.
به اين ترتيب جستوجوي واژههايي كه به پسوندهاي گوناگوني ختم ميشوند (مثل ful, -ness,-only, -ed, -ing, -s و غيره) آسان ميگردد. يعني به طور خودكار مجموعهاي از واژههاي مركب مرتبط به هم انتخاب مي گردند.
جستوجوي عبارت و همسايگي
موتورهاي جستوجو ممكن است به كاربر اجازه دهند كه مشخص كند دو واژه چقدر بايد به هم نزديك باشند. اين عمل را ميتوان جستوجوي عبارت ناميد. در اين عمل، عبارتي متشكل از دو تا چند واژه را ميتوان وارد كرد و دقيقا آن عبارت را جستوجو كرد. براي اين كار، معمولا عبارت در كوتيشن دوتايي قرار ميگيرد. بعضي از خدمات جستوجو قابليت انعطاف بالايي دارند و امكان استفاده از عملگر NEAR يا مشابه آن را فراهم ميكنند.
عملگرد NEAR اجازه ميدهد كه دو واژه فاصله معيني از يكديگر داشته باشند و گاهي به جستوجوگر اجازه ميدهند كه حداكثر فاصله را مشخص كند. به عنوان مثال، تقاضاي زير را در AltaVista درنظر بگيريد:
اين تقاضا ركوردهايي را مييابد كه حاوي هردو واژه medical و malpractice باشند و بيش از ده واژه از يكديگر فاصله نداشته باشند. عملگر NEAR روش هوشمندي براي جستوجوي دقيق است و موجب ميشود تا نويسنده موتور جستوجو يك مفهوم را به روشهاي گوناگوني حل كند. راهنماي ويژگيهاي موتورهاي جستوجو را در جدول 2-2 ببينيد. همانطور كه مشاهده ميكنيد AltaVista تنها موتور جستوجويي است كه ازعملگر NEAR استفاده ميكند.
جست و جوي نام
براي جستوجوي نام شركتها و افراد، موتورهاي جستوجو ميتوانند از حالت تقريبي براي تمايز بين حروف كوچك و بزرگ استفاده كنند. وقتي اين موتورها تقاضايي را دريافت ميكنند كه حرف اول آنها بزرگ است، حدس ميزنند كه نام مناسبي است.
وقتي مشخص ميكنيد كه نام بايد جستوجو شود، موتور جستوجو اسامي را به طور معكوس نيز جستوجو ميكند. به عنوان مثال، براي جستوجوي Ali Ahmadi مي تواند Ahmadi Ali را نيز جستوجو نمايد.
موتورهاي جستوجو نميتوانند تشخيص دهند كه آنچه را كه وارد كرديد نام است يا خير.
به عنوان مثال، در بعضي از موتورها وقتي گزينه the person را انتخاب كرديد، موتور جستوجو بيش از 1000 صفحه را مييابد كه حاوي نام Ali Ahmadi است.
جستوجوي فيلدها(جستوجوي بخشي از ركورد)
جستوجوي فيلد مشخص ميكند كه جستوجو ذر بخش خاص و محدودي از ركوردها انجام شود.
وقتي اين قابليت وجود داشته باشد، دقت جستوجو افزايش مييابد. به عناون مثال، اگر جستوجو به فيلد عنوان محدود شود، جستوجو در ركوردهايي صورت ميگيرد كه موضوع موردنظر كاربر در آن عنوان وجود داشته باشد. با جستوجو در فيلد URL جستوجو در ركوردهاي مربوط به يك سازمان يا حتي در بخشي از آن سازمان انجام ميگيرد.
در مقايسه با جستوجوي Online قديمي ( SIN, LEXIS-NEXIS, DIALOG و غيره)، جستوجوي فيلد در موتورهاي جستوجوي وب، بسيار ابتدايي است. اغلب موتورهاي جستوجو در مقايسه با 20 تا 200 فيلد قابل جستوجو در خدمات Online فقط در حدود 6 فيلد جستوجو دارند. فيلدهاي قابل جستوجو در جدول 3-2 آمدهاند.
بعضي از فيلدهاي مهم كه ميتوان آنها را در ركوردها جستوجو كرد در ادامه بررسي ميشوند.
عنوان (Title)
عنوان فيلدي است كه اغلب جستوجوگرها از امتياز آن استفاده ميكنند راه آسان و سريعي را بري دستيابي به ركوردهاي مرتبط ارائه ميكند. اما توجه داشته باشيد كه ريسك آن اين است كه بسياري از ركوردهاي مرتبط را از دست خواهيد داد.
به عنوان مثال ممكن است روش كامل براي ساخت باميه در ركوردي با عنوان زير وجود داشته باشد:
”World’s Best Recipes for Slimy Vegetables."
همچنين توجه داشته باشيد كه عنوان صفحه، واژه يا عبارتي است كه در بالاي پنجره مرورگر قرار ميگيرد مگر اين كه مرورگر خود را طوري تغيير دهيد كه عنوان صفحه را نشان ندهد. با مشاهده محتويان صفحه ممكن است به اين نتيجه برسيد كه عنوان صفحه با محتويات آن جور در نميآيد.
بعضي از موتورهاي جستوجو اجازه ميدهند كه فقط يك واژه در عنوان جستوجو شود و بعضي ديگر نيز اجازه مي دهند كه كل عبارت جستوجو گردد. در جدول 3-2 جايي كه مثال يك عبارت را نشان مي دهد بيانگر اين است كه در آن موتور جستوجو، عبارات در يك عنوان قابل هستند. اگر مثالي كه ارائه ميشود فقط يك واژه باشد، نشان ميدهد كه آن موتور جستوجو، عبارات عنوان را به طور مؤثر جستوجو نميكند.
تاريخ (Date)
توجه كنيد كه تاريخ در موتورهاي جستوجوي وب الزاما به تارخي انتشار محتويات موجود در صفحه مربوط نميشود بلكه معمولا به موارد زير مربوط ميشود:
1ـ تاريخ ايجادي كه در صفحه HTML امده است
2 ـ تاريخ آخرين اصلاح صفحه
3 ـ تاريخي كه موتور جستوجو آن صفحه را يافت تا آخرين تاريخ كنترل صفحه.
يوآرال (URL)
اين فيلد وقتي بيشترين استفاده را دارد كه بخواهيد فقط در صفحات مربوط به يك سازمان جستوجو كنيد.
معمولا همراه با ساير واژههاي جستوجو به كار ميرود. به عنوان مثال، جستوجوي زير را درنظر بگيريد:
vasculitis AND url: jhu.edu
اين تقاضا فقط ركوردهايي را از دانشگاه johns Hopkins بازيابي ميكند كه حاوي vasculitis باشند. اغلب موتورهاي جستوجو از اين نظر قابليت انعطاف زيادي دارند، به طوري كه ميتوان هر بخش پيوستهاي از URL را جستوجو كرد و اسامي دايركتوريها و فايلها در سمت راست نام دامنة URL قرار ميگيرند. در HotBot واژه Continent از نام دامنه كشور URL مشتق ميشود و تمام كشورهاي آن دامنه را مورد جستوجو قرار ميدهد.
تصاوير و ساير رسانهها
موتورهاي جستوجوي مختلف، براي يافتن صفحات حاوي تصاوير به شكلهاي مختلفي عمل ميكنند. روشهاي مختلف ممكن است موفقيت شما را در يافتن تصاوير تحت تأثير قرار دهند. بعضي از موتورهاي جستوجو مثل AltaVista و Lycos گزينههاي جدايي براي جستوجوي رسانهها دارند كه نياز به جستوجوي فيلد نيست، زيرا آن گزينهها فقط رسانهها را جستوجو ميكنند، نه كل وب را. در HotBot ميتوانيد موضوع موردنظر،مثل ostrich (شترمرغ) را در كادر تقاضا مشخص كنيد و سپس تعيين كنيد فقط به صفحاتي نياز داريد كه حاوي تصاوير هستند. احتمال تعداد زيادي از صفحات را مييابيد كه حاوي تصويري از ostrich هستند، ولي صفحات ديگري را مييابيد كه حاوي متن ostrich هستند، اما تصاويري دارند كه كاملا با پرنده شترمرغ متفاوتاند (مثل لوگوهاي شركتها، تصاوير واژههايي كه به عنوان دكمههاي دايركتوري استفاده ميشوند. و تصاوير ديگر).
ساير محتويات صفحه
ساير محتويات به روشهاي مختلفي اداره ميشوند كه به انواع فايلها و برنامهنويسي موجود در يك صفحه بستگي دارند. بسياري از آنها مثل ايلت ها و اشيا مورد علاقه برنامه نويسان يا طراحان صفحه وبت هستند تا ببينند كه دستگاههاي خاص چگونه اداره يا استفاده ميشوند.
پيوندها
قابليت جستوجوي پيوندها، يك دستگاه بالقوه قوي است ولي فقط براي بخشهاي كوچكي از جستوجو استفاده ميود. هنگام جستوجوي فيلد پيوندها در ( AltaVista، Fast Search، Googel، HotBot) با اين ويژگي ميتوان صفحاتي را يافت كه به URL موردنظرتان يا بخشي از آن URL پيونددارند. اين عمل را در URL شركت خود انجام دهيد تا مشخص شود چه كساني به شما پيوند دارند. جستوجوي پيوند يا پيوند به موازي با جستوجويي است كه توسط مؤسسه اطلاعات علمي در دهه 1960 انجام شده است.
اگر به دنبال موضوع مبهمي مي؛رديد كه تعريف كردن آن دشوار است، و صفحهاي را يافتيد كه به صفحات ديگر پيوند داشته باشد، يافتن آن صفحات نيز آسان است. اگر شركت كوچكي را رديابي ميكنيد، خوب است بدانيد كه چه كساني به صفحه آن شركت پيوند دارند. هنگام استفاده از اين گزينه، ممكن است سعي كنيد شكلهاي گوناگوني از URL را جستوجو نماييد، مثل موارد زير:
onstart.com
جستوجوي تاريخ ـ ملاحظات ويژه
توجه كنيد كه در موتورهاي جستوجوي وب، تاريخ معمولا تاريخ انتشار محتويان وب نيست، بلكه تاريخ ايجاد آن صفحه يا تاريخ آخرين اصلاح آن است. اگر تاريخ ايجاد يا آخرين اصلاح در صفحه نباشد، موتور جستوجو از تاريخي كه آن صفحه را يافت استفاده ميكند.
نكتهاي در مورد ذخيره تصوير
براي ذخيره تصويري كه آن را يافتيد، دكمه سمت راست ماوس را بر روي تصوير فشار دهيد. در منويي كه ظاهر ميشود گزينه Save image as را انتخاب كنيد. اكنون پنجرهاي ظاهر ميشود. در اين پنجره نام و محل ذخيره تصوير را تعيين كرده دكمه Save را كليك كنيد. نام فايل توسط سيستم پيشنهاد ميشود. نام فايل را ميتوانيد تغيير دهيد ولي پسوند آن قابل تغيير نيست.
يافتن ركورد از طريق شباهت
كاربر براي يافتن ركورد موردنظر ميتواند تقاضاهايي به اين صورت داشته باشد «ركوردي كه به اين تقاضا شباهت بيشتري داشته باشد.» سپس موتور جستوجو ركوردهايي را برميگرداند كه محتويات آنها مانند محتويات ركوردي باشد كه تعيين كرديد.
گزينههاي خروجي
اغلب موتورهاي جستوجو در گزارش خروجي خود اعلان ميكنند كه چند موتور از تقاضا پيدا شده است ممكن است تقاضا از چند واژه تشكيل شده باشد، تعداد وقوع هر واژه را نيز بيان ميكنند.
بعضي ازموتورها گزينههايي را براي فرمت خروجي تدارك ميبينند كه كوتاه بوده و URL يا عنوان را دربرميگيرد، يا متوسط بوده عناصر ديگري را دربر ميگيرد، و فرمت مشروحتري است كه خلاصهاي از صفحه يا چند واژه از صفحه (مثل عنوان، UR خلاصه و غيره) را دربر ميگيرد. فرمت پيش فرض معمولاً فرمت طولاني است. موتورهاي جستوجو معمولا 10 ركورد را در هر صفحه نمايش ميدهند، ولي بعضي از موتورها تعداد ركوردهاي قابل نمايش در صفحه را به عهده شما واگذار خواهند كرد.
نكاتي درمورد جستوجوي تصوير
دو روش براي جستوجوي تصوير از طريق موتورهاي جستوجوي وب وجود دارد. ميتوانيد از بانك اطلاعاتي مخصوصي كه توسط خدمات جستوجوي وب تهيه شده است استفاده كنيد يا ميتوانيد بانك اطلاعاتي عادي وب را جستوجو نماييد و مشخص كنيد كه دنبال تصوير ميگرديد. بديهي است كه روش اول بهتر و آسانتر است. اين كه دنبال تصوير فرد، مكان، شي يا هر چيز ديگري ميگرديد، موتورهاي جستوجو ميتوانند شما را راهنمايي كنند.
Fast Search, Lycos, AltaVista و Google بانك اطلاعتي بزرگي در مورد تصاوير دارند. صفحات اول اين چهار موتور جستوجو در شكلهاي 1-2 تا 4-2 آمدهاند.
ـ در AltaVista پيوند Image را در صفحه اول كليك كنيد و سپس واژه مورد جستوجو را در كادر وارد نماييد. از تمام ويژگيهايي كه در AltaVista فراهم است ميتوانيد استفاده كنيد. مثل + و – و پيشوندهاي مختلفي مثل title توجه داشته باشيد كه توصيفةاي متصل به تصاوير خيلي خلاصهاند، لذا نبايد دنبال توضيحات طولاني بگرديد. با استفاده از دكمهةاي راديويي و پنجره، ميتوانيد مشخص كندي كه دنبال عكس، گرافيك سياه و سفيد، رنگي يا دكمه ها عناوين ميگرديد.
همچنين ميتوانيد مشخص كنيد كه دنبال چه مجموعهاي از تصاوير ميگرديد. AltaVista دنبال تصوير اجمالي ميگردد كه ميتوان از بين آنها انتخاب كرد.
در Lycos پيوند Multimedia را در صفحه اول (در زير كادر تقاضا) كليك كنيد. موضوع موردنظر را در كادر تقاضا وارد كنيد. گزينههاي All، Picture، Audio يا Video را انتخاب كرده دكمه Search را كليك كنيد. ميتوانيد براي جستوجوي عبارات از منطق بولي (واژه + و واژه -) استفاده كنيد. عبارات را ميتوانيد در داخل علامت كوتيشن قرار دهيد. Lycos بخشي را در صفحه Multimedia درنظر ميگيرد كه امكان برداشتن فايلهاي برنامههاي كاربردي را فراهم ميكند تا از آنها براي نتايج جستوجو استفاده كنيد.
Fast Search در واقع از فناوريي مشابه Lycos استفاده ميكند و خود Fast Search گزينههاي بيشتري را فراهم مي آورد. در اين موتور جستوجو، پيوند Multimedia را در صفحه اول كليك كنيد.
در صفحه اي كه ظاهر ميشود image را از پنجره بازشونده انتخاب كرده واژههاي موردنظر را انتخاب كنيد. در صفحهاي كه پيش روي شما قرار ميگيرد گزينههايي در مقابل شما ظاهر ميشود كه ميتوانيد با انتخاب نوع فرمت، شفافيت، رنگ، خاكستري يا تك رنگ، بازه جستوجو را محدود سازيد.
در اولين صفحه Multimedia ميتوانيد با انتخاب گزينه Advanced Search نيز اين گزينه ها را وارد كنيد.
ـ Googel يك بانك اطلاعاتي از تصاوير دارد كه براي جستوجوي تصاوير بايد در صفحه اول آن گزينه image را انتخاب كنيد و سپس واژههاي موردنظرتان را در كادر تقاضا تايپ نماييد.
نكاتي كلي در مورد جستوجو
1- قبل از انتخاب موتور جستوجوي موردنظر، در مورد راهبرد خود فكر كنيد.
2- تصميم بگريد كه چه ويژگيهايي مفيد است.
- منطق بولي - پرانتزها؟ - همسايگي؟ - اختصار؟ ـ عبارات؟
3ـ مشخص كنيد كه چه موتورهاي جستوجويي اين ويژگي را ارائه ميكنند.
4 ـ از جستوجوي ويژه شروع كنيد و در صورت لزوم نيز آن را وسعت ببخشيد. نتايج جستوجو را بررسي كرده راهبرد خود را تغيير دهيد.
5 ـ در استفاده از چندين موتور جستوجو و روشهاي مختلف شك نكنيد.
6 ـ حداقل از دو موتور جستوجو استفاده كنيد، مگر اين كه موتور اول دقيقا خواستههاي شما را براورده سازد. اگر حقيقت يا صفحه خاصي را جستوجو ميكنيد، از چند موتور جستوجو استفاده كنيد تا آن را بيابيد يا به اين نتيجه برسيد كه فعلا كافي است.
7 ـ براي جستوجو از طريق چند موتور جستوجو به موتور ديگر، از دستورات Copy و Faste استفاده كنيد (يا از Ctrl+C و Ctrl+V استفاده نماييد)
ـ هنگام استفاده از عملگرها، حروف بزرگ را به كارببريد. براي هر موتوري كه از عملگرهاي بولي استفاده ميكند، حروف بزرگ قابل فهم است. حروف كوچك در بعضي ازموتورهاي جستوجو كار ميكند ولي در بعضي ديگر كار نخواهد كرد.
ـ هنگام جستوجوي اسامي، حروف كوچك و بزرگ را رعايت كنيد.
منبع : سايت علمی و پژوهشي آسمان -- صفحه اینستاگرام ما را دنبال کنید
اين مطلب در تاريخ: چهارشنبه 20 اسفند 1393 ساعت: 10:02 منتشر شده است
برچسب ها : تحقیق درباره نگاهي به موتورهاي جستجو,ابزارهاي مافوق جست و جو,ساختار موتورهاي جستجو,تاريخچه موتورهاي جستجو,