ساپورت بازيابي اطلاعات در مورد استفاده وساخت آنتولوژي (antology)

دسته بندي: تحقیق و پروژه رایگان,پروژه و تحقیق رایگان,

ساپورت بازيابي اطلاعات در مورد استفاده وساخت آنتولوژي(antology)

چكيده:

بازيابي اطلاعات مي‌تواند به ساخت آنتولوژيها و كاربرد مؤثر و مفيد آنها، كمك كند. ما از استخراج واژة اصلي مبتني بر تركيب و تجانس (Collocation)، جهت ارائه مفاهيم جديد، استفاده و در مورد ارائة ارتباط وسيع جهت اتوماتيك سازي جمعيت آنتولوژي با مثال، مطالعه مي‌كنيم. ما، متدهاي خود را در تنظيم پروژة كتابخانة ديجيتال، با استفاده از متدولوژي ارزيابي اطلاعات، ارزيابي مي‌كنيم. در يك تنظيم مشابه، در مورد متدهاي بازيابي مطالعه مي‌كنيم كه ساپورت جهت‌يابي ارائه شده توسط روابط معنايي و لغوي موجود در اغلب آنتولوژيها را جهت كمك به كاربران در بررسي آنتولوژي تكميل مي‌كنند.

مقدمه:

متدهاي جستجو، جهت يابي و سازماندهي اطلاعات اينترنت رايج امروز، دهه‌هاي تحقيق دوره بازيابي اطلاعات را پايه و مبنا قرار مي‌دهند. اين متدها مبني بر قوانين آماري كنترل كنندة استفاده انسان از زبان، نه تنها در بازيابي سند و مدرك، بلكه در امورغني‌تر به لحاظ معنايي مثل پاسخگويي به پرسش، مورد استفاده قرار مي‌گيرند. يك شكل Semantic Web اين است كه بسيار شبيه به Web است كه ما امروزه مي‌شناسيم و انتظار داريم كه اسناد مدارك، سرشار از منافع قابل فهم باشند. اين تفسيرها را در مورد اسناد وعبارات قابل توجيهي كه در جستجوي معاني مضمون اسناد ومدارك هستند، ارائه خواهند داد. ما توضيح مي‌دهيم كه صورتهاي صرفي IR چگونه مي‌توانند در اين امر، با كمك آرشيتكت‌هاي آنتولوژي غيرمعمولي، مؤثر باشند. تكنيكهاي IR مي‌توانند به تعريف، تشخيص و بررسي ثبات و تداوم آنتولوژي كمك كنند. هشت مرحله مي‌توانند در پروسه ايجاد آنتولوژي متمايز شوند.

1- تعيين محدودة آنتولوژي

2- توجه به استفادة مجدد از قسمتهاي مربوط به آنتولوژي موجود

3- بر شماري و ذكر كلية مفاهيمي كه مي‌خواهيد

4- تعريف و تشخيص تاكونومي اين مفاهيم

5- تعريف و تشخيص ويژگيهاي مفاهيم

6- تعريف و تشخيص جنبه‌هايي از مفاهيم مثل اصول و ارزش‌هاي مورد نياز وغيره

7- تعريف و تشخيص نمونه‌ها

8- بررسي ثبات و تداوم آنتولوژي

ما، از ميان اين مراحل، مراحل 3 و7 را با تكنيكهاي مبتني بر IR بررسي كرده و معتقديم كه اين مراحل مي‌توانند به طور مفيدي با استفاده از تكنولوژي بازيابي قابل دسترس امروزي، انجام شوند. مرحلة 4 براي اتوماتيك سازي، مناسب است، در عين حال، مسئله حل‌شده‌اي به شمار نمي رود و مرحله 8 در مورد متدهاي استدلال سمبوليك به گونه‌اي كه مثلاً در PACER و FACT اجرا مي‌شوند، بهترين گزينه است. تكنيكهاي IR ، علاوه بر اينكه جهت كمك به سازندگان آنتولوژي مورد استفاده قرار مي‌گيرند، مي‌توانند در جستجو، مرورگري و ارائه موارد غيرمترقبه نيز به كاربران كمك كنند. مردم تمايل دارند كه از Semantic Web شركتها جهت جستجوي اسناد و مدارك، بلكه جهت جستجوي اطلاعاتي در مورد روابط معنايي خاص، مثلاً در تنظيم كتابخانه هاي ديجيتال، استفاده كنند. بنابراين، روش‌هايي را جهت «بازيابي در يك سلسله مراتب مفهومي» ارائه مي‌دهيم، كه در آن‌ها به جستجوي واقعي هماهنگي به نحوييكه توسط اغلب ابزارهاي جهت‌يابي و ويراستارهاي آنتولوژي ارائه مي‌شود. ممكن است مناسب و كافي نباشد. پيشرفتهاي گذشته، با ايجاد آلگوريتم‌هاي بازيابي سند و مدرك مفيد امروزي جهت ايجاد و به‌كارگيري زيرساختار Semantic web، مستقيماً منجر به ايجاد پيشرفتهايي در آينده مي‌شوند. اما دليل متدولوژيكي بيشتري براي نزديك تر كه من اقدامات Semantic web در IR به هم داريم، جامعه IR بر اهميت ارزيابي، تأكيد كرده است. با ظهور كنفرانس‌هاي بازيافت متن (IRC)، ارزيابي آزمايشي امور مربوطه به بازيابي، به پيشرفت چشمگيري رسيده كه منجر به پيشرفت سريع در امور ارزيابي شده، شده است. منافع مشابهي با اقدامات ارزيابي مربوط به بازيايب و اقدامات مربوط به امور پردازش زبان غني‌تر به لحاظ معنايي، وجود دارند. جامعه Semantic web، از تأكيد شديدتر بر ارزيابي و اموري كه مي‌توانند ارزيابي شوند، سود مي‌برد. با خوردن غذاي سگ خود، ارزيابي تجربي در مورد كليه امور مورد بررسي در اين مقاله انجام مي‌دهيم.

بخش 2، تنظيمي را بررسي مي‌كند كه كلية امور در آن رخ مي‌دهند. پروژه Language Links و (Lolali )Logic ، به هدف فراهم آوري امكان دستيابي مبتني بر آنتولوژي به يك كتاب راهنماي الكترونيكي در فصل مشترك و واسط زبانشناسي و منطق. در بخش 3، اتوماتيك سازي مرحله 3 و ارزيابي آنرا، توصيف مي‌كنيم. در بخش 4، در مورد اتوماتيك سازي مرحله 7 و ارزيابي آن، صحبت مي‌كنيم در بخش 5، جستجو در سلسله مراتب مفهوم LaLaLi را ارزيابي مي‌كنيم. در بخش 6، نتيجه گيري مي‌كنيم.

2- LoLaLi:

كارما، و آزمايشات مربوط به آن، در تنظيم پرونده كتابخانه ديجيتال، انجام شدند. پروژه LoLaLi ، متدهايي را جهت گسترش مزمت قديمي كتابهاي راهنمايي علمي با ابزارهاي الكترونيكي ، ارائه مي‌دهد. اين ابزارها به خوانندگان كمك مي كنند كه به مضمون و محتواي كتاب راهنما دست يابند و اين ابزارها، يافتن اطلاعات مربوطه را آسانتر مي‌سازند.

طبق اين مطالعه ، پروژه Handbook of Logic and Language در فصل 20 ص 1200 تمركز دارد، مانند آزمايشات از منابع Latex استفاده كرديم. پروژه LoLaLi، از سلسله مراتب مهم word net جهت فراهم آوري امكان دستيابي به كتاب راهنما استفاده مي‌كند. سلسله مراتب مفهوم، غالباً جهت جهت يابي از طريق تركيب‌ها و تجانس‌ها اسناد در مدارك، مورد استفاده قرار مي‌گيرند. آنها براي سازماندهي، نمايش دهي و ارائه اطلاعات متعدد،مفيد واقع مي‌شوند، و كاربراني در جستجوي يك hypertext هستند و داراي الگوهاي مرورگري سلسله مراتبي هستند، بهتر از كاربران داراي مسيرهاي مرورگري متوالي، اين كار را انجام مي‌دهند. از اينرو، معماريهاي مربوط به كتاب‌هاي راهنماي الكترونيكي بايد الگوهاي سلسله مراتبي را توجيه كننده يك سلسله مراتب مفهومي، روش مناسبي براي انجام اين كار باشد. سلسله مراتب مهم LoLaLi با دست و توسط متخصصين اين رشته كه اخيراً حدود 600 مفهوم را جمع آوري، سازماندهي و مرتبط ساخته‌اند، ايجاد مي‌شود و يك سرويس دهنده مبتني بر secame ، اطلاعات سلسله مراتبي را ذخيره مي‌كند كه از طريق يك مجموعه از نوشته‌جات و Protégé هدفمند، ويرايش و به روز رساني مي‌شود. ما در بخش 3، توضيح مي‌دهيم كه تكنيكهاي اصلي IR، چگونه مي‌توانند به نويسندگان در تعيين و انتخاب مفاهيمي جهت تحول در سلسله مراتب، كمك كنند.

هر مفهوم در سلسله مراتب LoLaLi، با يك توضيح و تفسير، حاشيه نويسي مي‌شود كه به طور خلاصه، آنرا توصيف مي‌كنند. بعلاوه، مفاهيم داراي توصيفات طولاني‌تري هستند و آنها هم توسط نويسندگان، ارائه مي‌شوند. سلسله مراتب، از يك مفهوم TOP با چهار شعبة اصلي در زير آن تشكيل مي‌شود : علم كامپيوتر، رياضيات، زبانشناسي و فلسفه كه توسط روابط زير موضوع، فوق موضوع (Subtopic-supertopic) ، سازماندهي و تنظيم مي‌شوند. اين روابط، تايپ مي شوند و تايپها عبارتند از “per-of”,”is-a” هستند. سلسله مراتب در LoLaLi، بيشتر يك نمودار است يا يك قالب دقيق و واضح شكل 1 . روابط غيرسلسله مراتبي نيز در نظر گرفته شده و به منظور اهداف جهت يابي مورد استفاده قرار مي‌گيرند؛ اين روابط مشتمل بر Sibing(همشيره و خواهر)، “معاني ديگر” و “مفاهيم مربوطه” مي باشند. مفاهيم موجود در سلسله مراتب LoLaLi نيز به منابع خارجي ارتباط دارند. مورد اصلي در ميان اين روابطHand book of Logicians lenguage مي‌باشد، مثال‌هاي ديگر مشتمل بر روابط با ابزارهاي مستقيم (on line) مربوطه مي‌باشند روابط با Handbook ، مفهومي را در سلسله مراتب، به عنوان منبع وبخش‌هاي مربوطه موجود در Hand bookرا به عنوان هدف، اتخاذ مي‌كنند. در بخش 4، ما توضيح‌مي‌دهيم كه چگونه تكنيكهاي IR به بررسي اين امر كمك مي‌كنند.

در حال حاضر ، كابران مي‌توانند به شكل “آساني”سلسله مراتب دست يابند از نتايج مطالعة يك كاربر، جهت يابي در راستاي روابط معنايي فوق اينكه، با تسهيلات جستجوي كامل شده است كه كاربران را مجاز مي‌سازد مفاهيم موجود در سلسله مراتب را به شيوه‌اي اختياري، بيابند. دربخش 5، ما تكنيكهاي اصلي IR را ارزيابي و توصيف
مي‌كنيم.

3- كمك به سازندگان آنتولوژي

طبق پروژه LoLaLi، درزمان ساختن يك آنتولوژي براي يك رشته علمي خاص، آثار ادبي ارزشمندي وجود دارند كه محتوا و معانيشان بايد تحت پوشش آنتولوژي قرار گيرند. ما در مورد ساپورت IR جهت بررسي سوال زير، گزارش مي‌دهيم: كدام مفاهيم بايد در آنتولوژي قرارگيرند؟ ما به جاي اينكه به صورت دستي و غيراتوماتيك به جستجوي آثار ادبي بپردازيم، متدهاي شناسائي مفاهيم مورد نظر را از يك متن خاص، با استفاده از استخراج واژه توضيح مي‌دهيم. اسامي مفاهيم، معمولاً عبارات اسمي (noun phrase) هستند. از اينرو، تشخيص عبارات اسمي، احتمالاً اولين مرحله براي تشخيص مفاهيم مورد نظر به شمار مي‌رود. ما دو مورد را در عين به كارگيري تكنيكهاي مختلف، متمايز مي‌كنيم: كانديداهاي تك واژه‌اي و كانديداهاي چندواژه‌اي.

1-3- مفاهيم يك اسمي

با جهت يافتن اسامي جالب، ابتدا ‍POS را به دنبال متن Hand book اضافه كرده و سپس كلية اسم ها را انتخاب مي‌كنيم. ما از دو روش براي طبقه بندي آنها استفاده مي كنيم. توسط تواتر و تعداد خام و توسط تواتر يا تعدد نسبي، يعني توسط تعداد وقايع تقسيم بر تعداد وقايع در مجموعه اسناد ومدارك با هدف كلي. ليستهاي حاصله، توسط سه ارزيابي، ارزيابي شدند كه از آنها در مورد هر اسم در فهرستهاي حاصله پرسيده مي‌شد كه آيا آنها در فهرست جامعي از نظريات مفيد يا مهم كه به مبتديان و متخصصين كمك مي‌كند، قرار دارند يا خير. در مورد “استاندارد طلائي” ما، يك اسم در صورتي در نظر گرفته مي‌شد كه اكثر ارزياب‌ها، آنرا وابسته به آن فهرست بدانند.

ما، با اين استاندارد طلايي، امتيازات دقيق a(n) را جهت افزايش ارزش‌هاي n ، محاسبه كرديم در جدول1، دومين رديف، فهرست حاصله تنظيم شده توسط تواتر و تعدد خام و سومين فهرست تنظيمي توسط تعدد وتواتر نسبي را نشان مي‌دهد. نمايانگر كننده است كه حتي فهرست حاصلة تعدد خام از كيفيت بالايي برخوردار بوده وداراي اسم‌هاي نامربوط به تعدد و تواتر و تكرار زياد در راس، مي‌باشد و با احتساب ويژگيهاي اين حيطه خاص، امتيازات دقيق بسيار بالا مي‌توانند حاصل شوند. در مورد يادآوري چطور؟ گردآوري وت دوين فهرست كاملي از اسم‌هاي مفيد يا مهم محدوده Hand book، كار مشكلي است، البته اگر غيرممكن نباشد، در عوض، ما تصميم داريم كه با استفاده از يادآوري مفهوم به يادآوري تقريبي بپردازيم(CK): چه تعدادي از مفاهيم تك اسمي در سلسله مراتب LoLaLi را ما شناسايي كرده ايم، و آنها كدام قسمت فهرستهاي حاصله قرار دارند؟ از 522 مفهوم در سلسله مراتب مفهومي، 158مفهوم، تك اسمي هستند؛ از اينرو، CR در برابر آن 158 مفهوم ، ارزيابي شد. آلگوريتم استخراج اسم، 77% از مفاهيم تك اسمي موجوددر سلسله مراتب LoLaLi را شناسايي كرد؛ و 70% اين مفاهيم در 750 مورد از 1 به بعد قرار دارند. در حاليكه اين، امتياز يادآوري كاملي نيست، سازندگان آنتولوژي ما، به موارد بسيار مهمي در ارائه سلسله مراتب پي برده و به ما مي‌گويند كه اين موارد غالباً آنها را به تفكر در مورد مفاهيم ديگر و بررسي غيرمستقيم مسئله يادآوري وا مي‌دارند.

2-3- عبارات اسمي چند واژه اي

بيائيد به استخراج عبارات اسمي چند واژه‌اي بپردازيم، ما متد مفيدي را ارائه مي‌دهيم كه مبتني بر تركيبها و تجانس ها بوده و مي‌تواند به مرحله تقسيم شود. Parsel سطحي متن، 2 ارائه توالي هاي واژه‌اي با الگوهاي جالب pos-tag براي ارزيابي و بررسي دقيق‌تر،3/ تصميم‌گيري در مورد اينكه هر توالي واژه، يك تجانس يا تركيب اسمي هست يا خير. مرحله 1/ با Schmid Tree-Tagger pos-tagger انجام مي شود. مرحله 2، با متدي كه توسط Katz,Justeson ارائه شده، انجام مي شود و از الگوهاي pos-tag جدول 2 استفاده مي‌كند. ما متن ضميمه شده يا اضافه شده را بررسي كرده و هر چيزي را كه بايكي از الگوهاي pos-tag فهرستي، هماهنگ نيست، كنار مي‌گذاريم. مرحله 3 ، با آزمايش اينكه آيا واژه‌هاي موجود در توالي، بيشتر از موقعي ايجاد مي‌شوند كه كليه واژه هاي موجود در متن به صورت تصادفي، تنظيم شده باشند. طبق نظريه Krenn , Evert كه آشكارسازي تركيبها و تجانس‌هاي pp-Verb را بررسي كرده اند، از t-test جهت بررسي مرحله 3 استفاده مي‌كنيم. فرضيه بي اعتبار ما اين است كه در متن، واژه‌هايي كه توالي را مي‌سازند، كاملاً مستقل از يكديگر هستند.

زمانيكه از متد چند واژه‌اي خود در مورد Handbook of logic and lansuage استفاده مي‌كنيم، به نتايج اميدوار كننده اي مي‌رسيم. مثلاً ، 10 تركيب يا تجانس اسمي با بالاترين امتيازات t در جدول 3 نشان داده مي‌شوند. در واقع، ما چگونه اين كار را انجام مي‌دهيم؟ مثل عبارات تك اسمي، ما از يادآوري مفهوم (CR) و دقت (P) جهت پاسخگويي به اين سوال، استفاده مي‌كنيم از 522 مفهوم موجود در اين شكل سلسله مراتب مفهومي مورد استفاده، 364 مفهوم، چند واژه‌اي هستند؛ از اينرو، CR در برابر آن 364 مفهووم، ارزيابي شد. آلگوريتم ما با كار در مورد Hand book،3896 تركيب و تجانس را ارائه داد، 99 مورد، مفاهيم مربوط به سلسله مراتب هستند. مثلا، با 28% از مفاهيم چند واژه‌اي را يافتيم؛ 73% آنها در 750 هستند. با توجه به P، ما از سه ارزياب جهت ارزيابي مفاهيم كانديداي مورد نظر، استفاده كرديم. جدول 3، نمونه‌اي از نتايج را بهمراه ارزيابي‌هاي انساني، ارائه مي‌دهد. جدول 4، داراي امتيازات دقت حاصله در درجات مختلف مي‌باشد؛ دقت با حركت به سمت پائين فهرست، كاهش مي‌يابد.

در حاليكه وقت در سطح قابل قبولي است، يادآوري مفهووم، در حد مطلوبي باقي ماند. چند راه براي افزايش يادآوري وجود دارد: توسعة الگوهاي استخراج بيشتر، واضح سازي كمتر الگوها، يا افزايش اطلاعات و داده‌هايي كه بر روي آنها كار مي شود. ممكن است در بين گزينه به دقت لطمه بزند، و اولين گزينه الگوهاي بسيار خاصي را ايجاد كرده و هيچ تفاوتي در دوره‌هاي يادآوري مفهوم ايجاد نكند. به سومين گزينه مي‌پردازيم. عبارت اسمي جالب بسياري، تنها در اhand book ايجاد مي‌شوند؟ زمانيكه متد تشخيص ما، از طريق افزونگي عمل مي‌كند، تا در به يافتن آن واژه ها نخواهيم برد.

جهت ايجاد يك مجموعه اطلاعاتي وسيع‌تر بايد به شرح زير عمل كنيم. هر يك از 522 مفهوم موجود در سلسله مراتب LoLaLi به موتور تحقيق وب دارد شدند.كه در عين حال، خروجي فايل‌هاي PDF را محدود كردند. 20 نتيجه بالايي، حفظ شدند؛ متن، با استفاده از pstotext، استخراج شد و MB385 از متن قابل استفاده ايجاد كرد. ما 475/206 تركيب و تجانس را استخراج كرديم،كل 197 مفهوم يافت شده و مهمتر اينكه 44% آنها در ميان 750 نتيجه بالايي بودند. بنابراين، CR مشخصاً در زمان مقايسه با نتايج اجرا كننده آلگوريتم ما در برابر متن Handbook، ايجاد شده است. در جدول 5، اعداد دقيق مربوط به مجموعه Web را در رابطه با مجموعه CLEF فهرست مي‌كنيم. تخصيص و تصريح اين امر، به خلاص شدن از دست عباراتي مثل “other hand” كمك مي‌كند، اما عباراتي مثل “next section” (بخش بد) را به درجات بالا مي برد و امتياز p@10 پائين را در رديف 3، توجيه مي‌كند.

جهت بررسي تعامل دقت و يادآوري، به دقت مفهوم ، توجه كرده و طرح‌هايي را براي دقت مفهوم و يادآوري مفهوم، تدوين كرديم، در شكل 2 ، يادآوري مفهوم(چپ) و وقت مفهوم (راست) تركيبات موجود در Hand book، در مجموعه Web و در رابطه با مجموعه CLEF ارائه كرده ايم؛ درجه يا رتبه ( كه در محور X نشان داده شده ) با دسته بندي توسط امتياز t-test حاصل مي شود. همانطور كه انتظار مي رود در رابطه با مجموعه بزرگتر Web، يادآوري مفهوم، داراي بالاترين رتبه است، پس از آن، مجموعه Web مربوط به CLEF و پس از آن، Hand book قرار دارد. در مورد دقت مفهوم، ترتيب مربوطه نشان داده مي‌شود.

3-3- نتيجه گيري ها و مراحل ديگر

يك متد تك اسمي ساده و يك متد مبتني بر تركيب و تجانس ساده مي‌توانند اظهارات ارزشمندي در مورد مفاهيم موجود در سلسله مراتب يك مفهوم ارائه داده و بنابراين. مرحله 3 فهرست Van Harmelen و Antonok را بررسي كنند. در مورد استخراج عبارات چند واژه‌اي، اطلاعات و داده‌هاي بيشتر جهت ارتقاي يادآوري، مفيد واقع مي‌ِوند. نتايج ما، با جداسازي عبارات انگليسي كلي و عمومي، افزايش مي يابند. امتيازات ما به هيچ وجه كامل نسيتند، اما سازندگان هستي شناسي ما، به عنوان منبع اطلاعات ، نتيجة متدهاي ما را بسيار با ارزش يافتند. ممكن است اين امر در تمركز بيشتر بر مجموعة Web، ما را ياري كند؛ اگر برخي مفاهيم، قبل از تشخيص تركيب بر تجانس در دسترس باشند؛ مي‌توانند جهت محدودسازي متن مورد استفاده قرار گيرند: مفاهيم جديد و جالب مي‌توانند در نزديكي و مجاورت مفاهيم قديمي ايجاد شوند.

4- تعريف وتشخيص اتوماتيك مثال‌ها و نمونه‌ها

هستي‌شناسي ها به ندرت بخاطر خودشان بوجود مي‌آيند، و كاربرد آنها تعيين مي‌كند كه هستي ‌شناسي ها چگونه بايد مكان‌يابي شوند. در تنظيماتي كه ساختارهاي شبه هستي‌شناسي به عنوان موارد كمكي در جهت‌يابي مورد استفاده قرار مي‌گيرند، مثال ها و نمونه‌هاي حائز اهميتي، روابط چشمگيري با اسناد ومدارك برقرار‌مي كنند. ما ، در اين بخش ، متدهاي مربوط به تعريف و تشخيص اتوماتيك و در اين مثال ها را در تنظيم پروژه LoLaLi، توصيف و ارزيابي مي‌كنيم. كاري كه بايد انجام دهيم، مرتبط سازي مفاهيم موجود در سلسله مراتب LoLaLi با قسمتهايي از متن مربوطه در Handbook مي‌باشد. ما، اين امر را بازيافت اطلاعات با دقت با تلقي هر مفهوم به عنوان يك موضوع و تلقي هر بخش از متن به عنوان يك سند (مدرك) مي‌ناميم. براي اينكه نمونه‌ها و مثال‌هاي مورد نياز را تعريف و مشخص مي‌كنيم، به شناسائي بخش‌هايي از متن مربوطه در مورد هر مفهوم در سلسله مراتب LoLaLi، نياز داريم. چه مقدار از كتابخانه ديجيتال و سطوح هستي شناسي كه ما به آنها دستيابي داريم، مي‌توانند در بررسي اين امر، به كار روند. استراتژي ما ، يك استراتژي فزاينده است. تا با آغاز كار از يك خط پايه و مبناي ساده، تاثير به كارگيري ساختار سند و مدرك ، نشان هاي متن و تركيبات را تعيين مي‌كنيم.

1-4- زير يك سرپوش و پوشش (under the Hand)

مجموعه اسناد و مداركي كه ما بايد در آنها ،اهداف ارتباطي را شناسائي كنيم، متشكل از اسناد و مدارك LATEX مي‌باشد. داده هاي نيمه ساختار يافته با قسمتهاي مشخص: فصل/ بخش / زيربخش وغيره. اين موارد، بخشي از كل Handbook را داراي ارتباط منطقي با قسمتهاي مختلف متن مي‌دانند به عنوان اهداف و داراي ارتباط وسيع، ما هر بخش را در هر سطحي از فصل گرفته تا پاراگراف، مورد توجه قرار مي دهيم. اما در اين امر، مشكلي مطرح مي‌شود. اگر يك زيربخش، داراي قسمتي مربوط به متن باشد، پس آن بخش و هر قسمت بزرگتر نيز به متن تعلق دارند. شما چگونه در مورد بزرگ يا كوچك بودن واحد بازيافتي، تصميم گيري مي‌كنيد؟ ما با داشتن تجربه در مورد بازيابي XML، قسمتهاي متداخل متن را در نظر نمي گيريم، در موارديكه بايد بين دو واحد متداخل بازيابي، انتخابي انجام دهيم، يك واحد داراي رتبه بالاتر را توسط سيستم بازيابي انتخاب مي كنيم. اين امر در شكل 3 نشان داده مي‌شود: اگر تصميم بگيريم به بخش (Section) برگرديم، پس مجاز نيستيم كه به هر چيزي كه در آن بخش وجود دارد و يا هر چيزيكه در بخش ديگري وجود دارد، برگرديم.

جهت ارزيابي امر ايجاد رابطه، از وروديهاي از شاخص يا فهرست Handbook استفاده مي كنيم، ما از كليه وروديها در فهرست پشت كتاب كه آنها هم در سلسله مراتب LoLaLi ايجاد مي‌شوند، استفاده كرديم؛ 141 ورودي وجود دارد. هر ورودي، شخصاً در منبع LATEXHandbook ، علامت گذاري مي‌شود، به طور ميانگين، يك ورودي داراي سه بار تكرار مطابق با lindex {….} مي‌باشد. “استاندارد طلايي” مورد استفاده ما جهت ارزيابي، متشكل از 141 مفهوم به عنوان “موضوع” مي‌باشد. يك بخش متن، در صورتي كه به يك موضوع، مرتبط است كه با فرمان lindex {…} مشخص شده باشد. بديهي است كه كيفيت نتايج ما به كيفيت فهرست كتاب بستگي دارد.

ما از Incremental R-Precision به عنوان ابزار سنجش استفاده مي‌كنيم؛ زمانيكه هيچ يك از اسناد مربوطه در يك موضوع معين، موجود نباشند. اين ابزار صفر را نشان مي‌دهد و زمانيكه كليه اسناد در مدارك موجود باشند، يك را نشان مي‌دهد. ارزش و عدد بالاتر در زماني ارائه مي شود كه يك مدرك در درجه بندي بالاتري قرار داشته باشد، ارائه
مي شود در مورد يك موضوع معين P@ n عبارت است از :

كه Relevant ، مجموعه اسناد مربوطه در مورد موضوع مي‌باشد. امتياز مربوط به يك آزمايش، توسط ميانگين‌گيري كليه موضوع‌ها، حاصل مي‌شود. اگر توزيع تفاوتهاي عملكرد ، منحرف نشود، و اگر چند انحراف معدود موجود باشد، پس استفاده از t-test جفتي براي ارزيابي اطلاعاتي، مناسب به نظر مي رسد. اين دو شرط مي توانند با طرح هاي quantile آزمايش شوند. فرض بر اين است نقاط موجود در يك چنين طرحي، در اطراف identity (اتحاد)، متعادل باشند. ما اين امر را در رابطه با داده ها و اطلاعات خود بررسي مي‌كنيم؛ مثالي در شكل 4 ارائه مي‌شود. از اينرو ما ميزان اهميت تفاوتهاي اين دو متد را با مقايسه نتايج هر تحقيق با t-test جفتي، آزمايش مي كنيم. تفاوتهاي حائز اهميت با و تفاوتهاي جزئي با نشان داده مي‌شوند.

2-4- آزمايشات

خط مبناي ما، از طرح ارزش‌يابي tf-idf استاندارد استفاده مي‌كند، و با كليه لغات وواژه‌هاي را با استفاده از LemmatizerTree Tagger به بن و ريشه شان تبديل مي‌كنيم. ما اين آزمايش را با نشانه‌هاي طراحي ديگر و با تركيبات تجانس ها انجام داده‌ايم ابتدا واژه‌هايي كه داخل عناوين واحدها قرار دارند، احتمالاً شاخص‌هاي مناسب موضوع اصلي هستند كه تحت پوشش آن واحدها قراردارند. توالي‌هاي واژه‌اي كه مورد تاكيد قرار مي‌گيرند، احتمالاً از بقيه ، مهمترند. ما واژه‌هاي داراي تفسير در توضيح مشخص، يا واژه‌هايي را كه در شرايط معيني ايجاد شده اند را با افزايش امتياز آن بخش از متن ، ترجيح مي‌دهيم. اگر يك قسمت ، با عنوان آغاز شود و آن عنوان داراي واژه‌هاي پرسشي باشد، امتياز آن قسمت را دو برابر مي‌كنيم.اگر عنوان آن قسمت داراي چيزديگري باشد، باز هم امتياز را دو برابر مي كنيم. اگر يك سند و مدرك داراي /emph,/em باشد كه به لحاظ ادبي مهم و پرسش مي‌باشند، امتياز را دو برابر مي‌كنيم؛ اگر تأكيد بر چيزي بجز پرسش نباشد نيز، امتياز را دو برابر مي‌كنيم. نتايج آزمايش درج دول 6 ارائه مي شوند. تفاوت جزئي در موارد ارجحيت عناوين وجود دارد، اما تفاوت مهمي بين موارديكه متن در آنها ارجحيت دارد و موارديكه متن درآنها ارجحيت ندارد، وجود ندارد. هر چند كه تأكيد، مكرراً بر عبارات كليدي مي‌باشد اما به نظر مي رسد كه در زمانيكه تاكيد بر واژه‌هاي بي اهميت مي‌باشد، اين موارد بيشتر وجود دارند.

با منابع ارائه شده در بخش قبل، سعي كرديم كه عملكرد متد ايجاد ارتباط خود را افزايش دهيم. با استفاده از تركيبات حاصل از مجموعهweb، امتياز يك بخش را در مورد موضوع ودر زمانيكه داراي تركيب يا تجانسي از موضوع بود، افزايش داديم. با استفاده از مكانيسم امتيازبندي مشابه با مكانيسم قبلي، هر زمانيكه يك قسمت داراي يك يا چند تركيب و تجانس باشد، امتيازش را دو برابر مي ‌كنيم. اعتقاد برارائه ترتيب واژه و پروسه هماهنگ سازي وتنظيم بخش موضوع مي‌باشد، كه بايد در هر زمانيكه مي فهميم ترتيب واژه ممكن است حائزا هيمت باشد. دقت را افزايش دهد. جدول 6، نتايج آزمايشات را با مزاياي تركيب و تجانس، نشان مي‌دهد. هيچ تفاوت مهمي بين خط پايه و موارديكه تنها تركيبها وتجانس‌ها را به كار مي برد وجود ندارد، اما زمانيكه ارجحيت تركيب و تجانس و عنوان را تركيب مي‌كنيم، تفاوت جزئي موجود خط پايه و حتي در مورد ارجحيت عنوان، بوجود مي‌آيد. تكرار لفظي پرسش در يك بخش يا متن، چيز زيادي در مورد احتمال ارتباط داشتن يك بخش با پرسش نمي‌گويد. بنابراين ،تكرار لفظي واژه‌ها و عبارات پرشي، نشاندهنده وجود ارتباط مي‌باشد.

3-4- نتيجه گيريها در مراحل ديگر

ما نشان داديم كه به كارگيري عنوان و تركيب و تجانس مي‌تواند عملكرد ايجاد ارتباط اتوماتيك را افزايش دهد. متدهايي كه مورد استفاده قرار مي‌دهيم، كاملاً خام و بي تجربه هستند و اين احتمال وجود دارد كه پيشرفتهاي بيشتر بتوانند با بهينه سازي حاصل شوند. يك متد دقيق براي تركيب مدارك كه توسط tf,idf، نشانه ‌گذاري عنوان و تركيبها و تجانس‌ها ارائه شده ، مي‌توانند در مورد نتايج، مفيد واقع شده و ما را درتوجه بيشتر به برنامه هاي ارزشيابي، ياري دهد.

5- جستجو در آنتولوژي

پس از بخش 3 و4 ، كه هدفشان، ساپورت IR در مورد ساخت آنتولوژي بود، مسير را عوض كرده وبه بررسي ساپورت كاربران نهايي مي پردازيم كه به منظور اهداف جهت يابي به آنتولوژي ها دستيابي دارند. پروسه مرورگري از طريق آنتولوژي جهت يافتن يك مفهوم ، مي تواند تصور مناسبي در مورد چگونگي سازماندهي آنتولوژي و چگونگي ارتباط مفاهيم، به كاربر ارائه دهد، اما اين پروسه همچنين مي‌تواند پروسه مشكل و سختي باشد. مثال‌هاي مربوط به عدم موفقيت مرورگري در پروسه دستيابي به اطلاعات، مشخص هستند. و مشتمل بر مواردي مي باشند كه ممكن است در سلسله مراتب موجود نباشند. در چنين مواردي، تكنيكهاي IR مي‌توانند اين نياز به اطلاعات را بررسي كنند. IR به جاي تبعيت زا روابط معنايي در يك آنتولوژي به دستيابي تصادفي بر يك آنتولوژي و تفسير انعطاف پذير نياز اطلاعاتي كاربر اشاره مي‌كند.

امري كه ما در اين بخش بررسي مي كنيم به شرح زير است، يافتن مفاهيم مربوط به يك پرسش معين در سلسله مراتب مفهومي، به عبارت ديگر، نيازهاي اطلاعاتي كاربران، با استفاده از واژه‌هاي اصلي اختياري و انتخابي تنظيم مي‌شوند، در حاليكه “اسناد و مدارك” ،مفاهيم موجود در سلسله مراتب LoLaLi مي‌باشند.

1-5- تحت يك سرپوش (Under the Hand)

ما در زمان سعي جهت بازيافت مفاهيم مربوط از يك آنتولوژي ، بايد با چند مسئله سروكار داشته باشيم، از پرسش‌هاي تمايل دارند كه بسيار كوتاه باشند. تعداد واژه‌هاي اصلي درهر موضوع ، مي توانند برابر با تعداد پرسش‌هاي محرك جستجوي وب، به طور ميانگين دو واژه اصلي در هر موضوع، باشند.2/ اسناد ومدارك نيز بسيار كوتاه هستند. حتي اگر توصيف وسيعي در مورد مفاهيم داشته باشيم، اسناد و مدارك بازيافت شده، در مقايسه با مجموعه‌هاي آزمايش استاندارد، كوتاه هستند. 3/ مجموعه اسناد و مدارك كوچك مي‌باشد. اين امر، بدين معناست كه ممكن است يادآوري ،مسئله مهمي باشد. بازيابي در برابر سلسله مراتب LoLaLi ، يك كار بسيار دقيق است اما داراي شرايط و نيازهاي يادآوري مي باشد.

موضوعات ما كه 26 عدد هستند، توسط چهار نويسنده مختلف ارائه شده و مبتني بر كاري هستند كه دانشجويان سال اول هوش مصنوعي دانشگاه آمستردام درتحقيق اوليه در مورد ›آمايش واسط يا رابط كاربر LoLaLi، انجام داده اند. “استاندارد طلايي” با استفاده از سه ارزياب، به شيوه‌اي مشابه با ايجاد رابطه در بخش 4، ارائه شد. واحد سنجش مورد استفاده نيز مشابه با فصل 4 مي‌باشد. R-Precision فزاينده كليه اسناد و موضوعات عاري از ويژگيهاي غير واژه‌اي هستند به استثناي خط تيره ها. هر موضوع، با اسناد موجود در فهرست، مقايسه مي‌شود و فهرست درجه بندي شده اسناد توليدي مي گردد كه دراختيار كاربر قرار مي‌گيرد.

2-5- آزمايشات

ما ، به عنوان يك خط مبنا، يك مدل بازيابي مبتني بر tf.idf ساده را انتخاب مي‌كنيم. مثل بخش قبلي، مي خواهيم بفهميم كه ساختار مفاهيم و سلسله مراتب مفهومي تا چه حد مي‌توانند به ارتقاي تاثير بازيافت، كمك كنند. ما عقايد زير را در مورد خط مبنا ارائه مي‌دهيم هدف همه آنها ،داشتن دقت بالا بردن صدمه زدن به يادآوري مي‌باشد؛ 1/ مفاهيمي را كه ارائه دهيد كه در واقع، موضوع را تنظيم كرده و مزيتي بر مفاهيم ديگر دارند، مثلا اگر كاربر در “منطق (logic)” تايپ كند، پس “منطق” مفهوم بر “منطق model” ارجحيت دارد. 2/ مفاهيمي را ارائه مي دهيد كه يك تركيب يا تجانس را با موضوعي تقسيم مي‌كنند كه بر مفاهيم ديگري كه مولفه هاي موجود در ترتيبات ديگر را تقسيم مي كنند، ارجحيت دارند. 3/ مفاهيمي را ارائه دهيد كه با يكديگر در ارتباطند، مفاهيمي كه با مفاهيم ديگر موجود در درجات بالاتر، در ارتباطند.

اولين چيزي كه بايد سعي كنيم ، آنرا افزايش دهيم، به كارگيري ويژگيهاي نحوي اسناد و مدارك مي باشد. نتايج اصل از آزمايشات مرتبط سازي اتوماتيك ما نشان مي دهند كه ما بايد واژه‌هاي موجود در عناوين را بر واژه هاي موجود در يك بخش، ترجيح دهيم. متشابهاً ، واژه‌هاي پرسش موجود در نام مفهوم را بر واژه هاي موجود در توصيف و تشريح آن، ترجيح دهيم. امتشابهاً ، واژه هاي پرسشي موجود در نام مفهوم را بر واژه هاي موجود در توصيف و تشريح آن، ترجيح مي‌دهيم؛ در مورد قبلي، امتيازات دو برابر مي شوند . زماينكه سلسله مراتب مفهومي، پر از واژه هاي بسيار خاص باشد، تاثير ترتيب واچه مي‌تواند حتي در اين آزمايش، بيشتر از مرتبط سازي اتوماتيك باشد. بنابراين، ما سعي مي كنيم كه متد مشابهي مانند آزمايش را به كار بريم. زماينكه يك مفهوم داراي تركيب و تجانس است كه در پرسش نيز مطرح مي شودامتياز آنها را دو برابر مي كنيم زمانيكه نام مفهومي در واقع برابر و معادل با موضوع مي باشد، احتمال اينكه كاربر به مفهوم ديگري را توجه كند، وجود ندارد. بنابراين، با تكنيكي مشابه، با تكنيك قبل را به كار مي بريم. امتياز مفهوم را دو برابر مي كنيم.

نتايج اين تكنيكها در جدول 7 نشان داده مي شوند. با ارائه تعدادي از موضوعات ، نمي توانيم استنتاج كنيم كه پيشرفت چشمگيري حاصل شده است.

تنها مي‌توانيم با حدود 90% اطمينان بگوييم كه تفاوتي وجود ندارد./

حالا به پيشرفتهاي بيشتري در خط پايه مي پردازيم، پيشرفتهايي كه سعي دارند از معناهايي استفاده كننده كه توسط روابط موجود در سلسله مراتب مفهوم كدگذاري ميشوند. ما ، تنها در مورد استفاده از روابط Subclass-for, is-a صحبت مي كنيم. مفاهيم، اطلاعات را از والدهاي خود به ارث برده و آنها را به چند طريق، مشخص مي كنند؛ پرسش ها بايد تا حد امكان، دقيق پاسخگويي شوند: نه خيلي كلي و نه خيلي خاص، غالباً، مفاهيمي كه بيشترين امتياز را از يك طرح ارزشيابي مي گيرند، مفاهيم درستي هستند. اما گاهي، طبق شكل 5، پيچيدگيهاي بيشتري بوجود مي ‌آيد. در اينجا پرسش “رابطه معنايي” و مفهوم مورد نظر “رابطه مفهومي” مي‌باشد، اما تنها مفاهيمي كه داراي “رابطه معنايي هستند، فرزندان ”“رابطه مفهومي” مي باشندجهت بررسي اين مسئله ، فهرست مفاهيم ارائه شده توسط طرح ارزشيابي را مجددا به روشي درجه بندي مي كنيم كه مفاهيم مربوط به يكديگر ، نزديكتر باشند. اين امر، مفاهيمي را ايجاد مي‌سازد كه با مفهوم داراي امتياز بالا جهت نفع بردن از اين رابطه، توليد بوده و به درجات بالاتر مي‌روند. قوانين مورد استفاده ما در گروه بندي مفاهيم مربوطه به شرح زير هستند:

1/ هر مفهومي بايد زير والدينش قرار گيرد، اين مفهوم والد، نشان دهنده موقعيت مفهوم مي‌باشد.

2/ مفاهيم تنظيم كننده با والد مشابه بايد زيرآن را در مشترك قرار گرفته و با امتياز مربوط خودشان، مرتب شوند.

3/ هر زنجيره والد- فرزند مربوط به مفاهيم تنظيم كننده بايد در يك مفهوم تنظيم كننده به پايان برسند كه نشاندهنده وضعيت و موقعيت زنجيره است.

4/ دسته ها و گروههاي نامربوط ، به شكل يك توده بهم ملحق مي‌شوند، توسط ماكزيمم امتياز گروه، مرتب مي شوند.

5/ زمانيكه والدين داراي فرزندان مشابهي باشند/ بهم ملحق شده و به بيشترين امتياز مي‌رسند.

اين قوانين ، والدين را مجاز مي سازند كه از فرزندانشان سود ببرند و بالعكس، و آنها خواهران و برادران خود را مجاز مي سازند كه از خواهران و برادران داراي امتياز بالاتر ، سود ببرند.

جهات محدودسازي سايز گروهها و جهت مجاسازي يك گروه براي رفتن به درجات بالاتر، هر چيزي را كه پس از يك نقطه برش معيني قرار دارد، بركنار كرده و مفاهيم باقيمانده را گروه بندي مي كنيم. پس ازچند آزمايش ، عدد 10 را به عنوان نقطه برش انتخاب كرديم، البته مبتني بر تعداد ميانگين اسناد و مدارك مربوط به هر موضوع، بررسي پروسه بازيافت بعلاوه درجه بندي مجدد، در شكل 6 نشان داده مي شود. نتايج قوانين گروه بندي نزي در جدول 7 نشان داده مي شود. حتي با تعداد اندك پرسش ها ، مي توانيم استنتاج كنيم كه پيشرفت جزئي در امتيازات وجود دراد، البته زمانيكه از روابط مفهومي استفاده مي كنيم و تركيب كليه تكنيكها، پيشرفتها را توجيه مي كند، نشان مي دهد كه تكنيكهاي مجزا داراي مزايا و اثرات مجزايي هستند

3-5- نتيجه گيريها و مراحل ديگر

در حاليكه درجستجو يك سلسله مراتب مفهومي داراي ويژگيهاي خاصي است كه ممكن است به روش هاي IR خاصي نياز داشته باشد ، متوجه مي شويم كه تكنيكهاي بازيافت استاندارد، سطوح عملكرد قابل قبولي را ارائه مي دهند، اما پيشرفتهاي جزئي مي‌توانند با استفاده از ساختار سلسله مراتب مفهومي حاصل شوند ما معتقديم كه اين امر، تركيب بسيار جالبي از تكنيكهاي Semantic web و IR مي‌باشد. مراحل ديگر جهت ارتقاي جستجوي آنتولوژي ، مشتمل بر استفاده از روابط ديگر سلسله مراتب و استفاده از مدل‌هاي بازيافت شده مختلف مي باشند.

6- نتيجه گيري

ما از استخراج واژه اصلي مبتني بر تركيب و تجانس جهت ارائه مفاهيم جديد استفاده و در مورد ايجاد اتوماتيك روابط جهت اتوماتيك سازي پرسازي آنتولوژيها با مثال ها و نمونه ها مطالعه كرديم. مانندهاي تنظيم و پروژه كتابخانه ديجيتال مبتني بر آنتولوژي را ارزيابي كرديم. درهمان تنظيم، متدهاي بازيافتي را به هدف كمك به كاربران درجستجوي آنتولوژي به كار برده وفهميديم كه تركيب تكنيكهاي IR و درجه بندي مجدد حاصله مبتني بر سلسله مراتب اصلي مفهوم ،موثرترين و مفيدترين متد مي‌باشد.

بايد بگوئيم كه به استثناي متدهاي گروه بندي به كار رفته در بخش قبل، متدهاي IR مورد استفاده ما، عمدتاً متدهاي استانداردي هستند؛ بنابراين، كاربرد آنها در Semanic web، جديد مي‌باشد. متدها و نتايج ارائه شده در اين مقاله بايد به عنوان متدها و نتايج فراهم آوري خطوط پايه براي امور مربوط به خود، تفسير شوند. اعتقاد ما بر اين است كه متدهاي IR وجود دارند كه مي‌توانند كمكهاي بيشتري به ساخت آنتولوژيها و استفاده موثر از آنها ، ارائه دهند.

منبع : سايت علمی و پژوهشي آسمان -- صفحه اینستاگرام ما را دنبال کنید

منتظر نظرات خوب شما در زیر این مطلب هستیم

براي ديدن ساير اقدام پژوهي هاوگزارش تخصصي ها وتحقيقات ديگر برروي لينک هاي زيرکليک کنيد

برای سفارش تحقیق درخواستی کلیک کنید

ليست دسته بندي شده بيش از 450 اقدام پژوهي مناسب

بيش از 250 گزارش تخصصي ارزشيابي فرهنگيان

تجربیات ارتقای شغلی عالی و خبره فرهنگیان

معلم سایت - طرح درس - اقدام پژوهی - گزارش تخصصی

اینستاگرام ما را دنبال کنید

مي پسندم 0 نمي پسندم 0

اين مطلب در تاريخ: دوشنبه 10 اسفند 1394 ساعت: 11:34 منتشر شده است
برچسب ها : ساپورت بازيابي اطلاعات در مورد استفاده وساخت آنتولوژي (antology),