Ақпаратты іздеу моделдері

⇐ Предыдущая 1 234 Следующая ⇒

C={c₁,c₂,…,c_n} –жобалық репозитория онтологиясында қамтылатын ұғымдаржиыны болсын, K^c={k₁,k₂,…,k_m} –онтология ұғымдарын сипаттауға арналған кілттік сөздер жиыны болсын. Әрбір ұғым бірнеше кілттік сөздер жиынымен беріледі. Кілттік сөздер мен пән аясындағы ұғымдар арасында көптеген қарым-қатынастар бар: бір кілттік сөз ұғымның бірнеше сипаттамасына енуі мүмкін және бір ұғым бірнеше кілттік сөздер көмегімен беріледі. Онтология компоненті ретінде T={t₁,t₂,…,t_l} шешілетін тапсырмалар жиынтығын аламыз. Әрбір шешілетін тапсырма бір немесе бірнеше пән аясындағы ұғымдар санымен байланысты.

Осылайша, онтологияны кортеж түрінде көрсетуге болады:

(1)

Мұндағы O_c – онтологиядағы ұғымдар мен кілттік сөздер қатынасы, ал O_T – ұғымдар мен

Т шешілетін тапсырмалар қатынасы,

, (2)

мұндағы r_ij = 1, егер і –ші кілттік сөз сипаттамада қамтылады, әйтпесе r_ij=0, , .

Әрбір қатынас жолы (2) онтологиядағы кілттік сөзге сәйкес келеді, ал

бағана –онтология ұғымына сәйкес келеді. Ұғымдар мен шешілетін тапсырмалардың қатынасын келесідей жазамыз

Буль моделі

Бульдік модельде қолданушы сұранысты бульдік берілумен алуға болады ол үшін мына операторларды қолданамыз: И, ИЛИ, НЕТ. Сұраныс термасы нақты ақпаратты іздеуге байланысты. Бульдік модельдер көбіне мәтін бойынша іздеуге негізделген және термалар сөздер тізбегі болып табылады. Бульдік модельде классификатор бойынша іздеуде термалар классификаторындағы кластар ндентификаторы. Дублиндік ядроны қолданған бульдік іздеу модельінде термалар элементтер мәні болып табылады. Құжат берілген сұраныспен бірдей элементтерден турса онда оны релевантты құжат деп атаймыз. Бульдік модельдің жетістігі деп оның қарапайым түрде орындалуын айтамыз. Бірнеше кері жағдайлары да бар. 1. Релеванттық дәрежесіне сәйкес табылған құжаттың топталуының жоқтығы, сонымен қатар бағалау критерииі жоқ. 2. Қолданудың күрделілігі- әр қолданушы бульдік операторларымен өз сұраныстарында жұмыс істей алмайды. Қолданушыға ққұжаттарды топтастырылған түрде беру үшін бульдік іздеу модельін күрделендіру жүргізілді. Бульдік модельдердің жетілдірілген түрі көрсетілді. Бұл модельдеуде жетілдірілген бульдік операторлар енгізілген. Бұл Бүльдік сұраныстардың құқжатқа сәйкестендірудің бірден – бір жолы.

Векторлық модель

Векторлық модель 1968 жылы Джерард Солтон (Gerard Salton) ақпараттық іздеу туралы ғылымның негізін салушымен SMART (Salton's Magical Automatic Retriever of Text) іздеу жүйесінде жүзеге асырылды. Бұл модельде ранжирлеу табиғи статистикалық бақылауға негізделген, құжаттағы терминнің жиілігі (TF) көп болған сайын және жиынтықта (IDF)терминнің «жиі кездесуінен» (құжатта керісінде кездесуі) терминге қатысты алынған құжат салмағының жоғарылығын көрсетеді. IDF белгісін Karen Sparck-Jones 1972 жылы мақаласында енгізген. Осы уақыттан бастап TF*IDF векторлық модельдің синонимі ретінде қолданылып келеді. Соңында 1977 жылы Roberts on және Sparck-Jones ықтималдық модельді негіздеді және жүзеге асырды. Бұл модельде релеванттылық аталған құжат тың пайдаланушыға қызықты болуы ықтималдылығы ретінде қарастырылады. Мұнда пайдаланушы таңдаған релевантты құжаттардың алдыңғы жиынтығының болуы немесе алдын-ала автоматты алынған ұсыныстың болуы маңызды.

Ықтималдық моделі

Ықтималдықтар модель. Бұл модель туралы ой 1960ж. қарастырылған. Мұнда әр түрлі ықтималдықта құжаттарды топтастыру жатады. Бұл принцип келесі жолмен жұмыс іздейді. Нақты сұранысты іздеу жоғары деңгейде болады, тек алынған құжаттар азаю ықтималдығы орындалғанда жүргізілсе. Ол үшін әрбір құжат үшін келесі ықтималдық орындалу керек немесе сұранысқа сәйкес келу керек, содан кейін алынған баға бойынша құжаттар топтастырылады. Бұл бағаларды алудың бірнеше жолы бар. Мысалы мына баға Байес теоремасы бойынша есептелуі мүмкін. Кез келген функциялар бойынша берілген құжатқа термалардың енгізілуі әр түрлі ықтималдықта.

Нетиже алу желісі. Бұл жерде ықтималдықтар модельіндегідей алынған құжаттардың ықтимал түрінде топтастыру принципі орындалады. Негізгі ықтималдықтар модельінен айырмашылығы, құжаттың сұранысқа сәйкес келу бағасында емес, қоолданушылардың алынған ақпаратқа толық жеткендігі. Нәтижені алу желісі Байесовский желісі арқылы орындалады және тұрт түрлі бағыты бар. Бірінші бағыт түрі-ол құжаттар коллекциясы, бұл іздеу барысында қолданушылароқып білген. Екінші бағыт түрі – құжат мазмұнымен орындалатын термалар. Үшінші бағыт түрі- сұраныстардан тұрады. Төртінші бағыт түрі тек біреу болады,және ол қолданушы арқылы орындалады.1және 2 бағыт түрлері берілген коллекцияға алдын ала белгілі болады.3 және 4 бағыт түрі әр сұраныспен орындалады. Желі қалай орындалса, коллекциядағы құжаттар бағаланады. Әр бағыт түрі қайталанып отыру арқылы құжаттар топтвстырылады.

Кездейсоқ қате моделі.

1977 жылы Робертсон (Robertson) мен Спарк-Джоуонз (Spark Jones) ықтималдық моделін ойлап тапты және оны дәлелдеп шықты. Бұл аталған құжат моделдің релеванттығы тұтынушыға қызық болып көрінуі мүмкін. Сонымен қатар, қолданушылармен немесе қандайда бір алғашқы релеванттық құжаттар жинағының барлығын ұмытпауымыз жөн. Алғашқы релеванттық құжаттар қолданушылармен немесе қандайда бір жеңілдетілген болжаммен автоматты түрде алынған . Кезекті әр құжатқа релевантты ықтималдық дәлелі болуға релеванттық жинағы мен коллекцияның басқа бөлімдеріндегі термдердің өзара қатынасы негізделеді.

Құжат деп, құжаттардағы тіркелмеген сөздердің құжаттардағы кездесу жиілігінің көптігі ретінде айтамыз.

Сондай-ақ, оларды қарапайым булевтік вектор түрінде көптеп ұсынуға болады. Барлық термдердің мөлшері-n, ал di –ді көбейту мағанасында қабылдауға болады. Көп сөздерді сұрау деп ойлайық.

Сұрау бойынша тиісті құжаттарды келесі тәсілмен құрамыз: әр тіркелген сұрау үшін бізде барлық құжаттардың релеванттыболуы және релевантсыз болуын сұрау бойынша бөлу мүмкіндігі бар.

Бұның түсінік сәйкестігі және мағанасын береді. Сонда, функция сәйкестігін осы екі көбейтулер қатынасын көбейту арқылы есептейміз.

⇐ Предыдущая 1 234 Следующая ⇒

Эта страница нарушает авторские права

allrefrs.su - 2025 год. Все права принадлежат их авторам!