सूचना पुनर्प्राप्ति
सूचना पुनर्प्राप्ति (आईआर) सूचना प्रणाली संसाधनों को प्राप्त करने की गतिविधि है जो उन संसाधनों के संग्रह से एक सूचना की आवश्यकता के लिए प्रासंगिक हैं। खोज पूर्ण-पाठ या अन्य सामग्री-आधारित अनुक्रमण पर आधारित हो सकती हैं। सूचना पुनर्प्राप्ति एक दस्तावेज में जानकारी की खोज करने, स्वयं दस्तावेजों की खोज करने, और डेटा का वर्णन करने वाले मेटाडेटा, और ग्रंथों, छवियों या ध्वनियों के डेटाबेस के लिए खोज करने का विज्ञान है।
सूचना अधिभार कम करने के लिए स्वचालित सूचना पुनर्प्राप्ति प्रणाली का उपयोग किया जाता है। आईआर प्रणाली एक सॉफ्टवेयर प्रणाली है जो पुस्तकों, पत्रिकाओं और अन्य दस्तावेजों तक पहुंच प्रदान करती है; उन दस्तावेज़ों को संग्रहीत और प्रबंधित करता है। वेब खोज इंजन सबसे अधिक दिखाई देने वाले आईआर अनुप्रयोग हैं।
अवलोकन
उपयोगकर्ता द्वारा सिस्टम में एक प्रश्न दर्ज करने पर एक सूचना पुनर्प्राप्ति प्रक्रिया शुरू होती है। क्वेरी सूचना की जरूरतों के औपचारिक विवरण हैं। सूचना पुनर्प्राप्ति में एक क्वेरी संग्रह में एक भी वस्तु की विशिष्ट पहचान नहीं करती है। इसके बजाय, कई ऑब्जेक्ट क्वेरी से मेल खा सकते हैं, शायद प्रासंगिकता के विभिन्न डिग्री के साथ।
एक वस्तु एक इकाई है जिसे सामग्री संग्रह या डेटाबेस में जानकारी द्वारा दर्शाया जाता है। उपयोगकर्ता क्वेरी डेटाबेस जानकारी मिलान किया जाता हैं। हालाँकि, डेटाबेस के क्लासिक एसक्यूएल(SQL) प्रश्नों के विपरीत, सूचना पुनर्प्राप्ति में परिणाम लौटे या क्वेरी से मेल नहीं खा सकते हैं, इसलिए परिणाम आमतौर पर रैंक किए जाते हैं। परिणामों की यह रैंकिंग डेटाबेस खोज की तुलना में सूचना पुनर्प्राप्ति खोज का एक महत्वपूर्ण अंतर है। [1]
अनुप्रयोग के आधार पर डेटा ऑब्जेक्ट हो सकते हैं, उदाहरण के लिए, पाठ दस्तावेज़, चित्र,[2] ऑडियो,[3] मन के नक्शे[4] या वीडियो। अक्सर दस्तावेज़ को आईआर सिस्टम में सीधे नहीं रखा या संग्रहीत नहीं किया जाता है, बल्कि दस्तावेज़ सरोगेट्स या मेटाडेटा द्वारा सिस्टम में प्रतिनिधित्व किया जाता है।
अधिकांश IR सिस्टम एक संख्यात्मक स्कोर की गणना करते हैं कि डेटाबेस में प्रत्येक ऑब्जेक्ट क्वेरी से कितनी अच्छी तरह मेल खाता है, और इस मूल्य के अनुसार वस्तुओं को रैंक करता है। शीर्ष रैंकिंग ऑब्जेक्ट तब उपयोगकर्ता को दिखाए जाते हैं। यदि उपयोगकर्ता क्वेरी को परिशोधित करना चाहता है तो यह प्रक्रिया तब पुनरावृत्त हो सकती है। [5]
इतिहास
1945 में वननेवर बुश द्वारा As We May Think लेख में प्रासंगिक जानकारी के लिए खोज करने के लिए कंप्यूटर का उपयोग करने के विचार को लोकप्रिय बनाया गया था।[6] ऐसा प्रतीत होता है कि बुश 1920 के दशक में इमानुएल गोल्डबर्ग द्वारा दायर एक 'स्टैटिस्टिकल मशीन' के लिए प्रेरित हुए थे और 30 के दशक में - जिसने फिल्म पर संग्रहीत दस्तावेजों की खोज की थी। जानकारी के लिए खोज करने वाले कंप्यूटर का पहला विवरण 1948[7] में होल्मस्ट्रॉम द्वारा वर्णित किया गया था, यूनीवैक कंप्यूटर के प्रारंभिक उल्लेख का विवरण देते हुए। 1950 के दशक में स्वचालित सूचना पुनर्प्राप्ति प्रणाली शुरू की गई, 1957 की रोमांटिक कॉमेडी, डेस्क सेट में भी एक को चित्रित किया गया। 1960 के दशक में, कॉर्नेल में जेरार्ड सैलटन द्वारा पहली बड़ी सूचना पुनर्प्राप्ति अनुसंधान समूह का गठन किया गया था। 1970 के दशक तक कई अलग-अलग पुनर्प्राप्ति तकनीकों को क्रैनफील्ड संग्रह जैसे छोटे पाठसंग्रह पर अच्छा प्रदर्शन करने के लिए दिखाया गया था ।
1992 में, नेशनल इंस्टीट्यूट ऑफ स्टैंडर्ड्स एंड टेक्नोलॉजी,NIST के साथ अमेरिकी रक्षा विभाग ने TIPSTER पाठ कार्यक्रम के भाग के रूप में टेक्स्ट रिट्रीवल कॉन्फ्रेंस (TREC) को मंजूरी दी। इसका उद्देश्य बहुत बड़े पाठसंग्रह पर पाठ पुनर्प्राप्ति विधियों के मूल्यांकन के लिए आवश्यक बुनियादी ढांचे की आपूर्ति करके सूचना पुनर्प्राप्ति समुदाय को देखना था।
इसने बड़े कॉर्पोरा के पैमाने पर अनुसंधानों को उत्प्रेरित किया। वेब सर्च इंजनों की शुरूआत ने बहुत बड़े पैमाने पर पुनर्प्राप्ति प्रणाली की आवश्यकता को और अधिक बढ़ावा दिया है।
मॉडल के प्रकार
आईआर रणनीतियों द्वारा प्रासंगिक दस्तावेजों को प्रभावी ढंग से प्राप्त करने के लिए, दस्तावेजों को आम तौर पर एक उपयुक्त प्रतिनिधित्व में बदल दिया जाता है। प्रत्येक पुनर्प्राप्ति रणनीति में इसके दस्तावेज़ प्रतिनिधित्व उद्देश्यों के लिए एक विशिष्ट मॉडल शामिल है। दाईं ओर की तस्वीर कुछ सामान्य मॉडल के रिश्ते को दर्शाती है। चित्र में, मॉडल को दो आयामों के अनुसार वर्गीकृत किया गया है: गणितीय आधार और मॉडल के गुण।
पहला आयाम: गणितीय आधार
- सेट-थियोरेटिक मॉडल शब्दों या वाक्यांशों के समुच्चय के रूप में दस्तावेजों का प्रतिनिधित्व करते हैं। समानताएं आमतौर पर उन सेटों पर सेट-सिद्धांत संचालन से ली गई हैं।
- बीजगणितीय मॉडल आमतौर पर वैक्टर, मैट्रिस या ट्यूपल्स के रूप में दस्तावेजों और प्रश्नों का प्रतिनिधित्व करते हैं। क्वेरी वेक्टर और दस्तावेज़ वेक्टर की समानता को स्केलर मान के रूप में दर्शाया गया है।
- संभाव्य मॉडल एक संभावित संभाव्यता के रूप में दस्तावेज़ पुनर्प्राप्ति की प्रक्रिया का इलाज करते हैं। समानताओं की गणना संभाव्यता के रूप में की जाती है जो किसी दिए गए प्रश्न के लिए एक दस्तावेज प्रासंगिक है। इन मॉडलों में प्रायः बेय का सिद्धांत जैसे संभाव्य सिद्धांत का उपयोग किया जाता है।
- फ़ीचर-आधारित रिट्रीवल मॉडल दस्तावेज़ों को फ़ीचर फ़ंक्शंस (या सिर्फ फीचर्स) के वैक्टर के रूप में देखते हैं और इन विशेषताओं को एकल प्रासंगिकता स्कोर में संयोजित करने का सबसे अच्छा तरीका खोजते हैं, आमतौर पर रैंक विधियों को सीखकर। फ़ीचर फ़ंक्शंस दस्तावेज़ और क्वेरी के मनमाने कार्य हैं, और जैसे आसानी से लगभग किसी भी अन्य पुनर्प्राप्ति मॉडल को केवल एक अन्य सुविधा के रूप में शामिल किया जा सकता है।
दूसरा आयाम: मॉडल के गुण
- शब्द-अंतर्निर्भरता के बिना मॉडल विभिन्न शब्दों को स्वतंत्र मानते हैं। इस तथ्य को आमतौर पर वैक्टर मॉडल में शब्द वैक्टरों की ओर्थोगोनालिटी धारणा या शब्द चर के लिए एक स्वतंत्र धारणा द्वारा संभाव्य मॉडल में दर्शाया जाता है।
- आसन्न अवधि के अन्योन्याश्रितताओं वाले मॉडल शर्तों के बीच अन्योन्याश्रितताओं का प्रतिनिधित्व करते हैं। हालांकि दो शर्तों के बीच अन्योन्याश्रय की डिग्री मॉडल द्वारा ही परिभाषित की जाती है। यह आमतौर पर दस्तावेजों के पूरे सेट में उन शर्तों की सह-घटना से प्रत्यक्ष या अप्रत्यक्ष रूप से व्युत्पन्न होता है।
- ट्रान्सेंडेंट शब्द अन्योन्याश्रयता वाले मॉडल शर्तों के बीच अन्योन्याश्रितताओं का प्रतिनिधित्व करते हैं, लेकिन वे यह आरोप नहीं लगाते हैं कि दो शर्तों के बीच अन्योन्याश्रयता कैसे परिभाषित की जाती है। वे दो शर्तों के बीच अन्योन्याश्रय की डिग्री के लिए एक बाहरी स्रोत पर भरोसा करते हैं। (उदाहरण के लिए, एक मानव या परिष्कृत एल्गोरिदम।)
प्रदर्शन और शुद्धता माप
सूचना पुनर्प्राप्ति प्रणाली का मूल्यांकन यह आकलन करने की प्रक्रिया है कि कोई प्रणाली अपने उपयोगकर्ताओं की सूचना की जरूरतों को कितनी अच्छी तरह से पूरा करती है। सामान्य तौर पर, माप खोजे जाने वाले दस्तावेज़ों का एक संग्रह और एक खोज क्वेरी मानता है। पारंपरिक मूल्यांकन मेट्रिक्स, जिसे बूलियन रिट्रीवल या टॉप-K रिट्रीवल के लिए डिज़ाइन किया गया है, इसमें सटीकता और रिकॉल शामिल हैं। सभी उपाय प्रासंगिकता की जमीनी सत्य धारणा मानते हैं: प्रत्येक दस्तावेज़ को किसी विशेष प्रश्न के लिए प्रासंगिक या गैर-प्रासंगिक माना जाता है। व्यवहार में, प्रश्न बीमार हो सकते हैं और प्रासंगिकता के विभिन्न शेड हो सकते हैं।
प्रमुख सम्मेलन
- SIGIR: सूचना पुनर्प्राप्ति में अनुसंधान और विकास पर सम्मेलन
- ECIR: सूचना पुनर्प्राप्ति पर यूरोपीय सम्मेलन
- WWW: इंटरनेशनल वर्ल्ड वाइड वेब सम्मेलन
- ICTIR: सूचना पुनर्प्राप्ति के सिद्धांत पर अंतर्राष्ट्रीय सम्मेलन
क्षेत्र में पुरस्कार
यह भी देखें
- प्रतिकूल सूचना पुनर्प्राप्ति
- XML पुनर्प्राप्ति
- कंप्यूटर मेमोरी
- आँकड़ा खनन
- अंतरजाल खनन
- सूचना निकासी
- क्रॉस-भाषा की जानकारी पुनर्प्राप्ति
सन्दर्भ
- ↑ जानसेन, बी. जे., और रीह, एस. (2010). "सूचना खोज और सूचना पुनर्प्राप्ति के सत्रह सैद्धांतिक निर्माण" (PDF).
- ↑ गुडरम, एबी ए. (2000). "छवि सूचना पुनर्प्राप्ति: वर्तमान अनुसंधान का अवलोकन" सूचना विज्ञान.
- ↑ फूटे, जोनाथन (1999). "ऑडियो सूचना पुनर्प्राप्ति का अवलोकन " मल्टीमीडिया सिस्टम".
- ↑ बील, जोरान; गिप्प, बेला; स्टिलर, जान-ओलाफ (2009). "माइंड मैप्स पर सूचना पुनर्प्राप्ति - यह किसके लिए अच्छा हो सकता है?". सहयोगात्मक कम्प्यूटिंग पर 5 वें अंतर्राष्ट्रीय सम्मेलन की कार्यवाही: नेटवर्किंग, एप्लिकेशन और कार्य साझाकरण. मूल से पुरालेखित 13 मई 2011. अभिगमन तिथि 23 अगस्त 2020.सीएस1 रखरखाव: एक से अधिक नाम: authors list (link) सीएस1 रखरखाव: BOT: original-url status unknown (link)
- ↑ फ़्रेक्स, विलियम बी. बैजा-येट्स, रिकार्डो (1992). "सूचना पुनर्प्राप्ति डेटा संरचना और एल्गोरिदम". अप्रेंटिस-हॉल. मूल से पुरालेखित 28 सितंबर 2013. अभिगमन तिथि 23 अगस्त 2020.सीएस1 रखरखाव: एक से अधिक नाम: authors list (link) सीएस1 रखरखाव: BOT: original-url status unknown (link)
- ↑ सिंघल, अमित (2001). ""आधुनिक सूचना पुनर्प्राप्ति: एक संक्षिप्त अवलोकन"" (PDF). डेटा इंजीनियरिंग पर IEEE कंप्यूटर सोसायटी तकनीकी समिति के बुलेटिन।.
- ↑ जेई होल्मस्ट्रोम (1948). ""'धारा III. उद्घाटन सत्र"". रॉयल सोसाइटी वैज्ञानिक सूचना सम्मेलन, 21 जून -2 जुलाई 1948.
अग्रिम जानकारी
- रिकार्डो बैजा-येट्स, बर्थिएर रिबेरो-नेटो, आधुनिक सूचना पुनर्प्राप्ति: खोज के पीछे अवधारणा और प्रौद्योगिकी (दूसरा संस्करण) Archived 2017-09-18 at the वेबैक मशीन एडिसन-वेस्ले, यूके, 2011
- स्टीफन ब्युचर, चार्ल्स एल. ए. क्लार्क, और गॉर्डन वी. कोरमैक सूचना पुनर्प्राप्ति: कार्यान्वयन और खोज इंजन का मूल्यांकन Archived 2020-10-05 at the वेबैक मशीन एमआईटी प्रेस, कैम्ब्रिज, मैसाचुसेट्स, 2010
- क्रिस्टोफर डी. मैनिंग, प्रभाकर राघवन, और हेनरिक शुट्ज़े सूचना पुनर्प्राप्ति का परिचय सूकैम्ब्रिज यूनिवर्सिटी प्रेस, 2008