प्राकृतिक भाषा संसाधन

प्राकृतिक भाषा संसाधन (एनएलपी) कम्प्यूटर विज्ञान, कृत्रिम बुद्धि तथा भाषा विज्ञान का एक क्षेत्र है तथा मानव (प्राकृतिक) भाषाओं और कंप्यूटर के अन्तःक्रियाओं से सम्बन्धित है।^[1] प्राकृतिक भाषा संसाधन, कम्प्यूटर के द्वारा, मानव द्वारा कही या लिखी भाषा से अर्थ निकालने का काम करता है। इसके अलावा प्राकृतिक भाषा का सृजन (लिखित या वाचित रूप में) करने के लिए भी एनएलपी प्रयुक्त होता है।

चुनौती

कम्प्यूटर द्वारा प्राकृतिक भाषा संसाधन करने में प्रमुख कठिनाइयाँ हैं-

संदिग्धता : मानव भाषाओं में विभिन्न भाषिक स्तरों पर संदिग्धता पाई जाती है, जैसे- शब्द स्तर पर एक शब्द का एक से अधिक शब्दवर्गों में प्रयोग, जैसे - 'सोना' शब्द संज्ञा भी है और क्रिया भी।
शब्दों के आरम्भ और अन्त का सही पता लगाने की समस्या - बोली गयी भाषा में प्रायः शब्दों की सीमा का ठीक -ठीक निर्धारण करना कठिन होता है। कुछ लिखित भाषाओं (जैसे मन्दारिन) में शब्दों के बीच जगह नहीं छोड़ी जाती जिससे शब्दों की सीमा का ठीक से पता करना और उन्हें अलग करना कठिन है।
गलत आंकड़े - इसके अलावा शब्दों के टंकण की गलती, गलत वर्तनी, गलत उच्चारण, ओसीआर से प्राप्त टेक्स्ट में गलती आदि से भी सही शब्दों का पता नहीं चल पाता।

प्रक्रिया

मार्फोलोजिक विश्लेषण
सिन्टैक्टिकल विश्लेषण
सिमैन्टिक विश्लेषण
प्रैग्मटिक विश्लेषण - सन्दर्भ आदि का ध्यान रखना
वाक्य की योजना बनाना
वाक्यनिर्माण

प्रमुख अनुप्रयोग

कुछ महत्वपूर्ण प्राकृतिक भाषा संसाधन ये हैं-

मशीनी अनुवाद
पाठ सरलीकरण
सूचना निष्कर्षण (इन्फार्मेशन इक्सट्रैक्सन)
सारांशीकरण (summerization)
प्रश्नों के उत्तर देना
संगणकीय भाषाविज्ञान
डाटा खनन (डेटा माइनिंग)
प्राकृतिक भाषा को समझना
अनचाहे मेल (स्पैम) के विरुद्ध संघर्ष

इन्हें भी देखें

बाहरी कड़ियाँ

सन्दर्भ

↑ Charnia, Eugene: Introduction to artificial intelligence, page 2. Addison-Wesley, 1984.

[1] Charnia, Eugene: Introduction to artificial intelligence, page 2. Addison-Wesley, 1984.

[1]

प्राकृतिक भाषा संसाधन (Natural language processing)
General terms	पाठ संग्रह (Text corpus) वाक् संग्रह (Speech corpus) विराम शब्द (Stopwords) Bag-of-words AI-complete n-gram (Bigram, Trigram)
पाठ खनन (Text mining)	Text segmentation Part-of-speech tagging Text chunking Compound term processing Collocation extraction Stemming Lemmatisation Named-entity recognition Coreference resolution Sentiment analysis Concept mining Parsing Word-sense disambiguation Terminology extraction Truecasing
Automatic summarization	Multi-document summarization Sentence extraction Text simplification
Machine translation	Computer-assisted Example-based Rule-based
Automatic identification and data capture	Speech recognition वाक् संश्लेषण Optical character recognition Natural language generation
Topic model	Pachinko allocation Latent Dirichlet allocation Latent semantic analysis
Computer-assisted reviewing	Automated essay scoring Concordancer Grammar checker Predictive text Spell checker Syntax guessing
Natural language user interface	Automated online assistant Chatbot Interactive fiction Question answering