रेग्युलर ऍक्सप्रैशन
नियमित व्यंजक या रेग्युलर ऍक्सप्रैशन कम्प्यूटिंग में स्ट्रिंग्स की खोज (find) या खोजो-और-बदलो (find and replace) के लिए संक्षिप्त, लचीला और सुविधाजनक तरीका है। उदाहरण के लिये कम[लर] खोजने पर यह कमल को भी खोजेगा और कमर को भी। रेग्युलर ऍक्सप्रैशन को regex या regexp के रूप में संक्षेपित किया जाता है।
रेग्युलर ऍक्सप्रैशन का प्रयोग कई प्रोग्रामन भाषाओं में करना सम्भव है (जैसे जावास्क्रिप्ट में) इसके प्रयोग से एक ही लाइन में बहुत बड़ी बात कही या लिखी जा सकती है जिससे प्रोग्राम छोटा और सुवाच्य (वाचने में सरल) हो जाता है। जो प्रोग्रामर नहीं हैं उनके लिये यह 'फाइण्ड ऐण्ड रिप्लेस' के रूप में इसका बहुत उपयोग है।
निम्नलिखित उदाहरण कुछ ऐसी विशेषताओं को स्पष्ट करते हैं, जिन्हें रेग्युलर ऍक्सप्रैशन में अभिव्यक्त किया जा सके:
- "car" वर्णक्रम किसी भी सन्दर्भ में, जैसे कि, "car", "cartoon", अथवा "bicarbonate"
- "car" शब्द जब पृथक प्रकट होता है
- "car" शब्द जब "blue" या "red" से पहले आता है
- जब डॉलर चिह्न के बाद एक या अधिक संख्याएं आती हैं और तब जब एक वैकल्पिक अवधि एवं दो अधिक संख्याओं के बाद आती है
रेग्युलर ऍक्सप्रैशन इन उदाहरणों से भी अधिक जटिल हो सकते हैं: रेग्युलर ऍक्सप्रैशन के प्रयोग कई पाठ संपादकों द्वारा उपयोगिता एवं भाषाओँ की प्रोग्रामिंग में पैटर्न पर आधारित मूल पाठ की खोज और उसमें मनचाहे बदलाव के लिए किया गए हैं। उदाहरण के लिए, Perl, Ruby और Tcl सशक्त रेग्युलर ऍक्सप्रैशन इंजिन उनके वाक्य विन्यास में बना हुआ है। Unix वितरणों के द्वारा प्रदत्त अनेक उपयोगिताएं -- संपादक ed एवं फिल्टर grep—रेग्युलर ऍक्सप्रैशन की अवधारणा को लोकप्रिय बनाने में सर्वप्रथम थे।
वाक्य रचना के एक उदाहरण के रूप में, रेग्युलर ऍक्सप्रैशन \bex
का प्रयोग "शब्द सीमाओं" (\b
द्वारा संकेतित) के बाद आने वाले "ex " स्ट्रिंग के सभी उदाहरणों की खोज के लिए हो सकता है। अल्पज्ञों की शब्दावली में, \bex
अपने से मिलता जुलता स्ट्रिंग "ex" को दो संभावित क्षेत्रों में खोज लेगा, शब्दों के आरंभ में और एक स्ट्रिंग में दो वर्णों के बीच में, जिसमें से एक तो शब्द वर्ण है और दूसरा शब्द वर्ण नहीं है। इस प्रकार, स्ट्रिंग में "Texts for experts", \bex
"एक्सपर्ट्स" में तो "ex " के साथ मेल खाता है, लेकिन "Texts" में मेल नहीं खाता (क्योंकि "ex " एक शब्द की सीमा में आ जाता है न कि शब्द सीमा के तुंरत बाद).
कई आधुनिक कम्प्यूटिंग प्रणालियां एक फाइल सिस्टम से फाइलनेम्स के साथ मेल खिलाने के लिए वाइल्डकार्ड वर्ण उपलब्ध कराती हैं। यह कई कमांड-लाइन शेल्स की आभ्यंतर क्षमता है, जिसे ग्लोबिंग के रूप में भी जाना जाता है। वाइल्डकार्ड आमतौर पर रेग्युलर ऍक्सप्रैशन से केवल विकल्पों को सीमित रूप में सूचित करने के मामले में भिन्न है।
रेग्युलर ऍक्सप्रैशन के उपयोग
- वेब-खोज में
- शब्द-संसाधन (Word processing) - खोजने (find) और बदलने (Replace) के लिये
- किसी डेटाबेस में क्षेत्रों की वैधता की जाँच के लिये (Validate fields in a database ; dates, email addr, URLs)
- किसी कॉर्पस (corpus) में किसी भाषायी पैटर्न (linguistic patterns) की खोज करना
- वर्ग पहेली के निर्माण एवं उसके हल में रेगुलर एक्सप्रेशन का उपयोग किया जा सकता है।
- तुकान्त शब्द खोजने में - जैसे किसी कवि को पाँच वर्ण वाला कोई शब्द चाहिये जिसके अन्त में 'सी' हो, तो इसके लिये वह रेगुलर एक्सप्रेशन की सहायता ले सकता है।
रेग्युलर ऍक्सप्रैशन वाक्य विन्यास की उत्पत्ति में उपयोगी हैं जो प्रणालियों को उजागर करते हैं, जैसे कि डेटा सत्यापन और कई अन्य कार्यों के निष्पादन में.
रेग्युलर ऍक्सप्रैशन खोज इंजन के लिए उपयोगी होगा जैसे Google, Bing या Yahoo! Search में तो संपूर्ण डेटाबेस से होकर गुजरते हुए प्रोसेसिंग करना जटिलता और रिजेक्स की डिजाइन को देखते हुए अधिक कम्प्यूटर संसाधन खर्च करना होगा। हालांकि कई स्थितियों में सिस्टम प्रशासक रिजेक्स आधारित आंतरिक प्रश्नों को चला सकता है, अधिकतर सर्च इंजन लोगों को रिजेक्स की सहायता उपलब्ध नहीं कराते. एक उल्लेखनीय अपवाद गूगल कोड सर्च है।
आधारभूत अवधारणाएं
रेग्युलर ऍक्सप्रैशन, जिसे प्रायः पैटर्न भी कहा जाता है, एक ऐसा सूचक है जो स्ट्रिंग्स के एक सेट के बारे में विस्तार से बतलाता है। उनका उपयोग आमतौर पर तत्वों की सूची बनाए बिना सेट के बारे में संक्षेप में बताने के लिए होता है। उदाहरण के लिए, 'सेट' जिसमें तीन स्ट्रिंग्स होते हैं "Handel ", "Händel " और "Haendel " को H(ä|ae?)
ndel
के पैटर्न के रूप में वर्णित किया जा सकता है (या वैकल्पिक रूप से, ऐसा कहा जाता है कि पैटर्न तीन में से प्रत्येक स्ट्रिंग के साथ मेल खाते हैं). अधिकतर आकारवादों (श्रृंखलाओं) में अगर कोई रिजेक्स किसी खास सेट के साथ मेल खाता है तो यह जान लेना चाहिए कि ऐसे सूचकों की अनंत संख्या है। अधिकांश आकारवाद निम्नलिखित क्रियाओं के लिए रेग्युलर ऍक्सप्रैशन बनाती हैं।
- बूलियन "or"
- एक लम्बवत् बार विकल्पों को विभाजित करता है। उदाहरण के लिए,
gray
|grey के साथ "gray " या "grey " मेल खाता है।
- समूहीकरण
- कोष्ठकों का प्रयोग प्रचालकों (जो दूसरे प्रकार से व्यवहार में हैं) उनके उद्देश्य और वरीयता को परिभाषित करने के लिए किया जाता है। उदाहरण के लिए,
gray
|grey और gr(a|e)y
समरूप पैटर्न्स हैं, जो "gray " और "grey " दोनों ही सेट को वर्णित करते हैं।
- परिमाणन
- टोकन के बाद एक परिमाणन (जैसी कि एक वर्ण) अथवा ग्रुप यह निर्दिष्ट करता है कि पिछले तत्वों को कितनी बार उसमें आने की अनुमति दी गई है। सबसे आम परिमाणक हैं: प्रश्नवाचक चिह्न
?
, तारक चिह्न*
(क्लीन तारे से व्युत्पन्न) और जोड़ का चिह्न+
.
? | प्रश्नवाचक चिह्न पूर्ववर्ती तत्व के शून्य या एक को सूचित करता है। उदाहरण के लिए, colou? r "color " और "colour " दोनों से ही मेल खाता है। |
* | तारक चिह्न पूर्ववर्ती तत्वों के शून्य या अधिक को सूचित करता है। उदाहरण के लिए, |
+ | जोड़ का चिह्न सूचित करता है कि एक अथवा एक से अधिक पिछले तत्व हैं। उदाहरण के लिए, ab+c "abc ", "abbc ", "abbbc " और इसी प्रकार से मेल खाता है, लेकिन "ac " से नहीं. |
इन बनावटों को मनमाने ढंग से जटिल सूचकों के गठन के लिए एक साथ जोड़ दिया जा सकता है, ठीक उसी तरह जिस तरह कोई अंकगणितीय सूचकों का गठन संख्याओं एवं संक्रियाओं +, −, × और ÷ से कर सकता है। उदाहरण के लिए, H(ae?
|ä)ndel
एवं H(a|ae|ä)ndel
दोनों ही प्रामाणिक पैटर्न हैं, जो पिछले उदाहरण की ही तह समान स्ट्रिंग्स के साथ मेल खाता है, वह पिछला उदाहरण है H(ä|ae?)
ndel
.
रेग्युलर ऍक्सप्रैशन के लिए सटीक वाक्य-विन्यास उपकरणों और संदर्भ के साथ बदलते रहते हैं; अधिक विवरण "वाक्य-विन्यास" खंड में दिया गया है।
इतिहास
रेग्युलर ऍक्सप्रैशन की जड़ें ऑटोमेटा सिद्धांत एवं औपचारिक भाषा सिद्धांत में निहित हैं, दोनों ही सैद्धांतिक कंप्यूटर विज्ञान के अंग हैं। ये क्षेत्र प्रशिक्षण कंप्यूटेशन (ऑटोमेटा) एवं औपचारिक भाषाओं के वर्णन एवं वर्गीकरण की पद्धतियों के मॉडल हैं। 1950 के दशक में, गणितज्ञ स्टीफेन कोल क्लीन ने अपने गणितीय संकेतन का प्रयोग करते हुए इन मॉडलों का सविस्तार वर्णन किया, जिसे रेगुलर सेट्स[1] कहते हैं। SNOBOL की भाषा पैटर्न मिलान कराने का आरंभिक उपकरण था, लेकिन रेग्युलर ऍक्सप्रैशन के सदृश नहीं. केन थॉम्पसन ने टेक्स्ट फाइल्स में पैटर्न्स के मिलान कराने के माध्यम के रूप में क्लीन के संकेतन का उपयोग संपादक QED के गठन में किया। बाद में उन्होंने Unix संपादक ed में इस क्षमता को जोड़ा, जिसने अंततः रेग्युलर ऍक्सप्रैशन के उपयोग के लिए लोकप्रिय खोजी उपकरण ग्रेप का पता लगाया ("grep" शब्द रेग्युलर ऍक्सप्रैशन ed संपादक की खोज के कमांड से लिया गया है g/re/p
जिसमें re रेग्युलर ऍक्सप्रैशन का द्योतक है[2]). समयांतराल से, रेग्युलर ऍक्सप्रैशन के थॉम्पसन के मौलिक रूपांतर में कई बदलाव आए हैं, जिनका व्यापक प्रयोग Unix और Unix जैसी ही प्रयोज्यता, expr, AWK, Emacs, vi और lex सहित हुआ है।
Perl और Tcl रेग्युलर ऍक्सप्रैशन हेनरी स्पेंसर लिखित रिजेक्स लाइब्रेरी से ली गई थीं, हालांकि Perl को स्पेंसर की लाइब्रेरी में अनेक नई विशेषताएं जोड़ने के लिए प्रसारित किया गया।[3]फिलिप हेज़ेल ने PCRE (पर्ल कम्पैटिबल रेग्युलर ऍक्सप्रैशन) को विकसित किया, जो पर्ल की रेग्युलर ऍक्सप्रैशन की कार्यशीलता की लगभग नकल करने की कोशिश करता है, एवं अनेक आधुनिक उपकरणों PHP और Apache HTTP Server के द्वारा प्रयोग में लाया जाता है। Perl 6 की डिज़ाइन की प्रचेष्टा का एक हिस्सा पर्ल के रेग्युलर ऍक्सप्रैशन के एकीकरण में सुधार तथा उनके कार्यक्षेत्र एवं क्षमताओं को बढ़ाना ताकि सूचकों की पदव्याख्या के व्याकरण[4] को परिभाषित करने का मौका दिया जा सके. परिणामस्वरूप एक लघु भाषा Perl 6 नियम बनी, जिसका प्रयोग Perl 6 ग्रामर को परिभाषित करने और साथ ही साथ भाषा में प्रोग्रामर्स के लिए उपकरण मुहैया कराने के लिया होता है। ये नियम पर्ल 5.x रेग्युलर ऍक्सप्रैशन की विशेषताओं को कायम रखते हैं, लेकिन उप-नियमों के द्वारा पुनःप्रवाही सुंदर पद व्याख्या की BNF-शैली की परिभाषा को भी अनुमति प्रदान करते हैं।
दस्तावेज़ और डाटाबेस मॉडलिंग के लिए संरचित सूचना मानकों में रेग्युलर ऍक्सप्रैशन का प्रयोग 1960 के दशक में आरंभ हुआ और 1980 के दशक में फैल गया, जब ISO SGML (ANSI "GCA 101-1983" द्वारा पूर्व आरोपित) उद्योग मानक समेकित हुए. भाषा मानकों में संरचना की सुस्पष्टता के केंद्र में रेग्युलर ऍक्सप्रैशन हैं। समूह वाक्य विन्यास में DTD तत्व का सरल उपयोग स्पष्ट है।
पैटर्न मिलान: इतिहास भी देखें
औपचारिक भाषा सिद्धांत
परिभाषा
रेग्युलर ऍक्सप्रैशन को औपचारिक भाषा सिद्धांत के रूप में परिभाषित किया जा सकता है। रेग्युलर ऍक्सप्रैशन में स्थिरांक और ऑपरेटर्स होते हैं, जो स्ट्रिंग्स के सेट्स इन सेटों पर क्रियाशीलताओं को क्रमशः सूचित करते हैं। निम्नलिखित परिभाषा मानक है और औपचारिक भाषा सिद्धांत की अधिकांश पाठ्य पुस्तकों में पायी जाती है[5][6]. एक सीमाबद्ध वर्णमाला Σ को देखते हुए निम्नलिखित स्थिरांकों की परिभाषा दी गई है:
- सेट ∅ को संकेतित करते हुए (empty set)∅
- ε "empty" स्ट्रिंग को संकेतित करते हुए (empty string), बिलकुल बिना वर्ण के.
- भाषा में वर्ण को संकेतित करते हुए Σ (literal character) में a .
निम्नलिखित संक्रियाएं परिभाषित हैं:
- (संयोजन) RS जो सेट { αβ
| α in R and β in S } को संकेतित करता है। उदाहरण के लिए {"ab", "c"}{"d", "ef"} = {"abd", "abef", "cd", "cef"}.
- (प्रत्यावर्तन) R
| S जो R और S के गठबंधन को संकेतित करता है। उदाहरण के लिए {"ab", "c"}|{"ab", "d", "ef"} = {"ab", "c", "d", "ef"}.
- (क्लीन तारा) R * R के सबसे छोटे अतिरिक्त सेट जिसमें ε है और जो स्ट्रिंग के अदंर बंद है, उसे संकेतित करता हुआ। यह सभी स्ट्रिंग्स का सेट है, जिसे जीरो अथवा R में अधिक स्ट्रिंग्स के संयोजन से बनाया जा सकता है। उदाहरण के लिए, {"ab", "c"}* = {ε, "ab", "c", "abab", "abc", "cab", "cc", "ababab", "abcab", ... }.
कोष्ठकों से बचने के लिए यह मान लिया गया है कि क्लीन तारा को ही सर्वोच्च प्राथमिकता प्राप्त है और इसके बाद संयोजन और तब जाकर सेट गठबंधन को. अगर कोई संशय नहीं है तो कोष्ठकों का लोप हो सकता है। उदाहरण के लिए, (ab)c
को abc
और a|(b(c*))
को a|bc*
जैसा भी लिखा जा सकता है। कई पाठ्य पुस्तकों में लंबरूप बार के बदले संयोजन के लिए ∪, +, या ∨ चिह्नों का प्रयोग मिलता है।
उदाहरण:
a
|b* {ε, {0}a, b, bb, bbb, ...} को संकेतित करता है।
(a
|b)* खाली स्ट्रिंग: {ε, {0}a, b, aa, ab, ba, bb, aaa, ...} समेत a और b के अलावा बिना प्रतीक चिह्नों के सभी स्ट्रिंग के सेट को संकेतित करता है।
ab*(c
|ε) a से आरंभ कर स्ट्रिंग्स के सेट को, तब जीरो अथवा अधिक b s और अंत में विकल्प के साथ a c : {{0}a, ac, ab, abc, abb, abbc, ...} को संकेतित करता है।
सूचक शक्ति और सुसंहति
रेग्युलर ऍक्सप्रैशन की औपचारिक परिभाषा जानबूझकर किफायती है और अनावश्यक परिमाणक ?
से बचने के लिए तथा +
, जिसे : a+
= aa*
और a?
= (a|ε)
के रूप में व्यक्त किया जा सकता है। कभी-कभी पूरक ऑपरेटर को जोड़ा जाता है; Rc Σ* पर सभी स्ट्रिंग्स के सेट को जो R c में नहीं हैं, संकेतित करते हैं। नियमतः पूरक ऑपरेटर अनावश्यक है, जैसा कि दूसरे ऑपरेटरों का उपयोग कर इसे सीमित किया जा सकता है। हालांकि, ऐसे निरूपण कम्प्यूटिंग प्रक्रिया जटिल है और इसके परिणाम को ऐसे आकार के सूचकों की आवश्यकता पड़ सकती है जो घातांकी रूप से दोगुने बड़े हैं[7][8].
इस अर्थ में रेग्युलर ऍक्सप्रैशन सुव्यवस्थित भाषा को सूचित कर सकते हैं, ठीक-ठीक भाषा की ऐसी श्रेणी जो नियमात्मक परिमित ऑटोमेटा के द्वारा स्वीकृत है। हालांकि फिर भी सुसंहति में एक उल्लेखनीय अंतर है। सुव्यवस्थित भाषाओँ की कुछ श्रेणियों को नियमात्मक परिमित ऑटोमेटा द्वारा वर्णित किया जा सकता है, जिसका आकार घातांकी रूप से सबसे छोटे रेग्युलर ऍक्सप्रैशन के समकक्ष बढ़ जाता है। भाषाएं ही यहां मानक उदाहरण हैं। Lk वर्ण {{0}a,b } पर जिसका अंतिम अक्षर k a की बराबरी अपने सभी स्ट्रिंग्स सहित करता है। एक ओर, L 4 को वर्णित करने वाले रेग्युलर ऍक्सप्रैशन दिया हुआ है। इस पैटर्न को Lk में सामान्यीकरण सूचक देता है
दूसरी ओर, यह विदित है कि Lk भाषा को स्वीकार करता हुआ नियातात्मक परिमित ऑटोमेटन के पास कई स्थितियों में कम से कम 2k के होना जरूरी है। भाग्यवश, रेग्युलर ऍक्सप्रैशन से अधिक आम अनियतात्मक परिमित ऑटोमेटा (NFAs) तक सरल मानचित्रण है, जो अचानक इतना बड़ा विस्फोटक आकार ग्रहण नहीं कर लेता; यही कारण है कि NFAs को अक्सर सुव्यवस्थित भाषाओँ के वैकल्पिक निरूपण के रूप में इस्तेमाल किया जाता है। NFAs चोम्स्की अनुक्रम के टाइप-3 ग्रामर्स के सरल परिवर्तन हैं[5].
अंत में, यह ध्यान देने योग्य बात है कि वास्तव जगत में अनेक रेग्युलर ऍक्सप्रैशन इंजिन ऐसी विशेषताओं को लागू करते हैं, जिसे रेग्युलर ऍक्सप्रैशन के द्वारा औपचारिक भाषा सिद्धांत के अर्थ में वर्णित नहीं किया जा सकता; इस विषय पर अधिकाधिक जानकारी के लिए नीचे देखें.
रेग्युलर ऍक्सप्रैशन की निर्णायक तुल्यता
जैसा कि उदाहरणों को देखने से पता चलता है, विभिन्न रेग्युलर ऍक्सप्रैशन उसी भाषा को अभिव्यक्त कर सकते हैं: रीतिवाद अनावश्यक है।
कलनविधि में लेखन संभव है जो दिए गए रेग्युलर ऍक्सप्रैशन के मध्य यह निर्णय करने के लिए कि उल्लिखित भाषाएं अनिवार्य रूप से एक समान हैं कि नहीं. यह प्रत्येक अभिव्यक्ति को न्यूनतम नियतात्मक परिमित स्थिति मशीन की हद तक कम कर देता है और निर्धारित करता है कि क्या वे समाकृतिक (एक ही आकार के) समकक्ष हैं या नहीं.
इस अनावश्यकता को किस हद तक निकाल दिया जा सकता है? क्या हम रेग्युलर ऍक्सप्रैशन का एक रोचक सबसेट खोज सकते हैं जो पूरी तरह सूचक हो? क्लीन तारा और सेट का गठबंधन स्पष्टतः आवश्यक है, लेकिन शायद हम उनके प्रयोग पर रोक लगा सकते हैं। यह आश्चर्यजनक रूप से कठिन समस्या में बदल सकता है। रेग्युलर ऍक्सप्रैशन इतने सरल हैं कि उन्हें किसी भी रूप में पुनः सुव्यवस्थित ढंग से लिखने की कोई प्रणाली है ही नहीं. अतीत में स्वतः प्रमाणन के अभाव में स्टार हाइट की समस्या खड़ी हो गई। हाल ही में, डेक्सटर कोज़ेन में रेग्युलर ऍक्सप्रैशन को क्लीन के बीजगणित[9] के साथ स्वतः प्रमाणित कर दिया.
वाक्य-विन्यास
POSIX
POSIX बेसिक रेग्युलर ऍक्सप्रैशन
पारंपरिक Unix रेग्युलर ऍक्सप्रैशन वाक्य-विन्यास ने आम परिपाटी का अनुसरण नहीं किया, लेकिन एक उपकरण से दूसरे उपकरण में अक्सर अंतर रहता था। IEEE POSIX बेसिक रेग्युलर ऍक्सप्रैशन (BRE) मानक (इसके साथ ही साथ एक वैकल्पिक मजेदार वैशिष्ट्य रिलीज़ किया, जिसे विस्तारित रेग्युलर ऍक्सप्रैशन या ERE कहा गया) खासकर उल्टी (पीछे की ओर जाने वाली) अनुकूलता के लिए परंपरागत (सरल रेग्युलर ऍक्सप्रैशन) वाक्य-विन्यास के साथ इसे डिज़ाइन किया गया, किंतु इसने एक सामान्य मानक उपलब्ध कराया जिसे कई Unix रेग्युलर ऍक्सप्रैशन उपकरणों के व्यतिक्रम वाले वाक्य-विन्यास के रूप में अपना लिया गया है, हालांकि इसमें अब भी अक्सर कुछ विविधताएं अथवा अतिरिक्त विशेषताएं दिखाई देती हैं। ऐसे अनेक उपकरण हैं जो कमांड लाइन विषयों के साथ ERE वाक्य-विन्यास को सहारा देते हैं।
BRE वाक्य-विन्यास में, अधिकांश अक्षरों को शाब्दिक अर्थ में लिया जाता है -- वे आपस में एक दूसरे से मेल खाते हैं (जैसे कि, a
"a " के साथ मैच करता है). नीचे सूचीबद्ध अपवादों को अक्षरों से परे या अनुक्रमों से अलग कहा जाता है।
अक्षरों से परे | विवरण |
---|---|
. | किसी एक अक्षर से मेल खाता है (कई कंप्यूटर प्रोग्राम न्यू लाइंस को बाहर छोड़ देते हैं और ठीक-ठीक जिन अक्षरों को न्यूलाइन माना जाता हैं वही अक्षरों का संकेतीकरण (कूटलेखन) और विशिष्ट उन्नत स्थान है, लेकिन ऐसा मानना सुरक्षित है कि लाइन फीड अक्षर शामिल है).POSIX के अंतर्गत कोष्ठक सूचक, बिंदु वाले अक्षर शाब्दिक बिंदु से मेल खाते हैं। उदाहरण के लिए, a.c "abc ", इत्यादि से मेल खाता है लेकिन [a.c] केवल "a ", ". ", या "c " से मेल खाते हैं। |
[ ] | एक कोष्ठक सूचक केवल एक अक्षर से मेल खाता है जो कोष्ठक के अदंर अवस्थित है। उदाहरण के लिए [abc] "a ", "b ", या "c " से मेल खाता है। [a-z] एक सीमा को निर्दिष्ट करते हैं जो निम्न क्रम में "a " से "z " तक किसी भी अक्षर से मेल खाता है। इन आकारों को मिलाया जा सकता है: [abcx-z] "a ", "b ", "c ", "x ", "y ", या "z " के साथ मेल खाता है जैसा कि [a-cx-z] के साथ होता है। - अक्षर को एक शाब्दिक अक्षर के रूप में व्यवहार किया जाता है, अगर कोष्ठक के भीतर का यह अंतिम अथवा प्रथम अक्षर हो तो, या बैकस्लैश के साथ भाग गया हो: [abc-] , [-abc] , या [a\-bc] . |
[^ ] | कोष्ठकों के भीतर अवस्थित नहीं है, ऐसा कोई अकेला अक्षर मेल खाता है। उदाहरण के लिए, [^abc] "a ", "b ", या "c " के अलावा किसी भी अक्षर से मेल खाता है। [^a-z] ऐसे किसी अकेले अक्षर से मेल खाता है जो "a " से "z " तक निम्न क्रम का वर्ण नहीं है। ऊपर की ही तरह शाब्दिक अक्षरों एवं अनुक्रमों को मिलाया जा सकता है। |
^ | स्ट्रिंग के भीतर ही आरंभिक अवस्थिति से मेल खाता है। लाइन पर आधारित उपकरणों में यह किसी भी पंक्ति की आरंभिक अवस्थिति से मेल खाता है। |
$ | स्ट्रिंग की अंतिम स्थिति के साथ अथवा स्ट्रिंग के समाप्त होने की न्यू लाइन से पहले की स्थिति के साथ मेल खाता है। लाइन पर आधारित उपकरणों में किसी लाइन की अंतिम स्थिति के साथ मेल खाता है। |
BRE: \( \) ERE: ( ) | चिह्नित उपसूचक को परिभाषित करता है। स्ट्रिंग उपवाक्यों के अंतर्गत मेल खाता है जिसे बाद में प्रत्याहार किया जा सकता है (अगली प्रविष्टि \n देखें). एक चिह्नित उपसूचक को ब्लॉक अथवा कैपचरिंग ग्रुप भी कहा जाता है। |
\n | n th चिह्नित उपसूचक के साथ मेल खाता है, जहां n 1 से 9 के बीच की एक संख्या है। यह बनावट सैद्धांतिक रूप से अव्यवस्थित हैं एवं इसे POSIX ERE वाक्य-विन्यास में नहीं अपनाया गया था। कुछ उपकरण नौ से अधिक अधिकार-वर्गों के संकेत की अनुमति देते हैं। |
* | पूर्ववर्ती तत्व शून्य या अधिक बार मेल खाता है। उदाहरण के लिए, ab*c "ac ", "abc ", "abbbc ", इत्यादि से मेल खाता है। [xyz]* "", "x ", "y ", "z ", "zx ", "zyx ", "xyzzy " और इसी प्रकार से मेल खाता है। \(ab\)* "", "ab ", "abab ", "ababab " और इसी प्रकार से मेल खाता है। |
BRE: \{m,n\} ERE: {m,n} | पिछले तत्व कम से कम m से और n टाइम्स से अधिक बार नहीं मेल खाता है। उदाहरण के लिए, a\{3,5\} केवल "aaa ", "aaaa " और "aaaaa " से मेल खाता है। यह रेग्युलर ऍक्सप्रैशन के कुछ पुराने उदाहरणों में नहीं पाया जाता है। |
उदाहरण:
.at
किसी भी तीन अक्षर के स्ट्रिंग में जिसके अंत में "at" हो "hat ", "cat " और "bat " सहित मेल खाता है।[hc]at
"hat " और "cat " से मेल खाता है।[^b]at
सभी स्ट्रिंग्स के साथ.at
द्वारा मेल खाता है, "bat " को छोड़कर.^[hc]at
"hat " और "cat " के साथ मेल खाता है, किंतु केवल स्ट्रिंग अथवा लाइन के आरंभ में.[hc]at$
"hat " और "cat " के साथ मेल खाता है, किंतु केवल स्ट्रिंग या लाइन के अंत में.
POSIX विस्तारित रेग्युलर ऍक्सप्रैशन
अक्षरों से परे का अर्थ बैकस्लैश से बचकर कुछ अक्षरों के लिए POSIX विस्तृत रेग्युलर ऍक्सप्रैशन (ERE) के वाक्य-विन्यास में विपरीत है। इस वाक्य-विन्यास में ही, एक बैकस्लैश के कारण मेटा कैरेक्टर को शाब्दिक अक्षरों के रूप में माना जाता है। अतः उदाहरण के लिए, \(\)
अब ()
है और \{ \}
अब { }
.
साथ ही साथ, पिछले संदर्भों के लिए
\n
को हटा लिया गया है और निम्नलिखित अक्षरों से परे को शामिल किया गया हैं:
मेटा कैरेक्टर | विवरण |
---|---|
? | पूर्ववर्ती तत्व शून्य या एक बार मेल खाता है। उदाहरण के लिए, ba? "b " या "ba " के साथ मेल खाता है। |
+ | पिछले तत्व से एक या एक से अधिक बार मेल खाता है। उदाहरण के लिए, ba+ "ba ", "baa ", "baaa " और इसी प्रकार आगे भी मेल खाता है। |
* | पिछले तत्व से शून्य अथवा अधिक बार मेल खाता है। उदाहरण के लिए, ba* "b ", "ba ", "baa ", "baaa " और इसी प्रकार आगे भी मेल खाता है। |
| | पसंद (उर्फ प्रत्यावर्तन अथवा सेट गठबंधन) ऑपरेटर सूचक से पहले अथवा सूचक के बाद के ऑपरेटर के साथ मेल खाता है। उदाहरण के लिए, abc|def "abc " या "def " के साथ मेल खाता है। |
उदाहरण:
[hc]+at
matches "hat ", "cat ", "hhat ", "chat ", "hcat ", "ccchat ", and so on, but not "at ".
[hc]?at
"hat ", "cat " और "at " के साथ मेल खाता है।[hc]*at
matches "hat ", "cat ", "hhat ", "chat ", "hcat ", "ccchat ", "at ", and so on.
cat
|dog "cat " या "dog " के साथ मेल खाता है।
POSIX विस्तारित रेग्युलर ऍक्सप्रैशन का प्रयोग अक्सर आधुनिक Unix प्रयोज्यता के साथ कमांड लाइन फ्लैग -E को शामिल कर किया जा सकता है।
POSIX अक्षरों की श्रेणियां
चूंकि अक्षरों की अनेक वर्गीकृत श्रेणियां चुने हुए स्थानीय सेटिंग (जैसे कि कुछ सेटिंग्स में अक्षरों को abc...zABC... Z के रूप में व्यवस्थित किया गया है, जबकि कुछ दूसरों को aAbBcC...zZ), POSIX मानक अक्षरों की कुछ श्रेणियों अथवा वर्गों को निम्न तालिका में दिखाया गया है:
POSIX | Perl | ASCII | विवरण |
---|---|---|---|
[:alnum:] | [A-Za-z0-9] | अक्षरांकीय वर्ण | |
[:word:] | \w | [A-Za-z0-9_] | अक्षरांकीय वर्ण जोड़ का चिह्न "_" |
\W | [^\w] | गैर-शब्द चरित्र | |
[:alpha:] | [A-Za-z] | वर्णात्मक अक्षर | |
[:blank:] | [ \t] | स्पेस और टैब | |
[:cntrl:] | [\x00-\x1F\x7F] | नियंत्रण अक्षर | |
[:digit:] | \d | [0-9] | अंक |
\D | [^\d] | गैर-अंक | |
[:graph:] | [\x21-\x7E] | प्रकट अक्षर | |
[:lower:] | [a-z] | छोटे अक्षर | |
[:print:] | [\x20-\x7E] | प्रकट अक्षर और स्पेसेज़ | |
[:punct:] | [-!"#$%&'()*+,./:; | विराम चिह्न वाले अक्षर | |
[:space:] | \s | [ \t\r\n\v\f] | व्हाइटस्पेस अक्षर |
| \S | [^\s] | नॉन-व्हाइटस्पेस अक्षर |
[:upper:] | [A-Z] | उच्चवर्ग के बड़े अक्षर | |
[:xdigit:] | [A-Fa-f0-9] | षड्दशमिक अंक |
POSIX अक्षरों की श्रेणियों का प्रयोग केवल कोष्ठक सूचकों के अंदर ही हो सकता है। उदाहरण के लिए, [[:upper:]ab]
उच्चवर्ग के बड़े अक्षरों एवं छोटे अक्षरों "a " और "b " के साथ ही मेल खाता है।
Perl के रेग्युलर ऍक्सप्रैशन में, [:print:]
के साथ [:graph:]
मेल खाता है और [:space:]
के साथ गठबंधन करता है। एक अतिरिक्त गैर-POSIX श्रेणी को कुछ उपकरणों के द्वारा समझा गया है वह है [:word:]
, जिसे आमतौर पर [:alnum:]
प्लस रेखांकन underscore के द्वारा परिभाषित किया गया है। यह इस तथ्य को उद्भासित करता है कि कई प्रोग्रामिंग भाषाओँ में ये ही वे अक्षर हैं जिनका प्रयोग पहचान चिह्न के रूप में किया जा सकता है। संपादक Vim आगे वर्ड और वर्ड-हेड श्रेणी के बीच अंतर स्पष्ट करते हुए पहचान बताते हैं (संकेतन \w
और \h
का प्रयोग करते हुए). चूंकि कई प्रोग्रामिंग भाषाओँ में जो अक्षर पहचान चिह्न के रूप में आरंभ कर सकते हैं वे उनके समान नहीं हैं, जो अन्य स्थिति में उपस्थित हो सकते हैं।
यह द्रष्टव्य है कि POSIX रेग्युलर ऍक्सप्रैशन मानकों कॉल कैरेक्टर क्लासेस दूसरे रेग्युलर ऍक्सप्रैशन के रंग में, जो उन्हें सहयोग प्रदान करते हुए उन्हें साधारणतया POSIX कैरेक्टर क्लासेस के रूप में संदर्भित किया जाता है। अधिकांश अन्य रेग्युलर ऍक्सप्रैशन फ्लेवर्स के साथ कैरेक्टर क्लासेस पद-बंध का प्रयोग POSIX निर्धारित कोष्ठक सूचकों का वर्णन करने के लिए किया जाता है।
Perl-व्युत्पन्न रेग्युलर ऍक्सप्रैशन
POSIX बेसिक (BRE) और विस्तारित रेग्युलर ऍक्सप्रैशन मानकों (ERE) की तुलना में Perl के पास अधिक सुसंगत और समृद्ध वाक्य-विन्यास है। इसकी निरंतरता का एक उदाहरण है कि \
हमेशा गैर-वर्णान्कित अक्षरों से अलग भागता है। क्रियाशीलता का अन्य उदाहरण Perl के साथ तो संभव है, पर POSIX के साथ नहीं - अनुवर्ती रेग्युलर ऍक्सप्रैशन सुस्त परिमाणन की अवधारणा है (अगले अनुभाग में देखें).
व्यापक रूप से अपनी सूचक क्षमता के कारण कई अन्य प्रयोज्यता और प्रोग्रामिंग की भाषाओँ ने वाक्य-विन्यास को Perl की ही तरह अपना लिया है -- उदाहरण के लिए, Java, JavaScript, PCRE, Python, Ruby, Microsoft's .NET Framework और W3C's XML Schema सभी रेग्युलर ऍक्सप्रैशन वाक्य-विन्यास का प्रयोग Perl की ही तरह करते हैं। कुछ भाषाएं एवं उपकरण जैसे कि Boost और PHP बहु रेग्युलर ऍक्सप्रैशन फ्लेवर को सहयोग प्रदान करते हैं। Perl व्युत्पन्न रेग्युलर ऍक्सप्रैशन के कार्यान्वयन में एकरूपता नहीं है और कुछ केवल Perl की विशेषताओं के सबसेट को ही कार्यान्वित करते हैं। Perl 5.10 की प्रक्रिया अपनी पूर्णता और विस्तार के साथ Perl निगमित वाक्य-विन्यास के विस्तार तक पहुंच गई है - मूलतः Python, PCRE, .NET Framework और Java से.
सरल रेग्युलर ऍक्सप्रैशन
सरल रेग्युलर ऍक्सप्रैशन ऐसा वाक्य-विन्यास है, जिनका प्रयोग कंप्यूटर ऍप्लिकेशन प्रोग्राम के ऐतिहासिक संस्करणों में किया जा सकता है एवं अपने अंतर्गत कुछ अनुप्रयोगों के द्वारा सहयोग भी पा सकता है। पिछली अनुरूपता प्रदान करने के उद्देश्य से इसे अनुचित[10] समझा गया है।
सुस्त परिमाणन
रेग्युलर ऍक्सप्रैशन में मानक परिमापक लालची हैं अर्थात् वे जितना मेल खा सकते हैं अधिक से अधिक उतनी बार मेल खाते हैं, बाकी को रिजेक्स के साथ कोई नया मेल खाने के लिए छोड़ देते हैं। उदाहरण के लिए,regexes के लिए कोई नया जो किसी एक आइटम के बीच प्रथम दृष्टान्त खोजना चाहता है, इस उदाहरण में < and > प्रतीक चिह्नों के बीच पा सकता है।
एक और व्हेल एक्स्प्लोज़न <January 26>, को घटित हुआ।
... जो <.*>
, पैटर्न के साथ अथवा इसी के समान आना चाहेगा. हालांकि यह पैटर्न वास्तव में "<January 26>, " के बदले "<January 26 >" में वापस जाना चाहेगा, जो अपेक्षित था, क्योंकि *
परिमाणन जो लालची है -- अतः यह यथासंभव अधिक से अधिक अक्षरों का उपभोग इनपुट से कर लेना चाहेगा, एवं "January 26>, " के पास "January 26" की तुलना में अधिक अक्षर होंगे.
हालांकि इस समस्या को कई तरीकों से टाला जा सकता है (जैसे कि विषय वस्तु को निर्दिष्ट कर जो मेल खाने योग्य नहीं है: <[^>]*>
), आधुनिक रेग्युलर ऍक्सप्रैशन उपकरण एक परिमाणक को सुस्त के रूप में वैशिष्ट्य पाने की अनुमति देते हैं (जिन्हें गैर-लालची, अनिच्छुक, न्यूनतम अथवा अलालची) परिमाणक के बाद एक प्रश्नचिह्न लगाकर किया जाता है (जैसे कि <.
*?>
), अथवा संशोधक का प्रयोग कर जो परिमाणक के लालच को उलट देता है (यद्यपि मानक परिमाणक के अर्थ में परिवर्तन दुविधा पैदा कर सकता है). सुस्त परिमाणक का प्रयोग कर सूचक सबसे पहले कम से कम मेल खाने की कोशिश करते हैं। हालांकि पूर्ववर्ती उदाहरण में सुस्त मेल का प्रयोग कई मेलों के परिणामों में से किसी एक का चुनाव करने के लिए किया जाता है, कुछ मामलों में इसका प्रयोग बेहतर निष्पादन के लिए भी किया जा सकता है, जब लालची मिलान को अधिक पीछे हटने की जरूरत पड़ेगी.
अव्यवस्थित भाषाओँ के लिए पैटर्न
अव्यवस्थित भाषाओं के लिए पैटर्न आधुनिक रेग्युलर ऍक्सप्रैशन संग्रहों से प्राप्त कई विशेषताएं सूचक क्षमता प्रदान करती है जो सुव्यवस्थित भाषाओं से भी अधिक हो जाती है। उदाहरण के लिए, कई कार्यान्वयन उप सूचकों के समूहीकरण की अनुमति प्रदान करते हैं और उसी सूचक में मेल कराने की कीमत (पिछले सन्दर्भ के साथ) याद दिलाते हैं। इसका अर्थ यह है कि एक पैटर्न दुहराए गए शब्दों की लड़ियों (strings) से मेल खा सकता है, जैसे कि "पापा " अथवा "WikiWiki ", जिसे औपचारिक भाषा सिद्धांत में squares कहते हैं। इन लड़ियों (strings) के लिए पैटर्न है (.
*)\1
.
हालांकि, squares की भाषा सुव्यवस्थित नहीं है। न ही यह विषय से मुक्त है। बैक रेफरेन्सेस की असीमित संख्याओं पैटर्न के साथ मेल खाता, जैसे कि असीमित संख्या में आधुनिक उपकरण द्वारा समर्थित, एन पी-सम्पूर्ण है (प्रेमय 6.2 देखें[11]).
हालांकि, कई उपकरण, लाइब्रेरीज़ और इंजन जो ऐसी संरचनाएं उपलब्ध कराते हैं, अब भी रेग्युलर ऍक्सप्रैशन शब्दावली का प्रयोग अपने पैटर्नस के लिए करते हैं। इसने रेग्युलर ऍक्सप्रैशन शब्दावली का नामकरण किया है, जिसके औपचारिक भाषा सिद्धांत तथा पैटर्न के कई भिन्न अर्थ हैं। इस कारण, कुछ लोग regex या केवल पैटर्न शब्दावली का प्रयोग परवर्ती की व्याख्या में करते हैं। पर्ल प्रोग्रामिंग भाषा के लेखक, लैरी वॉल एक निबंध में पर्ल 6 के डिजाइन के बारे में लिखते हैं:
“ | 'Regular expressions' [...] are only marginally related to real regular expressions. Nevertheless, the term has grown with the capabilities of our pattern matching engines, so I'm not going to try to fight linguistic necessity here. I will, however, generally call them "regexes" (or "regexen", when I'm in an Anglo-Saxon mood).[4] | ” |
कार्यान्वयन और चलन समय
कम से कम तीन अलग-अलग कलां विधियां कलनविधि हैं, जो निर्धारित करती हैं कि एक दिया गया रेग्युलर ऍक्सप्रैशन किस प्रकार एक स्ट्रिंग के साथ मेल खता है।
सबसे पुराने और सबसे तेज परिणाम पर निर्भर दो औपचारिक भाषा सिद्धांत जो प्रत्येक गैरनियतात्मक परिमित स्थिति यंत्र (NFA) को नियतात्मक परिमित स्थिति मशीन (DFA) में रूपांतरित करना स्वीकार करता है। DFA का स्पष्ट रूप से निर्माण किया जा सकता है और तब इसके परिणामस्वरूप इनपुट पर एक बार में एक प्रतीक चिन्ह पर परिचालित होता है। एक रेग्युलर ऍक्सप्रैशन के आकार के लिए DFA का निर्माण "O"(2m) की कीमत पर करने पर समय और स्मृति आ जाती है, लेकिन यह n आकार के string पर ही O (n) समय में चल सकता है। एक वैकल्पिक प्रयास NFA को सीधे अनुकरण करना है, मांग करने पर अनिवार्य रूप से प्रत्येक DFA स्थिति का निर्माण और तब अगले कदम पर संभवतः caching के साथ इसे बाहर निकाल देना. यह DFA को अंतर्निहित रखता है और निर्माण की घातांक लागत से बचा जा सकता है, लेकिन चलन लागत (running cost) O (nm) तक बढ़ जाती है। इस स्पष्ट पदक्षेप को DFA कलनविधि कहते हैं और अंतर्निहित पदक्षेप को NFA कलनविधि. जैसे कि एक समान DFA को क्रियान्वित करने में दोनों को भिन्न तरीकों से देखा जा सकता है, उन्हें भी बिना भेद-भाव के अक्सर कलनविधि कहते हैं। ये कलन विधियां तेज़ हैं लेकिन समूहीकृत उपसूचकों को लौटाने के लिए उनका प्रयोग सुस्त परिमाणन एवं इसी प्रकार की विशेषताएं पेचीदा हैं।[12][13]
तीसरी कलनविधि बैक ट्रैक के द्वारा पैटर्न के साथ इनपुट स्ट्रिंग के मिलान के लिए है। इस कलनविधि को आमतौर पर NFA कहा जाता है, लेकिन यह शब्दावली अस्पष्ट है। इसका चलन समय घातांकी हो सकता है, जिसका सरल कार्यान्वयन यह उजागर करता है कि जब सूचकों के खिलाफ मिलान जैसे कि (a|aa)*b
जिसमे प्रत्यावर्तन और असीमित परिमाणन दोनों ही हैं। कलनविधि पर ज़ोर डालते हैं कि स्थानापन्न मामलों की बढती हुई घातांकी संख्या पर विचार करें. अधिक जटिल कार्यान्वयन अक्सर चिह्नित और गतिशील करते हैं या साधारण मामलों को रद्द कर देती हैं, जब उनका चलन मंद हो जाता है।
हालांकि बैक ट्रैकिंग कार्यान्वयन सबसे खराब स्थिति में एक घातांकी गारंटी देते हैं, वे बहुत अधिक लचीलापन और सूचक शक्ति प्रदान करते हैं। उदाहरण के लिए, किसी भी कार्यान्वयन जो बैकरेफरेन्सेस के प्रयोग की अनुमति देता है या पर्ल द्वारा लागू किये गए विभिन्न एक्सटेंशनस को कार्यान्वित करता है, उसे बैक ट्रैकिंग कार्यान्वयन का अवश्य प्रयोग करना चाहिए।
कुछ कार्यान्वयन सबसे पहले तेज़ DFA को चलाकर दो सबसे अच्छी कलन विधियां उपलब्ध कराते हैं, यह जानने के लिए कि रेग्युलर ऍक्सप्रैशन स्ट्रिंग के साथ थोडा भी मेल खाते हैं या नहीं और केवल इसी स्थिति में संभवतः मंद बैक ट्रैकिंग मिलान होता है।
रेग्युलर ऍक्सप्रैशन और यूनिकोड
रेग्युलर ऍक्सप्रैशन का आरंभिक प्रयोग ASCII अक्षरों के साथ हुआ। कई रेग्युलर ऍक्सप्रैशन इंजन अब संपूर्ण यूनिकोड के साथ भी काम कर सकते हैं। अधिकांश मामलों में इसमें कोई अंतर नहीं दिखता कि अक्षरों का सेट क्या है, लेकिन कुछ मामलों में फर्क पड़ता है जब रेग्युलर ऍक्सप्रैशन को यूनिकोड पर कार्य करना पड़ता है।
- समर्थित कोडिंग - कुछ रेग्युलर ऍक्सप्रैशन की लाइब्रेरियां UTF-8 संकेतन की अपेक्षा रखती हैं जबकि दूसरी UTF-16, या UTF-32 की अपेक्षा कर सकती हैं।
- समर्थित यूनिकोड रेंज - कई रेग्युलर ऍक्सप्रैशन इंजन केवल आधारभूत बहुभाषी प्लेन की सहायता करते हैं, जिसके अक्षरों को केवल 16 बिट्स के साथ संकेतित किया जा सकता है। वर्तमान में, केवल कुछ ही रेग्युलर एक्सप्रेशन इंजन हैं जो पूरे 21 बिट्स के यूनिकोड रेंज को संभाल सकते हैं।
- ASCII उन्मुख निर्माण को यूनिकोड तक विस्तारित करना - उदाहरण के लिए, ASCII - आधारित कार्यान्वयन में अक्षर के आकार
[x-y]
के रेंज वैध हैं, जहां x और y [0x00,0x7F] रेंज में संकेतन बिंदु हैं और संकेतबिंदु (x) ≤ संकेतबिंदु (y). ऐसे अक्षर का स्वाभाविक विस्तार जिसका रेंज यूनिकोड तक जाता है, वह केवल आवश्यकता को बदल देता है, जिसमे अंतिम बिंदु जो [0x00,0x7F] से [0,0x10FFFF] तक है। हालांकि, व्यवहार में अक्सर ऐसी स्थिति नहीं होती है। कुछ कार्यान्वयन, जैसे कि gawk, अक्षरों के रेंज को यूनिकोड ब्लॉक सीमा पार करने की अनुमति नहीं देते हैं। [0x61,0x7F] जैसा रेंज वैध है चूँकि दोनों के ही अंतिम बिंदु मूल लैटिन ब्लॉक के अर्न्तगत आते हैं, जैसे [0x0530,0x0560] चूँकि दोनों के अंतिम बिंदु आर्मेनियन ब्लॉक के अर्न्तगत पड़ते हैं। [0x0061,0x0532] जैसा रेंज अवैध है, क्योंकि इसमें कई यूनिकोड ब्लॉक निहित हैं। अन्य इंजन, जैसे सम्पादक Vim के जो ब्लॉक को सीमा पार करने की अनुमति प्रदान करते हैं, लेकिन एक रेंज में अक्षरों की संख्या 128 तक ही सीमित हो जाती है। - असंवेदनशीलता की स्थिति - कुछ असंवेदनशीलता की स्थिति के फ्लैग्स केवल ASCII के अक्षरों को प्रभावित करते हैं। अन्य फ्लैग्स सभी अक्षरों को प्रभावित करते हैं। कुछ इंजन के पास दो अलग फ्लैग्स हैं, एक ASCII के लिए और दूसरा यूनिकोड के लिए. कौन-सा अक्षर ठीक-ठीक POSIX श्रेणियों में पड़ता है, यह बदलता भी है।
- असंवेदनशीलता की स्थिति से जुड़े मामले- जैसे ASCII की स्थिति में अन्तर है, असंवेदनशील स्थिति विषय वस्तु की खोज में एक तार्किक विशेषता बन जाती है। यूनिकोड ने वर्णमाला लिपियों को देवनागरी के बिना ही लागू किया। इनके लिए संवेदनशीलता लागू नहीं होती है। चीनी जैसी लिपियों के लिए, एक और तार्किक अंतर पारंपरिक और सरलीकृत के बीच दिखाई देता है। अरबी लिपियों में, आरंभिक, औसत दर्जे का, अंतिम और अलग स्थिति के प्रति असंवेदनशीलता वांछित है।
- सामान्यकरण - यूनिकोड ने अक्षरों के संयोजन को लागू किया। पुराने टाइपराइटरों की तरह, सरल अक्षरों का अनुकरण बिना अन्तराल के स्वराघात के प्रतीकों से किया जा सकता है ताकि एक स्वराघाती वर्ण बन जाए. परिणामस्वरुप, दो भिन्न कूट क्रम समान अक्षर का प्रदर्शन कर सकते हैं।
- नए नियंत्रण कूट. यूनिकोड के कारण दूसरों के बीच बाइट क्रम चिह्न और विषयवस्तु को दिशा देने वाले चिह्न लागू हुए. इन कूटों के साथ एक विशेष तरीके से निपटा जा सकता था।
- यूनिकोड ब्लॉक और यूनिकोड सामान्य अक्षर की विशेषताओं के लिए अक्षरों का वर्गीकरण लागू करना। Perl और
[[[:साँचा:Javadoc:SE/Home URL]]docs/api/java/util/regex/package-summary.html java.util.regex]
लाइब्रेरी में, आकार का वर्गीकरण\p{InX}
ब्लॉक X के अक्षरों से मेल खाता है और\P{InX}
विपरीत से. इसी तरह,\p{Armenian}
अर्मेनियाई ब्लॉक में किसी भी अक्षर से मेल खाता है और\p{X}
सामान्य अक्षर X से मेल खाता है। उदाहरण के लिए,\p{Lu}
किसी भी ऊपरी स्थिति के अक्षर से मेल खाता है।
विभिन्न औजारों में रेग्युलर ऍक्सप्रैशन का प्रयोग
- पाठ सम्पादन (टैक्स्ट ऍडीटिंग) में रेग्युलर ऍक्सप्रैशन के लिये नोटपैड++ का प्रयोग करें। नोटपैड++ का रेगुलर ऍक्सप्रैशन इंजन यूनिकोड का समर्थन करता है। नोटपैड++ में रेगुलर ऍक्सप्रैशन का सिण्टैक्स इसके विकि पर यहाँ देखें।
- फायरफॉक्स आदि विभिन्न बेब ब्राउजरों में रेग्युलर ऍक्प्रैशन हेतु फॉक्सरिप्लेस नामक ऍडऑन प्रयोग करें। इसका इंजन यूनिकोड का ठीक से समर्थन नहीं करता।
- विकिपीडिया के नये टूलबार में Search and Replace बटन है जिसमें रेगुलर ऍक्सप्रैशन का समर्थन है।
- ओपेनऑफिस में भी रेगुलर एक्सप्रेशन का समर्थन है।
- जटिल रेग्युलर ऍक्सप्रैशन निर्माण एवं टैस्टिंग के लिये नेट पर कई ऑनलाइन तथा ऑफलाइन औजार मौजूद हैं। उदाहरण: RegExBuddy, The Regulator आदि।
देवनागरी में रेगुलर एक्सप्रेशन के लिये कुछ जुगाड़
- यदि देवनागरी पाठ में कुछ खोजना हो या खोजना-बदलना हो तो 'कोई भी अक्षर' के लिये सामान्यतः प्रयुक्त एक्सप्रेशन ([.]) काम नहीं करता है। इसके स्थान पर ([^A-Za-z]) का प्रयोग करने से काम चल जाता है।
- 'कोई भी देवनागरी व्यंजन' के लिये ([कखगघङचछजझञटठडड़ढढ़णतथदधनपफबभमयरलळवशषसहक्षज्ञ]) का प्रयोग करें।
- निम्नलिखित जावास्क्रिप्ट स्टेटमेन्ट को देखें-
modified_substring = modified_substring.replace(/([Á])([्])([कखगघङचछजझञटठडड़ढढ़णतथदधनपफबभमयरलळवशषसहक्षज्ञ])/g, "$2$3$1") ;
यह स्टेटमेन्ट यदि Á के बाद हल् (्) आता है और उसके बाद देवनागरी का कोई ब्यंजन आता है तो उसे बदलकर पहले हल्, फिर देवनागरी व्यंजन और अन्त में Á रख देता है। यहाँ $2$3$1 का यही अर्थ है।
इन्हें भी देखें
- रेग्युलर एक्सप्रेशन इंजिन की तुलना
- एक्सटेंडेड बैकस-नौर फॉर्म
- रेग्युलर एक्सप्रेशन सॉफ्टवेयर की सूची
- रेग्युलर एक्सप्रेशन के उदाहरण
- रेगुलर ट्री ग्रामर
- सुव्यवस्थित भाषा
नोट्स
- ↑ Kleene (1956)
- ↑ Raymond, Eric S. citing Dennis Ritchie (2003). "Jargon File 4.4.7: grep".
- ↑ Wall, Larry and the Perl 5 development team (2006). "perlre: Perl regular expressions".
- ↑ अ आ Wall (2002)
- ↑ अ आ Hopcroft, Motwani & Ullman (2000)
- ↑ Sipser (1998)
- ↑ Gelade & Neven (2008)
- ↑ Gruber & Holzer (2008)
- ↑ Kozen (1991)
- ↑ द सिंगल यूनिक्स स्पेसिफिकेशन (वर्सन 2)
- ↑ Aho (1990)
- ↑ Cox (2007)
- ↑ Laurikari (2009)
सन्दर्भ
- Aho, Alfred V. (1990), "Algorithms for finding patterns in strings", प्रकाशित van Leeuwen, Jan (संपा॰), Handbook of Theoretical Computer Science, volume A: Algorithms and Complexity, The MIT Press, पपृ॰ 255–300
- "Regular Expressions", The Single UNIX Specification, Version 2, The Open Group, 1997
- Cox, Russ (2007), Regular Expression Matching Can Be Simple and Fast
- Forta, Ben (2004). Sams Teach Yourself Regular Expressions in 10 Minutes. Sams. आई॰ऍस॰बी॰ऍन॰ 0-672-32566-7.
- Friedl, Jeffrey (2002). [http://regex.info/ Mastering Regular Expressions]. O'Reilly. आई॰ऍस॰बी॰ऍन॰ 0-596-00289-0.
|title=
में बाहरी कड़ी (मदद) - Gelade, Wouter; Neven, Frank (2008), "Succinctness of the Complement and Intersection of Regular Expressions", Proceedings of the 25th International Symposium on Theoretical Aspects of Computer Science (STACS 2008), पपृ॰ 325–336
- Gruber, Hermann; Holzer, Markus (2008), "Finite Automata, Digraph Connectivity, and Regular Expression Size", Proceedings of the 35th International Colloquium on Automata, Languages and Programming (ICALP 2008) (PDF), पपृ॰ 39–50, डीओआइ:10.1007/978-3-540-70583-3_4, मूल (PDF) से 1 सितंबर 2009 को पुरालेखित, अभिगमन तिथि 29 दिसंबर 2009
- Habibi, Mehran (2004). Real World Regular Expressions with Java 1.4. स्प्रिंगर. आई॰ऍस॰बी॰ऍन॰ 1-59059-107-0.
- Hopcroft, John E.; Motwani, Rajeev; Ullman, Jeffrey D. (2000). Introduction to Automata Theory, Languages, and Computation (2nd संस्करण). Addison-Wesley.
- Kleene, Stephen C. (1956), "Representation of Events in Nerve Nets and Finite Automata", प्रकाशित Shannon, Claude E.; McCarthy, John (संपा॰), Automata Studies, Princeton University Press, पपृ॰ 3–42
- Kozen, Dexter (1991), "A Completeness Theorem for Kleene Algebras and the Algebra of Regular Events", Proceedings of the 6th Annual IEEE Symposium on Logic in Computer Science (LICS 1991), पपृ॰ 214–225
- Laurikari, Ville (2009). "TRE library 0.7.6".
- Liger, François (2002). Visual Basic .NET Text Manipulation Handbook. Wrox Press. आई॰ऍस॰बी॰ऍन॰ 1-86100-730-2. नामालूम प्राचल
|coauthors=
की उपेक्षा की गयी (|author=
सुझावित है) (मदद) - Sipser, Michael (1998). "Chapter 1: Regular Languages". Introduction to the Theory of Computation. PWS Publishing. पपृ॰ 31–90. आई॰ऍस॰बी॰ऍन॰ 0-534-94728-X.
- Stubblebine, Tony (2003). Regular Expression Pocket Reference. O'Reilly. आई॰ऍस॰बी॰ऍन॰ 0-596-00415-X.
- Wall, Larry (2002-06-04). "Apocalypse 5: Pattern Matching". मूल से 12 जनवरी 2010 को पुरालेखित. अभिगमन तिथि 29 दिसंबर 2009.सीएस1 रखरखाव: तिथि और वर्ष (link)
बाहरी कड़ियाँ
- रेग्युलर ऍक्सप्रैशन ट्यूटोरियल
- JavaScript RegExp Example: Regular Expression Tester
- Free Interactive Regular Expression (Regex) Testers and Builders
- फाइंड एण्ड रिप्लेस हेतु रेग्युलर ऍक्सप्रैशन ट्यूटोरियल Archived 2010-08-17 at the वेबैक मशीन
- मोज़िला डैवलपर सैण्टर में जावास्क्रिप्ट रेग्युलर ऍक्सप्रैशन अध्याय Archived 2008-12-03 at the वेबैक मशीन तथा रेग्युलर एक्सप्रेशन वस्तु संदर्भ
- जावा ट्युटोरियल्स: रेग्युलर ऍक्सप्रैशन
- Perl रेग्युलर ऍक्सप्रैशन दस्तावेज़ीकरण
- VBस्क्रिप्ट और रेग्युलर ऍक्सप्रैशन
- .NET फ्रेमवर्क रेग्युलर ऍक्सप्रैशन
- मुक्त निर्देशिका परियोजना पर Regular Expressions
- Regular-Expressions.info — ट्युटोरियल और संदर्भ जो कई लोकप्रिय रिजेक्स फ्लेवर को सम्मिलित करता है
- पैटर्न मिलान करने वाले उपकरण और लाइब्रेरी
- गणित और कंप्यूटर संकेतन की व्याख्या करने वाला रेग्युलर ऍक्सप्रैशन विस्तृत विवरण
- रेग्युलर ऍक्सप्रैशन लाइब्रेरी
- रोब पाईक द्वारा संरचनात्मक रेग्युलर ऍक्सप्रैशन
- उन्नत रेग्युलर ऍक्सप्रैशन के पीछे महत्वपूर्ण अवधारणाएँ
- ऑनलाइन जावास्क्रिप्ट रेगुलर ऍक्प्रैशन टैस्टर
- Analyzing Unicode Text with Regular Expressions
- [1]
- Recognition of printed Devnagari characters with regular expression in finite state models