पाठसंग्रह
भाषाविज्ञान में बड़े और संरचित (structured) पाठ के समुच्चय को पाठसंग्रह या कॉर्पस (corpus) कहते हैं। पाठसंग्रह के बहुत से उपयोग हैं। जैसे किसी भाषा में प्रयुक्त शब्दों की बारंबारता निकालना, किसी भाषा में प्रयुक्त सर्वाधिक १००० शब्दों की जानकारी निकालना, कोई शब्द किस-किस प्रकार से प्रयुक्त होता है आदि।
बाहरी कड़ियाँ
- हिन्दी पाठसंग्रह में खोज करें (CFILT IITB)
- हिन्दी का पाठसंग्रह (यूनिकोड में)
- कार्पस : एक संकल्पना (प्रयास)
- कॉर्पस-अनुसंधान ही तय करेगा हिंदी के भविष्य का नक़्शा - डॉ॰ गिरीशनाथ झा
- Freely-available, web-based corpora (100 million - 400 million words each): American (COCA), British (BNC), TIME, Spanish, Portuguese
- मुक्त निर्देशिका परियोजना पर Computational Linguistics
- ACL SIGLEX Resource Links: Text Corpora
- The Leipzig Glossing Rules: Conventions for interlinear morpheme-by-morpheme glosses
- Developing Linguistic Corpora: a Guide to Good Practice
- An interface for querying automatically-constructed virtual corpora[मृत कड़ियाँ].
- An interface[मृत कड़ियाँ] for querying text corpora constructed through guided crawling of online news sites, the corpora (both local and virtual) constructed using the SPARTAN technique, and publicly-available collections (e.g. Reuters-21578, texts from the Gutenberg project, GENIA).