निर्मिती, महाविद्यालये आणि विद्यापीठे

कॉर्पस भाषाविज्ञान काय आहे?

फक्त काही दशकांपूर्वी भाषिक संशोधन स्वयंचलित करण्यासाठी, शास्त्रज्ञ फक्त स्वप्न नाही. काम सर्वात महत्वाचे आहे, एक खारा शक्यता "निष्काळजी" चुका तो विद्यार्थी मोठ्या संख्येने आकर्षित हात केले होते, आणि - हे सर्व एक लांब, लांब वेळ घेतला.

संगणक तंत्रज्ञान विकास जलद विशालता क्रम संशोधन करणे शक्य झाले आहे, आणि आज भाषा अभ्यास सर्वात सर्वांत दिशा एक निधी भाषाशास्त्र आहे. त्याचे मुख्य वैशिष्ट्य एकच डेटाबेस मजकूर, माहिती मोठ्या प्रमाणात वापर, एक विशेष प्रकारे आहे आणि चिन्हांकित शरीर ठेवले.

तारीख करण्यासाठी, लाखो एखाद्या भाषेतील शब्दसंग्रहासंबंधी युनिट कोट्यवधी दहापट खेळले विविध भाषिक साहित्य आधारावर विविध कारणांसाठी तयार अनेक इमारती आहेत. या दिशेने एक आश्वासक म्हणून ओळखले अर्ज आणि संशोधन हेतूंसाठी दिशेने लक्षणीय प्रगती दिसून येते आहे. विशेषज्ञ, एक मार्ग किंवा नैसर्गिक भाषेचा दुसरा व्यवहार, तो एक मूलभूत पातळीवर किमान शरीर ग्रंथ परिचित करण्यासाठी शिफारस केली आहे.

निधी भाषाशास्त्र इतिहास

हा कल निर्मिती गेल्या शतकाच्या लवकर 60-ies युनायटेड स्टेट्स निर्मिती ब्राऊन शरीर झाल्यामुळे आहे. संग्रह सर्व 1 दशलक्ष शब्द फॉर्म च्या ग्रंथ समाविष्टीत आहे, आणि आज शरीर आकार पूर्णपणे uncompetitive होईल. हा संगणक तंत्रज्ञान विकास गती, तसेच नवीन संशोधन संसाधने वाढत मागण्या मुख्यत्वे आहे.

90s निधी भाषाशास्त्र एक पूर्ण आणि स्वतंत्र शिस्त मध्ये उदयास मध्ये, ग्रंथ संग्रह काढलेल्या भाषांमधील आरक्षित केले गेले आहे. या काळात तो तयार उदाहरणार्थ, ब्रिटिश राष्ट्रीय कॉर्पस 100 दशलक्ष टोकन होते.

भाषाशास्त्र या क्षेत्रात विकास, मजकूर खंड अधिक आणि अधिक होत आहे (आणि शब्दकोश युनिट कोट्यवधी पोहोचण्याचा), आणि मांडणी अधिक वैविध्यपूर्ण होत आहे. तारीख करण्यासाठी, इंटरनेट जागा लिहिले प्रेते आढळले आणि भाषा, बहुभाषिक, आणि शिक्षण-देणारं कलात्मक किंवा शैक्षणिक साहित्य, तसेच इतर अनेक प्रजाती सांगितले जाऊ शकते.

गृहनिर्माण काय आहेत

शरीर भाषाशास्त्र शरीर प्रकार अनेक कारणांमुळे प्रदान करू शकता. आपसूकच, वर्गीकरण आधार मजकूर भाषा (रशियन, जर्मन), प्रवेश मोड (ओपन सोर्स, बंद, व्यावसायिक), स्रोत साहित्य (कथा, माहितीपट, शैक्षणिक, पत्रकारिता) शैली असू शकते.

मनोरंजक मार्ग बोलीभाषा साहित्य निर्माण. सर्वेक्षणात एक कृत्रिम वातावरण तयार करण्याची अशा भाषण मुद्दाम रेकॉर्डिंग असल्याने, आणि परिणामी साहित्य "उत्स्फूर्त" म्हटले जाऊ शकते नाही, आधुनिक निधी भाषाशास्त्र इतर मार्ग उपलब्ध झाला आहे. एक स्वयंसेवक मायक्रोफोन सुसज्ज आहे, आणि दिवस काळात सर्व संभाषणे, तो भाग ज्या रेकॉर्ड उत्पादन. सुमारे, अर्थातच, यासाठी दररोज संभाषण ओघात विज्ञान विकास योगदान माहीत आहे की नाही.

नंतर डेटाबेस मध्ये संग्रहित रेकॉर्ड प्राप्त आणि छापील मजकूर उतारा प्रकार दाखल्याची पूर्तता आहेत. त्यामुळे, तो एक तोंडी दररोज भाषण गृहनिर्माण निर्माण करणे आवश्यक शक्य मार्कअप होते.

अर्ज

जेथे शक्य आहे तेथे भाषेचा वापर, आणि कदाचित इमारती ग्रंथ वापर. पद्धती भाषाशास्त्र हुल लागू होऊ शकते:

की ठरवण्यासाठी एक कार्यक्रम तयार करणे, मोठ्या प्रमाणावर मतदार आणि ग्राहकांच्या सकारात्मक आणि नकारात्मक प्रतिसादांची ट्रॅक ठेवण्यासाठी अनुक्रमे, राजकारण आणि व्यवसाय वापरले जाते.
त्यांची कामगिरी सुधारण्यासाठी शब्दकोश आणि अनुवादकांची कनेक्शन माहिती प्रणाली.
भाषा युनिट, त्याच्या विकास आणि नजीकच्या भविष्यात बदल अंदाज इतिहास समजून घालणारा संशोधन कार्ये विविधता.
, Morphological वितरकांची, शब्दार्थासंबंधीचा आणि इतर वैशिष्ट्ये आधारित माहिती मिळवणे प्रणाली विकास.
विविध भाषिक प्रणाली आणि इतर ऑप्टिमायझेशन.

इमारती वापर

ठराविक शोध इंजिन समान संसाधन इंटरफेस, आणि माहिती बेस शोध शब्द शब्द किंवा संयोजन प्रविष्ट वापरकर्ता विनंती करतो. आमच्या अचूक क्वेरी अक्षरशः कोणत्याही भाषिक निकष ग्रंथातील माहिती शोधण्यात परवानगी देते जे सुधारित आवृत्ती वापरू शकता, तयार.

शोध आधारित असू शकते:

भाषण भाग विशिष्ट गटाचे सदस्यत्व;
व्याकरणाची वैशिष्ट्ये;
शब्दच्छल;
stylistic आणि भावनिक रंगाची पूड.

आपण वर्तमान काळ, प्रथम असामान्य जे "मध्ये" शब्दयोगी अव्यय आणि द्वितीया बाबतीत नाम नंतर येतो व्यक्ती, मध्ये क्रियापद सर्व घटना शोधण्यासाठी, शब्द एक क्रम साठी निकष एकत्र करू शकतो, उदाहरणार्थ. अशा सोपे काम करण्यासाठी उपाय वापरकर्ता काही सेकंद लागतात आणि निर्दिष्ट शेतात फक्त काही माऊस क्लिक आवश्यक आहे.

तयार करण्याची प्रक्रिया

शोध स्वत: सर्व subcorpus वर चालते जाऊ शकते आणि एका विशिष्ट, निवडलेल्या एका विशिष्ट ध्येय गरजा अवलंबून:

पहिली पायरी म्हणजे ग्रंथ बाबतीत साठी आधार वाढविली व्याख्या करणे. व्यावहारिक कारणास्तव, वारंवार पत्रकारितेच्या बातम्यांचे वृत्त, ऑनलाइन टिप्पण्या वापरले जाते. संशोधन प्रकल्प पॅकेज प्रकार विविधता वापर आहे, पण मजकूर काही सामान्य ग्राउंड त्यानुसार निवडले पाहिजे.
pretreatment कामा ग्रंथ परिणामी संग्रह, तेथे मजकूर ग्रंथकोषाविषयी आणि अतिरिक्त-भाषिक वर्णन करून तयार, कोणतेही असल्यास, त्रुटी सुधारणा आहे.
सर्व मजकूर-नसलेले माहिती काढली आहे: ग्राफिक्स, चित्रे, टेबल साफ करते.
टोकन, पुढील प्रक्रियेसाठी, भाषण विशेषत आहेत जे एक वाटप आहे.
शेवटी, तो घटक प्राप्त, morphological syntactical आणि इतर खुणा अनेकत्व नेले.

काही प्रकरणांमध्ये, शब्दार्थासंबंधीचा गुणधर्म मध्ये भाषण, व्याकरण भाग ओळखले आणि आहे, जे प्रत्येक घटक, एक अनेकत्व त्यात वितरित एक वितरकांची रचना केलेल्या सर्व व्यवहारांची परिणाम.

इमारती तयार अडचणी

हे शरीर शब्द किंवा वाक्य संच एकत्र ठेवणे पुरेसे नाही समजून घेणे महत्वाचे आहे. एक हात वर, ग्रंथ संग्रह संतुलित असणे आवश्यक आहे, आहे की, काही प्रमाणात ग्रंथ विविध प्रकारचे प्रतिनिधित्व. इतर रोजी - कुंपण सामुग्री एक विशेष प्रकारे अंतर पाहिजे.

पहिली समस्या करार निराकरण आहे: उदाहरणार्थ, संग्रह मध्ये समावेश साहित्यिक ग्रंथ 60%, लघुपट 20%, काही टक्के बोलीभाषा, कायदे, वैज्ञानिक कामे, इत्यादी परिपूर्ण कृती समतोल शरीर आज अस्तित्वात नाही लेखी निवेदन दिल्यानंतर आहे ...

दुसरा प्रश्न, सामग्री मांडणी यासंबंधी, आव्हानात्मक निराकरण. विशेष कार्यक्रम आणि स्वयंचलित ग्रंथ चिन्हांकित वापरले अल्गोरिदम आहेत, पण ते एक परिपूर्ण परिणाम देण्यासाठी, व्यत्यय होऊ शकते आणि नाही मॅन्युअल rework आवश्यक आहे. ही समस्या वागण्याचा संधी आणि आव्हाने एक कागद निधी भाषाशास्त्र या व्ही पी Zaharova तपशील वर्णन आहेत.

टेक्स्ट मार्कअप अनेक स्तर, आम्ही खाली यादीत राबविण्यात येत आहे.

morphological टॅगिंग

शाळा, आम्ही रशियन भाषेत भाषण विविध भागांमध्ये आहेत हे लक्षात ठेवणे, आणि त्यांना प्रत्येक त्याच्या स्वत: च्या वैशिष्ट्ये आहेत. उदाहरणार्थ, क्रियापद कल श्रेणी आणि वेळ नाही नाम आहे. विलंब न लावता एक स्थानिक भाषा बोलणारे म्हणजे नाम आणि धातू चालवणे क्रियापद नकार, पण 100 दशलक्ष शरीर चिन्हांकित करण्यासाठी. अंगमेहनत कार्य करणार नाही टोकन. या ते शिकवले करणे आवश्यक आहे सर्व आवश्यक ऑपरेशन, संगणक करू शकतो, तथापि.

Morphological टॅगिंग, संगणक प्रत्येक शब्द काही व्याकरणाची वैशिष्ट्ये येत भाषण एक निश्चित भाग म्हणून "समजून" करणे आवश्यक आहे. असल्याने रशियन (आणि इतर कोणत्याही भाषा) नियमित नियम अनेक संचालन, तो morphological विश्लेषण करण्यासाठी एक स्वयंचलित प्रक्रिया तयार करण्यासाठी अल्गोरिदम अनेक कार गुंतवणूक, शक्य आहे. तथापि, नियम, तसेच विविध complicating घटक अपवाद आहेत. एक परिणाम म्हणून, आज निव्वळ संगणक विश्लेषण शरीर 100 दशलक्ष. युनिट शब्द, मॅन्युअल rework आवश्यक आतापर्यंत आदर्श आहे, आणि अगदी 4% त्रुटी 4 दशलक्ष एक मूल्य मिळते..

माहिती पुस्तक समस्या Zaharova व्ही पी "कॉर्पस भाषाविज्ञान" वर्णन.

वितरकांची भाष्य

विश्लेषण किंवा विश्लेषण - एक वाक्य शब्द संबंध ठरवते की एक प्रक्रिया. अल्गोरिदम एक संच वापरून विषय, सत्य विधान, वाढीव भाषण अनेक वळवून मजकूर निर्धारित करणे शक्य आहे. शब्द मुख्य क्रम, आणि, कोणत्या शोधा - अवलंबून, आम्ही प्रभावीपणे मजकूर माहिती काढू शकता आणि एक शोध विनंती प्रतिसाद आम्हाला मनोरंजक फक्त माहिती जारी मशीन शिकवण्यासाठी.

तसे, आधुनिक शोध इंजिन जसे संबंधित क्वेरी प्रतिसाद विशिष्ट क्रमांक ऐवजी लांब ग्रंथ देऊ हे वापरू किंवा "एक सफरचंद मध्ये कॅलरीज किती" "सेंट पीटर्सबर्ग मॉस्को ते अंतर." तथापि, किंवा इतर मूलभूत प्रशिक्षण "कॉर्पस भाषाविज्ञान परिचय" सल्ला गरज वर्णन प्रक्रिया अगदी प्राथमिक माहिती करून घेणे आहे.

शब्दार्थासंबंधीचा मार्कअप

शब्द रचना - सोप्या, अर्थ आहे. एक शब्द विशेषता टॅग शब्दार्थासंबंधीचा विश्लेषण, त्याच्या शब्दार्थासंबंधीचा श्रेण्या आणि उपवर्ग संच राहण्याचे परावर्तित प्रमाणात लागू दृष्टिकोन. अशी माहिती अल्गोरिदम मजकूर टोन, स्वयंचलित summarization आणि निधी भाषाशास्त्र इतर कामे पद्धती विश्लेषण अनुकूलित मौल्यवान आहे.

एक अतिशय विस्तृत शब्दच्छल एक गोषवारा शब्द प्रतिनिधीत्व झाड "मूळ", अनेक आहेत. झाड नोडस् शाखा स्थापना आहेत, अधिक आणि अधिक विशिष्ट एखाद्या भाषेतील शब्दसंग्रहासंबंधी घटक असलेली. उदाहरणार्थ, शब्द "प्राणी" "मानवी" आणि "प्राणी" म्हणून अशा संकल्पना संबंधित केले जाऊ शकते. वर्ग आणि प्राणी प्रकार - प्रथम शब्द विविध व्यवसाय, नाते अटी, राष्ट्रीयत्व, आणि दुसऱ्या मध्ये बाहेर शाखा सुरू राहील.

माहिती मिळवणे यंत्रणांचा वापर

निधी भाषाशास्त्र वापर क्षेत्र क्रियाकलाप विविध क्षेत्रात कव्हर. Housings शब्दकोश तयार करणे आणि सुधारणा वापरले जातात, स्वयंचलित अनुवाद प्रणाली, भाष्ये तथ्य पुनर्प्राप्त टोन आणि इतर मजकूर प्रक्रिया ठरवण्यासाठी तयार करा.

याच्या व्यतिरीक्त, अशा संसाधने सक्रियपणे जागतिक भाषा आणि सामान्य भाषा काम करणा-या यंत्रणा अभ्यास केला जातो. पूर्व तयार माहिती मोठ्या प्रमाणात प्रवेश विकास भाषा ट्रेंड जलद आणि व्यापक अभ्यास सुलभ, आणि स्थिर निर्मिती neologisms भाषण गती बदल एखाद्या भाषेतील शब्दसंग्रहासंबंधी युनिट आणि इतर किंमत आहे.

असल्याने डेटा एवढ्या मोठ्या प्रमाणात काम ऑटोमेशन आवश्यक आहे, आज संगणक आणि निधी भाषाशास्त्र दरम्यान बंद सुसंवाद आहे.

रशियन राष्ट्रीय कॉर्पस

या प्रकरणात (संक्षिप्त NKRYA) कार्ये विविधता एक स्त्रोत वापर परवानगी subcorpus संख्या, यांचा समावेश आहे.

डेटाबेस मध्ये साहित्य वाटून जातात NKRYA:

मीडिया '90s आणि वर्ष 2000 मधे, देशांतर्गत आणि परदेशी दोन्ही प्रकाशने;
रेकॉर्डिंग भाषण;
aktsentologicheski ग्रंथ चिन्हांकित (अर्थात, ताण गुण);
बोली भाषण;
कविता;
वितरकांची आणि इतर खुणा साहित्य.

माहिती प्रणाली रशियन पासून कामे समांतर अनुवाद इंग्रजी, जर्मन, फ्रेंच आणि इतर अनेक भाषा (आणि उलट) मध्ये सह Subcorpus समावेश आहे.

तसेच डेटाबेस मध्ये त्याच्या विकासाच्या वेगवेगळ्या कालावधीत रशियन लिहिले भाषण प्रतिनिधीत्व ऐतिहासिक ग्रंथ विभाग, आहे. एक प्रशिक्षण शरीर, रशियन भाषा प्राविण्य मध्ये परदेशी नागरिकांना उपयोगी असू शकते जे आहे.

रशियन राष्ट्रीय कॉर्पस समावेश 400 दशलक्ष एखाद्या भाषेतील शब्दसंग्रहासंबंधी युनिट आणि पुढे युरोप मृतदेह भाषा लक्षणीय भाग अनेक मार्गांनी.

संभावना

हा कल ओळख नावे खरं परदेशी तसेच रशियन विद्यापीठांमध्ये प्रयोगशाळा निधी भाषाशास्त्र सर्वांत उपलब्धता आहे. ही माहिती आणि शोध स्त्रोत फ्रेमवर्क मध्ये वापर आणि संशोधन उच्च तंत्रज्ञान, प्रश्न-उत्तर प्रणाली क्षेत्रात काही भागात विकास करावा लागत, पण तो वरील चर्चा आहे.

निधी भाषाशास्त्र पुढील विकास, सर्व स्तरांवर अंदाज आहे तांत्रिक आणि शोध आणि प्रक्रिया माहिती सक्षम संगणक, प्रक्रिया अनुकूल नवीन अल्गोरिदम, अधिक रॅम अंमलबजावणी दृष्टीने, आणि ग्राहक ह्या कारण वापरकर्ते त्यांच्या दैनंदिन संसाधन हा प्रकार वापरू अधिक आणि अधिक मार्ग आहेत जीवन आणि कार्य.

शेवटी

spaceships विश्व प्रवास आणि यंत्रमानव लोक सर्व काम जेथे 2017 मध्ये गेल्या शतकाच्या मध्यभागी, लांबच्या भविष्यात होती. खरं तर, विज्ञान "पांढरे दाग" आणि त्रास शतके मानवजातीच्या प्रश्नांची उत्तरे असाध्य प्रयत्न करत यांचे दर्शन घडते आहे. भाषा काम प्रश्न येथे मानाचे स्थान व्यापू, आणि कॅबिनेट व संगणकीय भाषाशास्त्र आम्हाला त्यांची उत्तरे मदत करू शकता.

मोठ्या डेटा सेट प्रक्रिया नमुन्यांची ओळखू शकतो, पूर्वी प्रवेश, जवळजवळ रिअल टाइम मध्ये शब्द निर्मिती ट्रॅक विशिष्ट भाषा वैशिष्ट्ये विकास अंदाज.

एक व्यावहारिक पातळी रोजी जागतिक मांडणीसह उदाहरणार्थ, पाहिली जाऊ शकतात, सार्वजनिक मूड मूल्यांकन करण्यासाठी संभाव्य साधन म्हणून - इंटरनेट रिअल वापरकर्त्यांद्वारे तयार केलेली अद्ययावत दररोज विविध ग्रंथ आहे, ही टिप्पण्या आणि पुनरावलोकने, आणि लेख, आणि भाषण इतर अनेक फॉर्म.

याव्यतिरिक्त, संस्था काम माहिती मिळवणे सहभागी आहेत तेच हार्डवेअर, विकास योगदान, आम्ही सेवा "Google" किंवा "Yandex", मशीन अनुवाद, इलेक्ट्रॉनिक शब्दकोश परिचित आहेत.

आम्ही आत्मविश्वासाने निधी भाषाशास्त्र फक्त प्रथम चरण करते आहे ठासून सांगत शकता, आणि नजीकच्या भविष्यात भरभराट होईल.

निर्मिती, महाविद्यालये आणि विद्यापीठे

कॉर्पस भाषाविज्ञान काय आहे?

निधी भाषाशास्त्र इतिहास

गृहनिर्माण काय आहेत

अर्ज

इमारती वापर

तयार करण्याची प्रक्रिया

इमारती तयार अडचणी

morphological टॅगिंग

वितरकांची भाष्य

शब्दार्थासंबंधीचा मार्कअप

माहिती मिळवणे यंत्रणांचा वापर

रशियन राष्ट्रीय कॉर्पस

संभावना

शेवटी

Similar articles

निर्मिती

निर्मिती

निर्मिती

निर्मिती

निर्मिती

निर्मिती

Trending Now

खाद्यपदार्थ आणि पेय

बातम्या आणि समाज

प्रवास

स्वत: ची लागवड

घर आणि कुटुंब

छंद

Newest

कायदा

निर्मिती

प्रवास

आरोग्य

खाद्यपदार्थ आणि पेय

प्रवास