Computational linguistics. Kasaysayan, pag-unlad at pagtatatag ng computational linguistics bilang isang siyentipikong direksyon

Linguistics (mula sa Latin lingua -
wika), linggwistika, linggwistika - agham,
pag-aaral ng mga wika.
Ito ang agham ng likas na wika ng tao sa pangkalahatan
at tungkol sa lahat ng mga wika sa mundo na katulad niya
mga indibidwal na kinatawan.
SA sa malawak na kahulugan salita, lingguwistika
nahahati sa siyentipiko at praktikal. Mas madalas
kung ano ang ibig sabihin ng linggwistika ay tiyak
siyentipikong lingguwistika. Ito ay bahagi ng semiotics bilang
agham ng mga palatandaan.
Ang linguistic ay propesyonal na pinag-aaralan ng mga linguistic scientist.

Linggwistika at Computer Science.
Sa buhay modernong lipunan Ang mga awtomatikong sistema ay may mahalagang papel
Teknolohiya ng impormasyon. Ngunit ang pag-unlad ng teknolohiya ng impormasyon ay nangyayari
lubhang hindi pantay: kung ang modernong antas ng teknolohiya ng computer at
paraan ng komunikasyon amazes ang imahinasyon, pagkatapos ay sa larangan ng semantic processing
impormasyon, ang mga tagumpay ay mas katamtaman. Ang mga tagumpay na ito ay nakasalalay, una sa lahat, sa
mga tagumpay sa pag-aaral ng mga proseso ng pag-iisip ng tao, mga proseso ng pagsasalita
komunikasyon sa pagitan ng mga tao at ang kakayahang gayahin ang mga prosesong ito sa isang computer. At ito ay isang gawain ng matinding kumplikado. Pagdating sa paglikha ng promising
teknolohiya ng impormasyon, pagkatapos ay ang mga problema ng awtomatikong pagpoproseso ng teksto
ang impormasyong ipinakita sa natural na mga wika ay nauuna.
Ito ay tinutukoy ng katotohanan na ang pag-iisip ng isang tao ay malapit na konektado sa kanyang wika. Higit pa
Bukod dito, ang natural na wika ay isang kasangkapan ng pag-iisip. Siya rin
unibersal na lunas komunikasyon sa pagitan ng mga tao - isang paraan ng pang-unawa,
akumulasyon, imbakan, pagproseso at paghahatid ng impormasyon.
Mga problema sa paggamit ng natural na wika sa awtomatiko
Ang agham ng computer linguistics ay tumatalakay sa pagproseso ng impormasyon. Ang agham na ito
lumitaw kamakailan - sa pagliko ng ikalimampu at ikaanimnapung taon
noong nakaraang siglo. Sa una, sa panahon ng pagbuo nito, mayroon itong iba't ibang
mga pamagat: mathematical linguistics, computational linguistics, engineering
linggwistika. Ngunit noong unang bahagi ng dekada otsenta ang pangalan ay itinalaga dito
computational linguistics.

Ang computational linguistics ay isang larangan ng kaalaman na may kaugnayan sa paglutas ng problema
awtomatikong pagproseso ng impormasyong ipinakita sa natural na wika.
Ang mga sentrong pang-agham na problema ng computational linguistics ay ang problema
pagmomodelo sa proseso ng pag-unawa sa kahulugan ng mga teksto (transisyon mula sa teksto tungo sa
pormal na representasyon ng kahulugan nito) at ang problema ng speech synthesis (transisyon mula sa
pormal na representasyon ng kahulugan sa mga teksto sa natural na wika). Ang mga problemang ito
lumitaw kapag nilulutas ang isang bilang ng mga inilapat na problema:
1) awtomatikong pagtuklas at pagwawasto ng mga error kapag nagpapasok ng mga teksto sa isang computer,
2) awtomatikong pagsusuri at synthesis ng oral speech,
3) awtomatikong pagsasalin ng mga teksto mula sa isang wika patungo sa isa pa,
4) komunikasyon sa isang computer sa natural na wika,
5) awtomatikong pag-uuri at pag-index ng mga dokumento ng teksto, ang kanilang
awtomatikong abstracting, paghahanap ng mga dokumento sa full-text database.
Sa nakalipas na kalahating siglo sa larangan ng computational linguistics doon ay nakuha
makabuluhang siyentipiko at praktikal na mga resulta: nilikha ang mga sistema ng makina
pagsasalin ng mga teksto mula sa isang natural na wika patungo sa isa pa, mga awtomatikong sistema
paghahanap ng impormasyon sa mga teksto, mga sistema para sa awtomatikong pagsusuri at synthesis ng oral speech at
marami pang iba. Ngunit mayroon ding mga pagkabigo. Halimbawa, ang problema ng machine translation
ang mga teksto mula sa isang wika patungo sa isa pa ay naging mas mahirap kaysa sa naisip
mga pioneer ng machine translation at kanilang mga tagasunod. Ang parehong ay maaaring sinabi tungkol sa
awtomatikong paghahanap para sa impormasyon sa mga teksto at ang gawain ng pagsusuri at synthesis ng oral
talumpati. Ang mga siyentipiko at inhinyero ay tila kailangang magtrabaho nang higit pa
makamit ang ninanais na resulta.

natural na pagpoproseso ng wika; syntactic,
morphological, semantic analysis ng teksto). Kasama rin dito ang:
Corpus linguistics, paglikha at paggamit ng electronic text corpora
Paglikha ng mga electronic na diksyunaryo, thesauri, ontologies. Halimbawa, Lingvo. Mga diksyunaryo
ginamit, halimbawa, para sa awtomatikong pagsasalin at pagsuri sa pagbabaybay.
Awtomatikong pagsasalin ng mga teksto. Sikat sa mga tagasalin ng Ruso
ay Promt. Kilala sa mga libre Tagasalin ng Google Isalin
Awtomatikong pagkuha ng mga katotohanan mula sa teksto (pagkuha ng impormasyon)
pagkuha, pagmimina ng teksto)
Awtomatikong pagbubuod ng teksto. Ang tampok na ito ay pinagana
halimbawa, sa Microsoft Word.
Pagbuo ng mga sistema ng pamamahala ng kaalaman. Tingnan ang Mga Sistema ng Dalubhasa
Paglikha ng mga sistema ng pagsagot sa tanong.
Optical character recognition (OCR). Halimbawa, ang programang FineReader
Automatic Speech Recognition (ASR). Mayroong bayad at libreng software
Awtomatikong synthesis ng pagsasalita

TRABAHO NG KURSO

sa disiplina na "Informatics"

sa paksang: "Computational linguistics"


PANIMULA

1. Ang lugar at papel ng computational linguistics sa linguistic research

2. Mga modernong interface para sa computational linguistics

KONGKLUSYON

PANITIKAN


Panimula

Ang mga awtomatikong teknolohiya ng impormasyon ay may mahalagang papel sa buhay ng modernong lipunan. Sa paglipas ng panahon, ang kanilang kahalagahan ay patuloy na tumataas. Ngunit ang pag-unlad ng teknolohiya ng impormasyon ay hindi pantay: kung ang modernong antas ng teknolohiya ng computer at komunikasyon ay kamangha-mangha, kung gayon sa larangan ng pagproseso ng semantiko ng impormasyon, ang mga tagumpay ay mas katamtaman. Ang mga tagumpay na ito ay nakasalalay, una sa lahat, sa mga tagumpay sa pag-aaral ng mga proseso ng pag-iisip ng tao, ang mga proseso ng pandiwang komunikasyon sa pagitan ng mga tao at ang kakayahang gayahin ang mga prosesong ito sa isang computer.

Pagdating sa paglikha ng mga promising na teknolohiya ng impormasyon, ang mga problema ng awtomatikong pagproseso ng tekstong impormasyon na ipinakita sa mga natural na wika ay nauuna. Ito ay tinutukoy ng katotohanan na ang pag-iisip ng isang tao ay malapit na konektado sa kanyang wika. Bukod dito, ang natural na wika ay isang kasangkapan para sa pag-iisip. Ito rin ay isang unibersal na paraan ng komunikasyon sa pagitan ng mga tao - isang paraan ng pang-unawa, akumulasyon, imbakan, pagproseso at paghahatid ng impormasyon. Ang agham ng computer linguistics ay tumatalakay sa mga problema ng paggamit ng natural na wika sa mga awtomatikong sistema ng pagproseso ng impormasyon. Ang agham na ito ay lumitaw kamakailan - sa pagliko ng ikalimampu at ikaanimnapung taon ng huling siglo. Sa nakalipas na kalahating siglo, makabuluhang siyentipiko at praktikal na mga resulta ang nakuha sa larangan ng computer linguistics: mga sistema para sa makina na pagsasalin ng mga teksto mula sa isang natural na wika patungo sa isa pa, mga sistema para sa awtomatikong pagkuha ng impormasyon sa mga teksto, mga sistema para sa awtomatikong pagsusuri at synthesis ng oral pagsasalita, at marami pang iba ang nalikha. Ang gawaing ito ay nakatuon sa pagbuo ng isang pinakamainam na interface ng computer gamit ang computer linguistics kapag nagsasagawa ng linguistic na pananaliksik.


SA modernong mundo Ang computational linguistic ay lalong ginagamit sa iba't ibang linguistic na pag-aaral.

Ang computational linguistics ay isang larangan ng kaalaman na nauugnay sa paglutas ng mga problema ng awtomatikong pagproseso ng impormasyon na ipinakita sa natural na wika. Ang mga sentral na pang-agham na problema ng computer linguistics ay ang problema ng pagmomodelo ng proseso ng pag-unawa sa kahulugan ng mga teksto (transisyon mula sa teksto sa isang pormal na representasyon ng kahulugan nito) at ang problema ng speech synthesis (transisyon mula sa isang pormal na representasyon ng kahulugan sa mga teksto sa natural na paraan. wika). Ang mga problemang ito ay lumitaw kapag nilulutas ang isang bilang ng mga inilapat na problema at, lalo na, ang mga problema ng awtomatikong pagtuklas at pagwawasto ng mga error kapag nagpapasok ng mga teksto sa isang computer, awtomatikong pagsusuri at synthesis ng oral speech, awtomatikong pagsasalin ng mga teksto mula sa isang wika patungo sa isa pa, komunikasyon sa isang computer sa natural na wika, awtomatikong pag-uuri at pag-index ng mga dokumento ng teksto, ang kanilang awtomatikong pag-abstract, paghahanap ng mga dokumento sa mga full-text na database.

Ang mga tool sa linggwistika na nilikha at ginamit sa computational linguistics ay maaaring nahahati sa dalawang bahagi: deklaratibo at prosidyural. Kasama sa bahaging deklaratibo ang mga diksyonaryo ng mga yunit ng wika at pananalita, mga teksto at iba't ibang uri ng mga talahanayan ng gramatika, ang bahaging pamamaraan ay kinabibilangan ng mga paraan ng pagmamanipula ng mga yunit ng wika at pananalita, mga teksto at mga talahanayan ng gramatika. Ang interface ng computer ay tumutukoy sa procedural na bahagi ng computational linguistics.

Ang tagumpay sa paglutas ng mga inilapat na problema ng computer linguistics ay nakasalalay, una sa lahat, sa pagkakumpleto at katumpakan ng representasyon ng mga deklaratibong paraan sa memorya ng computer at sa kalidad ng mga pamamaraang pamamaraan. Sa ngayon, ang kinakailangang antas ng paglutas ng mga problemang ito ay hindi pa nakakamit, bagama't ang gawain sa larangan ng computational linguistics ay isinasagawa sa lahat maunlad na bansa mundo (Russia, USA, England, France, Germany, Japan, atbp.).

Gayunpaman, mapapansin ang mga seryosong pang-agham at praktikal na tagumpay sa larangan ng computational linguistics. Kaya, sa isang bilang ng mga bansa (Russia, USA, Japan, atbp.) Ang mga eksperimental at pang-industriya na sistema para sa pagsasalin ng makina ng mga teksto mula sa isang wika patungo sa isa pa ay itinayo, ang isang bilang ng mga eksperimentong sistema para sa pakikipag-usap sa mga computer sa natural na wika ay binuo. , isinasagawa ang trabaho upang lumikha ng mga terminological data bank, thesaurus, bilingual at multilingual na mga diksyonaryo ng makina (Russia, USA, Germany, France, atbp.), Ang mga sistema para sa awtomatikong pagsusuri at synthesis ng oral speech ay itinatayo (Russia, USA, Japan, atbp. .), isinasagawa ang pananaliksik sa larangan ng pagbuo ng mga natural na modelo ng wika.

Ang isang mahalagang metodolohikal na problema ng inilapat na computational linguistics ay ang tamang pagtatasa ng kinakailangang relasyon sa pagitan ng mga bahagi ng deklaratibo at pamamaraan ng mga awtomatikong sistema ng pagproseso ng impormasyon ng teksto. Ano ang dapat na mas gusto: makapangyarihang mga pamamaraan sa pagkalkula batay sa medyo maliit na mga sistema ng bokabularyo na may maraming impormasyon sa gramatika at semantiko, o isang malakas na bahagi ng deklarasyon na may medyo simpleng mga interface ng computer? Karamihan sa mga siyentipiko ay naniniwala na ang pangalawang paraan ay mas kanais-nais. Ito ay hahantong sa pagkamit ng mga praktikal na layunin nang mas mabilis, dahil magkakaroon ng mas kaunting mga patay na dulo at mahirap na mga hadlang na malalampasan, at dito posible na gumamit ng mga computer sa mas malaking sukat upang i-automate ang pananaliksik at pag-unlad.

Ang pangangailangan na pakilusin ang mga pagsisikap, una sa lahat, sa pagbuo ng deklaratibong bahagi ng mga awtomatikong sistema ng pagproseso ng impormasyon ng teksto ay nakumpirma ng kalahating siglo ng karanasan sa pagbuo ng computer linguistics. Pagkatapos ng lahat, dito, sa kabila ng hindi maikakaila na mga tagumpay ng agham na ito, ang pagkahilig para sa mga algorithmic na pamamaraan ay hindi nagdala ng inaasahang tagumpay. Mayroong kahit ilang pagkabigo sa mga kakayahan ng pamamaraang paraan.

Sa liwanag ng itaas, tila nangangako na bumuo ng tulad ng isang landas ng pag-unlad ng computer linguistics, kapag ang mga pangunahing pagsisikap ay naglalayong lumikha ng makapangyarihang mga diksyunaryo ng mga yunit ng wika at pagsasalita, pag-aaral ng kanilang semantic-syntactic na istraktura at paglikha ng mga pangunahing pamamaraan para sa morphological, semantic-syntactic at conceptual analysis at synthesis ng mga teksto. Ito ay magbibigay-daan sa amin upang malutas ang isang malawak na hanay ng mga inilapat na problema sa hinaharap.

Ang computer linguistics ay nahaharap, una sa lahat, ang mga gawain ng suporta sa wika para sa mga proseso ng pagkolekta, pag-iipon, pagproseso at pagkuha ng impormasyon. Ang pinakamahalaga sa kanila ay:

1. Automation ng compilation at linguistic processing ng machine dictionaries;

2. Automation ng mga proseso ng pag-detect at pagwawasto ng mga error kapag naglalagay ng mga text sa isang computer;

3. Awtomatikong pag-index ng mga dokumento at kahilingan sa impormasyon;

4. Awtomatikong pag-uuri at pag-abstract ng mga dokumento;

5. Suporta sa wika para sa mga proseso ng pagkuha ng impormasyon sa mga database ng monolingual at multilingguwal;

6. Makinang pagsasalin ng mga teksto mula sa isang natural na wika patungo sa isa pa;

7. Pagbuo ng mga linguistic processor na nagsisiguro ng komunikasyon ng user sa mga automated na intelligent information system (lalo na, mga expert system) sa natural na wika, o sa isang wikang malapit sa natural;

8. Pagkuha ng makatotohanang impormasyon mula sa mga impormal na teksto.

Isaalang-alang natin nang detalyado ang mga problemang pinaka-kaugnay sa paksa ng pananaliksik.

Sa mga praktikal na aktibidad ng mga sentro ng impormasyon, mayroong pangangailangan upang malutas ang problema ng awtomatikong pagtuklas at pagwawasto ng mga error sa mga teksto kapag sila ay ipinasok sa isang computer. Ito kumplikadong gawain maaaring may kondisyon na nahahati sa tatlong gawain - mga gawain ng orthographic, syntactic at semantic na kontrol ng mga teksto. Ang una sa mga ito ay maaaring malutas gamit ang isang morphological analysis procedure na gumagamit ng medyo malakas na reference machine dictionary ng word stems. Sa proseso ng kontrol sa pagbabaybay, ang mga salita ng teksto ay napapailalim sa pagsusuri sa morphological, at kung ang mga batayan nito ay natukoy sa mga batayan ng sangguniang diksyunaryo, kung gayon ang mga ito ay ituturing na tama; kung hindi sila nakilala, kung gayon sila, na sinamahan ng isang microcontext, ay iniharap sa isang tao para sa pagtingin. Nakikita at itinatama ng isang tao ang mga baluktot na salita, at ginagawa ng kaukulang software system ang mga pagwawasto na ito sa naitama na teksto.

Ang gawain ng syntactic control ng mga teksto upang makita ang mga error sa mga ito ay mas mahirap kaysa sa gawain ng kontrol sa pagbabaybay. Una, dahil kabilang dito ang gawain ng pagkontrol sa pagbabaybay bilang obligadong bahagi nito, at, pangalawa, dahil hindi pa ganap na naresolba ang problema sa pagsusuri ng sintaktik ng mga impormal na teksto. Gayunpaman, ang bahagyang syntactic na kontrol ng mga teksto ay lubos na posible. Dito maaari kang pumunta sa dalawang paraan: alinman ay mag-compile ng mga diksyonaryo ng makina na may pantay na kinatawan ng mga sangguniang istrukturang sintaktik at ihambing ang mga istrukturang sintaktik ng sinuri na teksto sa kanila; o bumuo ng isang kumplikadong sistema ng mga panuntunan para sa pagsuri sa pagkakapare-pareho ng gramatika ng mga elemento ng teksto. Ang unang landas ay tila sa amin ay mas promising, bagaman ito, siyempre, ay hindi ibinubukod ang posibilidad ng paggamit ng mga elemento ng pangalawang landas. Ang syntactic na istraktura ng mga teksto ay dapat na inilarawan sa mga tuntunin ng mga klase ng gramatika ng mga salita (mas tiyak, sa anyo ng mga pagkakasunud-sunod ng mga hanay ng gramatikal na impormasyon para sa mga salita).

Ang gawain ng kontrol ng semantiko ng mga teksto upang makita ang mga error sa semantiko sa mga ito ay dapat na uriin bilang isang gawain artipisyal na katalinuhan. Ito ay malulutas nang buo sa batayan lamang ng pagmomodelo ng mga proseso ng pag-iisip ng tao. Sa kasong ito, tila kinakailangan na lumikha ng makapangyarihang mga base ng kaalaman sa ensiklopediko at mga tool sa software para sa pagmamanipula ng kaalaman. Gayunpaman, para sa limitadong mga lugar ng paksa at para sa pormal na impormasyon, ang gawaing ito ay ganap na malulutas. Dapat itong ipose at lutasin bilang isang problema ng semantic-syntactic na kontrol ng mga teksto.

linguistics statistical linguistics software

Kasaysayan ng pag-unlad ng computational linguistics

Ang proseso ng pagbuo at pagbuo ng modernong linggwistika bilang agham ng natural na wika ay mahaba Makasaysayang pag-unlad kaalaman sa lingguwistika. Ang kaalaman sa linggwistika ay batay sa mga elemento na nabuo sa proseso ng mga aktibidad na hindi magkakaugnay na nauugnay sa pagbuo ng istraktura ng pagsasalita sa bibig, ang paglitaw, karagdagang pag-unlad at pagpapabuti ng pagsulat, pag-aaral na magsulat, pati na rin ang interpretasyon at pag-decode ng mga teksto.

Sinasakop ng likas na wika bilang isang bagay ng linggwistika gitnang lugar sa agham na ito. Sa proseso ng pagbuo ng wika, nagbago din ang mga ideya tungkol dito. Kung hindi ibinigay noon espesyal na kahalagahan panloob na organisasyon wika, at ito ay itinuturing na pangunahin sa konteksto ng pakikipag-ugnayan sa labas ng mundo, pagkatapos, simula sa huli XIX- simula ng ika-20 siglo, isang espesyal na tungkulin ang ibinibigay sa panloob na pormal na istruktura ng wika. Sa panahong ito na binuo ng sikat na Swiss linguist na si Ferdinand de Saussure ang mga pundasyon ng mga agham tulad ng semiology at structural linguistics, at itinakda nang detalyado sa kanyang aklat na "A Course in General Linguistics" (1916).

Ang siyentipiko ay may ideya na isaalang-alang ang wika bilang isang solong mekanismo, isang mahalagang sistema ng mga palatandaan, na ginagawang posible na ilarawan ang wika sa matematika. Si Saussure ang unang nagmungkahi ng isang istruktural na diskarte sa wika, ibig sabihin: isang paglalarawan ng wika sa pamamagitan ng pag-aaral ng mga relasyon sa pagitan ng mga yunit nito. Sa pamamagitan ng mga yunit, o “mga palatandaan,” naunawaan niya ang isang salita na pinagsasama ang kahulugan at tunog. Ang konsepto na iminungkahi ng Swiss scientist ay batay sa teorya ng wika bilang isang sistema ng mga palatandaan na binubuo ng tatlong bahagi: wika (mula sa French langue), pagsasalita (mula sa French parole) at aktibidad sa pagsasalita(mula sa wikang Pranses).

Tinukoy mismo ng siyentipiko ang agham na nilikha niya bilang semiology bilang "isang agham na nag-aaral sa buhay ng mga palatandaan sa loob ng balangkas ng buhay ng lipunan." Dahil ang wika ay isang sign system, sa paghahanap ng isang sagot sa tanong kung anong lugar ang linguistics ay sumasakop sa iba pang mga agham, Saussure argued na ang linguistics ay bahagi ng semiology. Karaniwang tinatanggap na ang Swiss philologist ang naglatag ng teoretikal na pundasyon para sa isang bagong direksyon sa linggwistika, na naging tagapagtatag at "ama" ng modernong linggwistika.

Natanggap ang konseptong iniharap ni F. de Saussure karagdagang pag-unlad sa mga gawa ng maraming mga natitirang siyentipiko: sa Denmark - L. Hjelmslev, sa Czech Republic - N. Trubetskoy, sa USA - L. Bloomfield, 3. Harris, N. Chomsky. Tulad ng para sa ating bansa, dito nagsimula ang structural linguistics sa pag-unlad nito sa humigit-kumulang sa parehong panahon tulad ng sa Kanluran - sa pagliko ng ika-19-20 siglo. - sa mga gawa ni F. Fortunatov at I. Baudouin de Courtenay. Dapat pansinin na ang I. Baudouin de Courtenay ay nagtrabaho nang malapit sa F. de Saussure. Kung inilatag ni Saussure ang teoretikal na pundasyon ng istrukturang linggwistika, kung gayon si Baudouin de Courtenay ay maituturing na taong naglatag ng mga pundasyon para sa praktikal na aplikasyon ng mga pamamaraan na iminungkahi ng Swiss scientist. Siya ang nagbigay kahulugan sa linggwistika bilang isang agham na gumagamit ng mga istatistikal na pamamaraan at functional dependencies, at pinaghiwalay ito mula sa philology. Ang unang karanasan sa aplikasyon ng mga pamamaraang matematikal sa linggwistika ay ponolohiya - ang agham ng istruktura ng mga tunog ng isang wika.

Dapat pansinin na ang mga postulate na iniharap ni F. de Saussure ay naipakita sa mga problema ng linggwistika na may kaugnayan sa kalagitnaan ng ika-20 siglo. Sa panahong ito nagkaroon ng malinaw na tendensya patungo sa mathematization ng agham ng wika. Sa halos lahat ng malalaking bansa, nagsisimula ang mabilis na pag-unlad ng teknolohiya ng agham at kompyuter, na nangangailangan naman ng mga bagong pundasyong pangwika. Ang resulta ng lahat ng ito ay ang mabilis na rapprochement ng eksakto at human sciences, pati na rin ang aktibong interaksyon ng matematika at linggwistika. praktikal na gamit kapag nilulutas ang kasalukuyang mga suliraning pang-agham.

Noong 50s ng ika-20 siglo, sa junction ng mga agham tulad ng matematika, linggwistika, computer science at artificial intelligence, isang bagong sangay ng agham ang lumitaw - ang computer linguistics (kilala rin bilang machine linguistics o awtomatikong pagproseso ng teksto sa natural na wika). Ang mga pangunahing yugto ng pag-unlad ng direksyon na ito ay naganap laban sa backdrop ng ebolusyon ng mga pamamaraan ng artificial intelligence. Ang isang malakas na impetus para sa pagbuo ng computer linguistics ay ang paglikha ng mga unang computer. Gayunpaman, sa pagdating ng isang bagong henerasyon ng mga computer at programming language noong 60s, sa panimula bagong yugto sa pag-unlad ng agham na ito. Dapat ding tandaan na ang mga pinagmulan ng computational linguistics ay bumalik sa mga gawa ng sikat na American linguist na si N. Chomsky sa larangan ng pagpormal sa istruktura ng wika. Ang mga resulta ng kanyang pananaliksik, na nakuha sa intersection ng linguistics at matematika, ay naging batayan para sa pagbuo ng teorya ng mga pormal na wika at grammar (generative, o generative, grammars), na malawakang ginagamit upang ilarawan ang parehong natural at artipisyal. mga wika, sa partikular na mga programming language. Upang maging mas tumpak, ang teoryang ito ay isang ganap na matematikal na disiplina. Maaari itong ituring na isa sa mga una sa direksyon ng inilapat na linggwistika bilang matematikal na linggwistika.

Ang mga unang eksperimento at unang pag-unlad sa computational linguistics ay nauugnay sa paglikha ng mga machine translation system, pati na rin ang mga system na nagmomodelo ng mga kakayahan sa wika ng tao. Sa pagtatapos ng dekada 80, kasama ang pagdating at aktibong pag-unlad Sa Internet, nagkaroon ng mabilis na paglaki sa dami ng impormasyon sa teksto na magagamit sa sa elektronikong format. Ito ay humantong sa katotohanan na ang mga teknolohiya sa pagkuha ng impormasyon ay lumipat sa isang qualitatively bagong yugto ng kanilang pag-unlad. Ang pangangailangan ay lumitaw para sa awtomatikong pagproseso ng mga teksto sa natural na wika, at ganap na bagong mga gawain at teknolohiya ang lumitaw. Ang mga siyentipiko ay nahaharap sa problema ng mabilis na pagproseso ng isang malaking stream ng hindi nakabalangkas na data. Upang makahanap ng solusyon sa problemang ito pinakamahalaga nagsimulang tumuon sa pagbuo at aplikasyon paraang istatistikal sa larangan ng awtomatikong pagpoproseso ng teksto. Sa tulong nila ito nangyari posibleng solusyon tulad ng mga gawain tulad ng paghahati ng mga teksto sa mga kumpol na pinagsama ng isang karaniwang tema, pag-highlight ng ilang mga fragment sa teksto, atbp. Bilang karagdagan, ang paggamit ng mga pamamaraan mga istatistika ng matematika at machine learning na naging posible upang malutas ang mga problema ng speech recognition at ang paglikha ng mga search engine.

Ang mga siyentipiko ay hindi huminto sa mga resulta na nakamit: patuloy silang nagtakda ng kanilang sarili ng mga bagong layunin at layunin, bumuo ng mga bagong pamamaraan at pamamaraan ng pananaliksik. Ang lahat ng ito ay humantong sa katotohanan na ang linggwistika ay nagsimulang kumilos bilang isang inilapat na agham, na pinagsasama ang isang bilang ng iba pang mga agham, ang nangungunang papel kung saan kabilang ang matematika kasama ang pagkakaiba-iba nito. quantitative na pamamaraan at ang kakayahang gamitin ang mga ito para sa mas malalim na pag-unawa sa mga phenomena na pinag-aaralan. Ito ay kung paano nagsimula ang mathematical linguistics sa pagbuo at pag-unlad nito. Naka-on sa sandaling ito ito ay isang medyo "batang" agham (ito ay umiral nang humigit-kumulang limampung taon), gayunpaman, sa kabila ng napaka "bata nitong edad", ito ay kumakatawan sa isang naitatag na larangan. siyentipikong kaalaman na may maraming matagumpay na tagumpay.

Panimula

Ano ang computational linguistics?

COMPUTER LINGUISTICS , isang direksyon sa inilapat na linggwistika, na nakatuon sa paggamit ng mga tool sa computer - mga programa, teknolohiya ng computer para sa pag-aayos at pagproseso ng data - upang i-modelo ang paggana ng wika sa ilang partikular na kundisyon, sitwasyon, lugar ng problema, atbp., pati na rin ang buong saklaw ng aplikasyon ng mga modelo ng computer ng wika sa linggwistika at mga kaugnay na disiplina. Sa totoo lang, sa huling kaso lamang at pinag-uusapan natin tungkol sa inilapat na linggwistika sa mahigpit na kahulugan, dahil ang computer modelling ng wika ay maaari ding ituring bilang isang larangan ng aplikasyon ng computer science at programming theory sa paglutas ng mga problema sa agham ng wika. Gayunpaman, sa pagsasagawa, ang computational linguistics ay kinabibilangan ng halos lahat ng bagay na may kaugnayan sa paggamit ng mga computer sa linguistics.

Ang computational linguistics ay nabuo bilang isang espesyal na larangang pang-agham noong 1960s. Ang terminong Ruso na "computer linguistics" ay isang pagsasalin mula sa Ingles na computational linguistics. Dahil ang pang-uri na computational sa Ruso ay maaari ding isalin bilang "computational," ang terminong "computational linguistics" ay matatagpuan din sa panitikan, ngunit sa agham ng Russia ito ay tumatagal ng isang mas makitid na kahulugan, na lumalapit sa konsepto ng "quantitative linguistics." Napakalaki ng daloy ng mga publikasyon sa lugar na ito. Bilang karagdagan sa mga pampakay na koleksyon, ang journal na Computer Linguistics ay inilathala kada quarter sa Estados Unidos. Mas malaking organisasyon at gawaing siyentipiko ay isinasagawa ng Association for Computational Linguistics, na may mga istrukturang panrehiyon (sa partikular, isang sangay sa Europa). Bawat dalawang taon, ang mga internasyonal na kumperensya sa computational linguistics – COLING – ay ginaganap. Ang kaukulang mga isyu ay karaniwang malawak na kinakatawan sa iba't ibang mga kumperensya sa artificial intelligence.

Mga gawain

Computational linguistics tinatanggap ang mga aktwal na problemang pangwika ng pagmomodelo ng kompyuter ng aktibidad ng wika. Ang mga layunin nito ay bumuo ng mas tumpak at kumpletong mga modelong pangwika at mas advanced na pagsusuri at synthesis algorithm.

Ang mga pangunahing direksyon ay maaaring makilala:

1) Pakikipag-ugnayan sa pagitan ng tao at computer: kontrol - programming language, paglilipat ng impormasyon - interface.

2) Paggawa gamit ang mga teksto: pag-index, pagsusuri at pag-uuri, awtomatikong pag-edit (pagwawasto ng error), pagkilala sa kaalaman, pagsasalin ng makina.

Kwento

Ang simpleng henerasyon ng isang subset ng wikang Ingles para sa pag-access sa mga database ay ibinigay ng isa sa mga unang sistemang Amerikano na LIFER (Language Interface Facility na may Elipsis at Recursion), na nilikha noong 70s. Kasunod nito, lumitaw ang iba pang mas nababaluktot na sistema sa merkado ng computer, na nagbibigay ng limitadong natural na interface ng wika sa isang computer.

Noong dekada 80, maraming kumpanya ang nabuo sa Estados Unidos na nakikibahagi sa pagbuo at pagbebenta ng mga natural na interface ng wika na may mga database at mga sistema ng eksperto. Noong 1985 Ang Semantek Corporation ay nagpakita ng naturang Q&A software package, at ang kumpanya ng Carnegie Group ay nag-alok ng katulad na LanguageCraft package.

Ang aktibong gawain ay isinasagawa upang lumikha ng mga awtomatikong sistema ng pagsasalin. Ang awtomatikong sistema ng pagsasalin na SYSTRAN, na binuo sa ilalim ng pamumuno ni D. Tom para sa US Air Force, ay naging laganap. Noong 1974 - 1975 Ang sistema ay ginamit ng NASA aerospace association upang isalin ang mga dokumento para sa Apollo-Soyuz project. Sa ngayon, nagsasalin siya ng humigit-kumulang 100,000 mga pahina taun-taon mula sa ilang wika.

Sa Europa, ang gawain sa paglikha ng mga sistema ng pagsasalin ng computer ay pinasigla ng pagbuo ng European Information Network (EURONET DIANA). Noong 1982, inihayag ng European Economic Community ang paglikha ng European program na EUROTRA, na ang layunin ay bumuo ng isang computer-assisted translation system para sa lahat ng European na wika. Ang proyekto ay unang tinantya sa $12 milyon; noong 1987, tinukoy ng mga eksperto ang kabuuang gastos ng proyektong ito sa higit sa $160 milyon.

Sa Japan, ang pananaliksik sa computational linguistics ay nakasentro sa buong bansa na ikalimang henerasyong programa ng kompyuter na inihayag noong 1981.

Mayroong ilang mga proyektong militar upang lumikha ng mga interface ng tao-machine sa natural na wika. Sa Estados Unidos, ang mga ito ay isinasagawa pangunahin sa loob ng balangkas ng Strategic Computer Initiative, isang sampung taong programa na pinagtibay ng Kagawaran ng Depensa noong 1983. Ang layunin nito ay lumikha ng isang bagong henerasyon ng "matalinong" mga armas at sistema ng militar sa upang matiyak ang pangmatagalang teknolohikal na kahusayan ng Estados Unidos.

Naturally, ang mga espesyalista sa artificial intelligence, na bihasa sa mga computer at programming language, ay masigasig na nagsimulang lutasin ang problema sa pag-unawa sa wika gamit ang kanilang sariling mga pamamaraan. Nagkaroon ng paghahanap para sa mga natural na algorithm ng wika. Ang mga kumplikadong programa sa pag-unawa sa wika ay nilikha para sa napakakitid na espesyalisadong mga lugar, bahagyang machine translation program at marami pang iba ang ipinatupad. Ngunit walang tiyak na pag-unlad sa paglutas ng problema sa pag-unawa sa wika. Ang wika at mga tao ay konektado kaya kinailangan ng mga siyentipiko na harapin ang problema ng pag-unawa ng tao sa mundo. At ito na ang lugar ng pilosopiya.

Pangunahing konsepto ng linggwistika

Novoselova Irina

Bakit hindi lahat ng machine translation ay perpekto? Ano ang tumutukoy sa kalidad ng pagsasalin? Ang may-akda ba ay may sapat na kaalaman upang gamitin at palawakin ang mga umiiral na diksyunaryo ng computer? Hinahangad ng may-akda na magbigay ng mga sagot sa mga tanong na ito sa kanyang trabaho. Mag-ulat sa paksa - sa nakalakip na file, produkto mga aktibidad ng proyekto- sa portal ng paaralan

I-download:

Preview:

Bukas

Internasyonal

pananaliksik

pagpupulong

mga mag-aaral at mag-aaral sa high school

"Edukasyon. Ang agham. propesyon"

Seksyon "Banyagang lingguwistika"

"Computational linguistics"

Ginawa ni Novoselova Irina

Munisipal na institusyong pang-edukasyon gymnasium No. 39 "Classical"

10 "B" na klase

Scientific supervisor:

Chigrinyova Tatyana Dmitrievna,

guro sa Ingles pinakamataas na kategorya

Osipova Svetlana Leonidovna,

guro ng computer science sa pinakamataas na kategorya

Otradny

2011

  1. Mga salitang Ingles sa ICT

Tingnan mo sa website

  1. Ang aking eksperimento

Ang isa sa mga gawain ay ang pagsasagawa ng isang eksperimento, na binubuo ng paghahambing ng mga kakayahan ng iba't ibang computer mga diksyunaryong pangwika, ayon sa isang mas tumpak na tinatayang pagsasalin mula sa Ingles patungo sa Russian.

Sinubukan ang mga sumusunod na site:

  1. http://translate.eu/
  2. http://translate.google.ru/#ru
  3. http://www.langinfo.ru/index.php?div=6
  4. http://www2.worldlingo.com/ru/products_services/worldlingo_translator.html

Para sa kadalisayan ng eksperimento, pumili ako ng mga pangungusap na may sa iba't ibang antas kahirapan ng estilistikong pagsasalin. Ang mga input na parirala ay ang mga sumusunod:

1. Sinasabi ng isang bagong ulat na ang mga tinedyer ngayon ay mas makasarili kaysa noong 20 taon na ang nakararaan

(Sabi ng bagong ulat modernong mga tinedyer mas makasarili kaysa 20 taon na ang nakakaraan)

2. Naniniwala siya na ang mga video game at ang Internet ang pinakamalaking dahilan para sa tumaas na pagiging makasarili.

(Naniniwala siya na ang mga video game at Internet ang pinakamahalagang dahilan para sa pagtaas ng pagiging makasarili)

3. Nais nilang maging mas mahusay kaysa sa iba

(Nais nilang maging mas mahusay kaysa sa iba)

4. Nalaman niya na nagsimula ang malaking pagtaas mula noong taong 2000, kung saan naging sikat ang marahas na video game.

(Nakakita siya ng malaking pagtaas simula noong 2000 nang maging sikat ang marahas na video game)

Nang maisalin ang mga pangungusap na ito sa mga online na site ng tagapagsalin, nakuha ko ang mga sumusunod na resulta:

  1. http://translate.eu/