Какво изучава компютърната лингвистика? Компютърна лингвистика в HSE: Анастасия Бонч-Осмоловская за новата магистърска програма


Новоселова Ирина

Защо не всички машинни преводи са перфектни? Какво определя качеството на превода? Има ли авторът достатъчно знания, за да използва и разшири съществуващите компютърни речници? Авторката се опита да даде отговор на тези въпроси в своя труд. Докладът по темата е в прикачения файл, продуктът от дейността по проекта е в училищния портал

Изтегляне:

Преглед:

Отворете

Международен

изследвания

конференция

гимназисти и студенти

„Образование. Наука. професия"

Секция „Чуждоезикознание”

"Компютърна лингвистика"

Изпълнява Ирина Новоселова

Общинска образователна институция гимназия № 39 "Класическа"

10 "Б" клас

Научни ръководители:

Чигриньова Татяна Дмитриевна,

Учител по английски език от най-висока категория

Осипова Светлана Леонидовна,

учител по информатика от най-висока категория

Отрадни

2011

  1. Английски думи в ИКТ

Вижте в сайта

  1. Моят експеримент

Една от задачите е да се проведе експеримент, който включва сравняване на възможностите на различни компютърни лингвистични речници за по-точен и приблизителен превод от английски на руски.

Бяха тествани следните сайтове:

  1. http://translate.eu/
  2. http://translate.google.ru/#ru
  3. http://www.langinfo.ru/index.php?div=6
  4. http://www2.worldlingo.com/ru/products_services/worldlingo_translator.html

За чистотата на експеримента избрах изречения с различна степен на сложност на стилистичния превод. Фразите за въвеждане са както следва:

1. Нов доклад казва, че днешните тийнейджъри са по-егоистични, отколкото са били преди 20 години

(Нов доклад казва, че тийнейджърите днес са по-егоистични, отколкото преди 20 години)

2. Тя вярва, че видеоигрите и интернет са най-големите причини за този повишен егоизъм.

(Тя вярва, че видеоигрите и интернет са най-важните причини за нарастващия егоизъм)

3. Те искат да бъдат по-добри от другите

(Те искат да бъдат по-добри от останалите)

4. Тя установи, че голямото увеличение започва от 2000 г., когато видеоигрите с насилие стават наистина популярни.

(Тя откри голямо увеличение през 2000 г., когато видеоигрите с насилие станаха наистина популярни)

След като преведох тези изречения на сайтове за онлайн преводачи, получих следните резултати:

  1. http://translate.eu/

Терминът „компютърна лингвистика“ обикновено се отнася до широка област на използване на компютърни инструменти - програми, компютърни технологии за организиране и обработка на данни - за моделиране на функционирането на езика в определени условия, ситуации, проблемни области, както и обхвата на прилагане на компютърни модели на език не само в лингвистиката, но и в сродни дисциплини. Всъщност само в последния случай говорим за приложна лингвистика в тесния смисъл на думата, тъй като компютърното моделиране на езика може да се разглежда и като област на приложение на теорията на компютърните науки в областта на лингвистиката. Въпреки това, общата практика е, че областта на компютърната лингвистика обхваща почти всичко, свързано с използването на компютри в лингвистиката: „Терминът „компютърна лингвистика“ определя обща ориентация към използването на компютри за решаване на различни научни и практически проблеми, свързани с към езика, без да ограничава начините за решаване на тези проблеми."

Институционален аспект на компютърната лингвистика. Компютърната лингвистика се оформя като специална научна област през 60-те години. Потокът от публикации в тази област е много голям. В допълнение към тематичните колекции, списанието Computational Linguistics се публикува на всяко тримесечие в САЩ. Много организационна и научна работа се извършва от Асоциацията за компютърна лингвистика, която има регионални структури по целия свят (по-специално европейски клон). На всеки две години се провеждат международни конференции по компютърна лингвистика – COLING. Съответните въпроси също са широко представени на международни конференции за изкуствен интелект на различни нива.

Когнитивни инструменти за компютърна лингвистика

Компютърната лингвистика като специална приложна дисциплина се отличава преди всичко със своя инструмент - тоест с използването на компютърни инструменти за обработка на езикови данни. Тъй като компютърните програми, които моделират определени аспекти от функционирането на даден език, могат да използват различни инструменти за програмиране, изглежда няма нужда да говорим за общ метаезик. Това обаче не е вярно. Има общи принципи на компютърно моделиране на мисленето, които по някакъв начин се прилагат във всеки компютърен модел. Този език се основава на теорията на познанието, разработена в изкуствения интелект, и формира важен клон на когнитивната наука.

Основната теза на теорията на познанието гласи, че мисленето е процес на обработка и генериране на знания. „Знание“ или „знание“ се счита за категория, която не може да бъде дефинирана. Човешката когнитивна система действа като „процесор“, който обработва знанията. В епистемологията и когнитивната наука се разграничават два основни вида знание – декларативно („да знам какво“) и процедурно („да знам как“2)). Декларативното знание обикновено се представя под формата на набор от твърдения, твърдения за нещо. Типичен пример за декларативно знание може да се счита тълкуването на думи в обикновените обяснителни речници. Например чаша] - „малък съд за пиене с кръгла форма, обикновено с дръжка, изработен от порцелан, фаянс и др.“ Декларативното знание подлежи на процедура за проверка по отношение на „вярно-невярно“. Процедурните знания се представят като последователност (списък) от операции, действия, които трябва да бъдат извършени. Това са някои общи инструкции за действия в дадена ситуация. Типичен пример за процедурни знания са инструкциите за използване на домакински уреди.

За разлика от декларативното знание, процедурното знание не може да бъде проверено като вярно или невярно. Те могат да бъдат оценени само по успеха или неуспеха на алгоритъма.

Повечето от понятията на когнитивните инструменти на компютърната лингвистика са омоними: те едновременно обозначават някои реални обекти на човешката когнитивна система и начини за представяне на тези обекти в определени метаезици. С други думи, елементите на метаезика имат онтологичен и инструментален аспект. Онтологично разделянето на декларативно и процедурно познание съответства на различни видове познание на човешката когнитивна система. По този начин знанията за конкретни обекти, обекти на реалността са предимно декларативни, а функционалните способности на човек да ходи, да бяга и да управлява кола се реализират в когнитивната система като процедурни знания. Инструментално знанието (както онтологично процедурно, така и декларативно) може да бъде представено като набор от описания, описания и като алгоритъм или инструкция. С други думи, онтологично декларативно знание за обекта на реалността „маса“ може да бъде представено процедурно като набор от инструкции, алгоритми за неговото създаване, сглобяване (= творчески аспект на процедурното знание) или като алгоритъм за неговото типично използване (= функционален аспект на процедурното познание). В първия случай това може да бъде ръководство за начинаещ дърводелец, а във втория - описание на възможностите на офис бюро. Обратното също е вярно: онтологично процедурното знание може да бъде представено декларативно.

Изисква отделна дискусия дали всяко онтологично декларативно знание може да бъде представено като процедурно и всяко онтологично процедурно знание може да бъде представено като декларативно. Изследователите са съгласни, че всяко декларативно знание може по принцип да бъде представено процедурно, въпреки че това може да се окаже много разточително за когнитивната система. Обратното едва ли е вярно. Факт е, че декларативното знание е много по-ясно, по-лесно е за разбиране от процедурното знание. За разлика от декларативното знание, процедурното знание е предимно имплицитно. По този начин езиковата способност, като процедурно знание, е скрита от човек и не се осъзнава от него. Опитът да се експлицират механизмите на функциониране на езика води до дисфункция. Специалистите в областта на лексикалната семантика знаят например, че дългосрочната семантична интроспекция, необходима за изучаване на плана на съдържанието на една дума, води до факта, че изследователят частично губи способността си да прави разлика между правилните и неправилните употреби на анализираната дума. дума. Могат да се дадат и други примери. Известно е, че от гледна точка на механиката човешкото тяло е сложна система от две взаимодействащи махала.

В теорията на знанието се използват различни структури на знания за изучаване и представяне на знания – рамки, сценарии, планове. Според М. Мински, „фреймът е структура от данни, предназначена да представи стереотипна ситуация“ [Minsky 1978, p.254]. По-подробно можем да кажем, че рамката е концептуална структура за декларативно представяне на знания за типизирана тематично обединена ситуация, съдържаща слотове, свързани помежду си с определени семантични отношения. За по-голяма яснота рамката често се представя като таблица, чиито редове образуват слотове. Всеки слот има собствено име и съдържание (вижте таблица 1).

Таблица 1

Фрагмент от рамката "маса" в табличен изглед

В зависимост от конкретната задача рамковото структуриране може да бъде значително по-сложно; рамката може да съдържа вложени подрамки и препратки към други рамки.

Вместо таблица често се използва предикатна форма на представяне. В този случай рамката е под формата на предикат или функция с аргументи. Има и други начини за представяне на рамка. Например, той може да бъде представен като кортеж от следната форма: ( (име на рамка) (име на слот)) (стойност на слот,),..., (име на слот n) (стойност на слот l)).

Обикновено рамките в езиците за представяне на знания имат този тип.

Подобно на други когнитивни категории на компютърната лингвистика, понятието рамка е омоним. Онтологично той е част от човешката когнитивна система и в този смисъл рамката може да се сравни с понятия като гещалт, прототип, стереотип, схема. В когнитивната психология тези категории се разглеждат именно от онтологична гледна точка. Така Д. Норман разграничава два основни начина на съществуване и организация на знанието в човешката когнитивна система – семантични мрежи и схеми. „Схемите“, пише той, „са организирани пакети от знания, събрани, за да представят индивидуални, независими единици от знания. Моята схема за Сам може да съдържа информация, описваща физическите му характеристики, неговите дейности и личностни черти. Тази схема е свързана с други схеми, които описват другите му страни“ [Norman 1998, p. 359]. Ако вземем инструменталната страна на категорията рамка, то това е структура за декларативно представяне на знанието. В съществуващите AI системи рамките могат да образуват сложни структури от знания; Рамковите системи позволяват йерархия – един кадър може да бъде част от друг кадър.

По съдържание понятието рамка е много близко до категорията интерпретация. Наистина, слотът е аналог на валентността, запълването на слот е аналог на актанта. Основната разлика между тях е, че интерпретацията съдържа само лингвистично релевантна информация за съдържанието на думата, а рамката, първо, не е непременно обвързана с думата, и, второ, включва цялата информация, релевантна за дадена проблемна ситуация, в т.ч. включително екстралингвистични (познание за света) 3).

Сценарият е концептуална структура за процедурно представяне на знания за стереотипна ситуация или стереотипно поведение. Елементите на скрипта са стъпките на алгоритъм или инструкции. Обикновено се говори за „сценарий за посещение на ресторант“, „сценарий за покупка“ и т.н.

Първоначално рамката се използва и за процесуално представяне (срв. термина "процедурна рамка"), но сега терминът "сценарий" се използва по-често в този смисъл. Сценарият може да бъде представен не само като алгоритъм, но и като мрежа, чиито върхове съответстват на определени ситуации, а дъгите съответстват на връзки между ситуации. Наред с понятието сценарий някои изследователи използват категорията скрипт за компютърно моделиране на интелекта. Според Р. Шенк сценарият е определена общоприета, добре известна последователност от причинно-следствени връзки. Например разбирането на диалога

Навън вали като от кофи.

Все пак ще трябва да отидете до магазина: в къщата няма нищо за ядене - вчера гостите изметоха всичко.

се основава на неизрични семантични връзки като „ако вали, не е желателно да излизате навън, защото може да се разболеете“. Тези връзки образуват скрипт, който се използва от носителите на езика, за да разбират взаимно речта и неречевото поведение.

В резултат на прилагане на сценария към конкретна проблемна ситуация, a план). Планът се използва за процедурно представяне на знания за възможни действия, водещи до постигането на конкретна цел. Планът свързва цел с последователност от действия.

Най-общо планът включва последователност от процедури, които трансформират първоначалното състояние на системата в крайно състояние и водят до постигането на определена подцел и цел. В AI системите планът възниква в резултат на дейността по планиране или планиране на съответния модул - модулът за планиране. Процесът на планиране може да се основава на адаптиране на данни от един или повече сценарии, активирани чрез тестови процедури, за разрешаване на проблемна ситуация. Планът се изпълнява от изпълнителния модул, който контролира когнитивните процедури и физическите действия на системата. В елементарния случай планът в една интелигентна система е проста последователност от операции; в по-сложни варианти планът се свързва с конкретен субект, неговите ресурси, възможности, цели, подробна информация за проблемната ситуация и др. Появата на план възниква в процеса на комуникация между световния модел, част от който се формира от сценарии, модула за планиране и изпълнителния модул.

За разлика от сценария, планът е свързан с конкретна ситуация, конкретен изпълнител и цели постигането на конкретна цел. Изборът на план се ръководи от ресурсите на изпълнителя. Осъществимостта на план е предпоставка за генерирането му в когнитивна система, а характеристиката на осъществимостта не е приложима към сценарий.

Друго важно понятие е моделът на света. Под модел на света обикновено се разбира набор от знания за света, организиран по определен начин, характерен за когнитивна система или нейния компютърен модел. В малко по-обща форма за модел на света се говори като част от когнитивна система, която съхранява знания за структурата на света, неговите модели и т.н. В друго разбиране моделът на света се свързва с резултатите от разбирането на текст или, по-широко, дискурс. В процеса на разбиране на дискурса се изгражда неговият ментален модел, който е резултат от взаимодействието на плана на съдържанието на текста и знанието за света, характерен за даден субект [Johnson-Laird 1988, p. 237 ff]. Първото и второто разбиране често се комбинират. Това е типично за лингвистичните изследователи, работещи в рамките на когнитивната лингвистика и когнитивната наука.

Тясно свързано с категорията рамка е понятието сцена. Категорията сцена се използва главно в литературата като обозначение на концептуална структура за декларативно представяне на ситуации и техните части, актуализирани в речев акт и подчертани с езикови средства (лексеми, синтактични конструкции, граматически категории и др.) Бидейки свързана с езикови форми, една сцена често се актуализира от определена дума или израз. В граматиките на сюжета (вижте по-долу), сцена се появява като част от епизод или разказ. Типични примери за сцени са набор от кубчета, с които работи AI системата, местоположението на действието в историята и участниците в действието и др. В изкуствения интелект сцените се използват в системи за разпознаване на изображения, както и в програми, насочени към изследване (анализ, описание) на проблемни ситуации. Концепцията за сцена е широко разпространена в теоретичната лингвистика, както и в логиката, по-специално в ситуационната семантика, в която значението на лексикална единица е пряко свързано със сцената.

Компютърната лингвистика днес практически се е изчерпала. Това се доказва пряко от неуспешния опит на изследователи и разработчици на „интелигентни“ информационни продукти, които повече от половин век работят върху създаването на такива амбициозни програми като например адекватен машинен превод или семантично търсене на информация в масиви от документи на естествен език.

Бъдещето на машинната обработка на текстове на естествен език, разбира се, се вижда в създаването и развитието на надлингвистични технологии, способни да анализират съдържанието на информацията на ниво семантично разбиране на контекста, точно както човек може да направи. Създаването на „Мислещи машини” обаче дълго време беше възпрепятствано от два основни фактора – липсата на необходимата методология и подходящи инструменти за решаване на два фундаментални проблема – намиране на „формула на смисъла” и конструиране на „модел на знанието за вселената” в някаква формализирана форма, достъпна за компютърна форма, без която всъщност е невъзможно да се възпроизведе природата на човешкото мислене на програмно ниво.

Лингвистите, заедно с кибернетиците, не успяха да преодолеят тези проблеми, тъй като последните се намират извън границите на тяхната предметна специализация, поради което всъщност развитието на такива отдавна търсени приложни области на обработка на текст, като напр. например, създаването на „интелигентни“ системи за диалог значително забави или „семантични интернет търсачки“. И същият машинен превод все още оставя много да се желае.

Опитът от развитието на научния и технологичния прогрес показва, че желаният пробив в крайна сметка се получава, като правило, в пресечната точка на различни технологични области и предметни дисциплини. Очевидно проблемът с „машинното мислене” ще бъде решен точно тогава, когато разберем как точно работи нашето естествено съзнание в процедурен план и когато можем надеждно да разберем дали тези мисловни процедури, показани ни в необходимите и достатъчни количества, ще дадат резултат. до окончателното им компютърно алгоритмизиране.

Трябва да се отбележи, че през последните години започна да се развива нова („умен компютър“) научна дисциплина, която се занимава именно с изучаване на процедурния характер на човешката умствена дейност. Можем да кажем, че в момента имаме значителен пробив в тази посока и вече имаме доста ясна представа за това как работи алгоритъмът на човешкото мислене. Ако говорим за това като цяло, тогава, на първо място, трябва да се отбележи, че човек не мисли в образи, както обикновено се мисли, а в „модели на поведение на образи“ (MPB). Второ, ние мислим „онтологично“, тоест постоянно задаваме въпроси, без дори да забелязваме това, и постоянно търсим отговори на тях (също автоматично). И накрая, смисленото разбиране на всичко, което се случва около индивида или в неговото съзнание по време на всяко съзерцание, се осъществява именно с помощта на определена „представа за модел“ на заобикалящата вселена. Това се случва чрез сравняване на онези MPO, които той получава незабавно, с идеите за Вселената, съхранявани в човешката дългосрочна памет. Именно тези три основни стълба изграждат цялата технология на естественото мислене, която сега остава само да се преведе на разбираем за програмистите език и да се получи дългоочакваният резултат.

Когато хората разбират всяко съобщение на естествен език, те практически никога не установяват непосредствено съответствие между изразената преценка и концепциите и моделите на поведение на изображенията, съхранени в тяхната памет. Всеки път те дават на полученото (възприето) MPO първото асоциативно-евристично съответствие, което възниква в съзнанието им, въз основа на спецификата на натрупания опит и съществуващите знания, и едва тогава, в хода на по-нататъшното преосмисляне на текста, те започват да изясни и конкретизира получената информация. Компютърната лингвистика се стреми да установи точни съответствия на значенията на думите, както и на техните взаимни отношения, опитвайки се да преодолее проблема с полисемията на словесните средства, присъщи на всеки език, което всъщност е много различно от начина, по който работи нашето мислене. В края на краищата, човек постига разбиране на речта или текста изобщо не поради познаването на морфологичните натоварвания на думите или установяването на синтактични връзки между думите и дори не защото е разпознал специфичните значения (семантика) на думите, а точно поради до първоначални асоциативни предположения и последващо „итеративно превъртане“ на целия контекст“, за да се направи окончателна картина на съответствието на възприетата информация с нейното вътрешно съдържание.

план:

1. Какво е компютърна лингвистика?

2. Обект и предмет на компютърната лингвистика

4. Проблеми на компютърната лингвистика

5. Методи за изследване на компютърната лингвистика

6. История и причини за възникването на компютърната лингвистика

7. Основни термини на компютърната лингвистика

8. Учени, работещи по проблема на компютърната лингвистика

9. Асоциации и конференции по компютърна лингвистика

10. Използвана литература.


Компютърна лингвистика –самостоятелно направление в приложната лингвистика, фокусирано върху използването на компютри за решаване на проблеми, свързани с използването на естествен език. (Щилихина К.М.)


Компютърна лингвистика– като една от областите на приложната лингвистика, тя изучава лингвистичните основи на компютърните науки и всички аспекти на връзката между езика и мисленето, моделира езика и мисленето в компютърна среда с помощта на компютърни програми и нейните интереси са в областите на: 1) оптимизиране на комуникацията въз основа на лингвистични знания 2) създаване на естествен езиков интерфейс и типологии на езиково разбиране за комуникация човек-машина 3) създаване и моделиране на информационни компютърни системи (Sosnina E.P.)


Обект на компютърната лингвистика– анализ на езика в неговото естествено състояние, както се използва от хората в различни комуникационни ситуации, и как могат да бъдат формулирани характеристиките на езика.


Задачи на компютърната лингвистика:


Методи за изследване на компютърната лингвистика:

1. метод на моделиране-специален обект на изследване, който не е достъпен чрез пряко наблюдение. Според дефиницията на математика К. Шанън, моделът е представяне на обект в някаква форма, която е различна от формата на неговото реално съществуване.

2. Теоретичен метод за представяне на знанияпредполага методи за представяне на знания, които са ориентирани към автоматична обработка от съвременните компютри.

3. метод на теория на езика за програмиране(теория на езика за програмиране) е област на компютърните науки, свързана с проектирането, анализа, определянето на характеристиките и класификацията на езиците за програмиране и изучаването на техните индивидуални характеристики.


Причини за възникването на компютърната лингвистика

1. Появата на компютрите

2. Проблемът с комуникацията с компютри на необучени потребители


1. Система за търсене по речник, разработена в Birkbeck College в Лондон през 1948 г.

2. Меморандум на Уорън Уивър

3. Началото на въвеждането на първите компютри в областта на машинния превод

4. Проектът Джорджтаун през 1954 г


1. ALPAC (Консултативен комитет за автоматична обработка на езици) 2. нов етап в развитието на компютърните технологии и тяхното активно използване в лингвистични задачи 3. създаване на ново поколение компютри и езици за програмиране 4. нарастващ интерес към машинния превод 60

-70-те години на ХХ век


Краят на 80-те – началото на 90-те години на ХХ век

    Появата и активното развитие на Интернет

  • Бързо нарастване на обема на текстовата информация в електронен вид

  • Необходимостта от автоматична обработка на текстове на естествен език


1. Продукти на PROMT и ABBY (Lingvo) 2. Технологии за машинен превод 3. Технологии за преводна памет

Съвременни търговски системи

  • Съживяване на текстове

  • Комуникационни модели

  • Компютърна лексикография

  • Машинен превод

  • Корпус от текстове


Анализ на текст на естествен език

3 нива на структура на текста:
  • Повърхностна синтактична структура

  • Дълбока синтактична структура

  • Семантично ниво


Проблемът на синтеза е обратен на този в анализа

Оживяване на текста

1. Обмен на текстове чрез визуални изображения на екрана на дисплея

2. 2 модалности на човешкото мислене: символна и визуална.


1. Имитация на комуникационния процес 2. Създаване на ефективен диалогов модел Комуникационни модели


Хипертекст- специален начин за организиране и представяне на текст, при който няколко текста или фрагменти от текст могат да бъдат свързани помежду си с помощта на различни видове връзки.


Разлики между хипертекст и традиционен текст

Хипертекст

    1. обработка на говоримия език

  • 2. обработка на писмен текст


Обработка на устна реч

1. автоматичен синтез на реч

А) разработването на синтезатори за преобразуване на текст в реч. Включва 2 блока: блок за лингвистична обработка на текстИ блок за акустичен синтез.

2. автоматично разпознаване на реч


1) разпознаване на текст

2) анализ на текста

3) синтез на текст


IRS (система за извличане на информация)– това са софтуерни системи за съхранение, търсене и издаване на интересуваща информация.

Захаров В.П. вярва, че IPSе подреден набор от документи и информационни технологии, предназначени за съхраняване и извличане на информация - текстове или данни.


3 вида IPS

3 вида IPS

    Наръчник- Това е търсене в библиотеката.

  • МеханизиранаИПС са технически средства, които осигуряват подбора на необходимите документи

  • Автоматичен- търсене на информация с помощта на компютри


Компютърна лексикография

Компютърна лексикография– една от важните области на приложната лингвистика, занимава се с теорията и практиката на съставяне на речници.

Има 2 направления в лексикографията:
  • Традиционна лексикографиясъставя традиционни речници

  • Машинна лексикографиязанимава се с автоматизация на подготовката на речници и решава проблемите на разработването на електронни речници


Задачи на компютърната лексикография

  • Автоматично получаване на различни речници от текст

  • Създаване на речници, които са електронни версии на традиционни речници или сложни електронни лингвистични речници за традиционна речникова работа, например LINGVO

  • Разработване на теоретични и практически аспекти на съставянето на специални компютърни речници, например за извличане на информация, машинен превод


Машинен превод

Машинен превод– конвертиране на текст на един естествен език в друг естествен език с помощта на компютър.

Видове машинен превод
  • FAMT(Fully Automated Machine Translation) – напълно автоматичен превод

  • ХАМТ(Human Aided machine Translation) - машинен превод с човешко участие

  • MAHT(Machine Aided Human Translation) – превод, извършен от лице с помощта на допълнителен софтуер и езикови инструменти.


  • 2) професионален депутат– превод с по-високо качество, последван от човешка редакция

  • 3) интерактивен MP– се счита за превод в специални поддържащи системи; извършва се в диалогов режим с компютърна система. Качеството на MP зависи от опциите за персонализиране, ресурсите и вида на текстовете.

Корпус от текстове

Корпус от текстове- това е определена колекция от текстове, която се основава на логическа концепция, логическа идея, която обединява тези текстове.

Езиков корпус-голям, електронно представен, унифициран, структуриран, етикетиран, филологически компетентен масив от езикови данни, предназначени за решаване на специфични лингвистични проблеми.


Представителността е най-важното свойство на корпуса


Целта на езиковия корпус е да покаже функционирането на езиковите единици в тяхната естествена контекстуална среда



Въз основа на корпуса можете да получите следните данни:

1. за честотата на граматическите категории

2. относно промените в честотата

3. за промените в контекстите в различни периоди от време

5. за съвместната поява на лексикални единици

6. за характеристиките на тяхната съвместимост


Браун корпус


Корпус от текстове - това е определена колекция от текстове, която се основава на логическа концепция, логическа идея, която обединява тези текстове. Въплъщение на тази логическа идея: правила за организиране на текстове в корпус; алгоритми и програми за анализ на корпус от текстове; свързана идеология и методология. Национален корпус представлява даден език на определен етап (или етапи) от неговото съществуване и в цялото многообразие от жанрове, стилове, териториални и социални варианти и др. Основни термини на компютърната лингвистика

    Езици за програмиране (LP) е клас изкуствени езици, предназначени за обработка на информация с помощта на компютър. Всеки език за програмиране е строга (формална) знакова система, с помощта на която се пишат компютърни програми. Според различни оценки в момента има между хиляда и десет хиляди различни езика за програмиране.

  • Информатика(Компютърни науки) -науката за законите за записване, съхраняване, обработка, предаване и използване на информация с помощта на технически средства.



Търсене на информация (Извличане на информация) е процесът на намиране на такива документи (текстове, записи и

и т.н.), които съответстват на получената заявка.

« Система за търсене на информация (IPS) е подреден набор от документи (масиви от документи) и информационни технологии, предназначени за съхраняване и извличане на информация - текстове (документи) или данни (факти).

Машинна лексикография(Компютърна лексикография)се занимава с автоматизацията на подготовката на речници и решава проблемите на разработването на електронни

речници.

Машинен превод е компютърната трансформация на текст на едно

естествен език в еквивалентен по съдържание текст в друг

естествен език.

Хипертекст е технология за организиране на информация и специално структуриран текст, разделен на отделни блокове, имащи нелинейно представяне, за ефективно представяне на информация в компютърни среди.


    Рамка е структура за представяне на декларативно знание за типизирана тематично единна ситуация, т.е. структура на данните за стереотипна ситуация.

  • Сценарий - това е поредица от няколко епизода във времето, това също е представяне на стереотипна ситуация или стереотипно поведение, само елементите на сценария са стъпки от алгоритъм или инструкции.
  • Планирайте – представяне на знания за възможни действия, които са необходими за постигане на определена цел.



Учени в областта на компютърната лингвистика:

  • съветски и руски учени: Алексей Ляпунов, Игор Мелчук, Олга Кулагина, Ю.Д. Апресян, Н.Н. Леонтьева, Ю.С. Мартемянов, З.М. Шаляпина, Игор Богуславски, А.С. Нариняни, А.Е. Кибрик, Баранов А.Н.

  • западни учениЗвезди: Йорик Уилкс, Грегъри Грефенщет, Гравил Корбет, Джон Карол, Даяна Маккарти, Луис Маркес, Дан Молдован, Йоаким Нивре, Виктор Раскин, Едуард Хоуви.


Асоциации и конференции по компютърна лингвистика:
  • "диалог"- основната руска конференция по компютърна лингвистикас международно участие.

Приоритетът на диалога е компютърно моделиранеруски език. Работните езици на конференцията са руски и английски. За да се привлекат чуждестранни рецензенти, по-голямата част от приложените работи се изпращат на английски език.

Основни насоки на конференцията:
  • Езикова семантикаи семантичен анализ

  • Формални езикови модели и техните приложения

  • Теоретичен и компютърен лексикография

  • Методи за оценка на анализ на текст и системи за машинен превод

  • Корпусна лингвистика. Създаване, приложение, оценка на корпуси

  • Интернеткато езиков ресурс. Лингвистични технологии в Интернет

  • Онтологии. Извличане на знанияот текстове

  • Компютърен анализ на документи: рефериране, класификация, търсене

  • Автоматичен анализ на настроението на текстове

  • Машинен превод

  • Комуникационни модели. Комуникация, диалог и речев акт

  • Анализ и синтез на речта



2. Асоциация за компютърна лингвистика (ACL)е международно научно и професионално общество на хора, работещи по проблеми, свързани с естествения език и компютрите. Годишната среща се провежда всяко лято на места, където се провеждат значителни изследвания в областта на компютърната лингвистика. Основана през 1962 г., с първоначалното име Асоциация за машинен превод и компютърна лингвистика (AMTCL). През 1968 г. става ACL.
  • UACL има европейски (EACL)и Северна Америка (NAACL)клонове.

  • Списание ACL, Компютърна лингвистика, е основният форум за изследвания в областта на компютърната лингвистика и обработката на естествен език. От 1988 г. списанието се издава за ACL MIT Press.
  • Поредица от книги на ACL, Изследвания в обработката на естествен език, публикуван Cambridge University Press.

  • Всяка година ACL и неговите клонове организират международни конференции в различни страни.

ACL 2014 се проведе в Балтимор, САЩ.

  • Използвана литература:

  • 1. Марчук Ю.Н. Компютърна лингвистика: учебник/Ю.Н. Марчук.- М.: АСТ: Изток-Запад, 2007-317 с.

  • 2. Шилихина К.М. Основи на приложната лингвистика: учебник за специалност 021800 (031301) – Теоретична и приложна лингвистика, Воронеж, 2006 г.

  • 3. Боярски К.К. Въведение в компютърната лингвистика. Учебник. Санкт Петербург: НРУ ИТМО, 2013. - 72 с.

  • 4. Щипицина Л.Ю. Информационни технологии в лингвистиката: учебник / L.Yu. Щипицина.- М.: ФЛИНТА: наука, 2013.- 128 с.

  • 5. Соснина Е.П. Въведение в приложната лингвистика / E.P., 2-ро изд. и допълнителни – Уляновск: Уляновски държавен технически университет, 2012. -110 с.

  • 6. Баранов A.N. Въведение в приложната лингвистика: Учебник: Editorial URSS, 2001. - 360 с.

  • 7. Приложна лингвистика: Учебник / L.V. Бондарко, Л.А. Вербицкая, Г.Я. Мартиненко и др.; Представител Редактор A.S. Герд. Санкт Петербург: издателство Санкт Петербург. ун-т, 1996.- 528 с.

  • 8. Шемякин Ю.И. Начало на компютърната лингвистика: Учебник. М.: Издателство МГОУ, АО "Росвузнаука", 1992 г.

  • Компютърна лингвистика: методи, ресурси, приложения

    Въведение

    Срок компютърна лингвистика(CL) става все по-разпространено през последните години във връзка с разработването на различни приложни софтуерни системи, включително търговски софтуерни продукти. Това се дължи на бързото нарастване на текстовата информация в обществото, включително в Интернет, и необходимостта от автоматична обработка на текстове на естествен език (NL). Това обстоятелство стимулира развитието на компютърната лингвистика като научна област и развитието на нови информационни и лингвистични технологии.

    В рамките на компютърната лингвистика, която съществува повече от 50 години (и е известна още като машинна лингвистика, автоматична обработка на текст в NL) много обещаващи методи и идеи са предложени, но не всички от тях все още са намерили израз в софтуерни продукти, използвани в практиката. Нашата цел е да характеризираме спецификата на тази област на изследване, да формулираме нейните основни задачи, да посочим връзките й с други науки, да направим кратък преглед на основните използвани подходи и ресурси, както и да характеризираме накратко съществуващите приложения на CL. За по-подробно запознаване с тези проблеми можем да препоръчаме книги.

    1. Проблеми на компютърната лингвистика

    Компютърната лингвистика възниква в пресечната точка на такива науки като лингвистика, математика, компютърни науки (Computer Science) и изкуствен интелект. Произходът на CL се връща към изследванията на известния американски учен Н. Чомски в областта на формализирането на структурата на естествения език; неговото развитие се основава на резултати в областта на общото езикознание (езикознание). Лингвистиката изучава общите закономерности на естествения език - неговата структура и функциониране и включва следните области:

    Ø Фонология– изучава звуковете на речта и правилата за съчетаването им при формирането на речта;

    Ø Морфология– разглежда вътрешната структура и външната форма на думите на речта, включително частите на речта и техните категории;

    Ø Синтаксис– изучава структурата на изреченията, правилата за съвместимост и реда на думите в изречението, както и общите му свойства като единица на езика.

    Ø Семантикаи прагматика– тясно свързани области: семантиката се занимава със значението на думите, изреченията и други единици на речта, а прагматиката се занимава с особеностите на изразяване на това значение във връзка с конкретни цели на комуникацията;

    Ø Лексикографияописва лексиката на конкретен NL - неговите отделни думи и техните граматически свойства, както и методи за създаване на речници.

    Резултатите на Н. Чомски, получени в пресечната точка на лингвистиката и математиката, поставиха основата на теорията на формалните езици и граматики (често наричани генеративен, или генериранеграматици). Тази теория сега се прилага за математическа лингвистикаи се използва за обработка не толкова на NL, колкото на изкуствени езици, предимно езици за програмиране. По своята същност това е изцяло математическа дисциплина.

    Математическата лингвистика също включва количествена лингвистика, която изучава честотните характеристики на езика – думи, техните комбинации, синтактични структури и др., и използва математически методи на статистиката, така че този клон на науката може да се нарече статистическа лингвистика.

    CL също е тясно свързана с такава интердисциплинарна научна област като изкуствения интелект (AI), в рамките на която се разработват компютърни модели на отделни интелектуални функции. Една от първите работещи програми в областта на AI и CL е известната програма на T. Winograd, която разбира най-простите човешки поръчки за промяна на света на кубовете, формулирани върху ограничено подмножество от NL. Обърнете внимание, че въпреки очевидното пресичане на изследванията в областта на CL и AI (тъй като владеенето на езика е свързано с интелектуалните функции), AI не абсорбира целия CL, тъй като има своя собствена теоретична основа и методология. Общото между тези науки е компютърното моделиране като основен метод и крайна цел на изследването.

    Така задачата на CL може да се формулира като разработване на компютърни програми за автоматична обработка на текстове на NL. И въпреки че обработката се разбира доста широко, не всички видове обработка могат да се нарекат лингвистични, а съответните процесори - лингвистични. Лингвистичен процесортрябва да използва един или друг формален модел на език (дори много прост), което означава, че трябва да бъде зависим от езика по един или друг начин (т.е. да зависи от конкретен NL). Така например текстовият редактор на Mycrosoft Word може да се нарече лингвистичен (макар и само защото използва речници), но редакторът на NotePad не може.

    Сложността на задачите на CL се дължи на факта, че NL е сложна многостепенна система от знаци, възникнала за обмен на информация между хората, разработена в процеса на човешката практическа дейност и постоянно променяща се във връзка с тази дейност. Друга трудност при разработването на методи на CL (и трудността при изучаването на NL в рамките на лингвистиката) е свързана с разнообразието на естествените езици, значителните разлики в техния речник, морфология, синтаксис; различните езици предоставят различни начини за изразяване на едно и също значение .

    2. Характеристики на системата NL: нива и връзки

    Обект на лингвистичните процесори са NL текстове. Под текстове се разбират всякакви образци на реч - устна и писмена, от всякакъв жанр, но основно CL разглежда писмените текстове. Текстът има едноизмерна, линейна структура и също така носи определено значение, докато езикът действа като средство за трансформиране на предаденото значение в текстове (синтез на речта) и обратно (анализ на речта). Текстът е съставен от по-малки единици, като има няколко възможни начина за разделяне (разделяне) на текста на единици, принадлежащи към различни нива.

    Съществуването на следните нива е общоприето:

    · ниво на предложения (твърдения) – синтактично ниво;

    · Лексико-морфологиченомонимията (най-често срещаният тип) възниква, когато словоформите на две различни лексеми съвпадат, напр. стихотворение– глагол в единствено число, мъжки род и съществително име в единствено число, именителен падеж),

    · Синтактична омонимияозначава неяснотата на синтактичната структура, което води до няколко тълкувания: Студенти от Лвов отидоха в Киев,летене самолети може бъди опасно(известен пример на Чомски) и др.

    3. Моделиране в компютърната лингвистика

    Разработването на лингвистичен процесор (LP) включва описание на лингвистичните свойства на обработения NL текст и това описание е организирано като модел език. Както при моделирането в математиката и програмирането, моделът се разбира като определена система, която показва редица основни свойства на моделираното явление (т.е. SE) и следователно има структурно или функционално сходство.

    Езиковите модели, използвани в CL, обикновено се изграждат въз основа на теории, създадени от лингвисти чрез изучаване на различни текстове и въз основа на тяхната езикова интуиция (интроспекция). Какви са особеностите на моделите CL? Могат да се разграничат следните характеристики:

    · Формалност и в крайна сметка възможност за алгоритмизиране;

    · Функционалност (целта на моделирането е да възпроизведе функциите на езика като „черна кутия“, без да изгражда точен модел на синтез и анализ на човешката реч);

    · Обобщеността на модела, т.е. той взема предвид доста голям набор от текстове;

    · Експериментална валидност, която включва тестване на модела върху различни текстове;

    · Разчитане на речници като задължителен компонент на модела.

    Сложността на NL, неговото описание и обработка води до разделянето на този процес на отделни етапи, съответстващи на нивата на езика. Повечето съвременни LP са от модулен тип, в който всяко ниво на лингвистичен анализ или синтез съответства на отделно ниво. процесорен модул. По-специално, в случай на анализ на текст, отделните LP модули извършват:

    Ø Графатичен анализ, т.е. подчертаване на словоформи в текста (преход от символи към думи);

    Ø Морфологичен анализ – преход от словоформите към техните леми(речникови форми на лексеми) или основи(ядрени части на думата, минус флективни морфеми);

    Ø Синтактичен анализ, т.е. идентифициране на граматичната структура на текстовите изречения;

    Ø Семантичен и прагматичен анализ, който определя значението на фразите и съответната реакция на системата, в която работи ЛП.

    Възможни са различни схеми за взаимодействие на тези модули (последователна работа или паралелен периодичен анализ), но отделните нива - морфология, синтаксис и семантика все още се обработват от различни механизми.

    По този начин LP може да се разглежда като многоетапен конвертор, който в случай на анализ на текст превежда всяко от своите изречения във вътрешно представяне на неговото значение и обратно в случай на синтез. Съответният езиков модел може да се извика структурен.

    Въпреки че пълните CL модели изискват отчитане на всички основни нива на езика и наличието на съответните модули, при решаването на някои приложни проблеми е възможно да се направи без представяне на отделни нива в LP. Например, в ранните експериментални CL програми, обработените текстове принадлежат към много тесни проблемни области (с ограничен набор от думи и техния строг ред), така че началните им букви да могат да се използват за разпознаване на думи, пропускайки етапите на морфологични и синтактични анализ.

    Друг пример за намален модел, който сега се използва доста често, е езиковият модел на честотата на символите и техните комбинации (диграми, триграми и т.н.) в текстовете на конкретен NL. Такива статистически моделпоказва езикова информация на ниво знаци (букви) от текста и е достатъчно, например, да се идентифицират печатни грешки в текста или да се разпознае неговата езикова идентичност. Подобен модел, базиран на статистиката на отделни думи и тяхното съвместно появяване в текстове (биграми, триграми на думи), се използва например за разрешаване на лексикална неяснота или определяне на частта на речта на дума (в езици като английския ).

    Имайте предвид, че е възможно структурно-статистически модели, в които при представяне на отделни нива на НЗ се отчитат едни или други статистики - думи, синтактични структури и др.

    В LP от модулен тип на всеки етап от анализа или синтеза на текста се използва съответен модел (морфология, синтаксис и др.).

    Морфологичните модели за анализ на словоформи, съществуващи в CL, се различават главно по следните параметри:

    · резултатът от работата - лема или основа с набор от морфологични характеристики (род, число, падеж, вид, лице и др.) на дадена словоформа;

    · метод на анализ - въз основа на речник на словоформите на даден език или речник на основите, или безречников метод;

    · способността да се обработва словоформата на лексема, която не е включена в речника.

    При морфологичния синтез изходните данни са лексемата и специфичните морфологични характеристики на търсената словоформа на тази лексема, възможна е и заявка за синтез на всички форми на дадена лексема. Резултатът както от морфологичния анализ, така и от синтеза като цяло е двусмислен.

    За моделиране на синтаксиса в рамките на CL са предложени голям брой различни идеи и методи, които се различават по начина на описание на синтаксиса на езика, начина на използване на тази информация в анализа или синтеза на NL изречение, като както и начина на представяне на синтактичната структура на изречението. Съвсем условно можем да разграничим три основни подхода за създаване на модели: генеративен подход, връщащ се към идеите на Чомски, подход, връщащ се към идеите на И. Мелчук и представен от модела „Смисъл-текст“, както и подход, в рамките на който се правят определени опити за преодоляване на ограниченията на първите два подхода, по-специално теорията на синтактичните групи.

    В рамките на генеративния подход синтактичният анализ обикновено се извършва на базата на формална безконтекстна граматика, която описва фразовата структура на изречението, или въз основа на някакво разширение на безконтекстната граматика. Тези граматики се основават на последователното линейно разделяне на изречението на фрази (синтактични конструкции, например съществителни фрази) и следователно едновременно отразяват както неговите синтактични, така и линейни структури. Описана е йерархичната синтактична структура на изречението NL, получена в резултат на анализа дърво от компоненти, чиито листа съдържат думите на изречението, поддърветата съответстват на включените в изречението синтактични конструкции (фрази), а дъгите изразяват връзките на влагане на конструкциите.

    Разглежданият подход може да включва мрежови граматики, които са както апарат за описание на езикова система, така и за определяне на процедура за анализ на изречения, базирана на концепцията за краен автомат, например разширената преходна мрежа ATN.

    В рамките на втория подход се използва по-визуален и общ метод за представяне на синтактичната структура на изречението - дървета на зависимостите. Възлите на дървото съдържат думите на изречението (коренът обикновено е глагол-предикат) и всяка дъга на дървото, свързваща двойка възли, се интерпретира като синтактичен подчиняващ връзкамежду тях, като посоката на връзката съответства на посоката на дадената дъга. Тъй като в този случай синтактичните връзки на думите и редът на думите в изречението са разделени, тогава въз основа на дървета на подчинение, прекъснати и непроективниконструкции, които се срещат доста често в езици със свободен словоред.

    Компонентните дървета са по-подходящи за описание на езици в твърд ред на думите; представянето на счупени и непроективни конструкции с тяхна помощ изисква разширяване на използвания граматичен формализъм. Но в рамките на този подход по-естествено се описват конструкции с неподчинени отношения. В същото време обща трудност и за двата подхода е представянето на еднородни членове на изречението.

    Синтактичните модели във всички подходи се опитват да вземат предвид ограниченията, наложени върху връзката на езиковите единици в речта, докато концепцията за валентност се използва по един или друг начин. Валентност- това е способността на една дума или друга единица на езика да свързва други единици по определен синтактичен начин; актанте дума или синтактична конструкция, която запълва тази валентност. Например руският глагол предавамима три основни валентности, които могат да бъдат изразени със следните въпросителни думи: СЗО? на кого? какво?В рамките на генеративния подход валентностите на думите (предимно глаголите) се описват главно под формата на специални рамки ( подкатегоризация рамки) , а в рамките на подхода, базиран на дървета на зависимости - как модели на управление.

    Моделите на езиковата семантика са най-слабо развити в рамките на CL. За семантичния анализ на изреченията, така наречените падежни граматики и семантични случаи(валентност), въз основа на която семантиката на изречението се описва както чрез връзките на основната дума (глагол) с нейните семантични актанти, т.е. чрез семантични случаи. Например глагол предавамописани със семантични случаи даване(агент), адресатИ обект на прехвърляне.

    За да се представи семантиката на цял текст, обикновено се използват два логически еквивалентни формализма (и двата са описани подробно в рамката на AI):

    · Формули за смятане на предикати, изразяващи свойства, състояния, процеси, действия и отношения;

    · Семантичните мрежи са обозначени графове, в които върховете съответстват на понятия, а върховете съответстват на връзки между тях.

    Що се отнася до моделите на прагматика и дискурс, които позволяват обработка не само на отделни изречения, но и на текста като цяло, идеите на Ван Дайк се използват главно за тяхното конструиране. Един от редките и успешни модели е моделът на дискурсивен синтез на кохерентни текстове. Такива модели трябва да вземат под внимание анафоричните препратки и други феномени на ниво дискурс.

    Завършвайки характеризирането на езиковите модели в рамките на CL, нека се спрем малко по-подробно на теорията на езиковите модели „Значение-текст“, в рамките на която се появиха много плодотворни идеи, които изпревариха времето си и са все още актуални днес.

    В съответствие с тази теория NL се разглежда като специален вид трансформатор, който обработва дадени значения в съответни текстове и дадени текстове в съответни значения. Значението се разбира като инвариант на всички синонимни трансформации на текста. Съдържанието на съгласуван фрагмент от реч без разделяне на фрази и словоформи се показва под формата на специално семантично представяне, състоящо се от два компонента: семантична графаи информация за комуникативна организация на значението.

    Трябва да се посочат отличителните черти на теорията:

    o ориентация към синтеза на текстове (способността за генериране на правилни текстове се счита за основен критерий за езикова компетентност);

    o многостепенен, модулен характер на модела, като основните нива на езика са разделени на повърхностни и дълбоки нива: те се различават, напр. дълбоко(семантизиран) и повърхност(„чист”) синтаксис, както и повърхностно-морфологично и дълбинно-морфологично ниво;

    o интегралната природа на езиковия модел; съхраняване на информацията, представена на всяко ниво от съответния модул, осъществяващ прехода от това ниво към следващото;

    o специални средства за описание на синтактиката (правила за свързване на единици) на всяко ниво; беше предложен набор за описание на лексикалната съвместимост лексикални функции, с помощта на които се формулират правилата за синтактично перифразиране;

    o акцент върху лексиката, а не върху граматиката; речникът съхранява информация, свързана с различни нива на езика; по-специално, модели за контрол на думи, които описват техните синтактични и семантични валентности, се използват за синтактичен анализ.

    Тази теория и езиков модел са въплътени в системата за машинен превод ETAP.

    4. Езикови ресурси

    Разработването на лингвистични процесори изисква подходящо представяне на лингвистична информация за обработвания език. Тази информация се показва в различни компютърни речници и граматики.

    Речнициса най-традиционната форма за представяне на лексикална информация; те се различават по своите единици (обикновено думи или изрази), структура и обхват на речника (речници на термини в конкретна проблемна област, речници на обща лексика и др.). Речниковата единица се нарича речников запис, той предоставя информация за токена. Лексикалните омоними обикновено се представят в различни речникови статии.

    Най-разпространени в CL са морфологичните речници, използвани за морфологичен анализ, тяхната речникова статия представя морфологична информация за съответната дума - част на речта, флективен клас (за флективни езици), списък със значения на думата и др. лингвистичен процесор в речника може да се добави и граматична информация, например модели за управление на думи.

    Има речници, които предоставят по-широка информация за думите. Например, лингвистичният модел „Смисъл-текст” разчита значително на тълковен комбинативен речник, в речниковия запис на който освен морфологична, синтактична и семантична информация (синтактични и семантични валенции) е представена информация за лексикалната съвместимост на тази дума.

    Използват се редица лингвистични процесори синонимни речници. Сравнително нов тип речник - паронимни речници, т.е. външно подобни думи, които се различават по значение, напр. непознатИ извънземен, редактиранеИ справка .

    Друг вид лексикални ресурси е бази данни с фрази, в който са подбрани най-типичните фрази на определен език. Тази база данни с фрази на руски език (около милион единици) формира ядрото на системата CrossLexica.

    По-сложните видове лексикални ресурси са тезауруси и онтологии. Тезаурусът е семантичен речник, т.е. речник, в който са представени семантичните връзки на думите - синонимни, родови отношения (понякога наричани връзка горе-долу), част-цяло, асоциации. Разпространението на тезаурусите е свързано с решаването на проблеми с извличането на информация.

    Тясно свързано с понятието тезаурус е понятието онтология. Онтологията е набор от концепции и обекти от определена област на знанието, ориентирани към повторна употреба за различни задачи. Онтологиите могат да бъдат създадени на базата на съществуваща лексика в даден език – в този случай те се наричат лингвистиченИ.

    Подобна лингвистична онтология се счита за системата WordNet - голям лексикален ресурс, в който са събрани английски думи: съществителни, прилагателни, глаголи и наречия и са представени техните семантични връзки от няколко вида. За всяка от посочените части на речта думите са групирани в групи синоними ( синсетове), между които се установяват отношенията на антонимия, хипонимия (отношение род-вид), меронимия (отношение част-цяло). Ресурсът съдържа приблизително 25 хиляди думи, броят на нивата на йерархия за връзката род-вид е средно 6-7, понякога достига 15. Най-високото ниво на йерархията формира обща онтология - система от основни понятия за света.

    Въз основа на английската схема WordNet бяха изградени подобни лексикални ресурси за други европейски езици, обединени под общото име EuroWordNet.

    Напълно различен тип езикови ресурси е NL граматика, чийто тип зависи от синтактичния модел, използван в процесора. В първо приближение граматиката е набор от правила, изразяващи общите синтактични свойства на думите и групите от думи. Общият брой на граматичните правила също зависи от синтактичния модел, като варира от няколко десетки до няколкостотин. По същество тук възниква проблем като връзката между граматика и лексика в езиков модел: колкото повече информация е представена в речника, толкова по-кратка може да бъде граматиката и обратно.

    Имайте предвид, че изграждането на компютърни речници, тезауруси и граматики е обемна и трудоемка работа, понякога дори по-трудоемка от разработването на лингвистичен модел и съответния процесор. Следователно една от подчинените задачи на CL е автоматизирането на изграждането на езикови ресурси.

    Компютърните речници често се формират чрез конвертиране на обикновени текстови речници, но тяхното изграждане често изисква много по-сложна и старателна работа. Това обикновено се случва при конструиране на речници и тезауруси за бързо развиващи се научни области - молекулярна биология, компютърни науки и др. Изходният материал за извличане на необходимата езикова информация може да бъде колекции и текстови корпуси.

    Корпусът от текстове е съвкупност от текстове, събрани по определен принцип на представителност (по жанр, авторство и др.), в който всички текстове са маркирани, тоест снабдени с някои езикови маркировки (анотации) - морфологични, акцентни, синтактичен и др. В момента има най-малко сто различни корпуса - в Русия най-известният е Националният корпус на руския език.

    Маркираните корпуси се създават от лингвисти и се използват както за лингвистични изследвания, така и за настройка (обучение) на модели и процесори, използвани в CL, като се използват добре познати математически методи на машинно обучение. По този начин машинното обучение се използва за конфигуриране на методи за разрешаване на лексикална неяснота, разпознаване на части от речта и разрешаване на анафорични препратки.

    Тъй като корпусите и колекциите от текстове винаги са ограничени по отношение на представените в тях езикови явления (а корпусите, наред с други неща, отнемат доста време за създаване), напоследък интернет текстовете все повече се разглеждат като по-пълен езиков ресурс. Разбира се, Интернет е най-представителният източник на съвременни речеви образци, но използването му като корпус изисква разработването на специални технологии.

    5. Приложения на компютърната лингвистика

    Областта на приложения на компютърната лингвистика непрекъснато се разширява, така че тук ще характеризираме най-известните приложни проблеми, решавани с нейните инструменти.

    Машинен превод– най-ранното приложение на CL, с което възниква и се развива самата тази област. Първите програми за превод са създадени преди повече от 50 години и са базирани на проста стратегия за превод дума по дума. Бързо обаче се разбра, че машинният превод изисква пълен лингвистичен модел, който взема предвид всички нива на езика, чак до семантиката и прагматиката, което многократно е възпрепятствало развитието на тази област. В местната система ETAP се използва доста пълен модел, който превежда научни текстове от френски на руски.

    Обърнете внимание обаче, че в случай на превод на сроден език, например при превод от испански на португалски или от руски на украински (които имат много общо в синтаксиса и морфологията), процесорът може да бъде реализиран въз основа на опростен модел, например, базиран на използването на същата стратегия за превод дума по дума.

    В момента има цял набор от системи за компютърен превод (с различно качество), от големи международни изследователски проекти до търговски автоматични преводачи. Значителен интерес представляват проекти за многоезични преводи, използващи междинен език, в който е кодирано значението на преведените фрази. Друга модерна посока е статистическият превод, базиран на статистически данни за превода на думи и фрази (тези идеи например са внедрени в преводача на търсачката Google).

    Но въпреки многото десетилетия на развитие в цялата тази област, като цяло проблемът с машинния превод все още е много далеч от пълното си решение.

    Друго доста старо приложение на компютърната лингвистика е извличане на информацияи свързаните с това задачи за индексиране, рефериране, класифициране и рубрикиране на документи.

    Търсенето на пълен текст на документи в големи бази данни от документи (предимно научни, технически, бизнес) обикновено се извършва въз основа на техните търсене на изображения, с което имаме предвид набор ключови думи– думи, отразяващи основната тема на документа. Първоначално само отделни NL думи бяха считани за ключови думи и търсенето беше извършено, без да се взема предвид тяхната флексия, което е некритично за езици със слаба флексия като английския. За флективни езици, например руски, беше необходимо да се използва морфологичен модел, който отчита флексията.

    Заявката за търсене също беше представена като набор от думи; подходящи (релевантни) документи бяха определени въз основа на сходството на заявката и изображението за търсене на документа. Създаването на изображение за търсене на документ включва индексираненеговия текст, т.е. подчертаване на ключови думи в него. Тъй като много често темата и съдържанието на документа се отразяват много по-точно не от отделни думи, а от фрази, фразите започнаха да се считат за ключови думи. Това значително усложни процедурата за индексиране на документи, тъй като беше необходимо да се използват различни комбинации от статистически и лингвистични критерии за избор на значими фрази в текста.

    Всъщност извличането на информация използва главно векторен текстов модел(понякога се нарича чанта на думи– bag of words), в който документът е представен като вектор (набор) от неговите ключови думи. Съвременните интернет търсачки също използват този модел, като индексират текстовете по използвани в тях думи (в същото време те използват много сложни процедури за класиране, за да върнат съответните документи).

    Посоченият текстов модел (с някои усложнения) също се използва в свързани проблеми с извличането на информация, обсъдени по-долу.

    Обобщаващ текст- намаляване на обема му и получаване на резюме от него - резюме (съкратено съдържание), което ускорява търсенето в колекции от документи. Общо резюме може да бъде съставено и за няколко документа, свързани с темата.

    Основният метод за автоматично абстрахиране все още е изборът на най-значимите изречения от текста, който се абстрахира, за който обикновено първо се изчисляват ключовите думи на текста и се изчислява коефициентът на значимост на текстовите изречения. Изборът на значими изречения се усложнява от анафоричните връзки на изреченията, чието прекъсване е нежелателно - за решаването на този проблем се разработват определени стратегии за подбор на изречения.

    Близка до абстрахирането задача е анотациятекст на документа, т.е. изготвяне на неговата анотация. В най-простата си форма, резюмето е списък на основните теми на текст, които процедурите за индексиране могат да бъдат използвани за идентифициране.

    При създаването на големи колекции от документи са подходящи следните задачи: класификацииИ групиранетекстове с цел създаване на класове документи, свързани с темата. Класификацията означава приписване на всеки документ към определен клас с предварително известни параметри, а групирането означава разделяне на набор от документи на клъстери, т.е. подгрупи от тематично подобни документи. За решаването на тези проблеми се използват методи за машинно обучение, поради което тези приложни проблеми се наричат ​​Text Mining и принадлежат към научното направление, известно като Data Mining или извличане на данни.

    Проблемът е много близо до класификацията рубрикациятекст - присвояването му на едно от предварително известните тематични заглавия (обикновено заглавията образуват йерархично дърво от теми).

    Проблемът с класифицирането става все по-широко разпространен, той се решава например при разпознаването на спам, а сравнително ново приложение е класифицирането на SMS съобщения в мобилни устройства. Нова и актуална посока на изследване на общия проблем за извличане на информация е многоезичното търсене на документи.

    Друга относително нова задача, свързана с извличането на информация, е генериране на отговори на въпроси(Отговор на въпрос) . Този проблем се решава чрез определяне на вида на въпроса, търсене на текстове, които потенциално съдържат отговора на този въпрос, и извличане на отговора от тези текстове.

    Съвсем различно приложно направление, което се развива, макар и бавно, но стабилно автоматизация на подготовката и редакциятатекстове в EA. Едни от първите приложения в тази насока бяха програмите за автоматично определяне на тирета в думите и програмите за правопис на текст (spellers или auto-correctors). Въпреки очевидната простота на проблема с прехвърлянето, правилното му решение за много езици (например английски) изисква познаване на морфемната структура на думите на съответния език и следователно на съответния речник.

    Проверката на правописа отдавна е внедрена в търговски системи и разчита на подходящ речник и морфологичен модел. Използва се и непълен синтактичен модел, въз основа на който се идентифицират всички синтактични грешки, които са доста чести (например грешки в съгласуването на думите). В същото време автокоректорите все още не са внедрили откриване на по-сложни грешки, например неправилно използване на предлози. Много лексикални грешки също не се откриват, по-специално грешки, произтичащи от правописни грешки или неправилно използване на подобни думи (напр. тегловместо тежък). Съвременните изследвания на CL предлагат методи за автоматизирано откриване и коригиране на такива грешки, както и някои други видове стилистични грешки. Тези методи използват статистика за появата на думи и фрази.

    Приложна задача, близка до подпомагане подготовката на текстове, е обучение по естествен език, в рамките на това направление често се разработват компютърни системи за преподаване на езици - английски, руски и др. (подобни системи могат да бъдат намерени в Интернет). Обикновено тези системи поддържат изучаването на отделни аспекти на езика (морфология, лексика, синтаксис) и се основават на подходящи модели, например морфологичния модел.

    Що се отнася до изучаването на лексика, за това се използват и електронни аналози на текстови речници (които по същество нямат езикови модели). Разработват се обаче и многофункционални компютърни речници, които нямат текстови аналози и са насочени към широк кръг потребители - например речника на руските фрази Crosslexics. Тази система обхваща широк спектър от лексика - думи и техните приемливи словосъчетания, а също така предоставя помощ за модели за управление на думи, синоними, антоними и други семантични корелати на думи, което е очевидно полезно не само за тези, които изучават руски език, но също и за носители на езика.

    Следващата област на приложение, която си струва да се спомене, е автоматично генериранетекстове в EA. По принцип тази задача може да се счита за подзадача на вече обсъдената по-горе задача за машинен превод, но в рамките на направлението има редица специфични задачи. Такава задача е многоезичното генериране, т.е. автоматичното конструиране на специални документи на няколко езика - патентни формули, инструкции за работа на технически продукти или софтуерни системи, въз основа на техните спецификации на формален език. За решаването на този проблем се използват доста подробни езикови модели.

    Все по-актуален приложен проблем, често наричан Text Mining, е извличане на информацияот текстове, или извличане на информация, което се изисква при решаване на проблеми от икономически и производствен анализ. За да направите това, в NL теста се идентифицират определени обекти - наименувани обекти (имена, личности, географски имена), техните взаимоотношения и събития, свързани с тях. По правило това се осъществява на базата на частично анализиране на текста, което позволява обработка на новинарски потоци от информационни агенции. Тъй като задачата е доста сложна не само теоретично, но и технологично, създаването на значими системи за извличане на информация от текстове е осъществимо в рамките на търговските компании.

    Областта Text Mining включва и две други свързани задачи – извличане на мнения (Opinion Mining) и анализ на настроенията (Sentiment Analysis), които привличат вниманието на все повече изследователи. Първата задача включва търсене (в блогове, форуми, онлайн магазини и т.н.) на потребителски мнения за продукти и други обекти, както и анализ на тези мнения. Втората задача е близка до класическата задача за анализ на съдържанието на текстове за масова комуникация; тя оценява общия тон на изявленията.

    Друго приложение, което си струва да се спомене, е подкрепа за диалогс потребителя на EA в рамките на всяка информационна софтуерна система. Най-често този проблем беше решен за специализирани бази данни - в този случай езикът на заявките е доста ограничен (лексикално и граматически), което позволява използването на опростени езикови модели. Заявките към базата данни, формулирани на NL, се превеждат на формален език, след което се търси необходимата информация и се конструира съответната фраза за отговор.

    Като последно в списъка ни с CL приложения (но не на последно място по важност) посочваме разпознаване и синтез на реч. Грешките при разпознаване, които неизбежно възникват при тези задачи, се коригират с автоматични методи, базирани на речници и лингвистични познания по морфология. В тази област ще се използва и машинно обучение.

    Заключение

    Компютърната лингвистика демонстрира доста осезаеми резултати в различни приложения за автоматична обработка на текст на NL. По-нататъшното му развитие зависи както от появата на нови приложения, така и от независимото развитие на различни езикови модели, в които много проблеми все още не са решени. Най-разработените модели са морфологичният анализ и синтез. Синтактичните модели все още не са доведени до ниво на стабилни и ефективни работещи модули, въпреки големия брой предложени формализми и методи. Моделите на ниво семантика и прагматика са още по-малко проучени и формализирани, въпреки че автоматичната обработка на дискурса вече е необходима в редица приложения. Имайте предвид, че вече съществуващите инструменти на самата компютърна лингвистика, използването на машинно обучение и текстови корпуси, могат значително да ускорят решаването на тези проблеми.

    Литература

    1. Baeza-Yates, R. и Ribeiro-Neto, B. Modern Information Retrieval, Adison Wesley, 1999.

    2. Бейтман, Дж., Зок М. Генериране на естествен език. В: Оксфордски наръчник по компютърна лингвистика. Митков Р. (ред.). Oxford University Press, 2003 г., стр.304.

    3. Biber, D., Conrad S. и Reppen D. Corpus Linguistics. Изследване на езиковата структура и употреба. Cambridge University Press, Cambridge, 1998.

    4. Болшаков, И. А., Предполагаема лингвистика на Гелбух. Модели, ресурси, приложения. Мексико, IPN, 2004 г.

    5. Браун П., Пиетра С., Мърсър Р., Пиетра В. Математика на статистическия машинен превод. // Компютърна лингвистика, бр. 19(2): 263-3

    6. Carroll J R. Разбор. В: Оксфордски наръчник по компютърна лингвистика. Митков Р. (ред.). Oxford University Press, 2003 г., стр. 233-248.

    7. Чомски, Н. Синтактични структури. Хага: Mouton, 1957.

    8. Гришман Р. Извличане на информация. В: Оксфордски наръчник по компютърна лингвистика. Митков Р. (ред.). Oxford University Press, 2003 г., стр. 545-559.

    9. Харабагиу, С., Молдован Д. Отговаряне на въпроси. В: Оксфордски наръчник по компютърна лингвистика. Митков Р. (ред.). Oxford University Press, 2003 г., стр. 560-582.

    10. Hearst, M. A. Автоматизирано откриване на WordNet релации. В: Fellbaum, C. (ed.) WordNet: Електронна лексикална база данни. MIT Press, Cambridge, 1998, p.131-151.

    11. Хърст, Г. Онтология и лексикон. В: Наръчник по онтологии в информационните системи. Берлин, Springer, 2003.

    12. Jacquemin C., Bourigault D. Извличане на термини и автоматично индексиране // Митков Р. (ред.): Наръчник по компютърна лингвистика. Oxford University Press, 2003. p. 599-615.

    13. Kilgarriff, A., G. Grefenstette. Въведение в специалния брой на Мрежата като предполагаема лингвистика, V. 29, No. 3, 2003, стр. 333-347.

    14. Манинг, гл. Д., Х. Шютце. Основи на статистическата обработка на естествен език. MIT Press, 1999 г.

    15. Matsumoto Y. Придобиване на лексикални знания. В: Оксфордски наръчник по компютърна лингвистика. Митков Р. (ред.). Oxford University Press, 2003 г., стр. 395-413.

    16. Оксфордският наръчник по компютърна лингвистика. Р. Митков (Ред.). Oxford University Press, 2005 г.

    17. Oakes, M., Paice C. D. Извличане на термини за автоматично абстрахиране. Последни постижения в компютърната терминология. D. Bourigault, C. Jacquemin и M. L'Homme (Eds), John Benjamins Publishing Company, Амстердам, 2001, p.353-370.

    18. Педерсен, Т. Дървото на решенията от биграми е точен предсказател на смисъла на думата. Proc. 2-ра годишна среща на NAC ACL, Питсбърг, Пенсилвания, 2001 г., стр. 79-86.

    19. Samuelsson C. Статистически методи. В: Оксфордски наръчник по компютърна лингвистика. Митков Р. (ред.). Oxford University Press, 2003 г., стр. 358-375.

    20. Salton, G. Автоматична обработка на текст: трансформация, анализ и извличане на информация от компютър. Рединг, Масачузетс: Адисън-Уесли, 1988 г.

    21. Somers, H. Машинен превод: Последни разработки. В: Оксфордски наръчник по компютърна лингвистика. Митков Р. (ред.). Oxford University Press, 2003 г., стр. 512-528.

    22. Strzalkowski, T. (ред.) Извличане на информация на естествен език. Клувер, 19стр.

    23. Woods W. A. ​​Преходни мрежови грамами за анализ на естествения език/ Съобщения на ACM, V. 13, 1970, N 10, p. 591-606.

    24. Word Net: електронна лексикална база данни. / Кристиане Фелбаум. Кеймбридж, MIT Press, 1998 г.

    25. Wu J., Yu-Chia Chang Y., Teruko Mitamura T., Chang J. Автоматично предложение за колокация в академично писане // Сборник на кратки доклади на конференцията ACL 2010, 2010.

    26. и др. Езикова поддръжка на системата ЕТАП-2. М.: Наука, 1989.

    27. и др. Технологии за анализ на данни: Data Mining, Visual Mining, Text Mining, OLAP – 2-ро издание. – Санкт Петербург: BHV-Петербург, 2008.

    28. Болшаков, Лексика - голям електронен речник на комбинации и семантични връзки на руски думи. //Комп. лингвистика и разузнаване. технология: Сборник межд. конф. "Диалог 2009". Брой: Руски държавен хуманитарен университет, 2009 г., стр. 45-50.

    29. Болшакова E.I., Болшаков откриване и автоматизирана корекция на руски малапропизми // NTI. сер. 2, № 5, 2007, стр. 27-40.

    30. Уанг, Кинч В. Стратегия за разбиране на свързан текст // Ново в чуждата лингвистика. Vol. XXIII– М., Прогрес, 1988, с. 153-211.

    31. Василиев В. Г., Кривенко М. П. Методи за автоматизирана обработка на текст. – М.: ИПИ РАН, 2008.

    32. Виноград Т. Програма, която разбира естествения език - М., Мир, 1976г.

    33. Гладки естествени езикови структури в автоматизирани комуникационни системи. – М., Наука, 1985.

    34. Гусев, В. Д., Речник на паронимите на Саломатина: версия 2. // НТИ, Сер. 2, № 7, 2001, стр. 26-33.

    35. Захаров - пространството като езиков корпус // Компютърна лингвистика и интелектуални технологии: Сборник на Междунар. Конференция Диалог ‘2005 / Ред. , – М.: Наука, 2005, с. 166-171.

    36. Касевич на общото езикознание. - М., Наука, 1977.

    37. Леонтиево разбиране на текстове: Системи, модели, ресурси: Учебник - М.: Академия, 2006.

    38. Лингвистичен енциклопедичен речник / Изд. В. Н. Ярцева, М.: Съветска енциклопедия, 1990 г., 685 с.

    39. , Salium за автоматично индексиране и категоризиране: разработка, структура, поддръжка. // NTI, сер. 2, № 1, 1996.

    40. Luger J. Изкуствен интелект: стратегии и методи за решаване на сложни проблеми. М., 2005.

    41. Маккуин К. Дискурсивни стратегии за синтез на текст на естествен език // Ново в чуждата лингвистика. Vol. XXIV. М.: Прогрес, 1989, стр. 311-356.

    42. Теория на Мелчук за лингвистични модели „ЗНАЧЕНИЕ „ТЕКСТ“. - М., Наука, 1974.

    43. Национален корпус на руския език. http://*****

    44. Khoroshevsky V. F. OntosMiner: семейство системи за извличане на информация от многоезични колекции от документи // Девета национална конференция по изкуствен интелект с международно участие KII-2004. Т. 2. – М.: Физматлит, 2004, с.573-581.