Що вивчає комп'ютерна лінгвістика? Комп'ютерна лінгвістика у «Вишці»: Анастасія Бонч-Осмоловська про нову магістерську програму


Новосьолова Ірина

Чому не всі машинні переклади досконалі? Від чого залежить якість перекладу? Чи достатньо автору знань, щоб використовувати та доповнювати існуючі комп'ютерні словники? Відповіді на ці запитання авторка прагнула подати у своїй роботі. Звіт на тему - у прикріпленому файлі, продукт проектної діяльності - на шкільному порталі

Завантажити:

Попередній перегляд:

Відкрита

Міжнародна

науково-дослідна

конференція

старшокласників та студентів

«Освіта. Наука. Професія»

Секція «Лінгвістика іншомовна»

«Комп'ютерна лінгвістика»

Виконала Новосьолова Ірина

МОУ гімназія №39 «Класична»

10 «Б» клас

Наукові керівники:

Чигриньова Тетяна Дмитрівна,

учитель англійської мови вищої категорії

Осипова Світлана Леонідівна,

вчитель інформатики вищої категорії

м. Відрадний

2011

  1. Англомовні слова в ІКТ

Дивіться на сайті

  1. Мій експеримент

Одне із завдань – провести експеримент, який у порівнянні можливостей різних комп'ютерних лінгвістичних словників, по більш точно-наближеному перекладу з англійської на російську.

Були протестовані такі сайти:

  1. http://translate.eu/
  2. http://translate.google.ru/#ru
  3. http://www.langinfo.ru/index.php?div=6
  4. http://www2.worldlingo.com/ru/products_services/worldlingo_translator.html

Для чистоти експерименту я вибирала пропозиції з різним ступенем складності стилістичного перекладу. Фрази для введення:

1. A New report says today's teenagers are more selfish than they were 20 years ago

(Нова доповідь каже, що сучасні підлітки більш егоїстичні, ніж вони були 20 років тому)

2. Вони беруть участь у відеоігорах і Інтернет є величезні резонанси для цього вдосконаленого самопочуття.

(Вона вірить, що відеоігри та Інтернет є найбільш значущими причинами для цієї зростаючої егоїстичності)

3. They want to be better than others

(Вони хочуть бути кращими, ніж інші)

4. Він з'явився значним збільшенням, зробленим з року 2000, який є коли violent video games became real popular.

(Вона знайшла велике зростання, що почалося з 2000 року, коли жорстокі відеоігри стали дійсно популярними)

Переклавши ці пропозиції на сайтах онлайн-перекладачів, я отримала такі результати:

  1. http://translate.eu/

Під терміном "комп'ютерна лінгвістика" (computational linguistics) зазвичай розуміється широка сфера використання комп'ютерних інструментів - програм, комп'ютерних технологій організації та обробки даних - для моделювання функціонування мови в тих чи інших умовах, ситуаціях, проблемних сферах, а також сфера застосування комп'ютерних моделей мови не лише у лінгвістиці, а й у суміжних із нею дисциплінах. Власне, тільки в останньому випадку йдеться про прикладну лінгвістику в строгому сенсі, оскільки комп'ютерне моделювання мови може розглядатися і як сфера застосування теорії програмування (computer science) в галузі лінгвістики. Проте загальна практика така, що сфера комп'ютерної лінгвістики охоплює практично все, що пов'язано з використанням комп'ютерів у мовознавстві: "Термін "комп'ютерна лінгвістика" задає загальну орієнтацію на використання комп'ютерів для вирішення різноманітних наукових та практичних завдань, пов'язаних із мовою, ніяк не обмежує способи вирішення цих завдань.

Інституційний аспект комп'ютерної лінгвістики. Як особливий науковий напрямок комп'ютерна лінгвістика оформилася в 60-ті роки. Потік публікацій у цій галузі дуже великий. Окрім тематичних збірок, у США щокварталу виходить журнал "Комп'ютерна лінгвістика". Велику організаційну та наукову роботу проводить Асоціація з комп'ютерної лінгвістики, яка має регіональні структури в усьому світі (зокрема, європейське відділення). Кожні два роки відбуваються міжнародні конференції з комп'ютерної лінгвістики – КОЛІНГ. Відповідна проблематика широко представлена ​​також на міжнародних конференціях із штучного інтелекту різних рівнів.

Когнітивний інструментарій комп'ютерної лінгвістики

p align="justify"> Комп'ютерна лінгвістика як особлива прикладна дисципліна виділяється насамперед по інструменту - тобто з використання комп'ютерних засобів обробки мовних даних. Оскільки комп'ютерні програми, що моделюють ті чи інші аспекти функціонування мови, можуть використовувати різні засоби програмування, то про загальну метамову говорити начебто не доводиться. Однак, це не так. Існують загальні принципи комп'ютерного моделювання мислення, які так чи інакше реалізуються у будь-якій комп'ютерній моделі. В основі цієї мови лежить теорія знань, розроблена в штучному інтелекті та утворює важливий розділ когнітивної науки.

Основна теза теорії знань свідчить, що мислення - це процес обробки та породження знань. "Знання" або "знання" вважається невизначеною категорією. Як "процесора", що обробляє знання, виступає когнітивна система людини. В епістемології та когнітивній науці розрізняють два основні види знань - декларативні ("знання що") та процедурні ("знання як"2)). Декларативні знання видаються зазвичай у вигляді сукупності пропозицій, тверджень про щось. Типовим прикладом декларативних знань вважатимуться тлумачення слів у звичайних тлумачних словниках. Наприклад, чашка] - "невеликий посуд для пиття округлої форми, зазвичай з ручкою, з порцеляни, фаянсу і т.п.". Декларативні знання піддаються процедурі верифікації у термінах "істина-брехня". Процедурні знання видаються як послідовність (перелік) операцій, дій, які слід виконати. Це деяка загальна інструкція про дії певної ситуації. Характерний приклад процедурних знань – інструкції з користування побутовими приладами.

На відміну від декларативних знань, процедурні знання неможливо верифікувати як справжні чи хибні. Їх можна оцінювати лише за успішністю-неуспішністю алгоритму.

Більшість понять когнітивного інструментарію комп'ютерної лінгвістики є омонімічною: вони одночасно позначають деякі реальні сутності когнітивної системи людини та способи представлення цих сутностей на деяких метамовах. Іншими словами, елементи метамови мають онтологічний та інструментальний аспект. Онтологічно поділ декларативних та процедурних знань відповідає різним типам знань когнітивної системи людини. Так, знання про конкретні предмети, об'єкти дійсності переважно декларативні, а функціональні здібності людини до ходіння, бігу, водінню машини реалізуються в когнітивній системі як процедурні знання. Інструментально знання (як онтологічно процедурне, і декларативне) можна як сукупність дескрипцій, описів і як алгоритм, інструкцію. Іншими словами, онтологічно декларативне знання про об'єкт дійсності "стіл" можна подати процедурно як сукупність інструкцій, алгоритмів його створення, складання (= креативний аспект процедурного знання) або як алгоритм його типового використання (= функціональний аспект процедурного знання). У першому випадку це може бути керівництво для столяра-початківця, а в другому - опис можливостей офісного столу. Правильне і протилежне: онтологічно процедурне знання можна подати декларативно.

Вимагає окремого обговорення, чи будь-яке онтологічно декларативне знання представимо як процедурне, а всяке онтологічно процедурне - як декларативне. Дослідники сходяться на тому, що будь-яке декларативне знання в принципі можна подати процедурно, хоча це може виявитися для когнітивної системи дуже неекономним. Назад навряд чи справедливо. Справа в тому, що декларативне знання істотно експліцитніше, воно легше усвідомлюється людиною, ніж процедурне. На противагу декларативному знанню, процедурне знання переважно імпліцитне. Так, мовна здатність, будучи процедурним знанням, прихована від людини, не усвідомлюється ним. Спроба експлікувати механізми функціонування мови призводить до дисфункції. Фахівцям у галузі лексичної семантики відомо, наприклад, що тривала семантична інтроспекція, необхідна вивчення плану змісту слова, призводить до того, що дослідник частково втрачає здатність розрізняти правильних і неправильних вживань аналізованого слова. Можна навести інші приклади. Відомо, що з точки зору механіки тіло людини є складною системою двох маятників, що взаємодіють.

Теоретично знань вивчення і уявлення знання використовуються різні структури знань - фрейми, сценарії, плани. Згідно з М. Мінським, "фрейм - це структура даних, призначена для подання стереотипної ситуації" [Мінський 1978, с.254]. Більш розгорнуто можна сказати, що кадр є концептуальною структурою для декларативного уявлення знань про типізовану тематично єдину ситуацію, що містить слоти, пов'язані між собою певними семантичними відносинами. З метою наочності кадр часто представляють у вигляді таблиці, рядки якої утворюють слоти. Кожен слот має своє ім'я та зміст (див. табл.1).

Таблиця 1

Фрагмент кадру "стіл" у табличному поданні

Залежно від конкретного завдання структуризація кадру може бути значно складнішою; кадр може включати вкладені підфрейми та відсилання до інших кадрів.

Замість таблиці часто використовується предикатна форма подання. У цьому випадку кадр має форму предикату або функції з аргументами. Існують інші способи подання кадру. Наприклад, він може представлятися у вигляді кортежу наступного виду: ((ім'я фрейму) (ім'я слота)) (значення слота,),..., (ім'я слота п) (значення слота л)).

Зазвичай такий вид мають фрейми у мовах уявлення знань.

Як і інші когнітивні категорії комп'ютерної лінгвістики, поняття кадру омонімічне. Онтологічно - це частина когнітивної системи людини, і в цьому сенсі кадр можна порівняти з такими поняттями як гештальт, прототип, стереотип, схема. У когнітивній психології ці категорії розглядаються саме з онтологічного погляду. Так, Д. Норман розрізняє два основні способи побутування та організації знань у когнітивній системі людини – семантичні мережі та схеми. "Схеми, - пише він, - є організовані пакети знання, зібрані для репрезентації окремих самостійних одиниць знання. Моя схема для Сема може містити інформацію, що описує його фізичні особливості, його активність та індивідуальні риси. Ця схема співвідноситься з іншими схемами, які описують інші його сторони "[Норман 1998, с.359]. Якщо ж брати інструментальну сторону категорії кадру, це структура для декларативного подання знань. У існуючих системах ІІ фрейми можуть утворювати складні структури знань; системи кадрів допускають ієрархію - один кадр може бути частиною іншого кадру.

За змістом поняття кадру дуже близько до категорії тлумачення. Слот - аналог валентності, заповнення слота - аналог актанта. Основна відмінність між ними полягає в тому, що тлумачення містить лише лінгвістично релевантну інформацію про план змісту слова, а кадр, по-перше, не обов'язково прив'язаний до слова, і, по-друге, включає всю релевантну для цієї проблемної ситуації інформацію, в тому числа та екстралінгвістичну (знання про світ) 3).

Сценарій є концептуальною структурою для процедурного представлення знань про стереотипну ситуацію або стереотипну поведінку. Елементами сценарію є кроки алгоритму чи інструкції. Зазвичай говорять про "сценарії відвідування ресторану", "сценарії покупки" тощо.

Спочатку кадр також використовувався для процедурного представлення (пор. термін "процедурний кадр"), проте зараз у цьому сенсі частіше вживається термін "сценарій". Сценарій можна уявити у вигляді алгоритму, а й у вигляді мережі, вершинам якої відповідають деякі ситуації, а дугам - зв'язок між ситуаціями. Поряд із поняттям сценарію деякі дослідники залучають для комп'ютерного моделювання інтелекту категорію скрипта. За Р. Шенком, скрипт - це деяка загальноприйнята, загальновідома послідовність причинних зв'язків. Наприклад, розуміння діалогу

Надворі ллє як із відра.

Все одно доведеться виходити до магазину: у будинку немає нічого – вчора гості всі підміли.

ґрунтується на неексплікованих семантичних зв'язках на кшталт "якщо йде дощ, на вулицю виходити небажано, оскільки можна захворіти". Ці зв'язки формують скрипт, який і використовується носіями мови для розуміння мовної та немовної поведінки один одного.

Внаслідок застосування сценарію до конкретної проблемної ситуації формується план). План використовується для процедурного представлення знань про можливі дії, що ведуть до досягнення певної мети. План співвідносить ціль із послідовністю дій.

У загальному випадку план включає послідовність процедур, що переводять початковий стан системи в кінцевий і ведуть до досягнення певної підцілі та мети. У системах ІІ план виникає внаслідок планування чи плануючої діяльності відповідного модуля - модуля планування. В основі процесу планування може бути адаптація даних одного або декількох сценаріїв, активізованих тестуючими процедурами, для вирішення проблемної ситуації. Виконання плану проводиться екзекутивним модулем, який управляє когнітивними процедурами та фізичними діями системи. В елементарному випадку план в інтелектуальній системі є простою послідовністю операцій; у складніших версіях план пов'язують із конкретним суб'єктом, його ресурсами, можливостями, цілями, з докладною інформацією проблемної ситуації тощо. Виникнення плану відбувається у процесі комунікації між моделлю світу, частина якої утворюють сценарії, плануючим модулем та екзекутивним модулем.

На відміну від сценарію, план пов'язаний із конкретною ситуацією, конкретним виконавцем та переслідує досягнення певної мети. Вибір плану регулюється ресурсами виконавця. Виконання плану - обов'язкова умова його породження в когнітивній системі, а до сценарію характеристика здійсненності непридатна.

Ще одне важливе поняття – модель світу. Під моделлю світу зазвичай розуміється сукупність певним чином організованих знань про світ, властивих когнітивної системи або її комп'ютерної моделі. У дещо більш загальному вигляді про модель світу говорять як про частину когнітивної системи, що зберігає знання про устрій світу, його закономірності та ін. В іншому розумінні модель світу пов'язується з результатами розуміння тексту або – ширше – дискурсу. У процесі розуміння дискурсу будується його ментальна модель, яка є результатом взаємодії плану змісту тексту та знань про світ, властивих цьому суб'єкту [Джонсон-Лерд 1988, с.237 і далі]. Перше та друге розуміння часто об'єднуються. Це типово для дослідників-лінгвістів, які працюють у рамках когнітивної лінгвістики та когнітивної науки.

Тісно пов'язане з категорією кадру поняття сцени. Категорія сцени переважно використовується в літературі як позначення концептуальної структури для декларативного подання актуалізованих у мовному акті та виділених мовними засобами (лексемами, синтаксичними конструкціями, граматичними категоріями та ін.) ситуацій та їх частин5). Будучи пов'язані з мовними формами, сцена часто актуалізується певним словом чи виразом. У граматика сюжетів (див. нижче) сцена постає як частина епізоду або розповіді. Характерні приклади сцен – сукупність кубиків, з якими працює система ІІ, місце дії в оповіданні та учасники дії тощо. У штучному інтелекті сцени використовують у системах розпізнавання образів, соціальній та програмах, орієнтованих на дослідження (аналіз, опис) проблемних ситуацій. Поняття сцени набуло широкого поширення у теоретичній лінгвістиці, а також логіці, зокрема у ситуаційній семантиці, в якій значення лексичної одиниці безпосередньо пов'язується зі сценою.

Комп'ютерна лінгвістика сьогодні практично себе вже вичерпала. На це прямо вказує безуспішний досвід дослідників і розробників «інтелектуальних» інформаційних продуктів, які працювали вже понад півстоліття над створенням таких амбітних програм, як, наприклад, адекватний машинний переклад або смисловий пошук інформації в масивах документів природною мовою.

Майбутнє машинної обробки природно-мовних текстів, безумовно, бачиться у створенні та розвитку надлінгвістичних технологій, здатних здійснювати аналіз змісту інформації на рівні смислового розуміння контексту, подібно до того, як це вміє робити людина. Однак, створенню «мислячих машин» (Thinking Machine) тривалий час перешкоджали два основні фактори – відсутність необхідної методології та належного інструментарію для вирішення двох фундаментальних завдань – це знаходження «формули сенсу» та побудови «моделі знань про світобудову» у деякому формалізованому доступному для комп'ютера вигляді, без чого, власне, неможливо повторити на програмному рівні природу людського мислення.

Лінгвісти разом з кібернетиками ці проблеми так і не змогли подолати, оскільки останнє лежить поза межами їхньої предметної спеціалізації, через що, власне, суттєво загальмувався розвиток таких давно затребуваних прикладних напрямків текстової обробки, як, наприклад, створення «розумних» діалогових систем або «змістових Інтернет-пошуковиків». Та й той же машинний переклад, як і раніше, залишає бажати багато кращого.

Досвід розвитку науково-технічного прогресу говорить про те, що проривний результат, що шукається, в результаті виходить, як правило, на стику різних технологічних областей і предметних дисциплін. Очевидно, проблема «машинного мислення» буде вирішена саме тоді, коли ми точно зрозуміємо, як саме у процедурному плані працює наша природна свідомість, і коли достовірно зможемо дізнатися, чи піддадуться ці процедури мислення, виявлені нам у необхідній і достатній кількості своєї остаточної комп'ютерної алгоритмізації.

Слід зазначити, що останніми роками починає розвиватися нова («смартпбютерная») наукова дисципліна, яка займається саме тим, що вивчає процедурність розумової діяльності. Можна сміливо сказати, що ми маємо істотний прорив у цьому напрямі і вже досить чітко уявляємо, як влаштований алгоритм людського мислення. Якщо говорити про це узагальнено, то, в першу чергу, слід зазначити, що людина мислить не образами, як це зазвичай заведено думати, а «моделями поведінки образів» (МПО). По-друге, ми думаємо «онтологотивно», тобто безперервно ставимо запитання, навіть самі цього не помічаючи, і перманентно шукаємо на них відповіді (теж автоматично). Нарешті, осмислене розуміння всього, що відбувається навколо індивіда або в його свідомості під час будь-яких споглядань, здійснюється саме за допомогою якогось «модельного уявлення» про навколишній світобудову. Відбувається це шляхом порівняння тих МПО, які він отримує в оперативному порядку, з уявленнями про Світобудову, що зберігаються в людській довгостроковій пам'яті. Ось, рівно, ці три основні кити і становлять усю технологію природного мислення, яку залишається тепер лише просто перекласти на зрозумілу для програмістів мову і отримати довгоочікуваний результат.

Коли люди осмислюють якесь природно-мовне повідомлення, вони практично ніколи не встановлюють моментальну відповідність висловленого судження з поняттями і моделями поведінки образів, що зберігаються в їх пам'яті. Щоразу вони надають для одержуваних (сприймаються) МПО перше асоціативно-евристичне відповідність, що виникає у свідомості, з специфіки накопиченого ними досвіду та наявних знань, і лише потім, у ході подальшого переосмислення тексту, починають уточнювати і конкретизувати отримувану інформацію. Комп'ютерна ж лінгвістика прагне встановлення точних відповідностей значень слів, і навіть їх взаємних відносин, намагаючись подолати проблему багатозначності словесного інструментарію, властивої будь-якої мови, що, власне, дуже відрізняється від цього, як діє наше мислення. Адже, людина досягає розуміння мови або тексту зовсім не за рахунок знання морфологічних навантажень слів або встановлення синтаксичних зв'язків між словами, і навіть не тому, що він розпізнав конкретні значення (семантиси) слів, а за рахунок початкових асоціативних припущень і наступної «ітераційної прокрутки» всього контексту» з метою промальовування остаточної картини відповідності інформації, що сприймається, її внутрішнього змісту.

План:

1. Що таке комп'ютерна лінгвістика?

2. Об'єкт та предмет комп'ютерної лінгвістики

4. Завдання комп'ютерної лінгвістики

5. Методи дослідження комп'ютерної лінгвістики

6. Історія та причини виникнення комп'ютерної лінгвістики

7. Основні терміни комп'ютерної лінгвістики

8. Вчені, які займалися проблемою комп'ютерної лінгвістики

9. Асоціації та конференції з комп'ютерної лінгвістики

10. Використана література.


Комп'ютерна лінгвістика –самостійний напрямок у прикладній лінгвістиці, орієнтований використання комп'ютерів на вирішення завдань, що з використанням природної мови. (Щіліхіна К.М.)


Комп'ютерна лінгвістика– будучи одним із напрямків прикладної лінгвістики, вивчає лінгвістичні основи інформатики та всі аспекти зв'язку мови та мислення, моделювання мови та мислення у комп'ютерному середовищі за допомогою комп'ютерних програм, а її інтереси лежать у галузі: 1) оптимізації комунікації на основі лінгвістичних знань; 2) створення природно-мовного інтерфейсу та типологій розуміння мови для спілкування людини з машиною 3) створення та моделювання інформаційних комп'ютерних систем (Сосніна Є.П.)


Об'єкт комп'ютерної лінгвістики– аналіз мови у його природному стані у процесі використання людьми у різних ситуаціях спілкування, а як особливості мови може бути сформульовані.


Завдання комп'ютерної лінгвістики:


Методи дослідження комп'ютерної лінгвістики:

1. метод моделювання-спеціальний об'єкт вивчення, який недоступний у прямому спостереженні. За визначенням математика К. Шеннона модель є уявленням об'єкта у певній формі, відмінну від форми їхнього реального існування.

2. метод теорії подання знаньмає на увазі методи представлення знань, спрямовані на автоматичну обробку сучасними комп'ютерами.

3. метод теорії мови програмування(programming language theory) – це область інформатики, пов'язана з проектуванням, аналізом, визначенням характеристик та класифікацією мов програмування та вивченням їх індивідуальних особливостей.


Причини виникнення комп'ютерної лінгвістики

1. Поява ЕОМ

2. Проблема спілкування з комп'ютерами непідготовлених користувачів


1.Система пошуку за словником, розроблена у коледжі Беркбек у Лондоні 1948г.

2. Меморандум Уоррена Уівера

3. Початок впровадження перших обчислювальних машин у сфері машинного перекладу

4. Джорджтаунський проект у 1954


1. ALPAC (Automatic Language Processing Advisory Committee) / Консультативний Комітет з автоматичної обробки мови 2. новий етап у розвитку комп'ютерних технологій та їх активне використання у лінгвістичних завданнях 3. створення нового покоління комп'ютерів та мов програмування 4. 60

-70-ті роки ХХ століття


Кінець 80х - початок 90х років ХХ століття

    Поява та активний розвиток мережі Інтернет

  • Бурхливе зростання обсягів текстової інформації в електронному вигляді

  • Необхідність автоматичної обробки текстів природною мовою


1. Продукти компанії PROMT та ABBY (Lingvo) 2. Технології машинного перекладу 3. Технології Translation Memory

Сучасні комерційні системи

  • Пожвавлення текстів

  • Моделі комунікації

  • Комп'ютерна лексикографія

  • Машинний переклад

  • Корпус текстів


Аналіз текстів природною мовою

3 рівні структури тексту:
  • Поверхнева синтаксична структура

  • Глибинна синтаксична структура

  • Семантичний рівень


Завдання синтезу зворотне по відношенню до аналізу

Пожвавлення тексту

1. Обмін текстами за допомогою візуальних образів на екрані дисплея

2. 2 модальності мислення людини: символьна та зорова.


1.Імітація процесу спілкування 2. Створення ефективної моделі діалогу Моделі комунікації


Гіпертекст-особливий спосіб організації та подання тексту, у якому кілька текстів чи фрагментів тексту може бути пов'язані між собою з різних типів зв'язків.


Відмінності гіпертексту від традиційного тексту

Гіпертекст

    1. обробка усного мовлення

  • 2. обробка письмового тексту


Обробка мовлення

1. автоматичний синтез мови

А) розвиток синтезаторів типу «текст-мова». Включає 2 блоки: блок лінгвістичної обробки текстуі блок акустичного синтезу

2. автоматичне розпізнавання мови


1) розпізнавання тексту

2) аналіз тексту

3) синтез тексту


ІПС (інформаційно-пошукова система)– це програмні системи для зберігання, пошуку та видачі інформації, що цікавить.

Захаров В.П. вважає що, ІПС– це впорядкована сукупність документів та інформаційних технологій, призначених для зберігання та пошуку інформації – текстів чи даних.


3 види ІПС

3 види ІПС

    Ручні- Це пошук у бібліотеці.

  • МеханізованіІПС є технічні засоби, які забезпечують відбір потрібних документів

  • Автоматичні- пошук інформації за допомогою комп'ютерів


Комп'ютерна лексикографія

Комп'ютерна лексикографія– один із важливих напрямів прикладної лінгвістики, що займається теорією та практикою складання словників.

У лексикографії виділяють 2 напрямки:
  • Традиційна лексикографіязаймається складанням традиційних словників

  • Машинна лексикографіязаймається автоматизацією підготовки словників та вирішує завдання розробки електронних словників


Завдання комп'ютерної лексикографії

  • Автоматичне отримання з різних словників

  • Створення словників, які є електронними версіями традиційних словників або комплексних електронних лінгвістичних словників для традиційних словникових робіт, наприклад LINGVO

  • Розробка теоретичних та практичних аспектів складання спеціальних комп'ютерних словників, наприклад для інформаційного пошуку, машинного перекладу


Машинний переклад

Машинний переклад- Перетворення тексту однією природною мовою на іншу природну мову за допомогою комп'ютера.

Види машинного перекладу
  • FAMT(Fully Automated Machine Translation) – повністю автоматичний переклад

  • HAMT(Human Aided machine Translation) – машинний переклад за участю людини

  • MAHT(Machine Aided Human Translation) – переклад, який здійснюється людиною із залученням допоміжних програмних та лінгвістичних засобів.


  • 2) професійний МП- Більш якісний переклад з наступним редагуванням людиною

  • 3) інтерактивний МП– вважається перекладом у спеціальних системах підтримки, проходить у режимі діалогу з комп'ютерною системою. Якість МП залежить від можливостей налаштування, ресурсів, типу текстів.

Корпус текстів

Корпус текстів- це деяке зібрання текстів, основу якого лежить логічний задум, логічна ідея, об'єднує ці тексти.

Мовний корпус-великий, представлений електронному вигляді, уніфікований, структурований, розмічений, філологічно компетентний масив мовних даних, призначений на вирішення конкретних лінгвістичних завдань.


Репрезентативність – найважливіша властивість корпусу


Призначення мовного корпусу – показати функціонування лінгвістичних одиниць у їхньому природному контекстному середовищі



На основі корпусу можна отримати дані:

1. про частоту граматичних категорій

2. про зміни частот

3. про зміни контекстів у різні періоди часу

5. про спільну зустрічальність лексичних одиниць

6. про особливості їх поєднання


Браунівський корпус


Корпус текстів - це деяке зібрання текстів, основу якого лежить логічний задум, логічна ідея, об'єднує ці тексти. Втілення цієї логічної ідеї: правила організації текстів у корпус алгоритми та програми аналізу корпусу текстів пов'язана з цим ідеологія та методологія. Національний корпус представляє цю мову на певному етапі (або етапах) її існування і в усьому різноманітті жанрів, стилів, територіальних та соціальних варіантів тощо. Основні терміни комп'ютерної лінгвістики

    Мови програмування (ЯП) – це клас штучних мов, призначених для обробки інформації за допомогою комп'ютера. Будь-яка мова програмування – це строга (формальна) знакова система, з якої записуються комп'ютерні програми. За різними оцінками, в даний час існує від тисячі до десяти тисяч мов програмування.

  • Інформатика(Computer Science) -наука про закономірності запису, зберігання, переробки, передачі та використання інформації за допомогою технічних засобів.



Пошук інформації (Information Retrieval) – це процес відшукання в деякій системі зберігання інформації таких документів (текстів, записів та

т. д.), які відповідають запиту, що надійшов.

« Інформаційно-пошукова система (ІПС) – це впорядкована сукупність документів (масивів документів) та інформаційних технологій, призначених для зберігання та пошуку інформації – текстів (документів) або даних (фактів).

Машинна лексикографія(Сomputational Lexicography)займається автоматизацією підготовки словників та вирішує завдання розробки електронних

словників.

Машинний переклад – це перетворення комп'ютером тексту однією

природною мовою в еквівалентний за змістом текст іншою

природною мовою.

Гіпертекст - це технологія організації інформації та особливим чином структурований текст, розбитий на окремі блоки, що має нелінійне уявлення, для ефективної презентації інформації в комп'ютерних середовищах.


    Фрейм - це структура уявлення декларативного знання типизованої тематично єдиної ситуації, тобто. структура даних про стереотипну ситуацію.

  • Сценарій – це послідовність кількох епізодів у часі, це також уявлення стереотипної ситуації чи стереотипному поведінці, лише елементами сценарію є кроки алгоритму чи інструкції.
  • План – уявлення знань про можливі дії, необхідні для досягнення певної мети.



Вчені в галузі комп'ютерної лінгвістики:

  • Радянські та російські вчені: Олексій Ляпунов, Ігор Мельчук, Ольга Кулагіна, Ю.Д. Апресян, Н.М. Леонтьєва, Ю.С. Мартем'янов, З.М. Шаляпіна, Ігор Богуславський, А.С. Наріньяні, А.Є. Кібрик, Баранов О.М.

  • Західні вчені: Йорік Вілкс, Грегорі Грефенштетт, Гревіл Корбетт, Джон Керолл, Діана Маккарті, Луїс Маркес, Дан Молдован, Йоакім Нівре, Віктор Раскін, Едуард Хові.


Асоціації та конференції з комп'ютерної лінгвістики:
  • «Діалоґ»- головна російська конференція з комп'ютерної лінгвістикиз міжнародною участю.

Пріоритетом Діалогу є комп'ютерне моделюванняросійської. Робочі мови конференції російська та англійська. Для залучення зарубіжних рецензентів основна частина прикладних робіт подається англійською мовою.

Основні напрямки конференції:
  • Лінгвістична семантиката семантичний аналіз

  • Формальні моделі мови та їх застосування

  • Теоретична та комп'ютерна лексикографія

  • Методи оцінки (evaluation) систем аналізу текстів та машинного перекладу

  • Корпусна лінгвістика. Створення, застосування, оцінка корпусів

  • Інтернетяк лінгвістичний ресурс. Лінгвістичні технології в Інтернеті

  • Онтології. Вилучення знаньз текстів

  • Комп'ютерний аналіз документів: реферування, класифікація, пошук

  • Автоматичний аналіз тональності текстів

  • Машинний переклад

  • Моделі спілкування. Комунікація, діалог та мовний акт

  • Аналіз та синтез мови



2. Асоціація з Комп'ютерної лінгвістики (ACL)є міжнародним науковим та професійним суспільством людей, які працюють над проблемами, що включають природну мову та обчислення. Річні збори проводяться щоліта у місцях, де значне дослідження комп'ютерної лінгвістики виконано. Заснована в 1962, спочатку назвали Асоціацією для Машинного перекладу та Комп'ютерної лінгвістики (AMTCL). У 1968 році це стало ACL.
  • УACL є європейська (EACL)та північноамериканська (NAACL)гілки.

  • Журнал ACL, Комп'ютерна лінгвістика, є основним форумом для дослідження в галузі комп'ютерної лінгвістики та обробки природної мови. З 1988 року журнал був виданий для ACL MIT Press.
  • Книжкова серія ACL Дослідження в обробці природної мови, видана видавництвом Кембриджського університету.

  • Щороку ACL та його глави організовують міжнародні конференції у різних країнах.

ACL 2014 проводився у Балтіморі, США.

  • Використана література:

  • 1. Марчук Ю.М. Комп'ютерна лінгвістика: навчальний посібник/Ю.М. Марчук.- М.: АСТ: Схід -Захід, 2007-317 с.

  • 2. Шіліхіна К.М. Основи прикладної лінгвістики: навчальний посібник зі спеціальності 021800 (031301) - Теоретична та прикладна лінгвістика, Воронеж, 2006.

  • 3. Боярський К.К. Введення у комп'ютерну лінгвістику. Навчальний посібник. - СПб: НДУ ІТМО, 2013. - 72 с.

  • 4. Щіпіціна Л.Ю. Інформаційні технології у лінгвістиці: навчальний посібник/Л.Ю. Щіпіціна.- М.: ФЛІНТА: наука, 2013.- 128 с.

  • 5. Сосніна Є.П. Введення в прикладну лінгвістику: навчальний посібник/Е.П.Сосніна.- 2-ге вид., Випр. та дод. - Ульяновськ: УлГТУ, 2012. -110 с.

  • 6. Баранов О.М. Введення в прикладну лінгвістику: Навчальний посібник. - М.: Едіторіал УРСС, 2001. - 360 с.

  • 7. Прикладне мовознавство: Підручник/Л.В. Бондарко, Л.А. Вербицька, Г.Я. Мартиненко та ін; Відп. Редактор О.С. Герд. СПб.: Вид-во С.-Петербург. Ун-та, 1996. - 528 с.

  • 8. Шемякін Ю.І. Початки комп'ютерної лінгвістики: Навчальний посібник. М.: Изд-во МГОУ, А/О «Росвузнаука», 1992.

  • Комп'ютерна лінгвістика: методи, ресурси, програми

    Вступ

    Термін комп'ютерна лінгвістика(КЛ) останніми роками дедалі частіше зустрічається у зв'язку з розробкою різних прикладних програмних систем, зокрема – комерційних програмних продуктів. Пов'язано це бурхливим зростанням у суспільстві текстової інформації, у тому числі в мережі Інтернет, та необхідністю автоматичної обробки текстів природною мовою (ЕЯ). Зазначена обставина стимулює розвиток комп'ютерної лінгвістики як галузі науки та розробку нових інформаційних та лінгвістичних технологій.

    В рамках комп'ютерної лінгвістики, яка існує вже понад 50 років (і відома також під назвами машинна лінгвістика, автоматична обробка текстів на ЄЯ) запропоновано багато перспективних методів та ідей, але далеко не всі вони ще знайшли своє вираження у програмних продуктах, що використовуються на практиці. Наша мета – охарактеризувати специфіку цієї галузі досліджень, сформулювати її основні завдання, вказати її зв'язки з іншими науками, дати короткий огляд основних підходів та ресурсів, а також коротко охарактеризувати існуючі додатки КЛ. Для більш детального ознайомлення з цими питаннями можна рекомендувати книги.

    1. Завдання комп'ютерної лінгвістики

    Комп'ютерна лінгвістика виникла з кінця таких наук, як лінгвістика, математика, інформатика (Computer Science) і штучний інтелект. Витоки КЛ сягають досліджень відомого американського вченого Н. Хомського в галузі формалізації структури природної мови; її розвиток спирається на результати в галузі загальної лінгвістики (мовазнавства). Мова вивчає загальні закони природної мови – її структуру та функціонування, і включає такі галузі:

    Ø Фонологія– вивчає звуки мови та правила їх з'єднання при формуванні мови;

    Ø Морфологія- займається внутрішньою структурою та зовнішньою формою слів мови, включаючи частини мови та їх категорії;

    Ø Синтаксис– вивчає структуру речень, правила поєднання та порядку дотримання слів у реченні, а також загальні його властивості як одиниці мови.

    Ø Семантиката прагматика– тісно пов'язані області: семантика займається змістом слів, речень та інших одиниць мови, а прагматика – особливостями вираження цього сенсу у зв'язку з конкретними цілями спілкування;

    Ø Лексикографіяописує лексикон конкретного ЕЯ – його окремі слова та його граматичні властивості, і навіть методи створення словників.

    Результати Н. Хомського, отримані на стику лінгвістики та математики, заклали основу для теорії формальних мов та граматик (часто званих генеративними, або що породжуютьграматиками). Ця теорія відноситься нині до математичної лінгвістикиі застосовується для обробки не так ЕЯ, але штучних мов, в першу чергу - мов програмування. За характером це цілком математична дисципліна.

    До математичної лінгвістики відносять також квантитативну лінгвістику, Що вивчає частотні характеристики мови - слів, їх комбінацій, синтаксичних конструкцій і т. п., при цьому використовується математичні методи статистики, так що можна назвати цей розділ науки статистичною лінгвістикою.

    КЛ тісно пов'язана з такою міждисциплінарною науковою областю, як штучний інтелект (ІІ), в рамках якого розробляються комп'ютерні моделі окремих інтелектуальних функцій. Одна з перших працюючих програм у галузі ІІ та КЛ – це відома програма Т. Винограда, яка розуміла найпростіші накази людини щодо зміни світу кубиків, сформульовані на обмеженому підмножині ЕЯ. Зазначимо, що незважаючи на очевидний перетин досліджень у галузі КЛ та ІІ (оскільки володіння мовою відноситься до інтелектуальних функцій), ІІ не поглинає всю КЛ, оскільки вона має свій теоретичний базис та методологію. Спільним для зазначених наук є комп'ютерне моделювання як основний метод та підсумкова мета досліджень.

    Таким чином, завдання КЛ може бути сформульована як розробка комп'ютерних програм автоматичної обробки текстів на ЕЯ. І хоча при цьому обробка розуміється досить широко, далеко не всі види обробки можуть бути названі лінгвістичними, а відповідні процесори – лінгвістичними. Лінгвістичний процесорповинен використовувати ту чи іншу формальну модель мови (нехай навіть дуже просту), а отже, бути так чи інакше мовно-залежним (тобто залежатиме від конкретного ЕЯ). Так, наприклад, текстовий редактор Mycrosoft Word може бути названий лінгвістичним (хоча б тому, що використовує словники), а редактор NotePad – ні.

    Складність завдань КЛ пов'язані з тим, що ЕЯ – складна багаторівнева система знаків, що виникла обміну інформацією для людей, вироблена у процесі практичної діяльності, і постійно змінюється у зв'язку з цією діяльністю . Інша складність розробки методів КЛ (і складність вивчення ЕЯ в рамках мовознавства) пов'язана з різноманіттям природних мов, суттєвими відмінностями їхньої лексики, морфології, синтаксису, різні мови надають різні способи вираження одного й того самого змісту.

    2. Особливості системи ЕЯ: рівні та зв'язки

    Об'єктом лінгвістичних процесорів є тексти ЕЯ. Під текстами розуміються будь-які зразки мови – усної та письмової, будь-якого жанру, але переважно КЛ розглядає письмові тексти. Текст має одновимірну, лінійну структуру, і навіть несе певний зміст, мова ж постає як перетворення передається сенсу на тексти (синтез промови) і навпаки (аналіз промови). Текст складається з дрібніших одиниць, і можливо кілька способів розбиття (членування) тексту на одиниці, що належать до різних рівнів.

    Загальновизнане існування наступних рівнів:

    · Рівень пропозицій (висловлювань) - синтаксичний рівень;

    · Лексико-морфологічнаомонімія (найчастіший вид) виникає при збігу словоформ двох різних лексем, наприклад, вірш- дієслово в однині чоловічого роду і іменник в однині, називному відмінку),

    · Синтаксична омоніміяозначає неоднозначність синтаксичної структури, що призводить до кількох інтерпретацій: Студенти зі Львова поїхали до Києва,Flying planes can ru dangerous(Відомий приклад Хомського) та ін.

    3. Моделювання у комп'ютерній лінгвістиці

    Розробка лінгвістичного процесора (ЛП) передбачає опис лінгвістичних властивостей тексту ЕЯ, що обробляється, і цей опис організується як модель мови. Як і при моделюванні в математиці та програмуванні, під моделлю розуміється деяка система, що відображає ряд суттєвих властивостей модельованого явища (тобто ЕЯ) і має структурну або функціональну подобу.

    Мови мови, що використовуються в КЛ, зазвичай будуються на основі теорій, створюваних лінгвістами шляхом вивчення різних текстів і на основі своєї лінгвістичної інтуїції (інтроспекції). У чому специфіка саме моделей КЛ? Можна виділити такі особливості :

    · Формальність і, зрештою, алгоритмізованість;

    · Функціональність (мета моделювання – відтворення функцій мови як «чорної скриньки», без побудови точної моделі синтезу та аналізу мови людиною);

    · Спільність моделі, тобто облік нею досить великої множини текстів;

    · Експериментальна обґрунтованість, що передбачає тестування моделі на різних текстах;

    · Опора на словники як обов'язкову складову моделі.

    Складність ЕЯ, його описи та обробки веде до розбиття цього процесу на окремі етапи, що відповідають рівням мови. Більшість сучасних ЛП відносяться до модульного типу, при якому кожному рівню лінгвістичного аналізу чи синтезу відповідає окремий модуль процесора. Зокрема, у разі аналізу тексту окремі модулі ЛП виконують:

    Ø Графематичний аналіз, тобто виділення в тексті словоформ (перехід від символів до слів);

    Ø Морфологічний аналіз – перехід від словоформ до їх лемам(словниковим формам лексем) або основам(ядерним частинам слова, за вирахуванням словозмінних морфем);

    Ø Синтаксичний аналіз, тобто виявлення граматичної структури речень тексту;

    Ø Семантичний та прагматичний аналіз, при якому визначається зміст фраз та відповідна реакція системи, в рамках якої працює ЛП.

    Можливі різні схеми взаємодії зазначених модулів (послідовна робота або паралельний аналіз, що перемежується), проте окремі рівні - морфологія, синтаксис і семантика все ж обробляються різними механізмами.

    Таким чином, ЛП можна розглядати як багатоетапний перетворювач, що переводить у разі аналізу тексту кожну його пропозицію у внутрішнє уявлення його сенсу і навпаки у разі синтезу. Відповідна модель мови може називатися структурної.

    Хоча повні моделі КЛ вимагають урахування всіх основних рівнів мови та наявності відповідних модулів, при вирішенні деяких прикладних завдань можна обійтися без представлення ЛП окремих рівнів. Наприклад, у ранніх експериментальних програмах КЛ, оброблювані тексти ставилися до дуже вузьким проблемним областям (з обмеженим набором слів і суворим порядком), отже, для розпізнавання слів можна було використовувати їх початкові літери, опускаючи етапи морфологічного і синтаксичного аналізу.

    Ще одним прикладом редукованої моделі, що нині досить часто використовується, є мовна модель частотності символів та їх поєднань (біграм, триграм тощо) в текстах конкретного ЕЯ. Така статистична модельвідображає лінгвістичну інформацію на рівні символів (літер) тексту, і її достатньо, наприклад, для виявлення друкарських помилок або для розпізнавання його мовної приналежності. Аналогічна модель на базі статистики окремих слів та їх спільної зустрічальності в текстах (біграм, триграм слів) застосовується, наприклад, для вирішення лексичної неоднозначності або визначення частини мови (у мовах типу англійської).

    Зазначимо, що можливі структурно-статистичні моделі, у яких при поданні окремих рівнів ЕЯ враховується та чи інша статистика – слів, синтаксичних конструкцій тощо.

    У ЛП модульного типу кожному етапі аналізу чи синтезу тексту використовується відповідна модель (морфології, синтасису тощо. п.).

    Існуючі в КЛ морфологічні моделі аналізу словоформ розрізняються в основному за такими параметрами:

    · результату роботи - лема або основа з набором морфологічних характеристик (рід, число, відмінок, вид, обличчя тощо) заданої словоформи;

    · Методу аналізу - з опорою на словник словоформ мови або на словник основ, або ж безсловниковий метод;

    · Можливості обробки словоформи лексеми, не включеної до словника.

    При морфологічному синтезі вихідними даними є лексема та конкретні морфологічні характеристики запитуваної словоформи даної лексеми, можливий і запит на синтез усіх форм заданої лексеми. Результат як морфологічного аналізу, і синтезу у випадку неоднозначний.

    Для моделювання синтаксису в рамках КЛ запропоновано велику кількість різних ідей та методів, що відрізняються способом опису синтаксису мови, способом використання цієї інформації при аналізі або синтезі речення ЕЯ, а також способом подання синтаксичної структури речення. Дуже умовно можна виділити три основні підходи до створення моделей: генеративний підхід, що сягає ідей Хомського, підхід, висхідний до ідей І. Мельчука і представлений моделлю «СенсТекст», а також підхід, в рамках якого робляться ті чи інші спроби подолати обмеження перших двох підходів, зокрема, теорія синтаксичних груп.

    У рамках генеративного підходу синтаксичний аналіз проводиться, як правило, на основі формальної контекстно-вільної граматики, що описує фразову структуру речення, або на основі деякого розширення контекстно-вільної граматики. Ці граматики виходять із послідовного лінійного членування речення на фрази (синтаксичні конструкції, наприклад, іменні групи) і тому відображають одночасно як його синтаксичну, так і лінійну структури. Отримана в результаті аналізу ієрархічна синтаксична структура речення ЕЯ описується деревом складових, У листі якого знаходяться слова речення, піддерев'я відповідають синтаксичним конструкціям (фразам), що входять в пропозицію, а дуги виражають відносини вкладення конструкцій.

    До підходу, що розглядається, можуть бути віднесені мережеві граматики, що являють собою одночасно апарат для опису системи мови і для завдання процедури аналізу пропозицій на основі поняття кінцевого автомата, наприклад, розширена мережа переходів ATN .

    У рамках другого підходу для подання синтаксичної структури пропозиції використовується наочніший і поширеніший спосіб – дерева залежностей. У вузлах дерева розташовані слова речення (в корені зазвичай дієслово-присудок), а кожна дуга дерева, що зв'язує пару вузлів, інтерпретується як синтаксична підпорядкова зв'язокміж ними, причому напрямок зв'язку відповідає напрямку даної дуги. Оскільки при цьому синтаксичні зв'язки слів та порядок слів у реченні відокремлені, то на основі дерев підпорядкування можуть бути описані розірвані та непроектніконструкції, що досить часто виникають у мовах з вільним порядком слів.

    Дерева складових більше підходять для опису мов у жорсткому порядку слів, подання з їх допомогою розірваних і непроективних конструкцій вимагає розширення граматичного форма лізму, що використовується. Зате в рамках цього підходу природніше описуються конструкції з непідрядними відносинами. У той самий час загальна складність обох підходів – уявлення однорідних членів пропозиції.

    Синтаксичні моделі у всіх підходах намагаються врахувати обмеження, що накладаються на з'єднання мовних одиниць у мові, у своїй однак використовується поняття валентності . Валентність– це здатність слова чи іншої одиниці мови приєднувати інші одиниці певним синтаксичним способом; актант- Це слово або синтаксична конструкція, що заповнює цю валентність. Наприклад, російська дієслово передатимає три основні валентності, які можна висловити такими запитальними словами: хто? кому? що?В рамках генеративного підходу валентності слів (насамперед дієслів) описуються переважно у вигляді спеціальних фреймів ( subcategorization frames) , а в рамках підходу, заснованого на деревах залежностей – як моделі управління.

    Моделі семантики мови найменш опрацьовані в рамках КЛ. Для семантичного аналізу пропозицій були запропоновані так звані відмінкові граматики та семантичні відмінки(валентності), з урахуванням яких семантика речення описується як через зв'язку головного слова (дієслова) з його семантичними актантами, т. е. через семантичні відмінки . Наприклад, дієслово передатиописується семантичними відмінками даючого(агенсу), адресатаі об'єкта передачі.

    Для представлення семантики всього тексту зазвичай використовуються два логічно еквівалентні формалізми (обидва вони детально описані в рамках ІІ):

    · Формули обчислення предикатів, що виражають властивості, стани, процеси, дії та відносини;

    · Семантичні мережі – розмічені графи, у яких вершини відповідають поняттям, а вершини – відносинам з-поміж них.

    Що стосується моделей прагматики та дискурсу, що дозволяють обробляти не лише окремі пропозиції, а й текст загалом, то в основному для їх побудови використовуються ідеї Ван Дейка. Одна з рідкісних та вдалих моделей – модель дискурсивного синтезу зв'язкових текстів. У подібних моделях повинні враховуватись анафоричні посилання та інші явища рівня дискурсу.

    Завершуючи характеристику моделей мови в рамках КЛ, зупинимося трохи докладніше на теорії лінгвістичних моделей «СмислТекст», і в рамках якої з'явилося багато плідних ідей, які випередили свій час і актуальні досі.

    Відповідно до цієї теорії ЕЯ розглядається як особливий перетворювач, що виконує переробку заданих смислів у відповідні їм тексти і заданих текстів у відповідні їм смисли. Під змістом розуміється інваріант усіх синонімічних перетворень тексту. Зміст зв'язного фрагмента мови без розчленування фрази і словоформи відображається у вигляді спеціального семантичного уявлення, що складається з двох компонентів: семантичного графата відомостей про комунікативної організації сенсу.

    Як відмінні риси теорії слід зазначити:

    o орієнтацію на синтез текстів (здатність породжувати правильні тексти сприймається як основний критерій мовної компетенції);

    o багаторівневий, модульний характер моделі, причому основні рівні мови поділяються на поверхневий і глибинний рівень: різняться, наприклад, глибинний(семантизований) та поверхневий(«чистий») синтаксис, а також поверхнево-морфологічний та глибинно-морфологічний рівні;

    o інтегральний характер моделі мови; збереження інформації, поданої на кожному рівні, відповідним модулем, що виконують перехід із цього рівня на наступний;

    o спеціальні засоби опису синтактики (правил з'єднання одиниць) кожному з рівнів; для опису лексичної комбінації був запропонований набір лексичних функцій, за допомогою яких сформульовані правила синтаксичного перифразування;

    o упор на словник, а чи не на граматику; у словнику зберігається інформація, що відноситься до різних рівнів мови; зокрема, для синтаксичного аналізу використовуються моделі управління слів, що описують їх синтаксичні та семантичні валентності.

    Ця теорія і модель мови знайшли своє втілення у системі машинного перекладу ЕТАП.

    4. Лінгвістичні ресурси

    Розробка лінгвістичних процесорів потребує відповідного подання лінгвістичної інформації про оброблюваний ЕЯ. Ця інформація відображається у різноманітних комп'ютерних словниках та граматиках.

    Словникиє найтрадиційнішою формою подання лексичної інформації; вони різняться своїми одиницями (зазвичай слова чи словосполучення), структурою, охопленням лексики (словники термінів конкретної проблемної області, словники загальної лексики тощо. п.). Одиниця словника називається словниковою статтею, У ній подається інформація про лексему. Лексичні омоніми зазвичай видаються у різних словникових статтях.

    Найбільш поширені в КЛ морфологічні словники, які використовуються для морфологічного аналізу, в їхній словниковій статті представлена ​​морфологічна інформація про відповідне слово – частина мови, словозмінний клас (для флективних мов), перелік значень слова тощо. Залежно від організації лінгвістичного процесора в словник може бути додана граматична інформація, наприклад, моделі управління слова.

    Існують словники, в яких представлена ​​ширша інформація про слова. Наприклад, лінгвістична модель «СенсТекст» суттєво спирається на тлумачно-комбінаторний словник, у словниковій статті якого крім морфологічної, синтаксичної та семантичної інформації (синтаксичні та семантичні валентності) представлені відомості про лексичну сполучність цього слова.

    У ряді лінгвістичних процесорів використовуються словники синонімів. Порівняно новий вид словників словники паронімів, Т. е. зовні схожих слів, що різняться за змістом, наприклад, чужийі чужий, редагуванняі довідка .

    Ще один вид лексичних ресурсів – бази словосполучень, які відбираються найбільш типові словосполучення конкретної мови. Така база словосполучень російської мови (близько мільйона одиниць) складає ядро ​​системи КросЛексика.

    Більш складними видами лексичних ресурсів є тезауруси та онтології. Тезаурус – це семантичний словник, т. е. словник, у якому представлені смислові зв'язки слів – синонімічні, відносини род-вид (іноді звані ставленням вище-нижче), частина-ціле, асоціації. Поширення тезаурусів пов'язані з вирішенням завдань інформаційного пошуку.

    З поняттям тезаурус тісно пов'язане поняття онтології. Онтологія – набір понять, сутностей певної галузі знань, орієнтований багаторазове використання різних завдань. Онтології можуть створюватися з урахуванням існуючої у мові лексики – у разі вони називаються лінгвістичнимв.

    Подібною лінгвістичною онтологією вважається система WordNet - великий лексичний ресурс, в якому зібрані слова англійської мови: іменники, прикметники, дієслова та прислівники, та представлені їх смислові зв'язки кількох типів. Для кожної із зазначених частин мови слова згруповані в групи синонімів ( синсети), між якими встановлені відносини антонімії, гіпонімії (ставлення род-вид), меронімії (ставлення частина-ціле). Ресурс містить приблизно 25 тис. слів, кількість рівнів ієрархії для відношення род-вид в середньому дорівнює 6-7, досягаючи часом 15. Верхній рівень ієрархії формує загальну онтологію – систему основних понять про світ.

    За схемою англійської WordNet було побудовано аналогічні лексичні ресурси інших європейських мов, об'єднані під загальною назвою EuroWordNet.

    Зовсім інший вид лінгвістичних ресурсів – це граматики ЕЯтип яких залежить від моделі синтаксису, що використовується в процесорі. У першому наближенні граматика є набором правил, що виражають загальні синтаксичні властивості слів і груп слів. Загальна кількість правил граматики також залежить від моделі синтаксису, змінюючись від кількох десятків до кількох сотень. Фактично, тут проявляється така проблема, як співвідношення моделі мови граматики і лексики: що більше інформації представлено у словнику, тим коротше може бути граматика і навпаки.

    Зазначимо, що побудова комп'ютерних словників, тезаурусів та граматик – об'ємна та трудомістка робота, іноді навіть більш трудомістка, ніж розробка лінгвістичної моделі та відповідного процесора. Тому одним із підлеглих завдань КЛ є автоматизація побудови лінгвістичних ресурсів.

    Комп'ютерні словники часто формуються конвертацією звичайних текстових словників, проте нерідко їхнього побудови потрібно набагато складніша і копітка робота. Зазвичай це буває при побудові словників і тезаурусів для наукових областей, що швидко розвиваються, – молекулярної біології, інформатики та ін. Вихідним матеріалом для отримання необхідної лінгвістичної інформації можуть бути колекції та корпуси текстів.

    Корпус текстів – це колекція текстів, зібрана за певним принципом представницькості (за жанром, авторською приналежністю тощо), в якій всі тексти розмічені, тобто забезпечені деякою лінгвістичною розміткою (анотаціями) – морфологічною, акцентною, синтаксичною і т.п. . В даний час існує не менше сотні різних корпусів - для різних ЕЯ і з різною розміткою, в Росії найбільш відомим є Національний корпус російської мови.

    Розмічені корпуси створюються лінгвістами і використовуються як для лінгвістичних досліджень, так і для налаштування (навчання) моделей і процесорів, що використовуються в КЛ, за допомогою відомих математичних методів машинного навчання. Так, машинне навчання застосовується для налаштування методів розв'язання лексичної неоднозначності, розпізнавання частини мови, дозволу анафоричних посилань.

    Оскільки корпуси та колекції текстів завжди обмежені за представленими в них мовними явищами (а корпуси, до всього іншого, створюються досить довго), останнім часом все частіше як повніший лінгвістичний ресурс розглядаються тексти мережі Інтернет. Безумовно, Інтернет є найпредставнішим джерелом зразків сучасного мовлення, проте його використання як корпусу потребує розробки спеціальних технологій.

    5. Програми комп'ютерної лінгвістики

    Область додатків комп'ютерної лінгвістики постійно розширюється, отже охарактеризуємо тут найвідоміші прикладні завдання, які її інструментами.

    Машинний переклад– ранній додаток КЛ, разом з яким виникла і розвивалася сама ця область. Перші програми перекладу були побудовані понад 50 років тому і були засновані на найпростішій стратегії перекладу. Проте досить швидко було усвідомлено, що машинний переклад вимагає повної лінгвістичної моделі, яка враховує всі рівні мови, аж до семантики та прагматики, що неодноразово гальмувало розвиток цього напряму. Досить повна модель використана у вітчизняній системі ЕТАП, що виконує переклад наукових текстів з французької на російську мову.

    Зауважимо, однак, що у разі перекладу на родинну мову, наприклад, при перекладі з іспанської на португальську або ж з російської на українську (у яких багато спільного в синтаксисі та морфології), процесор може бути реалізований на основі спрощеної моделі, наприклад, на основі все тією самою стратегією послівного перекладу.

    В даний час існує цілий спектр комп'ютерних систем перекладу (різної якості), від великих міжнародних дослідницьких проектів до комерційних автоматичних перекладачів. Істотний інтерес становлять проекти багатомовного перекладу, з використанням проміжної мови, якою кодується зміст перекладних фраз. Інший сучасний напрямок – статистична трансляція, що спирається на статистику перекладу слів та словосполучень (ці ідеї, наприклад, реалізовані в перекладачі пошуковика Google).

    Але незважаючи на багато десятиліть розвитку всього цього напряму, в цілому завдання машинного перекладу ще далека до повного вирішення.

    Ще один досить старий додаток комп'ютерної лінгвістики - це інформаційний пошукта пов'язані з ним завдання індексування, реферування, класифікації та рубрикації документів.

    Повнотекстовий пошук документів у великих базах документів (в першу чергу – науково-технічних, ділових) проводиться зазвичай на основі їх пошукових образів, під якими розуміється набір ключових слів– слів, що відбивають основну тему документа. Спочатку як ключові слова розглядалися лише окремі слова ЕЯ, а пошук проводився без урахування їх словозміни, що некритично для слабофлективних мов типу англійською. Для флективних мов, наприклад, для російської знадобилося використання морфологічної моделі, яка враховує словозміну.

    Запит на пошук також представлявся у вигляді набору слів, відповідні (релевантні) документи визначалися на основі схожості запиту та пошукового образу документа. Створення пошукового образу документа передбачає індексуванняйого тексту, тобто виділення в ньому ключових слів. Оскільки дуже часто набагато точніше тему та зміст документа відображають не окремі слова, а словосполучення, як ключові слова стали розглядатися словосполучення. Це значно ускладнило процедуру індексування документів, оскільки для відбору значних словосполучень тексту потрібно було використовувати різні комбінації статистичних і лінгвістичних критеріїв.

    По суті, в інформаційному пошуку переважно використовується вектор текст тексту(звана іноді bag of words– мішок слів), коли документ представляється вектором (набором) своїх ключових слів. Сучасні інтернет-пошуковики також використовують цю модель, виконуючи індексування текстів за вживаними словами (у той же час для видачі релевантних документів вони використовують дуже витончені процедури ранжування).

    Зазначена модель тексту (з деякими ускладненнями) застосовується і в нижче суміжних завданнях інформаційного пошуку.

    Реферування тексту– скорочення його обсягу та отримання його короткого викладу – реферату (згорнутого змісту), що робить швидшим пошук у колекціях документів. Загальний реферат може складатися також кількох близьких на тему документів.

    Основним методом автоматичного реферування досі є відбір найбільш значимих речень тексту, для чого зазвичай спочатку обчислюються ключові слова тексту і розраховується коефіцієнт значущості речень тексту. Вибір значних пропозицій ускладнюється анафоричними зв'язками пропозицій, розрив яких небажаний – вирішення проблеми розробляються певні стратегії відбору пропозицій.

    Близьке до реферування завдання – анотуваннятексту документа, т. е. складання його інструкції. У найпростішій формі інструкція є перелік основних тем тексту, виділення яких можуть використовуватися процедури індексування.

    Під час створення великих колекцій документів актуальні завдання класифікаціїі кластеризаціїтекстів з метою створення класів близьких на тему документів. Класифікація означає віднесення кожного документа до певного класу із заздалегідь відомими параметрами, а кластеризація – розбиття безлічі документів на кластери, тобто підмножини тематично близьких документів. Для вирішення цих задач застосовуються методи машинного навчання, у зв'язку з чим ці прикладні завдання називають Text Mining і відносять до наукового напрямку, відомого як Data Mining, або інтелектуальний аналіз даних.

    Дуже близька до класифікації завдання рубрикуваннятексту – його віднесення до однієї з наперед відомих тематичних рубрик (зазвичай рубрики утворюють ієрархічне дерево тематик).

    Завдання класифікації набуває все більшого поширення, воно вирішується, наприклад, при розпізнаванні спаму, а порівняно новий додаток – класифікація SMS-повідомлень у мобільних пристроях. Новий та актуальний напрямок досліджень для спільного завдання інформаційного пошуку – багатомовний пошук за документами.

    Ще одне відносно нове завдання, пов'язане з інформаційним пошуком – формування відповідей на запитання(Question Answering). Це завдання вирішується шляхом визначення типу питання, пошуком текстів, що потенційно містять відповідь на це питання, та отриманням відповіді з цих текстів.

    Зовсім інший прикладний напрямок, який розвивається хоч і повільно, але стійко – це автоматизація підготовки та редагуваннятекстів на ЕЯ. Одним із перших додатків у цьому напрямі були програми автоматичного визначення переносів слів та програми орфографічної перевірки тексту (спелери, або автокоректори). Незважаючи на простоту завдання переносів, її коректне рішення для багатьох ЕЯ (наприклад, англійської) вимагає знання морфемної структури слів відповідної мови, а значить, відповідного словника.

    Перевірка орфографії вже давно реалізована у комерційних системах та спирається на відповідний словник та модель морфології. Використовується також неповна модель синтаксису, з урахуванням якої виявляються досить частотні всі синтаксичні помилки (наприклад, помилки узгодження слів). У той самий час в автокорректорах поки що не реалізовано виявлення складніших помилок, наприклад, неправильне вживання прийменників. Не виявляється і багато лексичних помилок, зокрема, помилки, що виникають внаслідок друкарських помилок або неправильного використання подібних слів (наприклад, ваговийзамість вагомий). У сучасних дослідженнях КЛ пропонуються методи автоматизованого виявлення та виправлення подібних помилок, а також деяких інших видів стилістичних помилок. У цих методах використовується статистика народження слів і словосполучень.

    Близьким до підтримки підготовки текстів прикладним завданням є навчання природній мові, у цього напряму часто розробляються комп'ютерні системи навчання мови – англійському, російському та інших. (подібні системи можна знайти у Інтернеті). Зазвичай ці системи підтримують вивчення окремих аспектів мови (морфології, лексики, синтаксису) і спираються відповідні моделі, наприклад, модель морфології.

    Щодо вивчення лексики, то для цього також використовуються електронні аналоги текстових словників (у яких, по суті, немає мовних моделей). Проте розробляються також багатофукціональні комп'ютерні словники, які мають текстових аналогів і орієнтовані широке коло користувачів – наприклад, словник російських словосполучень Кросслексика . Ця система охоплює широке коло лексики – слів та допустимих їх словосполучень, а також надає довідки щодо моделей управління слів, синонімів, антонімів та інших смислових корелятів слів, що явно корисно не лише для тих, хто вивчає російську мову, а й носіям мови.

    Наступний прикладний напрямок, який варто згадати – це автоматична генераціятекстів на ЄЯ. У принципі, це завдання вважатимуться підзавданням вже розглянутої вище завдання машинного перекладу, проте у межах напрями є низка специфічних завдань. Таким завданням є багатомовна генерація, тобто автоматична побудова кількома мовами спеціальних документів – патентних формул, інструкцій з експлуатації технічних виробів або програмних систем, виходячи з їх специфікації формальною мовою. Для вирішення цього завдання застосовуються докладні моделі мови.

    Все більш актуальне прикладне завдання, яке часто відноситься до напрямку Text Mining – це вилучення інформаціїз текстів, або Information Extraction , що потрібно під час вирішення завдань економічної та виробничої аналітики. І тому здійснюється виділення у тесті ЕЯ певних об'єктів – іменованих сутностей (імен, персоналій, географічних назв), їх відносин і пов'язаних із нею подій. Як правило, це реалізується на основі часткового синтаксичного аналізу тексту, що дозволяє обробляти потоки новин від інформаційних агентств. Оскільки завдання досить складна як теоретично, а й технологічно, створення значних систем вилучення інформації з текстів можна здійснити у межах комерційних компаний .

    До напряму Text Mining відносяться і дві інші близькі завдання – виділення думок (Opinion Mining) та оцінка тональності текстів (Sentiment Analysis), що привертають увагу дедалі більшої кількості дослідників. У першому завданні відбувається пошук (у блогах, форумах, інтернет-магазинах тощо) думок користувачів про товари та інші об'єкти, а також проводиться аналіз цих думок. Друге завдання близьке до класичної задачі контент-аналізу текстів масової комунікації, у ній оцінюється загальна тональність висловлювань.

    Ще один додаток, який варто згадати – підтримка діалогуз користувачем на ЕЯ у межах будь-якої інформаційної програмної системи. Найчастіше це завдання вирішувалося для спеціалізованих баз даних – у разі мови запитів досить обмежений (лексично і граматично), що дозволяє використовувати спрощені моделі мови. Запити до бази, сформульовані на ЕЯ, перекладаються формальною мовою, після чого виконується пошук необхідної інформації та будується відповідна фраза відповіді.

    Як останній у нашому переліку додатків КЛ (але не за важливістю) вкажемо розпізнавання та синтез мови, що звучить. Помилки розпізнавання, що неминуче виникають у цих завданнях, виправляються автоматичними методами на основі словників і лінгвістичних знань про морфологію. У цій галузі також застосовується машинне навчання.

    Висновок

    p align="justify"> Комп'ютерна лінгвістика демонструє цілком відчутні результати в різних додатках з автоматичної обробки текстів на ЕЯ. Подальший її розвиток залежить як від появи нових додатків, так і незалежної розробки різних моделей мови, в яких поки що не вирішено багато проблем. Найбільш опрацьованими є моделі морфологічного аналізу та синтезу. Моделі синтаксису ще не доведені до рівня стійко та ефективно працюючих модулів, незважаючи на велику кількість запропонованих формалізмів та методів. Ще менш вивчені та формалізовані моделі рівня семантики та прагматики, хоча автоматична обробка дискурсу вже потрібна у ряді додатків. Зазначимо, що вже існуючі інструменти самої комп'ютерної лінгвістики, використання машинного навчання та корпусів текстів, може суттєво розв'язати ці проблеми.

    Література

    1. Baeza-Yates, R. і Ribeiro-Neto, B. Modern Information Retrieval, Adison Wesley, 1999.

    2. Bateman, J., Zock M. Natural Language Generation. In: The Oxford Handbook of Computational Linguistics. Мітков R. (ed.). Oxford University Press, 2003, р.304.

    3. Biber, D., Conrad S., і Reppen D. Corpus Linguistics. Investigating Language Structure and Use. Cambridge University Press, Cambridge, 1998.

    4. Болшаков, IA, Gelbukh putational Linguistics. Models, Resources, Applications. Mexico, IPN, 2004.

    5. Brown P., Pietra S., Mercer R., Pietra V. Mathematics of Statistical Machine Translation. //Computational Linguistics, Vol. 19(2): 263-3

    6. Carroll J R. Parsing. In: The Oxford Handbook of Computational Linguistics. Мітков R. (ed.). Oxford University Press, 2003, нар. 233-248.

    7. Chomsky, N. Syntactic Structures. The Hague: Mouton, 1957.

    8. Grishman R. Information extraction. In: The Oxford Handbook of Computational Linguistics. Мітков R. (ed.). Oxford University Press, 2003, нар. 545-559.

    9. Harabagiu, S., Moldovan D. Question Answering. In: The Oxford Handbook of Computational Linguistics. Мітков R. (ed.). Oxford University Press, 2003, нар. 560-582.

    10. Hearst, M. A. Automated Discovery of WordNet Relations. In: Fellbaum, C. (ed.) WordNet: An Electronic Lexical Database. MIT Press, Cambridge, 1998, pp.131-151.

    11. Hirst, G. Ontology and the Lexicon. In.: Handbook on Ontologies in Niformation Systems. Berlin, Springer, 2003.

    12. Jacquemin C., Bourigault D. Терм extraction and automatic indexing // Mitkov R. (ed.): Handbook of Computational Linguistics. Oxford University Press, 2003. 599-615.

    13. Kilgarriff, A., G. Grefenstette. Введення в особливу особу на веб-сайті як підліткові лінгвістики, V. 29, No. 3, 2003, p. 333-347.

    14. Manning, Ch. D., H. Schütze. Foundations of Statistical Natural Language Processing. MIT Press, 1999.

    15. Matsumoto Y. Lexical Knowledge Acquisition. In: The Oxford Handbook of Computational Linguistics. Мітков R. (ed.). Oxford University Press, 2003, нар. 395-413.

    16. The Oxford Handbook on Computational Linguistics. Р. Мітков (Ed.). Oxford University Press, 2005.

    17. Oakes, M., Paice C. D. Терм extraction для автоматичного abstracting. Recent Advances in Computational Terminology. D. Bourigault, C. Jacquemin та M. L"Homme (Eds), John Benjamins Publishing Company, Amsterdam, 2001, p.353-370.

    18. Pedersen, T. Вирішення stromу bigrams is accurate predictor of word senses. Proc. 2nd Annual Meeting of NAC ACL, Pittsburgh, PA, 2001, p. 79-86.

    19. Samuelsson C. Statistical Methods. In: The Oxford Handbook of Computational Linguistics. Мітков R. (ed.). Oxford University Press, 2003, нар. 358-375.

    20. Salton, G. Automatic Text Processing: Transformation, Analysis, and Retrieval of Information by Computer. Reading, MA: Addison-Wesley, 1988.

    21. Somers, H. Machine Translation: Latest Developments. In: The Oxford Handbook of Computational Linguistics. Мітков R. (ed.). Oxford University Press, 2003, нар. 512-528.

    22. Strzalkowski, T. (ed.) Natural Language Information Retrieval. Kluwer,19p.

    23. Woods W. A. ​​Transition Network Grammers forNatural language Analysis/Communications of the ACM, V. 13, 1970, N 10, p. 591-606.

    24. Word Net: an Electronic Lexical Database. / Christiane Fellbaum. Cambridge, MIT Press, 1998.

    25. Wu J., Yu-Chia Chang Y., Teruko Mitamura T., Chang J. Automatic Collocation Suggestion in Academic Writing // Proceedings of the ACL 2010 Conference Short Papers, 2010.

    26. та ін. Лінгвістичне забезпечення системи ЕТАП-2. М: Наука, 1989.

    27. та ін. Технології аналізу даних: Data Mining, Visual Mining, Text Mining, OLAP - 2-е вид. - СПб.: БХВ-Петербург, 2008.

    28. Большаков, Лексика – великий електронний словник поєднань і смислових зв'язків російських слів. // Комп. лінгвістика та інтелект. технології: Праці між. Конф. "Діалог 2009". ВипМ.: РДГУ, 2009, с. 45-50.

    29. Большакова Є. І., Большаков виявлення та автоматизоване виправлення російських малапропізмів // НТІ. Сер. 2, №5, 2007, с.27-40.

    30. Ван, Кінч У. Стратегія розуміння зв'язного тексту.// Нове у зарубіжної лінгвістиці. Вип. XXIII-М., Прогрес, 1988, с. 153-211.

    31. Васильєв В. Г., Кривенко М. П. Методи автоматизованої обробки текстів. - М.: ІПІ РАН, 2008.

    32. Виноград Т. Програма, яка розуміє природну мову - М., світ, 1976.

    33. Гладка структура природної мови в автоматизованих системах спілкування. - М., Наука, 1985.

    34. Гусєв, В. Д., Саломатіна словник паронімів: версія 2. // НТІ, Сер. 2 № 7, 2001, с. 26-33.

    35. Захаров -простір як мовний корпус// Комп'ютерна лінгвістика та інтелектуальні технології: Праці Між. конференції Діалог '2005 / За ред. , - М.: Наука, 2005, с. 166-171.

    36. Касевич загальної лінгвістики. – М., Наука, 1977.

    37. Леонтьєва розуміння текстів: Системи, моделі, ресурси: Навчальний посібник - М.: Академія, 2006.

    38. Лінгвістичний енциклопедичний словник / Под ред. Ст Н. Ярцевий, М.: Радянська енциклопедія, 1990, 685 с.

    39. , Салій для автоматичного індексування та рубрикування: розробка, структура, ведення. // НТІ, Сер. 2, №1, 1996.

    40. Люгер Дж. Штучний інтелект: стратегії та методи вирішення складних проблем. М., 2005.

    41. Маккьюїн К. Дискурсивні стратегії для синтезу тексту природною мовою // Нове в зарубіжній лінгвістиці. Вип. XXIV. М: Прогрес, 1989, с.311-356.

    42. Мельчук теорії лінгвістичних моделей «СМЫСЛ « ТЕКСТ». – М., Наука, 1974.

    43. Національний Корпус Російської мови. http://*****

    44. Хорошевський В. Ф. OntosMiner: сімейство систем вилучення інформації з мультимовних колекцій документів // Дев'ята Національна конференція зі штучного інтелекту з міжнародною участю КІІ-2004. Т. 2. - М.: Фізматліт, 2004, с.573-581.