НЛП срещу НЛУ: от разбиране на език до обработката му

НЛП срещу НЛУ: от разбиране на език до обработката му

С напредването на изкуствения интелект и технологиите стават все по-сложни, ние очакваме съществуващите концепции да обхванат тази промяна - или да се променят сами. По подобен начин в областта на компютърната обработка на естествени езици концепцията за обработка на естествен език ще отстъпи ли място на разбирането на естествения език? Или връзката между двете концепции е по-тънка и по-сложна, а просто линейното напредване на технологията?
В тази публикация ще разгледаме подробно концепциите за NLP и NLU и техните ниши в технологията, свързана с AI.
Важно е, че понякога се използват взаимозаменяемо, но всъщност са две различни понятия, които имат някакво припокриване. На първо място двамата се занимават с връзката между естествен език и изкуствен интелект. И двамата се опитват да осмислят неструктурирани данни, като език, за разлика от структурирани данни като статистика, действия и т.н. Въпреки това, NLP и NLU са противоположности на много други техники за извличане на данни.
Източник: https://nlp.stanford.edu/~wcmac/papers/20140716-UNLU.pdf

Обработка на естествен език

NLP е вече утвърдено, десетилетие старо поле, опериращо в напречното сечение на компютърните науки, изкуствения интелект, все по-често извличане на данни. Най-важното за NLP е да чете, дешифрира, разбира и осмисля човешките езици от машините, като сваля определени задачи от хората и позволява на машина да се справи с тях. Най-често срещаните примери за такива задачи в реалния свят са онлайн чатботите, обобщаващите текстове, автоматично генерираните раздели за ключови думи, както и инструменти, анализиращи настроението на даден текст.

Какво прави НЛП

NLP в най-широкия си смисъл може да се отнася до широк набор от инструменти, като разпознаване на реч, разпознаване на естествен език и генериране на естествен език. И все пак най-често срещаните задачи на НЛП са исторически:
  • токанизация;
  • разбор;
  • извличане на информация;
  • сходство;
  • гласово разпознаване
  • естествен език и речеви поколения и много други.
В реалния живот NLP се използва за обобщаване на текст, анализ на настроенията, извличане на теми, разпознаване на имената на субектите, маркиране на части от реч, извличане на взаимоотношения, произтичане, извличане на текст, машинен превод и автоматизиран отговор на въпроси, популация на онтология, моделиране на езици и всички свързани с езика задачи, за които можем да мислим.

НЛП техники

Двата стълба на НЛП са синтактичен анализ и семантичен анализ.
Накратко: НЛП разчита на машинното обучение да извлича смисъл от човешките езици чрез анализ на текстовата семантика и синтаксис.

Разбиране на естествен език

Докато NLP може да се проследи до 50-те години на миналия век, когато компютърните програмисти започнаха да експериментират с просто въвеждане на език, NLU започна да се развива през 60-те години от желанието да накара компютрите да разберат по-сложния език. Считан за подтема на NLP, естественият език е по-тесен по предназначение, като се фокусира предимно върху разбирането на машинното четене: да накарате компютъра да разбере какво всъщност означава текст.

Какво всъщност прави НЛУ

Подобно на NLP, NLU използва алгоритми, за да превърне човешката реч в структурирана онтология. Тогава AI алгоритмите откриват такива неща като намерение, време, местоположения и настроения. Въпреки това, когато разгледаме задачите на НЛУ, ще се изненадаме колко НЛП е изградена върху тази концепция:
Задачи на НЛУ
Разбирането на естествения език е първата стъпка в много процеси, като категоризиране на текст, събиране на новини, архивиране на отделни части от текста и в по-голям мащаб анализ на съдържанието. Примерите на NLU в реалния свят варират от малки задачи като издаване на кратки команди въз основа на разбиране на текст до някаква малка степен, като пренасочване на имейл до правилния човек въз основа на основен синтаксис и лексикон с приличен размер. Много по-сложни начинания могат да бъдат напълно разбиране на новинарски статии или сензори в смисъла на поезията или романите.
Накратко: най-добре е да видите NLU като първа стъпка към постигане на NLP: преди машината да може да обработва език, първо трябва да бъде разбрана.

Как НЛП и НЛУ корелират

Както се вижда от неговите задачи, НЛУ е неразделна част от обработката на естествен език, тази част, която е отговорна за човешкото разбиране на смисъла, даден от определен текст. Една от най-големите разлики от NLP е, че NLU надхвърля разбирането на думите, тъй като се опитва да интерпретира смисъла на справяне с често срещани човешки грешки като неправилни произнасяния или транспонирани букви или думи.
Хипотезата, която задвижва НЛП, е тази, зададена от Ноам Чомски в „Синтактични структури“, 1957 г .: „Основната цел в лингвистичния анализ на език L е да се отделят граматичните последователности, които са изреченията на L, от неграматичните последователности, които са не изречения на L и да се изследва структурата на граматическите последователности. “
Синтактичният анализ наистина се използва в множество задачи, за да се оцени как езикът се привежда в съответствие с граматическите правила, като се прилагат граматически правила към група думи и се извличат значения от тях в редица техники:
  • Лематизация: намаляване на сложните форми на думата в единна форма за лесен анализ.
  • Стъблане: изрязване на изречените думи до кореновата им форма.
  • Морфологична сегментация: разделяне на думите на морфеми.
  • Сегментация на думите: разделяне на непрекъснат текст на отделни единици.
  • Разбор: граматичен анализ на изречение.
  • Маркиране на частична реч: идентифициране на частта на речта за всяка дума.
  • Прекъсване на изречението: поставяне на граници на изречението върху непрекъснат текст.
Техники за синтактичен анализ
Граматическата коректност или некоректност обаче не винаги корелира с валидността на фразата. Помислете за класическия пример на безсмислено, но граматично изречение „безцветните зелени идеи яростно спят“. Още повече, че в реалния живот смислените изречения често съдържат малки грешки и могат да бъдат класифицирани като неграматични. Човешкото взаимодействие позволява грешки в произведения текст и реч, компенсирайки ги с отлично разпознаване на образи и извличане на допълнителна информация от контекста. Това показва неподправеността на анализа, фокусиран върху синтаксиса, и необходимостта от по-близък фокус върху многостепенната семантика.
Семантичният анализ, ядрото на НЛУ, включва прилагане на компютърни алгоритми за разбиране на значението и тълкуването на думите и все още не е напълно разрешен.
Ето някои техники в семантичния анализ, да спомена няколко:
  • Разпознаване на имена (NER): определяне на части от текст, които могат да бъдат идентифицирани и категоризирани в предварително зададени групи.
  • Разбиване на думите в смисъл на думата: придаване на смисъл на дума въз основа на контекста.
  • Генериране на естествен език: използване на бази данни за извличане на семантични намерения и превръщането им в човешки език.
Въпреки това, за да разберат напълно естествения език, машините трябва да вземат предвид не само буквалното значение, което семантиката предоставя, но и предназначеното послание или разбирането на това, което се опитва да постигне текстът. Това ниво се нарича прагматичен анализ, който едва започва да се въвежда в техниките на НЛУ / НЛП. Понастоящем можем да го видим до известна степен в анализа на настроенията: оценка на отрицателните / положителните / неутралните чувства, съдържащи се в текста.

Бъдещето на НЛП

Следвайки целта да създадат чатбот, който да може да взаимодейства с човека по човешки начин - и най-накрая да премине теста на Тюринг, бизнеса и академичните среди инвестират повече в техники на NLP и NLU. Продуктът, който имат предвид, цели да бъде без усилие, без надзор и да може да взаимодейства директно с хората по подходящ и успешен начин.
За да се постигне това, изследването се провежда на три нива:
  • Синтаксис - разбиране на граматиката на текста
  • Семантика - разбиране на буквалния смисъл на текста
  • Прагматика - разбиране на това, което се опитва да постигне текстът
За съжаление, разбирането и обработката на естествен език не е толкова просто, колкото осигуряването на достатъчно голям набор от речник и обучение на вашата машина върху него. За да бъде успешен, НЛП трябва да съчетава техники от редица области: език, лингвистика, когнитивни науки, данни за данни, компютърни науки и други. Само чрез комбинация от всички възможни гледни точки можем да разрушим тайната на човешкия език.