Вверх

Что такое обработка естественного языка и как она работает?

5 февраля 2021 |

Что такое обработка естественного языка и как она работает?

Talking to a chat bot on a smartphone. NicoElNino / Shutterstock.com

Обработка естественного языка позволяет компьютерам преобразовывать то, что мы говорим, в команды, которые они могут выполнять. Узнайте, как это работает и как его используют для улучшения нашей жизни.

Что такое обработка естественного языка?

Будь то Alexa, Siri, Google Assistant, Bixby или Cortana, сегодня у каждого, у кого есть смартфон или умный динамик, есть голосовой помощник. Кажется, что с каждым годом эти голосовые помощники все лучше распознают и выполняют то, что мы им говорим. Но задумывались ли вы, как эти помощники обрабатывают то, что мы говорим? Им удается это делать благодаря обработке естественного языка или NLP.

Исторически сложилось так, что большинство программ могло реагировать только на фиксированный набор определенных команд. Файл откроется после нажатия кнопки «Открыть», или электронная таблица вычислит формулу на основе определенных символов и имен формул. Программа взаимодействует с использованием того языка программирования, на котором она была закодирована, и, таким образом, будет производить вывод, когда ей подадут ввод, который она распознает. В этом контексте слова похожи на набор различных механических рычагов, которые всегда обеспечивают желаемый результат.

В этом отличие от человеческих языков, которые сложны, неструктурированы и имеют множество значений, основанных на структуре предложения. , тон, акцент, время, пунктуация и контекст. Обработка естественного языка — это ветвь искусственного интеллекта, которая пытается преодолеть разрыв между тем, что машина распознает как ввод, и человеческим языком. Это сделано для того, чтобы, когда мы говорим или печатаем естественно, машина производит вывод в соответствии с тем, что мы сказали.

Это достигается путем использования огромного количества точек данных для извлечения значения из различных элементов человеческого языка. , поверх значений фактических слов. Этот процесс тесно связан с концепцией, известной как машинное обучение, которая позволяет компьютерам узнавать больше по мере получения большего количества точек данных. По этой причине большинство машин обработки естественного языка, с которыми мы часто взаимодействуем, со временем становятся лучше.

Чтобы лучше прояснить концепцию, давайте взглянем на два самых высокоуровневых метода, используемых в НЛП для обработки языка и информации.

Токенизация

tokenization natural language processing

Токенизация означает разделение речи на слова или предложения. Каждый фрагмент текста — это жетон, и именно эти жетоны появляются при обработке вашей речи. Звучит просто, но на практике это непростой процесс.

Допустим, вы используете программное обеспечение для преобразования текста в речь, такое как Google Keyboard, для отправки сообщения другу. Вы хотите написать: «Встретимся в парке.»Когда ваш телефон берет эту запись и обрабатывает ее с помощью алгоритма преобразования текста в речь Google, Google должен разделить то, что вы только что сказали, на токены. Этими токенами могут быть «встреча», «я», «в», «то» и «парк».

У людей разная длина пауз между словами, а в других языках может быть не так уж мало способ слышимой паузы между словами. Процесс токенизации сильно различается между языками и диалектами.

Основание и лемматизация

Создание и лемматизация включают процесс удаления добавлений или вариаций к корневому слову, которые машина может распознать. Это сделано для того, чтобы интерпретация речи была единообразной для разных слов, которые означают, по сути, одно и то же, что ускоряет обработку НЛП.

stemming natural language processing

Создание основы — это грубый быстрый процесс, который включает удаление аффиксов из корневого слова, которые являются дополнениями к слову, прикрепленному до или после корня. Это превращает слово в простейшую базовую форму, просто удаляя буквы. Например:

  • «Ходьба» превращается в «ходьбу».
  • «Быстрее» превращается в «быстро»
  • «Серьезность» превращается в «серьезность»

Как видите, выделение корней может иметь неблагоприятный эффект, полностью изменяя значение слова.«Серьезность» и «серьезность» не означают одно и то же, но суффикс «ity» был удален в процессе выделения корней.

С другой стороны, лемматизация — более сложный процесс, который включает сокращение слова к их базе, известной как лемма. При этом учитывается контекст слова и то, как оно используется в предложении. Это также включает поиск термина в базе данных слов и соответствующих им лемм. Например:

  • «Are» превращается в «be»
  • «Operation» превращается в «Operation»
  • «Severity» превращается в «серьезный»

В этом примере лемматизации удалось превратить термин «серьезность» в «серьезный», который является его формой леммы и корневым словом.

Примеры использования НЛП и будущее

Предыдущие примеры только начинают касаться поверхности того, что такое обработка естественного языка. Он включает в себя широкий спектр практик и сценариев использования, многие из которых мы используем в нашей повседневной жизни. Вот несколько примеров того, где в настоящее время используется НЛП:

  • Предиктивный текст: когда вы вводите сообщение на своем смартфоне, оно автоматически предлагает вам слова, которые подходят к предложению или которые вы использовали перед.
  • Машинный перевод: широко используемые потребительские службы перевода, такие как Google Translate, для включения высокоуровневой формы НЛП для обработки языка и его перевода.
  • Чат-боты: НЛП является основой для интеллектуальных чат-ботов, особенно в сфере обслуживания клиентов, где они могут помочь клиентам и обработать их запросы до того, как встретятся с реальным человеком.

Это еще не все. НЛП в настоящее время разрабатываются и используются в таких областях, как средства массовой информации, медицинские технологии, управление рабочими местами и финансы. Есть шанс, что в будущем мы сможем провести полноценный сложный разговор с роботом.

Если вам интересно узнать больше о НЛП, на сайте Towards Data есть много фантастических ресурсов. Научный блог или Standford National Langauge Processing Group, с которыми вы можете ознакомиться.

Что такое обработка естественного языка и как она работает?


Напишите пару строк: