Как эффективнее выполнять поиск в Ngram с помощью Google Ngram Viewer

Как эффективнее выполнять поиск в Ngram с помощью Google Ngram Viewer

Как эффективнее выполнять поиск в Ngram с помощью Google Ngram Viewer

Google поддерживает многоязычную базу данных публикуемого языка. Массовое сканирование книг позволяет Google обрабатывать текст и обеспечивает частоту появления слов на основе статистических данных. С помощью инструмента поиска Google Ngram Viewer вы можете быстро и эффективно осуществлять поиск по этим объемным статистическим данным. Сравнивая относительную популярность слов, вы можете сопоставить, как язык и культура менялись с течением времени. Однако Ngram может сделать гораздо больше, чем просто сообщить частоту слов в обширном текстовом корпусе Googles.

Базовый поиск (1 грамм)

Содержание

1. Введите ключевое слово в поле поиска Ngram.

2. Если вы хотите найти всю заглавную букву слова, поставьте галочку без учета регистра. В этом поиске в результатах будут возвращены как пицца, так и пицца.

3. Установите параметры поиска под окном поиска. Это включает в себя диапазон дат и корпус языка.

Дата просто устанавливает ограничения для ваших графиков по оси Y. В зависимости от выбранного вами корпуса максимальная и минимальная даты будут сильно различаться.

Значение сглаживания удаляет нетипичные всплески и провалы в ваших данных. Более низкие значения сглаживания более точны, в то время как более высокие значения показывают только более глубокие тенденции.

Выбор корпуса

Корпус — это текстовая коллекция, которую будет просматривать Ngram Viewer. По умолчанию английский язык приемлем для случайного просмотра, но он может быть очень академическим.

Английская художественная литература будет более точно отражать общий язык. Стандартный английский корпус может быть художественным, с большим количеством технических слов. Google предлагает краткие пояснения того, что содержится в каждом корпусе.

Расширенный поиск (от 2 до 5 граммов)

Добавляя дополнительные поисковые слова (граммы на языке поисковой системы), Вы можете создавать сложные сравнения во времени. Вы можете улучшить поиск с помощью команд ключевых слов, таких как расширенные функции поиска Google.

Разделяйте термины последовательного поиска запятой.

Средство просмотра Ngram отобразит относительную частоту вашего поиска условия в одном графе. Наведите указатель мыши на линии графиков, чтобы увидеть точные точки данных.

Поиск по шаблону

Используйте звездочку (*) в терминах поиска в качестве символа подстановки. Например, бакалавр * будет возвращать результаты для многих степеней бакалавра.

Поиск перегиба

Чтобы найти все перегибы термина, добавьте текстовую команду _INF. При этом происходит поиск каждого перегиба присоединенного слова, например, различных форм на английском языке.

Речевые части

Если слово включает в себя много частей речи Вы можете добавить текстовые операторы, чтобы быть конкретными.Допустимые части речи в базе данных Googles включают в себя все следующее:

  • _ADJ_: прилагательное (быстрое, большое, умное)
  • _ADV_: наречие (быстро, позже, всегда)
  • _PRON_: местоимение (их, это, мы)
  • _DET_: определитель или артикль (a, an, the)
  • _ADP_: предлог (предлоги и постпозиции) )
  • _NUM_: цифра (первая, вторая, пятая)
  • _CONJ_: соединение (и, ни, но)
  • _PRT_: частица, которая является зацепкой редко используемая категория для других функций слова

Каждый из этих граммов может быть объединен в фразы. Например, _ADJ_ boy вернет пары слов прилагательное + boy.

Чтобы указать определенную часть речи для одного поискового запроса, добавьте ее в конец: т.е. water_VERB, без завершающего подчеркивания.

Чтобы включить каждую часть речи для данного слова, используйте подстановочный символ после подчеркивания, как показано ниже.

Использование функциональных переменных

Функциональные переменные позволяют вы выполняете поиск по функции или расположению слов.

  • _ROOT_ — это заполнитель для корня дерева разбора предложений. Обычно это основной предмет или слово, измененное глаголом.
  • _START_ указывает начало предложения (_START_ Президент Обама возвращает только предложения, начинающиеся с фразы «Президент Обама»).
  • _END_ указывает конец предложения (_ADP_ _END_ возвращает предложения, заканчивающиеся предлогами) ,

Композиции

Комбинируя поисковые термины с арифметическими операторами, вы можете выполнить простой математический анализ со значениями для частоты терминов:

  • + добавления несколько выражений в один поисковый термин
  • вычитает выражение справа из выражения слева, предоставляя быстрый способ сравнить относительное использование двух поисковых терминов.
  • / делит выражение слева на выражение справа
  • * умножает выражение, чтобы сравнить нграммы с очень различной частотой. Не забудьте заключить всю ngram в скобки, чтобы звездочка не анализировалась как подстановочный знак.
  • : поиск ngram слева в корпусе справа

Зависимости

Наконец, вы можете установить зависимости с помощью = & gt для поиска языковых отношений. car = & gt, fast будет возвращать результаты, когда fast грамматически зависит или изменяет слово car. Это можно свободно смешивать с любой из операций расширенного поиска.

Заключение

При работе с несколькими граммами поиск может быстро усложниться. Некоторые из этих методов поиска хорошо сочетаются друг с другом, а другие несовместимы. Лучший способ узнать, работает ли что-то, — это просто попробовать. Например, тег _INF очень гибок, а _VERB требователен. Вы быстро освоите причуды, углубившись в инструментарий Ngram Viewers.

Icon credit: Good Ware

Эта статья полезна?Да Нет Комментарии (1)

  • Facebook
  • Tweet

0 ответы

Ответить

Хотите присоединиться к обсуждению?
Не стесняйтесь вносить свой вклад!

Добавить комментарий