⚡ Заработал сайт Национального корпуса башкирского языка
http://bashcorpus.ru
▪ Что такое корпус?
Корпус — это коллекция текстов с возможностью электронного поиска по ним. Искать можно как по словам, так и по грамматическим характеристикам и по русским переводам.
▪ Для чего нужен корпус?
В первую очередь корпус нужен лингвистам для изучения языка. Но не только.
Во-первых, это способ сохранения языка. Словари и грамматики не способны учесть и описать все нюансы словоупотребления и стилистики (например, когда одни слова не сочетаются с другими). Зато такие нюансы сохраняются в корпусе.
Во-вторых, это справочный ресурс. Корпус лучше любого словаря ответит на вопрос "можно ли так сказать? говорят ли так?" (или "как говорят чаще — так или иначе?" или "в каких ситуациях говорят так, а в каких по-другому?"), нужно всего лишь поискать в корпусе слово или оборот, который вызывает вопросы.
В-третьих, с помощью корпуса можно учить языку. Как такой же корпус русского языка используется в образовании, можно посмотреть тут: https://studiorum-ruscorpora.ru/
В-четвертых, корпус — это основа для построения современных интеллектуальных инструментов для работы с языком: систем проверки орфографии, систем автоматического извлечения фактов и других компьютерных инструментов, которые могли бы работать с башкирским языком. Чем корпус больше и лучше, тем лучше будут такие инструменты для башкирского.
▪ Нужно ли за это платить?
Нет, пользоваться корпусом можно совершенно бесплатно. И так будет всегда.
▪ Как пользоваться корпусом?
Нужно зайти вот на эту страницу http://bashcorpus.ru/bashcorpus/search и вбить в строки поисковой формы то, что вы хотите найти. Например, в поле "Лемма" написать "таш". Или в поле "Грамматика" написать "pl" (множественное число). После этого нажать "Enter" или кнопку "Поиск предложений" в интерфейсе. Там есть довольно много поисковых возможностей, которые можно комбинировать.
▪ Как помочь корпусу?
Во-первых, корпус пока что сравнительно маленький. В нём всего 20 млн словоупотреблений. Это больше, чем человек может прочесть за несколько месяцев, но меньше, чем нужно, чтобы представлять, как устроен весь башкирский язык. Поэтому корпус нужно расширять. Для этого нужны новые тексты. Это могут быть отсканированные и распознанные книги, газеты или журналы (обязательно тщательно вычитанные, без ошибок) или написанные самостоятельно, то есть собственные статьи, книги, даже личные письма (только учтите, что эти тексты будут показываться в корпусе другим людям). Главное, чтобы они были на башкирском языке. Тексты для пополнения корпуса можно присылать разработчику корпуса Борису Орехову по адресу nevmenandr@gmail.com. Каждый отдельный текст должен быть в отдельном файле. Ко всем присылаемым файлам нужно приложить таблицу (например, в формате Excel), где было бы в разных колонках написано а) имя файла с текстом, б) автор текста, в) название текста, г) год создания (или публикации) текста, д) место публикации текста (например, Өфө), е) место издания (например, «Башҡортостан» гәзите), ж) пол автора (m или f), з) жанр текста (например, "статья"). Пример такой таблицы есть здесь: https://qps.ru/8QcUz
Во-вторых, каждое слово в корпусе имеет так называемую "разметку", то есть каждому слову специальной программой приписана вероятная часть речи, грамматические характеристики (время, лицо, падеж и т.д.), словарная форма и перевод. В этой разметке есть ошибки: программа неправильно поняла форму, часть речи или что-то ещё. Чтобы исправить эти ошибки, нужно описать суть проблемы, привести проблемное слово и сказать, как должно быть на самом деле, можно также приложить ссылку на запрос, по которому вы получили ошибочный текст (ссылку можно получить, если нажать на кнопку с изображением бумажного самолётика в интерфейсе) а это описание отправить разработчику корпуса Борису Орехову по адресу nevmenandr@gmail.com.
▪ Кто сделал корпус?**
Основной разработчик корпуса — доцент Школы лингвистики НИУ ВШЭ Борис Орехов, по всем вопросам можно писать по адресу nevmenandr@gmail.com. Моральную и консультативную поддержку на разных этапах создания ресурса оказывали доцент БашГУ А. А. Галлямов и "Башкирские проекты" http://bashkort.org/
#башкирскиепроекты