Большинство поисковых запросов к Google в Таджикистане делается на русском языке: несмотря на процесс дерусификации в Таджикистане, русский язык продолжает играть ключевую роль в информационном пространстве страны.

Таковы результаты исследования, которое для Cabar.asia подготовил Навруз Каримов. Для исследования были отобрали 260 слов и словосочетаний в 13 разных сферах жизни. За последний год эти слова на русском языке в среднем искали в 4,13 раза чаще, чем на таджикском - не считая те из них, которые на таджикском не ищут вообще.

К сожалению, есть и такие примеры: в категории «одежда и аксессуары» 11 слов из 20 искали исключительно на русском языке. 


Такая же картина наблюдается при поиске информации об объектах городской инфраструктуры. Ровно 50% терминов из этой категории почти никогда не «гуглят» на таджикском.


Эти данные говорят не только об отсутствии полезного контента на таджикском языке, но и о плохих перспективах таджикского языка.

 

Сила привычки и отсутствие контента

По мнению руководителя Общественного фонда «Гражданская инициатива политики Интернет» Мухаммади Ибодуллоева, низкое количество поисковых запросов на таджикском языке объясняется комплексом причин:

«Во-первых, в интернете мало контента на таджикском языке. Информационные агентства, поставляющие большую часть актуальных материалов, до сих пор чаще пишут на русском. Получается, искать что-то на таджикском - это терять доступ к части поисковой информации».


Мухаммади Ибодуллоев также обращает внимание на то, что порой пользователи бессознательно используют русский язык в интернете из-за того, что пытаются следовать правилам интерфейса.

«Пользователи обычно не идут сложными путями. Если сайт по умолчанию открылся на русском, мало кто будет искать переключатель языка. То же и с операционными системами - несмотря на то, что в Windows уже давно есть таджикский язык, многие все равно используют русский.

Браузер и разные сайты, включая Google, считывают язык системы, переводят интерфейс и чаще предлагают контент на русском языке. В результате и пользователи чаще используют русский, так как вся коммуникация с сайтом происходит на русском. Получается замкнутый круг», - считает он.


Ещё несколько лет назад по запросу «обу хаво» (погода) можно было получить устаревшие данные о погоде. Сейчас эта проблема уже в прошлом, и Google в ответ на запрос подгружает свою интерактивную панель.

Однако пользователи все равно чаще ищут погоду на русском - отчасти, по привычке, отчасти, потому что из-за системных настроек информация о прогнозе погоды всё равно подгружается на русском (или на английском, если язык системы английский).

 

Особенности алгоритмов

Другие продукты компании Google также плохо поддерживают таджикский язык. Например, Google Translate «проседает» в переводе многих тем.

Причина - слишком малое количество оцифрованных текстов, на которых мог бы «обучиться» алгоритм перевода. Однако эксперты отмечают, что IT-термины на таджикском языке переводчик должен обрабатывать лучше прочих:

«Из Худжанда к нам как-то обратился специалист, который занимался вопросом развития Google Translate, - вспоминает Мухаммади Ибодуллоев. - Мы предоставили ему серию учебных текстов в сфере информационных технологий. Когда-то эти тексты специально переводили с английского языка на таджикский, чтобы помочь развитию отрасли в стране. А теперь они помогают улучшить качество перевода у Google».

По словам Ибодуллоева, проблемы Google с таджикским языком не связаны с его сложностью.


«Таджикский язык более «математичен», алгоритмам наоборот легче обрабатывать данные на таджикском, чем на русском или английском языках, - говорит Ибодуллоев. - Несмотря на это, эффективность работы алгоритмов поисковых систем также в значительной степени зависит от того, насколько популярен язык, от качества данных, доступных для обучения этих алгоритмов. На таджикском языке данных мало, и это в итоге затрудняет работу алгоритмов».

Анализ запросов в Google показывает, что термины, которые относятся к традиционной культуре (например, национальные блюда) чаще ищут именно на таджикском языке.

А широко распространенные слова, относящиеся к еде и напиткам, например, «чай», «мясо», «фрукты» - на русском.

 

Перспективы таджикского языка

Все эксперты, с которыми говорили во время работы над материалом, считают, что отсутствие качественного контента на таджикском языке в важных областях науки может затруднить его дальнейшее развитие.

И такая проблема действительно существует: только два слова в категории «медицина и болезни» из выборки чаще искали на таджикском языке - «туберкулёз» и «психолог».


В сопутствующей теме, анатомии человека, тоже проблемы. Информацию об органах и частях тела ищут в основном на русском языке. На таджикском в незначительной степени чаще искали всего три слова.


Эксперт по языку Умед Джайхони выразил пессимистический взгляд на будущее таджикского языка, утверждая, что он застрял в развитии.

«В Таджикистане действуют Комитет по языку и терминологии и Институт таджикского языка и литературы, которые регулируют появление новых слов в языке, но «в том виде, в котором язык существует сейчас, он не имеет будущего, -  декларирует Джайхони. 

Я разработал и предложил оригинальную таджикскую систему воинских званий для вооружённых сил Таджикистана, но ее до сих пор не утвердили и пользуются советско-российскими званиями, потому что генералитет у нас всё ещё мыслит категориями советского интернационализма».

Джайхони активно создает контент на таджикском языке, но он признается, что информацию на нём почти не ищет.

«Я просто знаю, что в интернете на таджикском нет того, что мне нужно. Книги на родном языке у нас есть, но они не оцифрованы. Вот и приходится использовать русскоязычные источники», - говорит он.

Интересно, что, несмотря на общую тенденцию, запросы на тему религии часто задают именно на таджикском языке.

Например, информацию о паломничестве и исламские атрибуты, такие как «молитвенный коврик» и «тюбетейка», на русском языке искать даже не пытаются. Это может говорить о том, что таджикоязычное население особенно интересует исламская тематика, и контент на эту тему делают сразу на родном языке.


Еще одна особенность таджикоязычного контента - аполитичность. Даже информацию об экономике и политике, за редкими исключениями, ищут на русском.

Только самые острые для Таджикистана темы - миграцию, налоги и торговлю, ищут на родном языке. На равных в поиске идут слова «сохибкор» и «предприниматель», однако это не обязательно говорит о развитии соответствующего контента в регионе.

Скорее всего, «очков» таджикоязычной версии добавляют узбекский футбольный клуб «Сохибкор» и улицы с одноименным названием.


 

«Неродные» развлечения

Качественного развлекательного контента на таджикском языке тоже немного. Удивительно, что рассказать об этом могут даже данные о том, как в Таджикистане ищут животных.


Котов в 18 раз, а медведей - в 26 раз чаще ищут именно на русском языке. Это объясняется тем, что при вводе слова «кот» в Google среди первых результатов поиска появляется мультфильм «Три кота». В случае запроса «медведь» - «Маша и Медведь». Вот так российские мультфильмы смогли потеснить из поиска национальные названия.

1/2

Из развлечений на таджикском ищут «анекдоты», «горячие источники» и «походы». «Песни», «танцы» и даже «книги» в основном ищут на русском языке.


В категории «культура и искусство» выделяются два слова: «музыка» и «вдохновение». Музыку почти не ищут на таджикском, и это не удивительно: даже на таджикских музыкальных порталах вся информация публикуется на русском языке.

А вот «вдохновение», напротив, почти не ищут на русском. Правда, дело не столько в том, что о вдохновении пишут только на родном языке. Запрос «илхом» - это не только «вдохновение», но и популярное имя.

На первых строчках Google по нему - исполнитель Илхом Муродов с песнями о мигрантах и чужестранцах - это один из популярных нарративов в таджикской музыкальной индустрии. 


 

Возвращение к корням

Актуальной и полезной информации на таджикском языке крайне мало. Однако ярче всего эта проблема заметна, если искать в Google названия техники и предметов быта. 


Ни одно слово в категории «техника» не искали чаще на таджикском языке. Что хуже, большинство из этих слов на таджикском искать даже не пытаются. Единственное слово в категории «предметы быта», которое встречалось чаще в таджикоязычном написании, вероятно, получило свой результат по ошибке.

При запросе «курси» (стул) в результатах Google чаще всего появляются ссылки на курс валют, образовательные курсы и главу из Корана. Google не смог корректно идентифицировать таджикское слово, вместо этого предполагая, что это либо опечатка в русском слове, либо арабское название.


Это вскрывает одну из проблем использования кириллицы для языков, на которых говорит относительно небольшое количество людей: алгоритмы поисковых систем как будто игнорируют их существование.

Но стоит ли тогда переходить на персидскую или какую-то иную письменность? Как отмечает медиалингвист Кутбиддин Мухтори, этот вопрос остается спорным и требует дополнительного обсуждения.

«Многие персоязычные страны мира пользуются арабским алфавитом, но арабский алфавит всё-таки не является таджикским. Если мы вообще хотим менять письменность, если хотим возродить свою идентичность, возвращаться стоит к нашему древнему согдийскому алфавиту. Именно это был наш язык, который мы не смогли сохранить, и в итоге перешли на арабский.

Но любое масштабное изменение языка обойдётся нам крайне недёшево. В течение 70-80 лет основную часть научного и литературного наследия мы уже перевели на кириллицу. Население придётся переучивать, придётся отстаивать важность таких изменений.

С другой стороны, доступа к современным знаниям на родном языке у нас нет. А другие персоязычные страны в этом преуспели - например, Иран быстро переводит новую мировую литературу на персидский. С этой стороны переход на персидскую письменность принёс бы людям большую пользу», - говорит он.

Ещё один аргумент против смены языка - на персидском будет по-прежнему сложно продвигать местную культуру в мире. Мухтори считает, что рассказывать другим странам об истории и достижениях Таджикистана лучше всё-таки на русском или английском.

 

Главные выводы

Таджикистанцы привыкли использовать Google на русском, и наше исследование это ярко подтвердило. Единственная сфера жизни, где ощутимую долю контента ищут на родном языке - это религия.

Такая ситуация сложилась по нескольким причинам:

- качественных текстов на родном языке очень мало, а те сайты, которых их публикуют, зачастую плохо индексируются в поиске. Пользователи поисковых систем используют русский, чтобы не потерять часть информации.

- на многих сайтах и в операционных системах русский язык выставлен по умолчанию. Пользователь, привыкая к русскоязычному интерфейсу, и сам начинает «разговаривать» с сайтами по-русски.

- поисковые системы «пессимизируют» таджикские слова, похожие на русскоязычные. Как со словом «курси», по которому Google предлагает посмотреть курсы валют. В таком случае поисковая выдача не соответствует тому запросу, который ей задают.

Можем ли мы это изменить?

Чем больше хорошего контента в интернете будет на родном языке, тем более вероятно, что пользователь привыкнет его искать. Чем больше будет появляться текстов на таджикском, тем меньше вероятность того, что поисковые системы будут считать наши слова «ошибками» в русских.

Именно большое количество контента о религии стало причиной интереса к этой теме на родном языке. То же самое может произойти с другими сферами жизни, если приложить к этому много усилий.

Этим летом оставайтесь с нами в TelegramFacebookInstagramЯндекс.ДзенOK и ВК