Инновации⁠, Черноземье ,
0

«Пока есть возможность взаимодействовать с бесплатными нейросетями»

Эксперт Яркина рассказала о подготовке нейросетей к переходу на платные токены
Калина Яркина (Фото: РБК Черноземье)
Калина Яркина (Фото: РБК Черноземье)
Эксперт по внедрению искусственного интеллекта в бизнесе Калина Яркина — о значении токена в мире больших языковых моделей, проблеме качества данных, предстоящих изменениях в ИИ-сервисах и законодательстве.

Искусственный интеллект стремительно превращается из экспериментальной технологии в обязательный рабочий инструмент — и одновременно с этим заканчивается эра бесплатного доступа к нему. Как подготовиться к переходу на платные токены, чем грозит бизнесу использование непроверенных данных, сгенерированных нейросетями, и почему законодатели не успевают за технологическим прогрессом? Об этом в интервью РБК Черноземье рассказала руководитель международного центра бизнес-консалтинга «Яркина школа», председатель комитета по цифровой безопасности и искусственному интеллекту воронежского регионального отделения «Опора России» Калина Яркина.

— Фундаментальной единицей отсчета в мире больших языковых моделей считается токен. Расскажите, что это такое и почему именно за него в конечном счете пользователь платит деньги?

— Токен — это слово, которое действительно у всех на слуху, однако мало кто понимает, что за ним стоит. Если объяснять совсем просто, токен представляет собой единицу измерения, с помощью которой нейросеть подсчитывает объем текста, которым к ней обращаются. Условно говоря, слово «хороший» нейросеть способна разбить на два токена, две составные части: «хор-» и «-оший». Разные нейросети могут делить одно и то же слово по-разному. А есть слова, которые считаются одним токеном — например, слово «так» будет одним токеном. Вот эти единички и есть те самые токены, которые учитывает нейросеть. В токены переводятся и цифры, и знаки, и символы.

У каждой нейросети, если речь идет о бесплатной версии, существует определенный лимит токенов, который она способна обработать за жизненный цикл одного чата, пока мы с ней взаимодействуем. Этот показатель называют объемом контекстного окна — сколько токенов может вместить в себя диалог с той или иной нейросетью. Поскольку мы, обычные пользователи, чаще всего работаем с бесплатными версиями, о токенах мы, как правило, вообще не задумываемся. Некоторые нейросети — например, кажется, у Qwen есть такая особенность — могут под диалоговым окном мелким светло-серым шрифтом прописывать, сколько токенов содержит данное сообщение. Однако большинство нейросетей эти цифры нам не показывают. При этом токены стоят денег даже в бесплатных сервисах — просто разработчики пока дают нам возможность бесплатно с ними работать.

Эксперт Яркина рассказала о подготовке нейросетей к переходу на платные токены

— Вы упомянули контекстное окно нейросети и его емкость. Как оно влияет на качество ответов и подбор задач, которые данная нейросеть может эффективно решить?

— Я рекомендую не полагаться исключительно на наши слова, а открыть несколько нейросетей и напрямую задать им в чате вопрос: «Расскажи мне про объем твоего контекстного окна». И нейросеть объяснит, что это такое и как этот параметр влияет на ее работу. Если взглянуть на вопрос совсем упрощенно, то можно представить такую картину. Допустим, нейросеть способна вместить 19 страниц печатного текста — только текста, и больше она обработать уже не может. Это и есть максимальная емкость ее контекстного окна. Соответственно, каждое слово в пределах этих 19 страниц она изучила и перевела в цифры, в те самые токены.

Когда мы работаем с максимально заполненным окном, нейросеть может утверждать, что она проанализировала весь документ, весь файл целиком, но на практике мы можем заметить, что что-то пошло не так. А что именно? Для того чтобы уместиться в комфортный объем контекстного окна, нейросеть может отбросить верхнюю или нижнюю часть документа, либо может просесть середина. Иными словами, она будет оперировать какими-то фрагментами этого текста, полагая их наиболее важными исходя из контекста всего документа и наших запросов. Таким образом, объем контекстного окна напрямую влияет на качество обработки того файла, который мы загрузили.

Есть и еще одна особенность. Когда мы загружаем файл напрямую, прикрепляя его, нейросеть считает за токены также и служебную информацию: разрывы между страницами, номера страниц, если таковые присутствуют. В результате расход токенов возрастает. Гораздо экономичнее скопировать нужный фрагмент из документа и просто вставить его в чат — тогда нейросеть учтет в качестве токенов исключительно тот текст, который мы ей предоставили. Это тоже относится к понятию «объем контекстного окна».

Как мы чаще всего работаем? Загружаем пять или десять файлов. Один в PDF-формате, другой в Word. Там содержатся и тексты, и схемы, и изображения. Все это переводится в токены с разным весом. И в какой-то момент, скажем, на середине нашего общения, нейросеть может предложить начать новый чат, поскольку в этом уже все завершилось. Если не знать про объем контекстного окна, можно допустить эту оплошность, пребывая в уверенности, что нейросеть досконально проработала весь документ. Человек остается в спокойном ощущении, будто ему все качественно обработали. Но нейросеть необходимо периодически проверять: задавать ей вопросы вроде «Расскажи, что содержится на странице № 17 такого-то документа». И если она в точности пересказала, что там находится, значит, она находится в контексте этого документа и не выбросила никаких фрагментов.

— В последнее время все громче звучат голоса скептиков, утверждающих, что ведущие компании-разработчики ИИ-сервисов (OpenAI, Anthropic и др.) должны существенно повысить цены — иначе в перспективе примерно двух лет их ждет разорение. Выходит, золотой век с дешевыми или вовсе бесплатными нейросетями подходит к концу?

— Он подходит к завершению не только из-за грядущего повышения цен. Да, цены будут расти, и мы еще в прошлом году говорили об этом, отмечая, что сейчас пока сохраняется возможность учиться взаимодействовать с бесплатными нейросетями — учиться разговаривать с ними так, чтобы они нас понимали. Почему это важно? Потому что дальше мы переходим к платным токенам, то есть будем платить за каждое обращение определенную сумму.

Чем качественнее мы выстраиваем общение, чем лучше понимаем, как сформулировать запрос, чтобы расход токенов был оптимальным (я не говорю «экономить», но хотя бы расходовать их рационально), тем это выгоднее. Однако уже сейчас нейросети обращаются к материалам, находящимся в открытых источниках, а туда активно генерирует контент тот же самый искусственный интеллект. В результате качество исходного материала падает. Это катастрофа, потому что все, что сгенерировал искусственный интеллект, он же затем изучает, снова генерирует — и так по кругу. Мы упираемся в дефицит качественной исходной информации.

Логичным продолжением становится то, что каждая компания формирует собственную базу знаний — RAG-систему. Это информация, выстроенная с помощью специальных разметок таким образом, чтобы искусственному интеллекту было проще к ней обращаться. Искусственный интеллект внутри компании выдает только те сведения, которые были загружены в эту RAG-систему. Там мы уже точно знаем: информация актуальна, она обновляется, в ней минимум ошибок. А как только нейросеть начнет уходить в открытый доступ через обычные сервисы, она, естественно, будет подтаскивать оттуда не самую качественную информацию.

Третий вариант — подключение к разработчикам через API, но это и сейчас уже платно. А компании-разработчики, безусловно, будут повышать цены, потому что речь идет о больших инвестициях, и инвестиции должны окупаться. Взять OpenAI: они уже сейчас заключили со многими организациями рекламные контракты, и внутри чата GPT нативно размещается реклама. О чем это говорит? О том, что вряд ли теперь чат GPT будет беспристрастно рекомендовать нам какие-либо предложения. При наличии рекламных интеграций нейросеть станет алгоритмично выдавать ту информацию, которая выгоднее разработчикам.

Таким образом, усложняется и само взаимодействие, и инвестиционные схемы, которые должны приносить дивиденды. Поэтому у нас пока еще сохраняется окно возможностей. Кроме того, появляются ужесточения со стороны отечественного законодательства: предприниматели будут обязаны использовать только российское программное обеспечение. Правда, регуляторика здесь пока только выстраивается, законодательная база развивается, что называется, по-живому.

Но есть еще одна сложность: нейросети и искусственный интеллект обучаются и эволюционируют настолько быстро, что к моменту, когда какой-либо закон наконец утвержден, уже не существует всего того, к чему мы стремились и что хотели урегулировать. Поэтому, да, пока еще остается небольшой хвостик того самого золотого времени общего пользования общедоступными нейросетями с более-менее качественной обратной связью.

— Вы уже упомянули проблему качества данных. Как это может сказаться на ИИ-ассистентах?

— Здесь возможны разные сценарии, и нет ничего менее предсказуемого, чем творческий ум человека. Первое, к чему приводит отсутствие или нехватка качественной информации, — это ситуация, когда мы получаем данные извне. С помощью нейросетей мы поставили задачу, и они принесли нам, словно неводом, некий текст. Мы этот текст глубоко не проверили, приняли его как свершившийся факт и начали применять дальше. Соответственно, некачественная информация начинает преломляться и искажаться на следующих этапах. Возникает и риск для репутации самого сотрудника, продемонстрировавшего низкую квалификацию, и риск для репутации компании в целом — например, если она вдруг выпустила договор с контрагентами, составленный с помощью искусственного интеллекта. Это уже прямой репутационный урон.

Но есть еще и проблема с внутренней информацией. Бизнес активно сокращает — или, как сейчас принято говорить, высвобождает — трудовые ресурсы, заменяя человеческий труд роботами и инструментами на базе искусственного интеллекта. Естественно, объем генерируемой и обрабатываемой информации возрастает. Проверить все, что сгенерировал искусственный интеллект, становится все сложнее. К тому же квалификация специалистов, которые занимаются такой проверкой, бывает разной.

Таким образом, мы упираемся в многовекторную проблематику. Кто внутри компании работает с искусственным интеллектом? Кому это доверили? Какова квалификация этого человека? Какова его нагрузка? Какие еще функции он выполняет? Через какое-то время мы рискуем оказаться в ситуации, когда квалифицированных кадров, способных контролировать работу искусственного интеллекта, банально не хватит. А от этого напрямую зависит качество информации, с которой мы потом так или иначе работаем, которую куда-то направляем. Мы действительно вошли в век информационных технологий и колоссального потока данных. И теперь необходимо искать решение, позволяющее контролировать одновременно и объем, и качество этой информации.

— К теме искусственного интеллекта приковано пристальное внимание государства. В том числе введено требование в перспективе использовать только отечественные разработки в этой области. Какие еще новшества в российском законодательстве могут существенно повлиять на отрасль и каким образом?

— Да, с точки зрения законодательства изменения происходят постоянно, как я уже упоминала выше. Буквально вчера мне попалась статья о том, что ученые заблокировали продвижение законопроекта Министерства цифрового развития, касающегося ограничений и контроля за искусственным интеллектом. Иными словами, на законодательном уровне пытаются ввести довольно много ограничений, продиктованных соображениями безопасности. И это правильно: безопасность действительно должна стоять на первом месте. Мы не знаем, что именно порекомендует искусственный интеллект человеку. Мы не знаем, как человек в дальнейшем распорядится этой информацией. Какие-то рычаги управления здесь, безусловно, необходимы.

Однако закручивать гайки слишком жестко тоже нельзя, иначе мы рискуем отбросить себя — и развитие страны, и отдельно взятой компании, — если не в каменный век, то куда-то очень далеко по отношению к тем темпам технического и технологического прогресса, которые демонстрируют зарубежные коллеги. Здесь проблематика пока стоит остро.

У нас уже вводится регламентирование, в том числе законодательное, для искусственного интеллекта, который внедряется в сферу, относящуюся к критической информационной инфраструктуре. Это касается, прежде всего, государственных органов и госпредприятий. Но и коммерческие компании, работающие с госсектором, тоже обязаны знать законодательство: 149-й федеральный закон, 152-й федеральный закон — его, кстати, должны знать вообще все, это закон о персональных данных. И обязательно нужно изучить все нормативные акты, которыми сейчас занимается Министерство цифрового развития.

Если предприятие взаимодействует с клиентами и на каких-либо участках у него встроен искусственный интеллект, необходимо обезопасить себя с точки зрения юридической грамотности. Я настаиваю на этом. Сегодня я уже дала одно задание, и вот второе: зайти в интернет и запросить все законодательные нормы, которые на 2026 год регламентируют работу с искусственным интеллектом.

Практика «Цифра изменит облик ЖКХ»: воронежский эксперт о технологиях
Материалы выпуска
Инструменты Возврат НДС, зачет авансов и пониженные взносы: послабления для МСП
Компетенция «Кадровый голод поможет победить роботизация»
Инструменты 10 отправителей и 2,4 млн руб.: ФНС начнет выявлять скрытый бизнес
Компетенция «Претензии не к идее «ГосЛога», а к реализации»
Компетенция Депутат Ашифин: Воронеж получает лишь малую долю собранных налогов
Компетенция Стройка не падает: девелоперы ждут подъема после кризиса
Инструменты «Белгородэнерго» обеспечит электроэнергией более 1,9 тыс. участков ИЖС
Инновации «Пока есть возможность взаимодействовать с бесплатными нейросетями»
Практика «Цифра изменит облик ЖКХ»: воронежский эксперт о технологиях
Бизнес-кейс «Не стоит делать ставку на мебель»: воронежский бизнесмен о будущем сферы
Инструменты Липецкая ТПП сохранит курс на развитие малого и среднего бизнеса
Инструменты «Раздолжнители — это псевдоюристы и мошенники»
Практика Дизайнер Татьяна Сулимина рассказала о трендах лета 2026
Практика «Любая ошибка может стоить не только прибыли, но и всего имущества»
Практика Фотобизнес в Липецке: спад или смена модели спроса
Содержание
Закрыть