Источники данных

Добавление и подготовка данных

Добавление источников

После создания базы вы попадаете на страницу источников данных. Поддерживаемые форматы: CSV, DOCX, HTM, HTML, MARKDOWN, MD, MDX, PDF, PPT, PPTX, PROPERTIES, TXT, VTT, XLS, XLSX. Максимальный размер файла — 15 МБ, не более 5 файлов за одну загрузку.

Источники добавляются двумя способами:

Документы — перетащите файлы в зону загрузки или нажмите на неё, чтобы открыть файловый менеджер.

Ссылки на сайты — вставьте URL и нажмите Обработать. Доступны два режима:

  • Сайт — платформа обходит страницу и связанные подстраницы. Можно настроить глубину сканирования и количество подстраниц.

  • Каталог — специальный режим для страниц со списками однотипных карточек: товаров, объявлений, вакансий или объектов недвижимости. Платформа автоматически обходит страницы каталога и собирает цены, характеристики и другую информацию. Подходит для сайтов с навигацией через кнопку «Далее», номера страниц или прокрутку. Не подходит для обычных страниц сайта.

Чтобы переключиться между режимами «Сайт» и «Каталог», нужно сначала удалить уже обработанную ссылку в текущем режиме.

Режим Каталог предназначен только для страниц с карточками товаров или объявлений. Для обычных страниц сайта — описания услуг, контакты, условия доставки — используйте режим Сайт. Выбор правильного режима напрямую влияет на качество обработки данных. Если вам нужно загрузить и каталог, и остальные страницы сайта, добавляйте их отдельными ссылками: сначала каталог в режиме Каталог, затем остальные страницы в режиме Сайт.

Платформа обрабатывает до 150 страниц каталога и не более 11 000 позиций за одну загрузку. Если каталог превышает этот лимит, добавьте ссылки на отдельные категории или разделы, а не на весь каталог целиком — так данные будут обработаны полнее и точнее.

Как подготовить агента для ответов по информации с сайта

1. Разделите страницы сайта на два типа

Страницы каталога содержат карточки товаров, услуг или объявлений с названием, описанием и ценой. Если карточка раскрывается и внутри есть подробное описание, платформа обработает его тоже. Все остальные страницы (FAQ, «О нас», режим работы, доставка) — это обычные страницы сайта.

2. Страницы каталога добавьте в режиме Каталог

Платформа обрабатывает до 150 страниц и не более 11 000 позиций за одну загрузку. Если каталог большой, добавляйте ссылки на отдельные категории.

3.Остальные страницы добавьте в режиме Сайт

Статусы и управление источниками

Статусы источников

После загрузки каждый источник проходит обработку. Возможные статусы:

Статус

Описание

В очереди

Источник ожидает обработки

Обрабатывается

Идёт индексация содержимого

Включено

Источник активен и доступен агенту

Отключено

Источник временно исключён из поиска

Ошибка

Не удалось обработать

При ошибке: выберите источник через чекбокс и нажмите Обработать заново. Либо воспользуйтесь уведомлением в шапке таблицы — оно появляется автоматически при наличии ошибок.

Управление источниками

При выборе одного или нескольких источников через чекбоксы появляется нижняя панель с действиями:

  • Включить / Отключить — изменить доступность источника для агента.

  • Скачать — загрузить оригинальные файлы в ZIP-архиве.

  • Обработать заново — повторная индексация источников со статусом «Ошибка».

  • Удалить — удалить источники из базы знаний.

Работа с базой знаний

Внутри базы знаний доступны дополнительные инструменты:

  • Поиск и фильтрация. Используйте строку поиска, чтобы найти конкретный документ или ссылку по названию. Фильтр по статусу позволяет быстро найти источники с ошибками или отключённые.

  • Переименование источника. Наведите на название документа в таблице, и справа появится значок редактирования. Нажмите на него и введите новое название. Это помогает давать источникам понятные имена вместо технических названий файлов.

  • Просмотр фрагментов. Нажмите на источник, чтобы открыть его содержимое в виде фрагментов, на которые платформа разбила документ. Здесь можно отредактировать текст конкретного фрагмента или отключить его.

  • Удаление базы знаний. Откройте контекстное меню карточки базы знаний и выберите Удалить. Подтвердите действие в модальном окне. Удаление необратимо.

Обновление данных с сайтов

Обновление данных вручную

Если содержимое сайта изменилось, не нужно удалять ссылку и добавлять её заново. Нажмите меню действий (⋯) рядом со ссылкой в таблице источников и выберите Обновить данные.

Платформа повторно считает содержимое страницы, сохранив исходный URL и дату добавления. Повторная публикация агента при этом не требуется.

Автообновление данных

Функция автоматически обновляет все включённые ссылки (сайты и каталоги) в базе знаний по расписанию.

Как включить

  1. Откройте вкладку Управление внутри базы знаний.

  2. В блоке Автообновление данных с сайтов нажмите на переключатель или кнопку Настройки.

  3. В открывшемся окне выберите частоту обновления и время запуска.

  4. Нажмите Сохранить.

В окне настроек будет отображено:

  • Последний запуск — дата и время последнего обновления. Если обновление ещё не запускалось — текст «Запуск не выполнялся».

  • Следующий запуск — дата и время ближайшего запланированного обновления.

Как работает обновление

При срабатывании расписания система обновляет все включённые в базе знаний ссылки. Старое содержимое ссылки полностью заменяется новым. Повторная публикация агента не требуется.

Если вы вручную нажмёте Обновить данные на конкретной ссылке, расписание не сбросится. Следующий автоматический запуск произойдёт через заданный интервал.

Как отключить

Нажмите переключатель в блоке Автообновление данных с сайтов и подтвердите отключение.