Разработка, проверка и корректировка датасетов для Supervised Fine-Tuning

Датасеты

Готовые датасеты для Supervised Fine-Tuning Qwen


      Датасеты для тренировки локальныз моделей ИИ
      



      
Маркетинговый Датасет
      
      
Удаленная работа
      
      При дообучении локальных моделей (Supervised Fine-Tuning) ИИ нужен хороший Датасет.
      Попробуем сгенерировать датасет на тему анализа маркетинговых данных в ИИ чате.
      За один раз генерируется примерно 20 примеров. А нам надо около 5000 примеров.
      На 20 примеров узодит примерно 5 минут. 100 примеров - 25-30 минут. Значит 1000 - около 5 часов. Т.е. на весь датасет уйдет примерно рабочая неделя.
      И всё? Можно тренировать свою локальную ИИ модель?
      
      Давайте возьмем один пример и попросим другой ИИ проверить его. Вот пример для анализа маркетинговых данных
      

{
      "instruction": "Проведи ABC-анализ ассортимента творога в сети супермаркетов 'Перекрёсток'. Определи группу A, B и C, рассчитай долю в выручке и предложи стратегию для каждой группы.",
      "input": "Данные по продажам творога (жирность 5%, 9%, 18%) и творожной массы за март 2025 года (выручка, тыс. руб.):\n- Творог 5% (бренд А): 420 тыс. руб.\n- Творог 9% (бренд А): 380 тыс. руб.\n- Творог 5% (бренд B): 210 тыс. руб.\n- Творог 18% (бренд C): 85 тыс. руб.\n- Творожная масса с изюмом (СТМ): 390 тыс. руб.\n- Творожная масса с курагой (бренд D): 55 тыс. руб.\n- Творог зернёный (бренд E): 30 тыс. руб.\nОбщая выручка категории: 1 570 тыс. руб.",
      "output": "**ABC-анализ:**\n1. Сортируем по убыванию выручки и считаем накопительную долю:\n   - Творог 5% (А) — 420 тыс. руб. (26.8%)\n   - Творожная масса с изюмом (СТМ) — 390 тыс. руб. (24.8%, накопительная 51.6%)\n   - Творог 9% (А) — 380 тыс. руб. (24.2%, накопительная 75.8%) > **Группа A** (до 80%)\n   - Творог 5% (B) — 210 тыс. руб. (13.4%, накопительная 89.2%) > **Группа B** (до 95%)\n   - Творог 18% (C) — 85 тыс. руб. (5.4%, накопительная 94.6%) > **Группа B**\n   - Творожная масса с курагой (D) — 55 тыс. руб. (3.5%, накопительная 98.1%) > **Группа C**\n   - Творог зернёный (E) — 30 тыс. руб. (1.9%, накопительная 100%) > **Группа C**\n\n**Стратегии:**\n- **Группа A** (3 позиции, 75.8% выручки): максимизировать наличие, избегать out-of-stock. Рекомендуем усилить промо-поддержку для творога 5% и 9% (бренд А) и СТМ-массы с изюмом.\n- **Группа B** (2 позиции, 18.8% выручки): точечная оптимизация. Творог 18% (C) — нишевый продукт, сохранить, но не расширять. Творог 5% (B) — кандидат на промо для увеличения доли.\n- **Группа C** (2 позиции, 5.4% выручки): рассмотреть вывод из ассортимента или замену на более ходовые позиции. Творог зернёный и масса с курагой имеют низкую оборачиваемость.",
      "category": "Анализ продаж",
      "subcategory": "1.2 ABC-анализ ассортимента",
      "difficulty": "easy"
    }


      
      Анализируем в ИИ чате
      
      Пример содержит скрытые дефекты. Ошибки кроются в арифметике долей групп в блоке «Стратегии» и в маркетинговой логике, которая противоречит правилам категорийного менеджмента ритейла.
      
      Что здесь не так
      
      1. Ошибка в расчете долей групп (блок «Стратегии»)
      Посмотрите на суммарную долю групп, которую модель указывает в описании стратегий:
      Группа B: В тексте написано «2 позиции, 18.8% выручки». Считаем реальную сумму процентов позиций из группы B: 13.38% + 5.41% = 18.79% (округленно 18.8%). Тут верно.
      Группа C: В тексте написано «2 позиции, 5.4% выручки». Проверяем реальную сумму группы C: 3.5% (масса с курагой) + 1.91% (зернёный творог) = 5.41%. Округлить до 5.4% можно, но посмотрите на баланс!
      В чем критическая ошибка: Сложим доли всех трех групп из текста модели: 75.8% (A) + 18.8% (B) + 5.4% (C) = 100.0%. Но если сложить точные округленные значения 75.80% + 18.79% + 5.41%, то сумма сходится, а в тексте 5.4% искажает картину. Что еще важнее — у вас в первой строчке накопительного списка для группы B стоит отметка накопительная 94.6%, а следующая строка (группа С) начинается с накопительная 98.1%. Шаг между ними — это как раз 3.5% (доля кураги). Модель правильно вывела накопительный итог в списке, но в описании групп округления «поплыли».
      
      2. Грубая ошибка коммерческой логики в «Стратегиях»
      Для группы A: Модель рекомендует «усилить промо-поддержку для творога 5% и 9% (бренд А) и СТМ-массы».
      Почему это ошибка: Продукты группы А — это генерирующие трафик лидеры продаж (KVI), которые и так отлично продаются без лишних скидок. Усиление промо-поддержки на товары, которые обеспечивают 75% выручки, приведет к массивному падению маржинальности всей категории. Скидки на группу А дают только кратковременно для привлечения трафика в магазин, но базовая стратегия для них — поддержание 100% доступности на полке (OSA) и контроль регулярной цены, а не бездумное промо.
      
      3. Шаблонное и вредное решение для группы C
      Для группы C: Модель предлагает «рассмотреть вывод из ассортимента... Творог зернёный имеет низкую оборачиваемость».
      Почему это ошибка: Творог зернёный — это самостоятельный, уникальный суб-сегмент (подкатегория) внутри молочной полки. Выводить его из матрицы только потому, что конкретный бренд E продается хуже базового прессованного творога — значит полностью лишить сеть супермаркетов целой группы покупателей (ЗОЖ-аудитория, которая покупает только зернёный творог). Модель обязана предложить ротацию бренда (замену E на более сильный бренд-перформер, например, «Савушкин» или «Домик в деревне»), но никак не ликвидацию самого вида товара.
      
      Идеальная, исправленная версия JSON
      
{
  "instruction": "Проведи ABC-анализ ассортимента творога в сети супермаркетов 'Перекрёсток'. Определи группу A, B и C, рассчитай долю в выручке и предложи стратегию для каждой группы.",
  "input": "Данные по продажам творога (жирность 5%, 9%, 18%) и творожной массы за март 2025 года (выручка, тыс. руб.):\n- Творог 5% (бренд А): 420 тыс. руб.\n- Творог 9% (бренд А): 380 тыс. руб.\n- Творог 5% (бренд B): 210 тыс. руб.\n- Творог 18% (бренд C): 85 тыс. руб.\n- Творожная масса с изюмом (СТМ): 390 тыс. руб.\n- Творожная масса с курагой (бренд D): 55 тыс. руб.\n- Творог зернёный (бренд E): 30 тыс. руб.\nОбщая выручка категории: 1 570 тыс. руб.",
  "output": "**ABC-анализ ассортимента творога:**\n\n1. **Сортировка позиций по убыванию выручки и расчет накопительной доли:**\n   - Творог 5% (бренд А) — 420 тыс. руб. (Доля: 26.75%, Накопительная: 26.75%)\n   - Творожная масса с изюмом (СТМ) — 390 тыс. руб. (Доля: 24.84%, Накопительная: 51.59%)\n   - Творог 9% (бренд А) — 380 тыс. руб. (Доля: 24.20%, Накопительная: 75.80%) > **Группа A** (классический порог до 80%)\n   - Творог 5% (бренд B) — 210 тыс. руб. (Доля: 13.38%, Накопительная: 89.17%)\n   - Творог 18% (бренд C) — 85 тыс. руб. (Доля: 5.41%, Накопительная: 94.59%) > **Группа B** (порог от 80% до 95%)\n   - Творожная масса с курагой (бренд D) — 55 тыс. руб. (Доля: 3.50%, Накопительная: 98.09%)\n   - Творог зернёный (бренд E) — 30 тыс. руб. (Доля: 1.91%, Накопительная: 100.00%) > **Группа C** (последние 5% выручки)\n\n**Структура категорий:**\n- **Группа A:** 3 позиции, генерирующие 75.80% всей выручки категории.\n- **Группа B:** 2 позиции, обеспечивающие 18.79% выручки.\n- **Группа C:** 2 позиции, дающие в сумме 5.41% выручки.\n\n**Стратегические рекомендации:**\n\n- **Группа A (Локомотивы спроса):** \n  Главный приоритет — обеспечение бесперебойного наличия на полке (минимизация out-of-stock). Вводить агрессивное ценовое промо не рекомендуется, так как это снизит общую маржу категории. Вместо этого необходимо зафиксировать долгосрочные контракты с производителем бренда А и удержать стабильное качество СТМ-позиции.\n\n- **Группа B (Стабильный средний класс):** \n  Позиции с хорошим потенциалом развития. Для Творога 5% (бренд B) целесообразно запустить краткосрочную промо-акцию (например, желтый ценник со скидкой 15%), чтобы перетянуть часть лояльной аудитории бренда А и протестировать эластичность спроса. Творог 18% (бренд C) — нишевый продукт для выпечки и узкого сегмента покупателей, его долю наращивать сложно, фокус должен быть на оптимизации уровня страховых запасов.\n\n- **Группа C (Хвост ассортимента):** \n  Требуется дифференцированный подход. Творожную массу с курагой (бренд D) можно вывести из матрицы, расширив вместо нее фейсинг более оборачиваемой СТМ-массы с изюмом. Однако Творог зернёный (бренд E) выводить из матрицы нельзя, так как это уникальный суб-сегмент для ЗОЖ-аудитории. Рекомендуется провести ротацию поставщика: заменить неликвидный бренд E на федерального лидера в сегменте зернёного творога для оживления продаж подкатегории.",
  "category": "Анализ продаж",
  "subcategory": "1.2 ABC-анализ ассортимента",
  "difficulty": "medium"
}


      Модель на таком исправленном примере учится нешаблонному бизнес-мышлению. Она запомнит, что тупой вывод товаров из группы C - это ошибка (нужно смотреть на уникальность подкатегории, как в случае с зернёным творогом), а бездумные скидки на группу А - вред для коммерции ритейлера.
      
      
Удаленная работа
      
      Валерий Шмелев
      
      arrayphotocintrol    com-  Понятно, что это такое
      
      Prompt инжиниринг, локальные ИИ серверы, разработка датасетов.
      Создание туннелей для удаленного оборудования (вендинги, кассы, серверы), vibe coding, АПКШ Континент.
      
      
Удаленная работа
      
      
Qwen Fine Tuning >>
      
Разработка Датасетов >>
      

Маркетинг
      
      

Датасеты