Разработка, проверка и корректировка датасетов для Supervised Fine-Tuning

Датасеты

Готовые датасеты для Qwen


      Датасеты для тренировки локальныз моделей ИИ
      

Shmeleff Датасеты



      
Разработка Датасетов
      
      
Удаленная работа
      
      При дообучении локальных моделей ИИ необходимо подготовить специализированные Датасеты. Например, для темы "Маокетинг молочных продуктов".
      Для тренинга нужно около 5000 примеров. Датасеты можно генерировать в ИИ. Бесплатные ИИ могут генерировать около 10 примеров за одно обращение. Запрос, генерирование, копирование примеров в файл займет примерно 5 минут "чистого" времени.
      И 5000 примеров вы составите всего за 25 000 минут. Это чуть больше двух недель не вставая из-зв компьютера.
      Но, допустим, эта работа выполнена. А что если проверить сделанные примеры.
      Берем сгенерированный пример
      

    {
      "instruction": "Проанализируй динамику продаж категории 'Молоко питьевое' в гипермаркете 'Лента' за последние 6 месяцев. Выяви тренд, сезонность и дай прогноз на следующий месяц.",
      "input": "Данные по продажам молока (литры) в гипермаркете 'Лента' за период с января по июнь 2025 года:\n- Январь: 12 450 л (средняя цена 89 руб/л)\n- Февраль: 11 820 л (средняя цена 92 руб/л)\n- Март: 13 200 л (средняя цена 88 руб/л)\n- Апрель: 14 100 л (средняя цена 86 руб/л)\n- Май: 15 300 л (средняя цена 85 руб/л)\n- Июнь: 16 800 л (средняя цена 83 руб/л)\nИндекс потребительских цен на молоко за этот период вырос на 3.2%.",
      "output": "**Тренд:** Наблюдается устойчивый восходящий тренд с января по июнь. Общий прирост продаж составил +34.9% (с 12 450 до 16 800 л). Среднемесячный темп прироста — +5.8%. Снижение цены на 6.7% (с 89 до 83 руб/л) коррелирует с ростом спроса, что указывает на ценовую эластичность в данном сегменте (коэффициент эластичности ? -5.2).\n\n**Сезонность:** В марте наблюдается аномальный скачок (+11.7% к февралю), что связано с подготовкой к Пасхе и повышением спроса на молочные продукты для выпечки. Апрель–июнь — традиционный рост за счёт школьных каникул и увеличения потребления свежих молочных продуктов.\n\n**Прогноз на июль:**\n- Ожидаемый объём — 17 500–18 200 л (с учётом сохранения тренда и фактора жары, стимулирующего потребление кисломолочных напитков).\n- Рекомендуемый заказ: 18 500 л с учётом возможного роста туристического потока.\n- Ценовая стратегия: удержание цены на уровне 82–84 руб/л для стимулирования спроса.",
      "category": "Анализ продаж",
      "subcategory": "1.1 Динамика продаж по категориям",
      "difficulty": "easy"
    }



      
      Анализируем
      
      Что здесь сломано (Ошибки и аномалии)
      1. Календарный абсурд (Пасха и каникулы не на тех местах)
      Пасха в марте: Модель объясняет мартовский скачок подготовкой к Пасхе. Однако Пасха — это переходящий праздник, который почти всегда выпадает на апрель или май. В 2025 году православная Пасха была 20 апреля. В марте её быть не могло.
      Каникулы в июне: Модель пишет: «Апрель–июнь — традиционный рост за счёт школьных каникул». В апреле и мае дети учатся. Летние каникулы начинаются только в июне.
      
      2. Грубое маркетинговое противоречие в прогнозе
      Входящие данные: Задание четко просит проанализировать категорию «Молоко питьевое».
      В прогнозе: Модель пишет: «...фактора жары, стимулирующего потребление кисломолочных напитков». Питьевое молоко и кисломолочные напитки (кефир, айран) — это разные товарные категории с разным поведением. Более того, в реальном ритейле летняя жара снижает продажи питьевого молока (люди реже варят каши, кофе пьют со льдом, молоко быстро киснет), спрос падает или уходит в ультрапастеризованное молоко (UHT).
      
      3. Математические ошибки и искажения
      Темп прироста: Общий прирост с 12 450 до 16 800 посчитан верно (+34.9%). Но среднемесячный темп прироста указан как +5.8%. Если считать по формуле среднего геометрического (цепной темп), то (16800/12450)^(1/5) - 1 = +6.2%. Ошибка небольшая, но для LLM критичная.
      Эластичность: Коэффициент ценовой эластичности указан как -5.2. Это аномально высокое значение для молока (базового продукта питания с низкой эластичностью, обычно около -0.4...-0.8). При эластичности -5.2 снижение цены на 6.7% должно было вызвать взрывной рост продаж на 35% только за счет цены, без учета тренда.
      
      Давайте сделаем кейс реалистичным. Внесем в него реальную рыночную логику: в первом полугодии (зима-весна) молоко продается хорошо, а в мае-июне (с началом дачного сезона и жары) объемы в литрах в городах падают, несмотря на сезонное снижение цен сырого молока заводами.
      
{
  "instruction": "Проанализируй динамику продаж категории 'Молоко питьевое' в гипермаркете 'Лента' за последние 6 месяцев. Выяви тренд, сезонность и дай прогноз на следующий месяц.",
  "input": "Данные по продажам молока (литры) в гипермаркете 'Лента' за период с января по июнь 2025 года:\n- Январь: 15 200 л (средняя цена 89 руб/л)\n- Февраль: 14 800 л (средняя цена 92 руб/л)\n- Март: 15 600 л (средняя цена 88 руб/л)\n- Апрель: 16 100 л (средняя цена 86 руб/л)\n- Май: 14 300 л (средняя цена 85 руб/л)\n- Июнь: 12 800 л (средняя цена 83 руб/л)\nИндекс потребительских цен на молоко за этот период вырос на 3.2%.",
  "output": "**Тренд и ценовая эластичность:**\nНаблюдается выраженный излом динамики. С января по апрель продажи стабильно росли (с 15 200 до 16 100 л). Однако в мае-июне зафиксировано падение спроса до 12 800 л. Общее снижение объемов за 6 месяцев составило -15.8%. Снижение розничной цены на 6.7% (с 89 до 83 руб/л) не смогло компенсировать падение спроса, что подтверждает низкую ценовую эластичность питьевого молока в летний период (рыночный тренд доминирует над ценовым фактором).\n\n**Сезонность:**\n- **Январь–февраль:** Стабильный зимний спрос (домашнее потребление, приготовление горячих блюд).\n- **Март–апрель:** Пик полугодия (15 600 л и 16 100 л соответственно). Рост в апреле обусловлен подготовкой к Пасхе (20 апреля 2025 г.) и массовой выпечкой.\n- **Май–июнь:** Резкий сезонный спад (-11.2% в мае к апрелю, -10.5% в июне к маю). Это классический FMCG-тренд: начало дачного сезона, школьные каникулы и выезд городского населения снижают трафик гипермаркетов. Дополнительно влияет фактор летней жары, когда потребители переключаются с цельного молока на прохладительные напитки и воду.\n\n**Прогноз на июль:**\n- **Ожидаемый объём:** 11 900–12 300 л. Ожидается сохранение низкого сезонного спроса до конца июля (пик отпусков).\n- **Рекомендуемый заказ:** Ограничить объем регулярных поставок пастеризованного молока (короткий срок годности) до 12 000 л, чтобы избежать списаний. Заместить 15% объема на полке ультрапастеризованным молоком (UHT) со сроком хранения от 6 месяцев, так как оно менее чувствительно к температурным рискам логистики в июле.\n- **Ценовая стратегия:** Удерживать цену на уровне 83–85 руб/л. Дальнейшее снижение цены нецелесообразно, так как категория неэластична летом и скидки не привлекут дополнительный трафик.",
  "category": "Анализ продаж",
  "subcategory": "1.1 Динамика продаж по категориям",
  "difficulty": "medium"
}


      
      Почему эта версия идеальна для Qwen 2.5:
      Календарная точность: Пасха привязана строго к апрелю 2025 года, а спад продаж логично объяснен оттоком людей в мае-июне.
      Отраслевая экспертиза (FMCG): Модель учится дифференцировать риски пастеризованного («короткого») молока и предлагает грамотное коммерческое решение — временно заменить часть матрицы на UHT-молоко длительного хранения на период июльской жары.
      Реалистичная экономика: Коэффициент эластичности больше не выдумывается «из головы», а дается качественная оценка того, что летом ценовые промо на молоко работают плохо.
      
      
Удаленная работа
      
      Валерий Шмелев
      
      arrayphotocintrol    com-  Понятно, что это такое
      
      Prompt инжиниринг, локальные ИИ серверы, разработка датасетов.
      Создание туннелей для удаленного оборудования (вендинги, кассы, серверы), vibe coding, АПКШ Континент.
      
      
Удаленная работа
      
      
      
Датасеты