Маркетинг. Разработка, проверка и корректировка датасетов для Supervised Fine-Tuning

Датасеты для Маркетинга

Готовые датасеты для Supervised Fine-Tuning


      Датасеты для AI fine tuning в маркетинге
      



      
Маркетинговый Датасет
      
      
Удаленная работа
      
      Используя локальные ИИ модели (установленные на собственном или арендованном сервере) можно дообучить ИИ для тонкого анализа маркетинговых данных (данных о структуре и динамике продаж).
      Для этого нужно разработать хорошо детализированное описание исходных данных по позициям и субпозициям, структурировать их для ИИ, создать промпты (объемные, структурно и математически правильные), создать пробные датасеты. Оценить датасеты. Скорректировать промпты и снова сгенерировать датасеты и т.д.
      Затем генерировать примеры для дообучения ИИ и проводить проверку этих примеров. Вносить изменения. И т.д.
      
      Важный вопрос - какой ИИ использовать? Даже платные версии ИИ могут генерировать промпты и датасеты для каких-то категорий совершенно разного уровня.
      
      
Исправляем пример 1 >>
      
Исправляем пример 2 >>
      
Исправляем пример 3 >>
      
Исправляем пример 4 >>
      
Исправляем пример 5 >>
      
Исправляем пример 6 >>
      
      Маркетинг
      
      Датасеты для Маркетинга
      
      Вот корректный пример из датасета для тренировки локальной ИИ модели Qwen для анализа сырых данных по продажам молочной продукции в сетевых магазинах
      

{
"instruction": "Построй ABC/XYZ-матрицу для категории 'Сыры твёрдые' и предложи стратегию управления для каждой ячейки. Даны данные по 6 SKU за 3 месяца. Правила: ABC — A: до 80% кумулятивной выручки, B: 80–95%, C: >95%; XYZ — X: V ? 10%, Y: 10% < V ? 25%, Z: V > 25%.",
"input": "Данные по сырам (выручка, тыс. руб., и коэффициент вариации):\n1. Российский (бренд А) — выручка 850 тыс. руб., V = 8%\n2. Голландский (бренд А) — 720 тыс. руб., V = 12%\n3. Пармезан (бренд В) — 310 тыс. руб., V = 32%\n4. Моцарелла (бренд С) — 290 тыс. руб., V = 45%\n5. Фета (бренд D) — 180 тыс. руб., V = 28%\n6. Косичка копчёная (бренд E) — 90 тыс. руб., V = 55%",
"calculation": {
"total_revenue_thousand_rub": 2440,
"sorted_by_revenue": [
{"sku": "Российский", "revenue": 850, "cum_revenue": 850, "cum_share_pct": 34.839},
{"sku": "Голландский", "revenue": 720, "cum_revenue": 1570, "cum_share_pct": 64.344},
{"sku": "Пармезан", "revenue": 310, "cum_revenue": 1880, "cum_share_pct": 77.049},
{"sku": "Моцарелла", "revenue": 290, "cum_revenue": 2170, "cum_share_pct": 88.934},
{"sku": "Фета", "revenue": 180, "cum_revenue": 2350, "cum_share_pct": 96.311},
{"sku": "Косичка копчёная", "revenue": 90, "cum_revenue": 2440, "cum_share_pct": 100.000}
]
},
"ABC_classification": {
"rule": "A: до 80% кумулятивно, B: 80–95%, C: >95%; берём целые SKU по убыванию выручки",
"result": {
"A": ["Российский", "Голландский", "Пармезан"],
"A_cumulative_pct": 77.049,
"B": ["Моцарелла", "Фета"],
"B_cumulative_pct_after_B": 96.311,
"C": ["Косичка копчёная"],
"C_cumulative_pct": 100.000
},
"note": "Поскольку берём целые SKU, A получается 77.05% (немного ниже 80%). Альтернативно можно добавить 'Моцарелла' в A если требуется строгое покрытие ?80%."
},
"XYZ_classification": {
"rule": "X: V ? 10%, Y: 10% < V ? 25%, Z: V > 25%",
"result": {
"X": ["Российский"],
"Y": ["Голландский"],
"Z": ["Пармезан", "Моцарелла", "Фета", "Косичка копчёная"]
}
},
"ABC_XYZ_matrix": {
"AX": ["Российский"],
"AY": ["Голландский"],
"AZ": ["Пармезан"],
"BX": [],
"BY": [],
"BZ": ["Моцарелла", "Фета"],
"CX": [],
"CY": [],
"CZ": ["Косичка копчёная"]
},
"recommendations": {
"AX": {
"summary": "Ключевой стабильный продукт.",
"actions": [
"Поддерживать высокий уровень сервиса и доступности на полке.",
"Safety stock небольшой (примерно 5–7 дней при частых поставках).",
"Частые мелкие поставки, приоритет в планировании."
]
},
"AY": {
"summary": "Высокая выручка, умеренная вариабельность.",
"actions": [
"Safety stock выше AX (примерно 10–14 дней).",
"Регулярный пересмотр прогноза и мониторинг отклонений.",
"Целевые промо для роста и выравнивания спроса."
]
},
"AZ": {
"summary": "Большая выручка, но высокая нестабильность.",
"actions": [
"Частые пересмотры прогноза (например weekly), буферный запас 14–21 день.",
"Использовать гибкие поставки/контракты и планирование по партиям.",
"Проверить маржинальность перед увеличением запасов; если маржа низкая — оптимизировать логистику или ограничить запасы."
]
},
"BZ": {
"summary": "Средняя/низкая выручка и высокая волатильность — рискованные позиции.",
"actions": [
"Перевести на заказ по факту (make-to-order) при возможности; минимизировать safety stock.",
"Тестировать промо с жёстким контролем отклика; пересмотреть ценовую политику.",
"Рассмотреть вывод SKU или перевод в нишевые/сезонные предложения."
]
},
"CZ": {
"summary": "Низкая выручка и высокая волатильность — аутсайдер.",
"actions": [
"Рекомендовано исключить из основного ассортимента или держать регионально/сезонно.",
"Если оставлять — переводить на заказ и избегать постоянного страхового запаса.",
"Использовать спец. акции для оценки ниши перед решением о выводе."
]
}
},
"validation_notes": [
"Фиксировать правило ABC и XYZ в документации датасета для единообразия при дообучении модели.",
"При наличии данных по марже и lead time рекомендации по запасам можно уточнить.",
"Для тренировки модели полезны примеры альтернативного разбиения (например, строгий A ?80% и практический вариант), чтобы модель объясняла выбор."
],
"category": "Анализ продаж",
"subcategory": "1.4 ABC/XYZ-матрица и стратегии",
"difficulty": "hard"
}


      
      Маркетинг
      
      Таких примеров надо не менее 5000. Написать их вручную малореально. Даже проверить такое количество сложно.
      Эти примеры для датасета надо генерировать. Для этого нужен очень детальный, структурированный и точный промпт.
      Промпт после отладки должен еще быть адаптирован для особенностей заказчика и опять же проверен и отлажен прежде, чем будет сгенерирован весь датасет.
      
      
      
Удаленная работа
      
      Валерий Шмелев
      
      arrayphotocintrol    com-  Понятно, что это такое
      
      Prompt инжиниринг, локальные ИИ серверы, разработка датасетов.
      Создание туннелей для удаленного оборудования (вендинги, кассы, серверы), преодоление блокировок, vibe coding, АПКШ Континент, Android JAVA, PHP, VMware Workstation, ESXi, vSphere.
      
      
Удаленная работа
      
      
Qwen Fine Tuning >>
      
Разработка Датасетов >>
      

Маркетинг


      
      Как написать prompt для генерирования Dataset? Сначала надо составить prompt. Что-то типа:
      

PROMPT

Давайте напишем строгий структурированный промпт для ИИ для генерирования 20 примеров для дообучения (fine tuning) компактной локальной ИИ модели с использованием QLoRA. Область дообучения - анализ исходных (сырых) маркетинговых данных для выявления закономерностей в продажах молочных товаров в сети магазинов. Составь prompt так, чтобы при генерировании примеров ИИ не ошибался в их составлении. Укажи на что ИИ должен обращать внимание, как контролировать правильность составляемых примеров.


      Ниже — строгий структурированный промпт для генератора 20 примеров под fine-tuning компактной локальной модели через QLoRA. Он рассчитан на то, чтобы примеры были не только разнообразными, но и математически, логически и форматно корректными.
      
PROMPT

Ты — генератор обучающих примеров для дообучения компактной локальной LLM. Твоя задача — создать 20 высококачественных, строго проверенных примеров в формате JSONL или JSON-массивов для fine-tuning модели, которая анализирует сырые маркетинговые данные сети магазинов, особенно по молочным товарам.

Цель
Сгенерируй 20 независимых примеров, где модель должна:

анализировать исходные данные по продажам молочных товаров;

находить закономерности, аномалии, сезонность, ABC/XYZ-классы, вклад SKU, динамику продаж, оборачиваемость, маржинальность, эффект промо, влияние цен и наличия;

формулировать краткие, корректные и практичные выводы;

избегать выдуманных показателей, если они не даны во входе.

Формат каждого примера
Каждый пример должен содержать ровно 3 поля:

instruction

input

output

Дополнительно можно включать поля:

category

subcategory

difficulty

meta

Если дополнительное поле не нужно, не добавляй его.

Обязательные правила генерации
1. Реалистичность данных
Каждый пример должен содержать правдоподобные данные из розничной торговли:

продажи по SKU;

выручка, штуки, средняя цена;

остатки, оборачиваемость, списания;

промо-периоды, скидки;

коэффициенты вариации, доля в выручке;

сравнение периодов: неделя к неделе, месяц к месяцу, год к году;

данные по нескольким магазинам, если это требуется задачей.

Не используй абстрактные или слишком идеальные данные. Значения должны быть похожи на реальные торговые показатели.

2. Корректность расчётов
Если в примере есть числа, они должны быть согласованы:

сумма частей должна совпадать с итогом;

проценты должны считаться от правильной базы;

доли должны суммироваться к 100% с допустимой погрешностью округления;

ABC/XYZ-классификация должна соответствовать заданным правилам;

коэффициент вариации должен соответствовать описанию стабильности спроса;

средняя цена = выручка / количество, если это указано.

3. Однозначные правила
Перед задачей всегда явно указывай правила, если требуется классификация:

ABC: A до 80% кумулятивной выручки, B 80–95%, C более 95%;

XYZ: X до 10%, Y 10–25%, Z более 25%;

если используются другие пороги, они должны быть прописаны во входе.

Никогда не используй скрытые или неявные правила.

4. Никаких противоречий
Не допускай ситуаций, когда:

SKU одновременно попадает в две несовместимые категории;

в тексте указан один результат, а в таблице другой;

выводы противоречат данным;

рекомендации содержат показатели, которых нет во входе;

итоговая сумма отличается от арифметически корректной.

5. Разнообразие задач
Из 20 примеров должны быть разные типы аналитики:

4 примера: ABC/XYZ-анализ;

4 примера: анализ продаж и динамики;

3 примера: эффект промо и скидок;

3 примера: анализ остатков и оборачиваемости;

3 примера: сезонность и недельные/месячные паттерны;

3 примера: выявление аномалий, outlier detection, ошибки данных.

Не делай 20 однотипных задач.

6. Ориентация на сырые данные
Во входных данных используй именно сырой формат:

строки таблиц;

список SKU;

значения по магазинам;

неидеально отформатированные, но читаемые данные;

иногда отсутствие части полей.

Модель должна учиться работать с “грязными” данными, а не только с идеально подготовленными таблицами.

7. Краткость и точность ответов
output должен быть:

кратким, но содержательным;

без лишней воды;

без выдуманных допущений;

с чётким финальным выводом;

с перечислением основных расчётов только если они нужны для ответа.

8. Контроль качества
Перед тем как выдать каждый пример, обязательно проверь:

арифметику;

соответствие классификаций порогам;

внутреннюю непротиворечивость текста;

совпадение итогов в input и output;

отсутствие скрытых предположений;

отсутствие случайных, неиспользуемых чисел.

Формат выхода
Сгенерируй ответ как JSON-массив из 20 объектов.

Каждый объект должен иметь структуру:

json
{
  "instruction": "...",
  "input": "...",
  "output": "...",
  "category": "...",
  "subcategory": "...",
  "difficulty": "..."
}
Требования к полям
instruction — одна конкретная задача.

input — сырые данные, необходимые для решения.

output — эталонный ответ, строго соответствующий input.

category — всегда "Анализ продаж".

subcategory — конкретный тип анализа.

difficulty — один из: "easy", "medium", "hard".

Обязательные темы примеров
Сгенерируй примеры по следующим направлениям:

ABC/XYZ-матрица для молочной категории.

Анализ продаж по SKU за период.

Сравнение продаж по магазинам.

Влияние промо на продажи.

Анализ остатков, out-of-stock и оборачиваемости.

Выявление сезонности по неделям или месяцам.

Обнаружение аномалий и ошибок в данных.

Сравнение маржи и выручки по товарам.

Сегментация товаров по устойчивости спроса.

Выводы по ассортименту и рекомендации по управлению запасами.

Жёсткие запреты
Не делай:

вымышленные итоги, не подтверждённые данными;

классификации без расчётов;

рекомендации, не опирающиеся на входные данные;

одинаковые шаблоны текста для всех 20 примеров;

слишком длинные ответы;

художественные или рекламные формулировки;

ссылки, пояснения к себе, разговорные вставки;

пропуски в логике расчётов;

дробные проценты без необходимости, если достаточно округления;

непроверенные сезонные выводы без сезонных данных.

Контрольный чек-лист перед выдачей каждого примера
Проверь, что:

все числа в input согласованы;

итоговые суммы и проценты пересчитаны;

если есть ABC/XYZ, то классы определены по заданным порогам;

если есть средняя цена, она совпадает с выручкой и количеством;

если есть динамика, знаки изменений верны;

если есть промо, вывод об эффекте промо подкреплён числами;

если есть остатки, вывод об out-of-stock или избытке следует из данных;

если есть аномалия, она действительно выделяется относительно остального ряда;

output не содержит информации, которой нет в input;

терминология единообразна во всём примере.

Дополнительное требование к качеству
Сделай примеры такими, чтобы компактная локальная модель училась:

не путать выручку, количество и среднюю цену;

не ошибаться в порогах ABC/XYZ;

не делать выводы без данных;

не терять знак изменения;

не смешивать факт и предположение;

объяснять выводы через данные, а не общие слова.

Итоговая форма задачи
Сгенерируй 20 разнообразных, строго проверенных, реалистичных примеров для fine-tuning модели анализа сырых маркетинговых данных по молочным товарам в сети магазинов. Каждый пример должен быть математически корректным, логически непротиворечивым и пригодным для обучения компактной локальной модели через QLoRA.



      
      Датасеты для маркетинга
      
      
MARKETING_Milk_Sales_Analysis_Deepseek1.txt >>
      
MARKETING_Milk_Sales_Analysis_Deepseek2.txt >>
      
MARKETING_Milk_Sales_Analysis_Deepseek3.txt >>
      
MARKETING_Milk_Sales_Analysis_Qwen4.txt >>
      
      Маркетинг
      
      Ниже - удобная версия в формате system prompt + user prompt для пайплайна генерации датасета. Она жёстко задаёт правила, чтобы генератор не путал арифметику, классификации и выводы.
      
PROMPT

System prompt
Ты — генератор обучающих примеров для fine-tuning компактной локальной языковой модели через QLoRA.
Твоя задача — создавать качественные, реалистичные и математически корректные примеры по анализу сырых маркетинговых данных молочной категории в розничной сети.

Основная цель
Сгенерируй 20 разнообразных примеров, в которых модель должна:

анализировать сырые данные продаж молочных товаров;

находить закономерности, аномалии, сезонность, влияние промо, различия по магазинам и SKU;

выполнять ABC/XYZ-классификацию;

давать краткие и практичные выводы;

не выдумывать показатели, если они не заданы во входе.

Формат
Каждый пример должен содержать строго:

instruction

input

output

Дополнительно допустимы:

category

subcategory

difficulty

Если поле не нужно, не добавляй его.

Обязательные требования к данным
Используй реалистичные данные розничной торговли.

Включай продажи по SKU, выручку, количество, цену, остатки, списания, промо, вариацию спроса, сравнение периодов, данные по магазинам.

Иногда данные могут быть неидеально оформлены, но должны оставаться читаемыми.

Не используй полностью синтетические “идеальные” наборы без бизнес-смысла.

Правила корректности
Проверяй каждый пример перед выводом:

суммы должны сходиться;

проценты должны считаться от правильной базы;

доли должны суммироваться к 100% с допустимой погрешностью округления;

ABC и XYZ должны соответствовать явно заданным порогам;

средняя цена должна равняться выручке, делённой на количество, если оба показателя присутствуют;

выводы должны следовать из входных данных;

нельзя использовать показатели, которых нет во входе;

нельзя допускать противоречий между таблицей, текстом и итогом.

ABC/XYZ
Если используется ABC/XYZ, всегда явно указывай правила во входе:

ABC: A — до 80% кумулятивной выручки, B — 80–95%, C — свыше 95%;

XYZ: X — V ? 10%, Y — 10% < V ? 25%, Z — V > 25%.

Не меняй эти пороги внутри набора примеров, если это не задано явно.

Разнообразие примеров
Из 20 примеров сделай разные типы задач:

4 примера — ABC/XYZ-анализ;

4 примера — анализ динамики продаж;

3 примера — эффект промо;

3 примера — остатки, out-of-stock и оборачиваемость;

3 примера — сезонность;

3 примера — аномалии и ошибки данных.

Не делай 20 однотипных примеров.

Стиль ответов
output должен быть:

кратким;

точным;

деловым;

без лишних рассуждений;

без выдуманных предположений;

с чёткими выводами и, если нужно, короткими расчётами.

Контроль качества
Перед финальным ответом проверь:

арифметику;

корректность процентов;

соответствие классификаций порогам;

совпадение данных в input и output;

отсутствие скрытых допущений;

отсутствие лишних или неиспользуемых чисел;

отсутствие противоречий между текстом и расчётами.

Жёсткие запреты
Не делай:

ложных итогов;

классификаций без расчётов;

рекомендаций без оснований;

одинаковых шаблонов в каждом примере;

слишком длинных ответов;

художественных формулировок;

ссылок и разговорных вставок;

сезонных выводов без сезонных данных;

противоречивых чисел и категорий.

Итог
Сгенерируй 20 реалистичных, разнообразных и строго проверенных примеров для fine-tuning модели анализа сырых маркетинговых данных по молочным товарам в сети магазинов.



      
      Маркетинг
      
User prompt
Сгенерируй 20 примеров в формате JSON-массива.
Каждый объект должен содержать:

instruction

input

output

category

subcategory

difficulty

Требования:

тема — анализ сырых маркетинговых данных по молочным товарам в розничной сети;

примеры должны быть разнообразными;

каждый пример должен быть математически и логически корректным;

если используется ABC/XYZ, явно указывай правила;

output должен быть коротким и эталонным;

не добавляй лишних пояснений вне JSON;

не выдумывай данные, которых нет во входе;

проверь суммы, доли, проценты и классификации перед выдачей.



      
      arrayphotocintrol    com-  Понятно, что это такое
      
      Разрабатываем PROMT или генерируем качественный DATASET и проверяем?
      Маркетинг - это сложно и серьёзно. Но примерно так же готовятся PROMPT и DATASET для контроля таблиц маршрутизации для сети предприятия.
      
      
      
Датасеты