Публикации по теме 'data-mining'
Советы по дополнению данных
Увеличение данных — это метод, используемый для искусственного увеличения размера набора данных путем создания новых выборок данных из существующих. Это делается путем применения к данным различных преобразований, таких как вращение, масштабирование, обрезка и отражение.
Расширение данных часто используется в машинном обучении для повышения эффективности обобщения модели. Путем создания дополнительных обучающих данных модель можно обучить, чтобы она стала более надежной и лучше..
Интеллектуальный анализ данных в KDD
Как обсуждалось в моей последней статье о KDD , обнаружение знаний в базах данных (KDD) — это процесс извлечения знаний из данных, а интеллектуальный анализ данных — один из важных шагов в KDD.
Основная задача интеллектуального анализа данных на практике связана с двумя основными целями:
Прогнозирование – это включает в себя обнаружение неизвестных значений или будущих значений для определенных функций в базе данных с использованием функций базы данных, значения которых известны...
Наш класс по интеллектуальному анализу данных (CIS 4640) — это, по сути, класс по машинному обучению для бизнеса, который…
Наш класс по интеллектуальному анализу данных (CIS 4640) — это, по сути, класс по машинному обучению для бизнеса, который является ядром искусственного интеллекта (согласны?). Наши студенты SCM также много раз говорили нам, что их менеджеры по найму ценят в основном традиционные возможности Excel (функции поиска, сводные таблицы и т. д.) и сильно упускают из виду возможности других аналитических решений (которые есть у наших студентов!). Опять же, например…
Иерархическая кластеризация на основе плотности с использованием CLIQUE
Популярные алгоритмы кластеризации часто дают сбой по мере увеличения размерности данных. Итак, давайте поговорим о CLIQUE, менее известном подходе к эффективной кластеризации многомерных данных.
Введение
Кластеризация — это процесс разделения точек данных на набор групп на основе заранее определенной меры близости. Методы кластеризации можно разделить на две категории:
Частичная кластеризация . Мы решаем сгруппировать все данные в k-разделы, а затем используем нашу меру расстояния,..
Целевая функция кодирования с R
Люди любят слова и обычно используют их для представления и описания данных (категориальных признаков). К сожалению, алгоритмы машинного обучения не разделяют нашей страсти к словам, они предпочитают числа. Вот почему на этапе предварительной обработки, прежде чем мы снабдим нашу модель ML для прогнозирования, необходимо закодировать категориальные признаки.
Кодирование — это, по сути, присвоение продуманного номера каждой категории функции. Существует множество методов, наиболее..
ДАННЫЕ МАЙНИНГ VS. МАШИННОЕ ОБУЧЕНИЕ — ПОНИМАНИЕ КЛЮЧЕВЫХ РАЗЛИЧИЙ
Отличия интеллектуального анализа данных и машинного обучения
Из-за огромного прогресса в области больших данных и аналитики за последние несколько лет типичный бизнес-пользователь теперь сталкивается с совершенно новым языком технического жаргона. К сожалению, это может привести к недопониманию, поскольку люди не уверены в различиях между терминологией и методами. На мой взгляд, интеллектуальный анализ данных и машинное обучение — два отличных примера.
В этой статье описывается..