ML Production Series — Приоритеты над чем работать 6

В этом уроке мы увидим, с какой частью данных нам следует работать.

Ниже приведен рабочий процесс

создать таблицу → добавить столбец для HLP → вычислить столбец разрыва → каков процент данных для каждого тега

Как вы можете видеть процент столбца данных на картинке. Теперь предположим, что у нас есть Чистая речь, Автомобильный шум, Человеческий шум и Низкая пропускная способность 60,4,30,6 процентов данных для каждого тега, как показано на рис. 1.

Если мы делаем для улучшения ЧИСТОЙ РЕЧИ?
Результат благодаря этому мы получаем 60% умножить 1% → 0,6*1% = 0,6% улучшение в общей системе.
Шум автомобиля → 0,04*4 → 0,16%
Шум людей 0,6%
Низкая пропускная способность → 0 %

Теперь Где посмотреть?

Потому что люди30 % содержат большую долю данных, а чистая речь — 60 %. мы должны обратить на это внимание.

→ Комната улучшения → Процент категории → Легко улучшить? → Важно улучшить

Как показано на рис. 2, предположим, у вас есть идея улучшить шум автомобиля с помощью увеличения данных. Вы можете решить, что улучшение шума автомобиля важнее. Нет формулы, где работать.

На рис. 3 показан подход Допустим, вам нужно улучшить шум автомобиля — вы пошли собирать больше данных — сделали аугментацию данных — вы улучшили качество данных

ML Production Series — Приоритеты над чем работать 6

Теперь Где посмотреть?

Похожие вопросы