Багаж (агрегиране на Bootstrap) - Общ преглед, как работи, предимства

Ансамбълното машинно обучение може да бъде главно категоризирано в пакетиране и усилване. Техниката на пакетиране е полезна както за регресия, така и за статистическа класификация. Багажът се използва с дърветата за вземане на решения, където значително повишава стабилността на моделите при намаляване на дисперсията и подобряване на точността, което елиминира предизвикателството за пренастройване.

Торбичка

Фигура 1. Поток на пакетиране (Bootstrap Aggregation). Източник

Подреждането в машинно обучение в ансамбъл отнема няколко слаби модела, обобщаващи прогнозите, за да изберете най-добрата прогноза. Слабите модели се специализират в отделни секции от пространството на характеристиките, което позволява на всеки модел да се предвиждат прогнози за ливъридж, за да се постигне най-голямата цел.

Бързо Су mmary

  • Багажът и усилването са двата основни метода за машинно обучение в ансамбъл.
  • Багажът е ансамблов метод, който може да се използва при регресия и класификация.
  • Известно е също като агрегиране на bootstrap, което формира двете класификации на багажа.

Какво е Bootstrapping?

Багажът се състои от две части: агрегиране и зареждане. Bootstrapping е метод за вземане на проби, при който се избира проба от набор, като се използва методът на заместване. След това алгоритъмът за обучение се изпълнява върху избраните проби.

Техниката за първоначално зареждане използва вземане на проби с замествания, за да направи процедурата за подбор напълно произволна. Когато проба е избрана без замяна, последващият избор на променливи винаги зависи от предишните селекции, поради което критериите не са случайни.

Какво е агрегиране?

Моделните прогнози се подлагат на агрегиране, за да ги комбинират за окончателното прогнозиране, за да се вземат предвид всички възможни резултати. Агрегирането може да се извърши въз основа на общия брой резултати или на вероятността от прогнози, получени от първоначалното зареждане на всеки модел в процедурата.

Какво е ансамблов метод?

И торбичките, и усилването им формират най-известните техники на ансамбъла. Ансамблов метод е платформа за машинно обучение, която помага на множество модели в обучението чрез използването на един и същ учебен алгоритъм. Ансамбълният метод е участник в по-голяма група мулти-класификатори.

Мулти-класификаторите са група от множество обучаващи се, които се сблъскват с хиляди, с обща цел, която може да обедини и реши един общ проблем. Друга категория мулти-класификатори са хибридните методи. Хибридните методи използват набор от обучаеми, но за разлика от мултикласификаторите, те могат да използват различни методи на обучение.

Ученето е изправено пред множество предизвикателства, като грешки, които се дължат главно на пристрастия, шум и отклонения. Точността и стабилността на машинното обучение се гарантират от ансамблови методи като пакетиране и усилване. Комбинациите от множество класификатори намаляват отклонението, особено когато класификаторите са нестабилни и са важни за представянето на по-надеждни резултати от един класификатор.

Прилагането на пакетиране или усилване изисква първо да се избере основен алгоритъм на обучаемия. Например, ако човек избере дърво за класификация, тогава усилването и пакетирането ще бъде група дървета с размер, равен на предпочитанията на потребителя.

Предимства и недостатъци на пакетирането

Случайна гора Случайна гора Случайна гора е техника, използвана при моделиране на прогнози и анализ на поведението и е изградена върху дървета за вземане на решения. Случайната гора съдържа много дървета за вземане на решения е един от най-популярните алгоритми за пакетиране. Бегането предлага предимството да позволи на много слаби учащи да обединят усилията си, за да надминат един силен учещ. Той също така помага за намаляване на дисперсията, като по този начин елиминира прекаленото оборудване.

Един недостатък на багажа е, че той води до загуба на интерпретируемост на модел. Резултантният модел може да изпита много пристрастия, когато правилната процедура се игнорира. Въпреки че багажът е много точен, той може да бъде изчислително скъп и това може да обезкуражи използването му в определени случаи.

Багаж срещу усилване

Най-добрата техника, която да се използва между пакетирането и усилването, зависи от наличните данни, симулацията и всички съществуващи обстоятелства към момента. Дисперсията на оценката значително се намалява чрез техниките за пакетиране и усилване по време на комбинираната процедура, като по този начин се увеличава точността. Следователно получените резултати показват по-висока стабилност от отделните резултати.

Когато дадено събитие представлява предизвикателството с ниска производителност, техниката на пакетиране няма да доведе до по-добро пристрастие. Техниката за усилване обаче генерира унифициран модел с по-ниски грешки, тъй като се концентрира върху оптимизирането на предимствата и намаляването на недостатъците в един модел.

Когато предизвикателството в един модел е прекалено подходящо, методът на пакетиране се представя по-добре от техниката за усилване. Повишаването е изправено пред предизвикателството да се справи с прекаленото монтиране, тъй като то идва с прекалено монтиране само по себе си.

Свързани четения

Finance предлага Financial Modeling & Valuation Analyst (FMVA) ™ FMVA® сертифициране Присъединете се към 350 600+ студенти, които работят за компании като Amazon, JP Morgan и Ferrari, за тези, които искат да издигнат кариерата си на следващото ниво. За да продължите да учите и развивате своята база от знания, моля, проучете допълнителните съответни финансови ресурси по-долу:

  • Клъстерно вземане на проби Клъстерно вземане на проби В статистиката клъстерното вземане на проби е метод за вземане на проби, при който цялата популация от изследването е разделена на външно хомогенни, но вътрешно
  • Пристрастност към прекомерна самоувереност Пристрастието към прекомерна самоувереност е фалшива и подвеждаща оценка на нашите умения, интелект или талант. Накратко, това е егоистично убеждение, че сме по-добри, отколкото сме всъщност. Това може да бъде опасно пристрастие и е много плодотворно в поведенческите финанси и капиталовите пазари.
  • Регресионен анализ Регресионен анализ Регресионният анализ е набор от статистически методи, използвани за оценка на връзките между зависима променлива и една или повече независими променливи. Може да се използва за оценка на силата на връзката между променливите и за моделиране на бъдещата връзка между тях.
  • Анализ на данни от времеви редове Анализ на данни от времеви редове Анализът на данните от времеви редове е анализ на набори от данни, които се променят за определен период от време. Наборите от данни от времеви редове записват наблюдения на една и съща променлива през различни моменти от време. Финансовите анализатори използват данни от времеви редове, като например движението на цените на акциите или продажбите на компанията във времето