This Book
이 책에 대하여
The Elements of Statistical Learning (ESL) by Hastie, Tibshirani, and Friedman was first published in 2001.
Hastie, Tibshirani 및 Friedman이 쓴 통계적 학습의 요소(The Elements of Statistical Learning, ESL)는 2001년에 처음 출판되었습니다.
Since that time, it has become an important reference on the fundamentals of statistical machine learning.
그 이후로 통계적 기계 학습의 기초에 대한 중요한 참고 문헌이 되었습니다.
Its success derives from its comprehensive and detailed treatment of many important topics in statistical learning, as well as the fact that (relative to many upper-level statistics textbooks) it is accessible to a wide audience.
이러한 성공의 배경은 (많은 상급 통계학 교과서에 비해) 통계적 학습의 여러 중요한 주제를 포괄적이고 상세하게 다루었을 뿐만 아니라, 넒은 폭의 일반 독자들도 접근하기 쉽다는 사실에서 비롯됩니다.
However, the greatest factor behind the success of ESL has been its topical nature.
그러나 ESL의 성공 이면에 있는 가장 큰 요인은 그것이 지니는 화제성이었습니다.
At the time of its publication, interest in the field of statistical learning was starting to explode.
출판 당시 통계적 학습 분야에 대한 관심이 폭발적으로 증가하기 시작하고 있었습니다.
ESL provided one of the first accessible and comprehensive introductions to the topic.
ESL은 해당 주제에 대해 접하기 쉽고 포괄적인 최초의 입문서 중 하나를 제공했습니다.
Since ESL was first published, the field of statistical learning has continued to flourish.
ESL이 처음 출판된 이후로 통계적 학습 분야는 계속 번창해 왔습니다.
The field’s expansion has taken two forms.
이 분야의 확장은 두 가지 형태로 이루어졌습니다.
The most obvious growth has involved the development of new and improved statistical learning approaches aimed at answering a range of scientific questions across a number of fields.
가장 명백한 성장은 여러 분야에 걸친 광범위한 과학적 질문에 답하기 위한 명목으로 새롭고 개선된 통계적 학습 접근 방식의 개발을 포함했습니다.
However, the field of statistical learning has also expanded its audience.
그러나 통계적 학습 분야는 독자층도 지속적으로 넓혔습니다.
In the 1990s, increases in computational power generated a surge of interest in the field from non-statisticians who were eager to use cutting-edge statistical tools to analyze their data.
1990년대에 연산 능력의 향상은 자신들의 데이터를 분석하기 위해 최첨단 통계 도구를 사용하고자 열망하는 비통계학자들로부터 이 분야에 대한 관심 급증을 불러일으켰습니다.
Unfortunately, the highly technical nature of these approaches meant that the user community remained primarily restricted to experts in statistics, computer science, and related fields with the training (and time) to understand and implement them.
안타깝게도, 이러한 접근 방식의 고도로 기술적인 특성은 사용자 커뮤니티가 주로 이를 통제하고 구현할 수 있는 충분한 교육(및 시간)을 받은 통계, 컴퓨터 과학 및 관련 분야 전문가로 제한되어 있음을 의미했습니다.
In recent years, new and improved software packages have significantly eased the implementation burden for many statistical learning methods.
최근 몇 년 동안 새롭고 개선된 소프트웨어 패키지는 많은 통계적 학습 방법에 대한 구현 부담을 크게 줄여 주었습니다.
At the same time, there has been growing recognition across a number of fields, from business to health care to genetics to the social sciences and beyond, that statistical learning is a powerful tool with important practical applications.
동시에 비즈니스에서 건강 관리, 유전학, 사회 과학 및 기타 그 이상에 이르기까지 수많은 분야에 걸쳐 통계 학습이 중요한 실용적인 응용 프로그램을 갖춘 강력한 도구라는 인식이 확구하게 커지고 있습니다.
As a result, the field has moved from one of primarily academic interest to a mainstream discipline, with an enormous potential audience.
결과적으로 이 분야는 주로 학문적 관심사의 하나에서 막대한 잠재적 독자를 가진 주류 학문으로 이동했습니다.
This trend will surely continue with the increasing availability of enormous quantities of data and the software to analyze it.
이러한 추세는 방대한 양의 데이터와 이를 분석할 수 있는 소프트웨어의 가용성이 증가함에 따라 확실히 지속될 것입니다.
The purpose of An Introduction to Statistical Learning (ISL) is to facilitate the transition of statistical learning from an academic to a mainstream field.
통계적 학습 입문(An Introduction to Statistical Learning, ISL)의 목적은 통계적 학습이 학계에서 주류 분야로 전환되는 것을 용이하게 하려는 것입니다.
ISL is not intended to replace ESL, which is a far more comprehensive text both in terms of the number of approaches considered and the depth to which they are explored.
ISL은 고려하는 접근 방식의 수와 탐구 깊이 측면에서 훨씬 더 포괄적인 텍스트로 인정되는 ESL을 대체하기 위한 것이 아닙니다.
We consider ESL to be an important companion for professionals (with graduate degrees in statistics, machine learning, or related fields) who need to understand the technical details behind statistical learning approaches.
우리는 ESL이 통계적 학습 접근 방식 이면의 기술적 세부 사항을 이해해야 하는 전문가(통계, 기계 학습 또는 관련 분야의 대학원 학위 취득자)를 위한 중요한 동반자라고 간주합니다.
However, the community of users of statistical learning techniques has expanded to include individuals with a wider range of interests and backgrounds.
그러나 통계적 학습 기술의 순수 사용자 커뮤니티는 더 넓은 관심사와 배경을 가진 개인을 포함하도록 크게 확장되었습니다.
Therefore, there is a place for a less technical and more accessible version of ESL.
따라서 기술적인 내용이 덜하고 접근성이 더 좋은 버전의 ESL이 필요한 자리가 분명이 생겼습니다.
In teaching these topics over the years, we have discovered that they are of interest to master’s and PhD students in fields as disparate as business administration, biology, and computer science, as well as to quantitatively-oriented upper-division undergraduates.
수년에 걸쳐 이러한 주제를 가르치면서 우리는 이 주제가 경영학, 생물학, 컴퓨터 과학과 같이 판이하게 다른 다각적인 분야의 석박사 과정 학생들뿐만 아니라 양적 지향의 상급 학부생들에게도 큰 관심거리라는 것을 발견했습니다.
It is important for this diverse group to be able to understand the models, intuitions, and strengths and weaknesses of the various approaches.
이처럼 다양한 그룹이 다양한 접근 방식의 모델, 직관, 장점과 단점을 깊이 이해할 수 있도록 하는 것이 중요합니다.
But for this audience, many of the technical details behind statistical learning methods, such as optimization algorithms and theoretical properties, are not of primary interest.
그러나 이 거대 청중들에게 최적화 알고리즘 및 이론적 속성과 같은 통계적 학습 방법 이면의 많은 기술적 세부 사항은 주요 관심사가 아닙니다.
We believe that these students do not need a deep understanding of these aspects in order to become informed users of the various methodologies, and in order to contribute to their chosen fields through the use of statistical learning tools.
우리는 이러한 학생들이 여러 방법론의 정보에 입각한 사용자가 되고, 통계적 학습 도구를 사용하여 자신이 선택한 분야에 기여하기 위해 이러한 측면에 대한 다분히 깊은 이해가 필요하지 않다고 믿습니다.
ISL is based on the following four premises.
ISL은 다음 네 가지 전제를 기반으로 합니다.
-
Many statistical learning methods are relevant and useful in a wide range of academic and non-academic disciplines, beyond just the statistical sciences.
-
통계적 과학을 넘어서, 단수 학문적 분야와 비학문적 널리 분포된 학문에 있어서 많은 통계 학습 방법이 관련성 있고 유용하게 퍼져 있습니다.
We believe that many contemporary statistical learning procedures should, and will, become as widely available and used as is currently the case for classical methods such as linear regression.
우리는 최근의 현대적인 통계 학습 방법 절차 또한 현재의 전형적인 방법인 선형 회귀 모형과 마찬가지로 넓고 두루 사용될 것이며, 그렇게 사용되어야 한다고 믿습니다.
As a result, rather than attempting to consider every possible approach (an impossible task), we have concentrated on presenting the methods that we believe are most widely applicable.
결론적으로 우리는 모든 접근을 다루려고 노력하기보다는(이것은 사실 불가능한 과제입니다), 가장 거대하게 적용 가능성이 높은 방법에 주목하여 제시하는 것에 집중했습니다.
-
Statistical learning should not be viewed as a series of black boxes.
-
통계적 학습은 일련의 블랙박스로 간주되어서는 안 됩니다.
No single approach will perform well in all possible applications.
단일 방식만으로 모든 가능한 문제 응용에 있어서 우수하게 잘 수행되는 접근법은 없습니다.
Without understanding all of the cogs inside the box, or the interaction between those cogs, it is impossible to select the best box.
비밀스러운 박스 안에 숨겨진 모든 톱니바퀴들, 또는 그러한 톱니바퀴들 간의 상호 작용 구조를 이해하지 않고는 가장 최적의 박스를 선택하는 것이 심히 불가능합니다.
Hence, we have attempted to carefully describe the model, intuition, assumptions, and trade-offs behind each of the methods that we consider.
따라서, 우리는 우리가 고심한 각 방법론의 배경에 있는 모델, 직관, 가정 그리고 상호 절충 관계들을 주의 깊게 기술하고 자 시도했습니다.
-
While it is important to know what job is performed by each cog, it is not necessary to have the skills to construct the machine inside the box!
-
각 톱니바퀴가 수행하는 역할을 아는 것이 중요하지만, 상자 내부에 기계를 직접 구성할 수 있는 기술을 갖출 필요는 없습니다!
Thus, we have minimized discussion of technical details related to fitting procedures and theoretical properties.
그래서, 우리는 데이터 적합(피팅)과 관련한 기술적 세부적인 절차와 이론적 특징에 대한 원론적 논의를 매우 최소화했습니다.
We assume that the reader is comfortable with basic mathematical concepts, but we do not assume a graduate degree in the mathematical sciences.
우리는 독자가 여러 필수적인 수학적 기초 개념을 다루는 데 편안하다고 가정하긴 하지만, 반드시 수리 과학 분야의 대학원 학위를 소지하고 있다고 가정하지는 않습니다.
For instance, we have almost completely avoided the use of matrix algebra, and it is possible to understand the entire book without a detailed knowledge of matrices and vectors.
거기에 대한 실례로써, 우리는 이 책 행렬 대수를 사용하는 것을 거의 완벽하게 피하려 했고, 사실상 행렬과 벡터에 대한 상세한 지식을 다 알지 못해도 책의 모든 전체를 이해하는 것이 충분히 가능하도록 하였습니다.
-
We presume that the reader is interested in applying statistical learning methods to real-world problems.
-
우리는 모든 잠재적 독자가 통계적 학습의 많은 방법을 실세계의 문제에 어떻게 적용할 것인가에 흥미가 있다고 가정합니다.
In order to facilitate this, as well as to motivate the techniques discussed, we have devoted a section within each chapter to computer labs.
이것을 더욱 수월하게 하거나, 논의한 기술적 동기 부여를 위해 각 장 내에 컴퓨터 실험실(Lab) 세션을 전문으로 할애하였습니다.
In each lab, we walk the reader through a realistic application of the methods considered in that chapter.
각 랩(Lab) 세션에서 우리는 읽어 내는 독자들에게 각 장에서 검토된 방법론에 대한 여러 현실적 응용의 세계를 보여주고 설명합니다.
When we have taught this material in our courses, we have allocated roughly one-third of classroom time to working through the labs, and we have found them to be extremely useful.
이 교과 과정 자료를 강의할 당시에 배정된 강의실 시간의 대략 3분의 1을 다양한 실습 자료로 할당했고 이를 통해 매우 유용한 과정임을 확인했습니다.
Many of the less computationally-oriented students who were initially intimidated by the labs got the hang of things over the course of the quarter or semester.
초기에 복잡한 실습 환경에 약간 뒤쳐져 겁을 먹은 많은 학생들 또한 분기 또는 학기 과정에 걸쳐 실습 방식을 숙달하게 되었습니다.
This book originally appeared (2013, second edition 2021) with computer labs written in the R language.
이 책은 원래 R 언어로 작성된 컴퓨터 실험 과제 실습(2013년 초판, 2021년 제2판)과 함께 제공되었습니다.
Since then, there has been increasing demand for Python implementations of the important techniques in statistical learning.
그 이후, 통계적 기계 학습의 많은 주요 기술들을 다양한 Python 기반으로 구현해야 한다는 수요가 엄청나게 증가하였습니다.
Consequently, this version has labs in Python.
그 결과, 이 버전에서는 Python 기반으로 된 실습(Lab) 과정이 포함되었습니다.
There are a rapidly growing number of Python packages available, and by examination of the imports at the beginning of each lab, readers will see that we have carefully selected and used the most appropriate.
사용 가능한 Python 패키지들의 수가 그야말로 아주 빠르게 증가하고 있으며, 매끄러운 단락별 각 Lab의 시작 부분에서 제공되는 다양한 import 문을 확인하는 방식을 활용하여 가장 세밀하고 적절하게 구현된 선택 패키지를 독자가 이용하게 될 것입니다.
We have also supplied some additional code and functionality in our package ISLP.
더불어 우리는 추가로 이 책을 위한 코드와 여러 기능을 지원하기 위한 자체 패키지 모듈 ISLP 또한 공급했습니다.
However, the labs in ISL are self-contained, and can be skipped if the reader wishes to use a different software package or does not wish to apply the methods discussed to real-world problems.
물론 ISL 실습(Lab)들은 본질적으로 그 자체로 독립되어 있으므로 만약 독자가 다른 소프트웨어 패키지 도구를 사용하기를 원하거나 현실적인 세계의 문제에 이를 직접 응용하기를 원하지 않는다면 스킵하고 바로 건너뛸 수도 있습니다.