< 2.3.9 Additional Graphical And Numerical Summaries

💡 학습 팁: 문법과 코드가 낯설고 어렵다면? 튜터와 함께 실습하듯 쉽게 풀어쓴 📖 파이썬 랩(Lab) 해설판보기를 추천합니다! (직역본은 📖 직역본 보기 메뉴를 활용하세요!)

2.4 Exercises

2.4 연습문제들 (실전 훈련소)

Conceptual

개념 다지기 훈련

For each of parts (a) through (d), indicate whether we would generally expect the performance of a flexible statistical learning method to be better or worse than an inflexible method. Justify your answer.
자, 머리를 좀 굴려봅시다. 다음 (a)부터 (d)까지 주어지는 각 극단적 돌발 상황들에서, 몸집이 무거워도 복잡한 ‘유연한(flexible) 학습 기법’을 투입하는 것이, 빳빳하고 단순한 ‘유연하지 않은 기법’을 쓰는 것보다 일반적으로 성능이 더 좋을지, 아니면 도리어 더 나쁠지 과감히 판정해 명시하십시오. 그리고 그 판정의 이유를 당당하게 방어(정당화)해 보십시오.
- (a) The sample size $n$ is extremely large, and the number of predictors $p$ is small.
- (a) 피의자(표본 크기 $n$)는 쓸데없이 어마어마하게 넓고 많은데, 수집된 증거 개수(예측 변수 $p$)는 몇 개 안 되는 아주 빈약하고 타협적인 상황인 경우.
- (b) The number of predictors $p$ is extremely large, and the number of observations $n$ is small.
- (b) 이번엔 정반대로, 수집 방대한 증거와 단서 스펙(예측 변수 $p$)은 넘쳐흘러 복잡한데, 정작 잡아들인 피의자 수(관측치 $n$)는 턱없이 부족하고 얄팍한 경우.
- (c) The relationship between the predictors and response is highly non-linear.
- (c) 단서들(예측 변수)과 범인(반응 변수) 사이의 연결 고리와 타진 관계성이 단순히 직선이 아니라 빙글빙글 꼬인 고도의 비선형성(non-linear) 을 띠는 지독한 난제 상황인 경우.
- (d) The variance of the error terms, i.e. $\sigma^2 = \text{Var}(\epsilon)$, is extremely high.
- (d) 범인을 쫓는데 안개가 너무 짙어서 생기는 잡음 오류 항들의 분산치, 즉 노이즈 스펙터 $\sigma^2 = \text{Var}(\epsilon)$ 값 자체가 수습 불가능할 정도로 극단적으로 아주 높은 엉망진창인 경우.
Explain whether each scenario is a classification or regression problem, and indicate whether we are most interested in inference or prediction. Finally, provide $n$ and $p$.
다음 임무 시나리오를 읽고, 여러분이 형사라면 이 사건이 사람의 얼굴을 분류하는 분류(classification) 문제인지, 아니면 돈의 규모 수치를 때려 맞추는 회귀(regression) 문제인지 명확히 식별해 설명하십시오. 나아가 우리가 그저 “경향성을 읊는” 추론(inference) 에 열광하는지, 아니면 “미래 결과를 족집게처럼 딱 찍어 맞히는” 예측(prediction) 에 집착하고 가장 관심 있는지 명시하십시오. 마지막으로, 방대한 피의자 수($n$)와 단서 수($p$)의 덩치가 얼마인지 딱 짚어 제공하십시오.
- (a) We collect a set of data on the top 500 firms in the US. For each firm we record profit, number of employees, industry and the CEO salary. We are interested in understanding which factors affect CEO salary.
- (a) 우리는 미국 내 상위 500개 거대 기업들의 데이터 찌라시 뭉치를 수거했습니다. 구역 각 기업마다 ‘순이익’, ‘직원 수’, ‘종사 산업’, 그리고 ‘CEO의 연봉’을 탈탈 털어 기록합니다. 여기서 우리의 음흉한 관심사는 도대체 ‘어느 요인들이 CEO의 막대한 연봉을 펌핑하는 데 영향을 끼치는가?’를 구조적으로 이해해 파헤치는 것입니다.
- (b) We are considering launching a new product and wish to know whether it will be a success or a failure. We collect data on 20 similar products that were previously launched. For each product we have recorded whether it was a success or failure, price charged for the product, marketing budget, competition price, and ten other variables.
- (b) 우리는 신제품 로켓병 하나를 새롭게 론칭 출범할까 고민 중인데, 과연 이 녀석이 대박 성공 을 칠지, 아니면 쪽박 실패 할지 간절히 쪽집게처럼 알고 싶어 합니다. 우리는 이전에 시장에 깔렸던 20개의 유사 모방 상품들의 과거 데이터를 뒤적여 수집합니다. 각각의 제품이 성공이냐 실패냐의 성적표는 물론, 매겨진 출시 판가액, 쏟아부은 마케팅 비용, 경쟁사들 단가, 그리고 기타 자질구레한 10개의 여타 변수들까지 꼬치꼬치 모조리 기록해 두었죠.
- (c) We are interested in predicting the % change in the USD/Euro exchange rate in relation to the weekly changes in the world stock markets. Hence we collect weekly data for all of 2012. For each week we record the % change in the USD/Euro, the % change in the US market, the % change in the British market, and the % change in the German market.
- (c) 우리는 피 터지는 세계 주식 시장들의 주간 등락 변동 차트와 연계해서, USD/Euro 달러유로 환율이 향후 몇 % 나 미친 듯 요동칠지를 ‘예측(predict)’해 차익을 남기려 지대한 욕망을 품고 있습니다. 고로 우리 팀은 2012년 한 해 동안의 매주 단위 짠내 나는 주간 데이터를 싹 다 갈구리 긁어 수집합니다. 매주마다, USD/Euro 환율 변동%, 미국 시장 변동%, 영국 시장 변동%, 독일 시장 변동%를 엑셀에 꼼꼼히 기록하고 저장 관리합니다.
We now revisit the bias-variance decomposition.
자, 이제 골치 아픈 그 녀석, ‘편향-분산 해체 쇼(bias-variance decomposition)’ 파트를 다시 불려내 타진해 봅니다.
- (a) Provide a sketch of typical (squared) bias, variance, training error, test error, and Bayes (or irreducible) error curves, on a single plot, as we go from less flexible statistical learning methods towards more flexible approaches. The $x$-axis should represent the amount of flexibility in the method, and the $y$-axis should represent the values for each curve. There should be five curves. Make sure to label each one.
- (a) 우리가 꽉 막히고 단순한(덜 유연한) 학습 기법에서부터 말랑말랑 미친(더 유연한) 초고난도 기법으로 차츰 모델을 진화 이동시켜 갈 때, 단일 캔버스 도화지 위로 그려질 5가지 전형적 곡선들의 궤적을 슥슥 스케치해 펼쳐 보이십시오. 그 주인공 곡선 5인방은 (제곱된) 편향, 분산, 훈련 오차, 테스트 오차, 그리고 넘사벽 베이즈(혹은 피할 수 없는 절대) 오차 곡선들입니다. 이 플롯의 가로 $x$ 축은 모델이 잔꾀를 부리는 유연성의 정도(amount of flexibility)를 지표해야 하며, 높이 $y$ 축은 각 오차 곡선들이 뛰노는 에러 값들의 크기를 오롯이 나타내야 합니다. 총 5개의 곡선 줄기가 모두 캔버스에 안착해야 하며, 각 선에 무슨 곡선인지 예쁘게 명찰 라벨을 척척 달아주십시오.
- (b) Explain why each of the five curves has the shape displayed in part (a).
- (b) 왜 그 5개의 선들이 방금 (a)에서 그린 것처럼 그렇게 각기 괴상한 궤적 형상들을 띄며 춤을 추는지, 그 피눈물 나는 역학 관계의 이유를 명쾌히 조리 있게 설명하십시오.
You will now think of some real-life applications for statistical learning.
책 덮고 현장 나가볼까요? 당신은 이제 실생활에서 기계학습 통계 추적기를 어떻게 좀 써먹을지 현실적인 응용 분야들을 머리 짜내 궁리해 볼 것입니다.
- (a) Describe three real-life applications in which classification might be useful. Describe the response, as well as the predictors. Is the goal of each application inference or prediction? Explain your answer.
- (a) 적을 아군과 적군으로 쪼개는 분류(classification) 기술이 기막히게 써먹힐 수 있는 실생활 사례 3가지를 맛깔나게 묘사하십시오. 찾으려는 답(반응변수 주인공)은 무엇이고, 그걸 맞히기 위해 쳐다볼 단서(예측변수들)는 무엇인지 기획하십시오. 그리고 그 각각 사례의 진짜 흑막 목표는 단순한 ‘원인 분석(추론)’ 입니까, 아니면 ‘미래 맞히기(예측)’ 입니까? 당신의 답변 이유를 설명하십시오.
- (b) Describe three real-life applications in which regression might be useful. Describe the response, as well as the predictors. Is the goal of each application inference or prediction? Explain your answer.
- (b) 이번엔 연속된 수치를 부드럽게 때려 맞히는 맞춤형 회귀(regression) 모델 기술이 유용하게 활약할 실생활 사례를 또 다른 3가지 기획해 묘사하십시오. 타깃 답(반응변수)과 입력 단서(예측변수) 역시 동일하게 구성 기술하십시오. 각 활용의 최종 염원 목표가 추론인지 아님 예측인지 단박 당신의 변을 설명하십시오.
- (c) Describe three real-life applications in which cluster analysis might be useful.
- (c) 아예 정답지조차 없이 끼리끼리 패거리만 무리지어 묶어내는 군집 분석(cluster analysis) 탐정 기술이 절묘히 유용하게 쓰일 법한 실생활 응용 분야 사례 역시 3가지 뽐내 기술 통신해 주십시오.
What are the advantages and disadvantages of a very flexible (versus a less flexible) approach for regression or classification? Under学 what circumstances might a more flexible approach be preferred to a less flexible approach? When might a less flexible approach be preferred?
회귀든 분류든, 아주 뼈다귀 없이 유연하게 데이터에 착착 달라붙는 초(超)유연한 접근법이, 좀 뻣뻣하고 덜 유연한 녀석과 비교했을 때 갖는 막강한 장점들과 치명적 약점(단점)들은 무엇입니까? 도대체 어떤 극한 환경 상황 조건 아래에서 이 유연한 녀석을 선호해 투입하는 게 낫고, 반대로 또 언젤 때엔 덜 유연하고 단순 멍청한 녀석을 밀어주는 게 속 편하고 선호될 수 있을까요?
Describe the differences between a parametric and a non-parametric statistical learning approach. What are the advantages of a parametric approach to regression or classification (as opposed to a nonparametric approach)? What are its disadvantages?
모델링 세상의 두 파벌, 틀을 딱 잡아놓고 시작하는 ‘모수적(parametric)’ 방식과, 뼈대 없이 데이터 생긴 대로 노는 ‘비모수적(non-parametric)’ 학습 방식 간의 본질적 차이점들을 묘사 타진하십시오. 비모수적 녀석과 반대되는, 이 틀에 박힌 모수적 접근 방식이 가지는 편안한 매력(이점들)은 무엇이고 반대 급부 단점은 무얼까요?
The table below provides a training data set containing six observations, three predictors, and one qualitative response variable.
아래에 지저분하게 그려진 표기 테이블표는 고작 6명의 용의자(관측치들)와 3가지 자잘한 단서(예측 변수들), 그리고 그놈이 어느 파벌인지 나타내는 단 1개의 질적 반응(구별 색깔) 변수 칼럼을 포함한 소박한 미니 훈련 데이터를 제공합니다.

Obs. (순번)	$X_1$	$X_2$	$X_3$	$Y$ (색깔)
1	0	3	0	Red (빨강)
2	2	0	0	Red (빨강)
3	0	1	3	Red (빨강)
4	0	1	2	Green (초록)
5	$-1$	0	1	Green (초록)
6	1	1	1	Red (빨강)

Suppose we wish to use this data set to make a prediction for $Y$ when $X_1 = X_2 = X_3 = 0$ using $K$-nearest neighbors. 우리가 주변 친구들을 탐문해 범인을 유추하는 방식인 $K$-최근접 이웃(KNN) 탐색기를 기계로 잡고 사용하여, 테스트 타깃 포인트인 단서 조건이 $X_1 = X_2 = X_3 = 0$ 일 무렵 대체로 그 $Y$ 소속 파벌 진단 예측 결과를 어떻게 투표해 생성할지 이 데이터 세트를 참고 사용하기를 원한다고 판정 가정해 봅시다.

(a) Compute the Euclidean distance between each observation and the test point, $X_1 = X_2 = X_3 = 0$.
(a) 각각 6군데의 관측치 점들과 우리 타깃 수사 포인트 거리원인 $(0, 0, 0)$ 점 간의 그 직선 물리 유클리드 거리 수치를 꼬치꼬치 줄자 계산하십시오.
(b) What is our prediction with $K = 1$? Why?
(b) 만일 수색 반경을 단 한 명만 보는 $K = 1$ 조건일 때, 우리의 Y 예측 판정 파벌은 무엇이 됩니까? 핑계가 왜 그렇습니까?
(c) What is our prediction with $K = 3$? Why?
(c) 그렇다면 수색 범위를 세 명으로 늘린 $K = 3$ 패거리 다수결일 때 우리의 통용 예측 파벌 기조는 무엇이 단연 바뀌어 됩니까? 왜 그렇습니까?
(d) If the Bayes decision boundary in this problem is highly nonlinear, then would we expect the best value for $K$ to be large or small? Why?
(d) 만약 이 복잡한 문제판에서 극악 권력의 ‘베이즈 결정 경계선’ 자체가 엄청 구불구불한 고도의 비선형적 꼬임선이라면, 우리는 이 난제를 해결하기 위해 탐문하는 $K$ 수사의 반경 이웃 묶음 잣대의 가장 최적의 좋은(best) 단위 값 볼륨 파이가 아주 클 것이라 기대 전망합니까, 아니면 작고 촘촘할 것이라 사료 생각합니까? 연유가 왜 그렇습니까?

Applied

응용 실전 (직접 코딩해보기)

This exercise relates to the College data set, which can be found in the file College.csv on the book website. It contains a number of variables for 777 different universities and colleges in the US. The variables are
이제 드디어 손가락을 풀 시간! 이 무식한 데이터 연습문제 단락은 본 교재 웹사이트 무기고 College.csv 안에서 흔히 채굴 발굴될 수 있는 College 데이터 세트 뭉치를 도마에 올립니다. 이 파일 상자는 미국의 777개나 되는 대학 캠퍼스들에 대한 수많은 지저분한 변수 항목들을 가득 품고 있습니다. 뱃속 변수들은 대략 다음과 같습니다:
- Private : Public/private indicator (국공립 / 사립 대학 구분 스위치)
- Apps : Number of applications received (원서 좀비 떼, 즉 접수된 지원서들의 개수)
- Accept : Number of applicants accepted (피 튀기는 경쟁 후, 합격된 놈들 지원자 개수)
- Enroll : Number of new students enrolled (실제로 호구 잡혀 등록까지 마친 신입생 규모)
- Top10perc : New students from top 10 % of high school class (전교 상위 10% 안에 들던 무서운 신입생 비율)
- Top25perc : New students from top 25 % of high school class (그럭저럭 공부한 상위 25% 신입 비율)
- F.Undergrad : Number of full-time undergraduates (학교에 뼈를 묻는 규정 시간(full-time) 학부생 규모)
- P.Undergrad : Number of part-time undergraduates (알바 뛰는 시간제(part-time) 학부생 개수)
- Outstate : Out-of-state tuition (타주 타향 출신 학생들에게 덤터기 씌운 수업료 액수)
- Room.Board : Room and board costs (기숙사에 갇혀 사는 굶주린 비용)
- Books : Estimated book costs (전공 서적에 갖다 바칠 추정 헌납 비용)
- Personal : Estimated personal spending (피 같은 개인 용돈 추정 경비)
- PhD : Percent of faculty with Ph.D.s (어렵게 박사모자 Ph.D. 학위를 따 쓴 교수진 퍼센트)
- Terminal : Percent of faculty with terminal degree (최종 끝자락 학위를 찍은 교수 비율)
- S.F.Ratio : Student/faculty ratio (교수 1명이 캐리해야 할 학생 짐 비율)
- perc.alumni : Percent of alumni who donate (졸업 후에도 돈을 뱉는 호구 기부 동문 퍼센트)
- Expend : Instructional expenditure per student (학생 1인당 퍼붓는 교육 마케팅 지출액)
- Grad.Rate : Graduation rate (겨우 학교를 탈출하는 졸업 비율)

Before reading the data into Python, it can be viewed in Excel or a text editor. 이 무지막지한 파일을 Python 뱃속으로 빨아들이기 전, 심신의 안정을 위해 엑셀이나 메모장 같은 친숙한 뷰어로 까서 살짝 간을 보는 편이 정신건강상 유익합니다.

(a) Use the pd.read_csv() function to read the data into Python. Call the loaded data college. Make sure that you have the directory set to the correct location for the data.
(a) 진공청소기 pd.read_csv() 함수를 시원하게 돌려 데이터를 파이썬 안으로 빨아들이십시오. 무사히 들어온 이 덩어리를 college 라 이름 지어 불러 포장해 둡니다. (만약 빨아들이려다 “파일 못 찾음!” 에러를 만났다면, 당신의 터미널 디렉터리 폴더 주소가 파일이 있는 구멍으로 세팅이 안 된 탓이니 경로를 제대로 수정 확인하십시오.)
(b) Look at the data used in the notebook by creating and running a new cell with just the code college in it. You should notice that the first column is just the name of each university in a column named something like Unnamed: 0. We don’t really want pandas to treat this as data. However, it may be handy to have these names for later. Try the following commands and similarly look at the resulting data frames:
(b) 빈 셀을 뚫고 그냥 college 세 글자만 당당히 쳐서 실행함을 통해, 뱃속에 들어온 야수 데이터 프레임을 한번 째려보며 살펴보십시오. 맙소사! 맨 왼쪽 첫 열이 데이터도 아닌, Unnamed: 0 같은 무성의한 이름이 달린 채로 대학 간판 이름표가 텍스트 변수랍시고 끼어 앉아 밥통 축내는 거 보이십니까? 우린 이 집사 판다스(pandas)가 이것을 데이터 쪼가리로 연산 취급하는 골치 아픈 꼴을 보기 싫스빈다. 하지만 추후 이름 간판 꼬리표는 분명 필요할 터이니 아주 유지가 유용할 수 있죠. 이 꼴을 치우기 위해 다음의 파이프라인 수술 명령 코드를 주욱 복사해 시도해 보고 유사 결과를 다시금 째려봐 확인하십시오:

college2 = pd.read_csv('College.csv', index_col=0)
college3 = college.rename({'Unnamed: 0': 'College'}, axis=1)
college3 = college3.set_index('College')

This has used the first column in the file as an index for the data frame. This means that pandas has given each row a name corresponding to the appropriate university. Now you should see that the first data column is Private. Note that the names of the colleges appear on the left of the table. We also introduced a new python object above: a dictionary, which is specified by (key, value) pairs. Keep your modified version of the data with the following: 이 수술 코드는 그 흉한 첫 번째 변수 열 부분을 뽑아내서 데이터 프레임 척추인 index 부지 간판으로 재부착 전격 강성 사용했습니다. 결론적으로 이 말은, 판다스가 각각의 층별 행 라인 단위로 저마다 적절하게 부합하는 번듯한 대학 이름을 명찰 라벨로 찍어서 부여했음을 당당히 의미합니다. 자, 다시 까보세요! 이제야 찌꺼기가 치워지고 번듯한 첫 번째 순수 데이터 변수 열은 비로소 Private 이 우뚝 임을 보아야 정상입니다. 그리고 멋들어지게 대학 간판 이름들이 아파트 표 축 왼쪽에 정렬해 쫙 깔린 현판 모습에 주목하십시오. 참고로 위 수술 줄에서 우린 (열쇠key, 내용물value) 가 쌍으로 묶여 다니는 딕셔너리(dictionary) 라는 새 객체도 은근슬쩍 소개 단행했습니다. 지저분한 변수들을 이제 청산하고 여러분의 매끈하게 수술 수정된 이 새 버전 변수를 다음의 못 박기 줄과 함께 덮어 씌우기 고정 지명 유지하십시오:

college = college3

(c) Use the describe() method to produce a numerical summary of the variables in the data set.
(c) 자, 이제 비서 요약 호출벨인 describe() 메서드를 시원하게 돌려 데이터 보따리 안 변수들의 거센 수치적인 요약 통계 보고서를 순식간에 도출 생성해 내보십시오.
(d) Use the pd.plotting.scatter_matrix() function to produce a scatterplot matrix of the first columns [Top10perc, Apps, Enroll]. Recall that you can reference a list C of columns of a data frame A using A[C].
(d) 거대 폭격 함수 pd.plotting.scatter_matrix() 를 무자비하게 던져 올려서, 수많은 놈들 말고 앞단 첫 번째 솎음 열들인 타깃 [Top10perc, Apps, Enroll] 3총사만 가두고 얽힌 3x3 배율 산점도 매트릭스를 전격 출력해 생성하십시오. 당신이 A[C] 대괄호 그물을 사용하여 방대한 데이터 컨테이너 A 의 선택된 열들의 리스트 C 만 쏙 빼서 참조 호출할 특수 공산 능력을 벼리고 있음을 기억하십시오.
(e) Use the boxplot() method of college to produce side-by-side boxplots of Outstate versus Private.
(e) 대학 college 패키지 객체가 지닌 전용 boxplot() 메서드 도구를 뽑아 써서, 국공립/사립을 나누는 그룹 Private 스위치 범주 잣대에 대하여 피 같은 타주 학생 학비 Outstate 들이 각각 얼마씩 분포로 털리는지를 극명 보여주는 나란한 병렬형(side-by-side) 박스 수염 플롯 통계를 거듭 생성 도출해 비교 단락 제시해 보십시오.
(f) Create a new qualitative variable, called Elite, by binning the Top10perc variable into two groups based on whether or not the proportion of students coming from the top 10% of their high school classes exceeds 50%.
(f) 신분 사회를 갈라봅시다. 우리는 저명한 새 질적 변수 등급 간판 하나를 신설할 건데, 이름하여 Elite (엘리트) 지수입니다. 이 배지를 찍어주는 기준은 잔인합니다. 학교 재학생들 중 고등학교 학급 성적이 상위 10% 내 출신 좀비였던 비율 지수인 Top10perc 숫자가 과반수인 50% 반환 장벽 잣대를 초과해 넘겼느냐 못 넘겼냐에 칼같이 기반 구역하여, 그 비율 기둥 구간을 냅다 두 개의 그룹 동강으로 쪼개 자르는(binning) 특단 도출 조처를 강행하여 새로운 등급 변수를 신조해 생성하십시오.

college['Elite'] = pd.cut(college['Top10perc'],
                          [0, 50, 100],
                          labels=['No', 'Yes'])

(Note: the threshold logic typically uses 50 for the 50% marker, since Top10perc stores values up to 100 rather than ratios up to 1, adjust as necessary per dataset). (깨알 노트: 보통 턱걸이 임계값 로직 구간을 자를 땐 기준 50을 그 50% 지점 마커로 통용해 쓰죠. 통상 Top10perc 내부 구역이 비율 분수 기반 1.0 체제가 아니라 통 큰 수치 즉 최대 100까지 뻗는 정수 지표값들을 모아 안쪽 저장 쟁여놓고 취하기 때문이므로 데이터 세트에 따라 능변 눈치 보며 필요 조치 단위를 쪼개 조율할 지표 조언입니다).

Use the value_counts() method of college['Elite'] to see how many elite universities there are. Finally, use the boxplot() method again to produce side-by-side boxplots of Outstate versus Elite. 새 계급이 생겼으니 현황 팩트 체크 들어갑니다. 도대체 전체 중 얼마나 많은 숫자의 대학교들이 이 무시무시한 상위 포식자 ‘엘리트’ 라벨을 얻고 군립해 거주하는지 낱낱이 표찰 보기 조사하기 위해 college['Elite'] 구역 전용 숫자 카운터 도구인 value_counts() 메서드 기능 단추를 냅다 눌러 부과 돌려 세워 그 단면을 확인 사용해 보십시오. 마지막 피날레로, 그 무적의 boxplot() 도구 메서드를 뻔뻔스레 한 번 더 재차 등판 다시 사용해서 투입해 단연 뽑기를, 대체 이 무서운 엘리트 명판 Elite 계급 그룹 유무 그룹에 대하여 일반 차상 타주 범주 학생 학비 Outstate 가 얼마나 극악하게 다르게 착취되어 뜯기는지 병렬 수치 분포 박스 플롯을 대조 생산 생성 조차 산출하십시오.

(g) Use the plot.hist() method of college to produce some histograms with differing numbers of bins for a few of the quantitative variables. The command plt.subplots(2, 2) may be useful: it will divide the plot window into four regions so that four plots can be made simultaneously. By changing the arguments you can divide the screen up in other combinations.
(g) 단조로운 막대 차트 놀이! 본 college 개체 박스의 기둥 탑쌓기 메서드 plot.hist() 를 심심하게 이냥 단회 밋밋 돌리지 말고 연거푸 기조 무마해 사용하여, 흥미로운 한 쌍 몇 종 일부의 주요 양적 변수 줄기 스펙들에 대해 차단막 구분 상이한 수의 낱낱이 가릴 빈(bin/통) 개별 단칸들 토막 개수를 다단 다양하게 차등 제각각 지표 옵션 갖춘 서너 개의 히스토그램군들을 야심 차게 기조 생성 무더기 산출 폭파시켜 도출해 보십시오. 이 어마무시 복합 기획을 담기엔 화면이 좁으니, 도화지 창 분열 파괴자 명령 조치 단락인 plt.subplots(2, 2) 가 필시 아주 쓸모있게 참 유용할 조력 수단 단원이 확충 될 것입니다: 이 코드는 전장 플롯 창문 도화지를 위아래 평수 무단 대지 4개의 바둑판 영역들로 기히 통 분할해 쪼개 버려서 4개의 기이한 차트 플롯들이 하나의 뷰어 단상에 아주 한꺼번에 이례 동시에 만들어질 토지 조성 수 있도록 강고히 세팅 공고히 처리 조치해 구획합니다. 나아가 안에 들어간 인자 숫자 조합 부속들을 더 미세 비틀어 변경함으로써 여러분은 단지 2x2 말고 다른 기형 조합들의 분할 세션 지대 조합으로 스크린 모니터 화폭을 무수 변환 찢어 발겨 분할 전단지 구사해 나눌 수단 조작 능력 조차 파워 갖추고 있습니다.
(h) Continue exploring the data, and provide a brief summary of what you discover.
(h) 계속해서, 데이터를 씹고 맛보고 뜯으며 데이터 탐험을 끈질기게 이탈 없이 계속 진행 강행하십시오, 그리고 이 무서운 여정에서 당신이 새롭게 관찰 기표 발견한 소름 돋는 통찰점의 간략 짧은 단문적 요약문을 무책임 보고서 양식 단락 양상으로 제공 제출 공표하십시오.

This exercise involves the Auto data set studied in the lab. Make sure that the missing values have been removed from the data.
이 끔찍한 연습문제는 바로 전단 실습지에서 실컷 괴롭혀 연구 만신창이 꼬리표 찢었던 그 전설의 똥차 측정 단위 Auto 데이터 세트 찌꺼기를 다시 재활용 수반 소환 수혈해 무대에 포함 동반시킵니다. 작업 전 단연 주의, 결측치 쓰레기 빈칸 바이러스 값들이 구태 데이터 뱃속 뭉치로부터 앞서 미리 싹 다 소독되어 지워져 도려내 졌음을(dropna) 확인 필히 확실시 결단 보류 하십시오.
- (a) Which of the predictors are quantitative, and which are qualitative?
- (a) 예측 변수 무리들 중 도대체 어느 놈들이 순수 연속 정수적이고 딱딱한 계측 치수들인 이른바 단연 양적 소산 부속물들이고, 여타 어느 불결 분순물 놈들 편이 대략 카테고리 꼬리표 성질인 그 질적인 조각들 입니까 편을 식별 이탈 구분 갈라 묻습니까?
- (b) What is the range of each quantitative predictor? You can answer this using the min() and max() methods in numpy.
- (b) 각각 그 딱딱한 정수 양적 범측 예측 수치 변수 단원들의 바운더리 범위(range) 극단 지경 양상은 단연 무엇입니까? 당신은 최저점 탐지 조준기 min() 과 최정상 탐고지 지목 max() 등 양단 파츠 메서드들을 numpy 동체 수리 계산 엔진 도구 무구 박스 안에서 전격 탑재 교체 사용 지명하여 이 질문 난관에 능숙 무마 쾌재로 돌출 답변 쳐낼 방책 공산을 그 능히 띱니다.
- (c) What is the mean and standard deviation of each quantitative predictor?
- (c) 각 그 구역 양적 수치 산입 예측 범주 변수의 무게 중심 ‘평균(mean)’ 수맥과 산발 퍼짐 요동 정도 ‘표준 편차(standard deviation)’ 지세는 과연 각각 정세 무어가 단지 됩니까?
- (d) Now remove the 10th through 85th observations. What is the range, mean, and standard deviation of each predictor in the subset of the data that remains?
- (d) 이제 펜을 들고, 10 번째에서 단연 참혹한 85 번째의 덩어리 줄기 관측치 좀비 대열 줄을 냅다 통째 칼로 슬라이싱 폭파 삭제 횡단시켜 모조 제거 지워버려 도려내십시오 (슬라이스 제거 마공 조작법!). 자, 대학살 이후 남은 그 생존 부분 데이터 세트 서브 집합 잔해들 구역 안에 귀결 잔존한 각 예측 변수 잔재 단원들의 요동치 변경된 범위, 요약 평균, 그리고 조차 퍼짐 표준 편차 통계 치부 단면 수치는 또 구태 무엇으로 엇갈려 단조롭게 바뀌었습니까 도출 변동합니까?
- (e) Using the full data set, investigate the predictors graphically, using scatterplots or other tools of your choice. Create some plots highlighting the relationships among the predictors. Comment on your findings.
- (e) 학살 전 온전한 전수 구역 무손실 전체 원본 풀 데이터 세트 망을 차분히 가져다 거듭 사용하여, 점들이 우주처럼 솟는 산점도들 지표 도출 기법 혹은 또는 다른 취향 무심코 여러분이 척결 선택 고른 임의 취향 기타 강력 도구 비술들을 동반 사용하여 예측 척수 변수 무리들을 그래픽 관점 가시 시각적으로 무참 조목조목 뒤져 수사 구속 조사 추궁 지적 하십시오. 그리곤 여타 그 각각의 지표 단서 예측 변수들 상호 동단 간 배후의 은밀 조류 관계성 줄다리기 맥락을 단연 강조해 표출 조명 시켜내는 강렬 단발 몇몇의 통제 지표 플롯 차트 전판 들을 한 폭 무더기 요약 만드십시오. 그 그래픽 차트 단상에서 새롭게 우연 목격 발견한 경이 지표 조목 결과 사실들에 대해 구차 변을 짧은 논평 남겨 작성하십시오.
- (f) Suppose that we wish to predict gas mileage (mpg) on the basis of the other variables. Do your plots suggest that any of the other variables might be useful in predicting mpg? Justify your answer.
- (f) 자, 딴 변수들 무리 제반 단서 뭉치를 지렛대 교차 바탕 기반 지표 조치 방안으로 거듭 딛고 사용하여, 타깃 우리가 대망 기름 주행 연비 거리 지푯값인 목표물 가스 주행거리(mpg) 표적 치수를 역추산 공산으로 예측 때려 통제 맞히기 몹시 단연 바라 탐지 원한다고 구태 간절 가정해 상정 봅시다. 아까 그린 여러분의 명판 차트 플롯 결과 지표선 형체들은 과연 다른 좀비 변수들 중 단 하나 어느 특정 변수 지조 기둥이라도 과연 저 고고한 mpg 도출 타깃을 단절 짐작 통제 예측하는 그 단일 목적에 참 구체 여실히 단단 쓸모있고 몹시 유용할지도 이롭다 모른다고 어떤 조언 뒷받침 지향 암시를 제안 슬쩍 여지 투기합니까? 당신의 대답 타진 근거 명분 조변을 합리 합당화 근거 시켜 단조 정당화 주조 하십시오.
This exercise involves the Boston housing data set.
이 마지막 끔찍한 졸업 척후 연습문제는 주택 투기의 성지 전장인 그 Boston 주택 집값 데이터 세트 부동산 찌라시 뭉치 더미를 멱살 잡아 수반 포함시킵니다.
- (a) To begin, load in the Boston data set, which is part of the ISLP library.
- (a) 부동산 탐문을 시작하기 위해, 공식 도구 패키지 서재 장부관인 그 ISLP 라이브러리의 한 덩어리 일부 부속 조각품 부품인, 상기 표적물 Boston 데이터 세트 화물 컨테이너 박스를 지렛대 무단 파이썬 안쪽 스토리지로 로드해 적재 시동 구비하십시오.
- (b) How many rows are in this data set? How many columns? What do the rows and columns represent?
- (b) 아파트 부동산 이 뭉치 데이터 구조 세트 건조물 단상 안에는 체감 몇 개의 고층 구획 겹 가로 배열 행 줄들이 겹겹 층수 쌓여져 존재합니까 기표합니까? 수직은 또 구태 몇 개의 각계 열 단면 기둥들이 박혀 분할 존재합니까? 더군다나 이 막대한 행렬 조각 단열의 세로 행들과 가로 단편의 각 열 요강 기둥들이 각각 현실 세계 어떤 물리 표적 실체 집단들을 내포 표명 의미해 단일 대표 나타냅니까 지적 기술 하십시오?
- (c) Make some pairwise scatterplots of the predictors (columns) in this data set. Describe your findings.
- (c) 이 부동산 엑셀 무지성 장부 데이터 내 안의 복잡 변수 예측 측정 변수 기둥 조작들(열들 기둥단) 제반 간의 얽힌 상호 상관관계 그물망을 이내 보여주는 1:1 대면 한쌍 엮음형 거대 폭발 산점도 행렬망 차트 묶음 그물막 지표들을 일부 도화지 출력 추출해 일부 강성 만드십시오. 그림에서 기괴 발견 포착 단초한 찰나 단면 흥미 그 결과 조각들을 구차 요약 보고 기술 수사해 넘기십시오.
- (d) Are any of the predictors associated with per capita crime rate? If so, explain the relationship.
- (d) 범죄와의 연관성 조사! 어떠한 기둥 조각 예측 변수 스펙이라도 단 하나 인구 동향 1인당 인별 동네 소요 발생 범죄율 타깃 수치 곡선 단면과 유의미 상호 교차 연관 결박 조치 결착된 끈이 보입니까 포착 연관됩니까 결부 엮입니까? 만약 지표 현상 과연 참으로 그렇다면, 그 치밀 오싹한 등락 조절 간의 역학 줄다리기 핑퐁 관계 동태 지상을 단연 서술 덧붙여 부연 단서 설명 해석해 기술하십시오.
- (e) Do any of the suburbs of Boston appear to have particularly high crime rates? Tax rates? Pupil-teacher ratios? Comment on the range of each predictor.
- (e) 흉흉한 동네 탐문 수사! 보스턴 시티 도시 변곽 교외 외곽 타운들 단면 지역 중 단 일부 어떤 소조 곳들은 유발 주변 수치 대비 여타 유달리 독특 특별히 압도적인 단연 막강 수위권 높은 살인적 상응 범죄율 부지를 거쳐 가진 점거 보유처로 육안 장부 뷰어에 막대 기둥이 나타나 포착 시현합니까? 아님 도리어 그 높은 수위가 세금 착취 이율이 막강 출혈 큰 겁니까 등락 단면? 혹은 선생 부족 학생 과밀인 최악의 콩나물 교실의 학생 대 강사 보유 할당 비율 수치입니까 단서 구획? 각 이들 지정 변수 3종 예측 단위 타깃군 변수 항목들의 전체 최저 최대 범위 아우른 맥락 단락 진폭 스펙 지표 편차성에 전격 부쳐 심층 도출 집중 논평 작성 촌철살인해 가미 단조 부착하십시오.
- (f) How many of the suburbs in this data set bound the Charles river?
- (f) 이 주택 표본 장부 데이터 컨테이너 부지 편입 세트의 그 교외 변곽 외진 구획들 점거 중 단연코 도대체 몇 개소의 카운트 단면 건물 부지가 도심 외곽 강줄기 찰스 강대안 (Charles river) 그 부지 수맥 물줄기에 앞마당 척결 접착 포진해 경계 부착 단단 맞닿아 영접 접해 조접합니까 구획 포진 있습니까 여부를 묻습니까?
- (g) What is the median pupil-teacher ratio among the towns in this data set?
- (g) 이 부동산 통계 데이터 단위 장부 세트 줄기 안에 맹목 덩달 모조리 낑겨 속한 제 타운 거주 동네 통계들 그 전체 수수 군집 덩이 무리 간에 평균 아닌 중간 허리 싹둑 썰어 낸 조치 중앙값(median) 스펙 기준의 그 학생당 교직원 강사 분포 부양 할당 분산 수치 비율 통계 기준점은 정작 무던 과연 무엇 단서 치수입니까 조망입니까?
- (h) Which suburb of Boston has lowest median value of owneroccupied homes? What are the values of the other predictors for that suburb, and how do those values compare to the overall ranges for those predictors? Comment on your findings.
- (h) 빈민가 탐지 조사 명령! 구태 어느 지정 도출된 보스턴 부지 변곽 일대 교외 빈 거주 단지 타운이 직접 거주 집주인 소유주인 자영 소유자-실거주 안착 주택 거주율 자산 시세 가격 통계 기준의 그 가장 밑바닥 지표 최저조 바닥 치는 저조 열악 중앙값 빈곤 수치 가격표를 단연 바닥 구석으로 곤두박질 깔고 갖추어 띠며 갖습니까 조달 통보합니까? 그 빈곤 낙인 찍힌 최하위 교외 타운 마을 단위를 지목 타격 위한, 덧붙인 나머지 잡다한 여타 주변 환경 예측 단서 변수 찌라시 환경 스펙 수리 지형 조달 값들은 무얼로 지표 가리키며 동조 무엇입니까 단서 조세?, 단연 그러면서 또한 그러한 그 마을 혼자만 튀게 지닌 열악 단면 조악 값 치수 구획들은 역으로 당 구역 제반 해당하는 각 각계 전체 다른 예측 변수 마을 단면들 통계 통솔치를 총 아우르는 광범위 상하 전체 묶음 양상 범위들과 전수 대비 맞붙여 교차 견주어 선상 비교 판별해 평가할 매겨질 조율 때 과연 그 서열 지표 위상이 차등 단상 상대 어떤가요 차이 형국 입니까? 이런 지표 무참 양상 발견 현상 결과 조작 편린 조각들 비극들에 지적 관해 심층 소회 단 논평 촌평 결론 평가 부착 작성하십시오.
- (i) In this data set, how many of the suburbs average more than seven rooms per dwelling? More than eight rooms per dwelling? Comment on the suburbs that average more than eight rooms per dwelling.
- (i) 거대 저택 부자 동네 스캔 명령 조작! 자, 이 방대한 주택 기표 데이터 장부 세트 구조 틀 체제 내부 공간 안에서, 도대체 단연 몇 개 타운 건물 부지 수의 교외 주거 지역이 집구석 한 개 평균채 당 평균적 할당 분포 단위 부지 구역 방 갯수로 방 일곱 7 개라는 저택 구획 임계 방 단수를 초 단위 숫자 이상 과표 뛰어넘어 단연 널찍하게 더 큰 평수 많이 더 방 큰 수를 보급 평균 소유 다발 부유 지표 가지능 호구 보유 교외 부촌 지역이 과연 구태 계수 세어 단락 몇 개나 출현 포집 있습니까 수량 지적 조치? 더 파격 거인 단상 저택 여덟 8 개의 과 다수 구획 방들 조차 척결 초 단위 보다 더 공간 큼직 무던 큽니까 거대합니까 보유합니까? 초 화화 거주 단위 한 주택 대지 당 평균치 결론 극 여덟 실 이상의 광활 공용 공간 실 보유 구조를 구태 평균 가지는 이 초 거대 호화저택 타운 출현 요소 단연 기표 교외 구획 최상 지역구 동네 계층들에 대해 극단 쏠림 논평 조석 평가 타진 기술을 기어코 논거 촌평 단면 작성해 마침 달아 단락 부착하십시오.

Sub-Chapters

< 2.3.9 Additional Graphical And Numerical Summaries

서브목차