일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 | 29 |
30 | 31 |
- 토플준비
- 영어
- SQL쿼리
- 코린이
- 파이썬코딩
- SQL코딩테스트
- 영어기사
- 코딩테스트
- 영어표현
- 영어뉴스기사
- 영어기사읽기
- 의대확장
- 토플공부법
- 영어뉴스읽기
- 영어공부
- 영어뉴스
- 미국석사
- 토플독학
- sql
- 프로그래머스파이썬
- 영어신문
- 파이썬
- 영어신문읽기
- 파이썬코딩테스트
- 프로그래머스
- 영문법
- 프로그래머스코딩테스트
- 의대정원확장
- 프로그래머스SQL
- 의대정원
- Today
- Total
목록전체 글 (101)
OFMY (Ony for me and you)

1. Stanford University 2. 하버드 대학교3. 캘리포니아 대학, 버클리4. 존스 홉킨스 대학5. 카네기 멜론 대학6. 기술 매사추세츠 공과 대학7. Columbia University8. 뉴욕 대학교 (NYU)9. 일리노이 대학 어 배너-샴페인 (UIUC)10. 미시간 대학교 앤아버(UMich). 미국 데이터 과학을 위한 상위 10개 대학이 기사는 미국의 데이터 과학 상위 10개 대학에 관한 것이지만 데이터 과학이 무엇인지 배우는 데에도 도움이 될 것입니다. 데이터 과학은 과학적 방법, 프로세스, 알고리즘 및 시스템을 사용하worldscholarshub.comhttps://www.usnews.com U.S. News & World Report: News, Rankings and Anal..

SVD는 NaN 값이 없는 행렬에만 적용 가능하기 때문에 이런경우에는 확률적 경사 하강법을 이용해 행렬분해를 수행함 확률적 경사 하강법을 이용한 행렬분해 :P와 Q 행렬로 계산된 예측 R 행렬 값이 실제 R 행렬값과 가장 최소의 오류를 가질 수 있또록 반복적인 비용 함수 최적화를 통해 P와Q를 유추해 내는 것 1. P와 Q 행렬을 임의의 값을 가진 행렬로 초기화 한다. 2. P와 Q 전치행렬을 곱해 예측 R 행렬을 계산하고, 실제 R 행렬과의 차이를 계산한다. 3. 차이를 최소화할 수 있도록 P와 Q 행렬의 값을 적절한 값으로 각각 업데이트한다. 4. 특정임계치 아래로 수렴할 때까지 2, 3번 작업을 반복하면서 P와 Q 행렬을 업데이트해 근사화한다. 과적합을 피하기 위해서 규제(L2규제)를 반영한 비용 ..

추천 시스템의 유형 콘텐츠 기반 필터링 (Content based filtering) 협업 필터링 (Collabrotice Filtering) 최근접 이웃 협업필터링 (= 메모리 협업 필터링) 아마존: 아이템 기반의 최근접 이웃 협업 필터링 방식을 추천 엔진으로 사용 사용자 기반(User-User): "당신과 비슷한 고객들이 다음 상품도 구매함" 아이템 기반(Item-Item): "이 상품을 선택한 다른 고객들은 다음 상품도 구매함" 잠재 요인 협업 필링 넷플릭스 추천시스템 경연대회: 행렬분해 기법을 이용한 잠재요인 협업 필터링 방식이 우승 -> 대부분의 온라인 스토어에서 이 시스템 적용 요즘에는 개인화 특성을 강화하기 위해 하이브리드 형식(콘텐츠+협업)을 사용하기도 함 1. 콘텐츠 기반 필터링 (Con..

타깃값(0: 정상/ 1: 비정상) 에 따른 데이터 분포 확인 - Categorical (범주형 데이터) # 이상치 유무에 따른 차이를 보기 위한 데이터 분류 train_0 = train[train['Y_LABEL']==0] train_1 = train[train['Y_LABEL']==1] # 'COMPONENT_ARBITRARY' #Test Feature fig, ax = plt.subplots(1, 2, figsize=(16, 6)) sns.countplot(x = 'COMPONENT_ARBITRARY', data = train_0, ax = ax[0], order = train_0['COMPONENT_ARBITRARY'].value_counts().index) ax[0].tick_params(labe..

target 값의 분포를 파이차트로 확인하기 plt.subplots(figsize = (8,8)) plt.pie(train['Y_LABEL'].value_counts(), labels = train['Y_LABEL'].value_counts().index, autopct="%.2f%%", shadow = True, startangle = 90) plt.title('Anomaly Ratio', size=20) plt.show()

- numeric 데이터 -> Boxplot for col in numerical_features : plt.figure(figsize=(12, 8)) plt.boxplot(train[col], sym='r*') plt.title(col) plt.show()

모든 feature의 타입, 결측치, 고유값들을 정리해서 데이터프레임을 재가공 시키는 코드 # show dataframe for each features that we have dataFeatures = [] dataType = [] null = [] nullPCT = [] unique = [] minValue = [] maxValue = [] uniqueSample = [] for item in list(train): dataFeatures.append(item) #데이터 타입 for item in dataFeatures: dataType.append(train[item].dtype.name) #결측치 개수 for item in dataFeatures: null.append(len(train[train..
그래디언트 부스팅 회귀 트리란? 여러개의 결정 트리를 묶어 강력한 모델을 만드는 앙상블 방법 - 회귀, 분류에 모두 사용 가능 - 이전의 트리의 오차를 보완하는 방식으로 순차적으로 트리 구성 - 무작위성이 없음 -> 사전 가지치기 사용 - 메모리를 적게 사용하고 예측도 빨라 간단한 모델 (약한 학습기) 중요한 매개변수 [하이퍼 파라미터] learning rate(학습률) : 이전 트리의 오차를 얼마나 강하게 보정할 것이지를 제어 학습률이 크면 트리는 강하게 보정 -> 복잡한 모델을 만듬 n_estimators: 앙상블에 트리 개수를 결정 값이 크면 모델의 복잡도가 커져 훈련세트에서의 실수를 바로 잡을 기회가 더 많아짐 from sklearn.ensemble import GradientBoostingCla..