OFMY (Ony for me and you)

Notice

Recent Posts

Recent Comments

Link

« 2025/03 »
일	월	화	수	목	금	토
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30	31

Tags more

Archives

Today

Total

관리 메뉴

목록전체 글 (101)

OFMY (Ony for me and you)

미국 데이터사이언스 대학원 순위 | 대학 랭킹 사이트

1. Stanford University 2. 하버드 대학교3. 캘리포니아 대학, 버클리4. 존스 홉킨스 대학5. 카네기 멜론 대학6. 기술 매사추세츠 공과 대학7. Columbia University8. 뉴욕 대학교 (NYU)9. 일리노이 대학 어 배너-샴페인 (UIUC)10. 미시간 대학교 앤아버(UMich). 미국 데이터 과학을 위한 상위 10개 대학이 기사는 미국의 데이터 과학 상위 10개 대학에 관한 것이지만 데이터 과학이 무엇인지 배우는 데에도 도움이 될 것입니다. 데이터 과학은 과학적 방법, 프로세스, 알고리즘 및 시스템을 사용하worldscholarshub.comhttps://www.usnews.com U.S. News & World Report: News, Rankings and Anal..

미국 석사 준비/리스트업 2023. 12. 29. 09:31

[파이썬 머신러닝 완벽가이드] 09 추천시스템 - 잠재요인 협업필터링(2)

SVD는 NaN 값이 없는 행렬에만 적용 가능하기 때문에 이런경우에는 확률적 경사 하강법을 이용해 행렬분해를 수행함 확률적 경사 하강법을 이용한 행렬분해 :P와 Q 행렬로 계산된 예측 R 행렬 값이 실제 R 행렬값과 가장 최소의 오류를 가질 수 있또록 반복적인 비용 함수 최적화를 통해 P와Q를 유추해 내는 것 1. P와 Q 행렬을 임의의 값을 가진 행렬로 초기화 한다. 2. P와 Q 전치행렬을 곱해 예측 R 행렬을 계산하고, 실제 R 행렬과의 차이를 계산한다. 3. 차이를 최소화할 수 있도록 P와 Q 행렬의 값을 적절한 값으로 각각 업데이트한다. 4. 특정임계치 아래로 수렴할 때까지 2, 3번 작업을 반복하면서 P와 Q 행렬을 업데이트해 근사화한다. 과적합을 피하기 위해서 규제(L2규제)를 반영한 비용 ..

머신러닝/책 리뷰 2023. 9. 18. 17:46

[파이썬 머신러닝 완벽가이드] 09 추천시스템 - 잠재요인 협업필터링(1)

추천 시스템의 유형 콘텐츠 기반 필터링 (Content based filtering) 협업 필터링 (Collabrotice Filtering) 최근접 이웃 협업필터링 (= 메모리 협업 필터링) 아마존: 아이템 기반의 최근접 이웃 협업 필터링 방식을 추천 엔진으로 사용 사용자 기반(User-User): "당신과 비슷한 고객들이 다음 상품도 구매함" 아이템 기반(Item-Item): "이 상품을 선택한 다른 고객들은 다음 상품도 구매함" 잠재 요인 협업 필링 넷플릭스 추천시스템 경연대회: 행렬분해 기법을 이용한 잠재요인 협업 필터링 방식이 우승 -> 대부분의 온라인 스토어에서 이 시스템 적용 요즘에는 개인화 특성을 강화하기 위해 하이브리드 형식(콘텐츠+협업)을 사용하기도 함 1. 콘텐츠 기반 필터링 (Con..

머신러닝/책 리뷰 2023. 9. 18. 17:28

[EDA] Feature 시각화

타깃값(0: 정상/ 1: 비정상) 에 따른 데이터 분포 확인 - Categorical (범주형 데이터) # 이상치 유무에 따른 차이를 보기 위한 데이터 분류 train_0 = train[train['Y_LABEL']==0] train_1 = train[train['Y_LABEL']==1] # 'COMPONENT_ARBITRARY' #Test Feature fig, ax = plt.subplots(1, 2, figsize=(16, 6)) sns.countplot(x = 'COMPONENT_ARBITRARY', data = train_0, ax = ax[0], order = train_0['COMPONENT_ARBITRARY'].value_counts().index) ax[0].tick_params(labe..

머신러닝/코드 뜯어보기 2023. 9. 12. 16:03

[EDA] 타깃 분포 살펴보기 - pie차트

target 값의 분포를 파이차트로 확인하기 plt.subplots(figsize = (8,8)) plt.pie(train['Y_LABEL'].value_counts(), labels = train['Y_LABEL'].value_counts().index, autopct="%.2f%%", shadow = True, startangle = 90) plt.title('Anomaly Ratio', size=20) plt.show()

머신러닝/코드 뜯어보기 2023. 9. 12. 15:58

[EDA] 이상치 확인하기

- numeric 데이터 -> Boxplot for col in numerical_features : plt.figure(figsize=(12, 8)) plt.boxplot(train[col], sym='r*') plt.title(col) plt.show()

머신러닝/코드 뜯어보기 2023. 9. 12. 15:55

[EDA] 데이터프레임으로 피쳐 특성 살펴보기

모든 feature의 타입, 결측치, 고유값들을 정리해서 데이터프레임을 재가공 시키는 코드 # show dataframe for each features that we have dataFeatures = [] dataType = [] null = [] nullPCT = [] unique = [] minValue = [] maxValue = [] uniqueSample = [] for item in list(train): dataFeatures.append(item) #데이터 타입 for item in dataFeatures: dataType.append(train[item].dtype.name) #결측치 개수 for item in dataFeatures: null.append(len(train[train..

머신러닝/코드 뜯어보기 2023. 9. 12. 15:46

[파이썬 라이브러리를 활용한 머신러닝] 그래디언트 부스팅 회귀 트리

그래디언트 부스팅 회귀 트리란? 여러개의 결정 트리를 묶어 강력한 모델을 만드는 앙상블 방법 - 회귀, 분류에 모두 사용 가능 - 이전의 트리의 오차를 보완하는 방식으로 순차적으로 트리 구성 - 무작위성이 없음 -> 사전 가지치기 사용 - 메모리를 적게 사용하고 예측도 빨라 간단한 모델 (약한 학습기) 중요한 매개변수 [하이퍼 파라미터] learning rate(학습률) : 이전 트리의 오차를 얼마나 강하게 보정할 것이지를 제어 학습률이 크면 트리는 강하게 보정 -> 복잡한 모델을 만듬 n_estimators: 앙상블에 트리 개수를 결정 값이 크면 모델의 복잡도가 커져 훈련세트에서의 실수를 바로 잡을 기회가 더 많아짐 from sklearn.ensemble import GradientBoostingCla..

머신러닝/책 리뷰 2023. 9. 8. 17:08

이전 Prev 1 ··· 9 10 11 12 13 Next 다음

목록전체 글 (101)

OFMY (Ony for me and you)

티스토리툴바