목록인공지능_AI/머신러닝_Machine learning (9)
CMS의 AI 개발기록

자연상수 e ○ 자연의 연속적인 성장을 표현하기 위해 고안된 개념이다 1원을 넣으면 1년뒤 100%의 성장 즉 2원이 되는 복리상품이 있다. (1+0.5)제곱= 6개월째에서 50% 이자가 발생(1.5원) 또 6개월이 지나면 1.5원에 50% 이자가 발생하여 2.25원이 된다. 세분화하기 전단계보다 더 많은 성장이 이루어짐을 볼 수 있다. 성장시기를 3번으로 나눠서 3개월마다 33%의 성장을 적용해보면 (1+0.33)3제곱= 4개월째 33%의 이자가 발생하여 1.33원 8개월째 1.78... 1년뒤 2.37로 전단계보다 더 많은 성장이 이루어짐을 볼 수 있다. e = n(성장시기 분할횟수)가 무한대에 가까워질때 (1 + 1/ 성장시기분할횟수(성장률))을 무한대로 제곱함 정해진 기간을 무한대로 분할한 뒤 분..

Y가 범주형 데이터라면? Y가 번주형이라면 선형회귀모델이 가진 가정을 만족 할 수 없다. 그래서 새로운 관측치가 모델로 만들어논 범주중 어디에 속하는지 의사결정하는 로지스틱 회귀모델(분류)를 실시한다. 로지스틱 회귀모델의 Y 값은 0,1 같이 특정 범주에 속하는 값이다. 오차의 평균은 0이고 Y 값들의 평균을 구했을 때 모델 함수식이 만들어진다. >> Y값을 전부 더해 개수로 나누면 Y의 범주를 분류 할 수 있는 기준선이 된다. Y값이 1을 가질 확률 𝝿(파이) 따라서 Y가 0일 확률은 1- 𝝿 i번째 Y의 기댓값=1*𝝿i +0*(1-𝝿i )= 𝝿i Y의 기댓값을 취했을 때 Y가 1일(특정 범주를 가질) 확률이 나온다. 이 확률은 로지스틱 회귀의 모델 함수식 값(X를 대입하여 도출된 Y가 특정 범주에 속..

SSE = 실제 Y와 예측 Y의 차이의 제곱의 합 모델에 투입한 X만으로 현상을 설명하는 것이 불가능한 부분이다. SSR = 예측 Y와 실제평균 Y의 차이의 제곱의 합 평균으로 현상을 설명 할 때와 모델로 현상을 설명 할 때의 차이다. SST = 실제 Y와 실제평균 Y의 차이의 제곱의 합 = SSE+SSR SSR/SST = Y값의 평균으로부터 예측 Y까지 모델을 통해 설명 할 수 있는 비율이 얼마인가? 극단적으로 1이라면 = 확정적 관계로 모델이 데이터와 완전히 일치함 100% 반대로 0 이라면 = 모델이 데이터를 설명하지 못함 0% 이 분수가 결정계수 R square 이다. R² = 모델에서 사용하고 있는 X변수들이 Y변수의 분산(평균으로부터 떨어진 거리)를 얼마나 줄였냐? 평균을 사용할 때보다 성능향..

샘플(데이터)의 함수형태는 X, Y로 이루어진 함수이다. 추정량을 통해 알려지지 않은 파라미터 (B0, B1)를 추청가능하다. 1. 점추정 특정한 값(점)으로 파라미터를 추청하는 것 확률오차 가정에서 실제 Y 예측 Y의 오차가 시그마 제곱의 값이라는 부분이 있었는데 그 시그마 제곱도 점추청 사용가능하다. 1 / 관측치 개수-2 * (관측치의 각 잔차e를 제곱해 모두 더함) 2. 최소제곱법으로 만든 추정량의 성질 ㄱ. 불편추정량: 추정량의 기대값이 모수와 같아지는 추정량을 불편추정량이라 한다. ? 이해하기 쉽게 풀어써보자. 최적의 파라미터를 추청하기 위해 만든 함수식 B0햇 = Y바-B1햇X바 파라미터 = 함수식 이므로 파라미터인 B0햇, B1햇도 추정량이다. 데이터 전체의 모집단에서 trainning d..

모든 X를 모델에 대입해 만들어낸 예측 Y와 실제 Y의 차이의 제곱의 합(+-상쇄가 되지 않도록 제곱함) 이 최소가 되는 모델의 파라미터를 추청 선형회귀모델의 비용함수는 전역 최적해 즉 오차가 가장 작은 지점이 존재 = - 2차함수 =기울기가 0이되는 점이 하나임 다른 모델의 비용함수중에는 지역최적해로 오차가 최소가 되는 점, 기울기가 0이 되는 점이 여러개가 존재하는 경우도 있다. B0와 B1을 미지수로 두어 실제 Y값과 예측 Y의 차이가 최소가 되게한다. 미분값이 0이되는 B0, B1의 파라미터 값을 찾으면 오차를 최소화하는 모델 생성 가능 모자표시(햇)= 최적의 파라미터를 의미하는 기호 비용함수가 0이 된다 = 오차의 제곱의 합이 최소가 된다.= convex한 2차함수인 비용함수에서 기울기가 0인 ..

데이터를 활용해 가능한 대표적인 일= 예측 예측 대상에 따라 나뉨 예측하고자 하는 대상인 Y에 영향을 미치는 X들이 있을때 X만으로 Y를 완전히 설명, 표현이 가능하다= 확정적 관계(오차항이 존재X) // 불가 하다= 확률적 관계(오차항 존재) 머신러닝을 활용하는 사항들은 대부분 확률적 관계에 있다. 해결하고자하는 문제 Y를 Y에 영향을 미치는 X들의 선형결합(직선)으로 표현 예(2X=Y) 선형회귀모델의 기울기 = X의 변화가 Y에 변화에 얼마나 영향을 주는가? 예(b1= 2 , X가 1 증가하면 Y는 2 증가함) 선형회귀모델의 Y절편 = X에 따라 변화하지 않는, 정해져있는 값 예(b0+b1X=Y, b1=0(X와 Y가 관계없음), Y는 항상 b0) X와 Y의 관계를 설명하고 Y가 없는 X데이터로 Y값을..