Notice
Recent Posts
Recent Comments
Link
«   2025/08   »
1 2
3 4 5 6 7 8 9
10 11 12 13 14 15 16
17 18 19 20 21 22 23
24 25 26 27 28 29 30
31
Tags
more
Archives
Today
Total
관리 메뉴

코드로보시죠

[module1 (1)] 데이터 분석과 AI학습에서 유의할 점 본문

[LG Aimers 3기] Python 머신러닝

[module1 (1)] 데이터 분석과 AI학습에서 유의할 점

코드로 보시죠 2023. 7. 4. 13:35
1. 데이터 처리 및 수집에서 윤리 이슈

[1] 데이터를 잘 해석하고 있는가?

ex) 두 변수 간의 상관관계 != 인과관계

사례) 초콜렛을 많이 먹을수록 노벨상 수상 비율이 높게 보이는 그래프

         > 초콜렛 섭취량과 노벨상 수상 두 변수에는 상관관계가 존재하는 것.

         > 인과관계로 단정 불가. 따라서, 초콜릿을 많이 "먹을수록" 노벨상을 탄다고 해석하는 것은 부적절!

 

 

[2] 데이터 전처리와 분석 방법은 적절한가?

  • 아웃라이어(너무 크거나 너무 작은 값) 제거하기
  • error bar추가하기(데이터의 오차 범위 확인 위함) > 에러바는 시각적 자료 제공에 그침. 
  • 분석 적절성의 판단은 상황에 맞는 통계 기법으로!
  • 데이터 정규화(스케일링) 하기! : 데이터 format도 맞추고~ outlier 처리하고~
  • EDA에 많은 시간이 투자되어야 함. 데이터를 오래 들여다보라!

[3] 학습에 쓰이는 데이터가 충분한가?

  • 언더피팅: 학습데이터가 너무 적어 예측을 제대로 하지 못함
  • 오버피팅: 학습데이터에만 너무 과대 적합하여 테스트데이터 예측엔 무용지물
  • 양질의 모델링을 위해선 train data와 test data는 반드시 다른 데이터를 사용해야 한다

[4] blackbox algorithm

  • 대다수의 AI모델들은 blackbox model.
  • blackbox? : AI가 어떤 과정을 통해 결정을 내렸는지 알 수 없음
  • 의사결정트리 기법으로 결정을 내린 AI의 경우 blackbox가 아님. 의사 결정의 과정을 알 수 있기 때문
  • 오늘날 AI모델은 성능도 중요하지만, 의사결정의 "설명력"도 중요함
  • ex) CV모델의 경우 어느 부분을 보고 개, 고양이라 판단했는지 시각화 결과를 더해주기
  • 우리가 만들 모델이 noise에 얼마나 민감한지 봐야함. 이미지 데이터의 1픽셀 부분만 다른 이미지로 대체해도 완전히 다른 판단을 내려버릴 수 있음
즉, 모델이 결정을 내리게 된 과정을 사람들이 납득하고 의문을 품지 않게 만들어야 한다! (신뢰의 문제)

 

[5] Web Data를 다룰 때 주의할 점

  • Spiral of silence(의견의 대표성): 인터넷 상의 의견이 반드시 대표성 있는 의견은 아니다.
  • 사람들은 소수가 되는 것을 두려워해 다수의 의견과 다를 경우 침묵하는 경향이 있음 > 웹데이터는 편향될 수 있음. > 웹 데이터를 분석할 때 이러한 편향에 주의해야 할 것임. 
  • Infodemic(인포데믹): fact와 더불어 오정보도 같이 늘어 구분이 어려워지는 정보의 과부화 현상
  • 특정 집단이나 개인의 권리, 사생활을 침해하지 않는 데이터만 사용하기
즉, web data를 다룰 땐, 대표성 있는 데이터인지, 진실 정보인지, 권리를 침해하지 않는 데이터인지 확인해야함!

 

[6] AI의 윤리적 결정

 

  • 사례1) COMPAS: 피고의 미래 범죄 위험을 예측하는 software. 미국 법원에서 판결에 사용.
  • 문제) COMPAS는 인종차별의 경향성이 있다. 백인보다 흑인에게 높은 위험도를 부여, 실제로는 백인이 재범을 저지름.
  • 이렇게, 알고리즘들은 편향을 가질 수 있음. 
  • 사례 2) Microsoft Tay(챗봇) : 백인우월주의자, 무슬림 혐오자들의 악심으로 차별적 발언을 학습해 서비스 중단
AI모델이 편향을 갖지 않고, 공정한 결정을 내릴 수 있게 하기 위해 노력해야 한다!

'[LG Aimers 3기] Python 머신러닝' 카테고리의 다른 글

[module1 1(3)] data scientist의 소양  (0) 2023.07.04
[module1 (2)] AI ethics  (0) 2023.07.04