본문 바로가기

개발/AI 공부4

대용량 처리에는 for 루프보다 numpy, df 벡터를 사용해보자. 학교에서 거의 처음으로 배우는 루프는 거의 모든 프로그래밍 언어에서 루프에 대해 배운다. 그래서 기본적으로 반복 작업이 있을 때마다 루프로 구현을 했던것 같다. 최근에 데이터를 처리하게 되면서 많은 수의 반복(수백만/수십억 행)으로 작업할 때 루프를 사용하는 것은 부담이 됐었다. 그래서 배웠지만 잘 안쓰고 있던 numpy를 사용하여 일을 진행하게 되었다. 여기에 대해서 잊어버리지 않게 적어보려고 한다. import time start = time.time() # iterative sum total = 0 # iterating through 1.5 Million numbers for item in range(0, 1500000): total = total + item print('sum is:' + str.. 2024. 1. 11.
파이썬 각종 OCR 사용해보기 및 네이버 클라우드 AI OCR 사용법 (2) 파이썬 각종 OCR 사용해보기 및 네이버 클라우드 AI OCR 사용법 (1) 유해이미지를 판별해야하는데 처음에는 야한이미지나 잔인한이미지를 판별하는 모델을 만들었었다. 만들고나서 어플 내에서 이전의 광고로 판단되어 삭제되었던 이미지를 가지고 와서 테스트 beomcoder.tistory.com (1)에 이어서 마저 쓰려고 한다. 먼저 콘솔에 가서 OCR Domain생성하기를 클릭하여 정보를 입력해준다. 도메인 이름, 도메인 코드는 아무거나 적어도 상관없다. 나는 그냥 이미지에서 글자를 추출하기 위해서 General로 선택하였다. 그리고 SecretKey를 생성하여 복사하고, APIGW 자동 연동을 선택하여 URL을 받는다. 여기서 의아했던게 OCR서비스를 제공하는데 API는 따로 신청해줘야 한다는 점이었다.. 2023. 4. 5.
머신러닝(CatBoost, LightGBM, XGBoost) 공부하기 Kaggle을 비롯한 데이터 경진대회 플랫폼에서 항상 상위권을 차지하는 알고리즘 XGBoost, LightGBM, CatBoost에 대해 정리하고 차이점을 비교해보려고 한다. 내가 부트캠프에서 인공지능을 배웠을때나 다른 교육을 들었을때 항상 처음부터 썼던 모델이니 방법론부터 배우다 보니까 최근에 쓰이는 모델, 현재 쓰고 있는 무엇인가를 배욱기도 전에 교육이 끝난다. 나는 예전 것도 배워서 차근차근 배우는 것도 중요하지만 쓸만한 것들을 배우고 싶었다. 나는 decision tree, random forest 같이 옛날에 만들어져서 지금은 쓰여지지 않는 머신러닝기법만 배우다가 교육기간이 끝났다. 중간에 부트캠프 내 대회를 개최하거나 다른 대회를 참여할때도 부트캠프에서 배운 머신러닝만 쓰다가 점수도 내지 못하.. 2023. 3. 14.
AI 표준화에 대해서 팁스 준비를 하면서 표준화 전략에 대해 써야했다. 이때까지 부트캠프나 친구들끼리 프로젝트를 진행해보면서 표준화전략을 세워본적이 없었다. 그래서 많이 생소하고 어려워서 알아봐야겠다고 생각했다. 먼저 표준화 전략에 대해 PPT를 작성하면서 표준 단체에 대해 알아보았다. 인공지능 표준 단체로는 ITU-T, ISO/IEC JTC 1, IEEE, W3C, Khronos Group, ONNX 등이 있다고 한다. 이중 ITU-T와 IEEE는 무인화, 헬스케어, 로봇 등 전 산업영역에서 인공지능을 활용한 기술을 표준화하고 있다. ISO/IEC JTC 1은 인공지능 시스템 자체에 대한 표준화를 진행하며, W3C는 웹영역에서의 머신러닝 활용, Khronos Group, ONNX는 머신러닝 모델의 교환 포맷에 대한 표준화를.. 2023. 3. 13.