본문 바로가기

데이터 사이언스 이야기

(7)
[논문] 현장작업의 암묵지를 골격에 의한 동작인식과 AI로 형식지화하는 수법 암묵지를 형식지로 바꾸는 접근법에 대해 간단히 개관한 후, 미츠비시파워의 사례연구를 소개하려고 한다. 형식지와 암묵지 암묵지를 형식지로 바꾸어 활용하려는 노력은 Taylor(1911)가 스톱워치와 노트를 사용하여 작업자들의 동작을 기록하여 활용한 것을 시초로 볼 수 있지만, 암묵지가 무엇인지 비교적 명확히 정의한 것은 Polanyi(1966)인 듯 하다. Polanyi는 현장 작업의 기능 중에서 목적 달성을 위해 행해지지만 명확히 설명할 수 없는 일련의 근육운동을 암묵지라고 지적하고 있다. 그 후 암묵지를 형식지로 바꾸는 것은 가능한 것이냐, 암묵지는 무엇이냐 등에 대해 여러 의견이 있었으나, 현재 일반적으로 통용되는 형식지와 암묵지의 개념은 아래와 같다. 형식지(explicit knowledge) : ..
[논문 소개] 분야 특유의 비지도학습 고유표현인식(Domain-Specific Unsupervised Named Entity Recognitio 2017년 논문이라 최신은 아니지만, 최근에 NER에 대해 공부할 일이 있어서 리뷰. 개요 비지도학습에 의한 분야특유(domain specific) 고유표현인식(NER)을 제안하고 있다. 비지도학습 형태소해석수법인 PYHSMM을 확장하고 있다. 단어레벨의 PYHSMM과 semi-Markov CRF를 통합하여, 일반 분야의 코퍼스에 의한 pseudo labeled 데이터, 대상 분야의 적은 수의 시드 데이터를 사용하여 NER을 수행한다. 이 수법은 분야 특유의 고유표현 코퍼스가 존재하지 않는 분야에 대해서, 적은 비용으로 분야 특유의 비지도 NER을 수행할 수 있어, 다양한 분야나 언어, 고유표현 체계에 응용가능하다. 복수의 분야에 있어 영어 및 일본어에 대하여 실험하여, 제안수법이 NER의 정확도를 향상..
[Case Study] 반지도학습에 의한 이상검사 외관의 이상은 재현율이 낮으므로 발생할 수 있는 이상 패턴을 망라하여 대량으로 수집하는 것이 어렵다. 따라서 학습 데이터에 포함되는 이상데이터는 소량이 된다. 이런 경우, 정상 데이터만을 학습하는 것으로 정상, 이상 데이터를 판별하는 반지도학습(정상인지 이상인지 binary로 분류한다는 전제로) 수법이 고안되었다. 그 수법의 하나로서 이미지의 차원삭감 및 재구성을 이용하는 방법이 있다. 이 방법에서는, 먼저, 정상 데이터만을 사용한 학습에 의해, 정상 이미지 데이터의 특징을 가지는 데이터의 성분 수를 줄이는 차원 삭감 구조와, 차원삭감한 데이터에서 원래의 정상 이미지 데이터에 가까운 이미지를 복원하는 재구성 구조의, 2개의 구조를 구축한다. 이 차원삭감 및 재구성 구조에 이상데이터를 입력하면, 재구성 전..
[머신러닝] L1 norm, L2 norm, 과적합 방지 norm(노름) 이란, 수학용어로, 실수 혹은 복소수로 이루어진 벡터의 크기를 계산하는 함수를 말한다. L1 norm과 L2 norm이 머신러닝에서 많이 사용되는데, L1 norm 은, 절대값을 사용하고, L2 norm 은, 제곱값을 사용한다. 둘의 특징들을 아래 표에 정리한다. L1 norm L2 norm 벡터 간 거리를 구하는 방법 절대값 제곱값 쓰이는 곳 L1 regularization Lasso회귀 L2 regularization Ridge회귀 knn kmeans 특징(정규화에 쓰였을 때) 가중치가 작은 경우 0으로 만들어 버리므로, 변수 선별이 가능함. 모든 특징들이 다 조금씩은 유용하다고 보는 경우에 쓰면 좋음. 과적합(overfitting) 예측모델이 학습데이터에 대해서는 잘 예측하지만, 학..
이미지분류 시스템 PoC 프로젝트를 완료하고 ※고객이나 프로젝트에 관한 구체적 내용은 대외비라 개인적 소감 위주의 글입니다. 동일 고객에 대한 지난 프로젝트(AI 구축 PoC)에서 이미지분류가 선행되어야 한다는 과제감에 대해 고객과 공유했고, 이어서 이미지분류 AI 구축을 위한 PoC를 약 1달 간 실시했다. 예전에 학원에서 친구들과 MNIST 숫자 분류를 해본 적이 있고, 전 직장에서 사내 과제를 맡아 이미지 분류나 객체 인식 AI를 다뤄본 적이 있지만, 제대로 프로로서 대고객 프로젝트를 맡는 것은 처음이었다. 그래서 처음엔 좀 걱정되는 부분도 있었다. Keras는 너무 단순하고 Tensorflow는 Pytorch에 비해 쓰기가 불편하고, 또 요새 트렌드가 Pytorch가 많이 쓰이는 분위기인 것 같아서 내가 일부러 Pytorch를 골랐지만, 처..
이노베이션과 디자인 사고 디자인 사고 종래에 디자인(설계)이 기획, 설계, 개발, 마케팅, 판매로 이어지는 기업 활동의 한 단계였다면, 앞으로는 모든 단계에서 디자인(설계)가 중요하다는 점에서 디자인 사고가 주목받고 있다. 디자인 사고에서 중시하는 것은 적합한 설계를 통해 사용자의 불만, 불편을 빠르게 해결해내는 것으로, 유용성(Desirability), 사업성(Viability), 실현성(Feasibility)을 3요소로 한다. 디자인 사고의 필요성 현 시대는 불확실성이 높고 빠르게 변화해가고 있다. 특히 코로나 팬데믹에 의해 삶의 방식이 순식간에 변화되어, 빠르게 변화하지 못한 기업은 도태된다는 사실이 선명해졌다. 이런 시대에 살아남기 위해서는 개인이든 기업이든 문제점과 과제를 빠르게 파악하고, 문제 해결을 위한 새로운 구조..
AI PoC프로젝트: 첫 프로젝트를 완료하고 현 직장의 직무 현 직장은 100명 정도의 컨설턴트가 모여있는 회사다. 마케팅이나 영업, 관리, 인재육성을 담당하는 부서도 전부 컨설턴트들로 이루어져있고, 기본적으로 7:3 정도의 비중으로 대외 컨설턴트 업무를 하면서 사내 팀별 활동을 병행한다. 나도 컨설턴트이고, 나를 포함해서 5명 정도가 데이터 사이언티스트이다. (100명의 컨설턴트 중 5명이 데이터 사이언티스트) 현 직장의 사업, 필요 스킬 우리 회사는 제조업에 대한 컨설팅 업무가 메인이다. 비중은 작지만 제조업 이외 고객에 대한 컨설팅을 하는 경우도 있다. 현장에 대한 컨설팅 위주여서 경영 전략 컨설팅과는 성격이 다르지만, 비슷한 부분도 많다. 현장에서 이루어지는 업무를 히어링하고, 비효율적인 부분을 개선하기 위한 솔루션을 제공한다. 히어링을 통..