Python-이론/python-인공지능(17)
-
한국어 분석(형태소 분석)
한국어 분석(형태소 분석) 형태소 분석이란 한국어를 의미를 갖는 최소 단위로 분할하고, 품사를 판별하는 작업입니다. 우리가 이러한 기능을 직접구현 하려면 어렵겠죠 ..... 하지만 이러한 기능은 모듈로 이미 만들어져있어서 편리하게 사용할 수 있습니다.모듈 다운로드 방법 apt-get install g++ openjdk-7-jdk python-dev python3-dev 만약 jpype오류가 발생한다면 pip3 install jpype1을 다운로드 해주세요.konlpy 설치pip3 install konlpy 안정적이게 설치가 됩니다. 그럼 이제부터 예제 코드를 실행시켜 보겠습니다. 예제 코드 from konlpy.tag import Twitter twitter = Twitter() print("구분할 문장..
2018.05.17 -
pandas와 numpy 다루기
pandas와 numpy 다루기 머신러닝을 할 때 데이터를 자주 조작하며 사용하게 될 것이다. 데이터를 조작하는데 유용한 pandas와 numpy의 함수에 대해 알아보자 pd.DataFrame(inputData) DataFrame은 numpy의 ndarray, dict, 일반 배열들을 입력데이터로 받는다. import pandas as pd data = [ [1,2,3,4], [5,6,7,8], [9,10,11,12], [13,14,15,16] ] r = pd.DataFrame(data) print(r) 결과 결과와 같이 입력데이터 뿐만 아니라 왼쪽과 윗편에 인덱스까지 붙어서 나온다. pd.Series(inputData,dtype=) Series의 입력값은 1차원 배열 딕셔너리를 받는다. 그리고 뒤에는 ..
2018.05.11 -
Tensorboard 사용해보기
tensorboard 사용하기 텐서 보드는 머신 러닝의 연산을 간단한 그래프로 보여주는 기능이다. 쥬피터와 같이 웹페이지에서 움직인다. 그리고 도커에서 사용하기 전에 docker run ~~~~ 할 때 옵션으로 -p 6006:6006을 추가해주어야 한다. import tensorflow as tf v = tf.Variable(0,tf.int32,name="v") a = tf.constant(30,name="a") b = tf.constant(60,name="b") k = tf.constant(70,name="k") add_mul_op = a*b+k sess = tf.Session() assign_op=tf.assign(v,add_mul_op) sess.run(assign_op) print(sess.run..
2018.05.08 -
텐서플로우로 머신러닝 하기(bmi 구하기)
텐서플로우로 머신러닝 하기 데이터 파일 위에 첨부된 데이터 파일을 사용하면 된다. import pandas as pd import tensorflow as tf import numpy as np #hot cool encoding label_zero = {"thin":[1,0,0],"normal":[0,1,0],"fat":[0,0,1]} csv = pd.read_csv("bmi.csv") #정규화 csv["label_pat"]= csv["label"].apply(lambda x :np.array(label_zero[x])) csv["weight"] = csv["weight"].map(lambda x: x/100) csv["height"] = csv["height"].map(lambda x:x/200) x ..
2018.05.08 -
데이터 검증하기-cross-validation, grid-search
데이터 검증하기 데이터를 검정하는 것은 입력 모델들이 타당한지 검사하는 것을 의미한다. 그중에서도 cross-validation,grid-search에 대해서 설명해보겠다. cross-validation 이것을 한국어로 교차 검증이라고도 하는데 입력될 데이터를 임의로 몇개 나누어서 몇개는 훈련 데이터 몇개는 테스트 데이터로 이용하는 것을 으미한다. 예를 들어 하나의 데이터를 A,B,C로 나눈다. A와 B를 입력데이터로 쓰고 C를 테스트 데이터로 쓴다. 그리고 B,C를 입력 데이터로 쓰고 A를 테스트 데이터로 쓴다. A,C를 입력 데이터로 쓰고 B를 테스트 데이터로 써서 최종적으로 세개의 결과를 종합하여 높은 정확도를 나타낸다. import pandas as pd from sklearn import met..
2018.04.25 -
randomForest 사용해보기
randomForest 사용하기 randomForest는 레오 브라이만이 제안한 딥러닝 알고리즘입니다. 주로 회귀와 클러스터링, 분류를 구현하는데 유용합니다. 구조는 데이터들이 입력되는데 데이터들을 무작위로 샘플링하여서 여러개의 의사결정 트리들이 만들어집니다. 각 트리마다 답을 산출하는데 산출한 답을 종합하여 결과를 내놓습니다. 여러개의 트리로 답을 산출하니깐 결과의 정확도가 높습니다. randomForest의 구조 버섯 예제1 버섯예제 데이터 import pandas as pd from sklearn.model_selection import train_test_split from sklearn.ensemble import RandomForestClassifier as forest from sklearn..
2018.04.25