분류 전체보기(50)
-
SVM(Support Vector Machine)
SVM이란 데이터 분류를 위해 마진(margin)이 최대가 되는 결정 경계선(decision boundary)를 찾아내는 머신러닝 방법입니다. SVM은 크게 5가지의 구성요소로 나누어 생각해 불 수 있습니다. 결정 경계선(Decision Boundary) 서포트 벡터(Support Vector) 마진(Margin) 비용(Cost) 커널 트릭(Kernel Trick) 1. 결정 경계선 : 서로 다른 분류 값을 결정하는 경계 2. Support Vector : 2차원 공간 상 데이터 포인트 3. Margin : Support Vector과 Decision Boundary간 사이 거리 ***마진을 최대로 하는 결정 경계선을 찾는 것이 중요하다 4. Cost :얼마나 많은 데이터 샘플이 다른 클래스에 놓이는 것..
2023.09.08 -
의사결정 트리
의사결정트리(Decision Tree): 어떤 항목에 대한 관측 값과 목표 값을 연결시켜주는 예측 모델로써 결정 트리를 사용하는 머신러닝 방법 ***직관적이고 효율적인 질문을 사용하여 트리의 효율을 높이는 것이 중요하다. ***영향력이 큰 특징을 상위 노드로, 영향력이 작은 특징은 하위 노드로 선택! ***의사결정 트리는 특징별 영향력이 크고 작음을 비교하기 위해 두 가지 방법 중 하나를 사용함 (이진선택) 의사결정트리는 수치데이터, 범주데이터 모두 사용 가능하고 정확도가 높은 편이지만 과대적합의 위험성이 높다. -> 여러 트리를 사용하는 앙상블기법을 보완하여 사용함
2023.09.08 -
뉴스 스크래핑하기
보호되어 있는 글입니다.
2023.08.29 -
request, wordcloud를 이용하여 txt 파일 정리하기
오늘은 비정형데이터 중 txt파일을 이용하여 wordcloud를 나타내었습니다! 정형데이터 위주로 공부를 하다보니 실제 텍스트&언어를 직접적으로 분석하는 방법이 궁금해서 시도해 보았는데 생각보다 많이 까다로웠습니다. 비정형데이터 분석의 장점과 단점(주관적인 의견입니다 :)은 아래 추가로 적어놓았습니다. 실행 과정 1. 저작권이 만료된 gutenberg에서 txt파일을 가져옵니다. import requests url = 'https://www.gutenberg.org/files/71496/71496-0.txt' res = requests.get(url) res.status_code 2. re library의 findall 메소드를 통해 txt파일에서 영단어만 추출하여 words에 저장합니다. (영어는 띄어..
2023.08.29 -
객체지향프로그래밍_추상화
추상화: 불필요한 세부 사항을 제거하고 가장 본질적이고 공통적인 부분만을 추출하여 객체의 공통속성, 기능을 추출하는 것 예시: def 함수설정 추상화를 잘 하기 위해서 1. 변수, 매소드, 클래스 이름을 잘 짓기 어디에 쓰이는 클래스인지 직관적으로 잘 알아볼 수 있는 이름을 짓는 것이 중요합니다. 2. docstring 하지만 변수, 매소드, 클래스 이름으로만 프로그래밍을 잘 파악하는 것은 무리가 습니다. 이때 사용되는 것이 docstring(문서화)입니다. 클래스가 어떤 목적으로 만들어졌는지, 변수는 어떤 데이터타입이고 어떤 값을 저장하는지, 메소드는 메소드 내에서 변수와 파라미터의 관계를 어떻게 정의하는지 문서화하여 저장하면 더욱 효율적으로 추상화 시킬 수 있습니다. """ 클래스A: A클래스는 ~한..
2023.08.28 -
中文正则表达式
新闻来源:英伟达市值一夜暴涨5000亿,黄仁勋坐稳AI铁王座 如果要调查中文新闻,怎么会用wordcloud? 与英文不同,提取中文文本需要新的正则表达式,就是 r'[a-zA-Z0-9가-힇ㄱ-ㅎㅏ-ㅣぁ-ゔァ-ヴー々〆〤一-龥]+'。 url = 'https://raw.githubusercontent.com/Revivekirin/dataset/Revivekirin/dataset/zhongwen.txt' res = requests.get(url) words2 = re.findall(r'[a-zA-Z0-9가-힇ㄱ-ㅎㅏ-ㅣぁ-ゔァ-ヴー々〆〤一-龥]+', res.text) print(words2[:50]) 输出: ['钛媒体注', '本文来源于微信公众号中国企业家杂志', 'ID', 'iceo', 'com', 'cn', '作者', '赵东山..
2023.08.27