๋ณธ๋ฌธ ๋ฐ”๋กœ๊ฐ€๊ธฐ
๋งˆ์ผ€ํŒ…/๋ฐ์ดํ„ฐ ๋ถ„์„

[ํŒŒ์ด์ฌ] ๋ฌธ์ž ๋ฐ์ดํ„ฐ ๊ฐ€๊ณตํ•˜๊ธฐ

by ํผํฌ๋งˆ์ฒผ๋ผ 2025. 3. 13.

 

๋Œ€์†Œ๋ฌธ์ž ์ฒ˜๋ฆฌํ•˜๊ธฐ

 

๊ธฐ๋ณธ ๋ฐ์ดํ„ฐ

๋‹จ์–ด๋“ค์ด ๋Œ€๋ฌธ์ž, ์†Œ๋ฌธ์ž ๋‹ค ์„ž์—ฌ ์žˆ๋‹ค.

 

str.lower()

๋ชจ๋‘ ์†Œ๋ฌธ์ž๋กœ ๋ฐ”๊ฟ”์ฃผ๊ธฐ

 

str.upper()

๋ชจ๋‘ ๋Œ€๋ฌธ์ž๋กœ ๋ฐ”๊ฟ”์ฃผ๊ธฐ

 

str.capitalize()

์•ž๊ธ€์ž๋งŒ ๋Œ€๋ฌธ์ž๋กœ ๋ฐ”๊ฟ”์ฃผ๊ธฐ

 

 

๋ฐ์ดํ„ฐ ํ”„๋ ˆ์ž„์— ์ ์šฉ

 


๋ฌธ์ž์—ด ๋ถ„๋ฆฌํ•˜๊ธฐ

 

๊ธฐ๋ณธ ๋ฐ์ดํ„ฐ

 

str.split('๊ตฌ๋ถ„์ ')

ํ•ด๋‹น ํ•จ์ˆ˜๋กœ ๋ฌธ์ž์—ด์„ ๋‚˜๋ˆ„์–ด์ค€๋‹ค.

 

๋‚˜๋ˆˆ ๋ฌธ์ž์—ด์˜ 0๋ฒˆ ์ธ๋ฑ์Šค ๊ฐ’์„ ๊ฐ€์ ธ์™€์„œ ์ƒˆ๋กœ์šด ์ปฌ๋Ÿผ์— ์ €์žฅํ•œ๋‹ค.

 

๋‚˜๋ˆˆ ๋ฌธ์ž์—ด์˜ 1๋ฒˆ ์ธ๋ฑ์Šค ๊ฐ’์„ ๊ฐ€์ ธ์™€์„œ ์ƒˆ๋กœ์šด ์ปฌ๋Ÿผ์— ์ €์žฅํ•œ๋‹ค.

 

์›๋ž˜ ๋‚˜๋ˆ„๊ธฐ ์ „ ๋ฌธ์ž์—ด ์ปฌ๋Ÿผ์„ ์‚ญ์ œํ•œ๋‹ค.

 


๋ถˆํ•„์š”ํ•œ ๋ฌธ์ž ์ œ๊ฑฐํ•˜๊ธฐ

 

์›ํ•˜๋Š” ๊ฐ’์ด ์•ˆ๋‚˜์˜จ๋‹ค.

 

unique()ํ•จ์ˆ˜๋กœ ํ™•์ธํ•ด๋ณด๋‹ˆ ์•ž์— ๊ณต๋ฐฑ๋„ ์žˆ๊ณ , ๋’ค์— .๋„ ์žˆ๋‹ค.

 

str.strip() 

์œ„ ํ•จ์ˆ˜๋ฅผ ์จ์„œ ๊ณต๋ฐฑ์„ ์—†์• ์ค€๋‹ค. ๊ทธ๋ฆฌ๊ณ  ์ €์žฅํ•ด์ค€๋‹ค.

 

str.replace('๊ธฐ์กด๊ฐ’', '๋ฐ”๊ฟ€ ๊ฐ’')

๋’ค์— ์ ์„ ์—†์• ์ฃผ๊ณ  ์ €์žฅํ•ด์ค€๋‹ค.

์ด๊ฑด ์—†์• ์ฃผ๋Š” ํ•จ์ˆ˜๋Š” ์•„๋‹ˆ๊ณ  ๋ฐ”๊ฟ”์ฃผ๋Š” ํ•จ์ˆ˜๋‹ค.

 

๊ฒฐ๊ณผ๋ฅผ ๋ณด๋ฉด ๊น”๋”ํ•ด์กŒ๋‹ค.

 

ํ•œ ๋ฒˆ์— ์ž‘์„ฑํ•˜๋Š” ๊ฒƒ๋„ ๊ฐ€๋Šฅ!

์ด๋•Œ .str์„ ๋นผ๋จน์ง€ ๋ง์ž.

 

 

์‹ค์Šต 1

import pandas as pd

cellphone_df = pd.read_csv('data/cellphone.csv')

# ์—ฌ๊ธฐ์— ์ฝ”๋“œ๋ฅผ ์ž‘์„ฑํ•˜์„ธ์š”.
cellphone_df['brand'] = cellphone_df['brand'].str.capitalize()

cellphone_df['model'] = cellphone_df['name'].str.split('(').str[0].str.strip()
cellphone_df['capacity'] = cellphone_df['name'].str.split('(').str[1].str.replace(')','',regex=True)
cellphone_df = cellphone_df.drop(columns = 'name')

cellphone_df['size'] = cellphone_df['size'].str.replace('"','')
cellphone_df['size'] = cellphone_df['size'].astype('float')

cellphone_df

 


์ฝ”๋“œ์ž‡ 15. ๋ฌธ์ž ๋ฐ์ดํ„ฐ ๊ฐ€๊ณตํ•˜๊ธฐ