MySQL大批量数据导入
目标
千万行的的 json 数据或者 CSV 快速导入 MYSQL 的场景。
解决方案
脚本代码
使用 php / python 或者你熟悉的语言,按行解析,插入。
tips:
- 一次解析多行,提交效率
- 分组插入,减少 MySQL 插入次数
- 注意内存
每次解析的行数和每次插入的行数按具体情况 ,主要考虑运行内存和MySQL的压力情况。
load data
对于 CSV 我们可以直接使用 SQL,可以直接运行,或者配合其他脚本使用。
LOAD DATA LOCAL INFILE '/xxx.csv'
INTO TABLE linkedin
FIELDS TERMINATED BY ',' LINES TERMINATED BY '\n' IGNORE 1 LINES
(@C1,@C2,@C3,@C4)
set company=@C1,
website=upper(@C2),
address=concat(@C3, "-",@C4),
imported_at=now(),
zip=if(now()<'1988-01-01','1','2');
LOAD DATA LOCAL INFILE '/puresai.json'
INTO TABLE oscome
FIELDS TERMINATED BY ',' LINES TERMINATED BY '\r\n';
mysqlimport
对于 CSV 我们可以直接使用
./mysqlimport -u root -p --local --delete --fields-terminated-by="," --lines-terminated-by="\r\n" --ignore-lines=1 --columns=company,website testdata '/puresai.csv'
MySQL Shell
mysqlsh mysql://root:[email protected]:3366 -- util import-table puresai.json "data_b*" data_d.tsv.zst --schema=mydb --table=twitter --osBucketName=mybucket
mysql-py> util.import_table(["./puresai.csv"],{"schema":"testdata","table":"test","dialect":"csv","columns":[1,2,3,4,5,6,7,8,9,10,11,12],"decodeColumns":{"company":"@1","website":"@2","url":"@3","address":"@4","zip":"@5",},"skipRows":1,"showProgress":True,"threads": 3});
mysql-py> util.import_table(["./puresai.json.gz"],{"schema":"testdata","table":"twitter","dialect":"json","columns":[1,2,3,4,5,6,7,8,9,10,11,12],"decodeColumns":{"id":"@1","name":"@2"},"skipRows":1,"showProgress":True,"threads": 3});
总结
对于 CSV 或者格式化文本使用 mysqlimport、load data 都是不错的选择,而脚本解析是最有普适性的,假如需要打印日志、进度或者字段变更,使用 php/python 等去解析更为灵活。
MySQL大批量数据导入
https://blog.puresai.com/2022/10/22/450/